Cómo personalizar el habla generada con etiquetas SSML

Wave.video utiliza la tecnología Polly de Amazon para generar pistas de audio a partir de texto. A veces, el resultado por defecto no es impecable, y puede que quieras afinar el discurso. ¡Aquí vienen las etiquetas SSML para ayudarte!

Cómo empezar a utilizar SSML en la conversión de texto a voz

Es muy fácil. Pon tu texto dentro de dos etiquetas <speak>:

<speak>¡Hola!</speak>

Tenga en cuenta que algunas etiquetas SSML no funcionan con voces neuronales, y viceversa. Asegúrate de que utilizas las correctas .

Cómo hacer una pausa

El TTS hace pausas automáticamente después de las comas, los finales de frase y los párrafos. La forma más sencilla de crear una pausa adicional es utilizar la etiqueta <break>. Está disponible tanto para voces normales como neurales.

Esta etiqueta tiene diferentes parámetros que definen cómo de fuerte será la pausa: débil, media, fuerte, x-fuerte. Además, puede especificar el tiempo exacto de la pausa con el parámetro time. Vea los ejemplos siguientes:

<speak> Oh, pereza, ven, ven a mí, <break strength="strong"/> sola. Te llama el suave frescor y el buen descanso <break time="0.8s"/> Sólo en ti veo a mi diosa propia </speak>.

Cómo cambiar el tono de la voz o hacerlo más alto/quieto

Puedes hacer que la voz suene más alta o más baja con la etiqueta <prosody>. Utiliza los valores silencioso, x-suave, suave, medio, alto, x-alto para cambiarlo:

<speak> Todo el mundo se pregunta <prosody volume="x-loud">¿De dónde viene el blues</prosody>? </speak>

¿Quieres controlar el volumen de forma más estricta? Sólo tienes que poner un valor en dB. Pruébalo:

<speak> Y todo <prosody volume="-5dB">se ve bien</prosody> esta noche </speak>

Nota: +6dB casi duplica el volumen, -6dB lo hace un 50% más silencioso.

El control de volumen es compatible tanto con el texto a voz normal como con el neural.

Acelerar o ralentizar el habla

¡La misma etiqueta <prosody> ayuda aquí! La velocidad se puede establecer con el atributo rate usando x-slow, slow, medium, fast, x-fast o percentage. Pruebe esto:

<speak> <prosody rate="x-slow">Camión rojo, camión amarillo.</prosody> <prosody rate="fast">Camión rojo, camión amarillo.</prosodia> <prosodia rate="200%">Camión rojo, camión amarillo.</prosodia> </speak>

Funciona tanto para voces neurales como normales.

Hacer hincapié

Para enfatizar una palabra, utiliza la etiqueta <emphasis> con el atributo level. Tiene 3 opciones, he aquí cómo funcionan:

Fuerte: Aumenta el volumen y ralentiza el ritmo del habla para que el discurso sea más alto y lento.
Moderado: Aumenta el volumen y ralentiza el ritmo del habla, pero menos que fuerte. Moderado es el valor predeterminado.
Reducido: Disminuye el volumen y acelera el ritmo del habla. El habla es más suave y rápida.

He aquí un ejemplo:

<speak> <emphasis level="reduced">Es ella</emphasis> quien <emphasis level="strong">se dará cuenta</emphasis> de que el primer boca de dragón de la primavera <emphasis level="moderate">está en flor</emphasis> </speak>.

Enfatizar no funciona con voces neuronales.

Discurso del presentador

¿Busca un discurso al estilo de un presentador? Lo tenemos.

<speak> <amazon:domain name="news"> De la edición del martes 16 de abril de 1912 del periódico The Guardian: El viaje inaugural del transatlántico Titanic de la White Star, el barco más grande jamás botado, ha terminado en desastre. El Titanic comenzó su viaje de Southampton a Nueva York el miércoles. El domingo por la noche chocó contra un iceberg frente a los Grandes Bancos de Terranova. Mediante telegrafía inalámbrica, envió señales de socorro, y varios transatlánticos estaban lo suficientemente cerca como para captar y responder a la llamada. </amazon:domain> </speak>

Sin embargo, este truco está disponible para algunas voces neuronales:

Voces de Matthew o Joanna (en-US)
Lupe (es-US)
Amy (en-GB)

¿Quieres hacer más con SSML?

Descubra todas las opciones de esta función en la documentación de Amazon Polly.