Cómo personalizar el discurso generado con etiquetas SSML

Wave.video utiliza la tecnología de Amazon Polly para generar pistas de audio a partir del texto. A veces, el resultado por defecto no es impecable, y es posible que quieras afinar el discurso. ¡Aquí vienen las etiquetas SSML para ayudarte!

Cómo empezar a utilizar SSML en su conversión de texto a voz

Es muy fácil. Pon tu texto dentro de dos etiquetas <speak>:

<speak>¡Hola!</speak>

Tenga en cuenta que algunas etiquetas SSML no funcionan con voces neurales, y viceversa. Asegúrese de que está utilizando las correctas aquí.

Cómo hacer una pausa

El TTS hace pausas automáticamente después de las comas, los finales de las frases y los párrafos. La forma más sencilla de crear una pausa adicional es utilizar la etiqueta <break>. Está disponible tanto para las voces normales como para las neurales.

Esta etiqueta tiene diferentes parámetros que definen lo fuerte que será la pausa: débil, media, fuerte, x-fuerte. Además, puede especificar el tiempo exacto de la pausa con el parámetro de tiempo. Vea los ejemplos siguientes:

<speak>
Oh, pereza, ven, ven a mí, <break strength="strong"/> sola.
Te llama el suave frescor y el buen descanso <break time="0.8s"/>
Sólo en ti veo a mi diosa propia
</speak>

Cómo cambiar el tono de la voz o hacerla más fuerte/quieto

Puedes hacer que la voz suene más fuerte o más tranquila con la etiqueta <prosody>. Utiliza los valores silent, x-soft, soft, medium, loud, x-loud para cambiarlo:

<speak>
Todo el mundo se pregunta <prosody volume="x-loud">¿De dónde viene el blues</prosody>?
</speak>

¿Quieres controlar el volumen de forma más estricta? Sólo tienes que poner un valor en dB. Pruébalo:

<speak>
Y todo <prosody volume="-5dB">se ve bien</prosody> esta noche
</speak>

Nota: +6dB casi duplica el volumen, -6dB lo hace un 50% más silencioso.

El control de volumen es soportado tanto por el texto a voz normal como por el neural.

Hacer el discurso más rápido o más lento

¡La misma etiqueta <prosody> ayuda aquí! La velocidad se puede establecer con el atributo rate usando x-slow, slow, medium, fast, x-fast o percentage. Pruebe esto:

<speak>
<prosody rate="x-slow">Camión rojo, camión amarillo.</prosody>
<prosody rate="fast">Camión rojo, camión amarillo.</prosody>
<prosody rate="200%">Camión rojo, camión amarillo.</prosody>
</speak>

Funciona tanto para las voces neurales como para las normales.

Hacer hincapié en

Para enfatizar una palabra, utiliza la etiqueta <emphasis> con el atributo level. Tiene 3 opciones, aquí se explica cómo funcionan:

Fuerte: Aumenta el volumen y ralentiza el ritmo de habla para que el discurso sea más alto y lento.
Moderado: Aumenta el volumen y ralentiza el ritmo de habla, pero menos que fuerte. Moderado es el valor predeterminado.
Reducido: Disminuye el volumen y acelera el ritmo del habla. El habla es más suave y rápida.

He aquí un ejemplo:

<speak>
<emphasis level="reduced">Ella es la que</emphasis>
que <emphasis level="strong">se dará cuenta</emphasis>
de que el primer dragón de la primavera <emphasis level="moderate">está en flor</emphasis>
</speak>

Enfatizar no funciona con las voces neuronales.

Discurso del locutor

¿Busca un discurso al estilo de los locutores? ¡Lo tenemos cubierto!

<speak>
<amazon:domain name="news">
De la edición del martes 16 de abril de 1912 del periódico The Guardian: El viaje inaugural del transatlántico White Star Titanic, el barco más grande jamás lanzado, ha terminado en desastre. El Titanic comenzó su viaje de Southampton a Nueva York el miércoles. A última hora de la noche del domingo, chocó con un iceberg frente a los Grandes Bancos de Terranova. Mediante telegrafía inalámbrica, envió señales de socorro, y varios transatlánticos estaban lo suficientemente cerca como para captar y responder a la llamada.
</amazon:domain>
</speak>

Sin embargo, este truco está disponible para algunas voces neurales:

Voces de Matthew o Joanna (en-US)
Lupe (es-US)
Amy (en-GB)

¿Quieres hacer más cosas con SSML?

Descubra todas las opciones de esta función en la documentación de Amazon Polly.