Wave.video utiliza la tecnología de Amazon Polly para generar pistas de audio a partir del texto. A veces, el resultado por defecto no es impecable, y es posible que quieras afinar el discurso. ¡Aquí vienen las etiquetas SSML para ayudarte!
Cómo empezar a utilizar SSML en su conversión de texto a voz
Es muy fácil. Pon tu texto dentro de dos etiquetas <speak>:
<speak>¡Hola!</speak>
Tenga en cuenta que algunas etiquetas SSML no funcionan con voces neurales, y viceversa. Asegúrese de que está utilizando las correctas aquí.
Cómo hacer una pausa
El TTS hace pausas automáticamente después de las comas, los finales de las frases y los párrafos. La forma más sencilla de crear una pausa adicional es utilizar la etiqueta <break>
. Está disponible tanto para las voces normales como para las neurales.
Esta etiqueta tiene diferentes parámetros que definen lo fuerte que será la pausa: débil, media, fuerte, x-fuerte
. Además, puede especificar el tiempo exacto de la pausa con el parámetro de tiempo
. Vea los ejemplos siguientes:
<speak>
Oh, pereza, ven, ven a mí, <break strength="strong"/> sola.
Te llama el suave frescor y el buen descanso <break time="0.8s"/>
Sólo en ti veo a mi diosa propia
</speak>
Cómo cambiar el tono de la voz o hacerla más fuerte/quieto
Puedes hacer que la voz suene más fuerte o más tranquila con la etiqueta <prosody>. Utiliza los valores silent, x-soft, soft, medium, loud, x-loud
para cambiarlo:
<speak>
Todo el mundo se pregunta <prosody volume="x-loud">¿De dónde viene el blues</prosody>?
</speak>
¿Quieres controlar el volumen de forma más estricta? Sólo tienes que poner un valor en dB. Pruébalo:
<speak>
Y todo <prosody volume="-5dB">se ve bien</prosody> esta noche
</speak>
Nota: +6dB casi duplica el volumen, -6dB lo hace un 50% más silencioso.
El control de volumen es soportado tanto por el texto a voz normal como por el neural.
Hacer el discurso más rápido o más lento
¡La misma etiqueta <prosody>
ayuda aquí! La velocidad se puede establecer con el atributo rate
usando x-slow, slow, medium, fast, x-fast
o percentage. Pruebe esto:
<speak>
<prosody rate="x-slow">Camión rojo, camión amarillo.</prosody>
<prosody rate="fast">Camión rojo, camión amarillo.</prosody>
<prosody rate="200%">Camión rojo, camión amarillo.</prosody>
</speak>
Funciona tanto para las voces neurales como para las normales.
Hacer hincapié en
Para enfatizar una palabra, utiliza la etiqueta <emphasis>
con el atributo level
. Tiene 3 opciones, aquí se explica cómo funcionan:
Fuerte
: Aumenta el volumen y ralentiza el ritmo de habla para que el discurso sea más alto y lento.Moderado
: Aumenta el volumen y ralentiza el ritmo de habla, pero menos que fuerte. Moderado es el valor predeterminado.Reducido
: Disminuye el volumen y acelera el ritmo del habla. El habla es más suave y rápida.
He aquí un ejemplo:
<speak>
<emphasis level="reduced">Ella es la que</emphasis>
que <emphasis level="strong">se dará cuenta</emphasis>
de que el primer dragón de la primavera <emphasis level="moderate">está en flor</emphasis>
</speak>
Enfatizar no funciona con las voces neuronales.
Discurso del locutor
¿Busca un discurso al estilo de los locutores? ¡Lo tenemos cubierto!
<speak>
<amazon:domain name="news">
De la edición del martes 16 de abril de 1912 del periódico The Guardian: El viaje inaugural del transatlántico White Star Titanic, el barco más grande jamás lanzado, ha terminado en desastre. El Titanic comenzó su viaje de Southampton a Nueva York el miércoles. A última hora de la noche del domingo, chocó con un iceberg frente a los Grandes Bancos de Terranova. Mediante telegrafía inalámbrica, envió señales de socorro, y varios transatlánticos estaban lo suficientemente cerca como para captar y responder a la llamada.
</amazon:domain>
</speak>
Sin embargo, este truco está disponible para algunas voces neurales:
Voces de Matthew o Joanna (en-US)
Lupe (es-US)
Amy (en-GB)
¿Quieres hacer más cosas con SSML?
Descubra todas las opciones de esta función en la documentación de Amazon Polly.