Cómo personalizar el habla generada con etiquetas SSML
Wave.video utiliza la tecnología Polly de Amazon para generar pistas de audio a partir de texto. A veces, el resultado por defecto no es impecable, y puede que quieras afinar el discurso. ¡Aquí vienen las etiquetas SSML para ayudarte!
Cómo empezar a utilizar SSML en la conversión de texto a voz
Es muy fácil. Pon tu texto dentro de dos etiquetas <speak>:
<speak>¡Hola!</speak>
Tenga en cuenta que algunas etiquetas SSML no funcionan con voces neuronales, y viceversa. Asegúrate de que utilizas las correctas .
Cómo hacer una pausa
El TTS hace pausas automáticamente después de las comas, los finales de frase y los párrafos. La forma más sencilla de crear una pausa adicional es utilizar la etiqueta <break>
. Está disponible tanto para voces normales como neurales.
Esta etiqueta tiene diferentes parámetros que definen cómo de fuerte será la pausa: débil, media, fuerte, x-fuerte
. Además, puede especificar el tiempo exacto de la pausa con el parámetro time
. Vea los ejemplos siguientes:
<speak> Oh, pereza, ven, ven a mí, <break strength="strong"/> sola. Te llama el suave frescor y el buen descanso <break time="0.8s"/> Sólo en ti veo a mi diosa propia </speak>.
Cómo cambiar el tono de la voz o hacerlo más alto/quieto
Puedes hacer que la voz suene más alta o más baja con la etiqueta <prosody>. Utiliza los valores silencioso, x-suave, suave, medio, alto, x-alto
para cambiarlo:
<speak> Todo el mundo se pregunta <prosody volume="x-loud">¿De dónde viene el blues</prosody>? </speak>
¿Quieres controlar el volumen de forma más estricta? Sólo tienes que poner un valor en dB. Pruébalo:
<speak> Y todo <prosody volume="-5dB">se ve bien</prosody> esta noche </speak>
Nota: +6dB casi duplica el volumen, -6dB lo hace un 50% más silencioso.
El control de volumen es compatible tanto con el texto a voz normal como con el neural.
Acelerar o ralentizar el habla
¡La misma etiqueta <prosody>
ayuda aquí! La velocidad se puede establecer con el atributo rate
usando x-slow, slow, medium, fast, x-fast
o percentage. Pruebe esto:
<speak> <prosody rate="x-slow">Camión rojo, camión amarillo.</prosody> <prosody rate="fast">Camión rojo, camión amarillo.</prosodia> <prosodia rate="200%">Camión rojo, camión amarillo.</prosodia> </speak>
Funciona tanto para voces neurales como normales.
Hacer hincapié
Para enfatizar una palabra, utiliza la etiqueta <emphasis>
con el atributo level
. Tiene 3 opciones, he aquí cómo funcionan:
Fuerte
: Aumenta el volumen y ralentiza el ritmo del habla para que el discurso sea más alto y lento.Moderado
: Aumenta el volumen y ralentiza el ritmo del habla, pero menos que fuerte. Moderado es el valor predeterminado.Reducido
: Disminuye el volumen y acelera el ritmo del habla. El habla es más suave y rápida.
He aquí un ejemplo:
<speak> <emphasis level="reduced">Es ella</emphasis> quien <emphasis level="strong">se dará cuenta</emphasis> de que el primer boca de dragón de la primavera <emphasis level="moderate">está en flor</emphasis> </speak>.
Enfatizar no funciona con voces neuronales.
Discurso del presentador
¿Busca un discurso al estilo de un presentador? Lo tenemos.
<speak> <amazon:domain name="news"> De la edición del martes 16 de abril de 1912 del periódico The Guardian: El viaje inaugural del transatlántico Titanic de la White Star, el barco más grande jamás botado, ha terminado en desastre. El Titanic comenzó su viaje de Southampton a Nueva York el miércoles. El domingo por la noche chocó contra un iceberg frente a los Grandes Bancos de Terranova. Mediante telegrafía inalámbrica, envió señales de socorro, y varios transatlánticos estaban lo suficientemente cerca como para captar y responder a la llamada. </amazon:domain> </speak>
Sin embargo, este truco está disponible para algunas voces neuronales:
Voces de Matthew o Joanna (en-US)
Lupe (es-US)
Amy (en-GB)
¿Quieres hacer más con SSML?
Descubra todas las opciones de esta función en la documentación de Amazon Polly.