Como personalizar o discurso gerado com etiquetas SSML
O Wave.video utiliza a tecnologia Amazon Polly para gerar faixas de áudio a partir de texto. Por vezes, o resultado predefinido não é perfeito e pode ser necessário afinar o discurso. Aqui estão as etiquetas SSML para o ajudar!
Como começar a utilizar SSML no seu Text-to-Speech
É fácil! Coloque o seu texto dentro de duas etiquetas <speak>:
<speak>Olá! </speak>
Tenha em atenção que algumas etiquetas SSML não funcionam com vozes neurais e vice-versa. Certifique-se de que está a utilizar as etiquetas corretas aqui.
Como fazer uma pausa
O TTS faz pausas automaticamente após vírgulas, finais de frases e parágrafos. A forma mais fácil de criar uma pausa adicional é utilizar a etiqueta <break>
. Ela está disponível para vozes normais e neurais.
Esta etiqueta tem diferentes parâmetros que definem a intensidade da pausa: fraca, média, forte, x-forte
. Além disso, pode especificar o tempo exato da pausa com o parâmetro time
. Veja os exemplos abaixo:
<speak> Oh, preguiça, vem, vem a mim, <break strength="strong"/> sozinha. És chamada por uma frescura suave e um bom descanso <break time="0.8s"/> Só em ti vejo a minha deusa </speak>
Como alterar o tom da voz ou torná-la mais alta/mais grave
Pode tornar o som da voz mais alto ou mais baixo com a etiqueta <prosody>. Utilize os valores silent, x-soft, soft, medium, loud, x-loud
para o alterar:
<speak> Toda a gente se pergunta <prosody volume="x-loud">de onde é que vieram os blues</prosody>? </speak>
Quer controlar o volume de uma forma mais rigorosa? Basta introduzir um valor em dB. Experimente:
<speak> E tudo <prosody volume="-5dB">parece bem</prosody> esta noite </speak>
Nota: +6dB quase duplica o volume, -6dB torna-o 50% mais silencioso.
O controlo do volume é suportado por Text-to-Speech normal e neural.
Tornar o discurso mais rápido ou mais lento
A mesma tag <prosody>
ajuda aqui! A velocidade pode ser definida com o atributo rate
usando x-slow, slow, medium, fast, x-fast
ou percentage. Experimente isto:
<speak> <prosody rate="x-slow">Camião vermelho, camião amarelo.</prosody> <prosody rate="fast">Camião vermelho, camião amarelo.</prosódia> <prosody rate="200%">Camião vermelho, camião amarelo.</prosódia> </speak>
Funciona tanto para vozes neurais como para vozes normais.
Dar ênfase
Para dar ênfase a uma palavra, use a tag <emphasis>
com o atributo level
. Ela tem 3 opções, veja como elas funcionam:
Forte
: Aumenta o volume e abranda o ritmo da fala, de modo a que o discurso seja mais alto e mais lento.Moderado
: Aumenta o volume e abranda o ritmo da fala, mas menos do que forte. Moderado é a predefinição.Reduzido
: Diminui o volume e acelera o ritmo da fala. O discurso é mais suave e mais rápido.
Eis um exemplo:
<speak> <emphasis level="reduced">Ela é aquela que <emphasis level="strong">perceberá</emphasis> que o primeiro snapdragon da primavera <emphasis level="moderate">está em flor</emphasis> </speak>
A ênfase não funciona com vozes neurais.
Discurso do apresentador
Procura um discurso ao estilo de um apresentador de televisão? Nós tratamos disso!
<speak> <amazon:domain name="news"> Da edição de terça-feira, 16 de abril de 1912, do jornal The Guardian: A viagem inaugural do transatlântico Titanic da White Star, o maior navio já lançado, terminou em desastre. O Titanic iniciou a sua viagem de Southampton para Nova Iorque na quarta-feira. No final da noite de domingo, embateu num icebergue ao largo dos Grand Banks da Terra Nova. Através de telegrafia sem fios, enviou sinais de socorro e vários navios estavam suficientemente próximos para captar e responder à chamada. </amazon:domain> </speak>
No entanto, este truque está disponível para algumas vozes neurais:
Vozes de Matthew ou Joanna (en-US)
Lupe (es-US)
Amy (en-GB)
Quer fazer mais com o SSML?
Descubra todas as opções desta funcionalidade na documentação do Amazon Polly.