Como personalizar o discurso gerado com etiquetas SSML

Editado em

O Wave.video utiliza a tecnologia Amazon Polly para gerar faixas de áudio a partir de texto. Por vezes, o resultado predefinido não é perfeito e pode ser necessário afinar o discurso. Aqui estão as etiquetas SSML para o ajudar!

Como começar a utilizar SSML no seu Text-to-Speech

É fácil! Coloque o seu texto dentro de duas etiquetas <speak>:

<speak>Olá! </speak>

Tenha em atenção que algumas etiquetas SSML não funcionam com vozes neurais e vice-versa. Certifique-se de que está a utilizar as etiquetas corretas aqui.

Como fazer uma pausa

O TTS faz pausas automaticamente após vírgulas, finais de frases e parágrafos. A forma mais fácil de criar uma pausa adicional é utilizar a etiqueta <break>. Ela está disponível para vozes normais e neurais.

Esta etiqueta tem diferentes parâmetros que definem a intensidade da pausa: fraca, média, forte, x-forte. Além disso, pode especificar o tempo exato da pausa com o parâmetro time. Veja os exemplos abaixo:

<speak> Oh, preguiça, vem, vem a mim, <break strength="strong"/> sozinha. És chamada por uma frescura suave e um bom descanso <break time="0.8s"/> Só em ti vejo a minha deusa </speak>

Como alterar o tom da voz ou torná-la mais alta/mais grave

Pode tornar o som da voz mais alto ou mais baixo com a etiqueta <prosody>. Utilize os valores silent, x-soft, soft, medium, loud, x-loud para o alterar:

<speak> Toda a gente se pergunta <prosody volume="x-loud">de onde é que vieram os blues</prosody>? </speak>

Quer controlar o volume de uma forma mais rigorosa? Basta introduzir um valor em dB. Experimente:

<speak> E tudo <prosody volume="-5dB">parece bem</prosody> esta noite </speak>

Nota: +6dB quase duplica o volume, -6dB torna-o 50% mais silencioso.

O controlo do volume é suportado por Text-to-Speech normal e neural.

Tornar o discurso mais rápido ou mais lento

A mesma tag <prosody> ajuda aqui! A velocidade pode ser definida com o atributo rate usando x-slow, slow, medium, fast, x-fast ou percentage. Experimente isto:

<speak> <prosody rate="x-slow">Camião vermelho, camião amarelo.</prosody> <prosody rate="fast">Camião vermelho, camião amarelo.</prosódia> <prosody rate="200%">Camião vermelho, camião amarelo.</prosódia> </speak>

Funciona tanto para vozes neurais como para vozes normais.

Dar ênfase

Para dar ênfase a uma palavra, use a tag <emphasis> com o atributo level. Ela tem 3 opções, veja como elas funcionam:

  • Forte: Aumenta o volume e abranda o ritmo da fala, de modo a que o discurso seja mais alto e mais lento.

  • Moderado: Aumenta o volume e abranda o ritmo da fala, mas menos do que forte. Moderado é a predefinição.

  • Reduzido: Diminui o volume e acelera o ritmo da fala. O discurso é mais suave e mais rápido.

Eis um exemplo:

<speak> <emphasis level="reduced">Ela é aquela que <emphasis level="strong">perceberá</emphasis> que o primeiro snapdragon da primavera <emphasis level="moderate">está em flor</emphasis> </speak>

A ênfase não funciona com vozes neurais.

Discurso do apresentador

Procura um discurso ao estilo de um apresentador de televisão? Nós tratamos disso!

<speak> <amazon:domain name="news"> Da edição de terça-feira, 16 de abril de 1912, do jornal The Guardian: A viagem inaugural do transatlântico Titanic da White Star, o maior navio já lançado, terminou em desastre. O Titanic iniciou a sua viagem de Southampton para Nova Iorque na quarta-feira. No final da noite de domingo, embateu num icebergue ao largo dos Grand Banks da Terra Nova. Através de telegrafia sem fios, enviou sinais de socorro e vários navios estavam suficientemente próximos para captar e responder à chamada. </amazon:domain> </speak>

No entanto, este truque está disponível para algumas vozes neurais:

  • Vozes de Matthew ou Joanna (en-US)

  • Lupe (es-US)

  • Amy (en-GB)

Quer fazer mais com o SSML?

Descubra todas as opções desta funcionalidade na documentação do Amazon Polly.