Wave.video utiliza a tecnologia Amazon Polly para gerar faixas de áudio a partir de texto. Por vezes, o resultado por defeito não é impecável, e poderá querer afinar o discurso. Aí vêm as etiquetas SSML para a sua ajuda!

Como começar a usar SSML no seu Text-to-Speech

É fácil! Ponha o seu texto dentro de duas <speak> tags:

<speak>Hello!</speak>

Note-se que algumas etiquetas SSML não funcionam com vozes neurais, e vice versa. Assegure-se de que está a usar as correctas aqui.

Como fazer uma pausa

O TTS faz automaticamente pausas após as vírgulas, finais das frases, e parágrafos. A maneira mais fácil de criar uma pausa adicional é usar a <quebrar> tag. Está disponível tanto para vozes regulares como neuronais.

Esta etiqueta tem parâmetros diferentes que definem quão forte será a pausa: fraca, média, forte, x forte. Também se pode especificar a hora exacta da pausa com o parâmetro de tempo. Ver os exemplos abaixo:

<speak>
Oh, preguiça, vem, vem até mim, <break strength="strong"/> sozinho.
És chamado pela suavidade e bom descanso <tempo de pausa="0.8s"/>
Só em ti vejo a minha própria deusa
</speak>

Como mudar o tom da voz ou torná-la mais alta/quieta

Pode fazer a voz soar mais alta ou mais silenciosa com <prosody> tag. Utilizar valores silenciosos, x-macios, suaves, médios, altos, x-altos para a alterar:

<speak>
Toda a gente se pergunta <volume da prosódia="x-loud"> de onde veio o blues</prosody>?
</speak>

Quer controlar o volume de uma forma mais rigorosa? Basta colocar um valor em dB. Experimente-o:

<speak>
E tudo <volume da prosódia="-5dB"> não tem nada de bom </prosódia> esta noite
</speak>

Nota: +6dB quase duplica o volume, -6dB torna-o 50% mais silencioso.

O controlo de volume é suportado tanto por um texto de texto normal como por um neural.

Fazer a fala mais depressa ou mais devagar

O mesmo <prosody> tag ajuda aqui! A velocidade pode ser definida com o atributo de taxa usando x-baixo, lento, médio, rápido, x-rápido ou percentagem. Experimente isto:

<speak>
<prosody rate="x-slow">Camião vermelho, camião amarelo.</prosody>
<prosody rate="fast">Camião vermelho, camião amarelo.</prosody>
<prosody rate="200%">Camião vermelho, camião amarelo.</prosody>
</speak>

Funciona tanto para vozes neurais como para vozes regulares.

Dêem ênfase

Para enfatizar uma palavra, usar a <emfase> tag com o atributo nível. Tem 3 opções, aqui estão como estão a funcionar:

  • Forte: Aumenta o volume e abranda a velocidade da fala para que o discurso seja mais alto e mais lento.

  • Moderado: Aumenta o volume e diminui a velocidade da fala, mas menos que forte. Moderado é o padrão.

  • Reduzido: Diminui o volume e acelera a velocidade da fala. A fala é mais suave e mais rápida.

Aqui está um exemplo:

<esfaak>
<nível de ênfase="reduzido">é ela a única</emfase>
que <nível de ênfase="forte">verá</emfase>
que o primeiro snapdragon da Primavera <nível de ênfase="moderado">é em flor</emfase>
</esfaak>

A enfatização não funciona com vozes neurais.

Discurso de jornalista

À procura de um discurso ao estilo de um jornalista? Temos isso controlado!

<speak>
<amazon:domain name="news">
A partir da terça-feira, 16 de Abril de 1912, edição do jornal The Guardian: A viagem inaugural do transatlântico White Star Titanic, o maior navio jamais lançado, terminou em desastre. O Titanic iniciou a sua viagem de Southampton para Nova Iorque na quarta-feira. No final da noite de domingo, ela bateu num iceberg ao largo dos Grand Banks de Newfoundland. Por telegrafia sem fios, ela enviou sinais de angústia, e vários transatlânticos estavam suficientemente perto para apanhar e responder à chamada.
</amazon:domain>
</speak>

No entanto, este truque está disponível para algumas vozes neurais:

  • Vozes de Mateus ou Joana (en-US)

  • Lupe (es-US)

  • Amy (pt-GB)

Quer fazer mais com SSML?

Descubra todas as opções desta funcionalidade na documentação da Amazon Polly.

Isto respondeu à sua pergunta?