Wave.video utiliza a tecnologia Amazon Polly para gerar faixas de áudio a partir de texto. Por vezes, o resultado por defeito não é impecável, e poderá querer afinar o discurso. Aí vêm as etiquetas SSML para a sua ajuda!
Como começar a usar SSML no seu Text-to-Speech
É fácil! Ponha o seu texto dentro de duas <speak>
tags:
<speak>Hello!</speak>
Note-se que algumas etiquetas SSML não funcionam com vozes neurais, e vice versa. Assegure-se de que está a usar as correctas aqui.
Como fazer uma pausa
O TTS faz automaticamente pausas após as vírgulas, finais das frases, e parágrafos. A maneira mais fácil de criar uma pausa adicional é usar a <quebrar>
tag. Está disponível tanto para vozes regulares como neuronais.
Esta etiqueta tem parâmetros diferentes que definem quão forte será a pausa: fraca, média, forte, x forte
. Também se pode especificar a hora exacta da pausa com o parâmetro de tempo
. Ver os exemplos abaixo:
<speak>
Oh, preguiça, vem, vem até mim, <break strength="strong"/> sozinho.
És chamado pela suavidade e bom descanso <tempo de pausa="0.8s"/>
Só em ti vejo a minha própria deusa
</speak>
Como mudar o tom da voz ou torná-la mais alta/quieta
Pode fazer a voz soar mais alta ou mais silenciosa com <prosody> tag. Utilizar valores silenciosos, x-macios, suaves, médios, altos, x-altos
para a alterar:
<speak>
Toda a gente se pergunta <volume da prosódia="x-loud"> de onde veio o blues</prosody>?
</speak>
Quer controlar o volume de uma forma mais rigorosa? Basta colocar um valor em dB. Experimente-o:
<speak>
E tudo <volume da prosódia="-5dB"> não tem nada de bom </prosódia> esta noite
</speak>
Nota: +6dB quase duplica o volume, -6dB torna-o 50% mais silencioso.
O controlo de volume é suportado tanto por um texto de texto normal como por um neural.
Fazer a fala mais depressa ou mais devagar
O mesmo <prosody>
tag ajuda aqui! A velocidade pode ser definida com o atributo de taxa
usando x-baixo, lento, médio, rápido, x-rápido
ou percentagem. Experimente isto:
<speak>
<prosody rate="x-slow">Camião vermelho, camião amarelo.</prosody>
<prosody rate="fast">Camião vermelho, camião amarelo.</prosody>
<prosody rate="200%">Camião vermelho, camião amarelo.</prosody>
</speak>
Funciona tanto para vozes neurais como para vozes regulares.
Dêem ênfase
Para enfatizar uma palavra, usar a <emfase>
tag com o atributo nível
. Tem 3 opções, aqui estão como estão a funcionar:
Forte
: Aumenta o volume e abranda a velocidade da fala para que o discurso seja mais alto e mais lento.Moderado
: Aumenta o volume e diminui a velocidade da fala, mas menos que forte. Moderado é o padrão.Reduzido
: Diminui o volume e acelera a velocidade da fala. A fala é mais suave e mais rápida.
Aqui está um exemplo:
<esfaak>
<nível de ênfase="reduzido">é ela a única</emfase>
que <nível de ênfase="forte">verá</emfase>
que o primeiro snapdragon da Primavera <nível de ênfase="moderado">é em flor</emfase>
</esfaak>
A enfatização não funciona com vozes neurais.
Discurso de jornalista
À procura de um discurso ao estilo de um jornalista? Temos isso controlado!
<speak>
<amazon:domain name="news">
A partir da terça-feira, 16 de Abril de 1912, edição do jornal The Guardian: A viagem inaugural do transatlântico White Star Titanic, o maior navio jamais lançado, terminou em desastre. O Titanic iniciou a sua viagem de Southampton para Nova Iorque na quarta-feira. No final da noite de domingo, ela bateu num iceberg ao largo dos Grand Banks de Newfoundland. Por telegrafia sem fios, ela enviou sinais de angústia, e vários transatlânticos estavam suficientemente perto para apanhar e responder à chamada.
</amazon:domain>
</speak>
No entanto, este truque está disponível para algumas vozes neurais:
Vozes de Mateus ou Joana (en-US)
Lupe (es-US)
Amy (pt-GB)
Quer fazer mais com SSML?
Descubra todas as opções desta funcionalidade na documentação da Amazon Polly.