Come personalizzare il parlato generato con i tag SSML

Wave.video utilizza la tecnologia Amazon Polly per generare tracce audio dal testo. A volte, il risultato predefinito non è impeccabile e si potrebbe desiderare di sintonizzare il parlato. Ecco i tag SSML per aiutarvi!

Come iniziare a utilizzare SSML nel Text-to-Speech

È facile! Inserite il testo all'interno di due tag <speak>:

<speak>Ciao! </speak>

Si noti che alcuni tag SSML non funzionano con le voci neurali e viceversa. Assicuratevi di utilizzare quelli corretti .

Come fare una pausa

Il TTS crea automaticamente delle pause dopo le virgole, la fine delle frasi e i paragrafi. Il modo più semplice per creare una pausa aggiuntiva è utilizzare il tag <break>. È disponibile sia per le voci normali che per quelle neurali.

Questo tag ha diversi parametri che definiscono la forza della pausa: debole, media, forte, x-forte. Inoltre, è possibile specificare il tempo esatto della pausa con il parametro time. Si vedano gli esempi seguenti:

<speak> Oh, pigrizia, vieni, vieni da me, <break strength="strong"/> da sola. Sei richiesta da un morbido refrigerio e da un buon riposo <break time="0.8s"/> Solo in te vedo la mia dea </speak>.

Come modificare l'intonazione della voce o renderla più forte/più grave

È possibile rendere il suono della voce più forte o più silenzioso con il tag <prosody>. Per modificarlo, utilizzare i valori silent, x-soft, soft, medium, loud, x-loud:

<speak> Tutti si chiedono <prosody volume="x-loud">da dove viene il blues</prosody>? </speak>

Volete controllare il volume in modo più rigoroso? Basta inserire un valore in dB. Provate:

<speak> E tutto <prosody volume="-5dB">sembra buono</prosody> stasera </speak>

Nota: +6dB quasi raddoppiano il volume, -6dB lo rendono più silenzioso del 50%.

Il controllo del volume è supportato sia dal Text-to-Speech normale che da quello neurale.

Rendere il discorso più veloce o più lento

Lo stesso tag <prosody> è utile in questo caso! La velocità può essere impostata con l'attributo rate usando x-slow, slow, medium, fast, x-fast o percentuale. Provate questo:

<speak> <prosody rate="x-slow">Camion rosso, camion giallo.</prosody> <prosody rate="fast">Camion rosso, camion giallo.</prosody> <prosody rate="200%">Camion rosso, camion giallo.</prosody> </speak>

Funziona sia per le voci neurali che per quelle normali.

Porre l'accento su

Per enfatizzare una parola, utilizzare il tag <emphasis> con l'attributo level. Ha 3 opzioni, ecco come funzionano:

Forte: aumenta il volume e rallenta la velocità di parola, in modo che il discorso sia più forte e più lento.
Moderato: Aumenta il volume e rallenta la velocità di riproduzione, ma meno di quella forte. Moderato è l'impostazione predefinita.
Ridotto: Riduce il volume e accelera la velocità di parola. L'eloquio è più morbido e veloce.

Ecco un esempio:

<speak> <emphasis level="reduced">Lei è l'unica</emphasis> che <emphasis level="strong">si accorgerà</emphasis> che il primo raperonzolo della primavera <emphasis level="moderate">è in fiore</emphasis> </speak>

L'enfatizzazione non funziona con le voci neurali.

Discorso del giornalista

Siete alla ricerca di un discorso in stile giornalista? Ci pensiamo noi!

<speak> <amazon:domain name="news"> Dall'edizione di martedì 16 aprile 1912 del quotidiano The Guardian: Il viaggio inaugurale del transatlantico White Star Titanic, la nave più grande mai varata, è finito in un disastro. Il Titanic ha iniziato il suo viaggio da Southampton a New York mercoledì. Nella tarda serata di domenica ha urtato un iceberg al largo dei Grand Banks di Terranova. Con la telegrafia senza fili, ha inviato segnali di soccorso, e diverse navi di linea erano abbastanza vicine da poter cogliere e rispondere alla chiamata. </amazon:domain> </speak>

Tuttavia, questo trucco è disponibile per alcune voci neurali:

Voci di Matteo o Joanna (it-US)
Lupe (es-US)
Amy (en-GB)

Volete fare di più con SSML?

Scoprite tutte le opzioni di questa funzione nella documentazione di Amazon Polly.