Come personalizzare il parlato generato con i tag SSML
Wave.video utilizza la tecnologia Amazon Polly per generare tracce audio dal testo. A volte, il risultato predefinito non è impeccabile e si potrebbe desiderare di sintonizzare il parlato. Ecco i tag SSML per aiutarvi!
Come iniziare a utilizzare SSML nel Text-to-Speech
È facile! Inserite il testo all'interno di due tag <speak>:
<speak>Ciao! </speak>
Si noti che alcuni tag SSML non funzionano con le voci neurali e viceversa. Assicuratevi di utilizzare quelli corretti .
Come fare una pausa
Il TTS crea automaticamente delle pause dopo le virgole, la fine delle frasi e i paragrafi. Il modo più semplice per creare una pausa aggiuntiva è utilizzare il tag <break>
. È disponibile sia per le voci normali che per quelle neurali.
Questo tag ha diversi parametri che definiscono la forza della pausa: debole, media, forte, x-forte
. Inoltre, è possibile specificare il tempo esatto della pausa con il parametro time
. Si vedano gli esempi seguenti:
<speak> Oh, pigrizia, vieni, vieni da me, <break strength="strong"/> da sola. Sei richiesta da un morbido refrigerio e da un buon riposo <break time="0.8s"/> Solo in te vedo la mia dea </speak>.
Come modificare l'intonazione della voce o renderla più forte/più grave
È possibile rendere il suono della voce più forte o più silenzioso con il tag <prosody>. Per modificarlo, utilizzare i valori silent, x-soft, soft, medium, loud, x-loud
:
<speak> Tutti si chiedono <prosody volume="x-loud">da dove viene il blues</prosody>? </speak>
Volete controllare il volume in modo più rigoroso? Basta inserire un valore in dB. Provate:
<speak> E tutto <prosody volume="-5dB">sembra buono</prosody> stasera </speak>
Nota: +6dB quasi raddoppiano il volume, -6dB lo rendono più silenzioso del 50%.
Il controllo del volume è supportato sia dal Text-to-Speech normale che da quello neurale.
Rendere il discorso più veloce o più lento
Lo stesso tag <prosody>
è utile in questo caso! La velocità può essere impostata con l'attributo rate
usando x-slow, slow, medium, fast, x-fast
o percentuale. Provate questo:
<speak> <prosody rate="x-slow">Camion rosso, camion giallo.</prosody> <prosody rate="fast">Camion rosso, camion giallo.</prosody> <prosody rate="200%">Camion rosso, camion giallo.</prosody> </speak>
Funziona sia per le voci neurali che per quelle normali.
Porre l'accento su
Per enfatizzare una parola, utilizzare il tag <emphasis>
con l'attributo level
. Ha 3 opzioni, ecco come funzionano:
Forte
: aumenta il volume e rallenta la velocità di parola, in modo che il discorso sia più forte e più lento.Moderato
: Aumenta il volume e rallenta la velocità di riproduzione, ma meno di quella forte. Moderato è l'impostazione predefinita.Ridotto
: Riduce il volume e accelera la velocità di parola. L'eloquio è più morbido e veloce.
Ecco un esempio:
<speak> <emphasis level="reduced">Lei è l'unica</emphasis> che <emphasis level="strong">si accorgerà</emphasis> che il primo raperonzolo della primavera <emphasis level="moderate">è in fiore</emphasis> </speak>
L'enfatizzazione non funziona con le voci neurali.
Discorso del giornalista
Siete alla ricerca di un discorso in stile giornalista? Ci pensiamo noi!
<speak> <amazon:domain name="news"> Dall'edizione di martedì 16 aprile 1912 del quotidiano The Guardian: Il viaggio inaugurale del transatlantico White Star Titanic, la nave più grande mai varata, è finito in un disastro. Il Titanic ha iniziato il suo viaggio da Southampton a New York mercoledì. Nella tarda serata di domenica ha urtato un iceberg al largo dei Grand Banks di Terranova. Con la telegrafia senza fili, ha inviato segnali di soccorso, e diverse navi di linea erano abbastanza vicine da poter cogliere e rispondere alla chiamata. </amazon:domain> </speak>
Tuttavia, questo trucco è disponibile per alcune voci neurali:
Voci di Matteo o Joanna (it-US)
Lupe (es-US)
Amy (en-GB)
Volete fare di più con SSML?
Scoprite tutte le opzioni di questa funzione nella documentazione di Amazon Polly.