Wave.video utilizza la tecnologia Amazon Polly per generare tracce audio dal testo. A volte, il risultato predefinito non è impeccabile e si potrebbe desiderare di sintonizzare il parlato. Ecco i tag SSML per aiutarvi!
Come iniziare a usare SSML nel Text-to-Speech
È facile! Inserite il testo all'interno di due tag <speak>:
<speak>Ciao! </speak>
Si noti che alcuni tag SSML non funzionano con le voci neurali e viceversa. Assicuratevi di usare quelli corretti .
Come fare una pausa
Il TTS crea automaticamente delle pause dopo le virgole, la fine delle frasi e i paragrafi. Il modo più semplice per creare una pausa aggiuntiva è utilizzare il tag <break>
. È disponibile sia per le voci normali che per quelle neurali.
Questo tag ha diversi parametri che definiscono la forza della pausa: debole, media, forte, x-forte
. Inoltre, è possibile specificare il tempo esatto della pausa con il parametro time
. Si vedano gli esempi seguenti:
<speak>
Oh, pigrizia, vieni, vieni da me, <break strength="strong"/> da sola.
Ti chiamano il dolce refrigerio e il buon riposo <break time="0.8s"/>
Solo in te vedo la mia dea
</speak>
Come modificare l'intonazione della voce o renderla più forte/più grave
È possibile rendere il suono della voce più forte o più silenzioso con il tag <prosody>. Per modificarlo, utilizzare i valori silent, x-soft, soft, medium, loud, x-loud
:
<speak>
Tutti si chiedono <prosody volume="x-loud">da dove viene il blues</prosody>?
</speak>
Volete controllare il volume in modo più rigoroso? Basta inserire un valore in dB. Provate:
<speak>
E tutto <prosody volume="-5dB">sembra buono</prosody> stasera
</speak>
Nota: +6dB quasi raddoppiano il volume, -6dB lo rendono più silenzioso del 50%.
Il controllo del volume è supportato sia dal Text-to-Speech normale che da quello neurale.
Rendere il discorso più veloce o più lento
Lo stesso tag <prosody>
è utile in questo caso! La velocità può essere impostata con l'attributo rate
usando x-slow, slow, medium, fast, x-fast
o percentuale. Provate questo:
<speak>
<prosody rate="x-slow">Camion rosso, camion giallo.</prosody>
<prosody rate="fast">Camion rosso, camion giallo.</prosody>
<prosody rate="200%">Camion rosso, camion giallo.</prosody>
</speak>
Funziona sia per le voci neurali che per quelle normali.
Porre l'accento su
Per enfatizzare una parola, utilizzare il tag <emphasis>
con l'attributo level
. Ha 3 opzioni, ecco come funzionano:
Forte
: aumenta il volume e rallenta la velocità di parola, in modo che il discorso sia più forte e più lento.Moderato
: Aumenta il volume e rallenta la velocità di riproduzione, ma meno di quella forte. Moderato è l'impostazione predefinita.Ridotto
: Riduce il volume e accelera la velocità di parola. L'eloquio è più morbido e veloce.
Ecco un esempio:
<speak>
<emphasis level="reduced">Lei è l'unica</emphasis>
che <emphasis level="strong">si accorgerà</emphasis>
che il primo raperonzolo della primavera <emphasis level="moderate">è in fiore</emphasis>
</speak>
L'enfatizzazione non funziona con le voci neurali.
Discorso del giornalista
Siete alla ricerca di un discorso in stile giornalista? Ci pensiamo noi!
<speak>
<amazon:domain name="news">
Dall'edizione di martedì 16 aprile 1912 del quotidiano The Guardian: Il viaggio inaugurale del transatlantico White Star Titanic, la nave più grande mai varata, è finito in un disastro. Il Titanic ha iniziato il suo viaggio da Southampton a New York mercoledì. Nella tarda serata di domenica ha urtato un iceberg al largo dei Grand Banks di Terranova. Con la telegrafia senza fili, ha inviato segnali di soccorso, e diverse navi di linea erano abbastanza vicine da poter cogliere e rispondere alla chiamata.
</amazon:domain>
</speak>
Tuttavia, questo trucco è disponibile per alcune voci neurali:
Voci di Matteo o Joanna (it-US)
Lupe (es-US)
Amy (en-GB)
Volete fare di più con SSML?
Scoprite tutte le opzioni di questa funzione nella documentazione di Amazon Polly.