Wave.video utilizza la tecnologia Amazon Polly per generare tracce audio dal testo. A volte, il risultato predefinito non è impeccabile e si potrebbe desiderare di sintonizzare il parlato. Ecco i tag SSML per aiutarvi!

Come iniziare a usare SSML nel Text-to-Speech

È facile! Inserite il testo all'interno di due tag <speak>:

<speak>Ciao! </speak>

Si noti che alcuni tag SSML non funzionano con le voci neurali e viceversa. Assicuratevi di usare quelli corretti .

Come fare una pausa

Il TTS crea automaticamente delle pause dopo le virgole, la fine delle frasi e i paragrafi. Il modo più semplice per creare una pausa aggiuntiva è utilizzare il tag <break>. È disponibile sia per le voci normali che per quelle neurali.

Questo tag ha diversi parametri che definiscono la forza della pausa: debole, media, forte, x-forte. Inoltre, è possibile specificare il tempo esatto della pausa con il parametro time. Si vedano gli esempi seguenti:

<speak>
Oh, pigrizia, vieni, vieni da me, <break strength="strong"/> da sola.
Ti chiamano il dolce refrigerio e il buon riposo <break time="0.8s"/>
Solo in te vedo la mia dea
</speak>

Come modificare l'intonazione della voce o renderla più forte/più grave

È possibile rendere il suono della voce più forte o più silenzioso con il tag <prosody>. Per modificarlo, utilizzare i valori silent, x-soft, soft, medium, loud, x-loud:

<speak>
Tutti si chiedono <prosody volume="x-loud">da dove viene il blues</prosody>?
</speak>

Volete controllare il volume in modo più rigoroso? Basta inserire un valore in dB. Provate:

<speak>
E tutto <prosody volume="-5dB">sembra buono</prosody> stasera
</speak>

Nota: +6dB quasi raddoppiano il volume, -6dB lo rendono più silenzioso del 50%.

Il controllo del volume è supportato sia dal Text-to-Speech normale che da quello neurale.

Rendere il discorso più veloce o più lento

Lo stesso tag <prosody> è utile in questo caso! La velocità può essere impostata con l'attributo rate usando x-slow, slow, medium, fast, x-fast o percentuale. Provate questo:

<speak>
<prosody rate="x-slow">Camion rosso, camion giallo.</prosody>
<prosody rate="fast">Camion rosso, camion giallo.</prosody>
<prosody rate="200%">Camion rosso, camion giallo.</prosody>
</speak>

Funziona sia per le voci neurali che per quelle normali.

Porre l'accento su

Per enfatizzare una parola, utilizzare il tag <emphasis> con l'attributo level. Ha 3 opzioni, ecco come funzionano:

  • Forte: aumenta il volume e rallenta la velocità di parola, in modo che il discorso sia più forte e più lento.

  • Moderato: Aumenta il volume e rallenta la velocità di riproduzione, ma meno di quella forte. Moderato è l'impostazione predefinita.

  • Ridotto: Riduce il volume e accelera la velocità di parola. L'eloquio è più morbido e veloce.

Ecco un esempio:

<speak>
<emphasis level="reduced">Lei è l'unica</emphasis>
che <emphasis level="strong">si accorgerà</emphasis>
che il primo raperonzolo della primavera <emphasis level="moderate">è in fiore</emphasis>
</speak>

L'enfatizzazione non funziona con le voci neurali.

Discorso del giornalista

Siete alla ricerca di un discorso in stile giornalista? Ci pensiamo noi!

<speak>
<amazon:domain name="news">
Dall'edizione di martedì 16 aprile 1912 del quotidiano The Guardian: Il viaggio inaugurale del transatlantico White Star Titanic, la nave più grande mai varata, è finito in un disastro. Il Titanic ha iniziato il suo viaggio da Southampton a New York mercoledì. Nella tarda serata di domenica ha urtato un iceberg al largo dei Grand Banks di Terranova. Con la telegrafia senza fili, ha inviato segnali di soccorso, e diverse navi di linea erano abbastanza vicine da poter cogliere e rispondere alla chiamata.
</amazon:domain>
</speak>

Tuttavia, questo trucco è disponibile per alcune voci neurali:

  • Voci di Matteo o Joanna (it-US)

  • Lupe (es-US)

  • Amy (en-GB)

Volete fare di più con SSML?

Scoprite tutte le opzioni di questa funzione nella documentazione di Amazon Polly.

Questo ha risposto alla sua domanda?