Hoe gegenereerde spraak aanpassen met SSML-tags

Bewerkt

Wave.video maakt gebruik van Amazon Polly-technologie om audiotracks van tekst te genereren. Soms is het standaardresultaat niet perfect en wil je de spraak aanpassen. Hier zijn de SSML tags voor je hulp!

Hoe gebruik je SSML in je tekst-naar-spraak programma?

Het is heel eenvoudig! Zet je tekst in twee <speak> tags:

<speak>Hallo! </speak>

Houd er rekening mee dat sommige SSML-tags niet werken met neural voices, en omgekeerd. Zorg ervoor dat je de juiste gebruikt.

Hoe maak je een pauze

TTS maakt automatisch pauzes na komma's, het einde van zinnen en alinea's. De eenvoudigste manier om een extra pauze te maken is door de code <break> te gebruiken. Deze is beschikbaar voor zowel normale als neurale stemmen.

Deze tag heeft verschillende parameters die bepalen hoe sterk de pauze zal zijn: zwak, medium, sterk, x-sterk. Je kunt ook de exacte tijd van de pauze opgeven met de parameter time. Zie de voorbeelden hieronder:

<speak> Oh, luiheid, kom, kom naar mij, <break strength="strong"/> alleen. Je bent geroepen door zachte koelte en goede rust <break time="0.8s"/> Alleen in jou zie ik mijn godin eigen </speak>

Hoe de toonhoogte van de stem veranderen of de stem luider/sneller maken

Je kunt de stem harder of zachter laten klinken met de tag <prosody>. Gebruik de waarden silent, x-soft, soft, medium, loud, x-loud om het te veranderen:

<speak>Iedereen vraagt zich af <prosody volume="x-loud">waar komt de blues vandaan? </speak>

Wil je het volume op een striktere manier regelen? Voer dan een waarde in dB in. Probeer het eens:

<speak> En alles <prosody volume="-5dB">ziet er goed uit</prosody> vanavond </speak>

Opmerking: +6dB verdubbelt het volume bijna, -6dB maakt het 50% stiller.

Volumeregeling wordt ondersteund door zowel gewone als neurale Text-to-Speech.

Sneller of langzamer spreken

Dezelfde <prosody> tag helpt hier! Snelheid kan worden ingesteld met het rate attribuut met x-slow, slow, medium, fast, x-fast of percentage. Probeer dit eens:

<speak> <prosody rate="x-slow">Rode vrachtwagen, gele vrachtwagen.</prosody> <prosody rate="fast">Rode vrachtwagen, gele vrachtwagen.</prosody> <prosody rate="200%">Rode vrachtwagen, gele vrachtwagen.</prosody> </speak>

Werkt zowel voor neurale als gewone stemmen.

Leg de nadruk

Om een woord te benadrukken, gebruik je de tag <emphasis> met het attribuut level. Het heeft 3 opties, hier zie je hoe ze werken:

  • Sterk: Verhoogt het volume en vertraagt de spreeksnelheid, zodat er harder en langzamer wordt gesproken.

  • Matig: Verhoogt het volume en vertraagt de spreeksnelheid, maar minder dan sterk. Matig is de standaardinstelling.

  • Verminderd: Verlaagt het volume en versnelt de spreeksnelheid. De spraak is zachter en sneller.

Hier is een voorbeeld:

<speak> <emphasis level="reduced">Zij is degene</emphasis> die <emphasis level="strong">zal opmerken</emphasis> dat de eerste leeuwenbek van de lente <emphasis level="moderate">in bloei staat</emphasis> </speak>

Benadrukken werkt niet met neurale stemmen.

Toespraak nieuwslezer

Op zoek naar een speech in de stijl van een nieuwslezer? Dat hebben we geregeld!

<speak> <amazon:domain name="news"> Uit de editie van dinsdag 16 april 1912 van de krant The Guardian: De eerste reis van de White Star lijnboot Titanic, het grootste schip ooit te water gelaten, is geƫindigd in een ramp. De Titanic begon haar reis van Southampton naar New York op woensdag. Zondagavond laat botste ze op een ijsberg voor de Grand Banks van Newfoundland. Via draadloze telegrafie zond ze noodsignalen uit en verschillende schepen waren dichtbij genoeg om de oproep op te vangen en te beantwoorden. </amazon:domain> </speak>

Deze truc is echter beschikbaar voor sommige neurale stemmen:

  • Matthew of Joanna stemmen (en-US)

  • Lupe (es-US)

  • Amy (en-GB)

Wil je meer doen met SSML?

Ontdek alle opties van deze functie in de Amazon Polly documentatie.