Wie man generierte Sprache mit SSML-Tags anpasst

Wave.video verwendet die Amazon Polly-Technologie, um Audiospuren aus Text zu erzeugen. Manchmal ist das Standard-Ergebnis nicht einwandfrei, und Sie möchten die Sprache vielleicht anpassen. Hier kommen die SSML-Tags für Ihre Hilfe!

Wie Sie SSML in Ihrem Text-to-Speech-System einsetzen können

Es ist ganz einfach! Fügen Sie Ihren Text in zwei <speak>-Tags ein:

<speak>Hallo!</speak>

Bitte beachten Sie, dass einige SSML-Tags nicht mit neuronalen Stimmen funktionieren und umgekehrt. Stellen Sie sicher, dass Sie hier die richtigen Tags verwenden.

Wie man eine Pause macht

TTS macht automatisch Pausen nach Kommas, am Ende von Sätzen und Absätzen. Der einfachste Weg, eine zusätzliche Pause zu erzeugen, ist die Verwendung des <break>-Tags. Es ist sowohl für normale als auch für neuronale Stimmen verfügbar.

Dieses Tag hat verschiedene Parameter, die festlegen, wie stark die Pause sein wird: schwach, mittel, stark, x-stark. Außerdem können Sie mit dem Parameter time die genaue Zeit der Pause angeben. Siehe die Beispiele unten:

<speak> Oh, Faulheit, komm, komm zu mir, <break strength="strong"/> allein, nach dir ruft die sanfte Kühle und die gute Ruhe <break time="0.8s"/> Nur in dir sehe ich meine eigene Göttin </speak>

Wie man die Tonhöhe der Stimme ändert oder sie lauter/leiser macht

Sie können die Stimme mit dem <prosody>-Tag lauter oder leiser machen. Verwenden Sie die Werte silent, x-soft, soft, medium, loud, x-loud, um sie zu ändern:

<speak> Jeder fragt sich <prosody volume="x-loud">woher kommt der Blues</prosody>? </speak>

Möchten Sie die Lautstärke strenger regeln? Geben Sie einfach einen Wert in dB an. Probieren Sie es aus:

<speak> Und alles <prosody volume="-5dB">sieht gut aus</prosody> heute Abend </speak>

Hinweis: Mit +6 dB verdoppelt sich die Lautstärke fast, mit -6 dB wird sie um 50 % leiser.

Die Lautstärkeregelung wird sowohl von regulärer als auch von neuronaler Text-to-Speech-Sprache unterstützt.

Sprache schneller oder langsamer machen

Hier hilft der gleiche <prosody>-Tag! Die Geschwindigkeit kann über das Attribut rate mit x-slow, slow, medium, fast, x-fast oder percentage eingestellt werden. Versuchen Sie dies:

<speak> <prosody rate="x-slow">Roter Lastkraftwagen, gelber Lastkraftwagen.</prosody> <prosody rate="fast">Roter Lastkraftwagen, gelber Lastkraftwagen.</prosody> <prosody rate="200%">Roter Lastwagen, gelber Lastwagen.</prosody> </speak>

Funktioniert sowohl für neurale als auch für normale Stimmen.

Einen Schwerpunkt setzen

Um ein Wort hervorzuheben, verwenden Sie den <emphasis>-Tag mit dem Attribut level. Es hat 3 Optionen, hier sind, wie sie funktionieren:

Stark: Erhöht die Lautstärke und verlangsamt die Sprechgeschwindigkeit, so dass die Sprache lauter und langsamer wird.
Mäßig: Erhöht die Lautstärke und verlangsamt die Sprechgeschwindigkeit, aber weniger als stark. Mäßig ist die Standardeinstellung.
Reduziert: Verringert die Lautstärke und beschleunigt das Sprechtempo. Die Sprache wird leiser und schneller.

Hier ist ein Beispiel:

<speak> <emphasis level="reduced">Sie ist diejenige</emphasis>, die <emphasis level="strong">bemerkt</emphasis>, dass das erste Löwenmäulchen des Frühlings <emphasis level="moderate">in Blüte steht</emphasis> </speak>

Die Betonung funktioniert nicht bei neuralen Stimmen.

Rede des Nachrichtensprechers

Suchen Sie eine Rede im Stil eines Nachrichtensprechers? Wir haben das für Sie!

<speak> <amazon:domain name="news"> Aus der Ausgabe vom Dienstag, 16. April 1912 der Zeitung The Guardian: Die Jungfernfahrt des White-Star-Liners Titanic, des größten Schiffes, das je vom Stapel gelaufen ist, endete in einer Katastrophe. Die Titanic startete am Mittwoch ihre Reise von Southampton nach New York. Am späten Sonntagabend stieß sie vor den Grand Banks von Neufundland mit einem Eisberg zusammen. Über drahtlose Telegrafie sendete sie Notsignale aus, und mehrere Schiffe waren nahe genug, um den Ruf zu empfangen und zu beantworten. </amazon:domain> </speak>

Dieser Trick ist jedoch für einige neuronale Stimmen verfügbar:

Matthew oder Joanna Stimmen (en-US)
Lupe (es-US)
Amy (en-GB)

Möchten Sie mehr mit SSML machen?

Informieren Sie sich über alle Optionen dieser Funktion in der Amazon Polly-Dokumentation.