Jak dostosować wygenerowaną mowę za pomocą znaczników SSML

Wave.video wykorzystuje technologię Amazon Polly do generowania ścieżek dźwiękowych z tekstu. Czasami domyślny wynik nie jest bezbłędny i możesz chcieć dostroić wystąpienie. Tu z pomocą przychodzą tagi SSML!

Jak zacząć używać SSML w syntezie mowy?

To proste! Umieść swój tekst wewnątrz dwóch znaczników <speak>:

<speak>Hello!</speak>.

Zwróć uwagę, że niektóre tagi SSML nie działają z głosami neuronowymi i odwrotnie. Upewnij się, że używasz tych właściwych tutaj.

Jak zrobić pauzę

TTS automatycznie robi pauzy po przecinkach, końcach zdań i akapitów. Najprostszym sposobem na stworzenie dodatkowej pauzy jest użycie znacznika <break>. Jest on dostępny zarówno dla głosów zwykłych, jak i neuronowych.

Ten znacznik ma różne parametry, które określają jak silna będzie pauza: weak, medium, strong, x-strong. Ponadto możesz określić dokładny czas pauzy za pomocą parametru time. Zobacz przykłady poniżej:

<speak>
O lenistwo, przyjdź, przyjdź do mnie, <break strength="strong"/> sama.
Woła cię miękki chłód i dobry odpoczynek <break time="0.8s"/>
Tylko w tobie widzę moją boginię własną
</speak>.

Jak zmienić wysokość głosu lub uczynić go głośniejszym/ciszejszym

Możesz sprawić, że głos będzie brzmiał głośniej lub ciszej za pomocą znacznika <prosody>. Użyj wartości silent, x-soft, soft, medium, loud, x-loud, aby to zmienić:

<speak>
Wszyscy zastanawiają się <prosody volume="x-loud">skąd wziął się blues</prosody>
</speak>.

Chcesz kontrolować głośność w bardziej ścisły sposób? Po prostu wprowadź wartość w dB. Spróbuj:

<speak>
I wszystko <prosody volume="-5dB">looks good</prosody> tonight
</speak>.

Uwaga: +6dB prawie podwaja głośność, -6dB czyni ją o 50% cichszą.

Regulacja głośności jest obsługiwana zarówno przez zwykły, jak i neuronowy Text-to-Speech.

Przyspieszaj lub spowalniaj mowę

Ten sam tag <prosody> pomaga tutaj! Prędkość można ustawić za pomocą atrybutu rate używając x-slow, slow, medium, fast, x-fast lub procent. Spróbuj tego:

<speak>
<prosody rate="x-slow">Czerwona ciężarówka, żółta ciężarówka.</prosody>
<prosody rate="fast">Czerwona ciężarówka, żółta ciężarówka.</prosody>
<prosody rate="200%">Czerwona ciężarówka, żółta ciężarówka.</prosody>
</speak>

Działa zarówno dla głosów neuronowych jak i zwykłych.

Podkreślenie

Aby podkreślić słowo, należy użyć znacznika <emphasis> z atrybutem level. Ma on 3 opcje, oto jak one działają:

Silny: Zwiększa głośność i zwalnia tempo mówienia tak, że mowa jest głośniejsza i wolniejsza.
Umiarkowany: Zwiększa głośność i zwalnia tempo mówienia, ale mniej niż silny. Domyślnie ustawiona jest opcja Umiarkowany.
Zmniejszony: Zmniejsza głośność i przyspiesza tempo mówienia. Mowa jest bardziej miękka i szybsza.

Oto przykład:

<speak>
<emphasis level="reduced">Ona jest tą</emphasis>
która <emphasis level="strong">zauważy</emphasis>
, że pierwszy snapdragon wiosny <emphasis level="moderate">jest w rozkwicie</emphasis>
</speak>.

Podkreślanie nie działa w przypadku głosów neuronowych.

Przemówienie dziennikarza

Szukasz przemówienia w stylu newscasterów? Mamy to pod kontrolą!

<speak>
<amazon:domain name="news">
Z wtorkowego, 16 kwietnia 1912 roku wydania gazety The Guardian: Dziewiczy rejs liniowca White Star Titanic, największego statku, jaki kiedykolwiek został zwodowany, zakończył się katastrofą. Titanic rozpoczął swoją podróż z Southampton do Nowego Jorku w środę. Późnym wieczorem w niedzielę uderzył w górę lodową u wybrzeży Grand Banks na Nowej Fundlandii. Za pomocą telegrafii bezprzewodowej wysłała sygnały o niebezpieczeństwie, a kilka liniowców znajdowało się na tyle blisko, by wychwycić i odpowiedzieć na wezwanie.
</amazon:domain>
</speak>.

Jednak ta sztuczka jest dostępna dla niektórych głosów neuronowych:

Głosy Mateusza lub Joanny (en-US)
Lupe (es-US)
Amy (en-GB)

Chcesz zrobić więcej z SSML?

Poznaj wszystkie opcje tej funkcji w dokumentacji Amazon Polly.