Wave.video wykorzystuje technologię Amazon Polly do generowania ścieżek dźwiękowych z tekstu. Czasami domyślny wynik nie jest bezbłędny i możesz chcieć dostroić wystąpienie. Tu z pomocą przychodzą tagi SSML!
Jak zacząć używać SSML w syntezie mowy?
To proste! Umieść swój tekst wewnątrz dwóch znaczników <speak>:
<speak>Hello!</speak>.
Zwróć uwagę, że niektóre tagi SSML nie działają z głosami neuronowymi i odwrotnie. Upewnij się, że używasz tych właściwych tutaj.
Jak zrobić pauzę
TTS automatycznie robi pauzy po przecinkach, końcach zdań i akapitów. Najprostszym sposobem na stworzenie dodatkowej pauzy jest użycie znacznika <break>
. Jest on dostępny zarówno dla głosów zwykłych, jak i neuronowych.
Ten znacznik ma różne parametry, które określają jak silna będzie pauza: weak, medium, strong, x-strong
. Ponadto możesz określić dokładny czas pauzy za pomocą parametru time
. Zobacz przykłady poniżej:
<speak>
O lenistwo, przyjdź, przyjdź do mnie, <break strength="strong"/> sama.
Woła cię miękki chłód i dobry odpoczynek <break time="0.8s"/>
Tylko w tobie widzę moją boginię własną
</speak>
.
Jak zmienić wysokość głosu lub uczynić go głośniejszym/ciszejszym
Możesz sprawić, że głos będzie brzmiał głośniej lub ciszej za pomocą znacznika <prosody>. Użyj wartości silent, x-soft, soft, medium, loud, x-loud,
aby to zmienić:
<speak>
Wszyscy zastanawiają się <prosody volume="x-loud">skąd wziął się blues</prosody>
</speak>.
Chcesz kontrolować głośność w bardziej ścisły sposób? Po prostu wprowadź wartość w dB. Spróbuj:
<speak>
I wszystko <prosody volume="-5dB">looks good</prosody> tonight
</speak>.
Uwaga: +6dB prawie podwaja głośność, -6dB czyni ją o 50% cichszą.
Regulacja głośności jest obsługiwana zarówno przez zwykły, jak i neuronowy Text-to-Speech.
Przyspieszaj lub spowalniaj mowę
Ten sam tag <prosody>
pomaga tutaj! Prędkość można ustawić za pomocą atrybutu rate
używając x-slow, slow, medium, fast, x-fast
lub procent. Spróbuj tego:
<speak>
<prosody rate="x-slow">Czerwona ciężarówka, żółta ciężarówka.</prosody>
<prosody rate="fast">Czerwona ciężarówka, żółta ciężarówka.</prosody>
<prosody rate="200%">Czerwona ciężarówka, żółta ciężarówka.</prosody>
</speak>
Działa zarówno dla głosów neuronowych jak i zwykłych.
Podkreślenie
Aby podkreślić słowo, należy użyć znacznika <emphasis>
z atrybutem level
. Ma on 3 opcje, oto jak one działają:
Silny
: Zwiększa głośność i zwalnia tempo mówienia tak, że mowa jest głośniejsza i wolniejsza.Umiarkowany
: Zwiększa głośność i zwalnia tempo mówienia, ale mniej niż silny. Domyślnie ustawiona jest opcja Umiarkowany.Zmniejszony
: Zmniejsza głośność i przyspiesza tempo mówienia. Mowa jest bardziej miękka i szybsza.
Oto przykład:
<speak>
<emphasis level="reduced">Ona jest tą</emphasis>
która <emphasis level="strong">zauważy</emphasis>
, że pierwszy snapdragon wiosny <emphasis level="moderate">jest w rozkwicie</emphasis>
</speak>
.
Podkreślanie nie działa w przypadku głosów neuronowych.
Przemówienie dziennikarza
Szukasz przemówienia w stylu newscasterów? Mamy to pod kontrolą!
<speak>
<amazon:domain name="news">
Z wtorkowego, 16 kwietnia 1912 roku wydania gazety The Guardian: Dziewiczy rejs liniowca White Star Titanic, największego statku, jaki kiedykolwiek został zwodowany, zakończył się katastrofą. Titanic rozpoczął swoją podróż z Southampton do Nowego Jorku w środę. Późnym wieczorem w niedzielę uderzył w górę lodową u wybrzeży Grand Banks na Nowej Fundlandii. Za pomocą telegrafii bezprzewodowej wysłała sygnały o niebezpieczeństwie, a kilka liniowców znajdowało się na tyle blisko, by wychwycić i odpowiedzieć na wezwanie.
</amazon:domain>
</speak>.
Jednak ta sztuczka jest dostępna dla niektórych głosów neuronowych:
Głosy Mateusza lub Joanny (en-US)
Lupe (es-US)
Amy (en-GB)
Chcesz zrobić więcej z SSML?
Poznaj wszystkie opcje tej funkcji w dokumentacji Amazon Polly.