Як налаштувати згенероване мовлення за допомогою тегів SSML

Wave.video використовує технологію Amazon Polly для створення аудіодоріжок з тексту. Іноді результат за замовчуванням не бездоганний, і ви можете захотіти налаштувати мову. Тут вам на допомогу прийдуть теги SSML!

Як почати використовувати SSML у вашому Text-to-Speeech

Це дуже просто! Помістіть свій текст у два теги <speak>:

<Привіт!

Зверніть увагу, що деякі теги SSML не працюють з нейронними голосами, і навпаки. Переконайтеся, що ви використовуєте правильні теги.

Як зробити паузу

TTS автоматично робить паузи після ком, в кінці речень та абзаців. Найпростіший спосіб створити додаткову паузу - використати тег <break>. Він доступний як для звичайних, так і для нейронних голосів.

Цей тег має різні параметри, які визначають, наскільки сильною буде пауза: слабка, середня, сильна, x-сильна. Також ви можете вказати точний час паузи за допомогою параметра time. Дивіться приклади нижче:

<speak> О, лінь, прийди, прийди до мене, <break strength="strong"/> одна. Тебе кличе м'яка прохолода і добрий відпочинок <break time="0.8s"/> Лише в тобі я бачу свою богиню </speak>

Як змінити висоту голосу або зробити його голоснішим/тихішим

Ви можете зробити голос голоснішим або тихішим за допомогою тегу <prosody>. Використовуйте значення silent, x-soft, soft, medium, loud, x-loud, щоб змінити його:

<speech> Всім цікаво, звідки взявся блюз? <prosody volume="x-loud">Звідки взявся блюз?</prosody> </speak>

Хочете контролювати гучність більш суворо? Просто введіть значення в дБ. Спробуйте:

<speak> І все <prosody volume="-5dB">виглядає добре</prosody> сьогодні ввечері </speak>.

Примітка: +6 дБ майже подвоюють гучність, -6 дБ роблять її на 50% тихішою.

Регулювання гучності підтримується як звичайним, так і нейронним Text-to-Speeech.

Прискорюйте або сповільнюйте мовлення

Тут допоможе той самий тег <prosody>! Швидкість можна встановити за допомогою атрибута rate, використовуючи значення x-slow, slow, medium, fast, x-fast або відсоток. Спробуйте це:

<speak> <prosody rate="x-slow">Червона вантажівка, жовта вантажівка.</prosody> <prosody rate="fast">Червона вантажівка, жовта вантажівка.</prosody> <prosody rate="200%">Червона вантажівка, жовта вантажівка.</prosody> </speak>.

Працює як для нейронних, так і для звичайних голосів.

Зробіть акцент

Щоб підкреслити слово, використовуйте тег <emphasis> з атрибутом level. Він має 3 варіанти, ось як вони працюють:

Сильний: збільшує гучність і сповільнює темп мовлення, так що мова звучить голосніше і повільніше.
Помірний: Збільшує гучність і сповільнює темп мовлення, але не дуже сильно. Помірний за замовчуванням.
Зменшення: Зменшує гучність і прискорює темп мовлення. Мовлення стає м'якшим і швидшим.

Ось приклад:

<speech> <emasis level="reduced">Вона та</emasis>, хто <emasis level="strong">помітить</emasis>, що зацвів перший весняний <emasis level="moderate">левиний зів</emasis> </speak>.

Підкреслення не працює з нейронними голосами.

Виступ диктора новин

Шукаєте промову в стилі диктора? У нас є все, що вам потрібно!

<speak> <amazon:domain name="news"> З вівторкового випуску газети The Guardian за 16 квітня 1912 року: Перший рейс лайнера "Титанік" компанії "Уайт Стар", найбільшого корабля з коли-небудь спущених на воду, закінчився катастрофою. У середу "Титанік" вирушив з Саутгемптона до Нью-Йорка. Пізно ввечері в неділю він зіткнувся з айсбергом біля Великих Ньюфаундлендських островів. За допомогою бездротової телеграфії він послав сигнали лиха, і кілька лайнерів опинилися досить близько, щоб вловити і відповісти на заклик. </amazon:domain> </speak>

Однак цей трюк доступний для деяких нейронних голосів:

Голоси Метью або Джоанни (en-US)
Лупе (Іспанія-США)
Емі (en-GB)

Хочете дізнатися більше про SSML?

Дізнайтеся про всі можливості цієї функції в документації до Amazon Polly.