Як налаштувати мову, що генерується, за допомогою тегів SSML

Wave.video використовує технологію Amazon Polly для генерації звукових доріжок з тексту. Іноді результат за замовчуванням не є бездоганним, і ви можете захотіти налаштувати мову. Тут вам на допомогу приходять SSML-теги!

Як почати використовувати SSML у вашому Text-to-Speeech

Це дуже просто! Помістіть свій текст всередину двох тегів <speak>:

<Привіт!

Зверніть увагу, що деякі SSML-теги не працюють з нейронними голосами, і навпаки. Переконайтеся, що ви використовуєте правильні теги.

Як зробити паузу

TTS автоматично робить паузи після коми, кінця речень і абзаців. Найпростіший спосіб створити додаткову паузу - використовувати тег <break>. Він доступний як для звичайних, так і для нейронних голосів.

Цей тег має різні параметри, які визначають, наскільки сильною буде пауза: слабка, середня, сильна, x-strong. Також за допомогою параметра time можна вказати точний час паузи. Дивіться приклади нижче:

<speak>
О, лінь, прийди, прийди до мене, <break strength="strong"/> одна.
Тебе кличе м'яка прохолода і добрий відпочинок <break time="0.8s"/>
Тільки в тобі я бачу богиню свою
</speak>.

Як змінити висоту голосу або зробити його голосніше/тихіше

За допомогою тегу <prosody> можна зробити голос голоснішим або тихішим. Використовуйте значення silent, x-soft, soft, medium, loud, x-loud для його зміни:

<speak>
Всіх цікавить питання <prosody volume="x-loud">звідки взявся блюз</prosody>?
</speak>

Хочете контролювати гучність більш суворим чином? Просто поставте значення в дБ. Спробуйте:

<speak>
І все <prosody volume="-5dB">виглядає добре</prosody> сьогодні ввечері
</speak>

Примітка: +6 дБ збільшує гучність майже вдвічі, -6 дБ робить її на 50% тихішою.

Регулювання гучності підтримується як звичайним, так і нейронним Text-to-Speeech.

Зробити мову швидшою або повільнішою

Тут допомагає все той же тег <prosody>! Швидкість можна встановити за допомогою атрибута rate, використовуючи x-slow, slow, medium, fast, x-fast або відсоток. Спробуйте це:

<speak>
<prosody rate="x-slow">Червона вантажівка, жовта вантажівка.</prosody>
<prosody rate="fast">Червона вантажівка, жовта вантажівка.</prosody>
<prosody rate="200%">Червона вантажівка, жовта вантажівка.</prosody>
<//speak>

Працює як для нейронних, так і для звичайних голосів.

Зробити акцент

Для виділення слова використовується тег <emphasis> з атрибутом level. Він має 3 варіанти, ось як вони працюють:

Сильний: збільшує гучність і сповільнює темп мовлення так, щоб мова звучала голосніше і повільніше.
Помірний: Збільшує гучність і сповільнює темп мовлення, але не сильно. Помірний - за замовчуванням.
Зменшення: Зменшує гучність і прискорює темп мовлення. Мовлення стає м'якшим і швидшим.

Наведу приклад:

<speech>
<emasis level="reduced">Вона та</emasis>
, яка <emasis level="strong">помітить</emasis>
, що перший весняний <emasis level="moderate">зацвітає</emasis>
</speech>.

Підкреслення не працює з нейронними голосами.

Виступ ведучого новин

Шукаєте промову в стилі диктора? У нас є все, що вам потрібно!

<speak>
<amazon:domain name="news">
З вівторкового випуску газети "Гардіан" за 16 квітня 1912 року: Перший рейс лайнера "Титанік" компанії "Уайт Стар", найбільшого корабля з коли-небудь спущених на воду, закінчився катастрофою. Титанік розпочав свою подорож з Саутгемптона до Нью-Йорка в середу. Пізно ввечері в неділю він зіткнувся з айсбергом біля Великої Ньюфаундлендської банки. За допомогою бездротової телеграфії він послав сигнали лиха, і кілька лайнерів виявилися досить близько, щоб вловити і відповісти на заклик.
</amazon:domain>
</speech>

Втім, цей трюк доступний для деяких нейронних голосів:

Голоси Метью або Джоанни (en-US)
Lupe (es-US)
Емі (en-GB)

Хочете зробити більше за допомогою SSML?

Ознайомтеся з усіма можливостями цієї функції в документації до Amazon Polly.

Як налаштувати згенеровану мову за допомогою тегів SSML