Wave.video використовує технологію Amazon Polly для генерації звукових доріжок з тексту. Іноді результат за замовчуванням не є бездоганним, і ви можете захотіти налаштувати мову. Тут вам на допомогу приходять SSML-теги!
Як почати використовувати SSML у вашому Text-to-Speeech
Це дуже просто! Помістіть свій текст всередину двох тегів <speak>:
<Привіт!
Зверніть увагу, що деякі SSML-теги не працюють з нейронними голосами, і навпаки. Переконайтеся, що ви використовуєте правильні теги.
Як зробити паузу
TTS автоматично робить паузи після коми, кінця речень і абзаців. Найпростіший спосіб створити додаткову паузу - використовувати тег <break>
. Він доступний як для звичайних, так і для нейронних голосів.
Цей тег має різні параметри, які визначають, наскільки сильною буде пауза: слабка, середня, сильна, x-strong
. Також за допомогою параметра time
можна вказати точний час паузи. Дивіться приклади нижче:
<speak>
О, лінь, прийди, прийди до мене, <break strength="strong"/> одна.
Тебе кличе м'яка прохолода і добрий відпочинок <break time="0.8s"/>
Тільки в тобі я бачу богиню свою
</speak>
.
Як змінити висоту голосу або зробити його голосніше/тихіше
За допомогою тегу <prosody> можна зробити голос голоснішим або тихішим. Використовуйте значення silent, x-soft, soft, medium, loud, x-loud
для його зміни:
<speak>
Всіх цікавить питання <prosody volume="x-loud">звідки взявся блюз</prosody>?
</speak>
Хочете контролювати гучність більш суворим чином? Просто поставте значення в дБ. Спробуйте:
<speak>
І все <prosody volume="-5dB">виглядає добре</prosody> сьогодні ввечері
</speak>
Примітка: +6 дБ збільшує гучність майже вдвічі, -6 дБ робить її на 50% тихішою.
Регулювання гучності підтримується як звичайним, так і нейронним Text-to-Speeech.
Зробити мову швидшою або повільнішою
Тут допомагає все той же тег <prosody>
! Швидкість можна встановити за допомогою атрибута rate
, використовуючи x-slow, slow, medium, fast, x-fast
або відсоток. Спробуйте це:
<speak>
<prosody rate="x-slow">Червона вантажівка, жовта вантажівка.</prosody>
<prosody rate="fast">Червона вантажівка, жовта вантажівка.</prosody>
<prosody rate="200%">Червона вантажівка, жовта вантажівка.</prosody>
<//speak>
Працює як для нейронних, так і для звичайних голосів.
Зробити акцент
Для виділення слова використовується тег <emphasis>
з атрибутом level
. Він має 3 варіанти, ось як вони працюють:
Сильний
: збільшує гучність і сповільнює темп мовлення так, щоб мова звучала голосніше і повільніше.Помірний
: Збільшує гучність і сповільнює темп мовлення, але не сильно. Помірний - за замовчуванням.Зменшення
: Зменшує гучність і прискорює темп мовлення. Мовлення стає м'якшим і швидшим.
Наведу приклад:
<speech>
<emasis level="reduced">Вона та</emasis>
, яка <emasis level="strong">помітить</emasis>
, що перший весняний <emasis level="moderate">зацвітає</emasis>
</speech>
.
Підкреслення не працює з нейронними голосами.
Виступ ведучого новин
Шукаєте промову в стилі диктора? У нас є все, що вам потрібно!
<speak>
року:
<amazon:domain name="news">
З вівторкового випуску газети "Гардіан" за 16 квітня 1912Перший рейс лайнера "Титанік" компанії "Уайт Стар", найбільшого корабля з коли-небудь спущених на воду, закінчився катастрофою. Титанік розпочав свою подорож з Саутгемптона до Нью-Йорка в середу. Пізно ввечері в неділю він зіткнувся з айсбергом біля Великої Ньюфаундлендської банки. За допомогою бездротової телеграфії він послав сигнали лиха, і кілька лайнерів виявилися досить близько, щоб вловити і відповісти на заклик.
</amazon:domain>
</speech>
Втім, цей трюк доступний для деяких нейронних голосів:
Голоси Метью або Джоанни (en-US)
Lupe (es-US)
Емі (en-GB)
Хочете зробити більше за допомогою SSML?
Ознайомтеся з усіма можливостями цієї функції в документації до Amazon Polly.