Wave.video использует технологию Amazon Polly для генерации аудиодорожек из текста. Иногда результат по умолчанию не является безупречным, и вы можете захотеть настроить речь. Здесь вам на помощь придут теги SSML!

Как начать использовать SSML для преобразования текста в речь

Это просто! Поместите свой текст внутри двух тегов <speak>:

<speak>Здравствуйте! </speak>

Обратите внимание, что некоторые теги SSML не работают с нейронными голосами, и наоборот. Убедитесь, что вы используете правильные теги .

Как сделать паузу

TTS автоматически делает паузы после запятых, концов предложений и абзацев. Самый простой способ создать дополнительную паузу - использовать тег <break>. Он доступен как для обычного, так и для нейронного голоса.

Этот тег имеет различные параметры, которые определяют, насколько сильной будет пауза: слабая, средняя, сильная, x-сильная. Также можно указать точное время паузы с помощью параметра time. См. примеры ниже:

<speak>
О, лень, приди, приди ко мне, <break strength="strong"/> одна.
Тебя зовет мягкая прохлада и хороший отдых <break time="0.8s"/>
Только в тебе я вижу свою богиню
</speak>
.

Как изменить высоту голоса или сделать его громче/тише

Вы можете сделать голос громче или тише с помощью тега <prosody>. Для его изменения используйте значения silent, x-soft, soft, soft, medium, loud, x-loud:

<speak>
Все задаются вопросом <prosody volume="x-loud">откуда взялся блюз</prosody>?
</speak>

Хотите управлять громкостью более строго? Просто задайте значение в дБ. Попробуйте:

<speak>
И все <prosody volume="-5dB">смотрится хорошо</prosody> сегодня вечером
</speak>

Примечание: +6 дБ почти удваивают громкость, -6 дБ делают ее на 50% тише.

Регулировка громкости поддерживается как обычным, так и нейронным Text-to-Speech.

Делать речь быстрее или медленнее

Здесь поможет тот же тег <prosody>! Скорость можно задать с помощью атрибута rate, используя x-slow, slow, medium, fast, x-fast или процент. Попробуйте это:

<speak>
<prosody rate="x-slow">Красная фура, желтая фура.</prosody>
<prosody rate="fast">Красная фура, желтая фура.</prosody>
<prosody rate="200%">Красная фура, желтая фура.</prosody>
</speak>

Работает как для нейронных, так и для обычных голосов.

Сделайте акцент

Чтобы подчеркнуть слово, используйте тег <emphasis> с атрибутом level. У него есть 3 варианта, вот как они работают:

  • Сильный: Увеличивает громкость и замедляет темп речи, чтобы речь была громче и медленнее.

  • Умеренный: Увеличивает громкость и замедляет скорость речи, но меньше, чем сильный. Умеренный - это значение по умолчанию.

  • Уменьшение: Уменьшает громкость и ускоряет темп речи. Речь становится мягче и быстрее.

Вот пример:

<speak>
<emphasis level="reduced">Она та</emphasis>
, которая <emphasis level="strong">заметит</emphasis>
, что первый снапдрагон весны <emphasis level="moderate">зацвел</emphasis>
</speak>
.

Подчеркивание не работает с нейронными голосами.

Речь диктора

Ищете речь в стиле диктора? Мы позаботимся об этом!

<speak>
<amazon:domain name="news">
Из выпуска газеты "The Guardian" за вторник, 16 апреля 1912 года: Первый рейс лайнера "Титаник" компании "Уайт Стар", самого большого корабля, когда-либо спущенного на воду, закончился катастрофой. Титаник" начал свой путь из Саутгемптона в Нью-Йорк в среду. Поздно вечером в воскресенье он столкнулся с айсбергом у Больших отмелей Ньюфаундленда. С помощью беспроводной телеграфии он подавал сигналы бедствия, и несколько лайнеров находились достаточно близко, чтобы поймать и ответить на призыв.
</amazon:domain>
</speak>
.

Однако этот трюк доступен для некоторых нейронных голосов:

  • Голоса Мэтью или Джоанны (en-US)

  • Лупе (es-US)

  • Эми (en-GB)

Хотите сделать больше с помощью SSML?

Узнайте обо всех возможностях этой функции в документации Amazon Polly.

Это ответило на ваш вопрос?