Wave.video использует технологию Amazon Polly для генерации аудиодорожек из текста. Иногда результат по умолчанию не является безупречным, и вы можете захотеть настроить речь. Здесь вам на помощь придут теги SSML!
Как начать использовать SSML для преобразования текста в речь
Это просто! Поместите свой текст внутри двух тегов <speak>:
<speak>Здравствуйте! </speak>
Обратите внимание, что некоторые теги SSML не работают с нейронными голосами, и наоборот. Убедитесь, что вы используете правильные теги .
Как сделать паузу
TTS автоматически делает паузы после запятых, концов предложений и абзацев. Самый простой способ создать дополнительную паузу - использовать тег <break>
. Он доступен как для обычного, так и для нейронного голоса.
Этот тег имеет различные параметры, которые определяют, насколько сильной будет пауза: слабая, средняя, сильная, x-сильная
. Также можно указать точное время паузы с помощью параметра time
. См. примеры ниже:
<speak>
О, лень, приди, приди ко мне, <break strength="strong"/> одна.
Тебя зовет мягкая прохлада и хороший отдых <break time="0.8s"/>
Только в тебе я вижу свою богиню
</speak>
.
Как изменить высоту голоса или сделать его громче/тише
Вы можете сделать голос громче или тише с помощью тега <prosody>. Для его изменения используйте значения silent, x-soft, soft, soft, medium, loud, x-loud
:
<speak>
Все задаются вопросом <prosody volume="x-loud">откуда взялся блюз</prosody>?
</speak>
Хотите управлять громкостью более строго? Просто задайте значение в дБ. Попробуйте:
<speak>
И все <prosody volume="-5dB">смотрится хорошо</prosody> сегодня вечером
</speak>
Примечание: +6 дБ почти удваивают громкость, -6 дБ делают ее на 50% тише.
Регулировка громкости поддерживается как обычным, так и нейронным Text-to-Speech.
Делать речь быстрее или медленнее
Здесь поможет тот же тег <prosody>
! Скорость можно задать с помощью атрибута rate
, используя x-slow, slow, medium, fast, x-fast
или процент. Попробуйте это:
<speak>
<prosody rate="x-slow">Красная фура, желтая фура.</prosody>
<prosody rate="fast">Красная фура, желтая фура.</prosody>
<prosody rate="200%">Красная фура, желтая фура.</prosody>
</speak>
Работает как для нейронных, так и для обычных голосов.
Сделайте акцент
Чтобы подчеркнуть слово, используйте тег <emphasis>
с атрибутом level
. У него есть 3 варианта, вот как они работают:
Сильный
: Увеличивает громкость и замедляет темп речи, чтобы речь была громче и медленнее.Умеренный
: Увеличивает громкость и замедляет скорость речи, но меньше, чем сильный. Умеренный - это значение по умолчанию.Уменьшение
: Уменьшает громкость и ускоряет темп речи. Речь становится мягче и быстрее.
Вот пример:
<speak>
<emphasis level="reduced">Она та</emphasis>
, которая <emphasis level="strong">заметит</emphasis>
, что первый снапдрагон весны <emphasis level="moderate">зацвел</emphasis>
</speak>
.
Подчеркивание не работает с нейронными голосами.
Речь диктора
Ищете речь в стиле диктора? Мы позаботимся об этом!
<speak>
<amazon:domain name="news">
Из выпуска газеты "The Guardian" за вторник, 16 апреля 1912 года: Первый рейс лайнера "Титаник" компании "Уайт Стар", самого большого корабля, когда-либо спущенного на воду, закончился катастрофой. Титаник" начал свой путь из Саутгемптона в Нью-Йорк в среду. Поздно вечером в воскресенье он столкнулся с айсбергом у Больших отмелей Ньюфаундленда. С помощью беспроводной телеграфии он подавал сигналы бедствия, и несколько лайнеров находились достаточно близко, чтобы поймать и ответить на призыв.
</amazon:domain>
</speak>
.
Однако этот трюк доступен для некоторых нейронных голосов:
Голоса Мэтью или Джоанны (en-US)
Лупе (es-US)
Эми (en-GB)
Хотите сделать больше с помощью SSML?
Узнайте обо всех возможностях этой функции в документации Amazon Polly.