Как настроить сгенерированную речь с помощью тегов SSML
Wave.video использует технологию Amazon Polly для создания аудиодорожек из текста. Иногда результат по умолчанию не является безупречным, и вы можете захотеть подправить речь. Здесь вам на помощь придут теги SSML!
Как начать использовать SSML для преобразования текста в речь
Это просто! Поместите текст в два тега <speak>:
<speak>Здравствуйте! </speak>
Обратите внимание, что некоторые теги SSML не работают с нейронными голосами, и наоборот. Убедитесь, что вы используете правильные теги .
Как сделать паузу
TTS автоматически делает паузы после запятых, концов предложений и абзацев. Самый простой способ создать дополнительную паузу - использовать тег <break>
. Он доступен как для обычного, так и для нейронного голоса.
Этот тег имеет различные параметры, определяющие силу паузы: слабая, средняя, сильная, x-strong
. Кроме того, с помощью параметра time
можно указать точное время паузы. Смотрите примеры ниже:
<speak> О, лень, приди, приди ко мне, <break strength="strong"/> одна. Тебя зовет мягкая прохлада и хороший отдых <break time="0.8s"/> Только в тебе я вижу свою богиню </speak>.
Как изменить высоту голоса или сделать его громче/тише
Вы можете сделать голос громче или тише с помощью тега <prosody>. Для изменения используйте значения silent, x-soft, soft, medium, loud, x-loud
:
<speak>Все задаются вопросом <prosody volume="x-loud">откуда взялся блюз</prosody>? </speak>
Хотите управлять громкостью более строго? Просто задайте значение в дБ. Попробуйте:
<speak> И все <prosody volume="-5dB"> выглядит хорошо</prosody> сегодня вечером </speak>.
Примечание: +6 дБ увеличивают громкость почти вдвое, -6 дБ делают звук на 50% тише.
Регулировка громкости поддерживается как обычным, так и нейронным Text-to-Speech.
Ускорить или замедлить речь
Здесь поможет тот же тег <prosody>
! Скорость можно задать с помощью атрибута rate
, используя x-slow, slow, medium, fast, x-fast
или процент. Попробуйте так:
<speak> <prosody rate="x-slow">Красная фура, желтая фура.</prosody> <prosody rate="fast">Красная фура, желтая фура.</prosody> <prosody rate="200%">Красный грузовик, желтый грузовик.</prosody> </speak>
Работает как с нейронными, так и с обычными голосами.
Сделайте акцент
Чтобы подчеркнуть слово, используйте тег <emphasis>
с атрибутом level
. У него есть 3 варианта, вот как они работают:
Сильный
: увеличивает громкость и замедляет темп речи, так что речь становится громче и медленнее.Умеренный
: Увеличивает громкость и замедляет скорость речи, но меньше, чем сильная. Умеренный режим используется по умолчанию.Уменьшить
: Уменьшает громкость и ускоряет темп речи. Речь становится мягче и быстрее.
Вот пример:
<speak> <emphasis level="reduced">Она - та, кто <emphasis level="strong">заметит</emphasis>, что расцвел первый эспарцет весны <emphasis level="moderate"> <emphasis> </speak>
Подчеркивание не работает с нейронными голосами.
Речь диктора
Ищете речь в стиле диктора? Мы позаботимся об этом!
<speak> <amazon:domain name="news"> Из выпуска газеты The Guardian за вторник, 16 апреля 1912 года: Первый рейс лайнера "Титаник" компании "Уайт Стар", самого большого корабля из когда-либо спущенных на воду, закончился катастрофой. Титаник" начал свой путь из Саутгемптона в Нью-Йорк в среду. Поздно вечером в воскресенье он столкнулся с айсбергом у Гранд-Банкс в Ньюфаундленде. Посредством беспроводной телеграфии он подавал сигналы бедствия, и несколько лайнеров находились достаточно близко, чтобы поймать и ответить на призыв. </amazon:domain> </speak>.
Однако этот трюк доступен для некоторых нейронных голосов:
Голоса Мэтью или Джоанны (en-US)
Лупе (es-US)
Эми (en-GB)
Хотите сделать больше с помощью SSML?
Узнайте обо всех возможностях этой функции в документации Amazon Polly.