Cara menyesuaikan ucapan yang dihasilkan dengan tag SSML

Wave.video menggunakan teknologi Amazon Polly untuk menghasilkan trek audio dari teks. Terkadang, hasil default tidak sempurna, dan Anda mungkin ingin menyetel ucapannya. Ini dia tag SSML untuk bantuan Anda!

Cara mulai menggunakan SSML dalam Text-to-Speech Anda

Sangat mudah! Letakkan teks Anda di dalam dua tag <speak>:

<speak>Halo!</speak>

Harap dicatat bahwa beberapa tag SSML tidak berfungsi dengan suara neural, dan sebaliknya. Pastikan Anda menggunakan tag yang benar di sini.

Cara membuat jeda

TTS secara otomatis membuat jeda setelah koma, akhir kalimat, dan paragraf. Cara termudah untuk membuat jeda tambahan adalah dengan menggunakan tag <break>. Ini tersedia baik untuk suara biasa maupun suara neural.

Tag ini memiliki parameter berbeda yang menentukan seberapa kuat jeda yang akan terjadi: lemah, sedang, kuat, x-kuat. Selain itu, Anda juga dapat menentukan waktu jeda yang tepat dengan parameter waktu. Lihat contoh di bawah ini:

<speak>
Oh, kemalasan, datanglah, datanglah padaku, <break strength="strong"/> sendirian.
Kau dipanggil oleh kesejukan yang lembut dan istirahat yang baik <break time="0.8s"/>
Hanya di dalam dirimu aku melihat dewiku sendiri
</speak>

Bagaimana cara mengubah nada suara atau membuatnya lebih keras/lebih keras

Anda dapat membuat suara terdengar lebih keras atau lebih pelan dengan tag <prosody>. Gunakan nilai silent, x-soft, soft, soft, medium, loud, x-loud untuk mengubahnya:

<speak>
Semua orang bertanya-tanya <prosody volume="x-loud">dari mana asal blues</prosody>?
</speak>

Ingin mengontrol volume dengan cara yang lebih ketat? Cukup masukkan nilai dalam dB. Cobalah:

<speak>
Dan semuanya <prosody volume="-5dB">terlihat bagus</prosody> malam ini
</speak>

Catatan: +6dB hampir menggandakan volume, -6dB membuatnya 50% lebih tenang.

Kontrol volume didukung baik oleh Text-to-Speech biasa maupun neural.

Membuat bicara lebih cepat atau lebih lambat

Tag <prosody> yang sama membantu di sini! Kecepatan dapat diatur dengan atribut rate menggunakan x-lambat, lambat, sedang, cepat, x-cepat atau persentase. Coba ini:

<speak>
<prosody rate="x-slow">Lori merah, lori kuning.</prosody>
<prosody rate="fast">Lori merah, lori kuning.</prosody>
<prosody rate="200%">Lori merah, lori kuning.</prosody>
</speak>

Bekerja baik untuk suara neural maupun suara biasa.

Lakukan penekanan

Untuk menekankan sebuah kata, gunakan tag <emphasis> dengan atribut level. Ini memiliki 3 opsi, berikut adalah cara kerjanya:

Kuat: Meningkatkan volume dan memperlambat laju bicara sehingga ucapannya lebih keras dan lebih lambat.
Sedang: Meningkatkan volume dan memperlambat kecepatan berbicara, tetapi kurang dari kuat. Moderate adalah standarnya.
Dikurangi: Mengurangi volume dan mempercepat laju bicara. Ucapan lebih lembut dan lebih cepat.

Berikut ini contohnya:

<speak>
<emphasis level="reduced">Dia adalah orang yang</emphasis>
yang <emphasis level="strong">akan memperhatikan</emphasis>
bahwa snapdragon pertama Musim Semi <emphasis level="moderate">sedang mekar</emphasis>
</speak>

Menekankan tidak bekerja dengan suara neural.

Pidato penyiar berita

Mencari pidato gaya penyiar berita? Kami menyediakannya!

<speak>
<amazon:domain name="news">
Dari surat kabar The Guardian edisi Selasa, 16 April 1912: Pelayaran perdana kapal White Star Titanic, kapal terbesar yang pernah diluncurkan, telah berakhir dengan bencana. Titanic memulai perjalanannya dari Southampton ke New York pada hari Rabu. Pada Minggu malam, kapal ini menabrak gunung es di lepas pantai Grand Banks, Newfoundland. Dengan telegrafi nirkabel, ia mengirimkan sinyal marabahaya, dan beberapa kapal yang cukup dekat untuk menangkap dan menanggapi panggilan tersebut.
</amazon:domain>
</speak>

Namun demikian, trik ini tersedia untuk beberapa suara neural:

Suara Matthew atau Joanna (en-AS)
Lupe (es-AS)
Amy (en-GB)

Ingin melakukan lebih banyak hal dengan SSML?

Cari tahu semua opsi fitur ini dalam dokumentasi Amazon Polly.