Cara menyesuaikan ucapan yang dihasilkan dengan tag SSML

Wave.video menggunakan teknologi Amazon Polly untuk menghasilkan trek audio dari teks. Terkadang, hasil default tidak sempurna, dan Anda mungkin ingin menyetel ucapannya. Ini dia tag SSML untuk membantu Anda!

Cara mulai menggunakan SSML di Text-to-Speech Anda

Sangat mudah! Letakkan teks Anda di dalam dua tag <speak>:

<Halo!

Harap diperhatikan bahwa beberapa tag SSML tidak dapat digunakan dengan suara saraf, dan sebaliknya. Pastikan Anda menggunakan tag yang benar di sini.

Cara membuat jeda

TTS secara otomatis membuat jeda setelah koma, akhir kalimat, dan paragraf. Cara termudah untuk membuat jeda tambahan adalah dengan menggunakan tag <break>. Ini tersedia baik untuk suara biasa maupun suara saraf.

Tag ini memiliki parameter berbeda yang menentukan seberapa kuat jeda yang akan diberikan: lemah, sedang, kuat, x-kuat. Selain itu, Anda juga dapat menentukan waktu jeda yang tepat dengan parameter waktu. Lihat contoh di bawah ini:

<speak>Oh, kemalasan, datanglah, datanglah padaku, <break strength="strong"/> sendirian. Kamu dipanggil oleh kesejukan yang lembut dan istirahat yang baik <break time="0.8s"/> Hanya di dalam dirimu aku melihat dewiku sendiri </speak>

Cara mengubah nada suara atau membuatnya lebih keras/lembut

Anda dapat membuat suara terdengar lebih keras atau lebih pelan dengan tag <prosody>. Gunakan nilai diam, x-lembut, lembut, sedang, keras, x-keras untuk mengubahnya:

<speak>Semua orang bertanya-tanya <prosody volume="x-loud">dari mana datangnya musik blues</prosody>? </speak>

Ingin mengontrol volume dengan cara yang lebih ketat? Cukup masukkan nilai dalam dB. Cobalah:

<speak> Dan semuanya <prosody volume="-5dB">terlihat bagus</prosody> malam ini </speak>

Catatan: +6dB hampir menggandakan volume, -6dB membuatnya 50% lebih senyap.

Kontrol volume didukung oleh Text-to-Speech biasa dan neural.

Membuat ucapan lebih cepat atau lebih lambat

Tag <prosody> yang sama membantu di sini! Kecepatan dapat diatur dengan atribut rate menggunakan x-lambat, lambat, sedang, cepat, x-cepat, atau persentase. Cobalah ini:

<speak> <prosody rate="x-lambat">Truk merah, truk kuning.</prosody> <prosody rate="cepat">Truk merah, truk kuning.<prosody> <prosody rate="200%">Truk merah, truk kuning.</prosody> </speak>

Berfungsi baik untuk suara saraf maupun suara biasa.

Berikan penekanan

Untuk menekankan sebuah kata, gunakan tag <emphasis> dengan atribut level. Tag ini memiliki 3 opsi, berikut ini cara kerjanya:

Kuat: Meningkatkan volume dan memperlambat laju bicara sehingga ucapan lebih keras dan lambat.
Sedang: Meningkatkan volume dan memperlambat laju bicara, tetapi kurang kuat. Moderat adalah default.
Dikurangi: Mengurangi volume dan mempercepat laju bicara. Pembicaraan lebih lembut dan lebih cepat.

Berikut ini sebuah contoh:

<speak> <emphasis level="reduced">Dia adalah orang</emphasis> yang <emphasis level="strong">akan menyadari</emphasis> bahwa snapdragon pertama di musim semi <emphasis level="moderat">sedang mekar</emphasis> </speak>

Menekankan tidak akan berhasil dengan suara saraf.

Pidato penyiar berita

Mencari pidato gaya penyiar berita? Kami punya jawabannya!

<speak> <amazon:domain name="news">Dari surat kabar The Guardian edisi Selasa, 16 April 1912: Pelayaran perdana kapal White Star Titanic, kapal terbesar yang pernah diluncurkan, berakhir dengan bencana. Titanic memulai perjalanannya dari Southampton ke New York pada hari Rabu. Pada Minggu malam, kapal ini menabrak gunung es di lepas pantai Newfoundland. Melalui telegrafi nirkabel, ia mengirimkan sinyal tanda bahaya, dan beberapa kapal berada cukup dekat untuk menangkap dan merespons panggilan tersebut. </amazon:domain> </speak>

Namun demikian, trik ini tersedia untuk sebagian suara neural:

Suara Matthew atau Joanna (en-US)
Lupe (es-AS)
Amy (en-GB)

Ingin berbuat lebih banyak dengan SSML?

Cari tahu semua opsi fitur ini di dokumentasi Amazon Polly.