Wave.videoはAmazon Pollyの技術を使って、テキストからオーディオトラックを生成します。時々、デフォルトの結果が完璧ではなく、音声を調整したくなることがあります。そんな時に役立つのがSSMLタグです。

音声合成でSSMLを使い始めるには

簡単です。テキストを2つの<speak>タグの中に入れてください。

<speak>ハロー!</speak>。

SSMLタグの中にはニューロボイスで使えないものがあり、またその逆もありますのでご注意ください。ここで正しいものを使っていることを確認してください。

ポーズの作り方

TTSはカンマの後、文の終わり、段落の後に自動的にポーズを作ります。追加のポーズを作る最も簡単な方法は、<break>タグを使用することです。これは通常の音声とニューラル音声の両方で利用できます。

このタグには、weak、medium、strong、x-strong という異なるパラメータがあり、どの程度の強さの一時停止を行うかを定義することができます。また、timeパラメータで一時停止の正確な時間を指定することができます。以下の例を参照してください。

<speak>
ああ、怠惰よ、来てくれ、<break strength="strong"/> 一人で、私のところに来てくれ。
柔らかい涼しさと良い休息があなたを呼んでいる <break time="0.8s"/>
あなたの中にだけ、私は女神自身を見る
</speak>。

声の高さを変える、または大きくする/小さくする方法

<prosody>タグで、音声を大きくしたり小さくしたりすることができます。silent, x-soft, soft, medium, loud, x-loudの値を使って変更します。

<speak>
誰もが<prosody volume="x-loud">ブルースはどこから来たのか</prosody>と疑問に思うだろう。
</speak>。

もっと厳密に音量をコントロールしたい?dB単位で値を入れるだけです。試してみてください。

<speak>
And everything <prosody volume="-5dB">looks good</prosody> tonight
</speak>
.

注)+6dBで 音量はほぼ2倍、-6dBで50%静かになります。

音量調節は、通常の音声合成とニューラル音声合成の両方に対応しています。

スピーチを速くしたり遅くしたりする

ここでも同じ<prosody>タグが役に立ちます速度は、rate属性でx-slow, slow, medium, fast, x-fast, percentageを使って設定できます。これを試してみてください。

<speak>
<prosody rate="x-slow">Red lorry, yellow lorry.</prosody>
<prosody rate="fast">Red lorry, yellow lorry.</prosody>
<prosody rate="200%">Red lorry, yellow lorry.</prosody>
</speak>
.

ニューラルボイスとレギュラーボイスの両方に対応。

強調する

単語を強調するには、<emphasis>タグとlevel属性を使用します。これには3つのオプションがあり、以下はその仕組みです。

  • :音量が大きくなり、話す速度が遅くなるので、大きな声でゆっくり話す。

  • 中程度。音量が大きくなり、話す速度が遅くなりますが、強よりも小さくなります。デフォルトはModerateです。

  • 縮小する。音量を小さくし、話す速度を速くします。よりソフトでスピーディーな音声になります。

以下はその一例です。

<speak>
<emphasis level="reduced">She is one</emphasis>
who <emphasis level="strong">will notice</emphasis>
that the first snapdragon of Spring <emphasis level="moderate">is in bloom</emphasis>
</speak> 。

神経質な声には強調が効かない。

ニュースキャスタースピーチ

ニュースキャスター風のスピーチをお探しですか?私たちはそれをカバーしました。

<speak>
<amazon:domain name="news">
『ガーディアン』紙1912年4月16日(火)版より。史上最大の船、ホワイトスター・ライナー・タイタニックの処女航海は、惨憺たる結果に終わった。タイタニック号は水曜日にサウサンプトンからニューヨークへの航海を開始した。日曜の夜遅く、ニューファンドランドのグランドバンクス沖で氷山に衝突した。
</amazon:domain>
</speak>は、この船は無線電信によって遭難信号を発信し、いくつかの船はその信号をキャッチして応答
することができました。

ただし、この仕掛けは一部の神経音声で利用可能です。

  • マシューまたはジョアンナの声(日米間)

  • ルーペ

  • エイミー(En-GB)

SSMLでもっとやりたいことは?

この機能のすべてのオプションは、Amazon Pollyのドキュメントでご確認ください。

質問の答えになりましたか?