Comment personnaliser le discours généré à l'aide de balises SSML ?

Édité le

Wave.video utilise la technologie Amazon Polly pour générer des pistes audio à partir de texte. Parfois, le résultat par défaut n'est pas parfait, et vous voudrez peut-être ajuster le discours. Voici les balises SSML pour vous aider !

Comment commencer à utiliser SSML dans votre Text-to-Speech

Rien de plus simple ! Placez votre texte à l'intérieur de deux balises <speak> :

<speak>Bonjour!</speak>

Veuillez noter que certaines balises SSML ne fonctionnent pas avec les voix neurales, et vice versa. Assurez-vous que vous utilisez les bonnes balises ici.

Comment faire une pause

Le TTS fait automatiquement des pauses après les virgules, les fins de phrases et les paragraphes. La manière la plus simple de créer une pause supplémentaire est d'utiliser la balise <break>. Elle est disponible à la fois pour la voix normale et la voix neuronale.

Cette balise possède différents paramètres qui définissent l'intensité de la pause : faible, moyenne, forte, x-forte. Vous pouvez également spécifier le temps exact de la pause à l'aide du paramètre time. Voir les exemples ci-dessous :

<speak> Oh, paresse, viens, viens à moi, <break strength="strong"/> seul. Tu es appelé par la douce fraîcheur et le bon repos <break time="0.8s"/> Seulement en toi je vois ma déesse propre </speak>.

Comment modifier la hauteur de la voix ou la rendre plus forte/plus douce ?

La balise <prosody> permet de rendre le son de la voix plus ou moins fort. Utilisez les valeurs silent, x-soft, soft, medium, loud, x-loud pour la modifier :

<speak>Tout le monde se demande <prosody volume="x-loud"> d'où vient le blues</prosody> </speak>.

Vous souhaitez contrôler le volume de manière plus stricte ? Il vous suffit d'indiquer une valeur en dB. Essayez-le :

<speak> Et tout <prosody volume="-5dB">semble bien</prosody> ce soir </speak>

Note : +6dB double presque le volume, -6dB le rend 50% plus silencieux.

Le contrôle du volume est pris en charge à la fois par la synthèse vocale normale et la synthèse vocale neuronale.

Accélérer ou ralentir la parole

La même balise <prosody> est utile ici ! La vitesse peut être définie avec l'attribut rate en utilisant x-slow, slow, medium, fast, x-fast ou le pourcentage. Essayez ceci :

<speak> <prosody rate="x-slow">Camion rouge, camion jaune.</prosody> <prosody rate="fast">Camion rouge, camion jaune.</prosodie> <prosodie rate="200%">Camion rouge, camion jaune.</prosodie> </speak>

Fonctionne aussi bien pour les voix neurales que pour les voix normales.

Mettre l'accent

Pour mettre un mot en valeur, utilisez la balise <emphasis> avec l'attribut level. Elle dispose de 3 options, dont voici le fonctionnement :

  • Fort: Augmente le volume et ralentit le débit de la parole de manière à ce qu'elle soit plus forte et plus lente.

  • Modéré: Augmente le volume et ralentit la vitesse d'élocution, mais moins que le volume fort. Modéré est la valeur par défaut.

  • Réduit: Diminue le volume et accélère la vitesse d'élocution. La parole est plus douce et plus rapide.

Voici un exemple :

<speak> <emphasis level="reduced">C'est elle</emphasis> qui <emphasis level="strong">remarquera</emphasis> que le premier muflier du printemps <emphasis level="moderate">est en fleur</emphasis> </speak>.

L'emphase ne fonctionne pas avec les voix neurales.

Discours du présentateur

Vous cherchez un discours de style journaliste ? Nous nous en occupons !

<speak> <amazon:domain name="news"> Extrait de l'édition du mardi 16 avril 1912 du journal The Guardian : Le voyage inaugural du paquebot White Star Titanic, le plus grand navire jamais lancé, s'est terminé en catastrophe. Le Titanic a commencé son voyage de Southampton à New York mercredi. Tard dans la nuit de dimanche à lundi, il a heurté un iceberg au large des Grands Bancs de Terre-Neuve. Par télégraphie sans fil, il a envoyé des signaux de détresse, et plusieurs paquebots étaient suffisamment proches pour capter et répondre à l'appel. </amazon:domain> </speak>.

Cependant, cette astuce n'est disponible que pour certaines voix neuronales :

  • Voix de Matthew ou Joanna (en-US)

  • Lupe (es-US)

  • Amy (en-GB)

Vous voulez en faire plus avec SSML ?

Découvrez toutes les options de cette fonctionnalité dans la documentation Amazon Polly.