Wave.video utilise la technologie Amazon Polly pour générer des pistes audio à partir de texte. Parfois, le résultat par défaut n'est pas parfait, et vous voudrez peut-être ajuster le discours. Voici les balises SSML pour vous aider !

Comment commencer à utiliser SSML dans votre système de synthèse vocale ?

C'est facile ! Placez votre texte à l'intérieur de deux balises <speak>:

<speak>Hello!</speak>

Veuillez noter que certaines balises SSML ne fonctionnent pas avec les voix neurales, et vice versa. Assurez-vous que vous utilisez les bonnes balises ici.

Comment faire une pause

TTS fait automatiquement des pauses après les virgules, les fins de phrases et les paragraphes. La façon la plus simple de créer une pause supplémentaire est d'utiliser la balise <break>. Elle est disponible à la fois pour les voix normales et les voix neurales.

Cette balise possède différents paramètres qui définissent l'intensité de la pause : faible, moyenne, forte, x-forte. Vous pouvez également spécifier le temps exact de la pause avec le paramètre time. Voir les exemples ci-dessous :

<speak>
Oh, paresse, viens, viens à moi, <break strength="strong"/> seul.
Tu es appelé par la douce fraîcheur et le bon repos <break time="0.8s"/>
Seulement en toi je vois ma propre déesse
</speak>

Comment modifier la hauteur de la voix ou la rendre plus forte/quiétude ?

Vous pouvez rendre le son de la voix plus fort ou plus calme avec la balise <prosody>. Utilisez les valeurs silent, x-soft, soft, medium, loud, x-loud pour la modifier :

<speak>
Tout le monde se demande <prosodie volume="x-loud">d'où vient le blues</prosodie> ?
</speak>

Vous voulez contrôler le volume d'une manière plus stricte ? Il suffit de mettre une valeur en dB. Essayez-le :

<speak>
Et tout <prosodie volume="-5dB">semble bien</prosodie> ce soir
</speak>

Note : +6dB double presque le volume, -6dB le rend 50% plus silencieux.

Le contrôle du volume est pris en charge à la fois par la synthèse vocale ordinaire et la synthèse vocale neuronale.

Accélérer ou ralentir la parole

La même balise <prosody> est utile ici ! La vitesse peut être définie avec l'attribut rate en utilisant x-slow, slow, medium, fast, x-fast ou pourcentage. Essayez ceci :

<speak>
<prosodie rate="x-slow">Camion rouge, camion jaune.</prosodie>
<prosodie rate="fast">Camion rouge, camion jaune.</prosodie>
<prosodie rate="200%">Camion rouge, camion jaune.</prosodie>
</speak>

Fonctionne aussi bien pour les voix neurales que pour les voix ordinaires.

Mettre l'accent

Pour accentuer un mot, utilisez la balise <emphasis> avec l'attribut level. Elle possède 3 options, voici comment elles fonctionnent :

  • Fort: Augmente le volume et ralentit le débit de parole de façon à ce que le discours soit plus fort et plus lent.

  • Modéré: Augmente le volume et ralentit le débit de parole, mais moins que fort. Modéré est la valeur par défaut.

  • Réduit: Diminue le volume et accélère le débit de parole. La parole est plus douce et plus rapide.

Voici un exemple :

<speak>
<emphasis level="reduced">Elle est celle</emphasis>
qui <emphasis level="strong">remarquera</emphasis>
que le premier muflier du printemps <emphasis level="moderate">est en fleur</emphasis>
</speak>

L'accentuation ne fonctionne pas avec les voix neurales.

Discours du présentateur

Vous cherchez un discours dans le style d'un présentateur de journal télévisé ? Nous avons ce qu'il vous faut !

<speak>
<amazon:domain name="news">
Extrait de l'édition du mardi 16 avril 1912 du journal The Guardian : Le voyage inaugural du paquebot White Star Titanic, le plus grand navire jamais lancé, s'est terminé en catastrophe. Le Titanic a commencé son voyage de Southampton à New York le mercredi. Tard dans la nuit de dimanche à lundi, il a heurté un iceberg au large des Grands Bancs de Terre-Neuve. Par télégraphie sans fil, il a envoyé des signaux de détresse, et plusieurs paquebots étaient suffisamment proches pour capter et répondre à l'appel.
</amazon:domain>
</speak>

Cependant, cette astuce est disponible pour certaines voix neurales :

  • Voix de Matthew ou Joanna (en-US)

  • Lupe (es-US)

  • Amy (en-GB)

Vous voulez en faire plus avec SSML ?

Découvrez toutes les options de cette fonctionnalité dans la documentation Amazon Polly.

Cela a-t-il répondu à votre question ?