Voix-off ou voix de synthèse pour votre accueil téléphonique ?

Le TTS, ou Text-To-Speech, ou encore voix de synthèse, est une technologie qui peut générer un message audio à partir d’un texte écrit (de tout type : word, pdf, .txt, etc.). Avec les progrès de l’intelligence artificielle, le TTS a fait d’énormes progrès dans la génèse des audios, les rendant encore plus qualitatifs à l’écoute.

Par exemple, désormais, les méthodes de synthèse basées sur l’apprentissage profond font explicitement correspondre les caractéristiques linguistiques aux caractéristiques acoustiques avec des réseaux de neurones profonds. Plus spécifiquement l’apprentissage en profondeur peut récupérer des données d’entrainement en très grand nombre pour « échantillonner » une voix, afin de permettre ensuite un TTS de meilleure qualité, basé sur les caractéristiques auditives de cette voix « échantillon ».

Dans les points positifs de cette technique nouvelle il y a la robustesse du modèle de voix à une variation de texte plus grande, mais aussi une augmentation du naturel et de l’intelligibilité. Toutefois, la prosodie développée avec la moyenne des données d’entraînement reste « plate ». La question entre voix non humaine et voix humaine n’est donc pas si simple.

Alors comédien voix-off ou voix de synthèse en téléphonie ?

Tout dépend de l’objectif de l’entreprise, mais toute perfectionnées soient-elles, les méthodes les plus récentes de synthèse vocale restent encore « en deça » d’une voix humaine dès qu’il va s’agir de véhiculer de « l’information implicite » telle que l’émotion, l’empathie, l’écoute, etc. En effet, ces systèmes à base d’IA, bien que meilleurs que les anciens modes de synthèse vocale (de type additive) ne savent pas encore opérer ce type de production.

Dès lors, si vous poursuivez une logique purement fonctionnelle à travers votre SVI ou votre accueil téléphonique, vous pouvez envisager de recourir à une voix de synthèse (TTS). Attention malgré tout à veiller à une bonne qualité globale d’exécution car le « sentiment robotique » peut assez rapidement lasser votre interlocuteur. Et l’utilisation de l’humour pour humaniser la relation rencontrera rapidement des limites.

Si vous êtes dans une logique de qualité, de relation, et de défense des valeurs de votre marque, ou encore de passer de l’information complexe, il est clair que nous vous déconseillons l’utilisation d’une voix artificielle pour vos messages en téléphonie. En effet, dans cette perspective, établir un lien émotionnel avec votre interlocuteur est un élément clé de la réussite de votre communication et rien ne remplace alors le comédien voix-off professionnel !