Transcription de Tomorrow Will Be Heard (S2E3), le podcast qui décrypte les nouveaux usages de l’audio dans notre quotidien

La recherche sur la voix va profondément modifier notre rapport aux objets. Exemple avec Vocal’iz, un coach vocal imaginé par la MGEN qui vous accompagne au quotidien dans votre smartphone et qui vous permet d’analyser et de travailler votre voix, votre ton, votre souffle ou encore la prise de parole en public.

Mélusine Harlé, Directrice de la prévention à la MGEN : « C’est une appli qu’on peut télécharger sur son téléphone. Il suffit de s’inscrire. Ensuite, on peut faire un test pour savoir quelle est la qualité de sa voix, sa tonalité. Est-ce qu’on a une petite voix ? Est-ce qu’on est soprano, alto ou autre ? Une fois le test fait, un certain nombre d’exercices sont proposés. Typiquement, si vous avez une voix fatiguée, Vocal’iz vous dira : « Aujourd’hui, faites de la respiration. ». Si vous dites : « Aujourd’hui, j’ai une voix qui a la pêche », Vocal’iz vous répondra : « Si vous essayez du chant ? », ou quelque chose de beaucoup plus puissant qui vous permettra de vous amuser beaucoup plus dans la journée.»

Imaginé d’abord pour les enseignants, l’application s’adresse à tous et s’appuie sur les travaux de recherche menés à l’Ircam et développés par Ircam Amplify.

Méluse Harlé : « La santé de la voix, c’est un vrai sujet pour la MGEN, c’est la raison pour laquelle nous avons développé cette application avec Ircam Amplify.Nous nous sommes finalement dit que personne n’avait pris ce sujet d’une manière à la fois ludique et éducative. Tout naturellement, on est allé vers Ircam Amplify pour voir comment ils pouvaient nous aider, grâce à la recherche de l’Ircam, à construire la brique technologique qui nous permettrait de réaliser notre rêve de préventeur. »

La technologie au service de la voix et du bien-être

Frederic Amadu, Directeur technique d’Ircam Amplify :  « On utilise un algorithme d’analyse du signal, puis le logiciel va à travers des fonctions développées dans le laboratoire de l’Ircam, donner par exemple la fréquence à laquelle on parle, donc la hauteur, c’est-à-dire notre tonalité. La fréquence est le paramètre le plus compréhensible. Nous avons d’autres analyseurs comme la puissance à laquelle on va parler : est-ce qu’on chuchote ou est ce qu’on parle fort ? Un système va compter le nombre de syllabes prononcées sur un temps donné, ce qui va permettre de dire si l’on parle vite ou lentement. Nous reprenons tous ces paramètres.

La caractéristique principale qu’on peut donner, est de savoir si l’on a un discours, une élocution qui est posée, compréhensible et donc de qualité. Notre brique donne des paramètres d’analyse bruts, puis il a fallu mettre des seuils afin de définir si l’on parle par exemple trop aigu, trop grave ou trop vite. Ça, c’est le métier d’orthophoniste. Avec la MGEN et les orthophonistes, nous avons travaillé ensemble pour définir les règles et exercices à mettre en place. L’objectif du coaching est de refaire l’exercice plusieurs fois en suivant les conseils que l’application donne selon le résultat, afin d’améliorer sa note d’élocution. »

Écouter l’épisode

Vocal’iz analyse votre voix, mais permet également d’améliorer votre prise de parole.

Méluse Harlé : « Il y a toute une série d’exercices sur la prosodie qui permet de travailler, notamment sur le ton, les rythmes ou les pauses, qui sont très importantes. Par exemple, il y a une série avec de grands classiques de la littérature française, comme la tirade de Cyrano de Bergerac que l’’on connaît tous. Avec Vocal’iz, on allie le plaisir et le travail de la voix.

Parmi les orthophonistes qui ont travaillé sur le projet, Corinne Loie, Chargée de prévention à la MGEN et artiste lyrique : « Pourquoi s’occuper de sa voix ? Parce que ça va faire grandir en connaissance de soi-même. La plupart du temps, ça aide également à améliorer les relations et les interactions sociales, à grandir en confiance ou en confort dans la réalisation de ces tâches professionnelles. C’est la vocation de de la MGEN, qui est un organisme préventeur des risques professionnels. D’ailleurs la connaissance de notre propre voix, la plupart du temps, nous aide à nous mettre au monde. »

Aujourd’hui, la technologie permet donc d’être mieux avec soi-même et de mieux interagir avec les autres, demain, la recherche offrira la possibilité de mieux interagir avec les objets.

Nathalie Birocheau, Directrice générale d’Ircam Amplify : « C’est un champ de recherche immense et il y a différents champs d’application. Il y a l’analyse, la synthèse, le clonage ou la transformation de la voix en temps réel. Ces usages viennent de demandes d’artistes, ce qui est le principe de l’Ircam. Ils ont progressivement trouvé des cas d’usage dans l’industrie. L’objectif d’Ircam Amplify est d’aller appliquer ces pépites technologiques dans des cas d’usage industriel : liés aux interfaces avec les assistants vocaux, aux interfaces avec les robots plus tard ou aux objets connectés au sens large.

C’est un champ des possibles très important pour nous, puisqu’il y a 8 milliards d’assistants vocaux déjà en circulation en 2023. On estime qu’à peu près 30% de la navigation sur le Web se fait sans écran. Donc, il faut une interaction de qualité, car sinon nous n’aurons pas envie de nous en servir. Mais surtout, il faut que ça fonctionne, ne serait-ce que pour comprendre quand il y a plusieurs locuteurs ou interpréter ce qu’on est en train de donner comme information en fonction de la manière dont on s’exprime. On sait qu’entre êtres humains, la forme et la manière dont on déduit le message est plus importante que le fond.

Aujourd’hui, ces objets ne font pas encore d’extraction de la prosodie, c’est-à-dire de la manière dont on prononce la phrase et donc elle n’interprète pas si l’on est triste, pressé, s’il y a des enfants dans la pièce ou quels âges ont les interlocuteurs. Si c’est une personne âgée, l’assistant vocal, va peut-être devoir parler plus lentement, plus posé et plus fort, puis se réadapter avec un enfant, pour prendre toutes ces informations en entrant et adapter la manière dont le message de sortie est délivré. Dans une voiture, il y a beaucoup de bruit autour, on est en pleine tempête, il pleut, ce qui provoque du bruit sur les vitres : l’assistant vocal de la voiture devrait hausser le ton. Aujourd’hui, ce n’est pas encore intégré comme intelligence dans les systèmes qui parlent aux êtres humains. »

Plus d’épisodes du podcast Tomorrow Will Be Heard