La source des recherches sur la voix provient initialement du monde musical, mais les applications se sont progressivement diversifiées. Focus sur les nouveaux usages de la voix.

Jouer avec la voix : un nouvel instrument

De la production de voix de synthèse à la recréation des voix disparues, en passant par la transformation ou l’analyse d’une voix en temps réel, les chercheurs développent de nouvelles solutions toujours plus réalistes et adaptées aux usages portés par les innovations technologiques.

Pourtant, les premiers projets donnant lieu à ces travaux sont issus de la culture. De nombreux artistes collaborent régulièrement avec des spécialistes de l’audio pour repenser la composition, en utilisant la voix comme un nouvel instrument. Plus récemment, l’artiste DeLaurentis a conçu en collaboration avec Ircam Amplify une expérience sonore inédite : un choeur virtuel permettant de créer un effet de choeur en temps réel et d’harmoniser les voix sur différentes échelles musicales, par l’intermédiaire de gants connectés.

Soigner la voix : l’analyse du signal

En mettant le meilleur de la recherche audio et de la création sonore issue de l’Ircam au service des marchés, des nouveaux usages et des entreprises, Ircam Amplify est aux avant-postes pour accompagner les tendances technologiques relatives à la voix.

Pour l’application Vocal’iz de la MGEN, Ircam Amplify a développé un algorithme afin d’analyser la voix de l’utilisateur, puis ensuite lui proposer des exercices adaptés à son profil et à son état de forme. Un vrai coach vocal de poche utilisé à des fins préventives pour mieux prendre soin de sa voix.

Les enceintes connectées sont également un Eldorado qui reste en plein développement, à l’image de l’ensemble des systèmes d’accompagnement au quotidien. L’interaction se réinvente au rythme des avancées technologiques.

À ce stade, plus qu’une interaction la plus naturelle possible, il est encore question d’une compréhension totale des requêtes formulées par les utilisateurs. Explications avec Nathalie Birocheau, CEO d’Ircam Amplify : « L’IoT a actuellement d’abord un enjeu d’analyse de la voix (intelligibilité, compréhension du contenu, analyse de la scène sonore, etc.) avant même de penser à l’instauration d’un dialogue humain-machine plus qualitatif et plus émotionnel. Ensuite viendra l’amélioration de l’interaction, pour aller vers plus de contextualisation et de personnalisation (si cela est utile et pertinent pour l’usage attendu !). C’est sur cet axe qu’Ircam Amplify se positionne et développe des technologies pour les prochaines années. »

Écouter la voix : l’enjeu sociétal des deepfakes

La révolution numérique se déplace aujourd’hui vers une période post-digitale où le sonore reprend une place essentielle dans l’usage, pour des raisons sociologiques, économiques et technologiques.

Les interfaces humains/machines vocales se développent ainsi à toute vitesse, l’usage étant poussé par les jeunes générations, qui oublient les claviers et commencent à converser avec leur ordinateur et leur smartphone. En 2020 près de 30% de la navigation web se faisait sans écran, et les assistants vocaux seront présents sur 8 milliards de produits en 2023.

Ces chiffres donnent le vertige, mais prouvent que le siècle à venir sera celui du son et de la voix (et surtout celui de la multisensorialité), alors qu’en quelques siècles, nous étions passés d’une société de tradition orale à un monde de dominante visuelle.

Sur le modèle des trucages par l’image, les deepfakes audio sont la suite logique des travaux sur la synthèse vocale. La question n’est plus de savoir s’ils deviendront une tendance. Le travail sur ces filtres audio conçus grâce à l’Intelligence Artificielle et au Deep Learning est d’ores et déjà bien avancé, mais des risques évidents de manipulation et de désinformation persistent.

Cela car la voix génère un effet émotionnel très fort chez les individus. L’an dernier, avec l’aide d’Opinion Way, Ircam Amplify établissait que près de 70% de la population considère être plus facilement convaincus, selon la voix employée par l’interlocuteur.

La tendance est claire : le 21ème siècle sera celui de l’oralité, pas seulement entre les humains, mais également avec les machines. Encore faut-il qu’elles nous entendent et nous comprennent. C’est tout l’enjeu d’Ircam Amplify.

Découvrez Voice Cloning, la solution qui a permis à Thierry Ardisson de reconstituer la voix de personnalités disparues.