Les pouvoirs de la voix dans le secteur de l’IoT Robotique

Série spéciale forum Ircam Amplify 21 – chapitre 4/5

Voir le replay du forum 2021

Intervenants

– Luc Julia, Chief Scientific Officer – Renault Group

– Jérôme Monceaux, CEO – Spoon.ai

L’IA ne remplacera jamais l’humain, mais plein de petites IA feront les choses mieux que nous, on leur adressera la parole et elles nous répondront

Luc Julia, Chief Scientific Officer – Renault Group (co-créateur de Siri)

La voix définit qui on est, Bob l’éponge n’est plus Bob l’éponge si on change sa voix. Si on travaille assez bien notre personnage, on s’habituera à sa voix, pas besoin qu’elle soit humaine.

Jérôme Monceaux, CEO – Spoon.ai

L’heure de l’audio a sonné :

Transmettre par le son des émotions et pensées à nos objets connectés

Nous créons de nouvelles relations aux objets à travers des interfaces sonores et vocales. Aujourd’hui on parle déjà à notre voiture et nos enceintes connectées, à un ordinateur ou un smartphone… Demain, le son et la voix seront au cœur de nos relations avec la technologie. L’internet des objets (IoT) est en plein essor et les assistants vocaux comme Alexa, Google ou Siri ont énormément progressé, notamment avec une synthèse vocale toujours plus réaliste dans le contenu et la syntaxe.

De nombreuses entreprises, comme Samsung, Renault, ou Spoon, se penchent aujourd’hui sur l’expression et l’intégration. Traduction, comment faire que robots et objets comprennent les nuances de ton, les émotions, et apportent une réponse pertinente et vivante…  

 La prosodie au cœur de l’IoT

Varier les sons et la voix pour rendre ses émotions et ses intentions plus intelligibles à ses interlocuteurs. L’homme le fait depuis la nuit des temps, comme le rappelle Frédéric Amadu, CTO d’Ircam Amplify : « Dans l’IoT tout passe par la voix, c’est un retour aux traditions ancestrales humaines. Avec les machines on a commencé par des boutons, puis de la gestuelle pour s’attaquer aujourd’hui à la voix. » La prosodie est pour lui au centre des recherches en matière d’IoT : « Chaque humain parle sur une fréquence qui lui est propre, sa fréquence de base. Jouer sur les fréquences pour transmettre de la tristesse, de l’énervement, ralentir le rythme ou baisser d’un ton… C’est la prosodie. »

Jérôme Monceaux est CEO de Spoon, spécialiste de la robotique interactive. Pour lui, « tout se joue sur les variations prosodiques. Nous voulons que l’IA soit capable de ralentir son rythme de parole, de l’accentuer, et devenir pédagogique… Là on est super efficaces ! » Donner du relief à la voix est donc primordial. « Les gens écoutent mal si l’on n’introduit pas ces variations prosodiques comme le font les humains. »

Oser plus de créativité, moins humaniser

Singer les émotions et variations vocales des humains, mais ne surtout pas essayer d’être strictement comme eux. « Il faut inventer, innover, détourner la synthèse vocale, caricaturer le personnage et sa voix », ajoute Jérôme Monceaux, « Nous créons une espèce nouvelle avec des caractéristiques différentes qu’il faut découvrir. » Et le spécialiste d’ajouter : « Parler ne se fait pas forcément avec la voix, on pointe ou on regarde un objet, c’est très multimodal. On n’attend pas forcément une réponse humaine, une voix, mais une réponse sonore simple, sans qu’elle soit verbale. On parle ici de signature sonore. »

Améliorer la compréhension et la retranscription des émotions des IA et robots, mais jusqu’où ? « L’IA ne va jamais remplacer l’humain, mais plein de petites IA feront les choses mieux que nous dans des domaines très spécifiques. », souligne Luc Julia, co-créateur de Siri aujourd’hui chez Renault Group. Le plus compliqué est la compréhension du mot. Le problème c’est le sens, pas la reconnaissance. « Les IA vont commencer à nous comprendre, et adapter leurs réponses en fonction de ce qu’elles vont percevoir chez nous, de notre humeur. Si on s’attaque à des domaines très particuliers, on sera capable de faire des choses extraordinaires, qui donnent une impression de compréhension de la machine beaucoup plus importante qu’elle n’est en réalité. »

Les solutions Ircam Amplify :

La prosodie, c’est notre terrain de jeu

Dans le secteur de l’IoT, Ircam Amplify propose ses offres « interfaces ». A Ircam Amplify, nous nous appuyons sur les travaux et expertises de plus de 100 chercheurs spécialisés dans le son à l’IRCAM. Des compétences sur le son et la voix qui datent des débuts de l’Ircam il y a 40 ans. Frédéric Amadu, CTO d’Ircam Amplify explique qu’aujourd’hui, « nous ne cherchons pas à détecter ou retranscrire les mots, mais à ajouter de l’émotion dans une voix synthétisée. »

Une première expérience a été créée par Ircam Amplify

« Au lieu de se focaliser sur les mots, nous nous concentrons sur les intentions et les émotions. » Notre objectif dans les domaines de la robotique et de l’IoT : transformer nos compétences de prosodie et les adapter pour répondre aux besoins de nos partenaires et de nos clients qui font de la synthèse vocale. « C’est un travail collaboratif avec tous les acteurs dans ce domaine là. »

Contactez-nous pour en savoir plus sur ces technologies.

Vous souhaitez en savoir plus sur les pouvoirs du son ?

Découvrez le replay du Forum pour les Pouvoirs du Son dans l’Industrie 2022, afin de mieux appréhender les nouveaux usages de l’audio au service d’un monde partagé.

Le chiffre qui parle…

des français aimeraient que les assistants vocaux aient des voix plus variées d’un outil à un autre (GPS, Alexa, Siri, etc.).
Sondage OpinionWay pour Ircam Amplify – 2020 

Découvrir l’étude

Cet article est issu de la newsletter Le Murmure du Son, abonnez-vous pour découvrir d’autres pouvoirs du son.