Actualité

Comment les interfaces sonores et vocales construisent de nouvelles relations aux objets de notre quotidien ?

17/06/2021

Les pouvoirs de la voix dans le secteur de l’IoT Robotique

Série spéciale forum Ircam Amplify 21 – chapitre 4/5

Voir le replay du forum 2021

Intervenants

– Luc Julia, Chief Scientific Officer – Renault Group

– Jérôme Monceaux, CEO – Spoon.ai

L’IA ne remplacera jamais l’humain, mais plein de petites IA feront les choses mieux que nous, on leur adressera la parole et elles nous répondront
Luc Julia, Chief Scientific Officer – Renault Group (co-créateur de Siri)

La voix définit qui on est, Bob l’éponge n’est plus Bob l’éponge si on change sa voix. Si on travaille assez bien notre personnage, on s’habituera à sa voix, pas besoin qu’elle soit humaine.
Jérôme Monceaux, CEO – Spoon.ai

L’heure de l’audio a sonné :

Transmettre par le son des émotions et pensées à nos objets connectés

Nous créons de nouvelles relations aux objets à travers des interfaces sonores et vocales. Aujourd’hui on parle déjà à notre voiture et nos enceintes connectées, à un ordinateur ou un smartphone… Demain, le son et la voix seront au cœur de nos relations avec la technologie. L’internet des objets (IoT) est en plein essor et les assistants vocaux comme Alexa, Google ou Siri ont énormément progressé, notamment avec une synthèse vocale toujours plus réaliste dans le contenu et la syntaxe.

De nombreuses entreprises, comme Samsung, Renault, ou Spoon, se penchent aujourd’hui sur l’expression et l’intégration. Traduction, comment faire que robots et objets comprennent les nuances de ton, les émotions, et apportent une réponse pertinente et vivante…

La prosodie au cœur de l’IoT

Varier les sons et la voix pour rendre ses émotions et ses intentions plus intelligibles à ses interlocuteurs. L’homme le fait depuis la nuit des temps, comme le rappelle Frédéric Amadu, CTO d’Ircam Amplify : « Dans l’IoT tout passe par la voix, c’est un retour aux traditions ancestrales humaines. Avec les machines on a commencé par des boutons, puis de la gestuelle pour s’attaquer aujourd’hui à la voix. » La prosodie est pour lui au centre des recherches en matière d’IoT : « Chaque humain parle sur une fréquence qui lui est propre, sa fréquence de base. Jouer sur les fréquences pour transmettre de la tristesse, de l’énervement, ralentir le rythme ou baisser d’un ton… C’est la prosodie. »

Jérôme Monceaux est CEO de Spoon, spécialiste de la robotique interactive. Pour lui, « tout se joue sur les variations prosodiques. Nous voulons que l’IA soit capable de ralentir son rythme de parole, de l’accentuer, et devenir pédagogique… Là on est super efficaces ! » Donner du relief à la voix est donc primordial. « Les gens écoutent mal si l’on n’introduit pas ces variations prosodiques comme le font les humains. »

Oser plus de créativité, moins humaniser

Singer les émotions et variations vocales des humains, mais ne surtout pas essayer d’être strictement comme eux. « Il faut inventer, innover, détourner la synthèse vocale, caricaturer le personnage et sa voix », ajoute Jérôme Monceaux, « Nous créons une espèce nouvelle avec des caractéristiques différentes qu’il faut découvrir. » Et le spécialiste d’ajouter : « Parler ne se fait pas forcément avec la voix, on pointe ou on regarde un objet, c’est très multimodal. On n’attend pas forcément une réponse humaine, une voix, mais une réponse sonore simple, sans qu’elle soit verbale. On parle ici de signature sonore. »

Améliorer la compréhension et la retranscription des émotions des IA et robots, mais jusqu’où ? « L’IA ne va jamais remplacer l’humain, mais plein de petites IA feront les choses mieux que nous dans des domaines très spécifiques. », souligne Luc Julia, co-créateur de Siri aujourd’hui chez Renault Group. Le plus compliqué est la compréhension du mot. Le problème c’est le sens, pas la reconnaissance. « Les IA vont commencer à nous comprendre, et adapter leurs réponses en fonction de ce qu’elles vont percevoir chez nous, de notre humeur. Si on s’attaque à des domaines très particuliers, on sera capable de faire des choses extraordinaires, qui donnent une impression de compréhension de la machine beaucoup plus importante qu’elle n’est en réalité. »

Les solutions Ircam Amplify :

La prosodie, c’est notre terrain de jeu

Dans le secteur de l’IoT, Ircam Amplify propose ses offres « interfaces ». A Ircam Amplify, nous nous appuyons sur les travaux et expertises de plus de 100 chercheurs spécialisés dans le son à l’IRCAM. Des compétences sur le son et la voix qui datent des débuts de l’Ircam il y a 40 ans. Frédéric Amadu, CTO d’Ircam Amplify explique qu’aujourd’hui, « nous ne cherchons pas à détecter ou retranscrire les mots, mais à ajouter de l’émotion dans une voix synthétisée. »

Une première expérience a été créée par Ircam Amplify

« Au lieu de se focaliser sur les mots, nous nous concentrons sur les intentions et les émotions. » Notre objectif dans les domaines de la robotique et de l’IoT : transformer nos compétences de prosodie et les adapter pour répondre aux besoins de nos partenaires et de nos clients qui font de la synthèse vocale. « C’est un travail collaboratif avec tous les acteurs dans ce domaine là. »

Contactez-nous pour en savoir plus sur ces technologies.

Vous souhaitez en savoir plus sur les pouvoirs du son ?

Découvrez le replay du Forum pour les Pouvoirs du Son dans l’Industrie 2022, afin de mieux appréhender les nouveaux usages de l’audio au service d’un monde partagé.

Voir le replay

Le chiffre qui parle…

des français aimeraient que les assistants vocaux aient des voix plus variées d’un outil à un autre (GPS, Alexa, Siri, etc.).
Sondage OpinionWay pour Ircam Amplify – 2020

Découvrir l’étude

Cet article est issu de la newsletter Le Murmure du Son, abonnez-vous pour découvrir d’autres pouvoirs du son.

Articles en lien

Expérience sonore, expériences immersives, création sonore, expérience sensorielle

Pouvoirs du son

Numérique, universelle et innovante : l’expérience sonore

13/01/2022

Dans un contexte toujours plus digitalisé, le son pourrait-il nous aider à véhiculer de nouvelles émotions ? Une profonde expérience sensorielle et émotionnelle se traduit bien souvent par l’intégration d’une création sonore complète et réfléchie. L’innovation audio est donc au cœur de la création d’expériences plurielles, pour les améliorer et les rendre les plus accessibles possible.

Une Histoire de...

Une histoire des voix de synthèse

03/01/2022

À l’heure de l’IA, du deep learning et des assistants vocaux, l’Ircam se place comme un pionnier en matière de voix de synthèse. Le fruit de cette recherche permet aujourd’hui d’humaniser des voix en y insufflant de l’émotion, de la singularité et de la finesse.

Pouvoirs du son

Voici pourquoi le « Sound Tech For Good » sera au coeur du Forum pour les Pouvoirs du Son dans l’Industrie 2022

24/12/2021

Ircam Amplify acteur de la Semaine du Son de l’UNESCO. Le 20 janvier 2022, se tiendra une nouvelle édition du Forum pour les Pouvoirs du Son dans l’Industrie, en streaming et en direct de l’Ircam, de 14h à 18h, avec une thématique axée autour du « Sound Tech For Good ». Mais que signifie ce terme ?

Vous souhaitez nous rencontrer ?

Vous avez un sujet à nous soumettre, un besoin, une question ? N’hésitez pas à nous contacter !

Nous contacter