Transcription de Tomorrow Will Be Heard (S2E3), le podcast qui décrypte les nouveaux usages de l’audio dans notre quotidien

La recherche et la technologie permettent aujourd’hui de cloner une voix et c’est ce que nous allons vous raconter dans le nouvel épisode de ce podcast.

Nous avons rendez vous à l’Hôtel du Temps et c’est Thierry Ardisson qui nous accueille pour nous parler de ce nouveau concept d’émission co-produit par Ardimages et Troisième Œil Productions : « Hôtel du Temps, c’est l’ambition de ressusciter des légendes disparues pour leur faire raconter leur vie. Donc les ressusciter, comment ?Grâce à l’intelligence artificielle. C’est à dire que, grâce au deep learning, on arrive à reconstituer le visage de Jean Gabin, de Dalida, de Coluche, de Johnny Halliday. Et ensuite, on met ces visages sur des comédiens qui eux, vont incarner le personnage. C’est à dire qui doivent quand même avoir le comportement de la personne qu’il vont incarner. Ensuite, on met le masque numérique et c’est magique, ça fonctionne. Alors le problème, c’était la voix. D’où notre idée de nous adresser à l’Ircam, que je connaissais depuis mon adolescence grâce à Pierre Boulez et ensuite Jean-Michel Jarre, dont je connaissais l’Ircam. Je ne savais pas si l’Ircam pouvait faire ça, mais dans tous les cas, je savais que c’était là ou on pouvait avoir du bon son, du son de qualité. »

Thierry Ardisson a donc rencontré les équipes d’Ircam Amplify, qui lui ont proposé une technologie vocale unique, le Voice Cloning.

Frederic Amadu, Directeur technique d’Ircam Amplify : « Le clonage vocal, c’est une nouvelle technologie de l’Ircam qui permet de transformer la voix d’un personnage en la voix d’un autre personnage. Pour l’épisode d’Hôtel du Temps, l’un des personnages, c’est Dalida, que Thierry Ardisson a voulu faire revivre pour faire une interview. Mais en fait, c’est une actrice qui a joué le rôle de Dalida et donc nous, on a récupéré la voix de cette actrice et grâce au logiciel, on a pu transformer sa voix en la voix de Dalida. Pour que ça fonctionne, nous avons besoin de comprendre la façon dont Dalida parlait. D’un côté, on donne des bandes sons de sa voix à la machine et un système d’intelligence artificielle fait une analyse de toutes les façons, dont Dalida a de prononcer les mots. Et on lui a donné aussi une partie de la voix de l’actrice, pour qu’il apprenne aussi comment l’actrice a l’habitude de parler : quel est son timbre de voix et ses mimiques de phrasé. Et le système de machine learning, lui va être capable de trouver comment passer de l’un à l’autre. »

Une innovation majeure qui s’appuie sur les technologies et les savoir faire de l’Ircam.

Démonstration : « Si on écoute la voix de Dalida, elle sonne comme ça : « Moi, je suis une interprète, c’est à dire je donne du rêve. Donc je n’en ai pas besoin tellement de raconter les problèmes que tous les gens ont. » Ça, c’est une portion de voix de Dalida, qu’on a donnée au système pour qu’il comprenne quel est le timbre de la voix de Dalida et la voix de l’actrice, c’est ça : « Et puis en 1960, j’ai fait venir ma famille, mais toi, en 56, ça a été beaucoup plus violent. » Et ensuite, en appliquant le filtre qu’on a créé et qui permet de transformer la voix de l’actrice en voix de Dalida, on se retrouve en sortie avec ça. « Mon père s’appelait Pietro et ma mère Giuseppina et faisait partie des deux seules familles d’un village calabrais, Serrastretta, qui était installé au Caire. » »

Écouter l’épisode

Cette innovation a totalement convaincu les équipes de production.

Christophe Pinguet, Producteur chez Troisième Œil Productions : « Le son, c’était, je dirais presque la plus grosse difficulté. Quand Thierry est arrivé, il avait déjà développé son projet. L’image était plutôt bien avancée, avec Mac Guff qui avait beaucoup travaillé, donc l’effet visuel était extrêmement bluffant. Restait à trouver les solutions sur le son, soit des imitateurs, un peu classique, soit une technique aussi novatrice que celle qu’on utilisait dans l’image avec intelligence artificielle. Donc ça a été un vrai travail. Moi, depuis le temps que je produis des documentaires ou des magazines, le pire cauchemar, c’est le son. Et donc, quand on a associé ce projet avec l’Ircam pour travailler sur le développement d’un logiciel et trouver de vraies solutions, ça m’a fasciné. Ça fait longtemps que je fais ce métier là et c’est la première fois que sur un projet, je suis aussi fasciné par la technique, à la fois sur l’image et sur le son. »

Frederic Amadu : « Le logiciel qui a été développé, son avantage par rapport à ce qui existe, c’est qu’il peut garder l’émotion, la sensibilité qu’un acteur va donner. Ce que l’on prend de Dalida, c’est le timbre de sa voix. On applique le timbre sur un jeu de voix. Si l’actrice parle vite, on va avoir un résultat de Dalida qui parle vite. Si elle parle lentement, on va l’entendre parler lentement. Si elle est chagrinée, on va l’entendre, on va entendre le chagrin et si elle est joyeuse, on va entendre l’explosion de joie. Donc c’est l’actrice qui doit jouer l’émotion, elle porte l’émotion, la prosodie. Le logiciel vient ajouter le timbre de la voix de Dalida pour qu’on entende Dalida dire ces mots-là. »

La technologie ouvre de nouveaux territoires d’expression aux industries créatives.

Thierry Ardisson : « Quand j’ai vu les premiers deepfakes, je me suis dit, mais c’est génial. Alors les deepfakes, c’est utilisé soit d’une façon néfaste, c’est à dire vraiment pour nuire aux gens, pour les mettre dans des situations inappropriées, disons, soit pour des raisons comiques. Et donc, j’ai dit pourquoi on ne se sert pas de cet outil pour des causes nobles ? C’est donc ce qu’on a fait. Parce qu’en fait le deepfake ça a très mauvaise réputation. Mais le deepfake, c’est un outil et donc moi c’est pour ça que je suis appliqué à l’intelligence artificielle pour spectaculariser la culture, c’est le slogan de l’émission. ‘Utiliser l’intelligence artificielle pour spectaculariser la culture’. »

En matière de sons, les recherches menées par l’Ircam vont permettre d’aller encore plus loin.

Nicolas Pingnelain, Directeur commercial d’Ircam Amplify : « Ce qui est très nouveau dans le concept de Thierry Ardisson, c’est la durée. Jusqu’à présent, on avait du clonage vocal de manière assez ponctuelle. Il y a eu notamment Le livre de Boba Fett, avec Skywalker qui parle. Là, on parle d’un ensemble de 60 minutes, qui doit être excellent, puisque c’est un petit peu comme les assistants vocaux aujourd’hui : on les tolère bien d’un point de vue monotone et robotique sur quelques secondes, mais pas sur une conversation. On fatigue très vite. C’était l’écueil à éviter fondamentalement par rapport à ce qu’on a livré. Je pense qu’on peut dire qu’on a fait quelque chose qui peut s’écouter de manière très ludique et plaisante sur la durée totale du programme. 90 minutes de programmes pour à peu près 60 minutes de voix recrée de Dalida, c’est complètement unique. C’est une commande qui nous a fait accélérer un axe de recherche qui était existant. Et aujourd’hui, si on compare à ce dont on était très fier il y a six mois, nos résultats sont juste exceptionnels. »

La voix de synthèse ou le Voice Cloning, une innovation majeure proposée par Ircam Amplify avec l’équipe Analyse et Synthèse des Sons du laboratoire STMS, qui regroupe l’Ircam, le CNRS, Sorbonne Université et le Ministère de la Culture.

Plus d’épisodes du podcast Tomorrow Will Be Heard