Voix

La voix transformée ou de synthèse, nouveau terrain de jeu pour les industries créatives

Nous entrons aujourd’hui dans une nouvelle ère : celle de la voix.

Technologiquement, le déploiement de la 5G croisé aux nouvelles puissances de calcul, permet de rendre tangible des années de recherche sur la reproduction et la transformation vocales.

Les usages vocaux se déploient, amplifié par la facilité d’usage. Si chaque personne interagit avec les autres via des canaux qui se sont multipliés, alors le rythme soutenu de renouvellement de ces contenus nécessite la montée en gamme des expériences d’écoute.

De manière plus globale, après des décennies de domination de l’image et du texte, la dimension sensible et émotionnelle portée par la voix devient un nouvel eldorado pour transmettre des émotions ou créer de nouvelles expériences multisensorielles.  Un nouveau terrain de jeu pour personnaliser son avatar dans le metaverse ou le jeu vidéo ? Redonner la parole à des personnalités en reconstituant leur voix dans l’industrie documentaire et audiovisuelle ?

Ainsi, le clonage vocal et plus généralement la synthèse vocale, doivent faire face à cette évolution rapide en veillant à être juste et responsable.

Un compagnonnage vertueux entre l’humain et la machine pour une plus grande expressivité

Il existe aujourd’hui de nombreux outils permettant de produire des contenus vocaux courts – une simple recherche sur le clonage vocal renverra vers une dizaine de sociétés. La plupart d’entre elles ne proposent en réalité que de la création simple de contenu vocal à partir d’un texte. Cette approche ne permet ni la compréhension ni l’interprétation par la machine, donc une émotion non maitrisée !

Une autre voie est possible. S’appuyer sur le compagnonnage vertueux entre l’humain et la machine dans le design d’algorithmes et la post production, d’abord, pour intervenir sur d’éventuels biais liés à l’inclusivité (genre, accents…). Ensuite s’appuyer sur un acteur pour transmettre l’intention et créer un socle à la voix transformée ou de synthèse par sa prosodie et ainsi générer une haute qualité sensible et un réalisme inégalé.

Ainsi, la principale opportunité pour le clonage vocal réside dans le haut de gamme de cette technologie: la reproduction de la voix d’une personne doit être le reflet de son caractère et de ses émotions réelles.

Le clonage vocal ouvre de nouvelles voies aux créateurs. Qu’il s’agisse de recréer un discours qui n’a pas été correctement enregistré ou d’avoir une utilisation disruptive de la voix de personnalités, les possibilités sont infinies. Mais elles doivent être maîtrisées.

C’est pourquoi, Ircam amplify accompagne des projets documentaires, audiovisuels à forte valeur ajoutée historique dans des processus de production sur-mesure.

Voice cloning

« Voice Cloning » est un procédé technologique de reconstitution vocale capable de déterminer et « apprendre » les éléments qui permettent de reproduire automatiquement toutes les émotions et articulations dynamiques d’une voix existante.

Une rigueur documentaire et quelques dizaines de minutes seulement sont nécessaires pour analyser l’enregistrement de la voix d’origine grâce à nos algorithmes de Machine Learning, afin de la caractériser finement et de manière unique.

En parallèle, le propos est enregistré avec un acteur portant les intonations et les émotions, pour donner la prosodie à la voix à recréer.

Vous souhaitez nous rencontrer ?

Vous avez un sujet à nous soumettre, un besoin, une question ? N’hésitez pas à nous contacter !

Nous contacter