Créer des « têtes parlantes » réalistes avec un programme basé sur l’IA

Comparaisons de DIRFA avec des approches de génération de visages parlants audio de pointe. Crédit : Université technologique de Nanyang

Une équipe de chercheurs dirigée par le professeur associé Lu Shijian de la NTU School of Computer Science and Engineering a développé un programme informatique qui crée des vidéos réalistes qui reflètent les expressions faciales et les mouvements de la tête de la personne qui parle, ne nécessitant qu’un clip audio et une photo du visage. .

Les animations faciales diversifiées mais réalistes, ou DIRFA, sont un programme basé sur l’intelligence artificielle qui prend de l’audio et une photo et produit une vidéo 3D montrant la personne démontrant des animations faciales réalistes et cohérentes synchronisées avec l’audio parlé. Le programme développé par NTU améliore les approches existantes, qui luttent contre les variations de pose et le contrôle émotionnel.

Pour ce faire, l’équipe a formé DIRFA sur plus d’un million de clips audiovisuels provenant de plus de 6 000 personnes, issus d’une base de données open source, pour prédire les signaux de la parole et les associer aux expressions faciales et aux mouvements de la tête.

Une « tête parlante » générée par DIRFA avec juste un audio de l’ancien président américain Barrack Obama s’exprimant et une photo du professeur agrégé Lu Shijian. Crédit : Université technologique de Nanyang

Les chercheurs ont déclaré que le DIRFA pourrait conduire à de nouvelles applications dans divers secteurs et domaines, y compris les soins de santé, car il pourrait permettre des assistants virtuels et des chatbots plus sophistiqués et plus réalistes, améliorant ainsi l’expérience des utilisateurs. Il pourrait également constituer un outil puissant pour les personnes souffrant de troubles de la parole ou du visage, en les aidant à transmettre leurs pensées et leurs émotions à travers des avatars expressifs ou des représentations numériques, améliorant ainsi leur capacité à communiquer.

L’auteur correspondant, professeur agrégé Lu Shijian, de l’École d’informatique et d’ingénierie (SCSE) de NTU Singapour, qui a dirigé l’étude, a déclaré : « L’impact de notre étude pourrait être profond et de grande envergure, car elle révolutionne le domaine du multimédia. communication en permettant la création de vidéos très réalistes d’individus parlant, combinant des techniques telles que l’IA et l’apprentissage automatique.

“Notre programme s’appuie également sur des études antérieures et représente une avancée technologique, car les vidéos créées avec notre programme sont complètes avec des mouvements précis des lèvres, des expressions faciales vives et des poses naturelles de la tête, en utilisant uniquement leurs enregistrements audio et leurs images statiques.”

Premier auteur, le Dr Wu Rongliang, titulaire d’un doctorat. diplômé du SCSE de NTU, a déclaré : « La parole présente une multitude de variations. Les individus prononcent les mêmes mots différemment dans divers contextes, englobant des variations de durée, d’amplitude, de ton, etc. l’état émotionnel de l’orateur et les facteurs d’identité tels que le sexe, l’âge, l’origine ethnique et même les traits de personnalité.

“Notre approche représente un effort pionnier dans l’amélioration des performances du point de vue de l’apprentissage de la représentation audio dans l’IA et l’apprentissage automatique.” Le Dr Wu est chercheur scientifique à l’Institute for Infocomm Research, Agency for Science, Technology and Research (A*STAR), Singapour.

Les résultats ont été publiés dans la revue La reconnaissance de formes.

Une « tête parlante » générée par DIRFA avec une photo du premier auteur de l’étude, le Dr Wu Rongliang. Crédit : Université technologique de Nanyang

Des volumes parlants : transformer l’audio en action avec une précision animée

Les chercheurs affirment que créer des expressions faciales réalistes pilotées par l’audio pose un défi complexe. Pour un signal audio donné, il peut y avoir de nombreuses expressions faciales possibles qui auraient un sens, et ces possibilités peuvent se multiplier lorsqu’il s’agit d’une séquence de signaux audio au fil du temps.

Étant donné que l’audio est généralement fortement associé aux mouvements des lèvres, mais plus faible aux expressions faciales et à la position de la tête, l’équipe a cherché à créer des visages parlants présentant une synchronisation labiale précise, des expressions faciales riches et des mouvements de tête naturels correspondant à l’audio fourni.

Pour résoudre ce problème, l’équipe a d’abord conçu son modèle d’IA, DIRFA, pour capturer les relations complexes entre les signaux audio et les animations faciales. Le professeur Assoc Lu a ajouté : « Plus précisément, DIRFA a modélisé la probabilité d’une animation faciale, telle qu’un sourcil levé ou un nez ridé, sur la base de l’audio d’entrée. Cette modélisation a permis au programme de transformer l’entrée audio en séquences diverses mais très réalistes d’animations faciales. des animations pour guider la génération de visages parlants.

« Des expériences approfondies montrent que DIRFA peut générer des visages parlants avec des mouvements de lèvres précis, des expressions faciales vives et des poses de tête naturelles. Cependant, nous travaillons à améliorer l’interface du programme, permettant de contrôler certaines sorties. Par exemple, DIRFA ne permet pas aux utilisateurs de ajuster une certaine expression, comme changer un froncement de sourcils en un sourire.

En plus d’ajouter davantage d’options et d’améliorations à l’interface de DIRFA, les chercheurs de NTU affineront ses expressions faciales avec une gamme plus large d’ensembles de données comprenant des expressions faciales et des clips audio vocaux plus variés.

Plus d’information:
Rongliang Wu et al, Génération de visages parlants basée sur l’audio avec des animations faciales diverses mais réalistes, La reconnaissance de formes (2023). DOI : 10.1016/j.patcog.2023.109865. Sur arXiv: DOI: 10.48550/arxiv.2304.08945

Informations sur la revue :
arXiv

Fourni par l’Université technologique de Nanyang

Citation: Créer des « têtes parlantes » réalistes avec un programme basé sur l’IA (16 novembre 2023) récupéré le 16 novembre 2023 sur

Ce document est soumis au droit d’auteur. En dehors de toute utilisation équitable à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans autorisation écrite. Le contenu est fourni seulement pour information.

Des volumes parlants : transformer l’audio en action avec une précision animée

Our Company

About Links

Useful Links

Newsletter

Laest News

Are you sure want to unlock this post?

Are you sure want to cancel subscription?

Queue

Créer des « têtes parlantes » réalistes avec un programme basé sur l’IA

Des volumes parlants : transformer l’audio en action avec une précision animée

Une nouvelle recherche fait progresser la compréhension du risque de cancer dans les thérapies géniques

Examiner l’œil mental d’un système de réseau neuronal

You may also like

Leave a Comment Cancel Reply

Our Company

About Links

Useful Links

Newsletter

Laest News

Are you sure want to unlock this post?

Are you sure want to cancel subscription?

Queue