Un modèle basé sur les données génère des mouvements humains naturels pour les avatars virtuels


WANDR part d'une pose corporelle arbitraire et génère des mouvements humains précis et réalistes qui atteignent un objectif 3D spécifié (représenté par une sphère rouge). Utilisant une approche purement basée sur les données, WANDR est un auto-encodeur variationnel conditionnel guidé par des caractéristiques d'intention (flèches représentées) qui orientent l'orientation (jaune), la position (cyan) et le poignet (rose) de l'humain vers l'objectif. WANDR peut atteindre un large éventail d'objectifs même s'ils s'écartent considérablement des données d'entraînement. Crédit : Diomataris et al.

Les humains peuvent naturellement effectuer une large gamme de mouvements, ce qui leur permet d’accomplir au mieux diverses tâches de leur vie quotidienne. La reproduction automatique de ces mouvements dans des avatars virtuels et des personnages humains animés en 3D pourrait être très avantageuse pour de nombreuses applications, allant des espaces métavers au divertissement numérique, en passant par les interfaces d'IA et la robotique.

Des chercheurs de l'Institut Max Planck pour les systèmes intelligents et de l'ETH Zurich ont récemment développé WANDR, un nouveau modèle capable de générer des mouvements humains naturels pour les avatars. Ce modèle, qui sera présenté dans un article présenté lors de la Conférence sur la vision par ordinateur et la reconnaissance de formes (CVPR 2024) en juin, unifie différentes sources de données sous un seul modèle pour obtenir des mouvements plus réalistes dans les personnages humanoïdes 3D. Le document est également publié sur le arXiv serveur de préimpression.

“À un niveau élevé, nos recherches visent à déterminer ce qu'il faut pour créer des humains virtuels capables de se comporter comme nous”, a déclaré Markos Diomataris, premier auteur de l'article, à Tech Xplore. “Cela signifie essentiellement apprendre à raisonner sur le monde, comment s'y déplacer, se fixer des objectifs et essayer de les atteindre.

“Mais pourquoi s'attaquer à ce problème de recherche ? Fondamentalement, nous voulons mieux comprendre les humains, tout comme le ferait un neuroscientifique, et nous essayons d'y parvenir en suivant une philosophie” essayez de construire ce que vous voulez comprendre “. “

L'objectif principal de l'étude récente menée par Diomataris et ses collègues était de créer un modèle capable de générer des mouvements réalistes pour les avatars 3D. Ces mouvements générés permettraient aux avatars d'interagir éventuellement avec leur environnement virtuel, par exemple en attrapant des objets.

“Pensez à prendre une tasse de café : cela peut être aussi simple qu'une extension du bras ou impliquer l'action coordonnée de tout notre corps”, a déclaré Diomataris. “Des actions comme se pencher, tendre le bras et marcher doivent être combinées pour atteindre l'objectif. À un niveau granulaire, nous effectuons continuellement des ajustements subtils pour maintenir l'équilibre et garder le cap vers notre objectif.”







Crédit: arXiv (2024). DOI : 10.48550/arxiv.2404.15383

En effectuant ces ajustements subtils, les humains peuvent produire des mouvements fluides, intégrant de nombreux mouvements plus petits qui convergent vers un objectif simple (par exemple, poser la main sur une tasse). Diomataris et ses collègues ont décidé d'enseigner les mêmes compétences à un avatar humain.

Une approche pour enseigner de nouvelles compétences aux agents virtuels est l’apprentissage par renforcement (RL), tandis qu’une autre consiste à compiler un ensemble de données contenant des démonstrations humaines, puis à l’utiliser pour former un modèle d’apprentissage automatique. Ces deux approches présentent des forces et des limites différentes.

“RL, en termes très simples, consiste à acquérir des compétences grâce à l'expérience acquise par essais et erreurs”, a expliqué Diomataris. “Pour notre tâche, l'agent devrait essayer toutes sortes de mouvements aléatoires au début de son entraînement jusqu'à ce qu'il parvienne d'abord à se tenir correctement, puis à marcher, à s'orienter vers le but, à naviguer vers lui et enfin à l'atteindre avec sa main.

“Cette approche ne nécessite pas nécessairement un ensemble de données, mais elle peut nécessiter de grandes quantités de calcul ainsi qu'une conception fastidieuse de récompenses pour l'agent afin d'éviter des comportements non naturels (par exemple, préférer ramper au lieu de marcher lorsqu'il se déplace).”

Contrairement au RL, les modèles de formation utilisant des ensembles de données fournissent à un agent virtuel des informations plus riches sur une compétence, plutôt que de lui permettre de comprendre ces informations seul. Bien qu’il existe désormais divers grands ensembles de données contenant des démonstrations de mouvements humains, très peu incluent des mouvements d’atteinte, que l’équipe souhaitait également reproduire dans des avatars.

“En donnant la priorité au réalisme du mouvement, nous avons choisi d'acquérir cette compétence à partir des données”, a déclaré Diomataris. “Nous présentons une méthode capable d'exploiter à la fois de grands ensembles de données avec divers mouvements généraux et des ensembles de données plus petits spécialisés dans la réalisation d'objectifs par les humains.”







Crédit: arXiv (2024). DOI : 10.48550/arxiv.2404.15383

Diomataris et ses collègues ont d'abord conçu un objectif de formation indépendant de l'existence d'étiquettes d'objectifs. Cette étape clé a permis à WANDR d’acquérir des compétences générales de navigation à partir d’ensembles de données plus volumineux, tout en continuant à utiliser les données étiquetées obtenues à partir d’ensembles de données plus petits.

“WANDR est le premier modèle de génération de mouvement humain piloté par une boucle de rétroaction active apprise uniquement à partir de données, sans aucune étape supplémentaire d'apprentissage par renforcement (RL)”, a déclaré Diomataris. “Qu'est-ce qu'une boucle de rétroaction active ? WANDR génère un mouvement de manière autorégressive (image par image). À chaque étape, il prédit une action qui fera progresser l'humain vers son état suivant.”

Les prédictions de WANDR sur les actions des avatars sont conditionnées par des caractéristiques dépendantes du temps et de l'objectif, que les chercheurs définissent comme « l'intention ». Ces caractéristiques sont recalculées à chaque image, agissant comme une boucle de rétroaction qui guide un avatar pour atteindre un objectif donné en utilisant son poignet.

“Cela signifie que, comme pour un humain, notre méthode ajuste constamment les actions entreprises pour essayer d'orienter l'avatar vers le but et de l'atteindre”, a déclaré Diomataris. “En conséquence, notre avatar est capable d'approcher et d'atteindre des objectifs mobiles ou séquentiels même s'il n'a jamais été entraîné pour quelque chose comme ça.”

Les ensembles de données existants contenant des mouvements humains orientés vers un objectif, tels que CIRCLE, sont rares et ne contiennent pas suffisamment de données pour permettre aux modèles de généraliser à différentes tâches. C’est pourquoi la RL constitue jusqu’à présent l’approche la plus courante pour entraîner des modèles permettant de reproduire les mouvements humains dans des avatars.







Crédit: arXiv (2024). DOI : 10.48550/arxiv.2404.15383

“Inspirés par le paradigme du clonage comportemental en robotique, nous proposons une approche purement basée sur les données dans laquelle, lors de l'entraînement, une position future choisie au hasard de la main de l'avatar est considérée comme l'objectif”, a déclaré Diomataris.

“En hallucinant les objectifs de cette façon, nous sommes en mesure de combiner à la fois des ensembles de données plus petits avec des annotations d'objectifs telles que CIRCLE, ainsi que des ensembles de données à grande échelle comme AMASS qui n'ont pas d'étiquettes d'objectifs mais sont essentiels à l'apprentissage de compétences générales de navigation telles que marcher, tourner, etc.”

WANDR, le modèle développé par Diomataris et ses collègues, a été formé sur des données provenant de différents ensembles de données et sources. En mélangeant de manière appropriée les données provenant de ces sources, le modèle produit des mouvements plus naturels, permettant à un avatar d'atteindre des objectifs arbitraires dans son environnement.

“Jusqu'à présent, les travaux qui étudient la génération de mouvement utilisent RL ou manquent complètement d'élément d'adaptation en ligne du mouvement”, a déclaré Diomataris. « WANDR démontre un moyen d'apprendre les comportements adaptatifs des avatars à partir de données. La partie « adaptation en ligne » est nécessaire pour toute application en temps réel dans laquelle les avatars interagissent avec les humains et le monde réel, comme par exemple dans un jeu vidéo de réalité virtuelle ou dans un jeu humain. interaction avec l'avatar.”

À l’avenir, le nouveau modèle introduit par cette équipe de chercheurs pourrait contribuer à la génération de nouveaux contenus pour les jeux vidéo, les applications VR, les films d’animation et les divertissements, permettant à des personnages ressemblant à des humains d’effectuer des mouvements corporels plus réalistes. Comme WANDR s’appuie sur diverses sources de données et que les ensembles de données sur les mouvements humains sont susceptibles de croître au cours des prochaines décennies, ses performances pourraient bientôt encore s’améliorer.

“À l'heure actuelle, il manque deux pièces majeures que nous prévoyons de rechercher à l'avenir”, a ajouté Diomataris. “Premièrement, les avatars doivent être capables d'exploiter des ensembles de données de vidéos volumineux et non conservés pour apprendre à se déplacer et à interagir avec leur monde virtuel. En plus de cela, ils doivent avoir la capacité d'explorer leur monde virtuel et d'apprendre de leurs propres expériences.

“Ces deux directions représentent les moyens fondamentaux par lesquels les humains acquièrent également de l'expérience : en agissant et en apprenant de leurs conséquences, mais aussi en observant les autres et en apprenant de leur expérience.”

Plus d'information:
Markos Diomataris et al, WANDR : Génération de mouvements humains guidée par l'intention, arXiv (2024). DOI : 10.48550/arxiv.2404.15383

Informations sur la revue :
arXiv

© 2024 Réseau Science X

Citation: Un modèle basé sur les données génère des mouvements humains naturels pour les avatars virtuels (30 mai 2024) récupéré le 30 mai 2024 sur

Ce document est soumis au droit d'auteur. En dehors de toute utilisation équitable à des fins d'étude ou de recherche privée, aucune partie ne peut être reproduite sans autorisation écrite. Le contenu est fourni seulement pour information.



Related posts

L’analyse révèle que la plupart des LLM majeurs en open source et en source fermée ont tendance à pencher à gauche lorsqu’on leur pose des questions à forte connotation politique

Une étude examine la contagion du suicide après le décès de célébrités, ouvrant des pistes de prévention

Sonder la capture du carbone, atome par atome, avec un modèle d’apprentissage automatique