Un robot piloté par GPT-4 prend des selfies et « mange » du pop-corn

News Team19 décembre 20230180 views

Corps d'Alter3. Le corps comporte 43 axes contrôlés par des actionneurs pneumatiques. Il est équipé d'une caméra à l'intérieur de chaque œil. Le système de contrôle envoie des commandes via un port série pour contrôler le corps. Le taux de rafraîchissement est de 100 à 150 ms. Crédit: arXiv (2023). DOI : 10.48550/arxiv.2312.06571

Une équipe de chercheurs de l'Université de Tokyo a construit un pont entre les grands modèles de langage et les robots qui promet des gestes plus humains tout en s'affranchissant des contrôles traditionnels dépendant du matériel.

Alter3 est la dernière version d'un robot humanoïde déployé pour la première fois en 2016. Les chercheurs utilisent désormais GPT-4 pour guider le robot à travers diverses simulations, comme prendre un selfie, lancer une balle, manger du pop-corn et jouer de la air guitar.

Auparavant, de telles actions auraient nécessité un codage spécifique pour chaque activité, mais l'intégration de GPT-4 introduit de nouvelles capacités étendues aux robots qui apprennent à partir de l'enseignement en langage naturel.

Les robots alimentés par l'IA « visent principalement à faciliter la communication de base entre la vie et les robots au sein d'un ordinateur, en utilisant des LLM pour interpréter et simuler des réponses réalistes », ont déclaré les chercheurs dans une étude récente.

“Le contrôle direct est (désormais) réalisable en mappant les expressions linguistiques des actions humaines sur le corps du robot via un code de programme”, ont-ils déclaré. Ils ont qualifié cette avancée de « changement de paradigme ».

Alter3, qui est capable de mouvements complexes du haut du corps, y compris des expressions faciales détaillées, possède 43 axes simulant les mouvements musculo-squelettiques humains. Il repose sur un socle mais ne peut pas marcher (bien qu'il puisse imiter la marche).

Le mouvement de jouer de la musique métal. Ce mouvement est généré par GPT4 avec retour linguistique.

La tâche consistant à coder la coordination d’un si grand nombre d’articulations était une tâche colossale impliquant des mouvements très répétitifs.

“Grâce à LLM, nous sommes désormais libérés du travail itératif”, déclarent les auteurs.

Désormais, ils peuvent simplement fournir des instructions verbales décrivant les mouvements souhaités et envoyer une invite demandant au LLM de créer du code Python qui exécute le moteur Android.

Alter3 conserve les activités en mémoire et les chercheurs peuvent affiner et ajuster ses actions, conduisant ainsi à des mouvements plus rapides, plus fluides et plus précis au fil du temps.

Les auteurs fournissent un exemple des instructions en langage naturel données à Alter3 pour prendre un selfie :

Créez un grand sourire joyeux et écarquillez les yeux pour montrer votre enthousiasme.

Tournez rapidement le haut du corps légèrement vers la gauche en adoptant une posture dynamique.

Levez la main droite haut, simulant un téléphone.

Le mouvement de faire semblant d'être un fantôme.

Fléchissez le coude droit pour rapprocher le téléphone du visage.

Inclinez légèrement la tête vers la droite, donnant une ambiance ludique.

L'utilisation des LLM dans la recherche en robotique « redéfinit les limites de la collaboration homme-robot, ouvrant la voie à des entités robotiques plus intelligentes, adaptables et personnalisables », ont déclaré les chercheurs.

Ils ont injecté un peu d'humour dans les activités d'Alter3. Dans un scénario, le robot fait semblant de consommer un sac de pop-corn pour apprendre qu'il appartient à la personne assise à côté de lui. Les expressions faciales et les gestes des bras exagérés expriment la surprise et l'embarras.

L'Alter3 équipé d'une caméra peut « voir » les humains. Les chercheurs ont découvert qu'Alter3 peut affiner son comportement en observant les réponses humaines. Ils ont comparé cet apprentissage à l’imitation néonatale, que les behavioristes observent chez les nouveau-nés.

La capacité d'apprentissage « zéro tir » des robots connectés GPT-4 « a le potentiel de redéfinir les limites de la collaboration homme-robot, ouvrant la voie à des entités robotiques plus intelligentes, adaptables et personnalisables », ont déclaré les chercheurs.

L'article « From Text to Motion : Grounding GPT-4 in a Humanoid Robot 'Alter3' », rédigé par Takahide Yoshida, Atsushi Masumori et Takashi Ikegami, est disponible sur le serveur de préimpression. arXiv.

Plus d'information:
Takahide Yoshida et al, Du texte au mouvement : mise à la terre de GPT-4 dans un robot humanoïde “Alter3”, arXiv (2023). DOI : 10.48550/arxiv.2312.06571

Page du projet : tnoinkwms.github.io/ALTER-LLM/

Informations sur la revue :
arXiv

Citation: Un robot piloté par GPT-4 prend des selfies et « mange » du pop-corn (19 décembre 2023) récupéré le 19 décembre 2023 sur

Ce document est soumis au droit d'auteur. En dehors de toute utilisation équitable à des fins d'étude ou de recherche privée, aucune partie ne peut être reproduite sans autorisation écrite. Le contenu est fourni seulement pour information.

Pouvons-nous décoder le langage de nos cousins ​​primates ?

Des chercheurs rapportent une analyse détaillée des lésions cardiaques causées par le virus de la fièvre jaune

Related posts

L’analyse révèle que la plupart des LLM majeurs en open source et en source fermée ont tendance à pencher à gauche lorsqu’on leur pose des questions à forte connotation politique

Une étude examine la contagion du suicide après le décès de célébrités, ouvrant des pistes de prévention

Sonder la capture du carbone, atome par atome, avec un modèle d’apprentissage automatique

Pouvons-nous décoder le langage de nos cousins primates ?