Un modèle généraliste open source pour la manipulation d'objets robotisés

Ce sont les robots sur lesquels nous avons testé Octo – vous pouvez voir qu’il existe une large gamme de bras de robot différents, du petit au grand, du monobras au bimanuel. Octo était capable de contrôler tous ces robots. Crédit : Team et al.

La sortie publique de ChatGPT et d'autres grands modèles de langage (LLM) a permis aux développeurs du monde entier de commencer à expérimenter ces modèles pour améliorer les capacités interactives de leurs propres systèmes. Les modèles généralisables similaires pour la manipulation robotique restent cependant rares.

Des chercheurs de l'Université de Californie à Berkeley (UC Berkeley), de l'Université de Stanford et de la CMU ont récemment présenté Octo, un modèle généraliste open source de manipulation robotique qui pourrait permettre à différents systèmes robotiques de manipuler efficacement un large éventail d'objets. Ce modèle, présenté dans un article pré-publié sur le serveur arXivpourrait ouvrir de nouvelles voies pour le développement de robots capables d’effectuer des tâches manuelles.

“Une grande partie des progrès actuels en matière d'IA repose sur de grands ensembles de données et de grands modèles”, ont déclaré Dibya Ghosh, Homer Walke, Karl Pertsch, Kevin Black et Oier Mees à Tech Xplore. “Dans la communauté robotique, nous avons récemment rassemblé l'ensemble de données Open X-Embodiment, un vaste ensemble de données de manipulation qui regroupe les données de nombreux instituts de recherche. Bien que ce nouvel ensemble de données soit une ressource vraiment passionnante, à l'époque, il n'existait pas beaucoup de modèles capables de faire je ne l'ai pas encore utilisé.”

Les travaux récents de cette équipe de recherche avaient deux objectifs principaux. La première consistait à développer un bon modèle robotique généraliste pouvant être appliqué à divers robots et la seconde consistait à créer un code open source qui permettrait à d’autres chercheurs de construire des modèles similaires à l’avenir.

« Octo est ce que nous appelons un modèle de robot « généraliste », un réseau neuronal capable de contrôler de nombreux types différents de robots et de leur faire répondre à des requêtes telles que « prendre la cuillère », « fermer le tiroir », « essuyer la table », etc. “, ont expliqué Ghosh, Walke, Pertsch, Black et Mees.

“Être un généraliste et travailler sur de nombreux robots est essentiel, car si vous regardez les laboratoires de recherche du monde entier, beaucoup d'entre eux utilisent des robots différents. La seule façon de garantir qu'Octo puisse être utilisé par de nombreux chercheurs est de prendre en charge un large éventail de robots. des robots.”

Au sein de la communauté de recherche et développement technologique, les outils informatiques hautement performants pouvant être appliqués sur plusieurs systèmes sont souvent appelés modèles fondamentaux. Un exemple de ces modèles est ChatGPT, qui peut être utilisé pour équiper divers agents et systèmes de capacités de traitement du langage naturel (NLP).

“Nous voulons construire des modèles de base similaires, mais pour le contrôle des robots, ou en d'autres termes, des modèles capables de contrôler de nombreux robots et de leur faire résoudre de nombreuses tâches différentes”, ont déclaré Ghosh, Walke, Pertsch, Black et Mees.

“Octo est un premier pas vers cet objectif. Sa formation ressemble beaucoup à des modèles comme ChatGPT : nous organisons un ensemble de données vaste et diversifié, dans notre cas des données de robot au lieu de texte, et formons un grand modèle pour prédire la prochaine action que le robot devrait faire. exécuter compte tenu de l'état actuel du robot et d'une instruction de tâche.

Octo, le modèle développé par Ghosh, Walke, Pertsch, Black et Mees est basé sur le même type de réseaux de neurones que ChatGPT, appelés transformateurs. L’un des principaux avantages d’Octo par rapport aux autres modèles robotiques développés précédemment réside dans l’ampleur des données utilisées pour l’entraîner et dans sa flexibilité.

Le modèle a été formé sur le plus grand ensemble de données de trajectoires de manipulation robotique compilé à ce jour ; l'ensemble de données Open X-Embodiment. Octo peut également traiter une large gamme d'entrées sensorielles, notamment différents types d'images, des lectures conjointes de robots, des instructions linguistiques, des images liées à des objectifs, etc.

“Octo peut également contrôler de nombreux types de bras robotisés, depuis les petits bras simples qui peuvent à peine ramasser une canette de soda, jusqu'aux bras robotisés plus grands et plus puissants et même aux configurations bi-manuelles”, ont déclaré Ghosh, Walke, Pertsch, Black et Mees. . “Cette flexibilité est ce qui rend Octo plus applicable aux diverses configurations dont disposent actuellement les roboticiens dans le monde.”

Les chercheurs ont évalué leur modèle dans une série d'expériences initiales, en le déployant sur neuf systèmes robotiques différents développés à l'UC Berkely, Stanford et CMU. Octo a réussi à contrôler ces robots et leur a permis d'effectuer diverses tâches de manipulation, même dans les cas où il n'avait pas rencontré de données collectées par les capteurs de ces robots ou leur conception unique lors de l'entraînement.

“C'était vraiment cool de voir que nous pouvons prendre notre modèle Octo et l'utiliser pour contrôler de nombreux robots différents”, ont déclaré les chercheurs. “Depuis que nous avons publié le modèle, nous avons vu pas mal de personnes essayer de l'exécuter sur leurs propres robots et nous utilisons également la base de code que nous avons construite pour Octo dans nos prochains projets. Ce sont quelques signes encourageants qu'Octo contribuera effectivement à favoriser la prochaine génération de modèles de base améliorés pour la robotique.

Pour les chercheurs, le développement d’Octo n’était qu’une petite étape vers leur objectif de construire un modèle généraliste de manipulation robotique. Dans leurs prochaines études, ils prévoient de continuer à travailler dans ce sens et espèrent que des groupes de recherche d’autres instituts commenceront également à expérimenter leur code.

Un modèle généraliste open source pour la manipulation d'objets robotisés — Une partie de l'équipe modèle Octo lorsque nous menions des expériences sur les robots tard dans la nuit avant la sortie du modèle (de gauche à droite : Oier Mees, Dibya Ghosh, Homer Walke, Karl Pertsch, Lawrence Chen). Octo était le fruit d'un gros effort d'équipe entre plusieurs laboratoires de recherche de Berkeley, Stanford et CMU. Travailler sur des modèles de base en robotique est difficile, avec de nombreuses heures passées à évaluer des modèles sur tous les différents types de robots, il est donc nécessaire d'avoir de nombreuses mains secourables. Crédit : Team et al.

“À l'heure actuelle, il est probable que le modèle ne fonctionnera pas immédiatement sur votre robot et vous devrez rassembler quelques exemples de la tâche que vous souhaitez que votre robot résolve pour l'enseigner à Octo, même s'il s'agit d'une tâche banale comme choisir une canette de coca dans une nouvelle cuisine”, ont-ils ajouté.

“C'est-à-dire que la capacité de généralisation du modèle actuel est encore assez limitée et nous travaillons sur de nouveaux modèles qui iront un peu plus loin. Nous n'en sommes pas encore au point où vous pouvez simplement télécharger un modèle sur votre ordinateur. robot, dites à votre robot ce que vous aimeriez qu'il fasse et il réussira 9 fois sur 10, mais nous travaillons pour atteindre cet objectif.

Plus d'information:
Dibya Ghosh et al, Octo : Une politique de robot généraliste open source, arXiv (2024). DOI : 10.48550/arxiv.2405.12213

Informations sur la revue :
arXiv

Citation: Un modèle généraliste open source pour la manipulation d'objets robots (10 juin 2024) récupéré le 10 juin 2024 sur

Ce document est soumis au droit d'auteur. En dehors de toute utilisation équitable à des fins d'étude ou de recherche privée, aucune partie ne peut être reproduite sans autorisation écrite. Le contenu est fourni seulement pour information.

Our Company

About Links

Useful Links

Newsletter

Laest News

Are you sure want to unlock this post?

Are you sure want to cancel subscription?

Queue

Un modèle généraliste open source pour la manipulation d'objets robotisés

Le réglage fin de l'angle des feuilles avec CRISPR améliore le rendement de la canne à sucre

Des tuiles texturées aident les anguilles en voie de disparition à surmonter les obstacles artificiels dans les rivières, selon une étude

You may also like

Leave a Comment Cancel Reply