DeepMind présente un robot capable de proposer des visites guidées contextuelles d’un immeuble de bureaux


Architecture VLA de mobilité. Les instructions utilisateur multimodales et une vidéo de démonstration de l’environnement sont utilisées par une politique VLM (politique de haut niveau) à contexte long pour identifier le cadre d’objectif dans la vidéo. La politique de bas niveau utilise ensuite le cadre d’objectif et une carte topologique générée hors ligne (à partir de la vidéo de visite utilisant la structure à partir du mouvement) pour calculer une action du robot à chaque pas de temps. Crédit : arXiv (2024). DOI: 10.48550/arxiv.2407.07775

Une équipe de roboticiens et de spécialistes de l’IA de DeepMind, filiale de Google, a présenté un robot capable de proposer des visites guidées contextuelles de ses bureaux. Ils ont publié un article décrivant leur travail, ainsi que des vidéos de démonstration, sur le site arXiv serveur de préimpression.

Les applications d’IA ont beaucoup évolué au cours de la dernière décennie, et des LLM tels que ChatGPT sont désormais connus des utilisateurs du monde entier. Dans ce nouvel effort, l’équipe de recherche a doté les robots RT-2 de capacités d’IA via Gemini 1.5 Pro et l’a utilisé pour permettre au robot d’effectuer des activités sophistiquées.

Le robot peut écouter la personne qu’il guide, analyser une demande et la traduire en comportement. Par exemple, un chercheur a demandé au robot de l’emmener dans un endroit du bureau où il pouvait écrire ou dessiner. Le robot a réfléchi à la demande pendant environ 30 secondes, puis a guidé la personne vers un endroit où un tableau blanc avait été fixé au mur dans l’un des bureaux.

Le robot est capable d’effectuer de telles tâches, expliquent les chercheurs, car son application Gemini 1.5 Pro a été formée pour comprendre la disposition de l’espace de travail de bureau de 850 mètres carrés en utilisant sa longue fenêtre de contexte pendant qu’elle collectait des données tout en regardant des vidéos d’emplacements dans le bureau.







Crédits : DeepMind sur Instagram

Les chercheurs décrivent ces expériences d’apprentissage comme une navigation d’instructions multimodale avec des visites de démonstration : pendant que le robot regardait les vidéos, il était capable de traiter simultanément différentes parties du décor du bureau, lui permettant de générer des associations.

En ajoutant des fonctions de traitement de la voix et du texte ainsi que d’autres fonctions d’IA, l’équipe de DeepMind a également pu donner au robot la capacité d’effectuer un traitement inférentiel. Par exemple, un chercheur a demandé au robot s’il restait de sa boisson préférée dans le réfrigérateur. Le robot a remarqué qu’il y avait plusieurs canettes de Coca vides près de l’endroit où le chercheur était assis et a utilisé cette information pour deviner que le Coca était sa boisson préférée. Il s’est ensuite roulé jusqu’au réfrigérateur et a regardé à l’intérieur pour voir s’il y avait des canettes de Coca. Il s’est ensuite retourné et a rapporté ce qu’il avait trouvé.

Plus d’information:
Hao-Tien Lewis Chiang et al, Mobility VLA : Navigation d’instructions multimodales avec des VLM à contexte long et des graphes topologiques, arXiv (2024). DOI: 10.48550/arxiv.2407.07775

Informations sur la revue :
arXiv

© 2024 Réseau Science X

Citation: DeepMind présente un robot capable de proposer des visites guidées contextuelles d’un immeuble de bureaux (2024, 12 juillet) récupéré le 12 juillet 2024 à partir de

Ce document est soumis au droit d’auteur. En dehors de toute utilisation équitable à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans autorisation écrite. Le contenu est fourni à titre d’information uniquement.



Related posts

L’analyse révèle que la plupart des LLM majeurs en open source et en source fermée ont tendance à pencher à gauche lorsqu’on leur pose des questions à forte connotation politique

Une étude examine la contagion du suicide après le décès de célébrités, ouvrant des pistes de prévention

Sonder la capture du carbone, atome par atome, avec un modèle d’apprentissage automatique