Le robot noir et jaune, censé ressembler à un gros chien, attendait des directions. Lorsqu’ils sont arrivés, les instructions n’étaient pas codées mais plutôt en anglais simple : « Visitez le bureau en bois exactement deux fois ; de plus, n’allez pas au bureau en bois avant l’étagère. »
Quatre pattes métalliques vrombissaient en action. Le robot est allé de là où il se trouvait dans la pièce à une étagère à proximité, puis, après une brève pause, s’est dirigé vers le bureau en bois désigné avant de partir et de revenir pour une deuxième visite pour satisfaire la commande.
Jusqu’à récemment, un tel exercice aurait été presque impossible à réaliser pour des robots de navigation comme celui-ci. La plupart des logiciels actuels destinés aux robots de navigation ne peuvent pas passer de manière fiable de l’anglais, ou de toute autre langue courante, au langage mathématique que ses robots comprennent et peuvent exécuter.
Et cela devient encore plus difficile lorsque le logiciel doit faire des sauts logiques basés sur des instructions complexes ou expressives (comme aller à la bibliothèque avant le bureau en bois), car cela nécessite traditionnellement une formation sur des milliers d’heures de données pour qu’il sache ce qu’est le robot. censé faire quand il s’agit de ce type particulier de commande.
Les progrès dans les soi-disant grands modèles de langage fonctionnant sur l’intelligence artificielle sont cependant en train de changer la donne. Donner aux robots de nouveaux pouvoirs de compréhension et de raisonnement contribue non seulement à rendre des expériences comme celle-ci réalisables, mais suscite également l’enthousiasme des informaticiens à l’idée de transférer ce type de succès à des environnements extérieurs aux laboratoires, tels que les foyers et les grandes villes du monde.
Au cours de l’année écoulée, des chercheurs du Humans to Robots Laboratory de l’Université Brown ont travaillé sur un système doté de ce type de potentiel et l’ont partagé dans un nouvel article qui sera présenté lors de la Conférence sur l’apprentissage des robots à Atlanta le 8 novembre.
La recherche marque une contribution importante à des communications plus fluides entre les humains et les robots, affirment les scientifiques, car les manières parfois alambiquées dont les humains communiquent naturellement entre eux posent généralement des problèmes lorsqu’elles sont exprimées aux robots, entraînant souvent des actions incorrectes ou un long délai de planification.
“Dans cet article, nous pensions particulièrement aux robots mobiles se déplaçant dans un environnement”, a déclaré Stefanie Tellex, professeur d’informatique à Brown et auteur principal de la nouvelle étude. “Nous voulions un moyen de relier des instructions en anglais complexes, spécifiques et abstraites que les gens pourraient dire à un robot (comme descendre Thayer Street à Providence et me retrouver au café, mais éviter le CVS et s’arrêter d’abord à la banque) à un comportement du robot.”
L’article décrit comment le nouveau système et le nouveau logiciel de l’équipe rendent cela possible en utilisant des modèles de langage d’IA, similaires à ceux qui alimentent les chatbots comme ChatGPT, pour concevoir une méthode innovante qui compartimente et décompose les instructions afin d’éliminer le besoin de données de formation.
Il explique également comment le logiciel fournit aux robots de navigation un puissant outil de base capable non seulement de prendre des commandes en langage naturel et de générer des comportements, mais également de calculer les sauts logiques qu’un robot peut devoir effectuer en fonction du contexte. des instructions claires et ce qu’elles disent que le robot peut ou ne peut pas faire et dans quel ordre.
“Dans le futur, cela aura des applications pour les robots mobiles se déplaçant dans nos villes, qu’il s’agisse d’un drone, d’une voiture autonome ou d’un véhicule terrestre livrant des colis”, a déclaré Tellex. “Chaque fois que vous avez besoin de parler à un robot et de lui dire de faire quelque chose, vous pourrez le faire et lui donner des instructions très riches, détaillées et précises.”
Tellex affirme que le nouveau système, avec sa capacité à comprendre un langage expressif et riche, représente l’un des systèmes de compréhension du langage pour les itinéraires les plus puissants jamais publiés, puisqu’il peut essentiellement commencer à fonctionner dans des robots sans avoir besoin de données de formation.
Traditionnellement, si les développeurs souhaitaient qu’un robot trace et complète des itinéraires à Boston, par exemple, ils devraient collecter différents exemples de personnes donnant des instructions dans la ville, telles que « voyagez à travers Boston Common mais évitez l’étang aux grenouilles » ; Le système sait ce que cela signifie et peut le transmettre au robot. Ils doivent recommencer cette formation s’ils veulent que le robot puisse ensuite naviguer dans la ville de New York.
Le nouveau niveau de sophistication trouvé dans le système créé par les chercheurs signifie qu’il peut fonctionner dans n’importe quel nouvel environnement sans un long processus de formation. Au lieu de cela, il suffit d’une carte détaillée de l’environnement.
“Nous passons essentiellement du langage aux actions menées par le robot”, a déclaré Ankit Shah, chercheur postdoctoral au laboratoire de Tellex à Brown.
Pour tester le système, les chercheurs ont soumis le logiciel à des simulations dans 21 villes à l’aide d’OpenStreetMap. Les simulations ont montré que le système est précis 80 % du temps. Le nombre est beaucoup plus précis que d’autres systèmes similaires, qui, selon les chercheurs, ne sont précis qu’environ 20 % du temps et ne peuvent calculer qu’une navigation simple par point de cheminement, comme aller d’un point A à un point B. De tels systèmes ne peuvent pas non plus prendre en compte pour les contraintes, comme devoir éviter une zone ou devoir se rendre à un endroit supplémentaire avant de se rendre au point A ou au point B.
Parallèlement aux simulations, les chercheurs ont testé leur système à l’intérieur du campus de Brown à l’aide d’un robot Boston Dynamics Spot. Dans l’ensemble, le projet s’ajoute à une histoire de travaux à fort impact provenant du laboratoire de Tellex à Brown, qui comprenait des recherches qui ont permis aux robots de mieux suivre les instructions orales, un algorithme qui a amélioré la capacité d’un robot à récupérer des objets et un logiciel qui a aidé les robots à produire des êtres humains. -comme des coups de stylo.
Du langage aux actes
Auteur principal de l’étude Jason Xinyu, titulaire d’un doctorat en informatique. étudiant à Brown travaillant avec Tellex, affirme que le succès du nouveau logiciel, appelé Lang2LTL, réside dans son fonctionnement. Pour le démontrer, il donne l’exemple d’un utilisateur disant à un drone d’aller au « magasin » de Main Street mais seulement après avoir visité « la banque ».
Premièrement, les deux sites sont retirés, explique-t-il. Le modèle de langage commence alors à faire correspondre ces emplacements abstraits à des emplacements spécifiques dont le modèle sait qu’ils se trouvent dans l’environnement du robot. Il analyse également les métadonnées disponibles sur les emplacements, telles que leurs adresses ou le type de magasin dont il s’agit, pour aider le système à prendre ses décisions.
Dans ce cas, il y a quelques magasins à proximité mais un seul sur Main Street, le système sait donc que « le magasin » est Walmart et que « la banque » est Chase. Le modèle de langage termine ensuite la traduction des commandes en logique temporelle linéaire, qui sont des codes mathématiques et des symboles qui expriment ces commandes. Le système prend ensuite les emplacements désormais cartographiés et les insère dans la formule qu’il a créée, indiquant au robot d’aller au point A mais seulement après le point B.
“Essentiellement, notre système utilise sa conception modulaire et ses grands modèles de langage pré-entraînés sur des données à l’échelle d’Internet pour traiter des commandes en langage naturel directionnelles et linéaires plus complexes avec différents types de contraintes qu’aucun système robotique ne pouvait comprendre auparavant”, a déclaré Xinyu. dit. “Les systèmes précédents ne pouvaient pas gérer cela parce qu’ils étaient freinés par la façon dont ils étaient conçus pour effectuer ce processus en une seule fois.”
Les chercheurs réfléchissent déjà à la suite du projet.
Ils prévoient de publier en novembre une simulation basée sur OpenStreetMaps sur le site Web du projet, où les utilisateurs pourront tester le système par eux-mêmes. La démo pour navigateurs Web permettra aux utilisateurs de saisir des commandes en langage naturel qui demandent à un drone dans la simulation d’exécuter des commandes de navigation, permettant ainsi aux chercheurs d’étudier le fonctionnement de leur logiciel pour un réglage précis. Peu de temps après, l’équipe espère ajouter des capacités de manipulation d’objets au logiciel.
“Ce travail constitue la base d’une grande partie du travail que nous pouvons réaliser à l’avenir”, a déclaré Xinyu.
Plus d’information:
Article : openreview.net/forum?id=rpWi4SYGXj
GitHub : github.com/h2r/Lang2LTL
Fourni par l’Université Brown
Citation: Propulsé par l’IA, un nouveau système rend la communication homme-robot plus transparente (6 novembre 2023) récupéré le 6 novembre 2023 sur
Ce document est soumis au droit d’auteur. En dehors de toute utilisation équitable à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans autorisation écrite. Le contenu est fourni seulement pour information.