Rassembler des démonstrations humaines plus efficaces pour enseigner de nouvelles compétences aux robots


Présentation du système : Utilisation de l'entropie de l'information pour guider les utilisateurs vers les zones d'incertitude les plus élevées de LfD. Crédit : Sakr et al.

Pour aider efficacement les humains dans des contextes réels, les robots doivent être capables d’acquérir de nouvelles compétences et d’adapter leurs actions en fonction de ce que les utilisateurs exigent d’eux à différents moments. Une façon d’y parvenir serait de concevoir des approches informatiques permettant aux robots d’apprendre à partir de démonstrations humaines, par exemple en observant des vidéos d’une personne faisant la vaisselle et en apprenant à répéter la même séquence d’actions.

Des chercheurs de l'Université de la Colombie-Britannique, de l'Université Carnegie Mellon, de l'Université Monash et de l'Université de Victoria ont récemment entrepris de recueillir des données plus fiables pour entraîner des robots via des démonstrations. Leur article, posté au arXiv serveur de préimpression, montre que les données recueillies peuvent améliorer considérablement l'efficacité avec laquelle les robots apprennent des démonstrations des utilisateurs humains.

“Les robots peuvent construire des voitures, rassembler les articles pour les commandes dans des entrepôts très fréquentés, passer l'aspirateur sur les sols et approvisionner les étagères des hôpitaux en fournitures”, a déclaré Maram Sakr, l'un des chercheurs qui ont mené l'étude, à Tech Xplore. “Les systèmes de programmation de robots traditionnels nécessitent qu'un programmeur expert développe un contrôleur de robot capable d'effectuer de telles tâches tout en répondant à toutes les situations auxquelles le robot peut être confronté.”

Les approches conventionnelles pour entraîner des robots à accomplir des tâches spécifiques nécessitent les compétences d’informaticiens. Souvent, pour fonctionner correctement, ces approches nécessitent de décomposer les tâches en dizaines ou centaines de sous-tâches plus petites, ce qui permet de tester ensuite la robustesse de chacune de ces sous-tâches.

Ce processus est à la fois long et exigeant en termes de calcul. De plus, si une panne survient et que le modèle d’apprentissage ne fonctionne plus correctement, il devra être réparé par des techniciens hautement qualifiés.

“L'apprentissage à partir de démonstrations (LfD) est une approche alternative prometteuse pour la formation de robots qui permet à des enseignants humains non experts (c'est-à-dire des experts du domaine mais pas des experts en robotique) de programmer le robot simplement en lui montrant comment effectuer la tâche ; aucune programmation n'est requise. “, a déclaré Sakr. “Ensuite, lorsque des échecs surviennent, l'enseignant humain n'a plus qu'à faire davantage de démonstrations, plutôt que de faire appel à l'aide d'un professionnel. Le LfD cherche à doter les robots de la capacité d'apprendre à effectuer une tâche en généralisant à partir de plusieurs observations d'un enseignant humain.”

Les méthodes LfD s'appuient sur des techniques d'apprentissage automatique (ML) de pointe qui ont permis d'obtenir des résultats remarquables sur diverses tâches. La formation efficace à ces techniques repose sur des données de démonstration efficaces et de bonne qualité, mais la plupart des ensembles de données disponibles contiennent des images de faible résolution, de mauvaise qualité ou insuffisantes.

“La collecte d'un ensemble de données de formation dans n'importe quel système d'apprentissage est essentielle à la réussite du processus d'apprentissage”, a déclaré Sakr. “Les données d'entraînement doivent être représentatives des états que le robot rencontrera dans le futur. Ainsi, cet article vise à guider les utilisateurs pour fournir un ensemble efficace de démonstrations à partir desquelles le robot pourra apprendre. Par “efficace”, nous entendons le nombre minimum de démonstrations bien réparties dans l'espace des tâches pour atteindre des capacités de généralisation élevées pour le robot.

Configuration expérimentale avec un utilisateur portant Microsoft Hololens pour le guidage visuel, utilisant un joystick pour contrôler le robot pour manœuvrer dans un espace de travail contraint. Crédit : Sakr et al.

L’une des principales limites des approches LfD proposées précédemment est qu’elles s’appuient sur des démonstrations effectuées par des informaticiens plutôt que par des utilisateurs ordinaires non experts. Dans leur article, Sakr et ses collègues explorent la possibilité d'apprendre aux utilisateurs quotidiens à sélectionner des données d'entraînement ou des démonstrations qui améliorent l'apprentissage d'un robot et lui permettent de mieux se généraliser entre différentes tâches.

“Lors de la formation des enseignants humains, les zones de l'espace des tâches présentant la plus grande incertitude quant à la capacité du robot à effectuer la tâche sont mises en évidence”, a expliqué Sakr. “Des démonstrations supplémentaires dans ces domaines pourraient bénéficier le plus au robot en exécutant la tâche avec succès tout en utilisant efficacement les efforts de l'enseignant (c'est-à-dire en fournissant un nombre inférieur de démonstrations permettant une généralisation plus large pour le robot). Sous cette direction, l'enseignant humain peut observer quelle prochaine démonstration maximise l'apprentissage du robot, ainsi que la taille et la diversité des démonstrations nécessaires pour couvrir entièrement l'espace de travail.

Notamment, les critères de sélection des démonstrations efficaces définis par Sakr et ses collègues peuvent être facilement suivis par divers utilisateurs humains, quel que soit leur niveau d'expertise et l'algorithme spécifique alimentant un robot. Si un utilisateur fournit des démonstrations de mauvaise qualité ou inefficaces, le système de guidage proposé mettra en évidence la nécessité d'un plus grand nombre de démonstrations pour améliorer l'apprentissage du robot.

Les chercheurs ont évalué l'efficacité de leur approche dans le cadre d'une expérience simple, au cours de laquelle 24 utilisateurs novices de robots ont été formés pour produire des démonstrations efficaces à l'aide d'un système de guidage basé sur la réalité augmentée (AR) en fonction de leurs critères. Une fois que ces utilisateurs non experts ont terminé leur formation, l’équipe a évalué leur capacité à créer des démonstrations efficaces sur de nouveaux essais axés sur de nouvelles tâches, sans fournir aucune orientation.

“Nous avons démontré qu'une brève session de formation et d'orientation interactives améliorait considérablement les compétences pédagogiques des utilisateurs profanes, conduisant à une amélioration de l'apprentissage des robots et de l'efficacité de la généralisation”, a déclaré Sakr. « Notamment, cet apprentissage en ligne s'est déroulé grâce à des démonstrations d'un enseignant sans connaissance préalable de la robotique ou des algorithmes d'apprentissage automatique. Le cadre de formation proposé permet aux utilisateurs de comprendre les démonstrations requises pour un apprentissage robotique efficace sans approfondir les subtilités du processus d'apprentissage. »

Les résultats rassemblés par Sakr et leurs collègues suggèrent qu'apprendre à des utilisateurs non experts à créer des démonstrations efficaces pourrait réduire considérablement le coût de la formation des robots via l'apprentissage par imitation, tout en augmentant l'efficacité avec laquelle ils apprennent. L'équipe a constaté que les démonstrations créées par leurs participants formés amélioraient l'efficacité avec laquelle les robots apprenaient jusqu'à 198 % par rapport aux démonstrations créées par des utilisateurs non formés et de 210 % par rapport aux approches d'apprentissage basées sur les essais et les erreurs.

“Notre recherche vise à démocratiser l'accès à la robotique dans tous les domaines”, a déclaré Sakr. « L'intégration d'une formation intuitive et interactive dans le pipeline LfD a le potentiel d'étendre considérablement l'utilisation des robots dans divers domaines. Cette approche peut améliorer l'interaction homme-robot en réduisant le temps nécessaire pour former un robot à une nouvelle tâche. transfert de compétences pour les experts du domaine qui manquent de connaissances en programmation.

À l’avenir, les critères et le système de guidage basé sur la réalité augmentée employés par cette équipe de chercheurs pourraient aider à mieux enseigner de nouvelles compétences aux robots via des démonstrations non expertes. En outre, les travaux récents de Sakr et de ses collègues pourraient inspirer d'autres équipes à développer des approches similaires pour créer des démonstrations de tâches efficaces, facilitant ainsi le déploiement de robots dans des environnements réels et améliorant leur capacité à apprendre de l'observation des humains.

“L'amélioration significative de l'efficacité en guidant uniquement les utilisateurs vers une bonne distribution des démonstrations suggère que guider les utilisateurs vers la fourniture de démonstrations de haute qualité ainsi que leur bonne distribution pourrait encore améliorer l'efficacité de l'apprentissage”, a ajouté Sakr. “Tester l'approche proposée dans des installations réelles avec des utilisateurs dans des conditions non contrôlées serait intrigant. Dans de tels scénarios, les utilisateurs pourraient décider de la durée du guidage ou l'utiliser de manière cohérente pour s'assurer qu'ils offrent les démonstrations les plus bénéfiques au robot.

“Enfin, explorer l'application du système de guidage basé sur l'entropie dans différents domaines et en combinaison avec divers algorithmes d'apprentissage présente l'opportunité d'évaluer davantage ses capacités de généralisation.”

Plus d'information:
Maram Sakr et al, Comment les utilisateurs quotidiens peuvent-ils enseigner efficacement les robots par des démonstrations ?, arXiv (2023). DOI : 10.48550/arxiv.2310.13083

Informations sur la revue :
arXiv

© 2023 Réseau Science X

Citation: Rassembler des démonstrations humaines plus efficaces pour enseigner de nouvelles compétences aux robots (14 décembre 2023) récupéré le 14 décembre 2023 sur

Ce document est soumis au droit d'auteur. En dehors de toute utilisation équitable à des fins d'étude ou de recherche privée, aucune partie ne peut être reproduite sans autorisation écrite. Le contenu est fourni seulement pour information.



Related posts

L’analyse révèle que la plupart des LLM majeurs en open source et en source fermée ont tendance à pencher à gauche lorsqu’on leur pose des questions à forte connotation politique

Une étude examine la contagion du suicide après le décès de célébrités, ouvrant des pistes de prévention

Sonder la capture du carbone, atome par atome, avec un modèle d’apprentissage automatique