Une équipe de roboticiens de l’Université de Stanford et du Toyota Research Institute a découvert que l’ajout de données audio aux données visuelles lors de la formation des robots contribue à améliorer leurs capacités d’apprentissage. L’équipe a publié ses recherches sur le site arXiv serveur de préimpression.
Les chercheurs ont noté que pratiquement toutes les formations effectuées avec des robots basés sur l’IA impliquent de les exposer à une grande quantité d’informations visuelles, tout en ignorant l’audio associée. Ils se sont demandé si l’ajout de microphones aux robots et leur permettre de collecter des données sur la façon dont quelque chose est censé sonner pendant qu’ils l’exécutent pourrait les aider à mieux apprendre une tâche.
Par exemple, si un robot doit apprendre à ouvrir une boîte de céréales et à en remplir un bol, il peut être utile d’entendre les bruits de l’ouverture de la boîte et la sécheresse des céréales lorsqu’elles tombent dans un bol. Pour le savoir, l’équipe a conçu et réalisé quatre expériences d’apprentissage robotique.
La première expérience consistait à apprendre à un robot à retourner un bagel dans une poêle à l’aide d’une spatule. La deuxième consistait à apprendre à un robot à utiliser une gomme pour effacer une image sur un tableau blanc. La troisième consistait à verser des dés contenus dans une tasse dans une autre tasse et la quatrième consistait à choisir la bonne taille de ruban adhésif parmi trois échantillons disponibles et à l’utiliser pour coller un fil sur une bande de plastique.
Toutes les expériences ont été réalisées avec le même robot équipé d’une pince de préhension. Elles ont toutes été réalisées de deux manières, en utilisant uniquement la vidéo et en utilisant la vidéo et l’audio. L’équipe de recherche a également fait varier les facteurs d’enseignement et de performance tels que la hauteur de la table, le type de ruban adhésif ou le type d’image sur le tableau blanc.
Après avoir mené toutes leurs expériences, les chercheurs ont comparé les résultats en évaluant la rapidité et la facilité avec laquelle les robots étaient capables d’apprendre et d’exécuter les tâches, ainsi que leur précision. Ils ont constaté que l’ajout d’audio améliorait considérablement la vitesse et la précision de certaines tâches, mais pas d’autres.
L’ajout d’un son à la tâche consistant à verser les dés, par exemple, a considérablement amélioré la capacité du robot à déterminer s’il y avait des dés dans le gobelet. Cela a également aidé le robot à comprendre s’il exerçait la bonne pression sur la gomme, en raison du son unique qu’il produisait. L’ajout d’un son n’a pas beaucoup aidé, en revanche, à déterminer si le bagel avait été retourné avec succès ou si toute une image avait été supprimée avec succès d’un tableau blanc.
L’équipe conclut en suggérant que leurs travaux démontrent que l’ajout d’audio au matériel pédagogique pour les robots IA pourrait fournir de meilleurs résultats pour certaines applications.
Plus d’information:
Zeyi Liu et al, ManiWAV : Apprentissage de la manipulation de robots à partir de données audiovisuelles issues de la nature, arXiv (2024). DOI: 10.48550/arxiv.2406.19464
Page du projet : mani-wav.github.io/
arXiv
© 2024 Réseau Science X
Citation: L’ajout de données audio lors de la formation des robots les aide à faire un meilleur travail (2024, 5 juillet) récupéré le 5 juillet 2024 à partir de
Ce document est soumis au droit d’auteur. En dehors de toute utilisation équitable à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans autorisation écrite. Le contenu est fourni à titre d’information uniquement.