Utiliser des microphones de contact comme capteurs tactiles pour la manipulation des robots


Formation de modèle en deux étapes. La pré-formation AVID et R3M exploite la grande échelle des données vidéo Internet (encadré en pointillés bleus). Nous initialisons les encodeurs visuels et audio avec les représentations pré-entraînées résultantes, puis formons l'ensemble de la politique de bout en bout avec le clonage de comportement à partir d'un petit nombre de démonstrations dans le domaine. La politique prend des entrées d’image et de spectrogramme (à gauche) et génère une séquence d’actions dans l’espace effecteur terminal delta (à droite). Crédit : Mejia et al.

Pour accomplir des tâches réelles à la maison, au bureau et dans les espaces publics, les robots doivent être capables de saisir et de manipuler efficacement un large éventail d’objets. Ces dernières années, les développeurs ont créé divers modèles basés sur l’apprentissage automatique, conçus pour permettre une manipulation experte d’objets dans les robots.

Même si certains de ces modèles ont obtenu de bons résultats, pour fonctionner correctement, ils doivent généralement être pré-entraînés sur de grandes quantités de données. Les ensembles de données utilisés pour entraîner ces modèles sont principalement composés de données visuelles, telles que des images annotées et des séquences vidéo capturées à l'aide de caméras, mais certaines approches analysent également d'autres entrées sensorielles, telles que des informations tactiles.

Des chercheurs de l'Université Carnegie Mellon et de l'Olin College of Engineering ont récemment exploré la possibilité d'utiliser des microphones de contact au lieu de capteurs tactiles conventionnels, permettant ainsi d'utiliser des données audio pour entraîner des modèles d'apprentissage automatique pour la manipulation de robots. Leur article, publié sur le serveur de préimpression arXivpourrait ouvrir de nouvelles opportunités pour le pré-entraînement multisensoriel à grande échelle de ces modèles.

“Bien que la pré-formation sur une grande quantité de données soit bénéfique pour l'apprentissage des robots, les paradigmes actuels n'effectuent qu'une pré-formation à grande échelle pour les représentations visuelles, alors que les représentations pour d'autres modalités sont formées à partir de zéro”, ont écrit Jared Mejia, Victoria Dean et leurs collègues dans le papier.

“Contrairement à l'abondance de données visuelles, il est difficile de savoir quelles données pertinentes à l'échelle d'Internet peuvent être utilisées pour pré-entraîner d'autres modalités telles que la détection tactile. Un tel pré-entraînement devient de plus en plus crucial dans les régimes à faibles données courants dans les applications robotiques. Nous abordons ce problème. espace en utilisant des microphones de contact comme capteur tactile alternatif.







Crédit : Mejia et al. (

Dans le cadre de leur récente étude, Mejia, Dean et leurs collaborateurs ont pré-entraîné une approche d'apprentissage automatique auto-supervisée sur les représentations audiovisuelles à partir de l'ensemble de données Audioset, qui contient plus de 2 millions de clips vidéo de 10 secondes de sons et de clips musicaux collectés. depuis Internet. Le modèle qu'ils ont pré-entraîné repose sur la discrimination d'instances audiovisuelles (AVID), une technique qui permet d'apprendre à distinguer différents types de données audiovisuelles.

Les chercheurs ont évalué leur approche dans une série de tests, au cours desquels un robot était chargé d'effectuer des tâches de manipulation réelles en s'appuyant sur un maximum de 60 démonstrations pour chaque tâche. Leurs résultats étaient très prometteurs, car leur modèle a surpassé les politiques de manipulation de robots qui reposent uniquement sur des données visuelles, en particulier dans les cas où les objets et les emplacements étaient nettement différents de ceux inclus dans les données d'entraînement.

“Notre principale idée est que les microphones de contact capturent des informations intrinsèquement audio, ce qui nous permet d'exploiter un préentraînement audiovisuel à grande échelle pour obtenir des représentations qui améliorent les performances de la manipulation robotique”, ont écrit Mejia, Dean et leurs collègues. “Au meilleur de nos connaissances, notre méthode est la première approche exploitant une pré-formation multisensorielle à grande échelle pour la manipulation robotique.”

À l’avenir, l’étude menée par Mejia, Dean et leurs collègues pourrait ouvrir une nouvelle voie pour la réalisation de manipulations de robots qualifiées utilisant des modèles d’apprentissage automatique multimodaux pré-entraînés. L’approche proposée pourrait bientôt être améliorée et testée sur un plus large éventail de tâches de manipulation réelles.

“Des travaux futurs pourraient étudier quelles propriétés des ensembles de données de pré-formation sont les plus propices à l'apprentissage de représentations audiovisuelles pour les politiques de manipulation”, ont écrit Mejia, Dean et leurs collègues. “En outre, une direction prometteuse serait d'équiper les effecteurs finaux de capteurs visuo-tactiles et de microphones de contact avec des représentations audio pré-entraînées afin de déterminer comment tirer parti des deux pour doter les agents robotiques d'une compréhension plus riche de leur environnement.”

Plus d'information:
Jared Mejia et al, Hearing Touch : préentraînement audiovisuel pour une manipulation riche en contacts, arXiv (2024). DOI : 10.48550/arxiv.2405.08576

Informations sur la revue :
arXiv

© 2024 Réseau Science X

Citation: Utilisation de microphones de contact comme capteurs tactiles pour la manipulation de robots (30 mai 2024) récupéré le 30 mai 2024 sur

Ce document est soumis au droit d'auteur. En dehors de toute utilisation équitable à des fins d'étude ou de recherche privée, aucune partie ne peut être reproduite sans autorisation écrite. Le contenu est fourni seulement pour information.



Related posts

Les femmes militaires et leurs familles souffrent de plus en plus de douleurs chroniques, selon une étude

Un nouveau catalyseur résistant aux contaminants pourrait aider à capturer le carbone directement des cheminées

Des chercheurs veulent changer la technologie contraceptive avec de nouveaux DIU en fer