Une nouvelle technique peut automatiser la conservation des données pour la pré-formation auto-supervisée des ensembles de données d'IA


Un aperçu du pipeline de curation de données. Les grands pools de données présentent souvent une distribution de concepts à longue traîne. Nous appliquons des k-moyennes hiérarchiques pour obtenir des clusters répartis uniformément sur les concepts. Les points de données sont ensuite échantillonnés à partir des clusters pour former un ensemble de données organisé présentant un meilleur équilibre de concepts. Crédit: arXiv (2024). DOI : 10.48550/arxiv.2405.15613

Une équipe d'informaticiens et de chercheurs en IA du FAIR at Meta, de l'INRIA, de l'Université Paris Saclay et de Google, a développé un moyen possible d'automatiser la conservation des données pour le pré-entraînement auto-supervisé des ensembles de données d'IA.

Le groupe a rédigé un article décrivant son processus de développement, la technique développée et son efficacité jusqu'à présent lors des tests. Il est publié sur le arXiv serveur de préimpression.

Comme les développeurs et les utilisateurs l’ont appris au cours de l’année écoulée, la qualité des données utilisées pour former les systèmes d’IA est très étroitement liée à l’exactitude des résultats. Actuellement, les meilleurs résultats sont obtenus avec des systèmes qui utilisent des données conservées manuellement et les pires sont obtenus avec des systèmes qui ne sont pas conservés.

Malheureusement, la conservation manuelle des données demande beaucoup de temps et d’efforts. Les informaticiens ont donc cherché des moyens d’automatiser le processus. Dans cette nouvelle étude, l’équipe de recherche a développé une technique qui fait exactement cela, et qui le fait d’une manière comparable à la curation manuelle.

La nouvelle technique commence avec un vaste ensemble de données, puis exécute un processus en trois étapes qui aboutit à des données à la fois plus diversifiées et plus équilibrées.

La première étape consiste à utiliser un modèle d'extraction de caractéristiques qui calcule des lieux de haute qualité pour intégrer des points de données. Dans leur approche, les éléments intégrés sont des nombres qui représentent les caractéristiques de différents types de données, telles que du texte, de l'audio ou des images.

La deuxième étape implique l'utilisation d'un regroupement de k-moyennes successives, dans lequel les points de données sont attribués à un groupe en fonction de leur similarité avec d'autres points de données.

La troisième étape implique l'utilisation d'un clustering hiérarchique à k-moyennes en plusieurs étapes pour garantir que les clusters de données sont équilibrés. Ceci est réalisé en créant des arborescences de clusters de données de manière ascendante.

L’équipe de recherche a testé sa technique à l’aide de modèles de vision formés sur différents types d’ensembles de données. Ils ont constaté que les modèles utilisant leur technique surpassaient ceux utilisant des données non conservées et étaient aussi bons, voire parfois meilleurs, que ceux formés sur des données conservées manuellement.

Des tests supplémentaires devront être effectués pour déterminer dans quelle mesure leur technique fonctionne sur des données réelles et différents types de systèmes d'IA.

Plus d'information:
Huy V. Vo et al, Curation automatique des données pour l'apprentissage auto-supervisé : une approche basée sur le clustering, arXiv (2024). DOI : 10.48550/arxiv.2405.15613

Informations sur la revue :
arXiv

© 2024 Réseau Science X

Citation: Une nouvelle technique peut automatiser la conservation des données pour la pré-formation auto-supervisée des ensembles de données d'IA (3 juin 2024) récupéré le 3 juin 2024 sur

Ce document est soumis au droit d'auteur. En dehors de toute utilisation équitable à des fins d'étude ou de recherche privée, aucune partie ne peut être reproduite sans autorisation écrite. Le contenu est fourni seulement pour information.



Related posts

Une nouvelle sonde révèle des microstructures de glace d’eau

Un nouveau circuit neuronal dendritique artificiel inspiré du cerveau

Les « coffres-forts » au sein des cellules germinales offrent plus qu’un simple garde-meuble