Home Science Un outil de test de référence pour les assistants généraux en IA

Un outil de test de référence pour les assistants généraux en IA

by News Team
0 comment


Scores et temps de réponse par méthode et niveau. Le score des plugins GPT4+ doit être vu comme un oracle puisque les plugins ont été choisis manuellement en fonction de la question. Le score humain fait référence au score obtenu par nos annotateurs lors de la validation des questions. Crédit: arXiv (2023). DOI : 10.48550/arxiv.2311.12983

Une équipe de chercheurs affiliés aux startups d'IA Gen AI, Meta, AutoGPT, HuggingFace et Fair Meta, a développé un outil de référence destiné aux fabricants d'assistants d'IA, en particulier ceux qui fabriquent des produits basés sur un grand modèle de langage, pour tester leurs applications comme étant potentiellement artificielles. Applications d'intelligence générale (AGI). Ils ont rédigé un article décrivant leur outil, qu'ils ont baptisé GAIA, et comment il peut être utilisé. L'article est publié sur le arXiv serveur de préimpression.

Au cours de la dernière année, les chercheurs dans le domaine de l’IA ont débattu de la capacité des systèmes d’IA, tant en privé que sur les réseaux sociaux. Certains ont suggéré que les systèmes d’IA étaient très proches de l’AGI, tandis que d’autres ont suggéré que le contraire était beaucoup plus proche de la vérité. De tels systèmes, tous s’accordent à le dire, égaleront et même dépasseront l’intelligence humaine à un moment donné. La seule question est quand.

Dans ce nouvel effort, l'équipe de recherche note que pour parvenir à un consensus, si de véritables systèmes AGI émergent, un système d'évaluation doit être en place pour mesurer leur niveau d'intelligence les uns par rapport aux autres et par rapport aux humains. Un tel système, soulignent-ils en outre, devrait commencer par un point de référence, et c'est ce qu'ils proposent dans leur document.

Le benchmark créé par l'équipe consiste en une série de questions posées à une IA potentielle, avec des réponses comparées à celles fournies par un ensemble aléatoire d'humains. En créant le benchmark, l’équipe s’est assurée que les questions n’étaient pas des requêtes typiques de l’IA, pour lesquelles les systèmes d’IA ont tendance à obtenir de bons résultats.

Au lieu de cela, les questions qu’ils posent ont tendance à être assez faciles à répondre pour un humain mais difficiles pour un ordinateur. Dans de nombreux cas, trouver des réponses aux questions formulées par les chercheurs impliquait de passer par plusieurs étapes de travail et/ou de « réflexion ». À titre d'exemple, ils pourraient poser une question spécifique à quelque chose trouvé sur un site Web spécifique, comme : “Dans quelle mesure la teneur en matières grasses d'une pinte de crème glacée donnée est-elle supérieure ou inférieure, selon les normes de l'USDA, telles que rapportées par Wikipédia ?”

L'équipe de recherche a testé les produits d'IA avec lesquels elle travaille et a constaté qu'aucun d'entre eux n'était près de dépasser la référence, ce qui suggère que l'industrie n'est peut-être pas aussi proche du développement d'une véritable AGI que certains le pensent.

Plus d'information:
Grégoire Mialon et al, GAIA : une référence pour les Assistants Généraux IA, arXiv (2023). DOI : 10.48550/arxiv.2311.12983

Informations sur la revue :
arXiv

© 2023 Réseau Science X

Citation: Des chercheurs en IA présentent GAIA : un outil de test de référence pour les assistants généraux en IA (1er décembre 2023) récupéré le 1er décembre 2023 sur

Ce document est soumis au droit d'auteur. En dehors de toute utilisation équitable à des fins d'étude ou de recherche privée, aucune partie ne peut être reproduite sans autorisation écrite. Le contenu est fourni seulement pour information.



You may also like

Leave a Comment

Our Company

Rivedin Provides news from the source.

Newsletter

Subscribe my Newsletter for new blog posts, tips & new photos. Let's stay updated!

Laest News

@2021 – All Right Reserved. Designed and Developed by RIVEDIN

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
-
00:00
00:00
Update Required Flash plugin
-
00:00
00:00