L’un des atouts des grands modèles linguistiques (LLM) est la diversité des tâches auxquelles ils peuvent être appliqués. Le même modèle d’apprentissage automatique qui peut aider un étudiant diplômé à rédiger un e-mail pourrait également aider un clinicien à diagnostiquer un cancer.
Cependant, la large applicabilité de ces modèles rend également difficile leur évaluation systématique. Il serait impossible de créer un ensemble de données de référence pour tester un modèle sur chaque type de question qui peut lui être posée.
Dans un nouvel article publié sur le arXiv Les chercheurs du MIT ont adopté une approche différente. Ils soutiennent que, comme ce sont les humains qui décident du moment où déployer de grands modèles linguistiques, l’évaluation d’un modèle nécessite de comprendre comment les gens forment des croyances sur ses capacités.
Par exemple, l’étudiant diplômé doit décider si le modèle pourrait être utile pour rédiger un courriel particulier, et le clinicien doit déterminer pour quels cas il serait préférable de consulter le modèle.
En s’appuyant sur cette idée, les chercheurs ont créé un cadre pour évaluer un LLM en fonction de son alignement avec les croyances d’un humain sur la façon dont il effectuera une certaine tâche.
Ils introduisent une fonction de généralisation humaine, un modèle de la façon dont les individus mettent à jour leurs croyances sur les capacités d’un LLM après avoir interagi avec lui. Ils évaluent ensuite dans quelle mesure les LLM sont alignés avec cette fonction de généralisation humaine.
Leurs résultats indiquent que lorsque les modèles ne sont pas alignés avec la fonction de généralisation humaine, un utilisateur peut être trop confiant ou pas assez confiant quant à l’endroit où les déployer, ce qui peut entraîner l’échec inattendu d’un modèle. De plus, en raison de ce décalage, les modèles les plus performants ont tendance à être moins performants que les modèles plus petits dans les situations à enjeux élevés.
« Ces outils sont passionnants parce qu’ils sont polyvalents, mais parce qu’ils sont polyvalents, ils collaboreront avec les gens, nous devons donc prendre en compte l’humain dans la boucle », explique Ashesh Rambachan, co-auteur de l’étude, professeur adjoint d’économie et chercheur principal au Laboratoire des systèmes d’information et de décision (LIDS).
Rambachan est rejoint dans l’article par l’auteur principal Keyon Vafa, postdoctorant à l’Université Harvard, et Sendhil Mullainathan, professeur au MIT dans les départements de génie électrique et d’informatique et d’économie, et membre du LIDS. La recherche sera présentée lors de la Conférence internationale sur l’apprentissage automatique (ICML 2024) qui se tiendra à Vienne, en Autriche, du 21 au 27 juillet.
Généralisation humaine
Lorsque nous interagissons avec d’autres personnes, nous nous forgeons des croyances sur ce que nous pensons qu’elles savent ou non. Par exemple, si votre ami est pointilleux sur la correction de la grammaire des autres, vous pourriez généraliser et penser qu’il excellerait également dans la construction de phrases, même si vous ne lui avez jamais posé de questions sur la construction de phrases.
« Les modèles linguistiques semblent souvent très humains. Nous voulions illustrer que cette force de généralisation humaine est également présente dans la façon dont les gens forment leurs croyances sur les modèles linguistiques », explique Rambachan.
Comme point de départ, les chercheurs ont formellement défini la fonction de généralisation humaine, qui consiste à poser des questions, à observer comment une personne ou un LLM répond, puis à faire des inférences sur la façon dont cette personne ou ce modèle répondrait aux questions connexes.
Si quelqu’un voit qu’un LLM peut répondre correctement à des questions sur l’inversion de matrice, il peut également supposer qu’il peut répondre avec brio à des questions sur l’arithmétique simple. Un modèle qui n’est pas aligné avec cette fonction (un modèle qui ne fonctionne pas bien sur des questions auxquelles un humain s’attend à ce qu’il réponde correctement) pourrait échouer lors du déploiement.
Forts de cette définition formelle, les chercheurs ont conçu une enquête pour mesurer la manière dont les gens généralisent lorsqu’ils interagissent avec des LLM et d’autres personnes.
Ils ont montré aux participants à l’enquête des questions auxquelles une personne ou un LLM avait répondu correctement ou incorrectement, puis leur ont demandé s’ils pensaient que cette personne ou ce LLM répondrait correctement à une question connexe. Grâce à l’enquête, ils ont généré un ensemble de données de près de 19 000 exemples de la manière dont les humains généralisent les performances en LLM à travers 79 tâches diverses.
Mesure du désalignement
Ils ont constaté que les participants s’en sortaient plutôt bien lorsqu’on leur demandait si un humain qui avait répondu correctement à une question répondrait correctement à une question connexe, mais ils étaient bien moins bons pour généraliser sur les performances des LLM.
« La généralisation humaine est appliquée aux modèles linguistiques, mais cela échoue parce que ces modèles linguistiques ne montrent pas réellement de modèles d’expertise comme le feraient les gens », explique Rambachan.
Les personnes interrogées étaient également plus susceptibles de mettre à jour leurs opinions sur un LLM lorsque celui-ci répondait incorrectement à des questions que lorsqu’il répondait correctement à des questions. Elles avaient également tendance à penser que les résultats d’un LLM sur des questions simples n’auraient que peu d’influence sur ses résultats sur des questions plus complexes.
Dans les situations où les gens accordent plus d’importance aux réponses incorrectes, les modèles plus simples ont surpassé les très grands modèles comme GPT-4.
« Les modèles linguistiques qui s’améliorent peuvent presque tromper les gens en leur faisant croire qu’ils obtiendront de bons résultats sur des questions connexes alors qu’en réalité, ce n’est pas le cas », dit-il.
Une explication possible de la raison pour laquelle les humains sont moins doués pour généraliser les LLM pourrait venir de leur nouveauté : les gens ont beaucoup moins d’expérience dans l’interaction avec les LLM qu’avec d’autres personnes.
« À l’avenir, il est possible que nous puissions nous améliorer simplement en interagissant davantage avec les modèles linguistiques », dit-il.
À cette fin, les chercheurs souhaitent mener des études supplémentaires sur la manière dont les croyances des individus à propos des LLM évoluent au fil du temps à mesure qu’ils interagissent avec un modèle. Ils souhaitent également étudier comment la généralisation humaine pourrait être intégrée au développement des LLM.
« Lorsque nous formons ces algorithmes en premier lieu, ou que nous essayons de les mettre à jour avec des commentaires humains, nous devons tenir compte de la fonction de généralisation humaine dans la façon dont nous envisageons la mesure des performances », explique-t-il.
En attendant, les chercheurs espèrent que leur ensemble de données pourrait être utilisé comme référence pour comparer les performances des LLM par rapport à la fonction de généralisation humaine, ce qui pourrait contribuer à améliorer les performances des modèles déployés dans des situations réelles.
« Pour moi, la contribution de ce document est double. La première est pratique : il met en lumière un problème crucial dans le déploiement des LLM pour une utilisation grand public. Si les gens ne comprennent pas bien quand les LLM seront précis et quand ils échoueront, ils seront plus susceptibles de voir des erreurs et peut-être d’être découragés de les utiliser davantage.
« Cela met en évidence la question de l’alignement des modèles avec la compréhension de la généralisation par les gens », explique Alex Imas, professeur de sciences du comportement et d’économie à la Booth School of Business de l’Université de Chicago, qui n’a pas participé à ces travaux.
« La deuxième contribution est plus fondamentale : l’absence de généralisation aux problèmes et domaines attendus permet d’obtenir une meilleure image de ce que font les modèles lorsqu’ils résolvent un problème « correctement ». Cela permet de vérifier si les LLM « comprennent » le problème qu’ils résolvent. »
Plus d’information:
Keyon Vafa et al., Les grands modèles linguistiques fonctionnent-ils comme les gens l’attendent ? Mesure de la fonction de généralisation humaine, arXiv (2024). DOI : 10.48550/arxiv.2406.01382
arXiv
Fourni par le Massachusetts Institute of Technology
Cet article est republié avec l’aimable autorisation de MIT News (web.mit.edu/newsoffice/), un site populaire qui couvre l’actualité de la recherche, de l’innovation et de l’enseignement au MIT.
Citation:Les grands modèles de langage ne se comportent pas comme des personnes, même si nous pouvons nous attendre à ce qu’ils le fassent (2024, 23 juillet) récupéré le 23 juillet 2024 à partir de
Ce document est soumis au droit d’auteur. En dehors de toute utilisation équitable à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans autorisation écrite. Le contenu est fourni à titre d’information uniquement.