Les scientifiques découvrent que ChatGPT est inexact lorsqu'il répond aux questions de programmation informatique

News Team27 mai 20240199 views

Qualité des réponses évaluée par les participants. Crédit: Actes de la conférence CHI sur les facteurs humains dans les systèmes informatiques (2024). DOI : 10.1145/3613904.3642596

Une équipe d'informaticiens de l'Université Purdue a découvert que le populaire LLM, ChatGPT, est extrêmement imprécis lorsqu'il s'agit de répondre aux questions de programmation informatique. Dans leur article publié dans le cadre du Actes de la conférence CHI sur les facteurs humains dans les systèmes informatiquesle groupe décrit comment il a extrait des questions du site Web StackOverflow et les a posées à ChatGPT, puis a mesuré son degré d'exactitude lors de sa réponse.

L’équipe a également présenté ses conclusions lors de la conférence sur les facteurs humains dans les systèmes informatiques (CHI 2024) qui s’est tenue du 11 au 16 mai.

ChatGPT et d'autres LLM ont fait l'actualité récemment : depuis que ces applications ont été mises à la disposition du grand public, elles sont devenues très populaires. Malheureusement, outre le trésor d’informations utiles contenu dans de nombreuses réponses fournies par ces applications, il existe une multitude d’inexactitudes. Ce qui est encore plus regrettable, c’est qu’il n’est pas toujours clair quand les applications donnent des réponses fausses.

Dans cette nouvelle étude, l'équipe de Purdue a noté que de nombreux étudiants en programmation ont commencé à utiliser les LLM non seulement pour aider à écrire du code pour les tâches de programmation, mais aussi pour répondre à des questions liées à la programmation. À titre d'exemple, un étudiant pourrait demander à ChatGPT quelle est la différence entre un tri à bulles et un tri par fusion, ou, plus communément, qu'est-ce que la récursivité ?

Pour découvrir dans quelle mesure les LLM répondent précisément à ces questions, l’équipe de recherche a concentré ses efforts sur un seul d’entre eux : ChatGPT. Pour trouver des questions à utiliser pour tester l'application, les chercheurs ont utilisé des questions disponibles gratuitement sur le site Web StackOverflow. Il s'agit d'un site conçu pour aider les programmeurs à en apprendre davantage sur la programmation en travaillant avec d'autres personnes dans leur domaine d'intérêt. Sur une partie du site, les utilisateurs peuvent poser des questions auxquelles répondront d'autres personnes connaissant les réponses.

L'équipe de recherche a utilisé 517 questions trouvées sur le site, puis a mesuré la fréquence à laquelle ChatGPT donnait la bonne réponse. Malheureusement, ce n’était que 52 % du temps. Ils ont également constaté que les réponses avaient tendance à être plus verbeuses que ce ne serait le cas si l’on posait la même question à un expert humain.

De manière alarmante, l'équipe a constaté que les participants à l'étude sur les utilisateurs préféraient les réponses données par ChatGPT dans 35 % des cas. Les chercheurs ont également constaté que les mêmes utilisateurs lisant les réponses données par ChatGPT ne détectaient souvent pas les erreurs commises : ils ignoraient les mauvaises réponses dans 39 % du temps.

Plus d'information:
Samia Kabir et al, Stack Overflow est-il obsolète ? Une étude empirique des caractéristiques des réponses ChatGPT aux questions de débordement de pile, Actes de la conférence CHI sur les facteurs humains dans les systèmes informatiques (2024). DOI : 10.1145/3613904.3642596

Citation: Les scientifiques trouvent que ChatGPT est inexact lorsqu'ils répondent aux questions de programmation informatique (27 mai 2024) récupéré le 27 mai 2024 sur

Ce document est soumis au droit d'auteur. En dehors de toute utilisation équitable à des fins d'étude ou de recherche privée, aucune partie ne peut être reproduite sans autorisation écrite. Le contenu est fourni seulement pour information.

Un nouveau modèle pour produire une parole synthétisée plus naturelle

Une nouvelle thérapie s’est avérée efficace contre le rejet lors d’une transplantation rénale

Related posts

L’analyse révèle que la plupart des LLM majeurs en open source et en source fermée ont tendance à pencher à gauche lorsqu’on leur pose des questions à forte connotation politique

Une étude examine la contagion du suicide après le décès de célébrités, ouvrant des pistes de prévention

Sonder la capture du carbone, atome par atome, avec un modèle d’apprentissage automatique