Les grands modèles de langage (LLM) comme ChatGPT et GPT-4 ont le potentiel d'aider dans la pratique clinique pour automatiser les tâches administratives, rédiger des notes cliniques, communiquer avec les patients et même soutenir la prise de décision clinique. Cependant, des études préliminaires suggèrent que les modèles peuvent coder et perpétuer des préjugés sociaux qui pourraient nuire aux groupes historiquement marginalisés.
Une nouvelle étude menée par des chercheurs du Brigham and Women's Hospital a évalué la tendance du GPT-4 à coder et à présenter des préjugés raciaux et sexistes dans quatre rôles d'aide à la décision clinique. Leurs résultats sont publiés dans La santé numérique du Lancet.
“Bien que l'accent soit principalement mis sur l'utilisation des LLM pour des tâches de documentation ou administratives, le potentiel d'utilisation des LLM pour soutenir la prise de décision clinique suscite également un enthousiasme”, a déclaré l'auteur correspondant Emily Alsentzer, Ph.D., chercheuse postdoctorale dans la Division. de médecine interne générale au Brigham and Women's Hospital. “Nous voulions évaluer systématiquement si GPT-4 code des préjugés raciaux et sexistes qui ont un impact sur sa capacité à soutenir la prise de décision clinique.”
Alsentzer et ses collègues ont testé quatre applications de GPT-4 à l'aide de la plateforme Azure OpenAI. Premièrement, ils ont incité GPT-4 à générer des vignettes de patients pouvant être utilisées dans l’enseignement médical. Ensuite, ils ont testé la capacité de GPT-4 à développer correctement un diagnostic différentiel et un plan de traitement pour 19 cas de patients différents provenant d'un NEJM Healer, un outil de formation médicale qui présente des cas cliniques difficiles aux stagiaires en médecine.
Enfin, ils ont évalué comment GPT-4 fait des déductions sur la présentation clinique d'un patient à l'aide de huit vignettes de cas initialement générées pour mesurer les biais implicites. Pour chaque application, les auteurs ont évalué si les résultats de GPT-4 étaient biaisés par la race ou le sexe.
Pour la tâche de formation médicale, les chercheurs ont construit dix invites qui nécessitaient que GPT-4 génère une présentation du patient pour un diagnostic fourni. Ils ont exécuté chaque invite 100 fois et ont constaté que GPT-4 exagérait les différences connues dans la prévalence de la maladie par groupe démographique.
“Un exemple frappant est celui où GPT-4 est invité à générer une vignette pour un patient atteint de sarcoïdose : GPT-4 décrit une femme noire dans 81 % des cas”, explique Alsentzer. “Bien que la sarcoïdose soit plus répandue chez les patients noirs et chez les femmes, elle ne concerne pas 81 % de tous les patients.”
Ensuite, lorsque GPT-4 a été invité à élaborer une liste de 10 diagnostics possibles pour le NEJM Dans les cas de guérisseurs, le changement du sexe ou de la race/origine ethnique du patient affectait de manière significative sa capacité à prioriser le diagnostic principal correct dans 37 % des cas.
“Dans certains cas, la prise de décision du GPT-4 reflète des préjugés sexistes et raciaux connus dans la littérature”, a déclaré Alsentzer. “Dans le cas de l'embolie pulmonaire, le modèle a classé l'attaque de panique/l'anxiété comme un diagnostic plus probable pour les femmes que pour les hommes. Il a également classé les maladies sexuellement transmissibles, telles que le VIH aigu et la syphilis, comme étant plus probables chez les patients issus de minorités raciales que chez les patients issus de minorités raciales. patients blancs. »
Lorsqu'on lui a demandé d'évaluer les caractéristiques subjectives des patients telles que l'honnêteté, la compréhension et la tolérance à la douleur, GPT-4 a produit des réponses significativement différentes selon la race, l'origine ethnique et le sexe pour 23 % des questions. Par exemple, GPT-4 était significativement plus susceptible d’évaluer les patients de sexe masculin noirs comme abusant de l’opioïde Percocet que les patientes asiatiques, noires, hispaniques et blanches, alors que les réponses auraient dû être identiques pour tous les cas de patients simulés.
Les limites de la présente étude incluent le test des réponses de GPT-4 à l'aide d'un nombre limité d'invites simulées et l'analyse des performances du modèle en utilisant uniquement quelques catégories traditionnelles d'identités démographiques. Les travaux futurs devraient étudier les biais à l’aide des notes cliniques du dossier de santé électronique.
“Alors que des outils basés sur le LLM sont actuellement déployés avec un clinicien impliqué pour vérifier les résultats du modèle, il est très difficile pour les cliniciens de détecter les biais systémiques lors de l'examen des cas de patients individuels”, a déclaré Alsentzer. « Il est essentiel que nous effectuions des évaluations de biais pour chaque utilisation prévue des LLM, tout comme nous le faisons pour d'autres modèles d'apprentissage automatique dans le domaine médical. Notre travail peut aider à démarrer une conversation sur le potentiel de GPT-4 à propager des biais dans les applications d'aide à la décision clinique. “.
Les autres auteurs de BWH incluent Jorge A Rodriguez, David W Bates et Raja-Elie E Abdulnour. Les autres auteurs incluent Travis Zack, Eric Lehman, Mirac Suzgun, Leo Anthony Celi, Judy Gichoya, Dan Jurafsky, Peter Szolovits et Atul J Butte.
Plus d'information:
Travis Zack et al, Évaluation du potentiel du GPT-4 à perpétuer les préjugés raciaux et sexistes dans les soins de santé : une étude d'évaluation modèle, La santé numérique du Lancet (2023). DOI : 10.1016/S2589-7500(23)00225-X
Fourni par Brigham and Women's Hospital
Citation: Une étude évalue le potentiel du GPT-4 à perpétuer les préjugés raciaux et sexistes dans la prise de décision clinique (18 décembre 2023) récupéré le 18 décembre 2023 sur
Ce document est soumis au droit d'auteur. En dehors de toute utilisation équitable à des fins d'étude ou de recherche privée, aucune partie ne peut être reproduite sans autorisation écrite. Le contenu est fourni seulement pour information.