Une étude révèle pourquoi les modèles d’IA qui analysent les images médicales peuvent être biaisés

Crédit : Unsplash/CC0 Domaine public

Les modèles d’intelligence artificielle jouent souvent un rôle dans les diagnostics médicaux, notamment lorsqu’il s’agit d’analyser des images telles que des rayons X. Cependant, des études ont montré que ces modèles ne fonctionnent pas toujours bien dans tous les groupes démographiques, et qu’ils obtiennent généralement de moins bons résultats chez les femmes et les personnes de couleur.

Il a également été démontré que ces modèles développent des capacités surprenantes. En 2022, des chercheurs du MIT ont rapporté que les modèles d’IA peuvent faire des prédictions précises sur l’origine ethnique d’un patient à partir de ses radiographies thoraciques, ce que les radiologues les plus qualifiés ne peuvent pas faire.

Cette équipe de recherche a maintenant découvert que les modèles les plus précis pour faire des prévisions démographiques montrent également les plus grands « écarts d’équité », c’est-à-dire des écarts dans leur capacité à diagnostiquer avec précision les images de personnes de races ou de sexes différents. Les résultats suggèrent que ces modèles pourraient utiliser des « raccourcis démographiques » lors de leurs évaluations diagnostiques, ce qui conduit à des résultats incorrects pour les femmes, les Noirs et d’autres groupes, affirment les chercheurs.

« Il est bien établi que les modèles d’apprentissage automatique à haute capacité sont de bons prédicteurs de données démographiques humaines telles que la race, le sexe ou l’âge autodéclarés. Cet article démontre à nouveau cette capacité, puis relie cette capacité au manque de performance dans différents groupes, ce qui n’a jamais été fait », explique Marzyeh Ghassemi, professeur associé de génie électrique et d’informatique au MIT, membre de l’Institute for Medical Engineering and Science du MIT et auteur principal de l’étude.

Les chercheurs ont également découvert qu’ils pouvaient recycler les modèles de manière à améliorer leur équité. Cependant, leur approche de « débiaisation » fonctionnait mieux lorsque les modèles étaient testés sur les mêmes types de patients sur lesquels ils avaient été formés, comme des patients du même hôpital. Lorsque ces modèles ont été appliqués à des patients de différents hôpitaux, les écarts d’équité sont réapparus.

« Je pense que les principaux points à retenir sont, premièrement, que vous devez évaluer minutieusement tous les modèles externes sur vos propres données, car les garanties d’équité que les développeurs de modèles fournissent sur leurs données de formation peuvent ne pas être transférables à votre population. Deuxièmement, chaque fois que suffisamment de données sont disponibles, vous devez former des modèles sur vos propres données », explique Haoran Zhang, étudiant diplômé du MIT et l’un des principaux auteurs du nouveau document.

Yuzhe Yang, étudiant diplômé du MIT, est également l’un des principaux auteurs de l’article, qui paraîtra dans Médecine naturelleJudy Gichoya, professeure associée de radiologie et de sciences de l’imagerie à la faculté de médecine de l’université Emory, et Dina Katabi, professeure Thuan et Nicole Pham de génie électrique et d’informatique au MIT, sont également auteurs de l’article.

Éliminer les préjugés

En mai 2024, la FDA avait approuvé 882 dispositifs médicaux dotés d’IA, dont 671 conçus pour être utilisés en radiologie. Depuis 2022, lorsque Ghassemi et ses collègues ont montré que ces modèles de diagnostic peuvent prédire avec précision la race, eux et d’autres chercheurs ont montré que ces modèles sont également très efficaces pour prédire le sexe et l’âge, même s’ils ne sont pas entraînés à ces tâches.

“De nombreux modèles d’apprentissage automatique populaires ont une capacité de prédiction démographique surhumaine : les radiologues ne peuvent pas détecter la race auto-déclarée à partir d’une radiographie pulmonaire”, explique Ghassemi. “Ce sont des modèles qui sont efficaces pour prédire les maladies, mais qui, au cours de la formation, apprennent à prédire d’autres choses qui ne sont peut-être pas souhaitables.”

Dans cette étude, les chercheurs ont cherché à explorer pourquoi ces modèles ne fonctionnent pas aussi bien pour certains groupes. En particulier, ils voulaient voir si les modèles utilisaient des raccourcis démographiques pour faire des prédictions qui finissaient par être moins précises pour certains groupes. Ces raccourcis peuvent survenir dans les modèles d’IA lorsqu’ils utilisent des attributs démographiques pour déterminer si un problème médical est présent, au lieu de s’appuyer sur d’autres caractéristiques des images.

En utilisant des ensembles de données de radiographies thoraciques accessibles au public provenant du Beth Israel Deaconess Medical Center de Boston, les chercheurs ont formé des modèles pour prédire si les patients souffraient de l’une des trois pathologies suivantes : accumulation de liquide dans les poumons, collapsus pulmonaire ou hypertrophie du cœur. Ils ont ensuite testé les modèles sur des radiographies qui leur avaient été présentées à partir des données de formation.

Dans l’ensemble, les modèles ont donné de bons résultats, mais la plupart d’entre eux ont présenté des « écarts d’équité », c’est-à-dire des écarts entre les taux de précision des hommes et des femmes, et entre les patients blancs et noirs.

Les modèles étaient également capables de prédire le sexe, la race et l’âge des sujets radiographiés. De plus, il existait une corrélation significative entre l’exactitude de chaque modèle dans ses prévisions démographiques et l’ampleur de son écart d’équité. Cela suggère que les modèles pourraient utiliser les catégorisations démographiques comme raccourci pour faire leurs prédictions sur les maladies.

Les chercheurs ont ensuite tenté de réduire les écarts d’équité en utilisant deux types de stratégies. Pour un ensemble de modèles, ils les ont formés à optimiser la « robustesse des sous-groupes », ce qui signifie que les modèles sont récompensés pour leurs meilleures performances sur le sous-groupe pour lequel ils ont les pires performances, et pénalisés si leur taux d’erreur pour un groupe est supérieur au taux d’erreur. autres.

Dans un autre ensemble de modèles, les chercheurs les ont forcés à supprimer toute information démographique des images, en utilisant des approches « contradictoires de groupe ». Ces deux stratégies ont plutôt bien fonctionné, ont découvert les chercheurs.

« Pour les données de distribution, vous pouvez utiliser les méthodes de pointe existantes pour réduire les écarts d’équité sans faire de compromis significatifs sur les performances globales », explique Ghassemi. « Les méthodes de robustesse des sous-groupes obligent les modèles à être sensibles aux prédictions erronées d’un groupe spécifique, et les méthodes contradictoires de groupe tentent de supprimer complètement les informations de groupe. »

Pas toujours plus juste

Cependant, ces approches n’ont fonctionné que lorsque les modèles ont été testés sur des données provenant des mêmes types de patients sur lesquels ils ont été formés, par exemple, uniquement des patients de l’ensemble de données du Beth Israel Deaconess Medical Center.

Lorsque les chercheurs ont testé les modèles « débiaisés » à l’aide des données BIDMC pour analyser les patients de cinq autres ensembles de données hospitalières, ils ont constaté que la précision globale des modèles restait élevée, mais que certains d’entre eux présentaient d’importants écarts d’équité.

« Si vous corrigez le biais du modèle dans un groupe de patients, cette équité ne tient pas nécessairement lorsque vous passez à un nouvel ensemble de patients provenant d’un autre hôpital situé dans un autre endroit », explique Zhang.

Ceci est inquiétant car dans de nombreux cas, les hôpitaux utilisent des modèles développés à partir de données provenant d’autres hôpitaux, en particulier dans les cas où un modèle standard est acheté, disent les chercheurs.

“Nous avons constaté que même les modèles de pointe qui sont performants de manière optimale dans des données similaires à leurs ensembles d’entraînement ne sont pas optimaux, c’est-à-dire qu’ils ne font pas le meilleur compromis entre les performances globales et celles des sous-groupes, dans de nouveaux contextes. ” dit Ghassemi. “Malheureusement, c’est en fait ainsi qu’un modèle est susceptible d’être déployé. La plupart des modèles sont formés et validés avec les données d’un hôpital ou d’une source, puis déployés à grande échelle.”

Les chercheurs ont constaté que les modèles qui ont été corrigés à l’aide d’approches contradictoires de groupe ont montré une équité légèrement supérieure lorsqu’ils ont été testés sur de nouveaux groupes de patients que ceux corrigés à l’aide de méthodes de robustesse de sous-groupe. Ils prévoient maintenant d’essayer de développer et de tester des méthodes supplémentaires pour voir s’ils peuvent créer des modèles qui font un meilleur travail en matière de prédictions équitables sur de nouveaux ensembles de données.

Les résultats suggèrent que les hôpitaux qui utilisent ces types de modèles d’IA devraient les évaluer sur leur propre population de patients avant de commencer à les utiliser, afin de s’assurer qu’ils ne donnent pas de résultats inexacts pour certains groupes.

Plus d’information:
Les limites de l’IA d’imagerie médicale équitable dans la généralisation du monde réel, Médecine naturelle (2024). DOI : 10.1038/s41591-024-03113-4

Fourni par le Massachusetts Institute of Technology

Citation: Une étude révèle pourquoi les modèles d’IA qui analysent les images médicales peuvent être biaisés (28 juin 2024) récupéré le 28 juin 2024 sur

Ce document est soumis au droit d’auteur. En dehors de toute utilisation équitable à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans autorisation écrite. Le contenu est fourni à titre d’information uniquement.

Éliminer les préjugés

Pas toujours plus juste

Our Company

About Links

Useful Links

Newsletter

Laest News

Are you sure want to unlock this post?

Are you sure want to cancel subscription?

Queue

Une étude révèle pourquoi les modèles d’IA qui analysent les images médicales peuvent être biaisés

Éliminer les préjugés

Pas toujours plus juste

La thérapie génique stoppe la progression d’une maladie génétique rare chez un jeune garçon

Une étude suggère que la modification du microbiome intestinal améliore les résultats de santé pour le cancer du rein métastatique récemment diagnostiqué

You may also like

Leave a Comment Cancel Reply

Our Company

About Links

Useful Links

Newsletter

Laest News

Are you sure want to unlock this post?

Are you sure want to cancel subscription?

Queue