Des chercheurs des National Institutes of Health (NIH) ont découvert qu’un modèle d’intelligence artificielle (IA) résolvait avec une grande précision les questions d’un questionnaire médical, conçu pour tester la capacité des professionnels de santé à diagnostiquer les patients sur la base d’images cliniques et d’un bref résumé textuel. Cependant, les médecins évaluateurs ont constaté que le modèle d’IA faisait des erreurs lors de la description des images et de l’explication de la manière dont sa prise de décision conduisait à la bonne réponse.
Les résultats, qui mettent en lumière le potentiel de l’IA dans le cadre clinique, ont été publiés dans Médecine numérique npjL’étude a été menée par des chercheurs de la Bibliothèque nationale de médecine du NIH (NLM) et de Weill Cornell Medicine, à New York.
« L’intégration de l’IA dans les soins de santé est très prometteuse en tant qu’outil permettant aux professionnels de la santé de diagnostiquer les patients plus rapidement, leur permettant ainsi de commencer le traitement plus tôt », a déclaré le directeur par intérim de la NLM, Stephen Sherry, Ph.D. « Cependant, comme le montre cette étude, l’IA n’est pas encore suffisamment avancée pour remplacer l’expérience humaine, qui est cruciale pour un diagnostic précis. »
Le modèle d’IA et les médecins humains ont répondu aux questions des Journal de médecine de la Nouvelle-Angleterre Défi image. Le défi est un questionnaire en ligne qui fournit de véritables images cliniques et une courte description textuelle comprenant des détails sur les symptômes et la présentation du patient, puis demande aux utilisateurs de choisir le bon diagnostic parmi des réponses à choix multiples.
Les chercheurs ont demandé au modèle d’IA de répondre à 207 questions de défi d’image et de fournir une justification écrite pour chaque réponse. L’invite spécifiait que la justification devait inclure une description de l’image, un résumé des connaissances médicales pertinentes et fournir un raisonnement étape par étape sur la façon dont le modèle a choisi la réponse.
Neuf médecins de différentes institutions ont été recrutés, chacun avec une spécialité médicale différente, et ont répondu aux questions qui leur étaient assignées d’abord dans un cadre « à livre fermé » (sans se référer à des documents externes tels que des ressources en ligne), puis dans un cadre « à livre ouvert » (en utilisant des ressources externes). Les chercheurs ont ensuite fourni aux médecins la bonne réponse, ainsi que la réponse du modèle d’IA et la justification correspondante. Enfin, les médecins ont été invités à évaluer la capacité du modèle d’IA à décrire l’image, à résumer les connaissances médicales pertinentes et à fournir son raisonnement étape par étape.
Les chercheurs ont constaté que le modèle d’IA et les médecins obtenaient de bons résultats dans le choix du bon diagnostic. Il est intéressant de noter que le modèle d’IA a sélectionné le bon diagnostic plus souvent que les médecins travaillant dans un environnement à livre fermé, tandis que les médecins travaillant dans un environnement à livre ouvert ont obtenu de meilleurs résultats que le modèle d’IA, en particulier lorsqu’ils ont répondu aux questions jugées les plus difficiles.
Il est important de noter que, sur la base des évaluations des médecins, le modèle d’IA a souvent commis des erreurs lors de la description de l’image médicale et de l’explication du raisonnement derrière le diagnostic, même dans les cas où il a fait le bon choix final. Dans un exemple, le modèle d’IA a reçu une photo du bras d’un patient présentant deux lésions. Un médecin aurait facilement reconnu que les deux lésions étaient causées par la même maladie. Cependant, comme les lésions étaient présentées sous des angles différents (ce qui donnait l’illusion de couleurs et de formes différentes), le modèle d’IA n’a pas réussi à reconnaître que les deux lésions pouvaient être liées au même diagnostic.
Les chercheurs soutiennent que ces résultats soulignent l’importance d’évaluer davantage la technologie d’IA multimodale avant de l’introduire dans le milieu clinique.
« Cette technologie a le potentiel d’aider les cliniciens à accroître leurs capacités grâce à des informations basées sur des données qui peuvent conduire à une meilleure prise de décision clinique », a déclaré Zhiyong Lu, Ph.D., chercheur principal de la NLM et auteur correspondant de l’étude. « Il est essentiel de comprendre les risques et les limites de cette technologie pour exploiter son potentiel en médecine. »
L’étude a utilisé un modèle d’IA connu sous le nom de GPT-4V (Generative Pre-trained Transformer 4 with Vision), qui est un « modèle d’IA multimodal » capable de traiter des combinaisons de plusieurs types de données, notamment du texte et des images. Les chercheurs notent que même s’il s’agit d’une petite étude, elle met en lumière le potentiel de l’IA multimodale pour aider les médecins à prendre des décisions médicales. Des recherches supplémentaires sont nécessaires pour comprendre comment ces modèles se comparent à la capacité des médecins à diagnostiquer les patients.
L’étude a été co-écrite par des collaborateurs du National Eye Institute et du NIH Clinical Center du NIH, de l’Université de Pittsburgh, du UT Southwestern Medical Center de Dallas, de la Grossman School of Medicine de l’Université de New York, de la Harvard Medical School et du Massachusetts General Hospital de Boston, de la Case Western Reserve University School of Medicine de Cleveland, de l’Université de Californie à San Diego, de La Jolla et de l’Université de l’Arkansas, de Little Rock.
Plus d’information:
Défauts cachés derrière la précision de niveau expert de la vision multimodale GPT-4 en médecine, Médecine numérique npj (2024). DOI : 10.1038/s41746-024-01185-7. www.nature.com/articles/s41746-024-01185-7
Fourni par les Instituts nationaux de la santé
Citation: De nouvelles découvertes mettent en lumière les risques et les avantages de l’intégration de l’IA dans la prise de décision médicale (2024, 23 juillet) récupéré le 23 juillet 2024 à partir de
Ce document est soumis au droit d’auteur. En dehors de toute utilisation équitable à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans autorisation écrite. Le contenu est fourni à titre d’information uniquement.