Les modèles d’apprentissage automatique pouvant donner de fausses prédictions, les chercheurs les dotent souvent de la capacité d’indiquer à un utilisateur son degré de confiance dans une certaine décision. Cela est particulièrement important dans les situations à enjeux élevés, par exemple lorsque les modèles sont utilisés pour aider à identifier une maladie sur des images médicales ou à filtrer des candidatures.
Mais les quantifications d’incertitude d’un modèle ne sont utiles que si elles sont précises. Si un modèle indique qu’il est sûr à 49 % qu’une image médicale montre un épanchement pleural, alors 49 % du temps, le modèle devrait avoir raison.
Des chercheurs du MIT ont mis au point une nouvelle approche qui permet d’améliorer les estimations d’incertitude dans les modèles d’apprentissage automatique. Leur méthode génère non seulement des estimations d’incertitude plus précises que d’autres techniques, mais elle le fait également de manière plus efficace.
L’étude est publiée sur le arXiv serveur de préimpression.
De plus, comme la technique est évolutive, elle peut être appliquée à d’énormes modèles d’apprentissage profond qui sont de plus en plus déployés dans les soins de santé et d’autres situations critiques pour la sécurité.
Cette technique pourrait fournir aux utilisateurs finaux, dont beaucoup manquent d’expertise en apprentissage automatique, de meilleures informations qu’ils peuvent utiliser pour déterminer s’ils doivent faire confiance aux prédictions d’un modèle ou si le modèle doit être déployé pour une tâche particulière.
« Il est facile de voir que ces modèles fonctionnent très bien dans des scénarios où ils sont très bons, puis de supposer qu’ils seront tout aussi bons dans d’autres scénarios. Il est donc particulièrement important de promouvoir ce type de travail qui cherche à mieux calibrer l’incertitude de ces modèles pour s’assurer qu’ils correspondent aux notions humaines d’incertitude », explique l’auteur principal Nathan Ng, étudiant diplômé de l’Université de Toronto et étudiant invité au MIT.
Ng a rédigé l’article avec Roger Grosse, professeur adjoint d’informatique à l’Université de Toronto, et l’auteur principal Marzyeh Ghassemi, professeure agrégée au Département de génie électrique et d’informatique et membre de l’Institut des sciences de l’ingénierie médicale et du Laboratoire des systèmes d’information et de décision. La recherche sera présentée à la Conférence internationale sur l’apprentissage automatique.
Quantifier l’incertitude
Les méthodes de quantification de l’incertitude nécessitent souvent des calculs statistiques complexes qui ne s’adaptent pas bien aux modèles d’apprentissage automatique comportant des millions de paramètres. Ces méthodes nécessitent également que les utilisateurs émettent des hypothèses sur le modèle et les données utilisées pour l’entraîner.
Les chercheurs du MIT ont adopté une approche différente. Ils utilisent ce que l’on appelle le principe de longueur de description minimale (MDL), qui ne nécessite pas d’hypothèses pouvant nuire à la précision d’autres méthodes. Le MDL est utilisé pour mieux quantifier et calibrer l’incertitude des points de test que le modèle doit étiqueter.
La technique développée par les chercheurs, connue sous le nom d’IF-COMP, rend MDL suffisamment rapide pour être utilisé avec les types de grands modèles d’apprentissage profond déployés dans de nombreux contextes réels.
Le MDL consiste à considérer toutes les étiquettes possibles qu’un modèle pourrait attribuer à un point de test. S’il existe de nombreuses étiquettes alternatives pour ce point qui conviennent bien, sa confiance dans l’étiquette qu’il a choisie devrait diminuer en conséquence.
« Une façon de comprendre le degré de confiance d’un modèle serait de lui communiquer des informations contrefactuelles et de voir quelle est la probabilité qu’il vous croie », explique Ng.
Prenons par exemple un modèle qui indique qu’une image médicale montre un épanchement pleural. Si les chercheurs indiquent au modèle que cette image montre un œdème et que celui-ci est prêt à mettre à jour sa croyance, le modèle devrait alors être moins confiant dans sa décision initiale.
Avec MDL, si un modèle est sûr de lui lorsqu’il étiquette un point de données, il doit utiliser un code très court pour décrire ce point. S’il n’est pas sûr de sa décision parce que le point pourrait avoir de nombreuses autres étiquettes, il utilise un code plus long pour capturer ces possibilités.
La quantité de code utilisée pour étiqueter un point de données est appelée complexité stochastique des données. Si les chercheurs demandent au modèle dans quelle mesure il est prêt à mettre à jour sa croyance sur un point de données en cas de preuve contraire, la complexité stochastique des données devrait diminuer si le modèle est confiant.
Mais tester chaque point de données à l’aide de MDL nécessiterait une énorme quantité de calcul.
Accélérer le processus
Avec IF-COMP, les chercheurs ont développé une technique d’approximation qui permet d’estimer avec précision la complexité des données stochastiques à l’aide d’une fonction spéciale, appelée fonction d’influence. Ils ont également utilisé une technique statistique appelée mise à l’échelle de température, qui améliore l’étalonnage des résultats du modèle. Cette combinaison de fonctions d’influence et de mise à l’échelle de température permet des approximations de haute qualité de la complexité des données stochastiques.
Au final, IF-COMP peut produire efficacement des quantifications d’incertitude bien calibrées qui reflètent la véritable confiance d’un modèle. La technique peut également déterminer si le modèle a mal étiqueté certains points de données ou révéler quels points de données sont aberrants.
Les chercheurs ont testé leur système sur ces trois tâches et ont constaté qu’il était plus rapide et plus précis que les autres méthodes.
« Il est très important d’avoir la certitude qu’un modèle est bien calibré, et il est de plus en plus nécessaire de détecter quand une prédiction spécifique ne semble pas tout à fait correcte. Les outils d’audit deviennent de plus en plus nécessaires dans les problèmes d’apprentissage automatique, car nous utilisons de grandes quantités de données non examinées pour créer des modèles qui seront appliqués à des problèmes humains », explique Ghassemi.
IF-COMP est indépendant du modèle et peut donc fournir des quantifications d’incertitude précises pour de nombreux types de modèles d’apprentissage automatique. Cela pourrait lui permettre d’être déployé dans un plus large éventail de situations réelles, aidant ainsi davantage de praticiens à prendre de meilleures décisions.
« Les gens doivent comprendre que ces systèmes sont très faillibles et peuvent inventer des choses au fur et à mesure. Un modèle peut sembler très sûr de lui, mais il y a une tonne de choses différentes qu’il est prêt à croire étant donné les preuves du contraire », explique Ng.
À l’avenir, les chercheurs souhaitent appliquer leur approche à de grands modèles linguistiques et étudier d’autres cas d’utilisation potentiels du principe de longueur de description minimale.
Plus d’information:
Nathan Ng et al., Mesure de la complexité des données stochastiques avec les fonctions d’influence de Boltzmann, arXiv (2024). DOI: 10.48550/arxiv.2406.02745
arXiv
Fourni par le Massachusetts Institute of Technology
Cet article est republié avec l’aimable autorisation de MIT News (web.mit.edu/newsoffice/), un site populaire qui couvre l’actualité de la recherche, de l’innovation et de l’enseignement au MIT.
Citation:Quand faire confiance à un modèle d’IA : une nouvelle approche peut améliorer les estimations d’incertitude (2024, 11 juillet) récupéré le 11 juillet 2024 à partir de
Ce document est soumis au droit d’auteur. En dehors de toute utilisation équitable à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans autorisation écrite. Le contenu est fourni à titre d’information uniquement.