Alors que l’intelligence artificielle passe des laboratoires expérimentaux au monde aux enjeux élevés du diagnostic médical, un défaut technique important est apparu. Une nouvelle étude suggère que les modèles d’IA actuels sont capables de réaliser un phénomène que les chercheurs appellent des « mirages » : un processus par lequel l’IA décrit des résultats médicaux détaillés pour des images qui n’existent pas réellement.
Comprendre le « mirage » et l’« hallucination »
Alors que l’industrie technologique est familière avec les hallucinations de l’IA – où un chatbot peut inventer une fausse citation juridique ou un fait historique inexistant – l’effet « mirage » est plus trompeur.
Dans une hallucination standard, l’IA fournit un texte incorrect. Dans un mirage, l’IA agit comme si elle regardait un stimulus visuel. Il génère une description très détaillée et faisant autorité d’une image (comme une tumeur dans une IRM ou un motif tissulaire spécifique dans une biopsie) même lorsqu’aucune image n’a été fournie au système.
L’étude : tester les limites de la vision
Les chercheurs, dirigés par le data scientist Mohammad Asadi de l’Université de Stanford, ont testé 12 modèles d’IA différents dans 20 disciplines différentes, allant de l’imagerie satellite à la pathologie.
La méthodologie était simple mais révélatrice :
1. Les chercheurs ont donné aux modèles une invite textuelle (par exemple, « Identifiez le tissu dans cette lame histologique » ).
2. Ils ont ensuite fourni l’image réelle.
3. Dans le groupe de test, ils ont entièrement caché l’image.
Les résultats ont été surprenants : Au lieu d’alerter l’utilisateur que l’image manquait, la plupart des modèles sont passés en « mode mirage ». Ils ont ensuite décrit des détails visuels spécifiques et complexes et ont fourni des réponses cliniques basées sur ces visuels inexistants.
Les risques de « l’autorité clinique »
Les implications pour les soins de santé sont particulièrement préoccupantes en raison de deux tendances spécifiques identifiées dans la recherche :
- Biais de diagnostic : Lorsqu’ils étaient obligés de « voir » quelque chose qui n’était pas là, les modèles d’IA avaient tendance à se tourner par défaut vers des diagnostics qui nécessitaient une intervention clinique immédiate. Cela pourrait conduire à des traitements médicaux inutiles, agressifs et potentiellement nocifs pour les patients.
- L’illusion de la précision : Parce que ces modèles sont formés pour être utiles et faisant autorité, ils livrent ces fabrications avec une extrême confiance. Ceci est dangereux car les modèles peuvent passer des tests de référence standard (qui mesurent si une IA peut répondre correctement à une question) sans réellement « voir » l’image. Ils « lisent » essentiellement le contexte plutôt que « interprètent » les données visuelles.
“Même si votre IA décrit une chose très, très spécifique et que vous diriez : ‘Oh, vous ne pouvez pas inventer ça’, oui, ils pourraient l’inventer”, prévient Mohammad Asadi.
Pourquoi cela se produit-il ?
La racine du problème réside dans la manière dont ces modèles sont optimisés. L’IA est conçue pour trouver le chemin le plus efficace vers une réponse. Lorsqu’un modèle est entraîné sur des ensembles de données volumineux contenant à la fois du texte et des images, il apprend à s’appuyer sur des raccourcis statistiques.
Si une invite est hautement descriptive, le modèle peut contourner complètement l’étape de « traitement visuel » et passer directement à une conclusion basée sur les modèles qu’il reconnaît dans le texte. Cela crée un problème de « boîte noire » : il n’existe actuellement aucun moyen fiable de savoir si un modèle analyse réellement une analyse ou s’il effectue simplement une supposition linguistique sophistiquée.
La voie à suivre : un besoin de nouveaux garde-fous
L’étude met en évidence une lacune critique dans la manière dont nous évaluons l’IA. Les cadres de test actuels ne sont pas suffisamment sophistiqués pour faire la distinction entre la véritable intégration multimodale (le fait de voir) et la devinette contextuelle (simplement la lecture).
Alors que de plus en plus de personnes, y compris des professionnels de la santé, s’appuient sur l’IA pour obtenir des conseils en matière de santé, le besoin d’une nouvelle génération de cadres d’évaluation est urgent. Jusqu’à ce qu’il soit prouvé que l’IA « voit » plutôt que simplement « prédit », son rôle dans la prise de décision clinique doit rester strictement supervisé.
Conclusion : La découverte de « mirages » révèle que les modèles d’IA peuvent fabriquer en toute confiance des résultats médicaux à partir d’images inexistantes, ce qui présente un risque important de surdiagnostic et de confiance mal placée dans les milieux cliniques.






















