Terwijl kunstmatige intelligentie zich verplaatst van experimentele laboratoria naar de wereld van de medische diagnostiek waar veel op het spel staat, is er een belangrijke technische fout aan het licht gekomen. Een nieuwe studie suggereert dat de huidige AI-modellen in staat zijn tot een fenomeen dat onderzoekers “luchtspiegelingen”** noemen – een proces waarbij de AI gedetailleerde medische bevindingen beschrijft voor beelden die in werkelijkheid niet bestaan.
De ‘luchtspiegeling’ versus de ‘hallucinatie’ begrijpen
Hoewel de technologie-industrie bekend is met AI-hallucinaties – waarbij een chatbot een nep juridisch citaat of een niet-bestaand historisch feit kan verzinnen – is het ‘luchtspiegeling’-effect bedrieglijker.
Bij een standaardhallucinatie zorgt de AI voor onjuiste tekst. In een luchtspiegeling gedraagt de AI zich alsof hij naar een visuele stimulus kijkt. Het genereert een zeer gedetailleerde, gezaghebbende beschrijving van een beeld (zoals een tumor in een MRI of een specifiek weefselpatroon in een biopsie), zelfs als er geen beeld aan het systeem is verstrekt.
Het onderzoek: de grenzen van het gezichtsvermogen testen
Onderzoekers onder leiding van datawetenschapper Mohammad Asadi van Stanford University testten twaalf verschillende AI-modellen in twintig verschillende disciplines, variërend van satellietbeelden tot pathologie.
De methodologie was eenvoudig maar onthullend:
1. Onderzoekers gaven de modellen een tekstprompt (bijvoorbeeld “Identificeer het weefsel in dit histologieglaasje” ).
2. Vervolgens zorgden ze voor het daadwerkelijke beeld.
3. In de testgroep hielden ze de afbeelding volledig achter.
De resultaten waren opzienbarend: In plaats van de gebruiker te waarschuwen dat de afbeelding ontbrak, gingen de meeste modellen naar de “mirage-modus”. Ze gingen verder met het beschrijven van specifieke, complexe visuele details en gaven klinische antwoorden op basis van deze niet-bestaande beelden.
De risico’s van “klinische autoriteit”
De implicaties voor de gezondheidszorg zijn bijzonder zorgwekkend vanwege twee specifieke trends die in het onderzoek zijn geïdentificeerd:
- Diagnostische bias: Wanneer AI-modellen gedwongen werden iets te ‘zien’ dat er niet was, hadden ze de neiging om standaard diagnoses te stellen die onmiddellijke klinische interventie vereisten. Dit zou kunnen leiden tot onnodige, agressieve en potentieel schadelijke medische behandelingen voor patiënten.
- De illusie van nauwkeurigheid: Omdat deze modellen zijn getraind om behulpzaam en gezaghebbend te zijn, leveren ze deze verzinsels met extreem vertrouwen. Dit is gevaarlijk omdat de modellen standaard benchmarktests kunnen doorstaan – die meten of een AI een vraag correct kan beantwoorden – zonder de afbeelding daadwerkelijk te ‘zien’. Ze ‘lezen’ in wezen de context in plaats van de visuele gegevens te ‘interpreteren’.
“Zelfs als jouw AI iets heel, heel specifieks beschrijft, zou je zeggen: ‘Oh, dat kun je op geen enkele manier verzinnen’, ja, ze zouden dat wel kunnen verzinnen”, waarschuwt Mohammad Asadi.
Waarom gebeurt dit?
De wortel van het probleem ligt in de manier waarop deze modellen worden geoptimaliseerd. AI is ontworpen om het meest efficiënte pad naar een antwoord te vinden. Wanneer een model wordt getraind op enorme datasets die zowel tekst als afbeeldingen bevatten, leert het te vertrouwen op statistische snelkoppelingen.
Als een prompt zeer beschrijvend is, kan het model de stap ‘visuele verwerking’ geheel omzeilen en direct tot een conclusie komen op basis van de patronen die het in de tekst herkent. Hierdoor ontstaat een ‘black box’-probleem: er is momenteel geen betrouwbare manier om te bepalen of een model een scan daadwerkelijk analyseert of eenvoudigweg een geavanceerde taalkundige schatting uitvoert.
Het pad voorwaarts: een behoefte aan nieuwe vangrails
Het onderzoek wijst op een kritieke leemte in de manier waarop we AI evalueren. De huidige testkaders zijn niet geavanceerd genoeg om onderscheid te maken tussen echte cross-modale integratie (daadwerkelijk zien) en contextueel raden (alleen maar lezen).
Nu steeds meer mensen – inclusief medische professionals – afhankelijk zijn van AI voor gezondheidsbegeleiding, is de behoefte aan een nieuwe generatie evaluatiekaders urgent. Totdat bewezen kan worden dat AI ‘ziet’ in plaats van alleen maar ‘voorspelt’, moet de rol ervan in de klinische besluitvorming strikt onder toezicht blijven.
Conclusie: De ontdekking van ‘luchtspiegelingen’ laat zien dat AI-modellen met vertrouwen medische bevindingen kunnen fabriceren op basis van niet-bestaande beelden, wat een aanzienlijk risico met zich meebrengt op overdiagnose en misplaatst vertrouwen in klinische omgevingen.