Mentre l’intelligenza artificiale si sposta dai laboratori sperimentali al mondo ad alto rischio della diagnostica medica, è emerso un significativo difetto tecnico. Un nuovo studio suggerisce che gli attuali modelli di intelligenza artificiale sono capaci di un fenomeno che i ricercatori chiamano “miraggi”, un processo in cui l’intelligenza artificiale descrive risultati medici dettagliati per immagini che in realtà non esistono.
Comprendere il “Miraggio” e l'”Allucinazione”
Sebbene l’industria tecnologica abbia familiarità con le allucinazioni dell’intelligenza artificiale, in cui un chatbot potrebbe inventare una falsa citazione legale o un fatto storico inesistente, l’effetto “miraggio” è più ingannevole.
In un’allucinazione standard, l’IA fornisce un testo errato. In un miraggio, l’IA si comporta come se stesse guardando uno stimolo visivo. Genera una descrizione altamente dettagliata e autorevole di un’immagine (come un tumore in una risonanza magnetica o un modello di tessuto specifico in una biopsia) anche quando al sistema non è stata fornita alcuna immagine.
Lo studio: testare i limiti della visione
I ricercatori, guidati dal data scientist Mohammad Asadi dell’Università di Stanford, hanno testato 12 diversi modelli di intelligenza artificiale in 20 diverse discipline, dalle immagini satellitari alla patologia.
La metodologia era semplice ma rivelatrice:
1. I ricercatori hanno fornito ai modelli un messaggio di testo (ad esempio, “Identifica il tessuto in questo vetrino istologico” ).
2. Hanno quindi fornito l’immagine reale.
3. Nel gruppo di prova, hanno nascosto completamente l’immagine.
I risultati sono stati sorprendenti: Invece di avvisare l’utente che l’immagine mancava, la maggior parte dei modelli è entrata in “modalità miraggio”. Hanno proceduto a descrivere dettagli visivi specifici e complessi e hanno fornito risposte cliniche basate su queste immagini inesistenti.
I rischi dell'”autorità clinica”
Le implicazioni per l’assistenza sanitaria sono particolarmente preoccupanti a causa di due tendenze specifiche identificate nella ricerca:
- Bias diagnostico: Quando costretti a “vedere” qualcosa che non c’era, i modelli di intelligenza artificiale tendevano a passare automaticamente a diagnosi che richiedevano un intervento clinico immediato. Ciò potrebbe portare a trattamenti medici non necessari, aggressivi e potenzialmente dannosi per i pazienti.
- L’illusione dell’accuratezza: poiché questi modelli sono addestrati per essere utili e autorevoli, forniscono queste invenzioni con estrema sicurezza. Ciò è pericoloso perché i modelli possono superare i test di benchmark standard, che misurano se un’intelligenza artificiale può rispondere correttamente a una domanda, senza effettivamente “vedere” l’immagine. Stanno essenzialmente “leggendo” il contesto piuttosto che “interpretando” i dati visivi.
“Anche se la tua intelligenza artificiale descrive una cosa molto, molto specifica che diresti: ‘Oh, non è possibile inventarlo’, sì, potrebbero inventarlo”, avverte Mohammad Asadi.
Perché succede questo?
La radice del problema risiede nel modo in cui questi modelli vengono ottimizzati. L’intelligenza artificiale è progettata per trovare il percorso più efficiente verso una risposta. Quando un modello viene addestrato su enormi set di dati contenenti sia testo che immagini, impara a fare affidamento su scorciatoie statistiche.
Se un suggerimento è altamente descrittivo, il modello può ignorare completamente la fase di “elaborazione visiva” e saltare direttamente a una conclusione basata sui modelli che riconosce nel testo. Ciò crea un problema di “scatola nera”: attualmente non esiste un modo affidabile per sapere se un modello sta veramente analizzando una scansione o semplicemente eseguendo un’ipotesi linguistica sofisticata.
Il percorso da seguire: la necessità di nuovi guardrail
Lo studio evidenzia una lacuna critica nel modo in cui valutiamo l’intelligenza artificiale. Gli attuali framework di test non sono sufficientemente sofisticati per distinguere tra vera integrazione intermodale (vedere effettivamente) e indovinare contestualmente (semplicemente leggere).
Poiché sempre più persone, compresi i professionisti medici, si affidano all’intelligenza artificiale per la guida sanitaria, è urgente la necessità di una nuova generazione di quadri di valutazione. Fino a quando non sarà dimostrato che l’intelligenza artificiale “vede” anziché limitarsi a “predire”, il suo ruolo nel processo decisionale clinico deve rimanere strettamente supervisionato.
Conclusione: La scoperta dei “miraggi” rivela che i modelli di intelligenza artificiale possono fabbricare con sicurezza risultati medici da immagini inesistenti, ponendo un rischio significativo di diagnosi eccessiva e di fiducia mal riposta negli ambienti clinici.























