W miarę jak sztuczna inteligencja przenosi się z laboratoriów eksperymentalnych do medycyny, gdzie stawka jest niewiarygodnie wysoka, pojawiła się poważna wada techniczna. Nowe badania pokazują, że obecne modele sztucznej inteligencji umożliwiają badaczom zjawisko zwane „mirażami” – procesem, w którym sztuczna inteligencja opisuje szczegółowe ustalenia medyczne na obrazach, które w rzeczywistości nie istnieją.

Zrozumienie różnicy między „mirażem” a „halucynacją”

Podczas gdy branża technologiczna jest zaznajomiona z halucynacjami sztucznej inteligencji ** (w których chatbot może wymyślić nieistniejące odniesienie prawne lub fakt historyczny), efekt mirażu jest znacznie bardziej podstępny.

Podczas normalnej halucynacji sztuczna inteligencja generuje nieprawidłowy tekst. W przypadku mirażu sztuczna inteligencja zachowuje się tak, jakby widziała bodziec wzrokowy. Generuje bardzo szczegółowy i pewny opis obrazu (na przykład guz w badaniu MRI lub konkretny wzór tkanki w biopsji), nawet jeśli system nie otrzymał żadnego obrazu.

Badanie: testowanie granic wzroku

Zespół badaczy pod kierownictwem analityka danych Mohammada Assadiego z Uniwersytetu Stanforda przetestował 12 różnych modeli sztucznej inteligencji w 20 różnych dyscyplinach, od zdjęć satelitarnych po patologię.

Metodologia była prosta, ale odkrywcza:
1. Badacze podpowiadali modelom tekst (na przykład: „Określ typ tkanki w tej sekcji histologicznej.” ).
2. Następnie dostarczyli rzeczywisty obraz.
3. W grupie testowej całkowicie ukryli obraz.

Rezultaty były niesamowite: zamiast ostrzegać użytkownika, że ​​nie ma obrazu, większość modeli przechodziła w „tryb mirażu”. Następnie opisali konkretne, złożone szczegóły wizualne i udzielili odpowiedzi klinicznych w oparciu o nieistniejące dane wizualne.

Ryzyko „władzy klinicznej”

Konsekwencje zdrowotne są szczególnie niepokojące ze względu na dwie tendencje zidentyfikowane w badaniu:

  • Błąd diagnostyczny: kiedy modele sztucznej inteligencji są zmuszone „zobaczyć” coś, czego nie ma, zazwyczaj stawiają diagnozy wymagające natychmiastowej interwencji klinicznej. Może to prowadzić do niepotrzebnego, inwazyjnego i potencjalnie niebezpiecznego leczenia pacjentów.
  • Iluzja dokładności: Ponieważ modele te są szkolone tak, aby były pomocne i wiarygodne, przedstawiają te fikcje z największą pewnością. Jest to niebezpieczne, ponieważ modele mogą przejść standardowe testy (testy porównawcze), które sprawdzają zdolność sztucznej inteligencji do prawidłowego odpowiadania na pytania bez faktycznego „widzenia” obrazu. Zasadniczo „czytają” kontekst, a nie „interpretują” dane wizualne.

„Nawet jeśli Twoja sztuczna inteligencja opisuje coś bardzo, bardzo konkretnego, o czym myślisz: «O nie, nie możesz tego po prostu wymyślić», tak, ona może to wymyślić” – ostrzega Mohammad Asadi.

Dlaczego tak się dzieje?

Źródłem problemu jest sposób optymalizacji tych modeli. Sztuczna inteligencja ma za zadanie znaleźć najskuteczniejszą drogę do odpowiedzi. Kiedy model jest szkolony na ogromnych zbiorach danych zawierających zarówno tekst, jak i obrazy, uczy się polegać na redukcjach statystycznych.

Jeśli podpowiedź jest bardzo szczegółowa, model może całkowicie pominąć krok „przetwarzania wizualnego” i przejść bezpośrednio do wyników w oparciu o wzorce rozpoznane w tekście. Stwarza to problem czarnej skrzynki: obecnie nie ma niezawodnego sposobu ustalenia, czy model faktycznie analizuje migawkę, czy po prostu przeprowadza wyrafinowane zgadywanie językowe.

Droga naprzód: potrzeba nowych barier

Badanie podkreśla krytyczną lukę w sposobie oceny sztucznej inteligencji. Obecne metodologie testowania nie są wystarczająco wyrafinowane, aby rozróżnić prawdziwą integrację międzymodalną (zdolność faktycznego widzenia) od zgadywania kontekstowego (tylko czytanie tekstu).

Ponieważ coraz więcej osób, w tym pracowników służby zdrowia, polega na sztucznej inteligencji, aby pomóc im zarządzać swoim zdrowiem, potrzeba opracowania nowej generacji systemów oceny ma kluczowe znaczenie. Dopóki nie zostanie udowodnione, że sztuczna inteligencja rzeczywiście „widzi”, a nie tylko „przewiduje”, jej rola w podejmowaniu decyzji klinicznych musi pozostać pod ścisłą kontrolą człowieka.


Wniosek: odkrycie „mirażów” pokazuje, że modele sztucznej inteligencji mogą z pewnością tworzyć raporty medyczne na podstawie nieistniejących obrazów, stwarzając znaczne ryzyko nadmiernej diagnozy i braku zaufania w warunkach klinicznych.