Jak se umělá inteligence přesouvá z experimentálních laboratoří do oblasti medicíny, kde je sázka neuvěřitelně vysoká, objevila se vážná technická chyba. Nový výzkum ukazuje, že současné modely umělé inteligence jsou schopny fenoménu, který výzkumníci nazývají “miragády” – procesu, ve kterém umělá inteligence popisuje detailní lékařské nálezy na snímcích, které ve skutečnosti neexistují.
Pochopení rozdílu mezi „přeludem“ a „halucinací“
Zatímco technický průmysl zná AI **halucinace (kde si chatbot může vymyslet neexistující právní odkaz nebo historický fakt), efekt přeludu je mnohem zákeřnější.
Během normální halucinace AI produkuje nesprávný text. V případě přeludu se AI chová, jako by viděla vizuální podnět. Generuje velmi podrobný a spolehlivý popis snímku (například nádor na MRI nebo specifický tkáňový vzor na biopsii), i když systém neobdržel žádný snímek.
Studie: Testování limitů zraku
Tým výzkumníků vedený datovým vědcem Mohammadem Assadim ze Stanfordské univerzity testoval 12 různých modelů umělé inteligence ve 20 různých oborech, od satelitních snímků po patologii.
Metodika byla jednoduchá, ale odhalující:
1. Výzkumníci dali modelům textovou výzvu (například “Identifikujte typ tkáně v tomto histologickém řezu.” ).
2. Poté poskytli skutečný obrázek.
3. V testovací skupině úplně skryli obrázek.
Výsledky byly úžasné: místo varování uživatele, že neexistuje žádný obrázek, většina modelů přešla do „režimu přeludu“. Pokračovali v popisu specifických, komplexních vizuálních detailů a poskytovali klinické odpovědi na základě těchto neexistujících vizuálních dat.
Rizika „klinické autority“
Zdravotní důsledky jsou obzvláště znepokojivé kvůli dvěma trendům identifikovaným ve studii:
- Diagnostické zkreslení: Když jsou modely umělé inteligence nuceny „vidět“ něco, co tam není, mají tendenci vytvářet diagnózy, které vyžadují okamžitý klinický zásah. To může vést ke zbytečné, invazivní a potenciálně nebezpečné léčbě pacientů.
- Iluze přesnosti: Protože jsou tyto modely vycvičeny tak, aby byly užitečné a autoritativní, prezentují tyto fikce s maximální jistotou. To je nebezpečné, protože modely mohou projít standardními testy (benchmarky), které testují schopnost AI správně odpovídat na otázky, aniž by skutečně „viděly“ obrázek. V podstatě „čtou“ kontext spíše než „interpretují“ vizuální data.
„I když vaše umělá inteligence popisuje něco velmi, velmi specifického, o čem si myslíte: ‚Ale ne, to si nemůžete jen tak vymyslet‘, ano, mohou si to vymyslet,“ varuje Mohammad Asadi.
Proč se to děje?
Kořen problému spočívá v tom, jak jsou tyto modely optimalizovány. AI je navržena tak, aby našla tu nejefektivnější cestu k odpovědi. Když je model trénován na velkých souborech dat obsahujících text i obrázky, naučí se spoléhat na statistické redukce.
Pokud je výzva velmi podrobná, model může zcela přeskočit krok „vizuálního zpracování“ a přejít přímo na výstup na základě vzorů, které rozpozná v textu. To vytváří problém černé skříňky: v současné době neexistuje žádný spolehlivý způsob, jak určit, zda model skutečně analyzuje snímek, nebo pouze provádí sofistikované lingvistické hádání.
Cesta vpřed: potřeba nových bariér
Studie zdůrazňuje kritickou mezeru v tom, jak hodnotíme AI. Současné testovací metodiky nejsou dostatečně sofistikované, aby rozlišovaly mezi skutečnou mezimodální integrací (schopnost skutečně vidět) a kontextovým hádáním (pouze čtení textu).
Vzhledem k tomu, že stále více lidí, včetně zdravotnických pracovníků, spoléhá na umělou inteligenci, která jim pomáhá spravovat jejich zdraví, je potřeba nové generace hodnotících systémů zásadní. Dokud se neprokáže, že umělá inteligence skutečně „vidí“ a nejen „předpovídá“, její role v klinickém rozhodování musí zůstat přísně pod lidskou kontrolou.
Závěr: Objev „přeludů“ ukazuje, že modely umělé inteligence mohou s jistotou vytvářet lékařské zprávy založené na neexistujících obrázcích, což vytváří značné riziko nadměrné diagnózy a nedůvěry v klinické prostředí.