Während die künstliche Intelligenz aus experimentellen Laboren in die Welt der medizinischen Diagnostik vordringt, ist ein erheblicher technischer Fehler aufgetreten. Eine neue Studie legt nahe, dass aktuelle KI-Modelle zu einem Phänomen fähig sind, das Forscher als „Trugbilder“ bezeichnen – einen Prozess, bei dem die KI detaillierte medizinische Befunde für Bilder beschreibt, die tatsächlich nicht existieren.

Das „Trugbild“ vs. die „Halluzination“ verstehen

Während die Tech-Branche mit KI-Halluzinationen vertraut ist – bei denen ein Chatbot ein gefälschtes juristisches Zitat oder eine nicht existierende historische Tatsache erfinden könnte – ist der „Trugbildeffekt“ eher trügerisch.

Bei einer normalen Halluzination liefert die KI falschen Text. Bei einer Fata Morgana verhält sich die KI so, als würde sie einen visuellen Reiz betrachten. Es generiert eine äußerst detaillierte, aussagekräftige Beschreibung eines Bildes (z. B. eines Tumors in einer MRT oder eines bestimmten Gewebemusters in einer Biopsie), selbst wenn dem System kein Bild bereitgestellt wurde.

Die Studie: Die Grenzen des Sehens testen

Forscher unter der Leitung des Datenwissenschaftlers Mohammad Asadi von der Stanford University testeten 12 verschiedene KI-Modelle in 20 verschiedenen Disziplinen, von Satellitenbildern bis hin zur Pathologie.

Die Methodik war unkompliziert, aber aufschlussreich:
1. Die Forscher gaben den Modellen eine Textaufforderung (z. B. * „Identifizieren Sie das Gewebe in diesem histologischen Objektträger“).
2. Sie stellten dann das eigentliche Bild zur Verfügung.
3. In der Testgruppe haben sie
das Bild vollständig zurückgehalten *.

Die Ergebnisse waren verblüffend: Anstatt den Benutzer darauf aufmerksam zu machen, dass das Bild fehlte, wechselten die meisten Modelle in den „Mirage-Modus“. Anschließend beschrieben sie spezifische, komplexe visuelle Details und lieferten klinische Antworten auf der Grundlage dieser nicht vorhandenen visuellen Elemente.

Die Risiken der „klinischen Autorität“

Die Auswirkungen auf das Gesundheitswesen sind besonders besorgniserregend, da in der Forschung zwei spezifische Trends festgestellt wurden:

  • Diagnostischer Bias: Wenn KI-Modelle gezwungen waren, etwas zu „sehen“, was nicht da war, neigten sie dazu, standardmäßig Diagnosen zu stellen, die sofortiges klinisches Eingreifen erforderten. Dies könnte zu unnötigen, aggressiven und möglicherweise schädlichen medizinischen Behandlungen für Patienten führen.
  • Die Illusion der Genauigkeit: Da diese Modelle darauf trainiert sind, hilfreich und maßgeblich zu sein, liefern sie diese Erfindungen mit äußerster Sicherheit. Dies ist gefährlich, da die Modelle Standard-Benchmark-Tests bestehen können, bei denen gemessen wird, ob eine KI eine Frage richtig beantworten kann, ohne das Bild tatsächlich zu „sehen“. Sie „lesen“ im Wesentlichen den Kontext, anstatt die visuellen Daten zu „interpretieren“.

„Selbst wenn Ihre KI eine sehr, sehr spezifische Sache beschreibt, würden Sie sagen: ‚Oh, das können Sie sich auf keinen Fall ausdenken‘, ja, sie könnten sich das ausdenken“, warnt Mohammad Asadi.

Warum passiert das?

Die Wurzel des Problems liegt in der Art und Weise, wie diese Modelle optimiert werden. KI ist darauf ausgelegt, den effizientesten Weg zu einer Antwort zu finden. Wenn ein Modell auf riesigen Datensätzen trainiert wird, die sowohl Text als auch Bilder enthalten, lernt es, sich auf statistische Abkürzungen zu verlassen.

Wenn eine Eingabeaufforderung sehr beschreibend ist, kann das Modell den Schritt der „visuellen Verarbeitung“ vollständig überspringen und auf der Grundlage der im Text erkannten Muster direkt zu einer Schlussfolgerung gelangen. Dadurch entsteht ein „Black-Box“-Problem: Es gibt derzeit keine zuverlässige Möglichkeit, festzustellen, ob ein Modell tatsächlich einen Scan analysiert oder lediglich eine anspruchsvolle sprachliche Vermutung anstellt.

Der Weg nach vorne: Ein Bedarf an neuen Leitplanken

Die Studie zeigt eine kritische Lücke in der Art und Weise auf, wie wir KI bewerten. Aktuelle Test-Frameworks sind nicht ausgefeilt genug, um zwischen echter modalübergreifender Integration (tatsächliches Sehen) und kontextuellem Erraten (nur Lesen) zu unterscheiden.

Da sich immer mehr Menschen – darunter auch medizinisches Fachpersonal – bei der Gesundheitsberatung auf KI verlassen, ist der Bedarf an einer neuen Generation von Bewertungsrahmen dringend. Bis bewiesen werden kann, dass KI „sieht“ und nicht nur „vorhersagt“, muss ihre Rolle bei der klinischen Entscheidungsfindung streng überwacht werden.


Schlussfolgerung: Die Entdeckung von „Trugbildern“ zeigt, dass KI-Modelle sicher medizinische Befunde aus nicht vorhandenen Bildern erstellen können, was ein erhebliches Risiko einer Überdiagnose und eines fehlgeleiteten Vertrauens in klinische Umgebungen birgt.