Ketika kecerdasan buatan berpindah dari laboratorium eksperimental ke dunia diagnostik medis yang berisiko tinggi, kelemahan teknis yang signifikan telah muncul. Sebuah studi baru menunjukkan bahwa model AI saat ini mampu menghasilkan fenomena yang oleh para peneliti disebut sebagai “fatamorgana” —sebuah proses di mana AI mendeskripsikan temuan medis secara mendetail untuk gambar yang sebenarnya tidak ada.

Memahami “Mirage” vs. “Halusinasi”

Meskipun industri teknologi akrab dengan AI halusinasi —di mana chatbot mungkin menciptakan kutipan resmi palsu atau fakta sejarah yang tidak ada—efek “fatamorgana” lebih menipu.

Dalam halusinasi standar, AI memberikan teks yang salah. Dalam fatamorgana, AI bertindak seolah-olah sedang melihat stimulus visual. Ini menghasilkan deskripsi gambar yang sangat detail dan otoritatif (seperti tumor di MRI atau pola jaringan tertentu di biopsi) bahkan ketika tidak ada gambar yang diberikan ke sistem.

Studi: Menguji Batas Penglihatan

Para peneliti, yang dipimpin oleh ilmuwan data Mohammad Asadi dari Universitas Stanford, menguji 12 model AI berbeda di 20 disiplin ilmu berbeda, mulai dari citra satelit hingga patologi.

Metodologinya jelas namun mengungkapkan:
1. Peneliti memberikan perintah teks kepada model (misalnya, “Identifikasi jaringan dalam slide histologi ini” ).
2. Mereka kemudian memberikan gambar sebenarnya.
3. Pada kelompok uji, mereka menahan gambar seluruhnya.

Hasilnya mengejutkan: Alih-alih memperingatkan pengguna bahwa gambar tersebut hilang, sebagian besar model malah memasuki “mode fatamorgana”. Mereka melanjutkan dengan mendeskripsikan detail visual yang spesifik dan kompleks serta memberikan jawaban klinis berdasarkan visual yang tidak ada tersebut.

Risiko “Otoritas Klinis”

Implikasinya terhadap layanan kesehatan sangat memprihatinkan karena dua tren spesifik yang diidentifikasi dalam penelitian ini:

  • Bias Diagnostik: Saat dipaksa untuk “melihat” sesuatu yang sebenarnya tidak ada, model AI cenderung default pada diagnosis yang memerlukan intervensi klinis segera. Hal ini dapat menyebabkan perawatan medis yang tidak perlu, agresif, dan berpotensi membahayakan pasien.
  • Ilusi Akurasi: Karena model ini dilatih untuk membantu dan berwibawa, mereka menyampaikan pemalsuan ini dengan sangat percaya diri. Hal ini berbahaya karena model dapat lulus uji benchmark standar—yang mengukur apakah AI dapat menjawab pertanyaan dengan benar—tanpa benar-benar “melihat” gambarnya. Mereka pada dasarnya “membaca” konteks daripada “menafsirkan” data visual.

“Bahkan jika AI Anda mendeskripsikan hal yang sangat, sangat spesifik sehingga Anda akan berkata, ‘Oh, tidak mungkin Anda bisa mengada-ada,’ ya, mereka bisa mengada-ada,” Mohammad Asadi memperingatkan.

Mengapa Ini Terjadi?

Akar masalahnya terletak pada bagaimana model ini dioptimalkan. AI dirancang untuk menemukan jalur paling efisien menuju sebuah jawaban. Saat model dilatih pada kumpulan data besar yang berisi teks dan gambar, model akan belajar mengandalkan pintasan statistik.

Jika sebuah perintah sangat deskriptif, model mungkin mengabaikan langkah “pemrosesan visual” sepenuhnya dan langsung mengambil kesimpulan berdasarkan pola yang dikenali dalam teks. Hal ini menciptakan masalah “kotak hitam”: saat ini tidak ada cara yang dapat diandalkan untuk mengetahui apakah suatu model benar-benar menganalisis pemindaian atau sekadar melakukan tebakan linguistik yang canggih.

Jalan ke Depan: Perlunya Pagar Pembatas Baru

Studi ini menyoroti kesenjangan kritis dalam cara kami mengevaluasi AI. Kerangka pengujian saat ini tidak cukup canggih untuk membedakan antara integrasi lintas-modal yang sebenarnya (sebenarnya melihat) dan tebakan kontekstual (hanya membaca).

Karena semakin banyak orang—termasuk profesional medis—yang mengandalkan AI untuk panduan kesehatan, kebutuhan akan kerangka evaluasi generasi baru menjadi sangat mendesak. Hingga AI dapat dibuktikan untuk “melihat” dan bukan hanya “memprediksi”, perannya dalam pengambilan keputusan klinis harus tetap diawasi secara ketat.


Kesimpulan: Penemuan “fatamorgana” mengungkapkan bahwa model AI dapat dengan percaya diri membuat temuan medis dari gambar yang tidak ada, sehingga menimbulkan risiko diagnosis berlebihan dan kepercayaan yang salah dalam situasi klinis.