Weder Radiologen mit langjähriger Berufserfahrung noch multimodale Großsprachmodelle (Large Language Models, LLMs) können eindeutig „Deepfake“-Röntgenbilder von authentischen Bildern unterscheiden. Die KI-generierten Röntgenaufnahmen sind demnach realistisch genug, um nicht nur Radiologen, sondern auch LLMs zu täuschen. Das ist das Ergebnis einer retrospektiven US-Studie, bei der 17 Radiologen zur Bewertung von verschiedenen Röntgenbildern eingeladen wurden. Darüber, dass die Hälfte der 264 Röntgenbilder echt, die andere Hälfte KI-generiert war, wurden die Radiologen im ersten Durchgang nicht informiert. Bei der Beurteilung der Qualität der Aufnahmen hatten 41% den Verdacht, dass darunter auch KI-generierte Bilder sein könnten. Im zweiten Durchgang sollten die Radiologen mit dem Wissen, dass der Bildersatz KI-generierte Bilder enthielt, die echten von den synthetischen Aufnahmen unterscheiden. Hier lag die „Trefferquote“ zwischen 58% und 92%. Ähnlich lag die Genauigkeit von vier multimodalen LLMs – GPT-4o, GPT-5, Gemini 2.5 Pro und Llama 4 Maverick – zwischen 57% und 85%. Sogar ChatGPT-4o, das Modell zur Erstellung der Deepfakes, konnte nicht alle genau erkennen, identifizierte jedoch mit großem Abstand die meisten.
Literatur: Tordjman M et al. Radiology 2026; 318(3): e25209. https://doi.org/10.1148/radiol.252094
Quelle: Pressemitteilung Radiological Society of North America RSNA



