Aktuelle Studien untersuchen die diagnostische Kompetenz von Large Language Models (LLMs) im Vergleich zu Ärzt:innen.
Eine umfassende Bewertung der OpenAI o1-Serie anhand klinisch-pathologischer Konferenzen (CPCs) des New England Journal of Medicine (NEJM) zeigt signifikante Fortschritte in der klinischen Entscheidungsunterstützung:
- Diagnostische Genauigkeit: Die o1-preview enthielt in 78,3 % der Fälle die korrekte Diagnose in ihrer Differenzialdiagnose (DDx). Bei Einbeziehung sehr nahegelegener Diagnosen stieg die Genauigkeit auf 97,9 %.
- Überlegenheit gegenüber Ärzten: In einer Teilmenge von 101 Fällen übertraf das Modell sowohl die Top-1- als auch die Top-10-Genauigkeit menschlicher Ärzte.
- Modellvergleich: o1-preview erzielte bei 70 Fällen in 88,6 % eine exakte oder nahe Diagnose, während GPT-4 lediglich 72,9 % erreichte ($P = 0,015$).
- Klinisches Management: Bei der Auswahl des nächsten diagnostischen Tests wählte das LLM in 87,5 % der Fälle die korrekte Option; weitere 11 % wurden als hilfreich eingestuft.
- Argumentationsqualität: In NEJM Healer-Fällen erreichte o1-preview in 78 von 80 Fällen einen perfekten R-IDEA-Score und schnitt damit signifikant besser ab als Fach- und Assistenzärzte ($P < 0,0001$).
Die kontinuierliche Verbesserung der KI-gestützten diagnostischen Argumentation deutet auf ein hohes Potenzial für die klinische Versorgung hin. Während frühere Systeme oft an komplexen Vignetten scheiterten, übertreffen moderne LLMs mittlerweile etablierte Benchmarks des klinischen Denkens. Dies unterstreicht die Notwendigkeit prospektiver Studien zur Integration in den klinischen Alltag.
(sma)
Quelle: Brodeur, P. G., Buckley, T. A., Kanjee, Z., Goh, E., Ling, E. B. L., Jain, P., Cabral, S., Abdulnour, R.-E., Haimowitsch, A. D., & Rodman, A. (2026). Leistung eines großen Sprachmodells bei den Schlussaufgaben eines Arztes. Science, 392(6797), 524–527. https://doi.org/10.1126/science.adz4433



