Große Sprachmodelle (Large Language Modelle, LLM) haben sich längst auch bei medizinischen Fragestellungen etabliert. Doch Vorsicht, es gibt Schwachstellen bei der Sicherheit! LLM können gezielt manipuliert werden, damit sie gefährliche Gesundheitstipps geben. Sogenannte Prompt-Injection-Attacken (PIA) erstellen Eingaben (Prompts), mit denen die Reaktion der LLM beeinflusst werden kann. Wissenschaftler haben jetzt untersucht, wie gut gängige Modelle vor derartigen Manipulationen geschützt sind. Sie testeten dazu einfache LLM* sowie fortgeschrittenere Modelle** in verschiedenen konstruierten Settings mit niedriger bis hoher Gesundheitsgefährdung.
Ergebnis: Nicht manipuliert, lieferten alle LLM bei 108 simulierten Patientenanfragen zuverlässig korrekte Antworten. Bei schweren PIA zeigten sich selbst gut etablierte KI-Modelle mit modernen Sicherheitsmechanismen im hohen Maße anfällig. PIA waren bei den 108 Patientenanfragen zu 94,4% erfolgreich, d.h. die Modelle konnten zu einer falschen Aussage manipuliert werden. Bei den fortgeschrittenen Sprachmodellen wurde ihre Reaktion gegenüber sog. Man-in-the-Middle-basierte, Client-seitige Prompt-Injektionen getestet. Diese Attacken waren bei GPT 5 und Gemini 2.5 Pro in dem Thalidomid-für-Schwangere-Setting zu 100% erfolgreich, bei Claude 4.5 Sonnet zu 80%.
* GPT-4o-mini, Gemini-2.0-flash-lite, Claude-3-haiku / ** GPT-5, Gemini 2.5 Pro, Claude 4.5 Sonnet
Quelle: Lee RW et al. JAMA Netw Open 2025;8(12):e2549963. doi:10.1001/jamanetworkopen.2025.49963



