Viele Menschen nutzen Chatbots als niedrigschwellige Anlaufstelle für Gesundheitsfragen, lassen jedoch in ihren Anfragen häufig wichtige Informationen weg. So zeigt sich: Bei Verdachtsdiagnosen und Empfehlungen liegen die Systeme mitunter daneben. Das liegt nicht nur an der Technik, sondern auch daran, wie Menschen mit der KI kommunizieren.
Eine Studie in Nature Medicine untersuchte genau dieses Zusammenspiel. Rund 1.000 Freiwillige aus Großbritannien bearbeiteten fiktive medizinische Fallbeispiele – entweder mithilfe von drei gängigen KI-Modellen (GPT-4o, Llama 3, Command R+) oder durch klassische Internetrecherche ohne KI.
Größere Chance auf passende Verdachtsdiagnose ohne KI
Das Ergebnis: Teilnehmende ohne KI-Unterstützung fanden mit etwa eineinhalbfach höherer Wahrscheinlichkeit eine passende Verdachtsdiagnose. Dabei unterschätzten alle Gruppen die Dringlichkeit der geschilderten Situationen.
Darüber hinaus ergab die Analyse der Chatverläufe, dass die Sprachmodelle durchaus korrekte Verdachtsdiagnosen lieferten – die Teilnehmenden griffen sie aber nicht als Entscheidungsgrundlage auf. Als das Forschungsteam der KI aber die vollständigen Fallbeschreibungen zur Verfügung stellte, stieg sowohl die diagnostische Treffsicherheit als auch die Qualität der Empfehlungen. Simulierten die Modelle selbst einen Nutzer oder eine Nutzerin, erzielten sie im Schnitt bessere Ergebnisse, als wenn reale Personen Anfragen stellten.
Warum läuft die Kommunikation schief?
Nutzende wüssten oft nicht, welche Informationen sie angeben müssten oder wie sie KI-Antworten einordnen sollten, erklärt Professor Dr. Iryna Gurevych, Technische Universität Darmstadt, in ihrer Einschätzung zur Studie gegenüber dem Science Media Center (SMC). Ein medizinischer Chatbot sollte ihrer Auffassung nach mehr als nur Fragen beantworten können. Stattdessen sollte der Bot etwa aktiv fehlende Angaben erfragen, Unsicherheiten klar markieren und nur in einem eng definierten, risikoarmen Bereich zum Einsatz kommen.
KI muss Notfälle erkennen
Professor Dr. Kerstin Denecke, Berner Fachhochschule, sieht weitere Verbesserungen für einen medizinisch spezialisierten Chatbot notwendig. So müsste das System…
- evidenzbasierte Inhalte liefern,
- strukturierte Anamnesen durchführen,
- Notfälle zuverlässig erkennen und
- klar seine Grenzen kommunizieren können.
Zudem müssten Menschen lernen, den Systemen passende Anfragen (prompts) zu geben. Denn Missverständnisse im Austausch mit der KI entstünden häufig aus einem Mangel an Erfahrung im Formulieren präziser Anfragen bzw. an medizinischem Grundwissen, so Professor Dr. Ute Schmidt von der Otto-Friedrich-Universität Bamberg. Auf lange Sicht könnten Hausarztpraxen und Kassen einmal qualitätsgeprüfte Systeme empfehlen.
Lösungsansatz: Gesundheitskompetenz der Menschen stärken
Zudem sei das Vertrauen in die KI oft stärker vom erhofften Nutzen getrieben als von einer tatsächlichen KI- oder Gesundheitskompetenz, betonte Dr. Anne Reinhardt von der Ludwig-Maximilians-Universität München gegenüber dem SMC. Sie fordert, die Gesundheitskompetenz der Menschen zu stärken.
DOI: 10.1038/s41591-025-04074-y