Dr. KI: Zwischen diagnostischen Chancen und dem Risiko per Klick

Jede:r Zweite nutzt KI für medizinischen Rat, doch laut Nature Medicine liegt die Treffsicherheit bei Laien nur bei 35% (Profis: 95%). Entscheidend für den diagnostischen Nutzen ist somit primär die Qualität der Fragestellung.

Fast jede:r zweite Patient:in sucht medizinischen Rat mittlerweile bei einer KI. Doch während Profis mit präzisen Abfragen medizinische Volltreffer landen, führt die Reise für viele Laien ins Ungewisse. Am Ende entscheidet oft nicht die Rechenpower des Codes, sondern die Qualität unserer Fragen.

Obwohl generative KI-Modelle wie ChatGPT über enormes medizinisches Wissen verfügen, profitieren Laien im Alltag kaum davon. Laut einer Studie im Fachmagazin Nature Medicine erhalten normale Nutzer:innen nur in 35% der Fälle die richtige Verdachtsdiagnose. Zum Vergleich: Expert:innen erzielen mit präzisen Eingaben eine Trefferquote von 95%.

Das Problem liegt laut Expert:innen weniger in der Rechenleistung der KI, sondern in der Interaktion: Laien lassen in ihren Prompts (Suchanfragen) oft wichtige Informationen weg oder geben unbewusst eine Richtung vor, die das Modell in eine falsche Diagnose drängt. Zudem neigen Nutzer dazu, die KI zu vermenschlichen, was die kritische Distanz zu den Ergebnissen verringert.

Trotz dieser Fehlerquote bleibt der Zulauf enorm, da Chatbots rund um die Uhr verfügbar sind und eine anonyme Beratung bei schambesetzten Themen ermöglichen. Fachleute fordern daher dringend mehr KI-Kompetenz und den Einsatz spezialisierter Bots, um gefährliche Fehlbehandlungen zu vermeiden.

Der Trend zur digitalen Zweitmeinung

Die Hemmschwelle, medizinische Beschwerden von einer KI bewerten zu lassen, sinkt rapide. Schätzungsweise die Hälfte der gesetzlich Krankenversicherten in Deutschland hat bereits ChatGPT oder ähnliche Modelle für gesundheitliche Fragen genutzt („Digital Health 2025“ von Bitkom Research). Die Gründe hierfür liegen vor allem in der ständigen Verfügbarkeit (24/7) und dem erschwerten Zugang zu Hausarzt-Terminen, insbesondere im ländlichen Raum. KI-Modelle wie ChatGPT, Claude oder Gemini bieten zudem eine Anonymität, die besonders bei sensiblen Themen wie psychischen Erkrankungen, Sucht oder sexueller Gesundheit als Vorteil empfunden wird.

Faktor Datenbasis

Ein zentrales Risiko allgemeiner Chatbots ist ihre Datenbasis. Da sie auf das gesamte Internet zugreifen, vermischt sich verlässliches medizinisches Wissen mit ungenauen Informationen. Dies kann zu gefährlichen Selbstdiagnosen führen, die notwendige Arztbesuche verzögern.

Die Lösung sehen Fachleute in spezialisierten Systemen, die auf geprüften Fachdaten basieren. Beispiele wie „Uro-Bert“ (Urologie) oder „Lupus-GPT“ zeigen, wie KI als präzise Benutzeroberfläche für Expertenwissen dienen kann. Ein ungelöstes Problem bleibt jedoch der Datenschutz: Um eine präzise, individualisierte Antwort zu erhalten, müssen Nutzer hochsensible Daten preisgeben. Ein Dilemma zwischen medizinischer Exaktheit und dem Schutz der Privatsphäre.

Die Rolle von Pharma

Für die Pharmaindustrie kann die Integration von KI in die Patientenberatung neue Möglichkeiten in der Patient Journey bedeuten. Spezialisierte Bots könnten dafür genutzt werden, um komplexe Beipackzettel verständlich zu erklären oder das Nebenwirkungsmanagement bei chronischen Erkrankungen zu unterstützen. Die KI fungiert so als Brücke zwischen der oft schwer verständlichen wissenschaftlichen Evidenz und dem Informationsbedürfnis der Patient:innen. Die Haftungsfrage bleibt dennoch zentral: Solange KI-Modelle keine verbindlichen Diagnosen stellen dürfen, dient ihr Einsatz primär der Information und der Adhärenz, nicht aber dem Ersatz ärztlicher Expertise.

Wer mehr wissen möchte:

Spezialisierte medizinische Fach-Bots

  • Uro-Bert: Dieser von der Uro-GmbH Nordrhein (einem Verbund niedergelassener Urologen) entwickelte Chatbot bietet anonyme Beratung zu sensiblen Themen wie Erektionsstörungen, Inkontinenz oder Prostatakrebs. Er dient als niedrigschwelliges Informationsangebot, das im Bedarfsfall gezielt an Fachpraxen oder die Notfallversorgung verweist.
  • Sucht-GPT: Ein vom Bundesgesundheitsministerium (BMG) gefördertes Projekt, das Betroffenen und Angehörigen anonyme Informationen zu Suchterkrankungen (z. B. Glücksspiel- oder Drogensucht) bietet. Der Bot hilft bei der Einordnung von Symptomen und vermittelt Kontakte zu professionellen Hilfesystemen.
  • Lupus-GPT: Dieser spezialisierte Bot wurde in Zusammenarbeit von Lupus-Patient:innen und Mediziner:innen entwickelt. Studien zeigen, dass spezialisierte KI-Modelle Fragen zum Systemischen Lupus Erythematodes oft ebenso präzise und einfühlsam beantworten können wie Fachärzte.
  • Krebsinformationsdienst (DKFZ): Der Dienst experimentiert mit Chatbot-Lösungen, um komplexe Informationen zur Krebsprävention und -früherkennung verständlich aufzubereiten. Expert:innen warnen hierbei jedoch ausdrücklich davor, allgemeine KIs wie ChatGPT für Therapieentscheidungen zu nutzen, da deren Datenbasis oft veraltet ist oder Quellen nicht offenlegt.

Oxford-Studie: Warum Dr. ChatGPT den Arztbesuch nicht ersetzen kann

Eine neue Untersuchung des Oxford Internet Institute und des Nuffield Department of Primary Care Health Sciences der Universität Oxford zeigt eine deutliche Diskrepanz zwischen der theoretischen Leistungsfähigkeit von KI-Modellen (LLMs) und ihrem praktischen Nutzen für Patienten auf. Während diese Modelle in standardisierten medizinischen Wissenstests mittlerweile exzellente Ergebnisse erzielen, stellen sie für reale Nutzer, die Hilfe bei Symptomen suchen, ein erhebliches Risiko dar.

Die Kernergebnisse der Untersuchung:

  • Kein diagnostischer Mehrwert: Teilnehmer:innen, die eine KI zurate zogen, trafen keine besseren medizinischen Entscheidungen als jene, die klassische Methoden wie die Online-Suche oder ihr eigenes Urteilsvermögen nutzten.
  • Gefährliche Fehldiagnosen: Die Studie warnt davor, dass Chatbots falsche Diagnosen stellen können und oft nicht erkennen, wann eine sofortige medizinische Notfallhilfe erforderlich ist.
  • Mangelhafte Kommunikation: Es wurde ein beidseitiges Kommunikationsproblem festgestellt: Nutzer wissen oft nicht, welche Informationen die KI für eine präzise Beratung benötigt, während die Antworten der KI oft eine Mischung aus guten und schlechten Empfehlungen enthalten.
  • Inkonsistenz: Die KI lieferte bei geringfügigen Abweichungen in der Fragestellung oft völlig unterschiedliche Antworten.

Hintergrund: ChatGPT in der Gesundheitsberatung

Eine aktuelle Studie der TU Berlin (veröffentlicht 2026 in Communications Medicine) hat die Zuverlässigkeit von ChatGPT bei der Ersteinschätzung gesundheitlicher Beschwerden untersucht. Das Team um Dr. Marvin Kopka analysierte dabei 22 Modellversionen (bis hin zu GPT-5) anhand von 45 realen Patientenfallbeispielen.

Die wichtigsten Ergebnisse:

  • Systematische Übervorsicht („Konservative Triage“): Die KI neigt dazu, Beschwerden als dringlicher einzustufen, als sie medizinisch sind. Während Behandlungsbedarf meist korrekt erkannt wird, liegt die größte Schwäche bei harmlosen Fällen: 70% aller Fehler entstanden, weil die KI zur ärztlichen Abklärung riet, obwohl Selbstversorgung ausgereicht hätte.
  • Stagnierende Genauigkeit: Seit der Einführung von GPT-4 stagniert die Treffsicherheit bei etwa 74%. Bessere Ergebnisse in medizinischen Wissenstests (Staatsexamen etc.) bedeuten laut der Forscher nicht automatisch eine bessere praktische Patientensteuerung.
  • Mangelnde Konsistenz: Identische Anfragen führen oft zu unterschiedlichen Empfehlungen. Besonders auffällig: Bei GPT-5 waren die Antworten in 42% der Fälle inkonsistent, wenn derselbe Fall mehrfach eingegeben wurde.
  • Geringer Nutzwert für die Versorgung: Da die Modelle „vorsichtshalber“ fast immer zum Arztbesuch raten, entfällt der steuernde Effekt. Anstatt das Gesundheitssystem zu entlasten, könnten solche Empfehlungen die Zahl unnötiger Arztbesuche sogar erhöhen.

Fazit der Forschenden: ChatGPT in der Standardversion ist aktuell nicht als eigenständiges Instrument zur Patientensteuerung geeignet. Das Potenzial der Technologie liegt eher in der Integration in qualitätsgesicherte Symptom-Checker-Apps, bei denen die medizinische Absicherung im Hintergrund gewährleistet ist.

(Studie:Kopka, M., He, L. & Feufel, M.A., Evaluating the accuracy of ChatGPT model versions for giving care-seeking advice. Commun Medicine (2026). https://www.nature.com/articles/s43856-026-01466-0)

(Foto: KI generiert)

Hanna Sachse
Foto: mit KI generiert
Archiv