Kann KI Ärzte bei der medizinischen Diagnose übertreffen? Neue Studie untersucht das Potenzial und die Fallstricke

2

In der hochriskanten Umgebung einer Notaufnahme besteht der gefährlichste Fehler, den ein Arzt machen kann, nicht darin, die falsche Behandlung zu wählen, sondern darin, die richtige Diagnose überhaupt nicht zu ermitteln. Eine aktuelle Studie legt nahe, dass eine neue Generation künstlicher Intelligenz bald ein wichtiger Schutz gegen diese kritischen Versäumnisse sein könnte.

Der Aufstieg von „Reasoning“-Modellen

Der medizinische Bereich steht an der Schwelle eines technologischen Wandels, der durch fortschrittliche Large Language Models (LLMs) vorangetrieben wird. Im Gegensatz zu früheren Iterationen der KI sind neue „Begründungsmodelle“ – wie z. B. o1-preview von OpenAI – darauf ausgelegt, komplexe Probleme durch sequentielle, schrittweise Logik zu verarbeiten.

Dieser Technologiesprung trifft auf große Nachfrage aus der medizinischen Fachwelt. Laut einer Umfrage unter über 2.000 Klinikern nutzt jeder fünfte Arzt und Pfleger weltweit bereits KI, um bei komplexen Fällen eine Zweitmeinung einzuholen, und mehr als die Hälfte äußert den Wunsch, sie weiter in ihre Praxis zu integrieren.

Die Studie: KI vs. menschliche Kliniker

Eine vom biomedizinischen Datenwissenschaftler Arjun Manrai der Harvard University geleitete und in Science veröffentlichte Studie testete die diagnostischen Fähigkeiten des o1-preview-Modells im Vergleich zu menschlichen Ärzten. Die Forscher verwendeten zwei unterschiedliche Datensätze:
1. Klassische Symptomsätze für die medizinische Ausbildung.
2. Praxisbezogene Daten von 76 Patienten, die in einer Notaufnahme in Boston behandelt wurden.

Die Ergebnisse waren beeindruckend: Das KI-Argumentationsmodell übertraf sowohl menschliche Kliniker als auch spezialisierte Diagnosesoftware und identifizierte die Diagnose (oder eine hochpräzise Alternative) in fast 80 % der Fälle richtig.

Ein bemerkenswertes Beispiel von Co-Autor Adam Rodman betraf einen immunsupprimierten Transplantationspatienten, der sich mit routinemäßigen Atemwegssymptomen vorstellte. Während menschliche Ärzte den Ernst der Situation möglicherweise übersehen haben, hat das KI-Modell den Verdacht einer lebensbedrohlichen, fleischfressenden Infektion deutlich früher als das menschliche Team gemeldet.

Das Gegenargument: Logik vs. Nuance

Trotz dieser beeindruckenden Zahlen bleibt die wissenschaftliche Gemeinschaft vorsichtig. Kritiker argumentieren, dass es einen grundlegenden Unterschied zwischen „Computational Reasoning“ und „Clinical Reasoning“ gebe.

„Wenn wir von klinischem Denken sprechen, bedeutet das nicht dasselbe wie moralisches Denken“, warnt Arya Rao, Forscherin an der Harvard Medical School.

Raos Team führte kürzlich eine separate Studie zur Bewertung von 21 KI-Modellen durch und deckte dabei eine anhaltende Schwäche auf: die Unfähigkeit, mit Unsicherheit umzugehen. Während Argumentationsmodelle hervorragend darin sind, einem logischen Weg zu einer Schlussfolgerung zu folgen, haben sie oft Schwierigkeiten mit der Nuance, die erforderlich ist, wenn mehrere Diagnosen möglich sind.

Zu den primär identifizierten Risiken gehören:
„Spröde“ Argumentation: KI neigt dazu, voreilige Schlussfolgerungen zu ziehen.
Mangel an Nuancen: Modelle haben Schwierigkeiten, wenn sie mehrere ungewisse Möglichkeiten gleichzeitig abwägen müssen.
Fehlen eines menschlichen Urteilsvermögens: Der KI mangelt es an moralischem und kontextuellem Denken, das für eine komplexe Patientenversorgung unerlässlich ist.

Die Zukunft: Assistent, kein Ersatz

Die Forscher sind sich nicht einig, dass KI Ärzte ersetzen sollte, sondern vielmehr als leistungsstarke diagnostische Erweiterung dienen sollte. Ziel ist es, mithilfe von KI zu erfassen, was das menschliche Auge möglicherweise übersieht, und so ein „Sicherheitsnetz“ für Ärzte bereitzustellen.

Mit zunehmender Reife der Technologie verlagert sich der Fokus von der Frage, ob KI diagnostizieren kann, hin zur Frage, wie sie sicher in klinische Arbeitsabläufe integriert werden kann. Bei richtiger Handhabung könnte diese Technologie als „großartiger Ausgleich“ dienen und Regionen mit begrenztem Zugang zu fachärztlicher Versorgung hochwertige diagnostische Unterstützung bieten.


Schlussfolgerung
Obwohl KI-Argumentationsmodelle in kontrollierten Studien eine überlegene Fähigkeit zur Identifizierung korrekter Diagnosen gezeigt haben, kämpfen sie immer noch mit den Nuancen und Unsicherheiten, die der Humanmedizin innewohnen. Die nächste Grenze für medizinische KI liegt in klinischen Studien, die darauf abzielen, diese Werkzeuge als zuverlässige Assistenten statt als autonome Entscheidungsträger zu integrieren.