Arman Zhenikeyev - stock.adobe.com

KI-Chatbots nicht reif fürs Krankenhaus?

Medical Large Language Models (MedLLM sollen Mediziner im Diagnose- und Behandlungsprozess unterstützen. Ein Team der Technischen Universität München hat nun untersucht, wie sich KI-Chatbots im Klinikalltag bewähren.

ANZEIGE

Große Hoffnungen werden auf Medical Large Language Models (MedLLM) gesetzt, die sekundenschnell qualitätsgesicherte medizinische Fachinformationen zu konkreten Fragen liefern und so Mediziner bei der Diagnose und der Therapieauswahl unterstützen können. Wissenschaftler der Technischen Universität München (TUM) haben nun untersucht, wie verlässlich diese Unterstützung ist. Dabei stellten sie fest: Auch spezialisierte KI scheitert daran, Erkrankungen korrekt zu diagnostizieren und Behandlungspläne aufzustellen. Zudem würden Medizin-Chatbots vorschnell diagnostizieren, Richtlinien nicht einhalten und damit Patientenleben gefährden. Dennoch sehen die Forscher Potential in der Technologie. Mit einem von ihnen entwickelten Verfahren kann die Zuverlässigkeit zukünftiger Medizin-Chatbots getestet werden.

Ein interdisziplinäres Team um Daniel Rückert, Professor für Artificial Intelligence in Healthcare and Medicine an der TUM, dem auch Ärzte und KI-Experten angehören, untersuchte, wie erfolgreich verschiedene Varianten des Open-Source-Large-Language-Models Llama 2 bei der Diagnose sind. Dafür nutzten die Forscher anonymisierte Patientendaten, die sie von einer Klinik in den USA erhielten. Aus einem Datensatz wurden 2.400 Fälle ausgewählt, die alle mit Bauchschmerzen in die Notaufnahme gekommen waren. Zu allen diesen Fällen gab es Daten, die für die Diagnose zusammengetragen wurden – Krankengeschichte, Blutwerte und Bildgebungsdaten. Jeder Fall endete mit einer von vier Diagnosen und einem Behandlungsplan.

„Wir haben die Daten so aufbereitet, dass die Algorithmen die realen Abläufe und Entscheidungsprozesse im Krankenhaus nachspielen konnten“, erläutert Friederike Jungmann, Assistenzärztin in der Radiologie des Klinikums rechts der Isar der TUM und gemeinsam mit dem Informatiker Paul Hager Erstautorin der Studie. „Das Programm hat immer nur die Informationen, die auch die realen Ärztinnen und Ärzte hatten. Ob es beispielsweise ein Blutbild in Auftrag gibt, muss es selbst entscheiden und dann mit dieser Information die nächste Entscheidung treffen, bis es schließlich eine Diagnose und einen Behandlungsplan erstellt.“

KI schwächelt bei Diagnosen

Das Ergebnis: keines der Large Language Models entschied sich für alle notwendigen Untersuchungen. Dagegen wurden Behandlungsrichtlinien nicht eingehalten und Untersuchungen angeordnet, die für echte Patienten schwere gesundheitliche Folgen haben könnten. Je mehr Informationen zur Verfügung standen, desto weniger zutreffend wurden die Diagnosen.

Ein zweiter Teil der Studie verglich die KI-Diagnosen zu einer Teilmenge aus dem Datensatz mit Diagnosen von vier Ärzten. Deren Diagnosen trafen zu 89 Prozent zu. Das beste LLM erreichte nur 73 Prozent. Die Modelle erkannten manche Krankheiten sehr unterschiedlich.

Die Diagnose der LLM wurde unter anderem von der Reihenfolge der Informationen beeinflusst. Auch linguistische Feinheiten hatten Einfluss auf das Ergebnis – beispielsweise ob das Programm um eine „Main Diagnosis“, eine „Primary Diagnosis“ oder eine „Final Diagnosis“ gebeten wurde. Im Klinikalltag sind die Begriffe in der Regel austauschbar.

Ausgenommen von dem Test waren die kommerziellen Large Language Models von OpenAI (ChatGPT) und Google. Der Anbieter der Krankenhausdaten untersagte aus Datenschutzgründen, die Daten mit diesen Modellen zur verarbeiten. Für Anwendungen im Gesundheitssektor, so die Meinung unter Experten, sollten ausschließlich Open-Source-Software verwendet werden.

„Nur mit Open-Source-Software haben Krankenhäuser die Informationen und das nötige Maß an Kontrolle, um die Sicherheit der Patientinnen und Patienten zu gewährleisten. Wenn es darum geht, Large Language Models zu bewerten, müssen wir wissen, mit welche Daten sie trainiert wurden. Sonst könnte es sein, dass wir für die Bewertung genau die Fragen und Antworten verwenden, mit denen sie trainiert wurden. Da Unternehmen die Trainingsdaten streng unter Verschluss halten, würde eine faire Bewertung erschwert”, sagt Paul Hager. „Es ist auch gefährlich, wichtige medizinische Infrastrukturen von externen Dienstleistern abhängig zu machen, die ihre Modelle nach Belieben aktualisieren und ändern können. Im Extremfall könnte ein Dienst, den Hunderte von Kliniken nutzen, eingestellt werden, weil er nicht mehr rentabel ist.”

Potential der Technologie

Trotzdem sehen die Forscher das Potential der neuen Technologie. „Es ist gut möglich, dass in absehbarer Zeit ein Large Language Model besser dafür geeignet ist, aus Krankengeschichte und Testergebnissen auf eine Diagnose zu kommen“, sagt Prof. Daniel Rückert. „Wir haben deshalb unsere Testumgebung für alle Forschungsgruppen freigegeben, die Large Language Models für den Klinikkontext testen wollen.“ Der Medizin-KI-Experte ergänzt: „Large Language Models könnten in Zukunft wichtige Werkzeuge für Ärztinnen und Ärzte werden, mit denen sich beispielsweise ein Fall diskutieren lässt. Wir müssen uns aber immer der Grenzen und Eigenheiten dieser Technologie bewusst sein und diese beim Erstellen von Anwendungen berücksichtigen.“

Ihre Ergebnisse veröffentlichten die Wissenschaftler in Nat Med.

SIE MÖCHTEN KEINE INFORMATION VERPASSEN?

Abonnieren Sie hier unseren Newsletter