
PathoROB prüft KI-Modelle in der Pathologie
Eine aktuelle Studie zeigt, dass KI-Modelle in der Pathologie durch die Herkunft der Gewebeproben beeinflusst werden, was sich auf das Auswertungsergebnis auswirken kann. Ein interdisziplinäres Forscherteam hat mit PathoROB einen Bewertungsmaßstab entwickelt, der dieses Problem aufgreift.
Jedes Labor hinterlässt bei der Präparation, Färbung und Digitalisierung von Gewebeproben seinen „Fingerabdruck“. Auch wenn dieser medizinisch nicht relevant sind, kann er das Ergebnis beeinflussen, denn KI-Modelle speichern ihn ab und lassen das Ergebnis dann in ihre Bewertung einfließen. Aktuelle große KI-Systeme, die auf Millionen mikroskopischer Gewebebilder vortrainiert wurden, sogenannte Foundation Models, können anhand der gelernten Merkmale mit einer Genauigkeit von 88 bis 98 Prozent angeben, aus welchem Krankenhaus der Gewebeschnitt stammt. In einigen Fällen war die interne „Landkarte“ der Daten eines Modells primär nach Krankenhäusern organisiert und erst sekundär danach, ob das Gewebe gesund oder krebsartig war.
Nächste Generation lernt von PathoROB
Dies konnte ein Forscherteam vom Berlin Institute for the Foundations of Learning and Data (BIFOLD), von der Technischen Universität Berlin und dem Berliner KI-Unternehmen Aignostics, der Ludwig-Maximilians-Universität München und dem Netherlands Cancer Institute zeigen. Um das Problem zu lösen, entwickelten die Wissenschaftler den Bewertungsmaßstab PathoROB. Dieser wird aktuell bereits eingesetzt und hat damit Einfluss auf die nächste Generation von KI-Modellen für die Pathologie.
PathoROB vereint vier Datensätze mit rund 100.000 Gewebeausschnitten, 28 biologischen Klassen und 34 medizinischen Zentren. Darüber hinaus führt er einen neuen „Robustheitsindex“ ein, der quantifiziert, wie stark die interne Repräsentation eines Modells von der Biologie und nicht von Krankenhausartefakten bestimmt wird.
Bei der Anwendung auf 20 weit verbreitete Foundation Models deckte PathoROB bei jedem einzelnen Modell Defizite auf. Es stellte sich heraus, das größere Modelle, die auf vielfältigeren Daten trainiert wurden, sowie Modelle, die Bilddaten mit Textberichten kombinieren (Vision-Language-Modelle), die besten Ergebnisse erzielten. Die Forscher testeten außerdem verschiedene nachträgliche Verfahren zur „Robustifizierung“ und stellten fest, dass diese das Risiko solcher Fehler deutlich reduzieren können. Ein kostspieliges erneutes Training des zugrunde liegenden Modells ist dafür nicht erforderlich.
„Foundation Models für die Pathologie entwickeln sich rasant, und das ist äußerst spannend. Unsere Ergebnisse zeigen jedoch, dass eine starke Leistung auf einem Standard-Benchmark nicht ausreicht, um einem Modell im klinischen Einsatz zu vertrauen“, sagt Julius Hense, Co-Erstautor der Studie und Forscher bei BIFOLD und der TU Berlin. „PathoROB gibt Entwicklerinnen, Entwicklern sowie klinischen Anwenderinnen und Anwendern ein Werkzeug an die Hand, um zu überprüfen, ob ein Modell tatsächlich biologische Zusammenhänge gelernt hat oder lediglich erkannt hat, aus welchem Krankenhaus ein Präparat stammt.“
Bewertung der Robustheit etablieren
Durch die offene Bereitstellung des Bewertungsmaßstabs, der Datensätze und des Quellcodes hoffen die Forscher, die Bewertung der Robustheit als festen Bestandteil der Validierung biomedizinischer Foundation Models zu etablieren – bevor diese zur Unterstützung klinischer Entscheidungen und damit potenziell zur Beeinflussung von Patientenbehandlungen eingesetzt werden. Die Ergebnisse ihrer Studie veröffentlichten sie in Nature Communications.

Kasun - stock.adobe.com
Knowbio GmbH
Elnur Amikishiyev-stock.adobe.com