Neue Software Wie Schwarmintelligenz die Corona-Diagnose automatisieren könnte

Künstliche Intelligenz braucht riesige Datenmengen, das kollidiert oft mit dem Datenschutz. Nun berichtet ein Medizinerteam von einer neuartigen Software, die dezentrale Datenbanken vernetzt und Vertraulichkeit sichert.
Röntgenaufnahme (Pittsburgh, USA, 2009)

Röntgenaufnahme (Pittsburgh, USA, 2009)

Foto: Keith Srakocic/ AP

Dieser Artikel gehört zum Angebot von SPIEGEL+. Sie können ihn auch ohne Abonnement lesen, weil er Ihnen geschenkt wurde.

Ein neuartiges Computersystem soll bei der Diagnose vertrackter Krankheiten helfen, indem sie das Wissen vieler Spezialisten bündelt, die in Krankenhäusern quer über die Welt verteilt arbeiten. Auch die Blockchain-Technik spielt dabei eine Rolle, bekannt von Kryptowährungen wie Bitcoin oder Dogecoin, doch dazu später mehr.

Schon heute kann sogenannte künstliche Intelligenz dabei helfen, Muster in Labordaten aufzuspüren. Der Haken dabei: Das klappt nur, wenn die Künstlichen Neuronalen Netze riesige Mengen von Patientendaten auswerten können, die daher in gigantischen Datenbanken gespeichert werden, auch »Data Lakes« genannt – Datenseen.

Für Datenschützer aber ist dieses Poolen sensibler Patientendaten ein Albtraum, es gilt als anfällig für Datenlecks und stellt ein hochwertiges Ziel für Hacker dar. Nun hat ein Team getestet, wie ein Maschinenlernsystem die Quadratur des Kreises schaffen könnte: riesige Datenmengen auswerten, dabei aber gleichzeitig datensparsam und dezentral arbeiten. »Swarm Learning« nennt das Team diesen Ansatz, den sie am Mittwoch im Wissenschaftsjournal »Nature«  vorstellen: Lernen im Schwarm.

Vogelschwarm (in Israel)

Vogelschwarm (in Israel)

Foto: Abir Sultan/ dpa

»Medizinische Forschungsdaten sind ein Schatz. Sie können entscheidend dazu beitragen, personalisierte Therapien zu entwickeln, die passgenauer als herkömmliche Behandlungen auf jeden Einzelnen zugeschnitten sind«, sagt Joachim Schultze, 56, Hauptautor des Artikels und Direktor für Systemmedizin am Deutschen Zentrum für Neurodegenerative Erkrankungen (DZNE). Das DZNE erforscht schwerpunktmäßig Krankheiten wie Parkinson und Alzheimer und kooperiert dabei mit Universitäten, Universitätskliniken, Forschungseinrichtungen und Unternehmen weltweit. Das neue System soll bei der Forschungsarbeit helfen.

Für sein Experiment wertete Schultzes Team die Diagnosedaten von vier verschiedenen Krankheiten aus und trainierte damit diverse Computermodelle. Es untersuchten dabei bestimmte Gendaten (sogenannte Transkriptome) von Menschen, die an Blutkrebs, Covid-19, Tuberkulose und anderen Lungenkrankheiten leiden. Dafür wertete die Gruppe Daten aus 127 klinischen Studien aus. Außerdem analysierte sie mehr als 95.000 Röntgenbilder. Die mit diesen Daten trainierte Diagnostik-KI lernte schnell, die jeweiligen Krankheiten zu diagnostizieren, mit einer Treffergenauigkeit von 90 Prozent für Transkriptomdaten. Bei Röntgenbildern lag die Treffergenauigkeit rund zehn Prozent niedriger, was vor allem an der niedrigen Bildqualität lag.

Das ist ein respektables Ergebnis, wie es auch mit herkömmlichen Methoden erzielt werden kann. Das Besondere ist in diesem Fall, dass die mehr als 100.000 Datensätze nicht zentral in einem Datensee gespeichert und verarbeitet wurden, sondern jeweils vor Ort auf den Rechnern der teilnehmenden Forschungseinrichtungen blieben, an bis zu 32 unterschiedlichen Standorten. An das KI-Modell wurde lediglich übermittelt, welche Details die Datensätze der Kranken von denen der Gesunden unterscheiden. Die Berechnung erfolgt dezentral, lediglich das Endergebnis wird mitgeteilt. In dieser Datensparsamkeit besteht der Clou beim neuartigen Schwarmlernen, schreibt Schultzes Team: »Globale Kooperation bei kompletter Vertraulichkeit«.

Derzeit lagern viele Gesundheitsdaten in diversen Speichersilos, weil es keine Möglichkeit gibt, sie datensparsam zu vernetzen. Je seltener eine Krankheit, desto schwieriger ist es derzeit, die notwendige Anzahl an Datensätzen aus aller Welt zusammenzusuchen für das Trainieren von lernenden Algorithmen. Bei dieser Vernetzung über Ländergrenzen hinweg könnte das Schwarmlernen helfen.

Rein technisch ist es natürlich möglich, auch die Daten in einem zentralen Speichersee sauber zu anonymisieren. Die Frage ist dabei nur: Vertrauen alle Beteiligten der Zentrale, dass sie auch sauber arbeitet – zumal in einem Land, dessen Gesetze und Gepflogenheiten man nicht kennt? Wenn also beim Schwarmlernen die sensiblen Rohdaten gar nicht erst in die ferne Zentrale irgendwo auf der Welt übertragen werden, sondern – möglichst gut gesichert – beim jeweiligen Krankenhaus verbleiben, dann schafft das eine zusätzliche Hürde gegen mögliche Datenlecks. Angreifer müssten zig Server angreifen, um alle sensiblen Rohdaten zusammenzusammeln, mit denen das KI-Modell trainiert wurde.

Ein ähnlicher Ansatz ist das sogenannte »Federated Learning«, bei dem ebenfalls die Daten zum Trainieren einer KI dezentral gespeichert werden. Der Unterschied zum Schwarmlernen ist, dass die Zwischenergebnisse an einen zentralen Server übertragen werden. Für Schultzes Experiment dagegen einigten sich alle 32 Teilnehmer zuvor auf Regeln, wie die Daten gesammelt, bearbeitet und verteilt werden. Diese Regeln sind in einer Blockchain festgehalten, einem Datenprotokoll, das wie eine Art digitaler Vertrag funktioniert, wie er auch bei Kryptowährungen wie Ethereum zum Einsatz kommt. Bei der Medizin-Blockchain allerdings darf nicht jeder Daten einspeisen, sondern nur Institutionen, die über einen speziellen Sicherheitstoken verfügen. Dadurch ist die Medizin-Blockchain schnell und schlank, im Gegensatz zu einigen extrem trägen Kryptowährungen. »Alle Mitglieder des Schwarms sind gleichberechtigt«, sagt Schultze: »Es gibt keine zentrale Macht über das Geschehen und die Ergebnisse, also gewissermaßen keine Spinne, die das Datennetz kontrolliert.«

Nach dem Zufallsprinzip wird in der Schwarmlern-Blockchain ausgelost, welches der teilnehmenden Forschungseinrichtungen oder Krankenhäuser für eine Weile auf seinen Servern die Zwischenergebnisse aller Teilnehmer sammelt und automatisch ins gemeinsame KI-Modell einpflegt. Nach einer Weile wäre dann das nächste Krankenhaus dran, sozusagen Buch zu führen. »Dadurch ist unser System sehr fehlertolerant«, sagt Schultze: »Falls mal ein Netzknoten ausfällt, übernimmt einfach der nächste Server dieselbe Funktion.«

Grey Box statt Black Box

Vieles am Schwarmlernen erscheint vielversprechend, und doch bleiben ein paar mögliche Probleme, darauf machte ein Team um die Informatikerin Nicola Rieke bereits im vergangenen September in der Zeitschrift »Digital Medicine« aufmerksam. Zum Beispiel könnte ein Angreifer durch geschicktes Rückrechnen aus dem KI-Modell möglicherweise doch wieder Rückschlüsse auf die Originaldaten einzelner Teilnehmer ziehen, spekuliert Riekes Team. Wenn sich zum Beispiel das KI-Modell einer Krankheit mit einem Schlag stark verändert, kurz nachdem ein bestimmtes Krankenhaus seine Daten geliefert hat, dann könnten die anderen beteiligten Krankenhäuser theoretisch durch eine sogenannte »Modellinversion« aus der Veränderung des KI-Modells daraus zurückrechnen, welche Rohdaten zuletzt eingespeist worden sein müssen. Und wenn es um extrem seltene Krankheiten mit niedrigen Fallzahlen pro Land geht, wären die rückrechenbaren Informationen noch sensibler. Bei einem zentralen Datensee dagegen ließe sich schwerer erkennen, aufgrund welcher Datenlieferung sich das KI-Modell verändert hat.

Das Rückrechnen aus dem KI-Modell auf die Originaldaten einzelner Patienten sei bei ihrem Experiment mathematisch gar nicht möglich, versichert Joachim Schultze auf Nachfrage. Doch diese Datensparsamkeit und Dezentralität hat ihren Preis. Wenn nicht mehr nachvollziehbar ist, mit welchen Rohdaten ein KI-Modell trainiert worden ist, dann könnte es zu einer Black Box werden, zu einer Art Orakel, das zwar zu 90 Prozent richtig liegt, aber dessen Ergebnisse sich im Zweifelsfall kaum überprüfen lassen. Davor warnen Informatiker, die den Ansatz der »Explainable AI« verfolgen: erklärbare KI, deren Entscheidungsmuster voll transparent sind. Beides zugleich dürfte jedoch nur schwer zu haben sein, denn es gibt einen Zielkonflikt zwischen perfektem Datenschutz und perfekt transparenter KI. Dennoch scheint das Swarm Learning einem Kompromiss auf der Spur zu sein. »Wir können den Lernprozess unseres Systems recht gut nachvollziehen«, sagt Schultze: »Wir haben es dabei nicht mit einer Black Box zu tun – allenfalls könnte man es eine Grey Box nennen.«

Die Wiedergabe wurde unterbrochen.