Algorithmen vor Gericht Menschen sind so schlau wie die teure Maschine

Viele US-Richter benutzen einen kostenpflichtigen Algorithmus. Er sagt ihnen, wer ins Gefängnis sollte und wer nicht. Jetzt zeigt eine Studie: Selbst juristische Laien können das ebenso gut.

Oberster US-Gerichtshof in Washington
DPA

Oberster US-Gerichtshof in Washington

Eine Kolumne von


"Alle anderen aber, die an dem Verfahren beteiligt sind, haben ein Vorurteil gegen mich. Sie flößen es auch den Unbeteiligten ein. Meine Stellung wird immer schwieriger."
Franz Kafka, "Der Prozess"

Immer wenn es irgendwo um die Rolle von Algorithmen in der Gesellschaft der Zukunft geht, taucht früher oder später dieses Beispiel auf. Es ist kafkaesk im wörtlichen Sinne, denn es geht um ein intransparentes, rätselhaftes, gesichtsloses System, das über die Freiheit oder Einkerkerung von Menschen mitentscheidet.

Das System heißt COMPAS, für Correctional Offender Management Profiling for Alternative Sanctions. Es gehört der Firma Equivant, die früher Northpointe hieß, aber nach diesem einen Artikel im Frühjahr 2016 wohl nicht mehr mit diesem Namen in Verbindung gebracht werden wollte. In dem Artikel, erschienen bei der gemeinnützigen, spendenfinanzierten Journalismusorganisation "Pro Publica", geht es um Ungerechtigkeit, die COMPAS ganz automatisch erzeugt. Ein Team von Rechercheuren und Wissenschaftlern stellte damals fest, dass das System schwarze Amerikaner diskriminiert.

Teure Blackbox

Das ist deshalb relevant, weil COMPAS von vielen amerikanischen Gerichten eingesetzt wird, um Richter bei Entscheidungen über Freiheit oder Unfreiheit zu beraten. Es ist ein Algorithmus, der auf Basis von 137 Merkmalen eine Wahrscheinlichkeit dafür errechnet, ob ein Straftäter rückfällig werden wird oder nicht. Richter setzen COMPAS unter anderem ein, um über die Frage zu entscheiden, ob jemand auf Bewährung freikommt oder in Haft muss. Dafür bezahlen Gerichte und auch Gefängnisse in den USA Equivant Geld. Der Algorithmus ist proprietär, es ist also unbekannt, wie er genau funktioniert. COMPAS ist eine Blackbox.

Manche der 137 Informationen, die in die Berechnungen von COMPAS einfließen, stammen aus Gerichts- oder Gefängnisakten, andere müssen die Delinquenten selbst beantworten. Darunter so harmlos scheinende wie "Wie oft sind Sie in den vergangenen zwölf Monaten umgezogen?", und nach deutschem Rechtsverständnis schlicht unverschämte wie "Wie viele Ihrer Freunde und Bekannten sind schon einmal verhaftet worden?" Mehr als eine Million US-Bürger sind mit dem COMPAS-Verfahren bislang beurteilt worden.

Die "Pro Publica"-Studie aus dem Jahr 2016 ergab, dass COMPAS besonders häufig und in einer bestimmten Richtung irrte, wenn man die Hautfarbe der Betroffenen einbezog. Schwarze wurden fast doppelt so häufig fälschlicherweise als rückfallgefährdet eingestuft wie Weiße. Umgekehrt wurden Weiße, deren Rückfallrisiko COMPAS als niedrig einschätzte, viel häufiger doch wieder straffällig als Schwarze mit niedrigem Risikowert.

Und wie wäre es, wenn man einfach irgendjemanden fragt?

Aber jenseits dieser Verzerrung - was bringt COMPAS überhaupt? Diese Frage haben sich nun zwei Informatiker vom US-amerikanischen Dartmouth College vorgenommen, Julia Dressel und Hany Farid. Sie griffen auf den gleichen Datensatz wie die "Pro Publica"-Autoren zurück, nämlich Daten und COMPAS-Werte für 7000 Menschen, die zwischen 2013 und 2015 in Boward County, Florida verhaftet worden waren. 1000 dieser Fälle teilten die Wissenschaftler in Gruppen von je 50 ein. Diese Gruppen wurden nun jeweils Menschen zur Beurteilung vorgelegt - und zwar zufällig ausgewählten juristischen Laien.

Dressel und Farid rekrutierten ihre Versuchspersonen auf die für sie einfachste Weise: über die Amazon-eigene Plattform Mechanical Turk, über die man Menschen mit zu viel Zeit und einem Bedürfnis nach einem Zusatzeinkommen für sogenannte Mikrojobs anwerben kann. Die 400 Teilnehmer waren also wohl weder Richter noch Anwälte, und sie bekamen auch weit weniger Informationen als der COMPAS-Algorithmus: für jeden Angeklagten nur Geschlecht, Alter und kriminelle Vorgeschichte. Auf dieser Basis sollten sie erraten, ob die Person innerhalb von zwei Jahren rückfällig geworden war oder nicht.

Die Crowd ist genauso klug wie der teure Algorithmus

Die menschlichen Beurteiler waren etwa genauso gut oder genauso schlecht wie der Algorithmus: COMPAS liegt, was die Rückfallwahrscheinlichkeit angeht, bei einer Trefferquote von gut 65 Prozent. Die einzelnen menschlichen Beurteiler kamen auf eine durchschnittliche Trefferquote von knapp 63 Prozent. Sahen sich Dressel und Farid die Urteile von je 20 Teilnehmern, die die gleichen Fälle beurteilt hatten, gemeinsam an, kam diese Jury sogar auf 67 Prozent richtige Prognosen.

Noch vernichtender für Equivant war das Ergebnis eines zweiten und dritten Tests: Dressel und Farid ließen COMPAS gegen einen einfachen Algorithmus antreten, der die gleichen Merkmale berücksichtigte wie die menschlichen Beurteiler: Alter, Geschlecht, Straftat und Schwere der Straftat, vorangegangene Verurteilungen. Und siehe da: Der simple Algorithmus, der auf diesen kleinen Merkmalssatz zurückgriff, lag in 66,6 Prozent der Fälle richtig.

Zwei Merkmale statt 137 - gleiche Genauigkeit

Anschließend kochten die Autoren die genutzten Merkmale noch weiter herunter: Berücksichtigt wurden nun nur noch das Alter und die Gesamtzahl vorangegangener Verurteilungen. Ein simpler Klassifikationsalgorithmus erreichte auch auf Basis dieser zwei Merkmale die gleiche Trefferquote wie COMPAS mit seinen 137 Merkmalen. Der teure Algorithmus sieht plötzlich aus wie eine nutzlose Wundermedizin, digitales Schlangenöl.

Ein Equivant-Vertreter sagte dem "Economist" zu der neuen Veröffentlichung, die Forscher hätten ja nur die Boward-County-Daten nutzen können. Für Straftäter aus anderen Gegenden wären die simpleren Algorithmen womöglich weniger erfolgreich.

Das klingt wie Pfeifen im Walde - und macht zugleich das zentrale Problem deutlich: Solche kommerziellen, intransparenten Systeme können eben nicht so einfach überprüft werden. Ihre Anwender - und die Steuerzahler, die diese Anwendung finanzieren - müssen einfach glauben, dass algorithmische Systeme funktionieren. Systeme, die Entscheidungen über Freiheit oder Unfreiheit von Menschen beeinflussen.

Kafka hätte seine Freude daran gehabt.

Mehr zum Thema
Newsletter
Kolumne - Der Rationalist


insgesamt 82 Beiträge
Alle Kommentare öffnen
Seite 1
jozu2 28.01.2018
1. statistischer Mittelwert statt Einzelfallbeurteilung
Der Algorithmus kann nur auf statistischen Erfahrungswerten beruhen (dürfte ja keine KI sein). Das mag zwar in einem Großteil der Fälle zum richtigen Ergebnis führen, das ist dann aber kein Ergebnis einer Rechtsfindung. Z.B. mag es stimmen, dass in den USA unter den Schwarzen ein höherer Anteil von Straftätern ist als unter Weißen. Ursache dürfte sein, dass Schwarze häufiger in sozial prekären Situationen leben. Das ist aber kein individueller Beweis oder Prognosefeststellung in einem Prozess mit einem schwarzen Angeklagten. Ich hoffe, dass wir in Deutschland bei unserem aufwändigeren aber wenigstens individuellen rechtsstaatlichen Verfahren bleiben. Aber bisher ist noch jede Rationalisierung aus den USA früher oder später zu uns herübergeschwappt. Wenn uns unser Rechtssystem zu langsam ist, sollten wir lieber Richter und Staatsanwälte einstellen, anstatt im Personalhaushalt der Justiz zu sparen.
Vournet 28.01.2018
2.
Als menschlicher Proband wäre mein Entscheidungs-Algorithmus sehr einfach: Wer zweimal innerhalb von zwei Jahren eine ähnliche Tat begangen hat, wird dies mit einer gewissen Wahrscheinlichkeit auch innerhalb der nächsten zwei Jahre danach tun. Selbst das Alter würde ich höchstens bei sehr jungen oder sehr alten Tätern in meine Entscheidung einfließen lassen. Gut möglich, dass allein dadurch meine Trefferwahrscheinlichkeit schon bei 2/3 liegt. Generell ist es schon sehr unverantwortlich, einem Algorithmus die Entscheidung zu überlassen, der nur 2/3 Trefferwahrscheinlichkeit hat. Man hätte sich eingehender damit beschäftigen müssen und solche Studien durchführen müssen, bevor man 1 Million Menschen damit beurteilt. Wichtig zu wissen ist außerdem, in welcher Richtung die Maschine und die Menschen falsch lagen: Wurden zu viele Straftäter freigelassen oder zu viele als rückfallgefährdet eingestuft? Interessant wäre es, eine solche Studie mit praktizierenden Richtern durchzuführen. Ob diese besser abschneiden oder im Gegenteil durch ihr Berufsleben betriebsblind geworden sind? Die Software hat sich bestimmt deshalb durchgesetzt, weil sie den Richtern eine unangenehme Aufgabe abnimmt: Die Zukunft eines Straftäters einzuschätzen. Insofern ist die Software immerhin objektiv und unbestechlich. Die beste Lösung wäre wohl, den Vertrag mit dem teuren Anbieter zu kündigen und bei Bedarf den kostenlosen Algorithmus der Forscher zu übernehmen.
mr.andersson 28.01.2018
3.
Der Algorithmus ist , mathematisch gesprochen, schlicht überkalibriert. Das Alter und die Vorverurteilungen reichen offenbar schlicht aus. Es liegt auch auf der Hand, das ein 40 jährige, der erstmalig verurteilt wurde seltener rückfällig wird als ein 40 jähriger , der bereit 5 mal verurteilt wurde. Ebenso ist die Wahrscheinlichkeit es nochmal zu machen wohl höher, wenn man sich bereits mit 18 die erste Verurteilung einfängt.
sven2016 28.01.2018
4.
Das grundsätzliche Problem ist im Alltag bekannt: Techniker aller Art vertrauen softwareerzeugten Ergebnissen mehr als einer eigenen Abschätzung. Schwieriger wird das im genannten Bereich der Juristischen Entscheidungen, im medizinischen Bereich wie auch z.B. bei den Kriterien der Fahrentscheidung autonomer Autos. Es sollte immer gleichzeitig eine Abwägung durch menschliche Erfahrung und Kenntnis daneben gestellt werden. Black Box-Systwn
dweird 28.01.2018
5. Erschreckend...
Erschreckend ist, dass US-Richter überhaupt auf derlei Hilfsmittel zurückgreifen und daraufhin ein Urteil fällen. Ich hatte bisher die romantische Vorstellung, persönliche Erfahrung und juristischer Sachverstand sowie die Beweise und Eindrücke aus der Gerichtsverhandlung auf der Basis der gesetzlicher Strafmaßvorgaben würden die Art und Höhe der Strafe des Delinquenten bestimmen - nicht eine Maschine. Aber die amerikanischen Summenurteile mit 100 Jahren Gefängnis und mehr sind sowieso absurd.
Alle Kommentare öffnen
Seite 1

© SPIEGEL ONLINE 2018
Alle Rechte vorbehalten
Vervielfältigung nur mit Genehmigung der SPIEGELnet GmbH


TOP
Die Homepage wurde aktualisiert. Jetzt aufrufen.
Hinweis nicht mehr anzeigen.