Statistik und Wahrheit Wir schaffen 99,999 Prozent!

Prognosen mit einer hohen Trefferquote wirken beeindruckend. Doch Obacht: Hinter einer großen Prozentzahl steckt oft eine mäßige Vorhersagequalität.

Statistik-Präsentation (Archivbild): Absurdität hoher Trefferquoten
DPA

Statistik-Präsentation (Archivbild): Absurdität hoher Trefferquoten

Von Björn Christensen und Sören Christensen


Wenig Zeit? Am Textende gibt's eine Zusammenfassung.


Stellen Sie sich vor, ein Sicherheitsunternehmen bietet den deutschen Flughäfen ein neuartiges, geheimes Testverfahren für Passagiere an. Es soll zuverlässig vorhersagen können, ob eine untersuchte Person ein harmloser Fluggast ist oder ein Terrorist, der das Flugzeug in die Luft sprengen will. Das fiktive Unternehmen wirbt mit einer Trefferquote von mindestens 99,999 Prozent für das Verfahren. Klingt beeindruckend, oder?

Bevor die Firma für zig Millionen deutsche Flughäfen mit ihren neuen Scannern ausstattet, sollte man freilich erst einmal schauen, wie die angegebene Prognosegenauigkeit definiert wurde. Meist wird die Trefferquote schlicht als Anzahl richtiger Prognosen im Verhältnis zu allen abgegebenen Prognosen berechnet.

In unserem fiktiven Beispiel hieße dies, dass für mindestens 99,999 Prozent der Flugpassagiere eine korrekte Prognose abgegeben wird. Wenn man sich nun allerdings vergegenwärtigt, dass in Deutschland jedes Jahr gut 80 Millionen Passagiere ihren Flug antreten und darunter hoffentlich kein einziger Terrorist mit Sprengstoff im Handgepäck ist, dann läge es auf der Hand, dass das neuartige Verfahren nahezu allen Passagieren Harmlosigkeit attestieren würde.

Zehn Terroristen - trotzdem 99,999 Prozent

SPIEGEL ONLINE

Die besagte Trefferquote von 99,999 Prozent beinhaltet auch: 800 - und sofern man die Rundungsregeln berücksichtigt sogar bis zu 1200 Fluggäste würden fälschlich als Terroristen erkannt. Wenn sich nun aber tatsächlich ein Terrorist Zugang zu einem Flugzeug verschaffen möchte, wird die Absurdität der Kennzahl "Trefferquote" noch offensichtlicher, denn diese ändert sich fast gar nicht, egal ob das System den Terroristen erkennt oder nicht. Und selbst wenn zehn Terroristen im Jahr vom System nicht erkannt werden und sich in Flugzeugen in die Luft sprengen, bleibt die Trefferquote bei 99,999 Prozent, wenn im Gegenzug maximal 1.190 harmlose Fluggäste vom System für Terroristen gehalten werden.

Es ist leicht zu erkennen, dass in Fällen seltener (oder natürlich auch besonders häufiger) Ereignisse die Angabe einer Trefferquote wenig hilfreich ist, um die Güte eines Prognosesystems zu bewerten. Tatsächlich spielt aber gerade die Trefferquote häufig in den Medien eine zentrale Rolle. Der Grund ist meist, dass hohe Trefferquoten stark beeindrucken. Ein Beispiel hierfür sind die Scheidungsprognosen des Psychologie-Professors John Gottman aus den USA, die seit vielen Jahren immer wieder prominent in den Medien aufgegriffen werden.

Auch SPIEGEL ONLINE berichtete 2004 darüber, dass Gottmann mit einer Treffergenauigkeit von bis zu 94 Prozent anhand einfacher Beobachtungen von positiven und negativen Elementen in Ehegesprächen vorhersagen könne, ob sich ein Paar scheiden lässt.

Welche Paare sind noch zusammen?

Allerdings basieren diese Ergebnisse zumeist auf Prognosen über sehr kurze Zeiträume. So untersuchte Gottman beispielsweise 95 Paare, die frisch verheiratet waren, gab eine Scheidungsprognose ab und kontrollierte drei Jahre später, ob sich die Paare hatten scheiden lassen. In 83 der 95 Fälle lag Gottman richtig, was einer Trefferquote von 87,4 Prozent entspricht.

SPIEGEL ONLINE

Es ist leicht erkennbar, dass die hohe Trefferquote vor allem darauf zurückzuführen ist, dass Gottman dem überwiegenden Anteil der Paare vorhergesagt hatte, dass sie sich nicht würden scheiden lassen. Diese Annahme ist wenig erstaunlich, denn nach drei Jahren Ehe dürfte der ganz überwiegende Anteil der Paare noch verheiratet sein.

Vor dem Hintergrund der geringen Scheidungsquote wäre Gottmans Trefferquote sogar noch besser gewesen, wenn er für alle Paare prognostiziert hätte, dass sie verheiratet blieben. In diesem Fall hätte die Trefferquote sogar bei 92,6 Prozent gelegen, auch wenn die Prognose natürlich wenig sinnvoll wäre.

SPIEGEL ONLINE

Um Gottmans Prognoseleistungen also tatsächlich beurteilen zu können, ist die Trefferquote wenig geeignet. Alternativ lässt sich die Trefferquote allerdings einordnen, wenn sie einer naiven Prognose gegenübergestellt würde. Ohne vorherige Informationen ist dieses erwartungsgemäß schwierig.

Zufällig gut?

Es ließe sich aber zum Beispiel der Anteil der Paare, die sich im Allgemeinen binnen drei Jahren in den USA scheiden lassen, nutzen, um eine naive Prognose zu erstellen. Dieser Anteil liegt in den USA bei zwölf Prozent.

Wenn nun rein zufällig zwölf Prozent der 95 Paare eine Scheidungsprognose zugeordnet würde, wären dies elf der nach drei Jahren noch verheirateten 88 Paare und eines der sieben geschiedenen Paare. Man dürfte also eine Trefferquote von 82,1 Prozent erwarten. Vergleicht man also beide Trefferquoten, erscheint Gottmans Prognose mit einer Trefferquote von 87,4 Prozent kaum mehr beeindruckend.

SPIEGEL ONLINE

Was Gottmans Arbeit aber interessant macht, sind die sechs korrekten Prognosen unter den sieben Scheidungen. Das schafft tatsächlich keine naive Prognose bei dieser Gesamttrefferquote. Egal, ob man das fiktive Beispiel der Terroristenerkennung oder die Scheidungsprognosen heranzieht, in jedem Fall lässt sich festhalten, wie wenig hohe Trefferquoten aussagen, wenn relativ seltene (oder besonders häufige) Ereignisse prognostiziert werden.

Zusammengefasst: Hohe Quoten beim Eintreten von Prognosen sind beeindruckend. Doch i n Fällen seltener oder besonders häufiger Ereignisse verrät ein Prozentwert über 90 Prozent mitunter kaum etwas über die Güte des Prognosesystems.

Forum - Diskutieren Sie über diesen Artikel
insgesamt 33 Beiträge
Alle Kommentare öffnen
Seite 1
msmirror 26.02.2016
1.
Eine Trefferquote von 99,999% würde ich in dem erste. Fall so interpretieren, dass von 100 000 Terroristen einer nicht erkannt wird....
tfieberg 26.02.2016
2. statistik
statistiken sind generell immer zu hinterfragen... nur leider müsste man sich dann jedes mal viel zu tief in die entsprechende untersuchung hineinarbeiten... so nimmt man lieber den angegebenen wert als diskusionsgrundlage ;) interessant dazu auch der klassiker "so lügt man mit statistik" ...
stat_ist 26.02.2016
3. Richtig, aber bitte noch die richtigen Maße nennen:
Es müssen immer Paare an Zahlen bemüht werden, um die Güte anzugeben: Sensitivität (Anteil der Testpositiven an den tatsächlich positiven Fällen) und Spezifität (Anteil der Testnegativen and den tatsächlich negativen Fällen). Die Sicht der Probanden, Patienten etc. beschreiben das alternative Paar an Maßen: Positiver (Anteil der richtig Testpositiven an allen Testpositiven) und negativer Vorhersagewert (Anteil der richtig Testnegativen an allen Testnegativen): wie hoch ist die Wahrscheinlichkeit, tatsächlich positive (negativ) zu sein, wenn man ein positives (negatives) Testergebnis erhält. Beispiel Scheidungsvorhersage (positives Testergebnis sei "verheiratet"): Sens= 77/(7+11)=77/88=87.5% Spez=6/(6+1)=6/7=85.7% PPV=77/(77+1)=77/78=98.7% NPV=6/(11+6)=6/17=35.3% Wie "gut" ein Test ist, kann man am Vergleich der Vorhersage und der Prävalenz für die jeweilige Gruppe sehen: Da 92.6% (=Prävelenz) sowieso verheiratet bleiben, bringt ein PPV von 98.7% kaum Informationsgewinn. Der NPV (35.3%) steht ggü. (100%-Prävalenz) = 7.4% etwas besser da: Wenn die Vorhersage "Scheidung" lautet, so steigt die Wahrscheinlichkeit nach der Vorhersage von 7.4% auf 35.3%, dass das Paar tatsächlich geschieden wird.
MannAusmNorden 26.02.2016
4. Schöne Erklärung!
Etwas ähnliches habe ich auch schon einmal zum Thema "Mammographie" gelesen. Da stand "Entdeckungswahrscheinlichkeit 90%". Also, wenn man einen Krebs hat, dann wird dieser zu 90% auch erkannt. ABER: Es gab auch noch eine zweite Zahl, das waren dann die "Falsch-Negativ"-Anzeigen, also wenn man eigentlich gesund ist aber einen Krebs diagnostiziert bekommt. Es werden also von den (ich schätze mal) 10% der Frauen, die wirklich Brustkrebs bekommen ein recht großer Teil erkannt, nämlich 9 von 10. Von den 90% der gesunden werden aber wieder ettliche (ich meine, es waren 20%) als "krank" eingestuft, obwohl sie gesund sind. Das sind dann aber 18 von 90. Also doppelt so viele wie die eigentlich Erkrankten.
plutinowski 26.02.2016
5. .....
Die "Trefferquote" sagt ja im Grunde wenig aus, wie im Artikel auch anklingt. Interessant wäre ja die Frage nach der Vorhersagegüte, also (für das Beispiel der letzten Tabelle in dem Artikel) nach der Wahrscheinlichkeit, dass sich ein Paar scheiden lässt, gegeben dass dies vorher prognostiziert wurde (p(geschieden | Scheidungsprognose). Nach dem Satz von Bayes kommt da, falls ich mich nicht verrechnet habe, für das Beispiel der letzten Tabelle 7/95 raus, also etwas über 7% richtiger Scheidungsvorhersagen. Das ist nicht sehr beeindruckend.
Alle Kommentare öffnen
Seite 1

© SPIEGEL ONLINE 2016
Alle Rechte vorbehalten
Vervielfältigung nur mit Genehmigung der SPIEGELnet GmbH


TOP
Die Homepage wurde aktualisiert. Jetzt aufrufen.
Hinweis nicht mehr anzeigen.