Big Data Wie uns die Datenflut vorhersagbar macht
"Wir wussten, wen diese Leute wählen würden, bevor sie sich überhaupt entschieden hatten." Was zunächst nach billigem Hokuspokus klingt, ist die Aussage eines einflussreichen Beraters von Barack Obama. Der erfolgreiche Einsatz von computer- und statistikgestützten Methoden im amerikanischen Wahlkampf vermittelt einen ersten Eindruck von den gleichzeitig faszinierenden und doch weitreichenden Möglichkeiten, die riesige Datenmengen des Informationszeitalters bieten.
In ihrem neuen Buch 'Big Data' beschreiben Viktor Mayer-Schönberger vom Internet Institute der Universität Oxford und Kenneth Cukier, der langjährige Datenspezialist der britischen Wochenzeitschrift 'The Economist', drei Veränderungen im Zeitalter der Peta-, Exa- und Zettabytes.
Man begnügt sich erstens nicht mehr mit Stichproben, vielmehr geht es um das vollständige Datenbild. So wird im Big-Data-Wahlkampf jeder Wähler einzeln berücksichtigt, anstatt aus repräsentativen Umfragen auf die Gesamtbevölkerung zu schließen.
Mut zur Lücke wird Standard
Zweitens, Masse statt Klasse. Das Wissen um die politischen Einstellungen eines Wählers wird mit möglichst unterschiedlichen Informationen verknüpft, welche Automarke jemand fährt, welche Zeitschriften er liest oder wo er seinen Urlaub verbringt. Wenn die Datensätze oft lückenhaft sind und manchmal sogar Fehler enthalten, so ist das ein notwendiges Übel. Generell scheint zu gelten: je umfangreicher und vielfältiger die Daten, umso besser die Vorhersagen.
Die dritte und wichtigste Entwicklung ist für die Autoren, dass Big Data nicht mehr an Ursache-Wirkungs-Zusammenhängen interessiert ist. Korrelationen ersetzen Kausalität. Die These stammt ursprünglich von Chris Anderson, dem ehemaligen Chefredakteur des Technik- und Lifestylemagazins Wired. Wenn Wahlstrategen beispielsweise herausfinden, dass Pendler im öffentlichen Nahverkehr mit hoher Wahrscheinlichkeit Obama unterstützen, dann interessiert nicht weiter, woran das liegt. Die kausale Struktur wird nebensächlich. Das Wissen um den Zusammenhang, die reine Korrelation, genügt, um mit Wahlwerbung in Bus und Bahn auf Stimmenfang zu gehen. Bei Big Data geht es offenbar nur noch um das Was, nicht mehr um das Warum.
Effektivität der Wahlwerbung im Bus
Und spätestens an dieser Stelle wird es kompliziert. Was Kausalität ist, ob man überhaupt kausale Zusammenhänge erkennen kann, ist unter Methodikern umstritten. Der Begriff hat im zwanzigsten Jahrhundert eine wechselvolle Geschichte erfahren, wie man sie sonst nur vom Aufstieg und Fall politischer Ideologien kennt. Hatte sich zuerst die Wissenschaft weitgehend von kausalen Vorstellungen verabschiedet, wurden beispielsweise Physiker nicht müde, den nicht-kausalen Charakter der Quantenmechanik zu betonen, so erlebt das Konzept in den vergangenen Jahrzehnten eine Renaissance - angetrieben vor allem durch Entwicklungen im Bereich künstliche Intelligenz und Robotik.
Was also zeichnet Kausalität aus? Die Wissenschaftsphilosophin Nancy Cartwright hat es einmal so umschrieben, dass sich mit einem Ursache-Wirkungs-Zusammenhang erfolgreiche Strategien begründen lassen. So ist die Wahlwerbung in Bussen sinnvoll, weil das soziale Umfeld von Berufspendlern offensichtlich eine Neigung zu demokratischen Anschauungen bedingt. Andererseits könnte Obama seine Anhängerschaft nicht vergrößern, indem er überzeugte Republikaner zwingt, häufiger den öffentlichen Nahverkehr zu nutzen. Nur auf der Grundlage eines direkten Kausalzusammenhangs lassen sich die eigenen Ziele und Wünsche durchsetzen.
Und hier offenbart sich eine Schwäche der Analyse in 'Big Data'. Den Nutznießern der großen Datensätze, seien es nun Internetfirmen wie Google oder Amazon, Versicherungen oder Wahlstrategen, geht es letztlich immer um effektive Strategien. Anders gesagt, jede Big-Data-Untersuchung zielt auf kausale Zusammenhänge, beispielweise um Internetwerbung auf den Anwender abzustimmen, mehr Bücher oder CDs an einen bestimmten Kunden zu verkaufen oder eben zusätzliche Wähler zu gewinnen.
Dringend notwenige Debatte
Trotzdem haben die Autoren Recht, wenn sie sagen, dass es bei Big Data weniger um das Warum und hauptsächlich um das Was geht. Der Grund aber ist nicht eine Abkehr von Kausalität, sondern ein anderer, auf den schon Google-Forschungschef Peter Norvig hingewiesen hat. Big-Data-Methoden erweisen sich bei Phänomenen erfolgreich, die sich nicht mehr durch einfache Gesetze beschreiben lassen. Die komplexe Welt des Sozialen kennt kein Äquivalent zum Trägheitssatz oder zur Schwerkraft in der Physik. Damit ist eine Rückführung des Komplexen auf das Einfache nicht mehr möglich und genau das ist es, was wir gewöhnlich unter Erklärung verstehen.
In 'Big Data' zeichnen Cukier und Mayer-Schönfelder eine Welt, die sich mit Unterstützung von Computern immer besser vorhersagen und kontrollieren lässt, die wir aber immer weniger verstehen. Sie setzen erste wichtige Impulse für die dringende Debatte, wie wir als Gesellschaft damit umgehen.