Verzerrte Studien Die Illusion von den wertvollen Twitter- und Facebook-Daten

Daten von Facebook oder Twitter enthüllen das Denken und Verhalten der Nutzer - das zumindest suggerieren zahlreiche Studien. Jetzt aber kritisieren Forscher den naiven Glauben an Daten aus sozialen Medien.
Netzwerke im Fokus: Wie belastbar sind die Daten?

Netzwerke im Fokus: Wie belastbar sind die Daten?

Foto: Kovalev Andrey / Colourbox

Wenn ein Filmstudio wissen will, wie gut sein neuer Film beim Publikum ankommt, befragt es nicht mehr unbedingt die Zuschauer. Es lässt stattdessen Tweets und Facebook-Postings durchforsten. Die Daten von Social-Media-Plattformen gelten als Seismograph für das Denken und Fühlen der Menschen. Postings können sogar die eigene Stimmung beeinflussen, wie jüngst ein von Facebook durchgeführtes Experiment gezeigt hat, über das vorab niemand informiert wurde.

Nun aber warnen zwei Forscher im Fachblatt "Science"  vor einer allzu naiven Nutzung solcher Daten. Diese seien oft nicht repräsentativ, verzerrt und wegen diverser Einschränkungen der Social-Media- Plattformen ungenau, schreiben Jürgen Pfeffer von der Carnegie Mellon University und sein Kollege Derek Ruths.

"Alle Studien, die auf Daten aus sozialen Netzwerken basieren, sind in irgendeiner Art von diesen Problemen betroffen", sagt Pfeffer. Die meisten dieser Probleme seien nicht einmal neu. Man kenne sie aus Meinungsumfragen und Wahlprognosen. Viele der Social-Media-Studien würden jedoch von Nicht-Sozialwissenschaftlern durchgeführt, denen die nötige Grundskepsis fehle.

Vier Punkte halten Ruths und Pfeffer für besonders problematisch:

  • Jede Social-Media-Plattform hat ihre ganz spezielle Nutzerschaft. Pinterest etwa wird vor allem von Frauen zwischen 25 und 34 genutzt. Dies verzerre die Ergebnisse.
  • Öffentlich zugängliche Daten der Social-Media-Plattformen sind nicht immer ein vollständiges Abbild aller Daten einer Plattform. Forschern stünden oft nur gefilterte und zusammengefasste Informationen zur Verfügung.
  • Aufbau und Nutzerschnittstellen beeinflussen das Verhalten der Nutzer. Bei Facebook beispielsweise gibt es keinen "Gefällt mir nicht"-Button.
  • Eine Vielzahl von Spammern und Bots verfälschen die Daten. Ob hinter allen Accounts echte Nutzer, programmierte Bots oder PR-Agenturen stecken, lässt sich kaum herausfinden.

Dirk Helbing von der ETH Zürich, der an dem "Science"-Beitrag nicht mitgearbeitet hat, sieht die Flut an Social-Media-Studien ähnlich kritisch: "Ein generelles Problem ist die fehlende Reproduzierbarkeit." Diese entstehe unter anderem, weil die Daten oft nicht frei verfügbar seien und sich der Datensatz permanent verändere. "Man kann da viel behaupten und wenig überprüfen", meint Helbing.

Methoden aus Meinungsforschung könnten helfen

Besonders problematisch sei, dass Unternehmen wie Geheimdienste solche Analysen praktisch täglich durchführten. Das Ganze finde hinter verschlossenen Türen statt - ohne ausreichenden öffentlichen und wissenschaftlichen Diskurs. "Wie solide sind dann diese Schlussfolgerungen?", fragt Helbing. "Wenn jemand aufgrund solch einer Analyse kein Flugzeug mehr besteigen darf oder keinen Kredit bekommt, ist das nicht lustig."

Pfeffer hält zumindest das Problem der verzerrten Daten für lösbar. "Viele Verfahren und Ansätze wurden in der Meinungsforschung entwickelt, um das ein wenig besser in den Griff zu bekommen." Man werde ähnliche qualitätssteigernde Verfahren auch in der Analyse von Social-Media-Daten in den kommenden Jahren sehen. Ein erfolgsversprechender Ansatz sei beispielsweise, Daten aus sozialen Medien mit anderen zu verbinden und nicht nur alleinstehend zu betrachten.