Umfragen vor der Bundestagswahl Verlässlich unzuverlässig



Wahlplakate im Straßenbild
Foto: Jens Meyer/ APWo landet die SPD? Wer wird die drittstärkste Fraktion? Reicht es für eine schwarz-gelbe Mehrheit? Die Antworten darauf fallen je nach Umfrageinstitut verschieden aus. Und ob die Zahlen von Allensbach, infratest dimap, insa, Forsa & Co am Ende tatsächlich stimmen, werden wir erst nach der Wahl wissen.
Wie präzise können Umfrage überhaupt sein? Um welchen Wert kann das tatsächliche Ergebnis von zuvor erhobenen Daten abweichen?
Um diese Fragen beantworten zu können, muss man erst einmal verstehen, wie Meinungsforschung funktioniert. Das Grundproblem ist bekannt: Niemand kann vor einer Bundestagswahl alle Wähler befragen. Daher begnügen sich Meinungsforscher mit Stichproben, die meist wenige Tausend Personen umfassen. Diese sollen dann stellvertretend für alle Wähler stehen.
Damit diese Auswahl ausreicht, sollten die Befragten in möglichst allen Merkmalen die Gesamtwählerschaft gut widerspiegeln. Man sollte also zum Beispiel nicht nur junge Leute oder nur Hundebesitzer befragen. Lehrbuchmäßig funktioniert dies bei einer Zufallsauswahl, wenn also alle Wähler die gleiche Wahrscheinlichkeit haben, in die Stichprobe aufgenommen zu werden.
Wirklich repräsentativ?
Dann ist auch die objektivste Auswertungsart erfolgsversprechend: Als Wert für die Stimmenanteile der Parteien werden einfach die Anteile in der Stichprobe verwendet.
Weil man nicht alle Wähler befragt hat, ist eine solche Umfrage dann mit einem Fehler behaftet. Ein Umfrageergebnis von sieben Prozent für eine kleine Partei beispielsweise hat einen Fehler von etwa 1,5 Prozentpunkten - und zwar nach oben und nach unten. Für große Parteien wie die CDU gilt eine Schwankungsbreite von bis zu bis 3,0 Prozentpunkten.
Dieser sogenannte Stichprobenfehler besteht, weil man nie ganz sicher sein kann, dass eine deutschlandweite Erhebung mit 1000 zufällig Befragten tatsächlich repräsentativ ist für die Gesamtbevölkerung.
Beim Brexit übrigens spielte der Stichprobenfehler eine wichtige Rolle. Zwar lagen die Gegner es Ausstiegs in Umfragen immer wieder vorn, aber der Vorsprung war so klein, dass auch ein Sieg des Brexit-Lagers im Bereich des Fehlerintervalls lag.
Die Differenz zwischen Umfrage- und Wahlergebnis kann sogar noch größer sein als die Schwankungsbreite. Denn bei den Angaben wird eine Fehlerwahrscheinlichkeit von fünf Prozent unterstellt, was - vereinfacht gesagt - bedeutet, dass derartige Prognosen in 95 Prozent der Fälle um höchstes plus minus 1,5 beziehungsweise 3,0 Prozentpunkte von dem wahren, aber natürlich unbekannten Wert abweichen.
Telefonisch nicht mehr erreichbar
Es ist leicht einzusehen, dass eine echte Zufallsauswahl in der Realität kaum gelingen kann. Ein immer größeres Problem dabei ist, dass beispielsweise Telefonumfragen nur noch einen Teil der Bevölkerung überhaupt erreichen.
Antworteten vor zehn Jahren in den USA im Mittel immerhin noch rund 40 Prozent der Angerufenen, so ist es heute oft nicht einmal jeder zehnte . Und es ist schwer abzuschätzen, was die Gründe dafür sind: Datenschutzbedenken, Desinteresse, viele sonstige Verpflichtungen? Zudem wird unter den Angerufenen oft nur eine bestimmte Klientel erreicht. Vor allem Jüngere verzichten immer häufiger auf Festnetzanschlüsse und nutzen nur Mobiltelefone.
Außerdem kann niemand gezwungen werden, bei einer Umfrage ehrlich zu antworten. Mancher AfD-Wähler könnte am Telefon eine andere Partei nennen - aus Angst diffamiert zu werden. Soziale Erwünschtheit nennt man dieses Phänomen. Und selbst wenn jemand ehrlich antwortet, ist unklar, ob er später im Wahllokal sein Kreuz bei derselben Partei machen wird.
Herunter- und heraufgewichtet
Erschwerend kommt hinzu, dass ein Umfrageinstitut kaum sämtliche Merkmale der befragten Gruppe kennen kann, sodass selbst eine nachträgliche Überprüfung, ob eine Stichprobe repräsentativ ist, kaum gelingt.
Die traditionelle Meinungsforschung bedient sich daher einiger statistischer Kniffe, um diese Probleme zu umgehen. So wird die Wahlbevölkerung nach wichtigen Merkmalen wie Alter, Geschlecht und Region - sogenannte Schichten - unterteilt, und man versucht anschließend, aus diesen Schichten möglichst zufällig Personen zu befragen.
Dabei kann man zusätzlich korrigierend eingreifen, indem anschließend überprüft wird, ob die Merkmale die gleiche Verteilung wie in der Gesamtwählerschaft aufweisen. Gibt es hierbei Abweichungen, können einzelne Befragungsteilnehmer in der Auswertung herunter- und heraufgewichtet werden.
Achtung: Statistik: 150 Kolumnen zum Nachdenken und Schmunzeln
Preisabfragezeitpunkt
23.03.2023 19.24 Uhr
Keine Gewähr
Sind also zum Beispiel etwas zu wenige Männer in der Stichprobe, gewichtet man deren Antworten etwas höher, die Antworten der Frauen etwas geringer. Das derart erzeugte Ergebnis soll dann wieder repräsentativ sein.
Wie gut dies gelingt, ist in erster Linie natürlich von den bekannten und vor allem relevanten Merkmalen abhängig. Welche ein Wahlforscher dabei auswählt und wie er diese gewichtet, ist allerdings oft mindestens so viel Kunst wie harte Wissenschaft.
So kann schon die Auswertung der gleichen Umfrageergebnisse bei unterschiedlichen Instituten zu ziemlich verschiedenen Ergebnissen führen.
Eindrücklich klar gemacht hat dies vor der US-Präsidentschaftswahl die "New York Times" . Die Zeitung hatte die Rohdaten der eigenen Umfrageergebnisse für den Staat Florida zur Auswertung an vier weitere seriöse Meinungsforschungsinstitute gegeben. In den einzelnen Auswertungen war von einem leichten Vorsprung für Donald Trump bis zu einer Vier-Prozentpunkte-Führung von Hillary Clinton alles vertreten.
Da diese Umfrage Monate vor der eigentlichen Wahl stattfand, lässt sich nicht einmal mehr feststellen, welches der Ergebnisse am ehesten der tatsächlichen Stimmung in der Bevölkerung entsprach.
Online statt per Telefon
Da traditionelle Umfragetechniken offensichtlich mit Problemen behaftet sind, scheint es verlockend, aus der Not eine Tugend zu machen und schon bei der Datenerhebung gar nicht den Anspruch einer echten Zufallsauswahl zu erheben. Einen solchen Ansatz verfolgt auch das Institut Civey , das Umfragen auf SPIEGEL ONLINE durchführt.
In die Befragung sind neben Spiegel.de noch 12.000 weitere Webseiten eingebunden. Die gesammelten Daten von allen Websites werden zusammengefasst und ständig durch neu hinzukommende Angaben ergänzt. Die Leser der Seiten müssen sich aktiv dafür entscheiden, ob sie an Abstimmungen teilnehmen möchten.
Das Verfahren ist vergleichsweise günstig, die Auswahl der Teilnehmenden aber sicher nicht repräsentativ für die Gesamtbevölkerung. Ältere Menschen ohne Internetzugang etwa sind automatisch ausgeschlossen.
Und wenn die politischen Grundeinstellungen eines Wählers mit denen der benutzten Nachrichten-Websites nicht übereinstimmen, wird dieser sich vermutlich deutlich seltener zur Umfrage verirren.
Diese Verzerrungen müssen in der Nachbearbeitung korrigiert werden. Wie bei klassischen Wahlumfragen werden erst einmal Alter, Geschlecht und Region des Wohnortes abgefragt, um zu wissen, von wem die Antworten sind.
Aber stimmen diese Daten der bei Civey registrierten User überhaupt? Fake-Accounts sind eine besondere Herausforderung bei Online-Umfragen. Wer weiß schon, ob der registrierte 45-jährige Mann nicht in Wahrheit ein Rentner oder Student ist? Solche Fantasie-Identitäten versucht Civey herauszufiltern - etwa durch Analyse von Antworten bei ähnlich gelagerten Umfragen. Wie gut dies gelingt, ist aber natürlich schwer einzuschätzen.
Das alles würde aber nicht reichen, um wirklich verlässliche Ergebnisse zu erhalten. Ein wichtiger Teil des Civey-Konzepts ist, die große Datenmenge und den ständigen Datenfluss zu nutzen. Möchte man etwa 5000 Antworten von vielen unterschiedlichen Websites zu einem Thema auswerten, sind die aktuellsten Ergebnisse natürlich am nützlichsten.
Stimmungsänderungen abbilden
Waren bei den letzten Teilnehmern aber zum Beispiel mehr Antworten von Männern, so geht man einfach noch ein wenig weiter in der Historie zurück, um auch 2500 Antworten von Frauen einbinden zu können. Das Ziel dieses Vorgehens ist es, dass möglichst viele unterschiedliche Bevölkerungsgruppen in ausreichender Zahl für die Auswertung berücksichtigt werden können und die Antworten aktuell sind.
Anschließend werden die einzelnen Antworten - wie bei der traditionellen Meinungsforschung - anhand der bekannten Merkmale nachgewichtet. Im Grunde genommen versucht man hier also ebenfalls, die vorhandenen Informationen zusammenzuführen und mittels einer Korrektur in ein repräsentatives Bild zu überführen.
Ob das Gewichten klappt oder nicht, hängt stark von der Kunst der Macher ab. Ein Vorteil des Civey-Ansatzes ist, dass man Stimmungsänderungen im Laufe des Wahlkampfes gut abbilden kann, wenn die Teilnehmer, die sich zur Stimmabgabe einloggen müssen, im Laufe von Wochen oder Monaten mehrfach antworten.
Wer wählt strategisch?
Klar ist aber: Auch die beste Statistik ist keine Zauberei. Man kann eben nur die Informationen nutzen, die man vorliegen hat. Nehmen also trotz des Einsammelns von Daten auf 3000 Websites fast nur bestimmte Wählergruppen an den Umfragen teil, hilft auch die beste Nachgewichtung nichts.
Und ob die Datengrundlage ausreichend ist oder nicht, kann man leider als Außenstehender nicht ohne Weiteres an einer einfachen Kennzahl - wie dem Stichprobenfehler oder ähnlichem - erkennen. Ob mit wiederholten Onlinebefragungen also genauso gute oder sogar bessere Ergebnisse als mit der traditionellen Meinungsforschung erzielt werden können, werden wir wohl erst am Wahlabend sehen.
Hinzu kommt, dass sich Wähler an der Wahlurne vor dem Hintergrund der letzten Befragungen zum Teil strategisch verhalten und Wahlabsichten noch einmal ändern. Worin also Gründe für mögliche Abweichungen zwischen letzten Wahlprognosen und tatsächlichen Wahlergebnissen liegen, kann schlussendlich niemals sicher gesagt werden.
Trau keiner Statistik, die du nicht verstanden hast: Die Brüder Björn und Sören Christensen hinterfragen Umfragen und Studien, denen wir täglich begegnen. Mehr Kolumnen finden Sie auf der Themenseite "Angezählt - die Statistikkolumne".
Anmerkung der Redaktion: Wir haben im Text einen Hinweis auf den Stichprobenfehler bei den Brexit-Umfragen ergänzt.