Wie sind diese Werte angesichts des Vorhersage-Desasters von 2016 einzuschätzen? Weiß man, was in den Umfragen seinerzeit falsch lief? Welche Unwägbarkeiten sind womöglich noch offen und müssten berücksichtigt werden, wenn man heute die Zahlen aus den USA betrachtet?
von Christoph Bieber and Klaus Kamps, 8.10.20
Seit dem Brexit-Referendum im Juni 2016 und der Wahl von Donald Trump wenige Monate später wird die Aussagekraft von politischen Umfragen vermehrt in Zweifel gezogen. Im dritten Teil unserer Reihe zum US-Wahlkampf geht es heute um die Frage, ob und inwieweit die »Polls« die Lage richtig einschätzen.
Kann man den Meinungsumfragen in den USA, den Polls, eigentlich noch trauen? Wenn nicht alles täuscht, macht sich auch hierzulande Skepsis breit. Immerhin hatten die meisten Institute und Medien 2016 einen Sieg von Hillary Clinton prognostiziert. Am Vorabend der Wahl lag sie in nahezu jeder Umfrage zwischen einem und sieben Prozentpunkten vor The Donald. So ziemlich die gesamte Branche platzierte Clinton mit 70- bis 99-prozentiger Wahrscheinlichkeit im Weißen Haus. Die New York Times sah sie zu 85 Prozent »sicher« im Oval Office – ihre Niederlage, fügte man hinzu, sei etwa so wahrscheinlich, als würde ein professioneller Kicker der National Football League ein Field Goal aus 37 Yard verpassen (was so gut wie nie passiere – aber gelegentlich eben doch). Umso schockierter zeigte sich (wenigstens das liberale) Amerika, als Donald Trump entgegen all dieser Erwartungen Einzelstaat um Einzelstaat für sich entschied und am Ende die Mehrheit im Electoral College auf sich vereinte. Trump im Amt: das hatte man sich nicht vorstellen wollen – und können.
Immer dann, wenn die Prognosen daneben liegen (2016 etwa auch beim EU-Referendum in Großbritannien), regt sich heftige Kritik an den Umfragen selbst – beeinflussen die vielen Vorhersagen vielleicht selbst den Wahlausgang? Schaden sie demokratischen Abstimmungen mehr, als dass sie dazu beitragen, die Bürger*innen gut zu informieren? Doch meist legt sich die Aufregung rasch und im Vorfeld der nächsten Wahl füllen die Tabellen und Grafiken verlässlich Zeitungsseiten oder beanspruchen reichlich TV-Sendezeit. Umfragen sind längst ein Kernbestandteil moderner Wahlkampfberichterstattung geworden, und auch die Wahlkämpfer nutzen die Umfragen als Spiegel und Labor für die eigenen Aktivitäten. Und natürlich spielen die Polls wieder eine große Rolle im Vorfeld der Präsidentschaftswahl. Seit Wochen suggerieren die Daten einen deutlichen Vorsprung des demokratischen Kandidaten, Joe Biden. Aber wie sind diese Werte angesichts des Vorhersage-Desasters von 2016 einzuschätzen? Weiß man, was in den Umfragen seinerzeit falsch lief? Welche Unwägbarkeiten sind womöglich noch offen und müssten berücksichtigt werden, wenn man heute die Zahlen aus den USA betrachtet?
Drei zentrale Faktoren
Tatsächlich hat die US-Umfragebranche einigen Aufwand betrieben, um den Ursachen für die ungenauen Vorhersagen 2016 auf den Grund zu gehen. Im Kern wurden drei Faktoren identifiziert: Erstens das kurzfristige Entscheidungsverhalten (zu Trumps Gunsten) von lange unschlüssigen Wähler*innen; zweitens die unerwartet hohe Wahlbeteiligung der Trump-Unterstützer; drittens die falsche Gewichtung der weißen Bevölkerung ohne College-Abschluss in den Survey Designs, insbesondere in den Einzelstaaten.
Zuerst aber wurde eine vordergründig plausibel klingende Vermutung fallen gelassen: Nach der Shy-Trump-These hätten bei den (üblichen) Telefonumfragen viele Anhänger*innen von Trump ihre Meinung zurückgehalten und sich (fälschlich) als »unentschieden« ausgegeben – was sie aber nicht waren, sondern nur »scheu« gegenüber den Interviewer*innen. Warum? Weil der Charakter, der Anstand, die »Persönlichkeit« von Trump derart breit kritisiert wurden, dass man nicht mit ihm in Verbindung gebracht werden wollte. Diese intuitiv nachvollziehbare Idee konnte aber nicht belegt werden. Im Gegenteil zeigten Studien, dass ein solcher Effekt unwahrscheinlich war. Beispielsweise unterschied sich der Anteil der Unterstützer*innen von Trump in den anonymeren Online-Umfragen nicht sonderlich von den persönlichen Face-to-Face- oder Telefon-Umfragen. (Nebenbei bemerkt: auch für den aktuellen Wahlkampf wurde das bereits überprüft; ob die Fragen online oder über das Telefon kamen – es macht keinen Unterschied.) Und darüber hinaus hatte ja die Trump-Kampagne »im richtigen Leben« wenig gemein mit einer Geheimoperation. Scheu? Die Leute gingen nicht heimlich, still, verschämt und leise zu seinen Veranstaltungen – au contraire. Die laute, weithin sichtbare Präsenz ist ein Charaktermerkmal des Trump-Wahlkampfs, 2016 genau wie im Pandemie-Jahr 2020. Vieles spricht dafür, dass die öffentliche zelebrierte Beziehung zwischen Trump und seiner Anhängerschaft eine wichtige Stütze in der gegenwärtigen Präsidentschaft ist.
Tatsächlich wog ein Last Minute-Swing von vorgeblich unentschiedenen Wähler*innen schwerer. Eine solch späte Zuwendung zu einem Lager war in der Vergangenheit meist für konservative Kandidat*innen von Vorteil – 2016 dann stärker als üblich. Die Vorhersagemodelle hatten mit diesem Trend meist gerechnet, ihn aber geringer angesetzt. Das zeigte sich in den Exit Polls, also den Daten, die am Wahltag erhoben wurden. In den entscheidenen Staaten hatten viele Wähler*innen, die 2012 noch Barack Obama wählten, einen Schwenk zu den Republikanern vollzogen. Ein solcher Meinungswandel bildete sich zunächst lange in der Kategorie »unentschieden« ab und wurde in den Vorhersagen unterschätzt.
Als günstig für Trump erwiesen sich daneben Mobilisierungseffekte – oder deren Abwesenheit: Überraschend viele Wähler*innen, die eine Wahlabsicht für Clinton geäußert hatten, blieben schließlich doch der Wahl fern – ganz im Gegensatz zu den Trump-Unterstützer*innen. Gerade bei den afro-amerikanischen Wahlberechtigten war die Beteiligung stark zurückgegangen, was weitaus mehr Clinton denn Trump schadete.
Nun sind aber genau diese beiden Punkte auch auf Faktoren zurückzuführen, die weniger in der Anlage von Umfragen zu suchen sind, sondern mehr bei überraschenden Ereignissen, kurzfristigen Entwicklungen oder Desinformationskampagnen. Insbesondere die Bekanntmachung der neuerlichen Eröffnung von FBI-Untersuchungen zur so genannten E-Mail-Affäre wenige Tage vor der Wahl (»October Surprise«) schien Clinton hier geschadet zu haben. Der dritte zentrale Aspekt dagegen – die Gewichtung des Bildungsniveaus – war tatsächlich ein wichtiger Faktor der Umfrage-Designs selbst.
Eine Frage der Bildung
Die Problematik einer korrekten Gewichtung der formalen Bildung der Befragten beginnt damit, dass besser gebildete Personen weitaus eher bereit sind, sich überhaupt interviewen zu lassen. Rund die Hälfte des Samples einer typischen Umfrage in den USA besitzt mindestens einen Bachelor-Abschluss – in der Bevölkerung insgesamt indes liegt dieser Wert nur bei 28 Prozent. Dieses Merkmal muss also »gewogen« werden. Für die Daten von 2016 wird nun geschätzt, dass ein entsprechender Ausgleich (= Gewichtung) nach Bildung und eine Berücksichtigung der Teilnahme an früheren Wahlen (ebenfalls mit höherer Bildung assoziiert) den Vorsprung von Hillary Clinton um etwa drei bis vier Prozent verkleinert hätte.
Wohlgemerkt: im Nachhinein schätzt man das so. Die meisten Rechnungen hatten diese Verschiebung nicht im Blick. Zwar wusste man schon länger von der höheren Teilnahmebereitschaft unter den formal besser Gebildeten, aber man betrieb nicht den Aufwand einer Verfeinerung des Vorhersagemodells. Denn in der Vergangenheit hatte der Bildungsfaktor einen – singulär betrachtet – geringen Einfluss auf die Präsidentschaftswahl. Genau das änderte sich 2016 recht drastisch. Unter den Amerikaner*innen mit College-Abschluss hatte Clinton rund 25 Prozent Vorsprung vor Trump (bei Obama lag dieser Wert noch bei rund drei Prozent).
Ein Indiz für die Bedeutung des Bildungsniveaus für die seinerzeitige Ungenauigkeit der Vorhersagen ist dabei, dass die National Polls den Faktor Bildung häufig berücksichtigten – und mit ihren Annahmen einigermaßen korrekt lagen. Denn auf dieser nationalen Ebene hatten die Umfragen Clinton mit etwa 3 bis 4 Prozent favorisiert; und sie hat ja dann das Popular Vote, also die Stimmen aller amerikanischen Wähler*innen zusammengerechnet, mit rund 2 Prozent tatsächlich gewonnen. Polls in den Einzelstaaten haben Bildung hingegen meist nicht gewichtet – und lagen in wichtigen Swing States systematisch falsch.
Diese Justierung des Bildungsniveaus ist schwierig und teuer. Denn meistens mangelt es in den einzelnen Staaten an einem Register, das bei eingetragenen Wähler*innen ihren Bildungsabschluss festhält. Darüber hinaus schwankt der Einfluss der Bildung auf die Wahlabsicht offenbar mit dem ethnischen Hintergrund – was die Sache zusätzlich verkompliziert. Daher haben viele Institute diesen Faktor vernachlässigt, einige Umfragen fragten erst gar nicht danach. Erstaunlich genug.
Lessons learned?
Allerdings haben inzwischen viele Umfrageanbieter ihre Designs mit Blick auf den Bildungsfaktor angepasst. Doch eben nicht alle, auch nicht in den so wichtigen Battleground States – und entsprechend vorsichtig sind dann entsprechende Datensätze zu lesen. Beispielsweise meldete im Juni eine Umfrage aus Michigan einen 18-prozentigen Vorsprung von Biden. 69% der Befragten dieses Samples hatten ein College Degree, im Staat selbst aber besitzt nur rund ein Drittel der Wahlberechtigten einen solchen Abschluss. Dementsprechend unsicher ist dieser Wert einzuschätzen. Genau genommen ist er angesichts der enormen Diskrepanz einigermaßen nutzlos.
Unsicherheiten bleiben, selbst wenn die Umfrageinstitute nun Bildungsabschlüsse berücksichtigen. Das ist ein Stück weit normal: Umfragen sollten zwar immer auch hinsichtlich einer langen Liste an Merkmalen repräsentativ sein, etwa Alter, sozioökonomischer Hintergrund, Geschlecht, Lebensumfeld und mehr. Das sind sie in der Regel natürlich nie exakt – und auf die Abweichungen und den Umgang mit ihnen kommt es dann an. Dass Umfragen überhaupt mit doch vergleichsweise wenigen Befragten passable Annahmen über das faktische Abstimmungsverhalten von Millionen Stimmberechtigten erbringen, liegt eben daran, dass man über nunmehr einige Generationen des Polling gelernt hat, wie man mit der Differenz zwischen den Befragten und dem idealen (eins-zu-eins getreuen) Sample umgeht. Eine Landkarte im Maßstab 1:1 kann zwar maximal genau sein, in der Praxis ist sie allerdings nutzlos.
Gegen alle Erfahrungswerte also hat 2016 wohl ein Faktor, das Bildungsniveau, viele Umfrage-Modelle »gestört«. Neben dem besprochenen Umgang mit der Gewichtung der Bevölkerungsteile ohne College-Abschluss wird in der Survey-Branche nun vor allem ein Trend beobachtet, der ebenfalls die tatsächliche Unterstützung von Trump zu niedrig ansetzt: Die seit Jahren zurückgehende Antwortquote in den Telefonumfragen. Denn die Unlust, sich befragen zu lassen, verteilt sich nicht gleich über die Parteien; vielmehr zeigen sich Demokraten engagierter; sie haben mehr Vertrauen in die Gesellschaft, ihre Nachbarn, das System – und sie sind offener gegenüber Interviewanfragen als Republikaner. Auch dieser Trend muss also mit beachtet werden.
Polling Error 2020
Wie sind bei all dem dann die Umfragen einzuschätzen? Generell gilt: Die Umfragebranche in den USA hat reagiert. Viele Institute (aber eben nicht alle) haben ihre Samples mit Blick auf weiße Amerikaner ohne College-Abschluss angepasst. Auch die Modelle und Erwartungen zur Wahlbeteiligung wurden überarbeitet, und die höhere Antwortbereitschaft von Wähler*innen der Demokraten wird meist berücksichtigt.
Nebenbei bemerkt: Wenn die derzeitigen Umfragen tatsächlich noch die Fehler von 2016 wiederholen würden, würde Biden immer noch die Wahl für sich entscheiden. Er würde den Polling Error von 2016 »überleben«. Und die Branche nimmt gemeinhin an, dass dieser Fehler im laufenden Wahljahr eher geringer ausfällt. Oder anders ausgedrückt: Die Umfragefehler müssten sich gegenwärtig wesentlich deutlicher gegen den demokratischen Kandidaten wenden, um ihn zu beunruhigen. Und das scheinen sie nicht zu tun.
Bekanntlich aber muss man in den USA noch etwas genauer hinsehen. Denn nicht der Anteil an allen abgegebenen Stimmen ist maßgeblich, sondern die nach dem the-winner-takes-it-all-Prinzip gewonnenen Einzelstaaten (und deren Delegierte für das Electoral College). Wenn man sich also auf die landesweiten Umfragen stützt (und das sind meist die Umfragen, die hierzulande gemeldet werden), dann sind diese Werte ein wichtiges Indiz – aber faktisch nicht ausschlaggebend.
Insofern sind es die Polls auf der Ebene der Einzelstaaten, die in den Fokus rücken. Und hier wird einiges durcheinandergeworfen. Nicht nur, dass es kaum Institute gibt, die in allen oder zumindest in den meisten Staaten ein einheitliches Design anwenden. Vielmehr werden die Umfragen auch für unterschiedliche »Rennen« (Senat, Repräsentantenhaus, Amt des Gouverneurs) in Auftrag gegeben.
Ausnehmend hilfreich – und hier zu empfehlen – sind dann Seiten wie etwa FiveThirtyEight, die sich auf datengetriebenen Journalismus spezialisiert haben. Dort findet sich auch eine stete Zusammenführung vieler Umfragen, die kontinuierlich das durchschnittliche »Standing« der Kandidaten meldet – und sozusagen einen Standard-Messfehler errechnet. Am interessantesten für die eben auf die Einzelstaaten abhebende Präsidentschaftswahl ist aber darüber hinaus ein Vorhersagemodell in Form einer Simulation. Dabei werden, basierend auf hunderten Umfragen, vierzigtausend Wahlen simuliert und anschließend einer Modellrechnung unterzogen, die sich auf die Einzelstaaten und damit das Electoral College konzentriert. In einem hörenswerten Podcast diskutiert das Team um Chefmathematiker Nate Silver regelmäßig die Feinheiten der FiveThirtyEight-Vorhersagen. Das ist keine leichte Kost, aber auch kein esoterisches Bla-Bla für Zahlen-Fetischisten. Vielmehr erfahren die Hörer*innen im Model Talk sehr viel über demografische und soziale Besonderheiten der Einzelstaaten, immer mit Blick auf die Beschaffenheit des Wahlsystems – wenn man so will, ist es eine datenbasierte Landeskunde der heutigen USA. Nach diesem Modell hält FiveThirtyEight einen Wahlsieg von Biden derzeit zu 77 Prozent wahrscheinlich. Man würde darauf wetten. Wenn man müsste.
Mag man das aus der Sicht der Demokraten als gute Nachricht aufnehmen, so muss man gleich daran erinnern, dass es zwar unwahrscheinlich, aber möglich ist, dass die Polls noch unbekannte, systematische Fehler enthalten oder aber die beschriebenen Korrekturen nicht ausreichen. Die wirklich schlechte Nachricht aber für das Biden-Lager (doch das weiß man natürlich): Polls sind das eine, Politics das andere. Nun dürfte es nicht unbedingt ein kleiner Zwischenfall im südchinesischen Meer sein. Doch dürfen wir davon ausgehen, dass der Oktober die ein oder andere überraschende Initiative des Trump-Lagers sehen wird. Ein Covid-19-Impfstoff zum Beispiel? Aber das ist eine ganz andere, ziemlich traurige Geschichte.
Weitere Beiträge in der Reihe »Breaking Sad«:
Breaking Sad #1: Kamala Harris auf dem Ticket der Demokraten
Breaking Sad #2: Die virtuellen »Conventions« der Parteien in den USA
Breaking Sad #4: »Die Debatte, die keine waren«
Breaking Sad #5: Fortysomething – Der Präsident und seine treue Basis
Breaking Sad #6: Digitale Plattformen im US-Wahlkampf
Breaking sad #7: Red Mirage und Blue Shift. Demokratie in den USA