Regressionsanalysen sind statistischen Analyseverfahren. Ziel bei den am häufigsten eingesetzten Analyseverfahren ist es, Beziehungen zwischen einer abhängigen und einer oder mehreren unabhängigen Variablen festzustellen. Sie wird insbesondere verwendet, wenn Zusammenhänge quantitativ zu beschreiben oder Werte der abhängigen Variablen zu prognostizieren sind.[1]
Die früheste Form der Regression war die Methode der kleinsten Quadrate (frz.: méthode des moindres carrés), 1805 von Legendre[2] und 1809 von Gauß veröffentlicht.[3] Beide verwendeten die Methode, um die Umlaufbahnen der Planeten um die Sonne anhand von astronomischen Beobachtungen zu bestimmen. Gauß veröffentlichte eine Weiterentwicklung der Theorie der kleinsten Quadrate im Jahr 1821,[4] die eine Version des Satzes von Gauß-Markow enthielt.
Der Begriff "Regression" wurde im 19. Jahrhundert von Francis Galton, einem Cousin von Charles Darwin, geprägt. Er beschrieb damit ein biologisches Phänomen, bekannt als Regression zur Mitte, wonach Nachfahren großer Eltern dazu tendieren, nur durchschnittlich groß zu werden.[5][6] Für Galton hatte Regression nur diese biologische Bedeutung.[7][8] Seine Arbeit wurde jedoch später durch Udny Yule und Karl Pearson in einen allgemeineren statistischen Kontext gesetzt.[9][10] In deren Arbeiten wurde davon ausgegangen, dass die gemeinsame Verteilung der unabhängigen und der abhängigen Variablen normalverteilt ist. Diese Annahme konnte von R.A. Fisher später abgeschwächt werden.[11][12][13] Dieser arbeitete mit der Voraussetzung, dass die bedingte Verteilung der abhängigen Variable normalverteilt ist, die gemeinsame Verteilung jedoch nicht notwendigerweise. In dieser Hinsicht war Fishers Ansatz ähnlicher zu Gauß' Formulierung von 1821.
Regressionsverfahren sind weiterhin ein aktives Forschungsgebiet. In den letzten Jahrzehnten wurden in verschiedensten Bereichen Schätzmethoden entwickelt, etwa zur robusten Regression, zur nicht parametrischen Regression, im Bereich der Bayesschen Statistik, bei fehlenden Daten und bei fehlerbehafteten unabhängigen Variablen.
Mathematisch kann die Beziehung zwischen den unabhängigen Variablen x und der abhängigen Variablen y dargestellt werden als
Hierbei bezeichnet f die gesuchte oder angenommene Funktion und e den Fehler bzw. das Residuum des Modells.
Regressionsverfahren haben viele praktische Anwendungen. Die meisten Anwendungen fallen in eine der folgenden beiden Kategorien:
Am Beginn jedes statistischen Verfahrens steht die Aufbereitung der Daten, insbesondere
Mittels mathematischer Verfahren wird nun eine Funktion f ermittelt, so dass die Residuen e minimal werden. Dabei kann die Form der Funktion bereits weitgehend durch das verwendete Verfahren festgelegt sein. Lineare Regression etwa betrachtet nur lineare Funktionen f, logistische Regression betrachtet nur logistische Funktionen. Was genau unter „minimal“ zu verstehen ist, hängt ebenfalls vom verwendeten Verfahren ab. Wird zum Beispiel die Methode der kleinsten Quadrate angewandt, dann wird die Summe der Quadrate der Abweichungen f(x)-y minimiert, es gibt jedoch auch sogenannte robuste Verfahren, die den Betrag der Abweichungen minimieren.
Ein wichtiger Schritt der Regressionsanalyse ist die Modellvalidierung. Hierbei wird überprüft, ob das Modell eine gute Beschreibung des Zusammenhangs ist. Die Modellvalidierung umfasst die
Das validierte Modell kann zur Prognose von Werten von y bei gegebenen Werten von x herangezogen werden. Häufig wird neben dem prognostizierten Wert von y auch ein Konfidenz-Intervall angegeben, um so die Unsicherheit der Prognose abzuschätzen.
Bei Vorhersagen im Wertebereich der zur Modellanpassung verwendeten Daten spricht man von Interpolation. Vorhersagen außerhalb dieses Datenbereichs nennt man Extrapolation. Vor der Durchführung von Extrapolationen sollte man sich gründlich mit den dabei implizierten Annahmen auseinandersetzen. Manche Autoren raten sogar von Extrapolation ab.[14]
Ist das Ziel der Analyse die Ermittlung derjenigen unabhängigen Variablen, die besonders stark in Zusammenhang mit der abhängigen Variablen y stehen, werden häufig mehrere Modelle mit jeweils unterschiedlichen unabhängigen Variablen erstellt und diese Modelle verglichen. Um zwei Modelle miteinander zu vergleichen, werden in der Regel Kennzahlen wie das Bestimmtheitsmaß oder das Informationskriterium benutzt.
Es gibt automatisierte Verfahren wie die sogenannte schrittweise Regression, die sukzessive dasjenige Modell zu ermitteln versuchen, welches den gesuchten Zusammenhang am besten erklärt. Die Anwendung solcher Verfahren wird jedoch kontrovers diskutiert.
Des Weiteren gibt es in der Bayessche Statistik Verfahren, die aus mehreren Modellen ein neues Modell ableiten (durch sogenanntes averaging) und so versuchen, die aus der Modellwahl entstehende Unsicherheit zu verringern.
Das folgende Beispiel wird zur Illustration der verschiedenen Verfahren benutzt. Analog zu Mincer (1974) wurden aus dem Current Population Survey 1985 zufällig 534 Beobachtungen gezogen mit folgenden Variablen:[15]
Mincer untersuchte den Zusammenhang zwischen dem Logarithmus des Stundenlohns (abhängige Variable) und der Berufsausbildung und -erfahrung (unabhängige Variablen). In den folgenden Grafiken findet sich links eine räumliche Darstellung der Regressionsfläche und rechts ein Kontourplot. Positive Residuen sind rötlich, negative Residuen sind bläulich gezeichnet und je heller die Beobachtung desto kleiner ist der Absolutbetrag des Residuums.
Bei der linearen Regression wird das Modell so spezifiziert, dass die abhängige Variable y eine Linearkombination der Parameter (=Regressionskoeffizienten)
ist, aber nicht notwendigerweise der unabhängigen Variablen
. Zum Beispiel, die einfache lineare Regression modelliert die Abhängigkeit mit einer unabhängigen Variable x:
Bei der multiplen linearen Regression werden mehrere unabhängige Variablen oder Funktionen der unabhängigen Variablen berücksichtigt. Wird zum Beispiel der Term
zur vorigen Regression hinzugefügt, so ergibt sich:
Obwohl der Ausdruck auf der rechten Seite quadratisch in der unabhängigen Variable x ist, ist der Ausdruck linear in den Parametern
,
und
. Damit ist dies auch eine lineare Regression.
Zur Bestimmung der Modellparameter
wird die Methode der kleinsten Quadrate eingesetzt.
Bei nichtparametrischen Regressionsverfahren wird die Form des funktionalen Zusammenhangs f nicht vorgegeben, sondern weitestgehend aus den Daten hergeleitet. Bei der Schätzung der unbekannten Regressionfunktion
an der Stelle
gehen die Daten nahe diesem Punkt mit größerem Gewicht ein als Datenpunkte, die weit entfernt von diesem liegen.
Zur Schätzung haben sich verschiedene Regressionsverfahren etabliert:
Ein Nachteil der nicht-parametrischen Regressionen ist, dass sie am Fluch der Dimensionalität leiden. D.h. je mehr erklärende Variablen man hat, desto mehr Beobachtungen braucht man um an einem beliebigen Punkt
die unbekannte Regressionfunktion
zuverlässig zu schätzen. Daher wurde eine Reihe von semi-parametrischen Modellen etabliert, die die lineare Regression erweitern bzw. nutzen:
Hier wird die unbekannte Regressionsfunktion ebenfalls als Summe nicht-parameterischer univariater Regressionen
von Indices dargestellt:
Regressionsverfahren, die auf der Methode der kleinsten Quadrate oder der Maximum-Likelihood-Methode beruhen, sind nicht robust gegenüber Ausreißern. Robuste Regressionsverfahren wurden entwickelt, um diese Schwäche der klassischen Methode zu umgehen. So können zum Beispiel alternativ M-Schätzer eingesetzt werden.
Bei der klassischen linearen Regression wird vorausgesetzt, dass die Residuen e normalverteilt sind. Die Modellannahme wird abgeschwächt bei den generalisierten Modellen, wo die Residuen e eine Verteilung aus der Verteilungsklasse der exponentiellen Familie besitzen können. Dies wird möglich durch die Verwendung
Ein Spezialfall der generalisierten linearen Modelle ist die Logistische Regression. Wenn die abhängige Variable
eine ordinale Variable ist, die nur zwei oder endlich viele Werte annehmen darf, verwendet man häufig die logistische Regression.
mit
(abhängig von Verteilungsklasse der Residuen). Eine Alternative wäre das Probitmodell.
Diese Idee ist auch für die semi-parameterischen Modelle übernommen worden:
Wenn die Datenpunkte geordnet sind (z.B. wenn es sich bei den Daten um eine Zeitreihe handelt), dann ist es etwa im AR-Modell und im ARCH-Modell möglich, vorhergehende Daten als „unabhängige“ Variable zu verwenden.
Dieser Artikel basiert auf dem Artikel Regressionsanalyse aus der freien Enzyklopädie Wikipedia und ist unter der Lizenz Creative Commons Attribution/Share Alike verfügbar. Zusätzliche Bedingungen können anwendbar sein. In der Wikipedia ist eine Liste der Autoren verfügbar. |