Der Median oder Zentralwert ist ein Mittelwert für Verteilungen in der Statistik. Der Median einer Anzahl von Werten ist die Zahl, welche an der mittleren Stelle steht, wenn man die Werte nach Größe sortiert. Zum Beispiel ist für die Werte 4, 1, 37, 2, 1 der Median 2, nämlich die mittlere Zahl in 1, 1, 2, 4, 37. Allgemein teilt ein Median eine Stichprobe, eine Anzahl von Werten oder eine Verteilung in zwei Hälften, so dass die Werte in der einen Hälfte kleiner als der Medianwert sind, in der anderen größer.
Der Median gehört zur Gruppe der Quantile und kann auch als 0,5-Quantil betrachtet werden. Andere wichtige Lagemaße sind das Arithmetische Mittel und der Modus.
Im Vergleich zum arithmetischen Mittel, oft Durchschnitt genannt, ist der Median robuster gegenüber Ausreißern (extrem abweichenden Werten) und lässt sich auch auf ordinal skalierte Variablen anwenden. Der Begriff Median (von lat.: medianus - in der Mitte befindlich, der Mittlere) entstammt der Geometrie, wo er ebenfalls eine Grenze zwischen zwei Hälften gleicher Größe bezeichnet.
Der Median teilt eine Liste von Werten in zwei Hälften gleicher Größe. Er kann auf folgende Weise bestimmt werden:
Eine wichtige Eigenschaft des Medians ist Robustheit gegen Ausreißer.
Ob Median oder das arithmetische Mittel aussagekräftiger ist, hängt auch von der Fragestellung ab. Bei einer Einkommensverteilung interessiert die Steuerzahler möglicherweise, was ein typischer Bürger in seinem Bezirk verdient: der Median ist eine geeignete Maßzahl. Für die Steuerbehörde ist interessant, wie viel Einkommen im Bezirk verdient wird: Die Anzahl der Bürger mal das Durchschnittseinkommen.[1]
Im Gegensatz zum arithmetischen Mittel kann der Median auch für ordinal skalierte Variablen wie beispielsweise Notenstufen, bei denen es keinen quantitativen Abstand gibt, verwendet werden. Aber auch bei intervall- und verhältnisskalierten Daten kann der Median angewendet werden und hat dann Nachteile und Vorteile gegenüber dem arithmetische Mittel als Lagemaß. Für lediglich nominal skalierte Variablen, deren Ausprägungen keine natürliche Rangfolge aufweisen, wie zum Beispiel eine Variable Geburtsland, kann der Median nicht angewendet werden. Hier ist der Modalwert das einzige Lagemaß, das festgestellt werden kann.
Der Median wird in der Statistik und der Wahrscheinlichkeitstheorie in drei unterschiedlichen Bedeutungen angewendet:
Ein Wert
ist Median einer Stichprobe, wenn mindestens die Hälfte der Beobachtungen in der Stichprobe einen Wert
und mindestens die Hälfte einen Wert
hat.
Sortiert man die Beobachtungswerte der Größe nach, das heißt geht man zur nach dem Rang geordneten Stichprobe über, so ist der Median bei einer ungeraden Anzahl von Beobachtungen der Wert der in der Mitte dieser Folge liegenden Beobachtung. Bei einer geraden Anzahl von Beobachtungen gibt es kein einziges mittleres Element, sondern zwei. Hier sind die Werte der beiden mittleren Beobachtungen sowie alle Werte dazwischen (obwohl diese möglicherweise bei keiner Beobachtung aufgetreten sind) ein Median der Stichprobe, da für alle diese Werte obige Bedingung zutrifft.
Bei kardinal skalierten Messgrößen (wenn es also sinnvoll möglich ist, die Differenz von Messwerten zu berechnen) verwendet man im Falle einer geraden Anzahl Beobachtungen meist das arithmetische Mittel der beiden mittleren Beobachtungswerte. Der Median
einer geordneten Stichprobe
von
Messwerten ist dann also
Diese Definition hat den Vorteil, dass bei symmetrischen Verteilungen das arithmetische Mittel und der Median identisch sind.
Oft möchte man dagegen sicherstellen, dass der Median in jedem Fall eines der Elemente der Stichprobe sein soll. In diesem Fall wird alternativ zu dieser Definition bei einer geraden Anzahl von Elementen entweder der Untermedian
oder der Obermedian
genutzt und als Median bezeichnet.
Im Falle einer ungeraden Anzahl der Beobachtungen werden der Untermedian
und der Obermedian
definiert als
. Bei einer geraden Anzahl von Elementen werden der Ober- und Untermedian definiert als
und es gilt:
Diese Medianbestimmung spielt beispielsweise bei Datenbanksystemen eine große Rolle, wie z. B. bei SELECT-Abfragen mittels des Medians der Mediane.
Der Median
, und im Fall einer geraden Anzahl von Messwerten alle Werte
mit
, minimieren die Summe der absoluten Abweichungen, das heißt für ein beliebiges
gilt
Der Median ist Grundlage der Methode der kleinsten absoluten Abweichungen und Verfahren der robusten Regression. Das arithmetische Mittel dagegen minimiert die Summe der quadratischen Abweichungen und ist Grundlage der Methode der kleinsten Quadrate und der Regressionsanalyse und ist mathematisch leichter zu handhaben, jedoch nicht robust gegen Ausreißer.
Der Median kann, wie oben beschrieben, algorithmisch bestimmt werden, indem die Messwerte sortiert werden. Da dies mit Aufwand
verbunden ist, wird im Allgemeinen zu speziellen Algorithmen zur Quantilsbestimmung mit linearem Aufwand
gegriffen oder zu Abschätzungen wie der Cornish-Fisher-Methode. Das arithmetische Mittel lässt sich ebenfalls in linearer Zeit bestimmten.
Vor allem in den Sozialwissenschaften wird bei Statistiken häufig der Median geschätzt, da nicht alle Daten explizit und exakt gegeben sind, sondern nur in Intervallen gruppiert vorliegen. So wird beispielsweise bei Umfragen selten nach dem exakten Gehalt gefragt, sondern nur nach der Einkommensklasse, also dem Bereich, in welchem das Gehalt liegt. Wenn nur die Häufigkeiten jeder Klasse bekannt sind, dann lässt sich der Median einer solchen Stichprobe im Allgemeinen nur näherungsweise bestimmen. Es seien
die Anzahl aller Daten,
die jeweilige Anzahl der Daten der
-ten Gruppe und
bzw.
die entsprechenden oberen bzw. unteren Intervallgrenzen. Zunächst wird nun die mediane Klasse (oder mediane Gruppe) bestimmt, d. h. diejenige Gruppe, in welche der Median (nach obiger, konventioneller Definition) hineinfällt, z. B. die
-te Gruppe. Die Zahl
ist dadurch bestimmt, dass
, aber
gilt. Wenn keine weiteren Angaben über die Verteilung der Daten gegeben sind, wird z. B. Gleichverteilung postuliert, sodass man sich der linearen Interpolation als Hilfsmittel bedienen kann, um eine Schätzung des Medians der gruppierten Daten zu erhalten:
Im Gegensatz zur konventionellen Definition des Medians muss dieser nicht zwangsläufig ein Element aus der tatsächlichen Datenmenge sein, welche in aller Regel nicht bekannt ist.
Einkommen:
| Klasse ( |
Bereich ( |
Gruppengröße ( |
|---|---|---|
| 1 | mind. 0, weniger als 1500 | 160 |
| 2 | mind. 1500, weniger als 2500 | 320 |
| 3 | mind. 2500, weniger als 3500 | 212 |
Man berechne
Also liegt der Median in der 2. Klasse (d. h.
), da die erste Klasse nur 160 Elemente umfasst. Somit ergibt sich als Schätzung für den Median
Eine Veranschaulichung dieses Verfahrens zur Festlegung des Medians bei gruppierten Daten ist die grafische Ermittlung mit Hilfe der Summenkurve. Hier wird der Abszissenwert
gesucht, der zum Ordinatenwert
gehört. Bei kleinerem und geradem
kann auch stattdessen der Ordinatenwert
gewählt werden.
Eine Verallgemeinerung des Begriffes liefert die Betrachtung einer reellwertigen Zufallsvariable
und ihrer Verteilung, beziehungsweise ihrer Verteilungsfunktion
.
Eine reelle Zahl
heißt ein Median von
(bzw. der Verteilung von
), wenn gilt
Jedes
mit
ist ein Median von
. Falls kein solches
existiert, dann liefert die sogenannte verallgemeinerte inverse Verteilungsfunktion
für
einen Median von
. Wenn Eindeutigkeit eine Rolle spielt, definiert man den Median als
. Dies entspricht der Vorgehensweise bei der Definition von Quantilen, der Median ist dann das 50 %-Quantil.
Ein Median ist, neben beispielsweise Erwartungswert und Modus, ein Lageparameter einer Wahrscheinlichkeitsverteilung.
Im Gegensatz zum Erwartungswert existiert der Median stets. So ist beispielsweise der Median der Standard-Cauchy-Verteilung gleich 0, während ihr Erwartungswert gar nicht existiert.
Für symmetrisch verteilte Zufallsvariable mit Dichte, also für Zufallsvariable, bei denen
und
die gleiche Verteilung besitzen, sind Median und Erwartungswert beide gleich
.
Für stetige Verteilungen auf der Menge der positiven reellen Zahlen mit monoton fallender Dichte (das heißt für
gilt
) ist
, wobei das Gleichheitszeichen nur für die stetigen Gleichverteilungen gilt. Ein typische Beispiel für diese Situation ist die Exponentialverteilung.
Zwischen Erwartungswert
, Median
und Standardabweichung
besteht ein allgemeiner Zusammenhang durch die Tschebyschow-Ungleichung der Form
Das Gleichheitszeichen gilt für die diskrete Zufallsvariable X mit
.
Dieser Artikel basiert auf dem Artikel Median aus der freien Enzyklopädie Wikipedia und ist unter der Lizenz Creative Commons Attribution/Share Alike verfügbar. Zusätzliche Bedingungen können anwendbar sein. In der Wikipedia ist eine Liste der Autoren verfügbar. |