Median


In der Statistik ist der Median – auch Zentralwert genannt – ein Mittelwert und Lageparameter. Der Median der Messwerte einer Urliste ist derjenige Messwert, der genau „in der Mitte“ steht, wenn man die Messwerte der Größe nach sortiert. Beispielsweise ist für die ungeordnete Urliste 4, 1, 37, 2, 1 der Messwert 2 der Median, der zentrale Wert in der geordneten Urliste 1, 1, 2, 4, 37.

Im Allgemeinen teilt ein Median einen Datensatz, eine Stichprobe oder eine Verteilung so in zwei gleich große Teile, dass die Werte in der einen Hälfte nicht größer als der Medianwert sind und in der anderen nicht kleiner.

Inhaltsverzeichnis

Beschreibung


Der Median teilt eine Liste von Werten in zwei Teile. Er kann auf folgende Weise bestimmt werden:

Eine wichtige Eigenschaft des Medians ist Robustheit gegenüber Ausreißern.

Vergleich mit anderen Maßen der zentralen Tendenz


Der Median ist ein spezielles Quantil, nämlich das 12-Quantil. Andere wichtige Lagemaße sind das arithmetische Mittel und der Modus.

Im Vergleich zum arithmetischen Mittel, oft Durchschnitt genannt, ist der Median robuster gegenüber Ausreißern (extrem abweichenden Werten) und lässt sich auch auf ordinal skalierte Variablen anwenden. Der Begriff Median (von lateinisch medianus ‚in der Mitte befindlich‘, ‚der Mittlere‘) entstammt der Geometrie, wo er ebenfalls eine Grenze zwischen zwei Hälften gleicher Größe bezeichnet.

Anwendungsbereiche


Im Gegensatz zum arithmetischen Mittel kann der Median auch für ordinal skalierte Variablen wie beispielsweise Notenstufen, bei denen es keinen quantitativen Abstand gibt, verwendet werden. Aber auch bei intervall- und verhältnisskalierten Daten kann der Median herangezogen werden und hat dann Nachteile und Vorteile gegenüber dem arithmetischen Mittel als Lagemaß. Für lediglich nominal skalierte Variablen, deren Ausprägungen keine natürliche Rangfolge aufweisen, wie zum Beispiel eine Variable Geburtsland, kann der Median nicht angewendet werden. Hier ist der Modalwert das einzige Lagemaß, das festgestellt werden kann.

Der Median wird in der Statistik und der Wahrscheinlichkeitstheorie in drei unterschiedlichen Bedeutungen angewendet:

  1. als Lagemaß der deskriptiven Statistik zur Beschreibung einer konkreten Liste von Stichprobenwerten.
  2. in der Wahrscheinlichkeitstheorie als Median einer Wahrscheinlichkeitsverteilung oder einer Zufallsvariablen. Hier stellt der Median eine Alternative zum Erwartungswert für die Angabe eines „mittleren Werts“ dar.
  3. in der mathematischen Statistik als Median einer Zufallsstichprobe zur robusten Schätzung unbekannter Verteilungen.

Median einer Stichprobe


Ein Wert \({\displaystyle m}\) ist Median einer Stichprobe, wenn mindestens die Hälfte der Stichprobenelemente nicht größer als \({\displaystyle m}\) und mindestens die Hälfte nicht kleiner als \({\displaystyle m}\) ist.

Sortiert man die Beobachtungswerte der Größe nach, das heißt, geht man zur nach dem Rang geordneten Stichprobe über, so ist der Median bei einer ungeraden Anzahl von Beobachtungen der Wert der in der Mitte dieser Folge liegenden Beobachtung. Bei einer geraden Anzahl von Beobachtungen gibt es kein einzelnes mittleres Element, sondern zwei. Hier sind die Werte der beiden mittleren Beobachtungen sowie alle Werte dazwischen (obwohl diese möglicherweise bei keiner Beobachtung aufgetreten sind) Mediane der Stichprobe, da für alle diese Werte obige Bedingung zutrifft.

Bei kardinal skalierten Messgrößen (wenn es also sinnvoll möglich ist, die Differenz von Messwerten zu berechnen) verwendet man im Falle einer geraden Anzahl Beobachtungen meist das arithmetische Mittel der beiden mittleren Beobachtungswerte. Der Median \({\displaystyle {\tilde {x}}}\) einer geordneten Stichprobe \({\displaystyle (x_{1},x_{2},\dotsc ,x_{n})}\) von \({\displaystyle n}\) Messwerten ist dann also

\({\displaystyle {\tilde {x}}={\begin{cases}x_{m+1}&{\text{ für ungerades n = 2m+1}}\\{\frac {1}{2}}(x_{m}+x_{m+1})&{\text{ für gerades n = 2m}}\end{cases}}}\)

Diese Definition hat den Vorteil, dass bei Stichproben aus symmetrischen Verteilungen das arithmetische Mittel und der Median im Erwartungswert identisch sind.

Ober- und Untermedian

Oft möchte man sicherstellen, dass der Median ein Element der Stichprobe ist. In diesem Fall wird alternativ zu obiger Definition bei einer geraden Anzahl \({\displaystyle n=2m}\) von Elementen entweder der Untermedian \({\displaystyle {\tilde {x}}_{u}=x_{m}}\) oder der Obermedian \({\displaystyle {\tilde {x}}_{o}=x_{m+1}}\) als Median gewählt. Im Falle einer ungeraden Anzahl \({\displaystyle n=2m+1}\) der Beobachtungen gilt natürlich wie oben \({\displaystyle {\tilde {x}}={\tilde {x}}_{u}={\tilde {x}}_{o}=x_{m+1}}\).

Mithilfe von Gauß-Klammern lassen sich die Indizes auch relativ kompakt durch \({\displaystyle n}\) selbst ausdrücken:

\({\displaystyle {\tilde {x}}_{u}=x_{\left\lfloor {\frac {n+1}{2}}\right\rfloor }}\)
\({\displaystyle {\tilde {x}}_{o}=x_{\left\lceil {\frac {n+1}{2}}\right\rceil }}\)

Diese Medianbestimmung spielt beispielsweise bei Datenbanksystemen eine große Rolle, wie z. B. bei SELECT-Abfragen mittels des Medians der Mediane.

Eigenschaften

Der Median \({\displaystyle {\tilde {x}}}\), und im Fall einer geraden Anzahl von Messwerten alle Werte \({\displaystyle {\tilde {x}}}\) mit \({\displaystyle {\tilde {x}}_{u}\leq {\tilde {x}}\leq {\tilde {x}}_{o}}\), minimieren die Summe der absoluten Abweichungen, das heißt, für ein beliebiges \({\displaystyle x}\) gilt

\({\displaystyle \sum _{i=1}^{n}|{\tilde {x}}-x_{i}|\leq \sum _{i=1}^{n}|x-x_{i}|.}\)

Der Median ist Grundlage der Methode der kleinsten absoluten Abweichungen und Verfahren der robusten Regression. Das arithmetische Mittel dagegen minimiert die Summe der Abweichungsquadrate, ist Grundlage der Methode der kleinsten Quadrate und der Regressionsanalyse und ist mathematisch leichter zu handhaben, jedoch nicht robust gegen Ausreißer.

Der Median kann, wie oben beschrieben, algorithmisch bestimmt werden, indem die Messwerte sortiert werden. Das ist im Allgemeinen mit Aufwand \({\displaystyle \Omega (n\log n)}\) verbunden, nur auf speziellen Klassen von Eingabedaten ist \({\displaystyle {\mathcal {O}}(n)}\) möglich (siehe Sortieralgorithmus). Es gibt aber auch Algorithmen zur Quantilsbestimmung mit linearem Worst-Case-Aufwand \({\displaystyle {\mathcal {O}}(n)}\) sowie Algorithmen zur Abschätzung, beispielsweise die Cornish-Fisher-Methode.

Median von gruppierten Daten

Vor allem in den Sozialwissenschaften wird bei Statistiken häufig der Median geschätzt, da nicht alle Daten explizit und exakt gegeben sind, sondern nur in Intervallen gruppiert vorliegen. So wird beispielsweise bei Umfragen selten nach dem exakten Gehalt gefragt, sondern nur nach der Einkommensklasse, also dem Bereich, in dem das Gehalt liegt. Wenn nur die Häufigkeiten jeder Klasse bekannt sind, dann lässt sich der Median einer solchen Stichprobe im Allgemeinen nur näherungsweise bestimmen. Es seien \({\displaystyle n}\) die Anzahl aller Daten, \({\displaystyle n_{i}}\) die jeweilige Anzahl der Daten der \({\displaystyle i}\)-ten Gruppe und \({\displaystyle u_{i}}\) bzw. \({\displaystyle o_{i}}\) die entsprechenden oberen bzw. unteren Intervallgrenzen. Zunächst wird nun die mediane Klasse (oder mediane Gruppe) bestimmt, d. h., diejenige Gruppe, in die der Median (nach obiger, konventioneller Definition) hineinfällt, z. B. die \({\displaystyle m}\)-te Gruppe. Die Zahl \({\displaystyle m}\) ist dadurch bestimmt, dass \({\displaystyle \textstyle \sum _{k=1}^{m-1}n_{k}<{\frac {n}{2}}}\), aber \({\displaystyle \textstyle \sum _{k=1}^{m}n_{k}\geq {\frac {n}{2}}}\) gilt. Wenn keine weiteren Angaben über die Verteilung der Daten gegeben sind, wird z. B. Gleichverteilung postuliert, sodass man sich der linearen Interpolation als Hilfsmittel bedienen kann, um eine Schätzung des Medians der gruppierten Daten zu erhalten:

\({\displaystyle x_{\mathrm {med} }=u_{m}+{\frac {{\frac {n}{2}}-\sum \limits _{k=1}^{m-1}n_{k}}{n_{m}}}\cdot (o_{m}-u_{m})}\)

Wenn keine weiteren Angaben über die Verteilung der Daten gegeben sind, kann auch jede andere Verteilung außer der Gleichverteilung vorliegen und somit kann auch jeder andere Wert im \({\displaystyle m}\)-ten Intervall der Median sein.

Im Gegensatz zur konventionellen Definition des Medians muss dieser nicht zwangsläufig ein Element aus der tatsächlichen Datenmenge sein, die in aller Regel auch gar nicht bekannt ist.

Beispiel

Einkommen:

Klasse (\({\displaystyle i}\)) Bereich (\({\displaystyle u_{i}}\) bis \({\displaystyle o_{i}}\)) Gruppengröße (\({\displaystyle n_{i}}\))
1 mind. 0, weniger als 1500 160
2 mind. 1500, weniger als 2500 320
3 mind. 2500, weniger als 3500 212

Man berechne

\({\displaystyle {\tfrac {n}{2}}={\tfrac {212+320+160}{2}}={\tfrac {692}{2}}=346.}\)

Also liegt der Median in der 2. Klasse (d. h. \({\displaystyle m=2}\)), da die erste Klasse nur 160 Elemente umfasst. Somit ergibt sich als Schätzung für den Median

\({\displaystyle x_{\mathrm {med} }=1500+{\tfrac {346-160}{320}}\cdot (2500-1500)=2081{,}25.}\)

Da die konkrete Verteilung der Daten in den Intervallen unbekannt ist, kann auch jeder andere Wert im 2. Intervall der Median sein. Der beispielhaft errechnete Wert 2081,25 kann daher bis zu 581,25 zu groß und bis zu 418,75 zu klein sein, der Fehler der Schätzung also bis zu 28 % betragen.

Eine Veranschaulichung dieses Verfahrens zur Festlegung des Medians bei gruppierten Daten ist die grafische Ermittlung mit Hilfe der Summenkurve. Hier wird der Abszissenwert \({\displaystyle x_{\mathrm {med} }}\) gesucht, der zum Ordinatenwert \({\displaystyle {\tfrac {n}{2}}}\) gehört. Bei kleinerem und geradem \({\displaystyle n}\) kann stattdessen auch der Ordinatenwert \({\displaystyle {\tfrac {n}{2}}+1}\) gewählt werden.

Andere Varianten


Median und arithmetisches Mittel: sehr einfaches Beispiel


In einer Gruppe von zehn Personen haben alle Personen Monatseinkommen in unterschiedlicher Höhe. Eine Person erhält 1.000.000 €, die übrigen neun bekommen 1.000 €, 2.000 €, 3.000 € usw. bis 9.000 €.

Das arithmetische Mittel, der „Durchschnitt“ – das Monatseinkommen jeder der zehn Personen bei gleichmäßiger Aufteilung der Summe aller Einkommen auf sie –, beträgt in diesem Falle 104.500 €. Allerdings verdient nur eine der zehn Personen mehr als dies, die neun anderen deutlich weniger.

Der Median dagegen ist 5.500 €. Fünf Personen verdienen mehr als das, fünf Personen weniger. Der Median markiert hier die Grenzlinie zwischen der besser verdienenden und der schlechter verdienenden Hälfte.

Weblinks


Wiktionary: Median – Bedeutungserklärungen, Wortherkunft, Synonyme, Übersetzungen

Einzelnachweise


  1. Hans Lohninger: Grundlagen der Statistik. Mittelwert.
  2. Christopher Butler: Statistics in Linguistics. 1985.
  3. Zentrale Tendenz. (Nicht mehr online verfügbar.) Archiviert vom Original am 16. Januar 2013; abgerufen am 9. Mai 2016.









Kategorien: Mittelwert




Stand der Informationen: 03.11.2021 08:10:21 CET

Quelle: Wikipedia (Autoren [Versionsgeschichte])    Lizenz: CC-BY-SA-3.0

Veränderungen: Alle Bilder und die meisten Designelemente, die mit ihnen in Verbindung stehen, wurden entfernt. Icons wurden teilweise durch FontAwesome-Icons ersetzt. Einige Vorlagen wurden entfernt (wie „Lesenswerter Artikel“, „Exzellenter Artikel“) oder umgeschrieben. CSS-Klassen wurden zum Großteil entfernt oder vereinheitlicht.
Wikipedia spezifische Links, die nicht zu Artikeln oder Kategorien führen (wie „Redlink“, „Bearbeiten-Links“, „Portal-Links“) wurden entfernt. Alle externen Links haben ein zusätzliches FontAwesome Icon erhalten. Neben weiteren kleinen Designanpassungen wurden Media-Container, Karten, Navigationsboxen, gesprochene Versionen & Geo-Mikroformate entfernt.

Wichtiger Hinweis Da die gegebenen Inhalte zum angegebenen Zeitpunkt maschinell von Wikipedia übernommen wurden, war und ist eine manuelle Überprüfung nicht möglich. Somit garantiert LinkFang.org nicht die Richtigkeit und Aktualität der übernommenen Inhalte. Sollten die Informationen mittlerweile fehlerhaft sein oder Fehler in der Darstellung vorliegen, bitten wir Sie darum uns per zu kontaktieren: E-Mail.
Beachten Sie auch : Impressum & Datenschutzerklärung.