In der Statistik und der Wahrscheinlichkeitstheorie sind Quantile die Werte, die einen Datensatz in Intervalle unterteilen , die dieselbe Anzahl von Daten enthalten. Es gibt also ein Quantil weniger als die Anzahl der erstellten Gruppen. So Quartile sind die drei Quantile , die einen Datensatz in vier Gruppen von gleicher Größe unterteilen. Der Median ist das Quantil, das den Datensatz in zwei gleich große Gruppen unterteilt.
Die Quantile einer univariaten, diskreten (z. B. ganzzahligen) oder kontinuierlichen (reellen) Zufallsvariablen sind die Werte, die die Variable für Wahrscheinlichkeitswerte unterhalb des betrachteten Quantils annimmt, wobei sie einen bemerkenswerten Wert wert sind, beispielsweise 3 Zehntel oder 5 Hundertstel usw. Sie werden auch Fraktile genannt , ein vollständiges Synonym je nach Verwendungskontext, und sie sind die reziproken Werte der Verteilungsfunktion des betrachteten Wahrscheinlichkeitsgesetzes . Wir sind insbesondere an einigen Mengen von Quantilwerten interessiert, die Vielfachen einfacher Brüche von 100% der Gesamtwahrscheinlichkeit entsprechen. Zum Beispiel können wir die 100% ige Gesamtwahrscheinlichkeit in 4 Massen von Wahrscheinlichkeiten aufteilen, die jeweils 1 ⁄ 4 = 25% entsprechen, was für die Werte der Zufallsvariablen vier benachbarten Intervallen entspricht. Die drei Zwischenwerte definieren somit jeweils die Fraktile von 1 ⁄ 4 = 0,25, 1 ⁄ 2 = 0,5 und 3 ⁄ 4 = 0,75 oder in Brüchen die Quantile von einem Viertel, einer Hälfte und drei Vierteln ( Die beiden extremen Grenzen, die untere, die dem Quantil von 0 entspricht, und die obere, die dem Quantil von 1 entspricht, sind die Grenzen des Definitionsbereichs der Zufallsvariablen.
Die Quantile einer statistischen Stichprobe von Zahlen sind bemerkenswerte Werte, die es ermöglichen, den Satz dieser geordneten (dh sortierten) Daten in aufeinanderfolgende Intervalle zu unterteilen, die dieselbe Anzahl von Daten enthalten (zur Richtigkeit der ganzzahligen Aufteilung der Gesamtzahl von Daten). außer). Beispielsweise könnte eine Stichprobe von 90 Daten unter Verwendung eines Satzes von 9 Quantilen (plus der unteren und oberen Grenze der Abtastdomäne) in 10 aufeinanderfolgende Teilintervalle aufgeteilt werden.
Einige Mengen von Quantilen haben bestimmte Namen erhalten:
Wurden noch definiert, waren die vier Quintile und die beiden Terciles von seltenem Nutzen.
Hinweis : Einige Computerprogramme definieren ein minimales Quantil und ein maximales Quantil durch das Quantil von 0 bzw. das Quantil von 100%. Diese Terminologie geht jedoch über die traditionellen Definitionen von Statistiken hinaus.
Wir bezeichnen mit q- Quantilen die Menge der Quantile von Vielfachen der Fraktion 1 ⁄ q . Es gibt ( q –1) q- Quantile. Das p- te q- Quantil einer Zufallsvariablen X wird daher als der Wert x ( p / q ) definiert, so dass:
oder gleichwertig,
.Es ist daher der Kehrwert des Bruchteils p ⁄ q für die zugehörige Verteilungsfunktion.
Die Verallgemeinerung über die als ganze Zahlen genommenen Werte p und q hinaus definiert die Fraktile: Für eine reelle Zahl f zwischen 0 und 1 = 100% ist das Fraktil für den Wert f oder sogar das f- Fraktil der Wert der Domänendefinition der Zufallsvariablen, für die die Verteilungsfunktion gleich f ist . Mit anderen Worten, die Wahrscheinlichkeit (wir sagen auch, dass die Wahrscheinlichkeitsmasse noch expliziter ist ) der Zufallsvariablen unter dem f- Fraktil beträgt 100 × f % . Oder auch bei der mathematischen Sprache der Funktionen ist das f- Fraktil der Kehrwert der Verteilungsfunktion in f .
In den standardisierten Ergebnissen statistischer Tests ist es üblich , den Satz zu lesen „in den 80 - ten Perzentil.“ Perzentile - Werte sind und nicht die Intervalle, wäre es richtiger zu sagen „zwischen dem in dem Intervall 80 th und 81 th Percentile“ oder „im Bereich von 1% Wahrscheinlichkeit nach den 80 - ten Perzentils.“
Wenn eine Verteilung um einen bestimmten Wert symmetrisch ist, sind der Median und der Mittelwert gleich diesem bestimmten Wert. In der Praxis ist dies bei allen Gaußschen Zufallsvariablen der Fall. Andererseits gibt es auch Beispiele für die allgemeine Verwendung, wenn dies nicht der Fall ist.
Quantile sind nützliche Maßnahmen, da sie weniger empfindlich gegenüber langgestreckten Verteilungen und Ausreißern sind. Wenn beispielsweise ein Zufallswert einer Exponentialverteilung folgt , hat jede bestimmte Stichprobe dieser Zufallsvariablen eine Wahrscheinlichkeit von ungefähr 63%, unter dem Mittelwert zu liegen. Dies ist auf das Vorhandensein eines langen Schwanzes der Exponentialverteilung in positiven Werten zurückzuführen, der in negativen Werten fehlt.
Empirisch gesehen sind Quantile viel nützlicher als der Mittelwert oder andere Arten statistischer Momente, wenn die von Ihnen analysierten Daten nicht wie erwartet verteilt sind oder wenn eine andere Quelle von Ausreißern den Wert des Mittelwerts beeinflusst.
Die robuste Regression hängt stark mit diesem Thema zusammen. Es wird die Summe der Absolutwerte der beobachteten Werte anstelle der quadratischen Fehler verwendet. Der Zusammenhang liegt in der Tatsache, dass der Mittelwert unter den an eine Verteilung gebundenen Schätzern der einzige ist, der die Erwartung der quadratischen Fehler minimiert, während der Median die Erwartung des absoluten Fehlers minimiert. Eine robuste Regression teilt die Fähigkeit, aufgrund einiger Ausreißer relativ unempfindlich gegenüber großen Abweichungen zu sein.
Die Quantile einer Zufallsvariablen bleiben während zunehmender Transformationen erhalten, was bedeutet, dass wenn m der Median einer Zufallsvariablen X ist, 2 m der Median von 2 X ist , es sei denn, aus einem Wertebereich wurde eine willkürliche Auswahl getroffen , um ein bestimmtes Quantil anzugeben. Quantile können auch in Fällen verwendet werden, in denen nur Ordnungsdaten verfügbar sind.
Es gibt verschiedene Methoden zur Schätzung von Quantilen:
Sei N die Anzahl der beobachteten Werte der Stichprobenpopulation und sei x 1 , x 2 , ..., x N die geordneten Werte derselben Population, so dass x 1 der kleinste Wert usw. Ist . Für das k- te q- Quantil gilt p = k ⁄ q .
Empirische Verteilungsfunktionj ist der ganzzahlige Teil von Np und g der Bruchteil.
Empirische Verteilungsfunktion mit Mittelwertbildungj ist der ganzzahlige Teil von Np und g ist der Bruchteil.
Gewichteter Durchschnittj ist der ganzzahlige Teil von ( N –1) p und g ist der Bruchteil. Diese Methode wird beispielsweise in der PERCENTILE-Funktion von Microsoft Excel verwendet .
Probennummer, die ( N –1) p +1 am nächsten liegtj ist der ganzzahlige Teil von ( N –1) p +1 und g ist der Bruchteil.