Quantil

In der Statistik und der Wahrscheinlichkeitstheorie sind Quantile die Werte, die einen Datensatz in Intervalle unterteilen , die dieselbe Anzahl von Daten enthalten. Es gibt also ein Quantil weniger als die Anzahl der erstellten Gruppen. So Quartile sind die drei Quantile , die einen Datensatz in vier Gruppen von gleicher Größe unterteilen. Der Median ist das Quantil, das den Datensatz in zwei gleich große Gruppen unterteilt.

Gemeinsame Sprachdefinitionen

Die Quantile einer univariaten, diskreten (z. B. ganzzahligen) oder kontinuierlichen (reellen) Zufallsvariablen sind die Werte, die die Variable für Wahrscheinlichkeitswerte unterhalb des betrachteten Quantils annimmt, wobei sie einen bemerkenswerten Wert wert sind, beispielsweise 3 Zehntel oder 5 Hundertstel usw. Sie werden auch Fraktile genannt , ein vollständiges Synonym je nach Verwendungskontext, und sie sind die reziproken Werte der Verteilungsfunktion des betrachteten Wahrscheinlichkeitsgesetzes . Wir sind insbesondere an einigen Mengen von Quantilwerten interessiert, die Vielfachen einfacher Brüche von 100% der Gesamtwahrscheinlichkeit entsprechen. Zum Beispiel können wir die 100% ige Gesamtwahrscheinlichkeit in 4 Massen von Wahrscheinlichkeiten aufteilen, die jeweils 1 ⁄ 4 = 25% entsprechen, was für die Werte der Zufallsvariablen vier benachbarten Intervallen entspricht. Die drei Zwischenwerte definieren somit jeweils die Fraktile von 1 ⁄ 4 = 0,25, 1 ⁄ 2 = 0,5 und 3 ⁄ 4 = 0,75 oder in Brüchen die Quantile von einem Viertel, einer Hälfte und drei Vierteln ( Die beiden extremen Grenzen, die untere, die dem Quantil von 0 entspricht, und die obere, die dem Quantil von 1 entspricht, sind die Grenzen des Definitionsbereichs der Zufallsvariablen.

Die Quantile einer statistischen Stichprobe von Zahlen sind bemerkenswerte Werte, die es ermöglichen, den Satz dieser geordneten (dh sortierten) Daten in aufeinanderfolgende Intervalle zu unterteilen, die dieselbe Anzahl von Daten enthalten (zur Richtigkeit der ganzzahligen Aufteilung der Gesamtzahl von Daten). außer). Beispielsweise könnte eine Stichprobe von 90 Daten unter Verwendung eines Satzes von 9 Quantilen (plus der unteren und oberen Grenze der Abtastdomäne) in 10 aufeinanderfolgende Teilintervalle aufgeteilt werden.

Einige Mengen von Quantilen haben bestimmte Namen erhalten:

Quantile von Vielfachen eines Hundertstels werden Perzentile oder Perzentile nach einem häufigen Anglizismus genannt . Somit ist der 5 th Perzentil Anteil der Probe in 5% der Daten darin, und die restlichen 95% darüber. Letzter Perzentil (die 99 th ) spielt häufig eine extreme Alarmschwelle Rolle für Maßnahmen, die die Intensität eines Phänomen unter kritischen Entwicklungen und damit Hilfe bei der Überwachung (siehe unten Beispiel in der Hydrologie der Definition des reflektieren 100-jährliche Hochwassers );
Quantile von Vielfachen eines Zehntels sind Dezile . Sie sind oft im Bergbau Geologie (das Studium der Teilchengrößeneigenschaften von geteilten Materialien), Hydrologie (Definition von Wasserständen, einschließlich Überschwemmungen, die verwendet 9 th Dezil der Strömung eines Flusses Einstellung seiner Ebene jährlichen Hochwasser ) sowie in viele medizinische Statistiken;
Die Quantile der Vielfachen des Viertels sind die Quartile . Das erste Quartil ist die allgemein notierte Statistik q 1 ; das zweite Quartil ist kein anderer als der Median ; das dritte Quartil ist q bezeichnet 3 und der Spalt 1 st Quartil definiert den Quartilabstand , die eine herkömmliche Messung der Dispersion der Datenabtastwert ist jedoch mehr robust als die Standardabweichung .

Wurden noch definiert, waren die vier Quintile und die beiden Terciles von seltenem Nutzen.

Hinweis : Einige Computerprogramme definieren ein minimales Quantil und ein maximales Quantil durch das Quantil von 0 bzw. das Quantil von 100%. Diese Terminologie geht jedoch über die traditionellen Definitionen von Statistiken hinaus.

Formalisierung

Wir bezeichnen mit q- Quantilen die Menge der Quantile von Vielfachen der Fraktion 1 ⁄ q . Es gibt ( q –1) q- Quantile. Das p- te q- Quantil einer Zufallsvariablen X wird daher als der Wert $x ( p / q ) definiert,$ so dass:

P (X \ leq x _ {{(p / q)}}) = {\ frac {p} {q}} \

oder gleichwertig,

P (X> x _ {{(p / q)}}) = 1 - {\ frac {p} {q}}

Es ist daher der Kehrwert des Bruchteils p ⁄ q für die zugehörige Verteilungsfunktion.

Die Verallgemeinerung über die als ganze Zahlen genommenen Werte $p$ und $q$ hinaus definiert die Fraktile: Für eine reelle Zahl $f$ zwischen 0 und 1 = 100% ist das Fraktil für den Wert $f$ oder sogar das $f-$ Fraktil der Wert der Domänendefinition der Zufallsvariablen, für die die Verteilungsfunktion $gleich f ist$ . Mit anderen Worten, die Wahrscheinlichkeit (wir sagen auch, dass die Wahrscheinlichkeitsmasse noch expliziter ist ) der Zufallsvariablen unter dem $f-$ Fraktil beträgt $100 \times f %$ . Oder auch bei der mathematischen Sprache der Funktionen ist das $f-$ Fraktil der Kehrwert der Verteilungsfunktion in $f$ .

P (X \ leq x) \ geq p \ {\ mathrm {oder}} \ P (X \ geq x) \ geq 1-p.

Ein paar Kommentare

Hinweis zu Sprachmissbrauch

In den standardisierten Ergebnissen statistischer Tests ist es üblich , den Satz zu lesen „in den 80 - ten Perzentil.“ Perzentile - Werte sind und nicht die Intervalle, wäre es richtiger zu sagen „zwischen dem in dem Intervall 80 th und 81 th Percentile“ oder „im Bereich von 1% Wahrscheinlichkeit nach den 80 - ten Perzentils.“

Fall einer Zufallsvariablen mit symmetrischer Verteilung

Wenn eine Verteilung um einen bestimmten Wert symmetrisch ist, sind der Median und der Mittelwert gleich diesem bestimmten Wert. In der Praxis ist dies bei allen Gaußschen Zufallsvariablen der Fall. Andererseits gibt es auch Beispiele für die allgemeine Verwendung, wenn dies nicht der Fall ist.

Weitere Hinweise

Quantile sind nützliche Maßnahmen, da sie weniger empfindlich gegenüber langgestreckten Verteilungen und Ausreißern sind. Wenn beispielsweise ein Zufallswert einer Exponentialverteilung folgt , hat jede bestimmte Stichprobe dieser Zufallsvariablen eine Wahrscheinlichkeit von ungefähr 63%, unter dem Mittelwert zu liegen. Dies ist auf das Vorhandensein eines langen Schwanzes der Exponentialverteilung in positiven Werten zurückzuführen, der in negativen Werten fehlt.

Empirisch gesehen sind Quantile viel nützlicher als der Mittelwert oder andere Arten statistischer Momente, wenn die von Ihnen analysierten Daten nicht wie erwartet verteilt sind oder wenn eine andere Quelle von Ausreißern den Wert des Mittelwerts beeinflusst.

Die robuste Regression hängt stark mit diesem Thema zusammen. Es wird die Summe der Absolutwerte der beobachteten Werte anstelle der quadratischen Fehler verwendet. Der Zusammenhang liegt in der Tatsache, dass der Mittelwert unter den an eine Verteilung gebundenen Schätzern der einzige ist, der die Erwartung der quadratischen Fehler minimiert, während der Median die Erwartung des absoluten Fehlers minimiert. Eine robuste Regression teilt die Fähigkeit, aufgrund einiger Ausreißer relativ unempfindlich gegenüber großen Abweichungen zu sein.

Die Quantile einer Zufallsvariablen bleiben während zunehmender Transformationen erhalten, was bedeutet, dass wenn m der Median einer Zufallsvariablen X ist, 2 m der Median von 2 X ist , es sei denn, aus einem Wertebereich wurde eine willkürliche Auswahl getroffen , um ein bestimmtes Quantil anzugeben. Quantile können auch in Fällen verwendet werden, in denen nur Ordnungsdaten verfügbar sind.

Berechnung von Quantilen

Es gibt verschiedene Methoden zur Schätzung von Quantilen:

Sei N die Anzahl der beobachteten Werte der Stichprobenpopulation und sei $x 1 , x 2 , ..., x N$ die geordneten Werte derselben Population, so dass $x 1$ der kleinste Wert usw. Ist . Für das k- te q- Quantil gilt p = k ⁄ q .

Empirische Verteilungsfunktion

{\ begin {Fälle} x_ {j}, & g = 0 \\ x _ {{j + 1}}, & g> 0 \ end {Fälle}}

$j$ ist der ganzzahlige Teil von $Np$ und $g$ der Bruchteil.

Empirische Verteilungsfunktion mit Mittelwertbildung

{\ begin {case} {\ frac {1} {2}} (x_ {j} + x _ {{j + 1}}), & g = 0 \\ x _ {{j + 1}}, & g> 0 \ end {Fälle}}

$j$ ist der ganzzahlige Teil von $Np$ und $g$ ist der Bruchteil.

Gewichteter Durchschnitt

x _ {{j + 1}} + g (x _ {{j + 2}} - x _ {{j + 1}})

$j$ ist der ganzzahlige Teil von $( N -1) p$ und $g$ ist der Bruchteil. Diese Methode wird beispielsweise in der PERCENTILE-Funktion von Microsoft Excel verwendet .

Probennummer, die

(

N

-1)

p

+1 am

nächsten liegt

{\ begin {Fälle} x_ {j}, & g \ leq 0,5 \\ x _ {{j + 1}}, & g \ geq 0,5 \ end {Fälle}}

$j$ ist der ganzzahlige Teil von $( N -1) p +1$ und $g$ ist der Bruchteil.

Anmerkungen und Referenzen

Tatsächlich definieren diese Definitionen „das“ Quantil oder Fraktil nicht eindeutig. Wenn in einem Intervall des Definitionsbereichs die Wahrscheinlichkeitsdichte streng Null ist, ist die Verteilungsfunktion in diesem Intervall konstant, und der Kehrwert dieser Konstante ist daher kein einzelner Wert, sondern zumindest dieses bestimmte Intervall. Genau dies ist der Fall für diskrete Zufallsvariablen, die dank der Verwendung des „ Verteilung “ Werkzeugs durch erfundenen Laurent Schwartz und die Einführung von Punktwahrscheinlichkeitsmassen , unify unter dem gleichen Formalismus mit den Variablen kontinuierlich zufällig. Die Nicht-Eindeutigkeit dieser Definitionen erscheint dann zwischen jeder Punktwahrscheinlichkeitsmasse und all diesen Definitionen von Quantilen, Fraktilen, Perzentilen, Dezilen, Quartilen usw. muss ausgefüllt werden, um die Unbestimmtheit zu beseitigen. Die übliche Wahl besteht darin, ein Wahrscheinlichkeitsepsilon von den Punktmassen zu subtrahieren und es kontinuierlich und gleichmäßig auf die Punktwahrscheinlichkeitsmassen zu verteilen. Einfacher ausgedrückt bedeutet dies eine gut gewählte lineare Interpolation . Es sollte jedoch beachtet werden, dass einige Software andere Wege wählt oder gewählt hat, um diese Unbestimmtheit zu beseitigen, was bedeutet, dass die Ergebnisse von Quantilberechnungen von Programm zu Programm unterschiedlich sein können.