U-Statistik

Die U-Statistiken oder U-Schätzer sind eine Klasse von Statistiken , die 1948 vom finnischen Statistiker Wassily Hoeffding eingeführt wurden und eine wichtige Rolle in der Theorie der Schätzung spielen . Der Buchstabe U ist die Initiale von "unvoreingenommen" im Englischen, was "unvoreingenommen" bedeutet. U-Statistiken sind Statistiken, die als empirisches Mittel einer symmetrischen Variablenfunktion geschrieben werden können, die über alle Größenuntermengen einer Stichprobe hinweg genommen wird. Diese Statistiken haben interessante Eigenschaften gemeinsam und ermöglichen unter anderem die Erstellung unvoreingenommener Schätzer. Die U-Statistik umfasst viele klassische Schätzer wie den empirischen Mittelwert oder die unvoreingenommene empirische Varianz . $m$ $m$ ${\ displaystyle {\ widetilde {S}} ^ {2}}$

Definition

Definition als Statistik

Sei und sei eine symmetrische Funktion . ${\ displaystyle m \ in \ mathbb {N} ^ {*}}$ ${\ displaystyle \ Phi: \ mathbb {R} ^ {m} \ to \ mathbb {R}}$

Dann assoziiert die Anwendung, die eine Stichprobengröße hat : ${\ displaystyle X = (x_ {1}, \ dots, x_ {n})}$ ${\ displaystyle n \ geq m}$

{\ displaystyle U (X) = {\ binom {n} {m}} ^ {- 1} \ sum _ {i_ {1} <\ dots <i_ {r}} \ Phi (x_ {i_ {1}} , \ dots, x_ {i_ {m}})}

wird als Order- und Kernel- U-Statistik bezeichnet . $m$ $\ Phi$

Diese Statistik ist die durchschnittliche Übernahme aller Teile von . ${\ displaystyle \ Phi (x_ {i_ {1}}, \ dots, x_ {i_ {m}})}$ ${\ displaystyle \ {x_ {i_ {1}}, \ dots, x_ {i_ {m}} \}}$ ${\ displaystyle \ {x_ {1}, \ dots, x_ {n} \}}$

Definition als funktional

Wir können eine U-Statistik auch als Funktion definieren, dh als Anwendung eines Wahrscheinlichkeitsverteilungsraums in . $\ mathbb {R}$

Angesichts der Menge der Wahrscheinlichkeitsverteilungen auf einer messbaren Menge ist eine U-Statistik eine Funktion der Form: $\ mathcal {D}$ $E.$

{\ displaystyle U: {\ begin {array} {ccl} {\ mathcal {D}} & \ to & \ mathbb {R} \\ F & \ mapsto & U (F) = \ mathbb {E} _ {X_ {1}, \ dots, X_ {m} {\ overset {\ text {iid}} {\ sim}} F} [\ Phi (X_ {1}, \ dots, X_ {m})] = \ int _ {E} \ Punkte \ int _ {E} \ Phi (x_ {1}, \ Punkte, x_ {m}) \ Mathrm {d} F (x_ {1}) \ Punkte \ Mathrm {d} F (x_ { m}) \ end {array}}.}

Diese Definition als Funktion ist eine Verallgemeinerung der ersten. In der Tat stellen wir fest, dass wenn es sich um die empirische Verteilung einer Stichprobe handelt , dann ${\ displaystyle {\ hat {F}} _ {n}}$ $(x_ {1}, \ dots, x_ {n})$

{\ displaystyle U ({\ hat {F}} _ {n}) = \ sum _ {i_ {1} <\ dots <i_ {m}} \ Phi (x_ {i_ {1}}, \ dots, x_ {Ich bin}})}

Das heißt, dass die bewertete Funktion gleich der Statistik ist, die auf die Stichprobe angewendet wird . Die Definition durch eine Funktion ermöglicht es, von einer U-Statistik zu sprechen, die in einer Verteilung ausgewertet wird, die keine empirische Verteilung wäre, die die erste Definition nicht zulässt. $U.$ ${\ displaystyle {\ hat {F}} _ {n}}$ $U.$ $(x_ {1}, \ dots, x_ {n})$

Wenn identisch verteilte Zufallsvariablen sind, wenn ist messbar , durch Linearität der Erwartung, ist ein unverzerrter Schätzer von . Dies erklärt den Namen U-Statistik von Unbias . ${\ displaystyle X_ {1}, .., X_ {r}}$ $\ Phi$ ${\ displaystyle U (X)}$ ${\ displaystyle \ mathbb {E} (\ Phi (X_ {1}, \ dots, X_ {r})}$

Beispiele

Viele klassische Schätzer können als U-Schätzer geschrieben werden :

Der klassische Schätzer, der empirische Mittelwert, ist ein U-Schätzer der Ordnung 1 und des Kernels . ${\ displaystyle {\ overline {X}} = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} x_ {i}}$ ${\ displaystyle \ Phi: x \ mapsto x}$

Der unverzerrte Varianzschätzer kann neu geschrieben werden . Es ist daher ein U-Schätzer der Ordnung 2 und eines Kernels . ${\ displaystyle {\ widetilde {S}} ^ {2} (X) = {\ frac {1} {n-1}} \ sum _ {i = 1} ^ {n} (x_ {i} - {\ overline {X}}) ^ {2}}$ ${\ displaystyle S (X) = {\ frac {2} {n (n-1)}} \ sum _ {i <j} {\ frac {(x_ {i} -x_ {j}) ^ {2} } {2}}}$ ${\ displaystyle \ Phi: (x_ {1}, x_ {2}) \ mapsto {\ frac {(x_ {1} -x_ {2}) ^ {2}} {2}}}$

Kendalls Tau- Schätzer kann wo geschrieben werden . Es ist daher ein U-Schätzer zweiter Ordnung. ${\ displaystyle \ tau (X) = {\ frac {2} {n (n-1)}} \ sum _ {i <j} \ Phi (x_ {i}, x_ {j})}$ ${\ displaystyle \ Phi (x_ {i}, x_ {j}) = {\ begin {case} 1 & {\ text {wenn das Paar}} (x_ {i}, x_ {j}) {\ text {stimmt überein }} \\ - 1 & {\ text {sonst}} \ end {Fälle}}}$

Der Schätzer der mittleren absoluten Abweichung ist eine Kernel-U-Statistik zweiter Ordnung . ${\ displaystyle {\ frac {1} {n (n-1)}} \ sum _ {i <j} | x_ {i} -x_ {j} |}$ $| x - y |$

Die Statistik eines Wilcoxon-Tests zu : "Median " kann geschrieben werden , dh wo und sind zwei U-Statistiken: der Ordnung 1 und des Kernels und der Ordnung 2 und des Kernels ${\ displaystyle {\ mathcal {H}} _ {0}}$ ${\ displaystyle (X) = 0}$ ${\ displaystyle \ sum _ {i = 1} ^ {n} \ mathbf {1} _ {\ mathbf {R} +} (x_ {i}) + \ sum _ {i = 1} ^ {n} \ mathbf {1} _ {\ mathbf {R} +} (x_ {i} + x_ {j})}$ ${\ displaystyle nU_ {1} + {\ frac {n (n-1)} {2}} U_ {2}}$ $U_ {1}$ $U_2$ $U_ {1}$ ${\ displaystyle \ Phi (x) = \ mathbf {1} _ {R ^ {+}} (x)}$ $U_2$ ${\ displaystyle \ Phi (x, y) = 1_ {R +} (xy)}$

Eigenschaften

Im Folgenden wird angenommen, dass alle Stichproben standardmäßig unabhängig und identisch verteilt sind. ${\ displaystyle X_ {1}, \ dots, X_ {n}}$

Asymptotische Normalität

U-Statistiken sind asymptotisch normal, das Analogon des zentralen Grenzwertsatzes für U-Statistiken wurde 1948 von Hoeffding aufgestellt:

Asymptotische Normalität der U-Statistik - (Hoeffding, 1948)

Sei ein Wahrscheinlichkeitsgesetz, eine Reihe unabhängiger und identisch verteilter Zufallsvariablen des Gesetzes und eine U-Statistik von Ordnung und Kernel . $F.$ ${\ displaystyle X_ {1}, X_ {2}, \ dots}$ $F.$ $U.$ $m$ $\ Phi$

Also, wenn es existiert, ${\ displaystyle \ mathbb {E} (\ Phi (X_ {1}, .., X_ {m}) ^ {2})}$

{\ displaystyle {\ sqrt {n}} (U (X_ {1}, .., X_ {n}) - \ theta) {\ xrightarrow {\ mathcal {L}}} {\ mathcal {N}} (0 , V)}

wo und ${\ displaystyle \ theta = \ mathbb {E} [\ Phi (X_ {1}, .., X_ {m}]}$ ${\ displaystyle V = \ mathbb {E} [\ Phi (X_ {1}, .., X_ {m}) ^ {2}]}$

Varianz einer U-Statistik

Die Varianz einer Ordnungs- und Kernel- U-Statistik ist gegeben durch: $m$ $\ Phi$

{\ displaystyle Var [U (X_ {1}, \ dots, X_ {n})] = {\ binom {n} {m}} ^ {- 1} \ sum _ {k = 1} ^ {m} { \ binom {m} {k}} {\ binom {nm} {mk}} \ sigma _ {k} ^ {2}}

wo für , ${\ displaystyle i \ leq m}$ ${\ displaystyle \ sigma _ {k} = Var \ left [\ mathbb {E} \ left [\ Phi (X_ {1}, \ dots, X_ {m}) | X_ {1}, \ dots, X_ {i } \ richtig richtig]}$

Unvoreingenommene Schätzer

Paul Halmos demonstrierte 1946, dass die einzigen Funktionale, die unabhängig von der Verteilung der Daten einen unvoreingenommenen Schätzer zulassen, U-Statistiken (als Funktionale) sind. Dann ist der unverzerrte Schätzer der minimalen Varianz die entsprechende U-Statistik. Formeller,

Fehlende Voreingenommenheit in der U-Statistik - (Halmos, 1946)

Entweder eine funktionale. Wenn es ein Schätzer von unvoreingenommenen unabhängig von der Verteilung , das heißt, so dass für jede Wahrscheinlichkeitsverteilung , $U.$ $T (X)$ $U.$ $X.$ $F.$

{\ displaystyle \ mathbb {E} _ {X_ {1}, \ dots, X_ {m} {\ overset {\ text {iid}} {\ sim}} F} [T (X_ {1}, \ dots, X_ {n})] = U (F),}

dann existiert eine ganze Zahl und eine symmetrische Funktion mit Variablen, so dass

m

\ Phi

m

{\ displaystyle U (F) = \ mathbb {E} _ {X_ {1}, \ dots, X_ {m} {\ overset {\ text {iid}} {\ sim}} F} [\ Phi (X_ { 1}, \ dots, X_ {m})]}

und der U-Schätzer hat die kleinste Varianz unter den Schätzern, die für jede Verteilung zufriedenstellend sind . ${\ displaystyle {\ binom {n} {m}} ^ {- 1} \ sum _ {i_ {1} <\ dots <i_ {m}} \ Phi (X_ {1}, \ dots, X_ {m} )}$ $T.$ ${\ displaystyle \ mathbb {E} _ {X_ {1}, \ dots, X_ {m} {\ overset {\ text {iid}} {\ sim}} F} [T (X_ {1}, \ dots, X_ {n})] = U (F)}$ $F.$

Insbesondere ist jeder Kernel- und Ordnungs- U-Schätzer ein unvoreingenommener Schätzer von . $\ Phi$ $m$ ${\ displaystyle \ mathbb {E} _ {X_ {1}, \ dots, X_ {m} {\ overset {\ text {iid}} {\ sim}} F} [\ Phi (X_ {1}, \ dots , X_ {m})]}$

Dieses Ergebnis bedeutet nicht, dass die einzigen unverzerrten Schätzer U-Schätzer sind, sondern dass die einzigen Größen, die unabhängig von der Verteilung der Daten unvoreingenommen geschätzt werden können, Funktionen sind, die mit U-Statistiken verbunden sind. Beispielsweise gibt es für keine Verteilung einen unverzerrten Schätzer für den Median einer Verteilung , da der Median einer Verteilung nicht als U-Funktion geschrieben werden kann. Es ist natürlich möglich, Schätzer des Medians zu finden, die für bestimmte Verteilungen unverzerrt sind (der empirische Mittelwert ist ein unverzerrter Schätzer des Medians jeder symmetrischen Verteilung, die eine Erwartung zulässt), aber es gibt notwendigerweise Verteilungen, für die diese Schätzer voreingenommen sind.

Ebenso sind die mit einer U-Funktion verbundenen U-Schätzer nicht unbedingt die effizientesten Schätzer. Sie sind einfach die effizienten Schätzer unter den unvoreingenommenen Schätzern, unabhängig von der Verteilung der Daten . Beispielsweise ist bei Daten aus einer Exponentialverteilung der empirische Median bei der Schätzung der Erwartung effizienter als der empirische Mittelwert. Dies widerspricht jedoch nicht dem vorherigen Ergebnis, da der empirische Median kein unvoreingenommener Schätzer ist, der von der Verteilung der Daten unabhängig ist.

Verweise

(in) Wassily Hoeffding, " Eine Klasse von Statistiken mit asymptotisch normaler Verteilung " , The Annals of Mathematical Statistics , Vol. 19, n o 3,1948, p. 293-325 ( online lesen )
Anmerkungen aus dem Kurs "Large Sample Theory" von Thomas S. Frugusson an der University of California in Los Angeles
Anmerkung aus dem Statistikkurs von David Hunter an der Pennsylvania State University
(in) Paul R. Halmos, " Die Theorie der unvoreingenommenen Schätzung " , The Annals of Mathematical Statistics , Vol. 17, n o 1,1946, p. 34-43 ( online lesen )