Statistiques math´ ematiques : cours 2
Guillaume Lecu´e
29 aoˆut 2018
R´ ef´ erences
1. Cours:
I V. Rivoirard et G. Stoltz, ”Statistiques en action”
I P.J. Bickel et K. Doksum, ”Mathematical statistics”
I A. Montfort, ”Cours de statistique math´ematique”
2. Exercices:
I J.J. Daudin, S. Robin et C. Vuillet, ”Statistique inf´erentielle. Id´ees, d´emarches, exemples”
I D. Fourdrinier, ”Statistiques inf´erentielle : cours et exercices corrig´es”
I B. Cadre et C. Vial, ”Statistique Math´ematique Cours et Exercices Corrig´es”
Cours pr´ ec´ edent (rappel)
I Exp´erience statistique,mod´ele statistique, ´echantillonnage
I Fonction de r´epartition empirique :
Fbn(x) = 1 n
n
X
i=1
I Xi ≤x
, x∈R
et quelques propri´et´esasymptotiques: Fbn(x)−→p.s. F(x),
Fbn−F
∞
−→p.s. 0 (G.C.) leurs vitesses de convergence :
√n Fbn(x)−F(x) d
−→ N(0,F(x)(1−F(x))),
√n
Fbn(x)−F(x) ∞
−→d K (K.S.)
Aujourd’hui
Estimateur “plug-in” et la m´ethode delta
Quantiles empiriques et applications
Un algorithme ”on-line” : Robbins-Monro
Estimation de fonctionnelles dans le mod`ele d’´echantillonnage
I Objectif :estimation d’une caract´eristique scalaireT(F) d’une loi inconnue de fonction de r´epartitionF `a partir d’unn-´echantillon X1, . . . ,Xn
i.i.d.
∼ X ∼F de cette loi donn´ees :X1, . . . ,Xn
i.i.d.
∼ F probl`eme :estimerT(F)
I Exemples
I D´ej`a vu : valeur en un pointT(F) =F(x) =EI(X ≤x)
I Fonctionnelle r´eguli`ere :
T(F) =h Z
R
g(x)dF(x)
=h Eg(X) o`ug,h:R→Rsontr´eguli`eresetX ∼F
Exemples de fonctionelles r´ eguli` eres
I Moyenne : T(F) =m(F) =R
RxdF(x) =EX.
I Variance :
T(F) =σ2(F) = Z
R
x−m(F)2
dF(x) =E X−EX2 I Asym´etrie (skewness) :
T(F) =α(F) = R
R x−m(F)3
dF(x)
σ3(F) = E(X−EX)3
σ3(F)
I Aplatissement (kurtosis) :
T(F) =κ(F) = R
R x−m(F)4
dF(x)
σ4(F) =E X −EX4
σ4(F)
Exemples de fonctionnelles non reguli` eres
D´ efinition
Soit X une v.a.r. (de cdf F ) et0<p<1. On appelle quantile d’ordre p de X (resp. F ) :
qp(F) = inf{x∈R:F(x)≥p}
I quandF estcontinue et strictement croissantelequantile d’ordre p de la loiF est l’unique solution de
F(qp) =p ( c`ad qp=F−1(p) ).
I lam´ediane=med(F) =q1/2(F)
I lesquartiles ={q1/4(F),med(F),q3/4(F)}
Estimateur “plug-in”
D´ efinition
On appelle estimateur “plug-in” (c`ad “par substitution”) de T(F) l’estimateurT(bFn).
I quandT(F) =h Eg(X)
alors l’estimateurplug-inde T(F) est :
T(bFn) =h1 n
n
X
i=1
g(Xi)
I quandT(F) =qp(F) = inf{x∈R:F(x)≥p}, l’estimateurplug-in est lequantile empirique:
T(bFn) = inf{x ∈R:Fbn(x)≥p}
Performances asymptotiques de l’estimateur plug-in pour l’estimation de fonctionnelles r´eguli`eres de la formeT(F) =h Eg(X)
Convergence (consistance): sig,h:R→R, hcontinue et E|g(X)|<∞, alorsT(bFn)p.s.→ T(F) (LFGN + continuous map theorem).
Vitesse de convergence (normalit´e asymptotique): 1. TCL :
√n1 n
n
X
i=1
g(Xi)−Eg(X) d
−→ N 0,Var g(X) o`u Var
g(X)
=E
(g(X)−Eg(X))2 2. On a un r´esultat du type√
n(Zn−c1)−→ Nd (0,c2). Comment transf´erer ce r´esultat `a√
n(h(Zn)−h(c1))−→d ?
Vitesse de convergence deT(Fbn) versT(F) =h(Eg(X))
Th´ eor` eme (M´ ethode
delta
)
Soit(Zn)une suite de v.a.r. et V une v.a.r. telles que an(Zn−c0)−→d V
o`u(an)est une suite de r´eels positifs tendant vers+∞et c0 est une constante. Soit h:R→Rune fonctioncontinue et d´erivable en c0. Alors
an h(Zn)−h(c0) d
−→h0(c0)V
M´ ethode Delta
1. si √
n(Zn−c1)→ Nd (0,c2) ethd´erivable enc1alors
√n h(Zn)−h(c1) d
→ N 0,c2[h0(c1)]2 2. si V ∼ N(µ,v) eta∈RalorsaV ∼ N(aµ,a2v).
3. l’id´ee centrale de la preuve de la m´ethode Delta est un d´eveloppement limit´e dehen c0 : quandn→ ∞
an(h(Zn)−h(c0))≈h0(c0)
an(Zn−c0)
≈h0(c0)V
Conclusion :
normalit´e asymptotique de l’estimateur plug-in dans le cas de fonctionnelles reguli`eresT(F) =h(Eg(X))Proposition
SiE[g(X)2]<+∞et h est une fonction continue et d´erivable en Eg(X), alors
√n T(bFn)−T(F) d
→ N 0,v(F) , o`u v(F) =h0 E
g(X)2
Var g(X)
.
Pour construire unintervalle de confiance, on aimerait remplacerv(F) parv(bFn) : quandhestC1, on montre quev(bFn)→P v(F)et, via le lemme de Slutsky,
√nT(bFn)−T(F) v(bFn)1/2
→ Nd 0,1
Application de la m´ethode Delta : stabilisation de la variance
SoitX1, . . . ,Xnun n-´echantillon de loi Exponentielle de param´etre θ∈[0,1].
I densit´ef(θ,x) =θexp(−θx)I(x>0), moyenneEθX = 1/θ, varianceVarθX = 1/θ2
I TCL :√
n X¯n−1/θ d
→ N(0,1/θ2)
I Pb. :La variance asymptotique d´epend du param`etre inconnuθ
I M´ethode Delta : sihestC1alors :
√n h( ¯Xn)−h(1/θ) d
→ N 0,(h0(1/θ))2/θ2
I en particulier pourh(θ) = log(θ), on a
√n h( ¯Xn)−h(θ) d
−→ N(0,1)
Application : stabilisation de la variance (Bernoulli)
SoitX1, . . . ,Xnun n-´echantillon dans le mod`ele de Bernoulli de param´etreθ∈[0,1].
I TCL :√
n X¯n−θ d
→ N(0, θ(1−θ))
I La variance asymptotique d´epend du param´etre inconnuθ
I M´ethode Delta : sihestC1alors :
√n h( ¯Xn)−h(θ) d
→ N 0,(h0(θ))2θ(1−θ)
I en particulier pourh(θ) = 2arcsin(√ θ), on a
√n h( ¯Xn)−h(θ) d
−→ N(0,1)
En dimension k > 1
I Il s’agit de fonctionnelles de la forme
T(F) =h(Eg1(X), . . . ,Egk(X)) o`uh:Rk →RestC1.
I Exemple : le coefficient d’asym´etrie T(F) = E(X −EX)3
σ3 =h(EX,EX2,EX3) o`uσest l’´ecart-type deX.
I Outil : Version multidimensionnelle 1. du TCL
2. de lam´ethode delta.
TCL et m´ ethode
delta
multidimensionnelle
I TCL multidimensionnel :(Xn)n≥1vecteurs al´eatoires dansRk, i.i.d., de moyenne µ=E[X1] et de matrice de variance-covariance Σ =E
(X1−µ)(X1−µ)>
. Alors ¯Xn=1nPn
i=1Xi v´erifie :
√n Xn−µ d
→ N 0,Σ
I M´ethodedeltamultidimensionnelle : Si, de plus,h:Rk →Rd continˆument diff´erentiable, alors
√n h(Xn)−h(µ) d
→ N
0,∇h(µ)>Σ∇h(µ) .
rem. : si A∈Rk×d etG ∼ Nk(µ,Σ) alorsA>G ∼ Nd(A>µ,A>ΣA)
Notations : gradient et Jacobien (1/2)
h:
Rk → Rd x 7→
h1(x)
... hd(x)
alors ∇h(x) = ∇h1(x) ∇h2(x) · · · ∇hd(x)
∈Rk×d
o`u∇hj(x) =
∂x1hj(x) ...
∂xkhj(x)
∈Rk, j= 1, . . . ,d tel queh1(x+v)≈h1(x) +
∇h1(x),v
=h1(x) +∇h1(x)>v et de mˆeme
h(x+v)≈h(x) +∇h(x)>v.
>
Notations : gradient (2/2)
Par exemple :
1. pour h(x) =Ax o`uA∈Rd×k, on a :
∇h(x) =A>
2. pour h(x) =kAxk22, on a :
∇h(x) = 2A>Ax 3. pour h(x) =ky−Axk22, on a :
∇h(x) =−2A>(y−Ax)
Application : normalit´ e asymptotique de la variance empirique
I variance :on a
T(F) =h EX,EX2 avec
h(α, β) =β−α2
I l’estimateur plug-inest
T(bFn) =h 1 n
n
X
i=1
Xi,1 n
n
X
i=1
Xi2
!
I On applique leTCL multidimensionnelavecXi = (Xi,Xi2)> et µ= EX,EX2>
, puis lam´ethode “Delta”avech.
Application : coefficient d’asym´ etrie
I Coefficient d’asym´etrie : on a T(F) =h
EX,EX2,EX3 avec
h(α, β, γ) = γ−3αβ+ 2α3 (β−α2)3/2 .
I l’estimateur plug-inest T(bFn) =h1
n
n
X
i=1
Xi,1 n
n
X
i=1
Xi2,1 n
n
X
i=1
Xi3 .
I On applique leTCL multidimensionnelavecXi = (Xi,Xi2,Xi3)> et µ= EX,EX2,EX3>
, puis lam´ethodedelta avech.
Quantiles th´ eoriques et empiriques
Quantile ”th´eorique” d’ordrep :
T(F) =qp(F) = inf{x∈R:F(x)≥p}
Quantileempiriqued’ordrep :
T(bFn) =bqn,p= inf{x ∈R:Fbn(x)≥p}
Question : Quelles sont les propri´et´es statistiques d’estimation deqp(F) parbqn,p? (Pb. : on n’est plus dans le cas r´egulier)
Quantiles empiriques : expression explicite par les statistiques d’ordre
D´ efinition
Soit X1, . . . ,Xnun n-´echantillon de v.a.r.. On appellestatistiques d’ordre les n statistiques X(1), . . . ,X(n) construites telles que
X(1)≤ · · · ≤X(n)
1. pour le quantile d’ordre 0<p<1 :
bqn,p=X(k)=X(dnpe) quand k−1
n <p≤ k n 2. en particulier, la m´ediane empirique v´erifie :
bqn,1/2=med(bFn) =X(dn/2e) o`udte= min(n∈N:n≥t)
Le boxplot :
repr´esentation synth´etique de la dispersion de donn´ees r´eellesq q
X∗ qˆn,1/4 qˆn,1/2 qˆn,3/4 X∗
fin de la “moustache” (whiskers) :
X∗= min{Xi :|Xi−ˆqn,1/4| ≤1,5In}, X∗= max{Xi:|Xi−qˆn,3/4| ≤1,5In}.
Intervalle interquartile :
In= ˆqn,3/4−ˆqn,1/4.
Les donn´ees au-del`a des whiskers sont consid´er´ees comme outliers.
(Il existe d’autres variantes)
Exemple d’application du boxplot
http://localhost:8888/notebooks/box_qqplots.ipynbBox-plot
Le qq-plot : test d’ad´ equation ` a une loi
Etant donn´e unn-´echantillon X1, . . . ,Xn et une cdfFref, on veut tester si l’hypoth`ese suivante est acceptable :
(H0) “LesXi sont distribu´es selon Fref”
Pour “accepter ou refuser visuellement” cette hypoth`ese, on peut tracer le qq-plot : c’est lenuage de points
qi/(n+1)(Fref),bqn,i/(n+1)n
i=1=
qi/(n+1)(Fref),X(i)n
i=1
1. si le nuage de points est “approximativement” align´e avec la droite y =x alors l’hypoth`ese est accept´ee (on trace aussi la droitey =x sur un qq-plot)
2. si les points sont “approximativement” align´es avec une droite affine alors l’hypoth`ese est vraie `a une transformation de centrage et
convergence des quantiles empiriques
Th´ eor` eme
Soit X une v.a.r. (on note par F sa cdf) admettant une densit´e fX par rapport `a la mesure de Lebesgue. On suppose quefX est strictement positive p.s. sur un intervalle I ⊂Ret nulle en dehors. Soit0<p<1.
On a
bqn,p
−→p.s. qp(F) =qp
Si de plus la densit´efX de X admet une version continue en qp alorsbqn,p est asymptotiquement Gaussien :
√n bqn,p−qp d
−→ N
0,p(1−p) fX(qp)2
Convergence des quantiles empiriques
Lavariance asymptotiquedebqn,p est p(1−p)
fX(qp)2 La quantit´efX(qp) est inconnue.
I Comme bqn,p estfortement consistantetfX est continue enqp, fX(bqn,p)−→p.s. fX(qp)
On peut donc ”remplacer”qp parbqn,p grˆace `a Slustky :
√nfX(bqn,p)
pp(1−p) bqn,p−qp d
−→ N(0,1)
I MaisfX(bqn,p) est aussi inconnue ! (probl`eme d’estimation de densit´e)
Limites de l’approche ”plug-in”
L’estimation deT(F) parT(bFn) n’est pas toujourspossible:
I Exemple : siF admet une densit´ef continue par rapport `a le mesure de Lebesgue qu’on souhaite estimer en un x0donn´e :
T(F) =f(x0) =F0(x0),
on nepeut pas prendrecomme estimateurFbn0(x0) carFbn est constante par morceaux.
L’estimation deT(F) parT(bFn) n’est pas toujourssouhaitable:
I Souvent on dispose d’information a priorisuppl´ementaire :F appartient `a une sous-classe particuli`ere de distributions (le mod´ele) et il y a des choix plus judicieux que l’estimateur par plug-in (cf.
cours suivants).
Un algorithme ”on-line” : Robbins-Monro
”Batch” vs ”on-line”
Il existe principalement deux mani`eres de g´en´erer/recevoir des donn´ees :
I ”batch”: les donn´ees sont toutes obtenues en une seule fois (ex. : jeux de donn´ees)
I ”on-line”: les donn´ees sont obtenues les unes `a la suite des autres (ex. : donn´ees en temps r´eel)
Remarque :
1. Fbn etbqn,α sont des estimateurs ”batch”
2. on peut regarder les donn´ees ”batch” commme des donn´ees
”on-line” (cf. vowpal wabbit)
Estimation ”on-line” des quantiles
Question : ebay souhaite connaˆıtre le 95-i`eme pourcentile des montants de transaction sur son site.
Deux strat´egies :
1. ”batch”: on reprend tous les achats pass´es sur eBay depuis sa cr´eation et on calcul bqn,95/100. Probl`eme :nest tr`es grand ! 2. ”on-line”: `a chaque nouvel achat, on actualise un estimateur (en
temps r´eel).
Rem. :De nombreux estimateurs on-line sont adapt´es d’algorithmes d’optimisation convexe it´eratifs comme ladescente de gradient.
Descente de gradient / m´ ethode de Newton
Probl`eme : trouver un z´ero d’une fonctionf croissante etC1: trouver x tel que
f(x) = 0
La m´ethode de Newton est une m´ethode it´erative : Init :x0∈Rwhilestopping criteriado
1. on fait une DL de f en xk :
f(x)≈f(xk) +f0(xk)(x−xk)
2. on r´esoudf(xk) +f0(xk)(x−xk) = 0 (au lieu def(x) = 0) : xk+1=xk − f(xk)
f0(xk) end
Descente de gradient / m´ ethode de Newton
1. Crit`ere d’arrˆet (pour donn´e) :
|f(xk)| ≤ou|xk+1−xk| ≤
2. Quand la fonction n’est pas d´erivable ou que la d´eriv´ee est difficile `a calculer, on remplacef0(xk) parη−1k (step size)
3. chercher le minimum d’une fonction convexehc’est chercher un z´ero d’une fonction croissanteh0 : m´ethode de Newton = descente de gradient
xk+1=xk− h0(xk) h00(xk)
(et si h00n’existe pas ou difficile `a calculer : h00(xk)↔η−1k )
Estimation ”on-line” des quantiles par Robbins-Monro (1/2)
SoitX une v.a.r. admettant une densit´ef strictement positive sur une intervalleI ⊂Ret nulle en dehors de cet intervalle. On note parF la cdf deX.
1. F est d´erivable surR:F0=f p.p.
2. F est strictement croissante surI
3. soit p∈(0,1), le quantile d’ordrepdeX est l’unique solution de F(x)−p= 0
On est donc amen´e `a trouver le z´ero d’une fonction d´erivable strictement croissante : on peut utiliser la m´ethode de Newton
Estimation ”on-line” des quantiles par Robbins-Monro (2/2) L’algorithme de Newton est
xk+1=xk−F(xk)−p f(xk) Probl`emes :
1. f est inconnu : f(xk)↔η−1k (step size)
2. F est inconnue : on ´ecritF(xk) =EI(X ≤xk) et on”estime”F(xk) parI(Xk+1≤xk)grˆace `a la nouvelle donn´eeXk+1
On obtient l’algorithme de Robbins-Monro (1954) : xk+1 =xk −ηk(I(Xk+1≤xk)−p)
Robbins-Monro / descente de gradient stochastique
L’algorithme de Robbins-Monro(RM) pour l’estimation du quantile d’ordrep∈(0,1) est le suivant :
Data:X1, . . . ,Xnv.a.r.i.i.d.
Init :x0∈(0,1), (ηk)k une suite de nombre r´eels positifs fork = 0, . . . ,ndo
xk+1=xk −ηk I(Xk+1≤xk)−p end
1. ´ecriture en pseudo-code 2. algorithmeit´eratif
3. (ηk)k est appel´e lestep size. Par exemple :
ηk =k−a, o`ua∈(1/2,1] (ou ”line search”) 4. x0 starting point (cf. ”warm start”)
Convergence de l’algorithme de RM pour l’estimation de quantile
Th´ eor` eme
Soit p∈(0,1)et X une v.a.r. dont la cdf F v´erifie : 1. F est continue
2. il existe un unique qp∈Rtel que pour tout x6=qp, (x−qp) F(x)−p
>0
Soit(Xk)k i.i.d.∼ X . Alors, la suite it´erative de RM (xk)k o`u x0∈Ret xk+1=xk −ηk(I(Xk+1≤xk)−p)converge presque surement vers qp quand le step size(ηk)k v´erifie :
X
k
ηk = +∞et X
k
η2k <+∞
Vitesse de convergence de RM
Th´ eor` eme
Si de plus F estC2 alors pour f =F0 (densit´e de X ) etσ2=p(1−p), quand n→ ∞:
1. si f(qp)>1/2alors
√n xn−qp)−→ Nd
0, σ2 2f(qp)−1
2. si f(qp) = 1/2alors r n
logn
xn−qp
d
−→ N(0, σ2)
3. si0<f(qp)<1/2alors nf(qp) xn−qp d
−→Z o`u Z est une variable al´eatoire born´ee p.s..
Comparaison d’estimateurs (1/2)
Probl`eme : Dans le cadre ”batch”, on a construit deux estimateurs du quantileqp(F) :bqn,p etxn (RM) lequel choisir ?
1) crit`eres th´eoriques (asymptotique):
I les deux estimateurs sont fortementconsistants
I lavitesse de convergencedebqn,pest toujours en 1/√
nalors que celle dexnse d´egrade quandf(qp)≤1/2⇒
bqn,p est pr´ef´erable `axn quandf(qp)≤1/2
I quand 1/2<f(qp),bqn,p etxn sont tous les deux asymptotiquement normaux de vitesse de convergence en 1/√
nmais leursvariances asymtotiquessont
? pourbqn,p:σ2/f(qp)2
? pourxn:σ2/(2f(qp)−1) orσ2/f(qp)2≤σ2/(2f(qp)−1) donc
bqn,p est pr´ef´erable `axn quand1/2<f(qp) D’un point de vue th´eorique,bqn,p est pr´ef´erable `axn
Comparaison d’estimateurs (2/2)
2) crit`eres empiriques:
I coˆut de calcul: la construction debqn,p n´ecessite le tri des donn´ees X1, . . . ,Xn(qui peuvent ˆetre distribu´ee quandnest grand) contrairement `axn qui est on-line⇒
xnest pr´ef´erable `abqn,pquandnest grand
I Etude de la convergence sur des donn´ees simul´ees: l’int´erˆet des donn´ees simul´ees est qu’on connaˆıt la valeur de l’objet `a estimer.
http://localhost:8888/notebooks/rm_quantile.ipynb Robbins-Monro
I Etude des estimateurs sur des donn´ees r´eelles: coh´erence des r´esultats ; ´echantillon test.