Statistiques math´ematiques : cours 2

(1)

Statistiques math´ ematiques : cours 2

Guillaume Lecu´e

29 aoˆut 2018

(2)

R´ ef´ erences

1. Cours:

I V. Rivoirard et G. Stoltz, ”Statistiques en action”

I P.J. Bickel et K. Doksum, ”Mathematical statistics”

I A. Montfort, ”Cours de statistique math´ematique”

2. Exercices:

I J.J. Daudin, S. Robin et C. Vuillet, ”Statistique inférentielle. Idées, démarches, exemples”

I D. Fourdrinier, ”Statistiques inf´erentielle : cours et exercices corrig´es”

I B. Cadre et C. Vial, ”Statistique Math´ematique Cours et Exercices Corrig´es”

(3)

Cours pr´ ec´ edent (rappel)

I Expérience statistique,modéle statistique, échantillonnage

I Fonction de r´epartition empirique :

Fbn(x) = 1 n

n

X

i=1

I Xi ≤x

, x∈R

et quelques propri´et´esasymptotiques: Fbn(x)−→^p.s. F(x),

Fbn−F

∞

−→p.s. 0 (G.C.) leurs vitesses de convergence :

√n Fbn(x)−F(x) d

−→ N(0,F(x)(1−F(x))),

√n

Fb_n(x)−F(x) _∞

−→d K (K.S.)

(4)

Aujourd’hui

Estimateur “plug-in” et la m´ethode delta

Quantiles empiriques et applications

Un algorithme ”on-line” : Robbins-Monro

(5)

Estimation de fonctionnelles dans le mod`ele d’´echantillonnage

I Objectif :estimation d’une caractéristique scalaireT(F) d’une loi inconnue de fonction de répartitionF à partir d’unn-échantillon X1, . . . ,Xn

i.i.d.

∼ X ∼F de cette loi donn´ees :X1, . . . ,Xn

i.i.d.

∼ F probl`eme :estimerT(F)

I Exemples

I D´ej`a vu : valeur en un pointT(F) =F(x) =EI(X ≤x)

I Fonctionnelle r´eguli`ere :

T(F) =h Z

R

g(x)dF(x)

=h Eg(X) oùg,h:R→RsontrégulièresetX ∼F

(6)

Exemples de fonctionelles r´ eguli` eres

I Moyenne : T(F) =m(F) =R

RxdF(x) =EX.

I Variance :

T(F) =σ²(F) = Z

R

x−m(F)2

dF(x) =E X−EX2 I Asym´etrie (skewness) :

T(F) =α(F) = R

R x−m(F)3

dF(x)

σ³(F) = E(X−EX)³

σ³(F)

I Aplatissement (kurtosis) :

T(F) =κ(F) = R

R x−m(F)4

dF(x)

σ⁴(F) =E X −EX4

σ⁴(F)

(7)

Exemples de fonctionnelles non reguli` eres

D´ efinition

Soit X une v.a.r. (de cdf F ) et0<p<1. On appelle quantile d’ordre p de X (resp. F ) :

qp(F) = inf{x∈R:F(x)≥p}

I quandF estcontinue et strictement croissantelequantile d’ordre p de la loiF est l’unique solution de

F(qp) =p ( c`ad qp=F⁻¹(p) ).

I lam´ediane=med(F) =q_1/2(F)

I lesquartiles ={q_1/4(F),med(F),q_3/4(F)}

(8)

Estimateur “plug-in”

D´ efinition

On appelle estimateur “plug-in” (c`ad “par substitution”) de T(F) l’estimateurT(bFn).

I quandT(F) =h Eg(X)

alors l’estimateurplug-inde T(F) est :

T(bF_n) =h1 n

n

X

i=1

g(X_i)

I quandT(F) =q_p(F) = inf{x∈R:F(x)≥p}, l’estimateurplug-in est lequantile empirique:

T(bF_n) = inf{x ∈R:Fb_n(x)≥p}

(9)

Performances asymptotiques de l’estimateur plug-in pour l’estimation de fonctionnelles r´eguli`eres de la formeT(F) =h Eg(X)

Convergence (consistance): sig,h:R→R, hcontinue et E|g(X)|<∞, alorsT(bFn)^p.s.→ T(F) (LFGN + continuous map theorem).

Vitesse de convergence (normalit´e asymptotique): 1. TCL :

√n1 n

n

X

i=1

g(Xi)−Eg(X) _d

−→ N 0,Var g(X) o`u Var

g(X)

=E

(g(X)−Eg(X))² 2. On a un r´esultat du type√

n(Zn−c1)−→ N^d (0,c2). Comment transférer ce résultat à√

n(h(Zn)−h(c1))−→^d ?

(10)

Vitesse de convergence deT(Fbn) versT(F) =h(Eg(X))

Th´ eor` eme (M´ ethode

delta

)

Soit(Zn)une suite de v.a.r. et V une v.a.r. telles que an(Zn−c0)−→^d V

où(an)est une suite de réels positifs tendant vers+∞et c0 est une constante. Soit h:R→Rune fonctioncontinue et dérivable en c0. Alors

an h(Zn)−h(c0) d

−→h⁰(c0)V

(11)

M´ ethode Delta

1. si √

n(Zn−c1)→ N^d (0,c2) ethd´erivable enc1alors

√n h(Zn)−h(c1) d

→ N 0,c2[h⁰(c1)]² 2. si V ∼ N(µ,v) eta∈RalorsaV ∼ N(aµ,a²v).

3. l’idée centrale de la preuve de la méthode Delta est un développement limité dehen c0 : quandn→ ∞

an(h(Zn)−h(c0))≈h⁰(c0)

an(Zn−c0)

≈h⁰(c0)V

(12)

Conclusion :

^normalit´e asymptotique de l’estimateur plug-in dans le cas de fonctionnelles reguli`eresT(F) =h(Eg(X))

Proposition

SiE[g(X)²]<+∞et h est une fonction continue et d´erivable en Eg(X), alors

√n T(bFn)−T(F) d

→ N 0,v(F) , o`u v(F) =h⁰ E

g(X)2

Var g(X)

.

Pour construire unintervalle de confiance, on aimerait remplacerv(F) parv(bF_n) : quandhestC¹, on montre quev(bF_n)→^P v(F)et, via le lemme de Slutsky,

√nT(bF_n)−T(F) v(bFn)^1/2

→ Nd 0,1

(13)

Application de la m´ethode Delta : stabilisation de la variance

SoitX₁, . . . ,X_nun n-´echantillon de loi Exponentielle de param´etre θ∈[0,1].

I densit´ef(θ,x) =θexp(−θx)I(x>0), moyenneEθX = 1/θ, varianceVarθX = 1/θ²

I TCL :√

n X¯_n−1/θ d

→ N(0,1/θ²)

I Pb. :La variance asymptotique d´epend du param`etre inconnuθ

I M´ethode Delta : sihestC¹alors :

√n h( ¯X_n)−h(1/θ) d

→ N 0,(h⁰(1/θ))²/θ²

I en particulier pourh(θ) = log(θ), on a

√n h( ¯X_n)−h(θ) d

−→ N(0,1)

(14)

Application : stabilisation de la variance (Bernoulli)

SoitX₁, . . . ,X_nun n-échantillon dans le modèle de Bernoulli de paramétreθ∈[0,1].

I TCL :√

n X¯_n−θ d

→ N(0, θ(1−θ))

I La variance asymptotique d´epend du param´etre inconnuθ

I M´ethode Delta : sihestC¹alors :

√n h( ¯Xn)−h(θ) ^d

→ N 0,(h⁰(θ))²θ(1−θ)

I en particulier pourh(θ) = 2arcsin(√ θ), on a

√n h( ¯Xn)−h(θ) d

−→ N(0,1)

(15)

En dimension k > 1

I Il s’agit de fonctionnelles de la forme

T(F) =h(Eg₁(X), . . . ,Eg_k(X)) o`uh:R^k →RestC¹.

I Exemple : le coefficient d’asym´etrie T(F) = E(X −EX)³

σ³ =h(EX,EX²,EX³) o`uσest l’´ecart-type deX.

I Outil : Version multidimensionnelle 1. du TCL

2. de lam´ethode delta.

(16)

TCL et m´ ethode

delta

multidimensionnelle

I TCL multidimensionnel :(Xn)_n≥1vecteurs al´eatoires dansR^k, i.i.d., de moyenne µ=E[X1] et de matrice de variance-covariance Σ =E

(X1−µ)(X1−µ)^>

. Alors ¯Xn=¹_nPn

i=1Xi v´erifie :

√n Xn−µ d

→ N 0,Σ

I Méthodedeltamultidimensionnelle : Si, de plus,h:R^k →R^d continûment différentiable, alors

√n h(Xn)−h(µ) ^d

→ N

0,∇h(µ)^>Σ∇h(µ) .

rem. : si A∈R^k×d etG ∼ Nk(µ,Σ) alorsA^>G ∼ Nd(A^>µ,A^>ΣA)

(17)

Notations : gradient et Jacobien (1/2)

h:











R^k → R^d x 7→





 h₁(x)

... hd(x)







alors ∇h(x) = ∇h1(x) ∇h2(x) · · · ∇hd(x)

∈R^k×d

o`u∇hj(x) =







∂x₁hj(x) ...

∂_x_kh_j(x)





∈R^k, j= 1, . . . ,d tel queh1(x+v)≈h1(x) +

∇h1(x),v

=h1(x) +∇h1(x)^>v et de mˆeme

h(x+v)≈h(x) +∇h(x)^>v.

>

(18)

Notations : gradient (2/2)

Par exemple :

1. pour h(x) =Ax o`uA∈R^d×k, on a :

∇h(x) =A^>

2. pour h(x) =kAxk²₂, on a :

∇h(x) = 2A^>Ax 3. pour h(x) =ky−Axk²₂, on a :

∇h(x) =−2A^>(y−Ax)

(19)

Application : normalit´ e asymptotique de la variance empirique

I variance :on a

T(F) =h EX,EX² avec

h(α, β) =β−α²

I l’estimateur plug-inest

T(bFn) =h 1 n

n

X

i=1

Xi,1 n

n

X

i=1

X_i²

!

I On applique leTCL multidimensionnelavecXi = (Xi,X_i²)^> et µ= EX,EX²>

, puis lam´ethode “Delta”avech.

(20)

Application : coefficient d’asym´ etrie

I Coefficient d’asym´etrie : on a T(F) =h

EX,EX²,EX³ avec

h(α, β, γ) = γ−3αβ+ 2α³ (β−α²)^3/2 .

I l’estimateur plug-inest T(bF_n) =h1

n

X

i=1

X_i,1 n

n

X

i=1

X_i²,1 n

n

X

i=1

X_i³ .

I On applique leTCL multidimensionnelavecXi = (Xi,X_i²,X_i³)^> et µ= EX,EX²,EX³>

, puis lam´ethodedelta avech.

(21)

Quantiles th´ eoriques et empiriques

Quantile ”th´eorique” d’ordrep :

T(F) =qp(F) = inf{x∈R:F(x)≥p}

Quantileempiriqued’ordrep :

T(bF_n) =bq_n,p= inf{x ∈R:Fb_n(x)≥p}

Question : Quelles sont les propriétés statistiques d’estimation deq_p(F) parbq_n,p? (Pb. : on n’est plus dans le cas régulier)

(22)

Quantiles empiriques : expression explicite par les statistiques d’ordre

D´ efinition

Soit X1, . . . ,Xnun n-´echantillon de v.a.r.. On appellestatistiques d’ordre les n statistiques X₍₁₎, . . . ,X_(n) construites telles que

X(1)≤ · · · ≤X(n)

1. pour le quantile d’ordre 0<p<1 :

bqn,p=X(k)=X_(dnpe) quand k−1

n <p≤ k n 2. en particulier, la m´ediane empirique v´erifie :

bq_n,1/2=med(bF_n) =X_(dn/2e) o`udte= min(n∈N:n≥t)

(23)

Le boxplot :

^représentation synthétique de la dispersion de données réelles

q q

X_∗ qˆ_n,1/4 qˆ_n,1/2 qˆ_n,3/4 X^∗

fin de la “moustache” (whiskers) :

X_∗= min{X_i :|X_i−ˆq_n,1/4| ≤1,5I_n}, X^∗= max{Xi:|Xi−qˆ_n,3/4| ≤1,5In}.

Intervalle interquartile :

In= ˆq_n,3/4−ˆq_n,1/4.

Les données au-delà des whiskers sont considérées comme outliers.

(Il existe d’autres variantes)

(24)

Exemple d’application du boxplot

http://localhost:8888/notebooks/box_qqplots.ipynbBox-plot

(25)

Le qq-plot : test d’ad´ equation ` a une loi

Etant donné unn-échantillon X1, . . . ,Xn et une cdfFref, on veut tester si l’hypothèse suivante est acceptable :

(H₀) “LesX_i sont distribu´es selon F_ref”

Pour “accepter ou refuser visuellement” cette hypoth`ese, on peut tracer le qq-plot : c’est lenuage de points

q_i/(n+1)(Fref),bq_n,i/(n+1)ⁿ

i=1=

q_i/(n+1)(Fref),X_(i)ⁿ

i=1

1. si le nuage de points est “approximativement” aligné avec la droite y =x alors l’hypothèse est acceptée (on trace aussi la droitey =x sur un qq-plot)

2. si les points sont “approximativement” alignés avec une droite affine alors l’hypothèse est vraie à une transformation de centrage et

(26)

convergence des quantiles empiriques

Th´ eor` eme

Soit X une v.a.r. (on note par F sa cdf) admettant une densit´e fX par rapport `a la mesure de Lebesgue. On suppose quefX est strictement positive p.s. sur un intervalle I ⊂Ret nulle en dehors. Soit0<p<1.

On a

bqn,p

−→p.s. qp(F) =qp

Si de plus la densit´ef_X de X admet une version continue en q_p alorsbq_n,p est asymptotiquement Gaussien :

√n bqn,p−qp d

−→ N

0,p(1−p) f_X(q_p)²

(27)

Convergence des quantiles empiriques

Lavariance asymptotiquedebqn,p est p(1−p)

f_X(q_p)² La quantit´ef_X(q_p) est inconnue.

I Comme bqn,p estfortement consistantetfX est continue enqp, fX(bqn,p)−→^p.s. fX(qp)

On peut donc ”remplacer”qp parbqn,p grˆace `a Slustky :

√nf_X(bq_n,p)

pp(1−p) bq_n,p−q_p d

−→ N(0,1)

I MaisfX(bqn,p) est aussi inconnue ! (probl`eme d’estimation de densit´e)

(28)

Limites de l’approche ”plug-in”

L’estimation deT(F) parT(bFn) n’est pas toujourspossible:

I Exemple : siF admet une densitéf continue par rapport à le mesure de Lebesgue qu’on souhaite estimer en un x₀donné :

T(F) =f(x₀) =F⁰(x₀),

on nepeut pas prendrecomme estimateurFb_n⁰(x₀) carFb_n est constante par morceaux.

L’estimation deT(F) parT(bF_n) n’est pas toujourssouhaitable:

I Souvent on dispose d’information a priorisupplémentaire :F appartient à une sous-classe particulière de distributions (le modéle) et il y a des choix plus judicieux que l’estimateur par plug-in (cf.

cours suivants).

(29)

Un algorithme ”on-line” : Robbins-Monro

(30)

”Batch” vs ”on-line”

Il existe principalement deux manières de générer/recevoir des données :

I ”batch”: les donn´ees sont toutes obtenues en une seule fois (ex. : jeux de donn´ees)

I ”on-line”: les données sont obtenues les unes à la suite des autres (ex. : données en temps réel)

Remarque :

1. Fbn etbqn,α sont des estimateurs ”batch”

2. on peut regarder les donn´ees ”batch” commme des donn´ees

”on-line” (cf. vowpal wabbit)

(31)

Estimation ”on-line” des quantiles

Question : ebay souhaite connaˆıtre le 95-i`eme pourcentile des montants de transaction sur son site.

Deux strat´egies :

1. ”batch”: on reprend tous les achats passés sur eBay depuis sa création et on calcul bqn,95/100. Problème :nest très grand ! 2. ”on-line”: à chaque nouvel achat, on actualise un estimateur (en

temps r´eel).

Rem. :De nombreux estimateurs on-line sont adapt´es d’algorithmes d’optimisation convexe it´eratifs comme ladescente de gradient.

(32)

Descente de gradient / m´ ethode de Newton

Probl`eme : trouver un z´ero d’une fonctionf croissante etC¹: trouver x tel que

f(x) = 0

La méthode de Newton est une méthode itérative : Init :x₀∈Rwhilestopping criteriado

1. on fait une DL de f en x_k :

f(x)≈f(x_k) +f⁰(x_k)(x−x_k)

2. on r´esoudf(x_k) +f⁰(x_k)(x−x_k) = 0 (au lieu def(x) = 0) : xk+1=xk − f(xk)

f⁰(xk) end

(33)

Descente de gradient / m´ ethode de Newton

1. Critère d’arrêt (pour donné) :

|f(xk)| ≤ou|xk+1−xk| ≤

2. Quand la fonction n’est pas dérivable ou que la dérivée est difficile à calculer, on remplacef⁰(xk) parη⁻¹_k (step size)

3. chercher le minimum d’une fonction convexehc’est chercher un z´ero d’une fonction croissanteh⁰ : m´ethode de Newton = descente de gradient

xk+1=xk− h⁰(xk) h⁰⁰(xk)

(et si h⁰⁰n’existe pas ou difficile `a calculer : h⁰⁰(x_k)↔η⁻¹_k )

(34)

Estimation ”on-line” des quantiles par Robbins-Monro (1/2)

SoitX une v.a.r. admettant une densit´ef strictement positive sur une intervalleI ⊂Ret nulle en dehors de cet intervalle. On note parF la cdf deX.

1. F est d´erivable surR:F⁰=f p.p.

2. F est strictement croissante surI

3. soit p∈(0,1), le quantile d’ordrepdeX est l’unique solution de F(x)−p= 0

On est donc amené à trouver le zéro d’une fonction dérivable strictement croissante : on peut utiliser la méthode de Newton

(35)

Estimation ”on-line” des quantiles par Robbins-Monro (2/2) L’algorithme de Newton est

xk+1=xk−F(x_k)−p f(xk) Probl`emes :

1. f est inconnu : f(xk)↔η⁻¹_k (step size)

2. F est inconnue : on écritF(x_k) =EI(X ≤x_k) et on”estime”F(x_k) parI(Xk+1≤xk)grâce à la nouvelle donnéeXk+1

On obtient l’algorithme de Robbins-Monro (1954) : x_k+1 =x_k −η_k(I(X_k+1≤x_k)−p)

(36)

Robbins-Monro / descente de gradient stochastique

L’algorithme de Robbins-Monro(RM) pour l’estimation du quantile d’ordrep∈(0,1) est le suivant :

Data:X1, . . . ,Xnv.a.r.i.i.d.

Init :x0∈(0,1), (ηk)k une suite de nombre r´eels positifs fork = 0, . . . ,ndo

xk+1=xk −ηk I(Xk+1≤xk)−p end

1. ´ecriture en pseudo-code 2. algorithmeit´eratif

3. (η_k)_k est appel´e lestep size. Par exemple :

η_k =k^−a, o`ua∈(1/2,1] (ou ”line search”) 4. x0 starting point (cf. ”warm start”)

(37)

Convergence de l’algorithme de RM pour l’estimation de quantile

Th´ eor` eme

Soit p∈(0,1)et X une v.a.r. dont la cdf F v´erifie : 1. F est continue

2. il existe un unique q_p∈Rtel que pour tout x6=q_p, (x−q_p) F(x)−p

>0

Soit(X_k)_k î.i.d.∼ X . Alors, la suite itérative de RM (x_k)_k où x₀∈Ret x_k₊₁=x_k −η_k(I(X_k+1≤x_k)−p)converge presque surement vers q_p quand le step size(ηk)k vérifie :

X

k

ηk = +∞et X

k

η²_k <+∞

(38)

Vitesse de convergence de RM

Th´ eor` eme

Si de plus F estC² alors pour f =F⁰ (densit´e de X ) etσ²=p(1−p), quand n→ ∞:

1. si f(qp)>1/2alors

√n xn−qp)−→ N^d

0, σ² 2f(q_p)−1

2. si f(q_p) = 1/2alors r n

logn

xn−qp

_d

−→ N(0, σ²)

3. si0<f(qp)<1/2alors n^f^(q^p⁾ xn−qp d

−→Z où Z est une variable aléatoire bornée p.s..

(39)

Comparaison d’estimateurs (1/2)

Probl`eme : Dans le cadre ”batch”, on a construit deux estimateurs du quantileqp(F) :bqn,p etxn (RM) lequel choisir ?

1) crit`eres th´eoriques (asymptotique):

I les deux estimateurs sont fortementconsistants

I lavitesse de convergencedebqn,pest toujours en 1/√

nalors que celle dexnse d´egrade quandf(qp)≤1/2⇒

bqn,p est préférable àxn quandf(qp)≤1/2

I quand 1/2<f(qp),bqn,p etxn sont tous les deux asymptotiquement normaux de vitesse de convergence en 1/√

nmais leursvariances asymtotiquessont

? pourbqn,p:σ²/f(qp)²

? pourxn:σ²/(2f(qp)−1) orσ²/f(qp)²≤σ²/(2f(qp)−1) donc

bqn,p est préférable àxn quand1/2<f(qp) D’un point de vue théorique,bq_n,p est préférable àx_n

(40)

Comparaison d’estimateurs (2/2)

2) crit`eres empiriques:

I coût de calcul: la construction debqn,p nécessite le tri des données X1, . . . ,Xn(qui peuvent être distribuée quandnest grand) contrairement àxn qui est on-line⇒

xnest préférable àbqn,pquandnest grand

I Etude de la convergence sur des données simulées: l’intérêt des données simulées est qu’on connaˆıt la valeur de l’objet à estimer.

http://localhost:8888/notebooks/rm_quantile.ipynb Robbins-Monro

I Etude des estimateurs sur des données réelles: cohérence des résultats ; échantillon test.