• Aucun résultat trouvé

Statistiques math´ematiques : cours 2

N/A
N/A
Protected

Academic year: 2022

Partager "Statistiques math´ematiques : cours 2"

Copied!
40
0
0

Texte intégral

(1)

Statistiques math´ ematiques : cours 2

Guillaume Lecu´e

29 aoˆut 2018

(2)

R´ ef´ erences

1. Cours:

I V. Rivoirard et G. Stoltz, ”Statistiques en action”

I P.J. Bickel et K. Doksum, ”Mathematical statistics”

I A. Montfort, ”Cours de statistique math´ematique”

2. Exercices:

I J.J. Daudin, S. Robin et C. Vuillet, ”Statistique inf´erentielle. Id´ees, d´emarches, exemples”

I D. Fourdrinier, ”Statistiques inf´erentielle : cours et exercices corrig´es”

I B. Cadre et C. Vial, ”Statistique Math´ematique Cours et Exercices Corrig´es”

(3)

Cours pr´ ec´ edent (rappel)

I Exp´erience statistique,mod´ele statistique, ´echantillonnage

I Fonction de r´epartition empirique :

Fbn(x) = 1 n

n

X

i=1

I Xi ≤x

, x∈R

et quelques propri´et´esasymptotiques: Fbn(x)−→p.s. F(x),

Fbn−F

−→p.s. 0 (G.C.) leurs vitesses de convergence :

√n Fbn(x)−F(x) d

−→ N(0,F(x)(1−F(x))),

√n

Fbn(x)−F(x)

−→d K (K.S.)

(4)

Aujourd’hui

Estimateur “plug-in” et la m´ethode delta

Quantiles empiriques et applications

Un algorithme ”on-line” : Robbins-Monro

(5)

Estimation de fonctionnelles dans le mod`ele d’´echantillonnage

I Objectif :estimation d’une caract´eristique scalaireT(F) d’une loi inconnue de fonction de r´epartitionF `a partir d’unn-´echantillon X1, . . . ,Xn

i.i.d.

∼ X ∼F de cette loi donn´ees :X1, . . . ,Xn

i.i.d.

∼ F probl`eme :estimerT(F)

I Exemples

I D´ej`a vu : valeur en un pointT(F) =F(x) =EI(X ≤x)

I Fonctionnelle r´eguli`ere :

T(F) =h Z

R

g(x)dF(x)

=h Eg(X) o`ug,h:R→Rsontr´eguli`eresetX ∼F

(6)

Exemples de fonctionelles r´ eguli` eres

I Moyenne : T(F) =m(F) =R

RxdF(x) =EX.

I Variance :

T(F) =σ2(F) = Z

R

x−m(F)2

dF(x) =E X−EX2 I Asym´etrie (skewness) :

T(F) =α(F) = R

R x−m(F)3

dF(x)

σ3(F) = E(X−EX)3

σ3(F)

I Aplatissement (kurtosis) :

T(F) =κ(F) = R

R x−m(F)4

dF(x)

σ4(F) =E X −EX4

σ4(F)

(7)

Exemples de fonctionnelles non reguli` eres

D´ efinition

Soit X une v.a.r. (de cdf F ) et0<p<1. On appelle quantile d’ordre p de X (resp. F ) :

qp(F) = inf{x∈R:F(x)≥p}

I quandF estcontinue et strictement croissantelequantile d’ordre p de la loiF est l’unique solution de

F(qp) =p ( c`ad qp=F−1(p) ).

I lam´ediane=med(F) =q1/2(F)

I lesquartiles ={q1/4(F),med(F),q3/4(F)}

(8)

Estimateur “plug-in”

D´ efinition

On appelle estimateur “plug-in” (c`ad “par substitution”) de T(F) l’estimateurT(bFn).

I quandT(F) =h Eg(X)

alors l’estimateurplug-inde T(F) est :

T(bFn) =h1 n

n

X

i=1

g(Xi)

I quandT(F) =qp(F) = inf{x∈R:F(x)≥p}, l’estimateurplug-in est lequantile empirique:

T(bFn) = inf{x ∈R:Fbn(x)≥p}

(9)

Performances asymptotiques de l’estimateur plug-in pour l’estimation de fonctionnelles r´eguli`eres de la formeT(F) =h Eg(X)

Convergence (consistance): sig,h:R→R, hcontinue et E|g(X)|<∞, alorsT(bFn)p.s.→ T(F) (LFGN + continuous map theorem).

Vitesse de convergence (normalit´e asymptotique): 1. TCL :

√n1 n

n

X

i=1

g(Xi)−Eg(X) d

−→ N 0,Var g(X) o`u Var

g(X)

=E

(g(X)−Eg(X))2 2. On a un r´esultat du type√

n(Zn−c1)−→ Nd (0,c2). Comment transf´erer ce r´esultat `a√

n(h(Zn)−h(c1))−→d ?

(10)

Vitesse de convergence deT(Fbn) versT(F) =h(Eg(X))

Th´ eor` eme (M´ ethode

delta

)

Soit(Zn)une suite de v.a.r. et V une v.a.r. telles que an(Zn−c0)−→d V

o`u(an)est une suite de r´eels positifs tendant vers+∞et c0 est une constante. Soit h:R→Rune fonctioncontinue et d´erivable en c0. Alors

an h(Zn)−h(c0) d

−→h0(c0)V

(11)

M´ ethode Delta

1. si √

n(Zn−c1)→ Nd (0,c2) ethd´erivable enc1alors

√n h(Zn)−h(c1) d

→ N 0,c2[h0(c1)]2 2. si V ∼ N(µ,v) eta∈RalorsaV ∼ N(aµ,a2v).

3. l’id´ee centrale de la preuve de la m´ethode Delta est un d´eveloppement limit´e dehen c0 : quandn→ ∞

an(h(Zn)−h(c0))≈h0(c0)

an(Zn−c0)

≈h0(c0)V

(12)

Conclusion :

normalit´e asymptotique de l’estimateur plug-in dans le cas de fonctionnelles reguli`eresT(F) =h(Eg(X))

Proposition

SiE[g(X)2]<+∞et h est une fonction continue et d´erivable en Eg(X), alors

√n T(bFn)−T(F) d

→ N 0,v(F) , o`u v(F) =h0 E

g(X)2

Var g(X)

.

Pour construire unintervalle de confiance, on aimerait remplacerv(F) parv(bFn) : quandhestC1, on montre quev(bFn)→P v(F)et, via le lemme de Slutsky,

√nT(bFn)−T(F) v(bFn)1/2

→ Nd 0,1

(13)

Application de la m´ethode Delta : stabilisation de la variance

SoitX1, . . . ,Xnun n-´echantillon de loi Exponentielle de param´etre θ∈[0,1].

I densit´ef(θ,x) =θexp(−θx)I(x>0), moyenneEθX = 1/θ, varianceVarθX = 1/θ2

I TCL :√

n X¯n−1/θ d

→ N(0,1/θ2)

I Pb. :La variance asymptotique d´epend du param`etre inconnuθ

I M´ethode Delta : sihestC1alors :

√n h( ¯Xn)−h(1/θ) d

→ N 0,(h0(1/θ))22

I en particulier pourh(θ) = log(θ), on a

√n h( ¯Xn)−h(θ) d

−→ N(0,1)

(14)

Application : stabilisation de la variance (Bernoulli)

SoitX1, . . . ,Xnun n-´echantillon dans le mod`ele de Bernoulli de param´etreθ∈[0,1].

I TCL :√

n X¯n−θ d

→ N(0, θ(1−θ))

I La variance asymptotique d´epend du param´etre inconnuθ

I M´ethode Delta : sihestC1alors :

√n h( ¯Xn)−h(θ) d

→ N 0,(h0(θ))2θ(1−θ)

I en particulier pourh(θ) = 2arcsin(√ θ), on a

√n h( ¯Xn)−h(θ) d

−→ N(0,1)

(15)

En dimension k > 1

I Il s’agit de fonctionnelles de la forme

T(F) =h(Eg1(X), . . . ,Egk(X)) o`uh:Rk →RestC1.

I Exemple : le coefficient d’asym´etrie T(F) = E(X −EX)3

σ3 =h(EX,EX2,EX3) o`uσest l’´ecart-type deX.

I Outil : Version multidimensionnelle 1. du TCL

2. de lam´ethode delta.

(16)

TCL et m´ ethode

delta

multidimensionnelle

I TCL multidimensionnel :(Xn)n≥1vecteurs al´eatoires dansRk, i.i.d., de moyenne µ=E[X1] et de matrice de variance-covariance Σ =E

(X1−µ)(X1−µ)>

. Alors ¯Xn=1nPn

i=1Xi v´erifie :

√n Xn−µ d

→ N 0,Σ

I M´ethodedeltamultidimensionnelle : Si, de plus,h:Rk →Rd continˆument diff´erentiable, alors

√n h(Xn)−h(µ) d

→ N

0,∇h(µ)>Σ∇h(µ) .

rem. : si A∈Rk×d etG ∼ Nk(µ,Σ) alorsA>G ∼ Nd(A>µ,A>ΣA)

(17)

Notations : gradient et Jacobien (1/2)

h:









Rk → Rd x 7→

 h1(x)

... hd(x)

alors ∇h(x) = ∇h1(x) ∇h2(x) · · · ∇hd(x)

∈Rk×d

o`u∇hj(x) =

x1hj(x) ...

xkhj(x)

∈Rk, j= 1, . . . ,d tel queh1(x+v)≈h1(x) +

∇h1(x),v

=h1(x) +∇h1(x)>v et de mˆeme

h(x+v)≈h(x) +∇h(x)>v.

>

(18)

Notations : gradient (2/2)

Par exemple :

1. pour h(x) =Ax o`uA∈Rd×k, on a :

∇h(x) =A>

2. pour h(x) =kAxk22, on a :

∇h(x) = 2A>Ax 3. pour h(x) =ky−Axk22, on a :

∇h(x) =−2A>(y−Ax)

(19)

Application : normalit´ e asymptotique de la variance empirique

I variance :on a

T(F) =h EX,EX2 avec

h(α, β) =β−α2

I l’estimateur plug-inest

T(bFn) =h 1 n

n

X

i=1

Xi,1 n

n

X

i=1

Xi2

!

I On applique leTCL multidimensionnelavecXi = (Xi,Xi2)> et µ= EX,EX2>

, puis lam´ethode “Delta”avech.

(20)

Application : coefficient d’asym´ etrie

I Coefficient d’asym´etrie : on a T(F) =h

EX,EX2,EX3 avec

h(α, β, γ) = γ−3αβ+ 2α3 (β−α2)3/2 .

I l’estimateur plug-inest T(bFn) =h1

n

n

X

i=1

Xi,1 n

n

X

i=1

Xi2,1 n

n

X

i=1

Xi3 .

I On applique leTCL multidimensionnelavecXi = (Xi,Xi2,Xi3)> et µ= EX,EX2,EX3>

, puis lam´ethodedelta avech.

(21)

Quantiles th´ eoriques et empiriques

Quantile ”th´eorique” d’ordrep :

T(F) =qp(F) = inf{x∈R:F(x)≥p}

Quantileempiriqued’ordrep :

T(bFn) =bqn,p= inf{x ∈R:Fbn(x)≥p}

Question : Quelles sont les propri´et´es statistiques d’estimation deqp(F) parbqn,p? (Pb. : on n’est plus dans le cas r´egulier)

(22)

Quantiles empiriques : expression explicite par les statistiques d’ordre

D´ efinition

Soit X1, . . . ,Xnun n-´echantillon de v.a.r.. On appellestatistiques d’ordre les n statistiques X(1), . . . ,X(n) construites telles que

X(1)≤ · · · ≤X(n)

1. pour le quantile d’ordre 0<p<1 :

bqn,p=X(k)=X(dnpe) quand k−1

n <p≤ k n 2. en particulier, la m´ediane empirique v´erifie :

bqn,1/2=med(bFn) =X(dn/2e) o`udte= min(n∈N:n≥t)

(23)

Le boxplot :

repr´esentation synth´etique de la dispersion de donn´ees r´eelles

q q

Xn,1/4n,1/2n,3/4 X

fin de la “moustache” (whiskers) :

X= min{Xi :|Xi−ˆqn,1/4| ≤1,5In}, X= max{Xi:|Xi−qˆn,3/4| ≤1,5In}.

Intervalle interquartile :

In= ˆqn,3/4−ˆqn,1/4.

Les donn´ees au-del`a des whiskers sont consid´er´ees comme outliers.

(Il existe d’autres variantes)

(24)

Exemple d’application du boxplot

http://localhost:8888/notebooks/box_qqplots.ipynbBox-plot

(25)

Le qq-plot : test d’ad´ equation ` a une loi

Etant donn´e unn-´echantillon X1, . . . ,Xn et une cdfFref, on veut tester si l’hypoth`ese suivante est acceptable :

(H0) “LesXi sont distribu´es selon Fref

Pour “accepter ou refuser visuellement” cette hypoth`ese, on peut tracer le qq-plot : c’est lenuage de points

qi/(n+1)(Fref),bqn,i/(n+1)n

i=1=

qi/(n+1)(Fref),X(i)n

i=1

1. si le nuage de points est “approximativement” align´e avec la droite y =x alors l’hypoth`ese est accept´ee (on trace aussi la droitey =x sur un qq-plot)

2. si les points sont “approximativement” align´es avec une droite affine alors l’hypoth`ese est vraie `a une transformation de centrage et

(26)

convergence des quantiles empiriques

Th´ eor` eme

Soit X une v.a.r. (on note par F sa cdf) admettant une densit´e fX par rapport `a la mesure de Lebesgue. On suppose quefX est strictement positive p.s. sur un intervalle I ⊂Ret nulle en dehors. Soit0<p<1.

On a

bqn,p

−→p.s. qp(F) =qp

Si de plus la densit´efX de X admet une version continue en qp alorsbqn,p est asymptotiquement Gaussien :

√n bqn,p−qp d

−→ N

0,p(1−p) fX(qp)2

(27)

Convergence des quantiles empiriques

Lavariance asymptotiquedebqn,p est p(1−p)

fX(qp)2 La quantit´efX(qp) est inconnue.

I Comme bqn,p estfortement consistantetfX est continue enqp, fX(bqn,p)−→p.s. fX(qp)

On peut donc ”remplacer”qp parbqn,p grˆace `a Slustky :

√nfX(bqn,p)

pp(1−p) bqn,p−qp d

−→ N(0,1)

I MaisfX(bqn,p) est aussi inconnue ! (probl`eme d’estimation de densit´e)

(28)

Limites de l’approche ”plug-in”

L’estimation deT(F) parT(bFn) n’est pas toujourspossible:

I Exemple : siF admet une densit´ef continue par rapport `a le mesure de Lebesgue qu’on souhaite estimer en un x0donn´e :

T(F) =f(x0) =F0(x0),

on nepeut pas prendrecomme estimateurFbn0(x0) carFbn est constante par morceaux.

L’estimation deT(F) parT(bFn) n’est pas toujourssouhaitable:

I Souvent on dispose d’information a priorisuppl´ementaire :F appartient `a une sous-classe particuli`ere de distributions (le mod´ele) et il y a des choix plus judicieux que l’estimateur par plug-in (cf.

cours suivants).

(29)

Un algorithme ”on-line” : Robbins-Monro

(30)

”Batch” vs ”on-line”

Il existe principalement deux mani`eres de g´en´erer/recevoir des donn´ees :

I ”batch”: les donn´ees sont toutes obtenues en une seule fois (ex. : jeux de donn´ees)

I ”on-line”: les donn´ees sont obtenues les unes `a la suite des autres (ex. : donn´ees en temps r´eel)

Remarque :

1. Fbn etbqn,α sont des estimateurs ”batch”

2. on peut regarder les donn´ees ”batch” commme des donn´ees

”on-line” (cf. vowpal wabbit)

(31)

Estimation ”on-line” des quantiles

Question : ebay souhaite connaˆıtre le 95-i`eme pourcentile des montants de transaction sur son site.

Deux strat´egies :

1. ”batch”: on reprend tous les achats pass´es sur eBay depuis sa cr´eation et on calcul bqn,95/100. Probl`eme :nest tr`es grand ! 2. ”on-line”: `a chaque nouvel achat, on actualise un estimateur (en

temps r´eel).

Rem. :De nombreux estimateurs on-line sont adapt´es d’algorithmes d’optimisation convexe it´eratifs comme ladescente de gradient.

(32)

Descente de gradient / m´ ethode de Newton

Probl`eme : trouver un z´ero d’une fonctionf croissante etC1: trouver x tel que

f(x) = 0

La m´ethode de Newton est une m´ethode it´erative : Init :x0∈Rwhilestopping criteriado

1. on fait une DL de f en xk :

f(x)≈f(xk) +f0(xk)(x−xk)

2. on r´esoudf(xk) +f0(xk)(x−xk) = 0 (au lieu def(x) = 0) : xk+1=xk − f(xk)

f0(xk) end

(33)

Descente de gradient / m´ ethode de Newton

1. Crit`ere d’arrˆet (pour donn´e) :

|f(xk)| ≤ou|xk+1−xk| ≤

2. Quand la fonction n’est pas d´erivable ou que la d´eriv´ee est difficile `a calculer, on remplacef0(xk) parη−1k (step size)

3. chercher le minimum d’une fonction convexehc’est chercher un z´ero d’une fonction croissanteh0 : m´ethode de Newton = descente de gradient

xk+1=xk− h0(xk) h00(xk)

(et si h00n’existe pas ou difficile `a calculer : h00(xk)↔η−1k )

(34)

Estimation ”on-line” des quantiles par Robbins-Monro (1/2)

SoitX une v.a.r. admettant une densit´ef strictement positive sur une intervalleI ⊂Ret nulle en dehors de cet intervalle. On note parF la cdf deX.

1. F est d´erivable surR:F0=f p.p.

2. F est strictement croissante surI

3. soit p∈(0,1), le quantile d’ordrepdeX est l’unique solution de F(x)−p= 0

On est donc amen´e `a trouver le z´ero d’une fonction d´erivable strictement croissante : on peut utiliser la m´ethode de Newton

(35)

Estimation ”on-line” des quantiles par Robbins-Monro (2/2) L’algorithme de Newton est

xk+1=xk−F(xk)−p f(xk) Probl`emes :

1. f est inconnu : f(xk)↔η−1k (step size)

2. F est inconnue : on ´ecritF(xk) =EI(X ≤xk) et on”estime”F(xk) parI(Xk+1≤xk)grˆace `a la nouvelle donn´eeXk+1

On obtient l’algorithme de Robbins-Monro (1954) : xk+1 =xk −ηk(I(Xk+1≤xk)−p)

(36)

Robbins-Monro / descente de gradient stochastique

L’algorithme de Robbins-Monro(RM) pour l’estimation du quantile d’ordrep∈(0,1) est le suivant :

Data:X1, . . . ,Xnv.a.r.i.i.d.

Init :x0∈(0,1), (ηk)k une suite de nombre r´eels positifs fork = 0, . . . ,ndo

xk+1=xk −ηk I(Xk+1≤xk)−p end

1. ´ecriture en pseudo-code 2. algorithmeit´eratif

3. (ηk)k est appel´e lestep size. Par exemple :

ηk =k−a, o`ua∈(1/2,1] (ou ”line search”) 4. x0 starting point (cf. ”warm start”)

(37)

Convergence de l’algorithme de RM pour l’estimation de quantile

Th´ eor` eme

Soit p∈(0,1)et X une v.a.r. dont la cdf F v´erifie : 1. F est continue

2. il existe un unique qp∈Rtel que pour tout x6=qp, (x−qp) F(x)−p

>0

Soit(Xk)k i.i.d.∼ X . Alors, la suite it´erative de RM (xk)k o`u x0∈Ret xk+1=xk −ηk(I(Xk+1≤xk)−p)converge presque surement vers qp quand le step size(ηk)k v´erifie :

X

k

ηk = +∞et X

k

η2k <+∞

(38)

Vitesse de convergence de RM

Th´ eor` eme

Si de plus F estC2 alors pour f =F0 (densit´e de X ) etσ2=p(1−p), quand n→ ∞:

1. si f(qp)>1/2alors

√n xn−qp)−→ Nd

0, σ2 2f(qp)−1

2. si f(qp) = 1/2alors r n

logn

xn−qp

d

−→ N(0, σ2)

3. si0<f(qp)<1/2alors nf(qp) xn−qp d

−→Z o`u Z est une variable al´eatoire born´ee p.s..

(39)

Comparaison d’estimateurs (1/2)

Probl`eme : Dans le cadre ”batch”, on a construit deux estimateurs du quantileqp(F) :bqn,p etxn (RM) lequel choisir ?

1) crit`eres th´eoriques (asymptotique):

I les deux estimateurs sont fortementconsistants

I lavitesse de convergencedebqn,pest toujours en 1/√

nalors que celle dexnse d´egrade quandf(qp)≤1/2⇒

bqn,p est pr´ef´erable `axn quandf(qp)≤1/2

I quand 1/2<f(qp),bqn,p etxn sont tous les deux asymptotiquement normaux de vitesse de convergence en 1/√

nmais leursvariances asymtotiquessont

? pourbqn,p:σ2/f(qp)2

? pourxn:σ2/(2f(qp)1) orσ2/f(qp)2≤σ2/(2f(qp)−1) donc

bqn,p est pr´ef´erable `axn quand1/2<f(qp) D’un point de vue th´eorique,bqn,p est pr´ef´erable `axn

(40)

Comparaison d’estimateurs (2/2)

2) crit`eres empiriques:

I coˆut de calcul: la construction debqn,p n´ecessite le tri des donn´ees X1, . . . ,Xn(qui peuvent ˆetre distribu´ee quandnest grand) contrairement `axn qui est on-line⇒

xnest pr´ef´erable `abqn,pquandnest grand

I Etude de la convergence sur des donn´ees simul´ees: l’int´erˆet des donn´ees simul´ees est qu’on connaˆıt la valeur de l’objet `a estimer.

http://localhost:8888/notebooks/rm_quantile.ipynb Robbins-Monro

I Etude des estimateurs sur des donn´ees r´eelles: coh´erence des r´esultats ; ´echantillon test.

Références

Documents relatifs

c’est appliquer la tactique R´ e´ ecrire de fa¸con intelligente jusqu’` a obtenir une forme que tout le monde est d’accord pour trouver optimale. On peut donner un sens pr´ ecis `

On ne peut comparer deux proportions `a partir des effectifs des sous-populations que si les deux sous-populations sont issues d’une mˆeme population (ou de deux populations de

On ne peut comparer deux proportions `a partir des effectifs des sous-populations que si les deux sous-populations sont issues d’une mˆeme population (ou de deux populations de

La donn´ee d’une s´erie statistique `a deux variables x et y permet de construire un diagramme appel´e nuage de points constitu´e des points de coordonn´ees (x i ; y i ) o `u x i et

Dans une s´erie statistique de type quantitatif, la m´ediane est une valeur du caract`ere qui s´epare la population en deux groupes de mˆeme effectif : ceux dont la valeur du

C’est l’outil essentiel pour le calcul explicite des int´ egrales multiples, car il ram` ene le calcul des int´ egrales doubles au calcul des int´ egrales simples, et celui des

Compte tenu du Th´ eor` eme 1.9, un examen au cas par cas (deux racines r´ eelles distinctes, une racine r´ eelle double ou deux racines complexes non r´ eelles mais conjugu´

Théorème 14.3.4 Soient (u k ) k∈I et (v k ) k∈I deux familles sommables de réels ou complexes, et soit α et β deux scalaires (réels ou complexes).. La série de terme général