• Aucun résultat trouvé

Statistiques math´ematiques : cours 7

N/A
N/A
Protected

Academic year: 2022

Partager "Statistiques math´ematiques : cours 7"

Copied!
37
0
0

Texte intégral

(1)

Statistiques math´ ematiques : cours 7

Guillaume Lecu´e

6 septembre 2018

(2)

Cours pr´ ec´ edent (rappels)

1. vocabulaire : accepter, rejeter, zone de rejet, erreur de 1`ere et 2-i`eme esp`eces, niveau d’un test, fonction puissance, p-value, test UPP

2. r´esultat : construction du test de Neyman-Pearson grˆace au rapport de vraisemblance pour les probl`emes de tests `a hypoth`eses simples – propri´et´e UPP des tests de Neyman-Pearson

2/37

(3)

Test UPP dans une famille ` a rapport de

(4)

Rappels sur Neyman-Pearson

On a montr´e que le test de Neyman-Pearson est UPP pour un test de la forme :

H0:θ=θ0 contreH1:θ=θ1

ce test est de la forme ϕα(Z) =

H0 sif(θ1,Z)≤cαf(θ0,Z)

H1 sinon

o`ucα est tel que (quand il y a une solution) Pθ0

f(θ1,Z)>cαf(θ0,Z)

=α Alors :

1. ϕα est de niveauα

2. ϕα est le test le plus puissant parmi tous les tests de niveauα

4/37

(5)

Famille ` a rapport de vraisemblance monotone (1/2)

On va construire un test UPP pour les probl`emes de test de la forme : H0:θ≤θ0 contreH1:θ > θ0

quand le rapport de vraisemblance a une structure particuli`ere.

On consid`ere le cadre suivant :

I E = (Z,Z,{Pθ:θ∈Θ}) : une exp´erience statistique

I Z : une observation dans cette exp´erience

I on suppose que Θ⊂Rest un intervalle ouvert

I le mod`ele est domin´e parµtel quef(θ,z) = dPθ

dµ (z)>0, pour µ-presque toutz ∈Z.

(6)

Famille ` a rapport de vraisemblance monotone (2/2)

D´ efinition

On dit que la famille de densit´es{f(θ,·) :θ∈Θ}est`a rapport de vraisemblance monotones’il existe une statistique T(Z)telle que

∀θ1< θ2, f(θ2,Z)

f(θ1,Z) est une fonction monotone de T(Z) ex. : quandZ = (X1, . . . ,Xn) o`uXi

i.i.d.

∼ N(θ,1), le rapport de vraisemblance pourθ1< θ2

f(θ2,Z)

f(θ1,Z)= expn

σ22−θ1)Xn

exp−n

222−θ12) est une fonction croissante deT(Z) =Xn.

6/37

(7)

Test UPP – th´ eor` eme de Lehmann

Soit{f(θ,·) :θ∈R} une famille v´erifiant les hypoth`eses pr´ec´edentes et `a rapport de vraisemblance monotone, par exemple croissant enT(Z). Soit α∈(0,1). On suppose que pourθ0∈Θ, il existeρ(θ0, α) tel que

Pθ0

T(Z)> ρ(θ0, α)

=α alors le test de r´egion de rejet

R?={z ∈Z:T(z)> ρ(θ0, α)}

est :

1. de niveauα

2. UPP (le plus puissant parmi tous les tests de niveauα) pour le probl`eme de test

H0:θ≤θ0 contreH1:θ > θ0

(8)

Exemple de test UPP

PourZ = (X1, . . . ,Xn) o`uXi i.i.d.

∼ N(θ,1), le rapport de vraisemblance f(θ2,Z)

f(θ1,Z)= expn

σ22−θ1)Xn

exp−n

222−θ12) est une fonction croissante deT(Z) =Xn.

Alors pour le probl`eme de test

H0:θ≤θ0 contreH1:θ > θ0

le test de r´egion de rejet

R?={(x1, . . . ,xn)> ∈Rn: ¯xn> θ0+tn,α} o`utn,α est tel quePθ0[Xn> θ0+tn,α] =α(c`adtn,α=q1−α/√

n), est un test de niveauα, UPP.

8/37

(9)

objectifs : niveau asymptotique et consistance

id´ee : Les tests UPP sont tr`es rares. En g´en´eral, on se contentera de construire des testsϕsatisfaisant deux propri´et´es quand le nombren d’observations tend vers +∞:

1. on dit qu’un test est de niveau asymptotiqueαquand

∀θ∈Θ0, lim sup

n→∞ Pθ[ϕ=H1]≤α 2. on dit qu’un test estconsistantouconvergeantquand

∀θ∈Θ1, lim

n→∞Pθ[ϕ=H1] = 1

(10)

Test de Wald

(11)

Le test de Wald :

hypoth`ese nulle simple

On consid`ere le probl`eme de test

H0:θ=θ0 contreH1:θ6=θ0

Hypoth`ese : on dispose d’un estimateurbθn asymptotiquement normal

√n(bθn−θ)→ Nd 0,v(θ)

etθ7→v(θ)>0 estcontinue.

SousH0 (c`ad quandZ ∼Pθ0) : on ala convergence s n

v(bθn) θbn−θ0

d

−→ N(0,1)

Rem. : on peut prendrev(θ0) `a la place dev(bθn) (carH0est une hypoth`ese simple).

(12)

Test de Wald :

comportement sousH0 etH1

sousH0:

Tn=n(bθn−θ0)2 v(bθn)

−→d χ2(1)

sousH1:∀θ∈Θ1(c`adθ6=θ0),

Tn−→Pθ +∞

On va utiliserTncomme statistique de test et, au vue du comportement deTn sousH1, on consid`ere des tests de la forme

ϕα=

H0 quandTn≤tn,α

H1 sinon

Pour d´eterminer le seuiltn,α, on regarde le comportement sousH0: soit q1−αχ2(1), le quantile d’ordre 1−αd’uneχ2(1), on choisit

tn,α=qχ1−α2(1)

12/37

(13)

Propri´ et´ es du test de Wald

Proposition

Le test de Wald de l’hypoth`ese simpleθ=θ0contre l’alternativeθ6=θ0 bas´e sur l’estimateur a.n.θbn est

I de niveau asymptotique α: Pθ0

ϕα=H1

−→α

I convergeant(ouconsistant) : pour toutθ6=θ0 Pθ

ϕα=H1

−→1

(14)

Preuve

I niveau asymptotiqueα:par construction

I Contrˆole de la puissance : Soitθ6=θ0. On a, sousPθ, (bθn−θ0)

v(bθn)

Pθ

−→ (θ−θ0)2 v(θ0) >0 et comme

Tn=n(bθn−θ0) v(bθn) alorsTn Pθ

−→+∞et donc, quandntends vers +∞

Pθ

ϕα=H1

=Pθ

Tn>qχ1−α2(1)

−→1

14/37

(15)

Test de Wald :

hypoth`ese nulle composite

I Mˆeme contexte : Θ⊂Rd et on dispose d’un estimateurθbn

asymptotiquement normal :

√n θbn−θ d

−→ N 0,V(θ) o`uV(θ) estd´efinie positiveet continue en θ.

I But : TesterH0:θ∈Θ0contreH1:θ /∈Θ0, o`u Θ0=

θ∈Θ, g(θ) = 0 et

g :Rd→Rm est r´eguli`ere.

(16)

Test de Wald :

comportement sousH0

I Hypoth`ese : le gradient∇g(θ) de g est tel que θ∈Θ7→Σg(θ) =∇g(θ)>V(θ)∇g(θ) est continue et inversible en tout point θ.

Proposition

Pour toutθ∈Θ0 (i.e.sous H0), on a :

I

ng(bθn)−→ Nd 0,Σg(θ)

I

Tn=ng(bθn)TΣg(bθn)−1g(bθn)−→d χ2(m)

I Preuve : m´ethodedeltamultidimensionnelle.

16/37

(17)

Test de Wald : propri´ et´ es

Proposition

Sous les hypoth`eses pr´ec´edentes, le test ϕα=

(

H0 si Tn≤qχ1−α2(m) H1 sinon pour qχ1−α2(m), quantile d’ordre1−αd’uneχ2(m), est

I de niveau asymptotiqueα:∀θ∈Θ0, Pθ

ϕα=H1

→α

I Convergeant:∀θ /∈Θ0, Pθ

ϕα=H1

→1

(18)

Tests d’ad´ equation

(19)

Probl` eme de test d’ad´ equation

Situation : On observe unn-´echantillon de loi (cdf)F inconnue X1, . . . ,Xn

i.i.d.

∼ F

et on se donne une loi (cdf)F0(ex. :F0 cdf d’uneN(0,1))

But : Tester

H0:F =F0 contre H1:F 6=F0

Ce type de probl`eme de test est appel´e :probl`eme de test d’ad´equation

(20)

Test (d’ad´ equation) de Kolmogorov-Smirnov

(21)

Test de Kolmogorov-Smirnov

I Rappel : Si la fonction de r´epartitionF est continue alors

√n Fbn−F

−→d K o`u la loi deK ne d´epend pas deF (cf. cours1)

Proposition (Test de Kolmogorov-Smirnov)

Soit q1−αK tel queP

K >qK1−α

=α. Le test d´efini par ϕα=

H0 si Tn≤q1−αK

H1 sinon pour Tn=√

n||bFn−F0||

estde niveau asymptotique α:PF0

ϕα=H1

→αetconsistant:

∀F 6=F0:PF

ϕα=H1

→1

(22)

Tests d’ad´ equation du χ

2

(23)

Test du Chi-deux

I X variable qualitative:X ∈ {1, . . . ,d}

P X =`

=p`, `= 1, . . .d.

I La loi de X est carat´eris´ee parp= (p1, . . . ,pd)T

I Notation Md=

p= (p1, . . . ,pd)T:p`≥0,

d

X

`=1

p`= 1

I Objectif: A partir d’unn-´echantillonX1, . . . ,Xn i.i.d.

∼ p,et d’une loi q∈ Md donn´ee on veut tester

H0:p=q contreH1:p6=q

(24)

Construction

naturelle

d’un test

I Comparaison des fr´equences empiriques

bpn,`= 1 n

n

X

i=1

I(Xi=`) proche de q`, `= 1, . . . ,d?

I Loi forte des grands nombres : sous H0, bpn,1, . . . ,bpn,d p.s.

−→(p1, . . . ,pd) =p.

I Th´eor`eme central-limite Un(p) =√

n

bpn,1−p1

√p1

, . . . ,bpn,d−pd

√pd

d

−→?

I Composante par composante : oui. Convergence globale plus d´elicate (coordonn´ees d´ependantes) :TCL multidimensionel

24/37

(25)

Statistique du Chi-deux

Proposition

Si les composantes depsont toute non-nulles

I On a laconvergence en loisousPp

Un(p)−→ Nd 0,V(p) avec V(p) =Idd−√

p √ pT

et√ p= (√

p1, . . . ,√ pd)T

I De plus

kUn(p)k22=n

d

X

`=1

(bpn,`−p`)2 p`

−→d χ2(d−1)

(26)

Preuve de la normalit´ e asymptotique

I Pour i= 1, . . . ,net 1≤`≤d, on pose Y`i= 1

√p` I(Xi =`)−p`

I Les vecteurs Yi = (Y1i, . . . ,Ydi) sonti.i.d.et Un(p) = 1

√n

n

X

i=1

Yi,

E Y`i

= 0, E (Y`i)2

= 1−p`,E Y`iY`i0

=−(p`p`0)1/2

I On applique le TCL vectoriel

26/37

(27)

Convergence de la norme au carr´ e

I On a donc, sous H0, Un(p)−→ Nd 0,V(p)

I et aussi, parCochran,

kUn(p)k22−→ kNd 0,V(p)

k22∼χ2 d−1 V(p) =Idd−√

p √ pT

est la projection orthogonale sur vect{√

p} qui est de dimensiond−1

(28)

Test d’ad´ equation du χ

2

I distancedu χ2:

χ2(p,q) =

d

X

`=1

(p`−q`)2 q` .

I Avec ces notationskUn(q)k22=nχ2(bpn,q).

Proposition

Pourq∈ Md le test d´efini par ϕα=

(

H0 si nχ2(bpn,q)≤q1−αχ2(d−1)

H1 sinon

est deniveau asymptotiqueαetconsistantpour tester H0:p=q contre H1:p6=q

28/37

(29)

Exemple de mise en oeuvre : exp´ erience de Mendel

I Soitd= 4 et

q= 9 16, 3

16, 3 16, 1

16

.

I fr´equence empirique:n= 556 bp556= 1

556(315,101,108,32).

I Calcul de la statistique duχ2

556×χ2(bp556,q) = 0,47.

I On aq95%χ2(3)= 7.815.

I Conclusion : Puisque 0.47<7.815, on accepte l’hypoth`esep=q au niveauα= 5%. De plus, la p-value vaut 0.93 : tr`es grand niveau de confiance en l’acceptation.

(30)

Test d’ind´ ependance du χ

2

(31)

Probl` ematique

donn´ees/mod`ele : on observe unn-´echantillon de couples de variables al´eatoiresqualitatives

(X1,Y1), . . . ,(Xn,Yn)i.i.d.∼ (X,Y)∈ {1, . . . ,d1} × {1, . . . ,d2} La loip de (X,Y) appartient `a

Md1,d2=

p= (p`,`0)1≤`≤d1

1≤`0≤d2

: 0≤p`,`0,X

`,`0

p`,`0 = 1

On consid`ere le probl`eme de test suivant :

H0:P(X,Y)=PX⊗PY contreH1:P(X,Y)6=PX⊗PY

(32)

principe du test d’ind´ ependance du χ

2

(1/2)

On a l’´equivalence :

P(X,Y)=PX⊗PY ⇔ ∀`, `0,p`,`0 =p`,•×p•,`0 o`u

p`,`0 =P[(X,Y) = (`, `0)], p`,•=P[X =`], p•,`0 =P[Y =`0] On estime ces quantit´es par leurs fr´equences empiriques :

ˆ p`,`(n)0 = 1

n

n

X

i=1

I[(Xi,Yi) = (`, `0)]

ˆ p`,•(n) =1

n

n

X

i=1

I[Xi=`] ˆp•,`(n)0 = 1 n

n

X

i=1

I[Yi =`0]

32/37

(33)

principe du test d’ind´ ependance du χ

2

(2/2)

Id´ee :

1. On aimerait pouvoir tester si la loi du couple (X,Y) est ´egale `a PX⊗PY, on ferait alors un test d’ad´equation.

2. Mais, on ne connaˆıt pas la loiPX⊗PY, on va doncl’estimerpar ˆ

p`,•(n)×pˆ(n)•,`0

1≤`≤d1

1≤`0≤d2

3. on peut alors faire un test d’ad´equation duχ2 par rapport `a cette loi estim´ee. La statistique de test est

2

(ˆp(n)`,`0)`,`0,(ˆp`,•(n)×pˆ•,`(n)0)`,`0

(34)

Comportement de la statistique de test sousH0 et sousH1

On utilise la statistique de test Tn=nχ2

(ˆp`,`(n)0)`,`0,(ˆp(n)`,•×ˆp(n)•,`0)`,`0

pour construire le test d’ind´ependance duχ2. Son comportement sous les deux hypoth`eses est donn´e par :

SousH0 :

Tn

−→d χ2 (d1−1)(d2−1) SousH1 :

Tn

−→p.s. +∞

On regarde donc des tests de la forme ϕα=

H0 siTn≤tn,α H1 sinon

et le seuiltn,α est donn´e par la loi limite deTn sousH0

34/37

(35)

test d’ind´ ependance du χ

2

Theorem

Pour toutα∈(0,1), le test ϕα=

(

H0 si Tn≤q1−αχ2((d1−1)(d2−1))

H1 sinon

o`u q1−αχ2((d1−1)(d2−1)) est le quantile d’ordre1−αd’une

χ2((d1−1)(d2−1)), est deniveau asymptotiqueαetconsistant

(36)

Exemple :

test d’ind´ependance entre revenus et nombre d’enfants Cat´egories de revenus : I (faible) `a IV (´elev´e)

nb. enfants I II III IV total ligne

0 2161 3577 2184 1636 9558

1 2755 5081 2222 1052 11110

2 936 1753 640 306 3635

3 225 419 96 38 778

≥4 39 98 31 14 182 tot. col. 6116 10928 5173 3016 25263 On obtient :

Tn=nχ2

(ˆp`,`(n)0)`,`0,(ˆp`,•(n)×pˆ(n)•,`0)`,`0

=n X

`∈{0,1,2,3,”≥4”}

`0∈{I,II,III,IV}

ˆ

p`,`(n)0−ˆp(n)`,•ˆp•,`(n)0

2

ˆ p(n)`,•ˆp•,`(n)0

= 568.5

36/37

(37)

Table des quantiles d’une χ

2

(12)

On a ici (d1−1)(d2−1) = (5−1)(4−1) = 12. On regarde alors les quantiles

q1−αχ2(12)

α 0,2 0,1 0,05 0,02 0,01 0,005 0,001 q1−αχ2(12) 15,8 18,5 21,0 24,0 26,2 28,2 32,9 Python :

> from scipy.stats import chi2

> 1-chi2.cdf(100, 12) 5.5e-16

Ici la statistique du test vautTn= 568.5donc la p-value est plus petite que 5.5.10−16. Alors on rejete avec confiance. Il y a donc une tr`es forte d´ependance entre le nombre d’enfants et les revenus.

Références

Documents relatifs

Au sein de ce campus, les math´ ematiciens des deux Universit´ es entretiennent des relations, qui sont devenues de plus en plus ´ etroites, notamment dans le cadre des laboratoires

[r]

Rupture de modèles : loi asymptotique des statistiques de tests et des estimateurs du maximum de vraisemblance.. Annales scientifiques de l’Université de Clermont-Ferrand 2, tome

1. Construire des mod` eles statistiques pour des donn´ ees classiques 2. Connaˆıtre leurs propri´ et´ es statistiques et les outils math´ ematiques qui permettent de les

si les points sont “approximativement” align´ es avec une droite affine alors l’hypoth` ese est vraie ` a une transformation de centrage et.1. convergence des

I On g´ en´ eralise le principe pr´ ec´ edent pour une famille de lois et un ensemble de param` etres quelconque. I Situation : X

(Ch. 4) et nous essaierons de lui appliquer le test de Neyman et Pearson

Construire dans un rep`ere orthonormal, la courbe repr´esentative de la fonction exponentielle, puis tracer sa tangente au point d’abscisse