• Aucun résultat trouvé

Statistique inf´erentielle Tests

N/A
N/A
Protected

Academic year: 2022

Partager "Statistique inf´erentielle Tests"

Copied!
102
0
0

Texte intégral

(1)

Tests

A. Godichon-Baggioni

(2)

I. G´en´eralit´es

(3)

P RINCIPE D ’ UN TEST

Le principe d’un test consiste `a

1. Poser une hypoth`ese nulle H0 contre une hypoth`ese alternative H1

2. A l’aide d’un mod`ele probabiliste, d´efinir une zone de rejet de l’hypoth`ese nulle H0

3. Regarder si le r´esultat exp´erimental est dans cette zone de rejet

4. Si le r´esultat est dans la zone de rejet, on rejette l’hypoth`ese H0.

5. Si le r´esultat n’est pas dans la zone de rejet, on ne rejette pas l’hypoth`ese H0.

Attention ! La s´emantique est importante.

(4)

E XEMPLE

Le lancer de pi`ece : On souhaite savoir si la pi`ece est

´equilibr´ee. On jette 10 fois une pi`ece et on obtient 9 ”Face”. Un test permet de dire avec un certain risque si cette proportion de

”Face” est seulement due `a la fluctuation d’´echantillonnage ou bien si la pi`ece est truqu´ee.

(5)

E TAPES D ’ UN TEST STATISTIQUE

On dispose dendonn´eesx1, . . . ,xnqui sont des r´ealisations de variables qualitatives ou quantitatives et on fixe un risque α∈(0,1).

I Introduire un mod`ele probabiliste

On peut supposer que lesxisont des r´ealisations de variables al´eatoires ind´ependantesX1, . . . ,Xn(ce qui est le cas pour le lancer de pi`ece)

I Les hypoth`eses nulles et alternatives : disposant d’un mod`ele probabiliste, on souhaite v´erifier une hypoth`ese sur ce mod`ele, appel´ee hypoth`ese nulle H0 et on introduit sa n´egation H1.

Dans le cas du lancer de pi`ece, on pose les hypoth`eses H0: ”θ=0.5” contre H1: ”θ6=0.5”

(6)

E TAPES D ’ UN TEST STATISTIQUE

I La statistique de test et sa loi sous H0 :

Une fois le mod`ele probabiliste introduit, il faut disposer d’une variable al´eatoire appel´ee statistique de test, not´eeZ

On connaˆıt sa loi sous H0 Sa loi n’est pas la mˆeme sous H1

Zest d´efinie en fonction des variables al´eatoires

X1, . . . ,Xn, i.eZ=T(X1, . . . ,Xn)et on note sa r´ealisation zobs=T(x1, . . . ,xn)qui doit ˆetre calculable.

(7)

E TAPES D ’ UN TEST STATISTIQUE

I Zone de rejet :

Connaissant la loi deZsous H0, on peut d´eterminer ses valeurs les plus extrˆemes, i.e d´eterminer une zoneZRtelle queP[Z∈ZR]≤αsi H0 est vraie.

I On conclut le test `a partir de la valeurs observ´eezobs

Sizobsappartient `a la zone de rejet, on rejette H0 au risqueα.

Sizobsn’appartient pas `a la zone de rejet, on ne rejette pas H0 au risqueα.

(8)

E XEMPLE

Le lancer de pi`ece : On teste au risque de 5% H0: ”θ=0.5” contre H1: ”θ6=0.5”

On a la statistique de test Z=

10

X

i=1

Xi∼ B(10,0.5) sous H0 On a la zone de rejet

ZRH0={0,1} ∪ {9,10}.

Ici,zobs=9 et on rejette donc H0.

(9)

P - VALUE

Plus le seuilαest petit plus le test est fiable.

p−value= inf{α∈(0,1),”On rejette H0”} Lap-value est la probabilit´e d’avoir eu un aussi mauvais r´esultat quezobssous H0.

I Sip−value≥α, on ne rejette pas H0.

I Sip−value< α, on rejette H0.

(10)

II. Tests sur la moyenne et la variance

(11)

T ESTS SUR LA MOYENNE ET LA VARIANCE

Contexte : On consid`erex1, . . . ,xndes r´ealisations de variables al´eatoires ind´ependantes et identiquement distribu´ees

X1, . . . ,XnavecX1∼ N µ, σ2

avecµetσ2inconnus.

Test de conformit´e de la moyenne : Soitµ0une valeurs donn´ee, on souhaite tester

H0: ”µ=µ0” contre H1: ”µ6=µ0”.

Test de conformit´e de la variance : Soitσ20une valeurs donn´ee, on souhaite tester

H0: ”σ220” contre H1: ”σ26=σ02”.

(12)

T EST DE CONFORMIT E D ´ ’ UNE MOYENNE

Construction de la statistique de test : On a la statistique de test :

Z=√

nXn−µ0 Sn

Sous H0,

√nXn−µ0 Sn

∼Tn−1

o `uTn−1suit une loi de Student `an−1 degr´es de libert´e, ce qui est faux sous H1.

(13)

T EST DE CONFORMIT E D ´ ’ UNE MOYENNE

Le test : On teste au risqueα∈(0,1)

H0: ”µ=µ0” contre H1: ”µ6=µ0”.

On a la statistique de test Z=√

nXn−µ0 Sn

∼Tn−1 sous H0 On d´efinit la zone de rejet par

ZR=

|Z|>tn−1,1−α/2

o `utn−1,1−α/2est le quantile d’ordre 1−α/2 de la loi de Student

`an−1 degr´es de libert´e.

On calculezobs, si|zobs|>tn−1,1−α/2, on rejette H0, et on ne rejette pas H0 sinon.

(14)

R EMARQUE

Remarque 1 : Faire ce test revient `a v´erifier queµ0est dans l’intervalle de confiance de niveau 1−α

IC1−α(µ) =

xn−tn−1,1−α/2 sn

√n;xn+tn−1,1−α/2 sn

√n

. Siµ0∈IC1−α(µ), on ne rejette pas H0 et inversement.

(15)

R EMARQUE

Remarque 2 : Pour trouver la zone de rejet, cela revient `a cherchercαtel

Pµ=µ0[”On rejette H0”] =Pµ=µ0

Xn−µ0 ≥cα

=α.

(16)

R EMARQUE

Remarque 3 : SoitTune variable al´eatoire suivant une loi de Student `an−1 degr´es de libert´e. On a alors

p−value=P[|T| ≥ |zobs|].

(17)

T EST D ’ IN EGALIT ´ E ´ µ ≤ µ

0

On teste au risqueα∈(0,1)

H0: ”µ≤µ0” contre H1: ”µ > µ0” Sous H0, il existeµ0≤µ0tel que

Z(µ0) =√

nXn−µ0 Sn

∼Tn−1. On d´efinit la zone de rejet par

ZR={Z(µ0)>tn−1,1−α}.

On calculezobs, sizobz>tn−1,1−α, on rejette H0 et inversement.

(18)

R EMARQUE

Remarque 1 : Pour trouver la zone de rejet, cela revient `a cherchercαtel que

sup

µ≤µ0

Pµ[”On rejette H0”] = sup

µ≤µ0

Pµ

Xn≥cα

=α.

(19)

R EMARQUE

Remarque 2 : SoitTune variable al´eatoire suivant une loi de Student `an−1 degr´es de libert´e. On a alors

p−value=P[T≥zobs].

(20)

T EST D ’ IN EGALIT ´ E ´ µ ≥ µ

0

Le test : On teste au risqueα∈(0,1)

H0: ”µ≥µ0” contre H1: ”µ < µ0” Sous H0, il existeµ0≥µ0tel que

Z(µ0) =√

nXn−µ0 Sn

∼Tn−1. On d´efinit la zone de rejet par

ZR={Z(µ0)<−tn−1,1−α}.

On calculezobs, sizobz<−tn−1,1−α, on rejette H0 et inversement.

(21)

R EMARQUE

Remarque 1 : Pour trouver la zone de rejet, cela revient `a cherchercαtel que

sup

µ≥µ0

Pµ[”On rejette H0”] = sup

µ≥µ0

Pµ

Xn≤cα

=α.

(22)

R EMARQUE

Remarque 2 : SoitTune variable al´eatoire suivant une loi de Student `an−1 degr´es de libert´e. On a alors

p−value=P[T≤zobs].

(23)

A PPLICATION

A la suite d’un traitement (r´egime alimentaire) sur une vari´et´e de porcs, on pr´el`eve un ´echantillon de 5 individus et on les p`ese. On obtient les poids suivants (en kg) :

83 81 84 80 85

On suppose que lesxisont des r´ealisations de variables al´eatoires i.i.d suivant une loi normale. On sait que le poids moyen de cette vari´et´e de porcs est de 87.6 kg. Le r´egime alimentaire a-t-il eu un impact sur le poids moyen ?

(24)

A PPLICATION

On teste au risque de 5%

H0: ”µ=87.6” contre H1: ”µ6=87.6”.

On a la statistique de test Z=√

5X5−87.6 Sn

∼T4 sous H0.

On a donc la zone de rejet

ZR={|Z| ≥t4,0.975}. Ici,t4,0.975=2.78. De plus,

zobs=√

5x5−87.6 s5

=√

582.6−87.6 s5

=−5.28. On a|zobs|>2.78, et on rejette donc H0.

(25)

A PPLICATION

Un biologiste affirme que le r´egime augmente le poids des porcs ! On teste au risque de 5%

H0: ”µ≥87.6” contre H1: ”µ <87.6”.

On a la zone de rejet ZR=

5X5−87.6 S5

<−t4,0.95

Ici,t4,0.95=2.13 etzobs=−5.28. On rejette donc H0.

(26)

T EST DE CONFORMIT E D ´ ’ UNE VARIANCE

Soitσ02connue, on souhaite tester au risqueα∈(0,1) H0: ”σ220” contre H1: ”σ26=σ02”.

Construction de la statistique de test : Comme (n−1)S2n

σ2 ∼χ2n−1, on a la statistique de test

(n−1)S2n

σ20 ∼χ2n−1 sous H0, ce qui est faux sous H1.

(27)

T EST DE CONFORMIT E D ´ ’ UNE VARIANCE

Le test : On teste au risqueα∈(0,1)

H0: ”σ220” contre H1: ”σ26=σ02”.

On a la statistique de test Z=(n−1)S2n

σ20 ∼χ2n−1 sous H0, On d´efinit la zone de rejet comme

ZR=

Z<kα/2

Z>k1−α/2 ,

o `ukα/2etk1−α/2sont les quantiles de la loi du Khi-deux `an−1 degr´es de libert´e.

On calculezobs. Sizobs<kα/2ouzobs>k1−α/2, on rejette H0 et inversement.

(28)

R EMARQUES

Remarque 1 : Notons que faire ce test revient `a v´erifier queσ20 appartient `a l’intervalle de confiance obtenu `a partir des donn´ees observ´ees.

Siσ02appartient `a l’intervalle de confiance, on ne rejette pas H0 et inversement.

(29)

R EMARQUES

Remarque 2 : SoitZune variable al´eatoire suivant une loi du Khi-deux `an−1 degr´es de libert´e. On a alors

p−value= min{2P[Z≤zobs],2P[Z≥zobs]}.

(30)

A PPLICATION

On reprend l’exemple des porcs. Le mˆeme biologiste pense que si les r´esultats ne sont pas concluants, c’est d ˆu `a une variance qui serait ´egale `a 25.

On va donc ”v´erifier” si cela est vrai.

(31)

A PPLICATION

On teste au risque de 5%

H0: ”σ2=25” contre H1: ”σ26=25”.

On a la statistique de test Z= 4

25S2n∼χ24 sous H0.

On a la zone de rejet

ZR={Z<k0.025} ∪ {Z>k0.975}. Ici,k0.025=0.48 etk0.975=11.14. De plus

zobs= 4

25s2n=0.29 Commezobs<0.48, on rejette H0.

(32)

III. Comparaison de moyennes

(33)

T ESTS DE COMPARAISON DE DEUX MOYENNES

Pr´esentation du probl`emeOn consid`ere deux jeux de donn´ees I x1, . . . ,xpqui sontpr´ealisations d’une variable al´eatoireX.

I y1, . . . ,yqqui sontqr´ealisations d’une variable al´eatoireY.

On souhaite comparer les moyennes th´eoriques des variables XetY.

I On dispose des estimationsxpetyq.

I Les diff´erences entre ces estimations ne sont-elles dues qu’`a la fluctuation d’´echantillonnage ?

(34)

T ESTS DE COMPARAISON DE DEUX MOYENNES

Le mod`ele probabiliste : On fait les hypoth`eses suivantes : I Les donn´eesx1, . . . ,xpsont les r´ealisations de variables

al´eatoiresX1, . . . ,Xpind´ependantes et de mˆeme loi N µ1, σ21

.

I Les donn´eesy1, . . . ,yqsont les r´ealisations de variables al´eatoiresY1, . . . ,Yqind´ependantes et de mˆeme loi N µ2, σ22

.

I Les deux ´echantillons sont ind´ependants et de mˆeme variance, i.eσ21222.

(35)

A PPLICATION

On souhaite comparer les productions laiti`eres de deux races bovines. On choisit 50 bˆetes de chaque race (p=q=50) et on mesure pour chaque bˆete la production annuelle totale de lait (en tonnes). On obtient les productions moyennes

x50=4.680 et y50=4.690

On souhaite donc savoir si cette diff´erence est seulement due `a la fluctuation d’´echantillonnage.

(36)

T EST BILAT ERAL ´

On veut tester au risqueα

H0: ”µ12” contre H1: ”µ16=µ2”.

Construction de la statistique de test :

Proposition

On a

Xp−Yq∼ N

µ1−µ22 p +σ2

q

.

Cependant, on ne connait pasσ2et on ne peut donc pas construire de statistique de test `a partir de cette proposition.

(37)

T EST D ’ ´ EGALIT E ´

On consid`ereS2l’estimateur deσ2d´efini par S2= 1

p+q−2

p

X

i=1

Xi−Xp

2

+

q

X

i=1

Yi−Yq

2

!

= 1

p+q−2 (p−1)S2X+ (q−1)S2Y ,

avecS2X= p−11 Pp

i=1 Xi−Xp

2

etS2Y= q−11 Pq

i=1 Yi−Yq

2

.

Proposition

1. On a

p+q−2

σ2 S2∼χ2p+q−2. 2. Les variables Xp−Yqet S2sont ind´ependantes.

(38)

C ONSTRUCTION DE LA STATISTIQUE DE TEST

Corollaire

On a √

√ pq p+q

Xp−Yq

−(µ1−µ2)

S ∼Tp+q−2,

o `u Tp+q−2suit une loi de Student `a p+q−2degr´es de libert´e.

On obtient donc la statistique de test

√pq

√p+q

Xp−Yq

S ∼Tp+q−2 sous H0,

ce qui est faux sous H1.

(39)

T EST D ’ ´ EGALIT E DE DEUX MOYENNES ´

Le test : On teste au risqueα∈(0,1)

H0: ”µ12” contre H1: ”µ16=µ2”.

On a la statistique de test Z=

√pq

√p+q

Xp−Yq

S ∼Tp+q−2 sous H0.

On d´efinit la zone de rejet ZR=

Z,|Z|>tp+q−2,1−α/2 ,

o `utp+q−2,1−α/2est le quantile d’ordre 1−α/2 de la loi de Student `ap+q−2 degr´es de libert´e. On calculezobs. Si

|zobs|>tp+q−2,1−α/2on rejette H0 et inversement.

(40)

R EMARQUES

Remarque 1 : Cela revient `a v´erifier que 0 appartient `a l’intervalle de confiance deµ=µ1−µ2.

Si 0 appartient `a cet intervalle de confiance, on ne rejette pas H0 et inversement.

(41)

R EMARQUES

Remarque 2 : Pour trouver la zone de rejet, comme sous H0 Xq−Yqdoit ˆetre proche de 0, cela revient `a cherchercαtel que

Pµ=0[”On rejette H0”] =Pµ=0

Xp−Yq

≥cα

=α.

(42)

Remarque 3 : SoitTune variable al´eatoire suivant une loi de Student `ap+q−2 degr´es de libert´e, on a alors

p−value=P[|T|>|zobs|].

(43)

A PPLICATION : LES I RIS DE F ISHER

On consid`ere un jeu de donn´ees classique : les Iris de Fisher, o `u on souhaite reconnaˆıtre le type d’Iris `a partir de la longueur des s´epales.

On notex1, . . . ,x50les longueurs des Iris de la vari´et´e Virginica ety1, . . . ,y50celle de la vari´et´e Versicolor et on obtient les r´esultats

x50=5.94 sX=0.52 y50=6.59 sY=0.64.

(44)

A PPLICATION : LES I RIS DE F ISHER

On test au risque de 5%

H0: ”µ12” contre H1: ”µ16=µ2”.

On a la statistique de test Z=

√50×50

√50+50

X50−Y50

S ∼T98 sous H0.

On a la zone de rejet

ZR={|Z|>t98,0.975}.

Icit98,0.975=1.98 etzobs=−5.63. On rejette donc H0.

(45)

T EST D ’ IN EGALIT ´ E ´ µ

1

≤ µ

2

Le test : On veut tester au risqueα∈(0,1)

H0: ”µ1≤µ2” contre H1: ”µ1> µ2”.

Sous H0, il existeµ0≤0 tel que Z(µ0) =

√pq

√p+q

Xp−Yq−µ0

S ∼Tp+q−2.

On d´efinit la zone de rejet par ZR=

Z(0)>tp+q−2,1−α

o `utp+q−2,1−αest le quantile d’ordre 1−αde la loi de Student `a p+q−2 degr´es de libert´e.

On calculezobs. Sizobs>tp+q−2,1−α, on rejette H0 et inversement.

(46)

R EMARQUES

Remarque 1 : Pour trouver la zone de rejet, comme

µ=µ1−µ2peut ˆetre aussi petit que l’on veut sous H0, trouver la zone de rejet revient donc `a cherchercαtel que sous H0,

sup

µ≤0Pµ[”On rejette H0”] = sup

µ≤0Pµ

Xq−Yq≥cα

=α.

(47)

R EMARQUES

Remarque 2 : SoitTune variable al´eatoire suivant une loi de Student `ap+q−2 degr´es de libert´e, on a alors

p−value=P[T>zobs].

(48)

T EST D ’ IN EGALIT ´ E ´ µ

1

≥ µ

2

Le test : On veut tester au risqueα∈(0,1)

H0: ”µ1≥µ2” contre H1: ”µ1< µ2”.

Sous H0, il existeµ0≥0 tel que Z(µ0) =

√pq

√p+q

Xp−Yq−µ0

S ∼Tp+q−2.

On d´efinit la zone de rejet par ZR=

Z(0)<−tp+q−2,1−α

o `utp+q−2,1−αest le quantile d’ordre 1−αde la loi de Student `a p+q−2 degr´es de libert´e.

On calculezobs. Sizobs<−tp+q−2,1−α, on rejette H0 et inversement.

(49)

R EMARQUES

Remarque 1 : Pour trouver la zone de rejet, commeµ=µ1−µ2 peut ˆetre aussi grand que l’on veut sous H0, trouver la zone de rejet revient donc `a cherchercαtel que sous H0,

sup

µ≥0Pµ[”On rejette H0”] = sup

µ≥0Pµ

Xq−Yq≤cα

=α.

(50)

R EMARQUES

Remarque 2 : SoitTune variable al´eatoire suivant une loi de Student `ap+q−2 degr´es de libert´e, on a alors

p−value=P[T<zobs].

(51)

IV. Tests de Fisher

(52)

T EST DE F ISHER

On rappelle que pour les tests de comparaison de moyennes, on a du faire les hypoth`eses suivantes :

I Les donn´eesx1, . . . ,xpsont les r´ealisations de variables al´eatoiresX1, . . . ,Xpind´ependantes et de mˆeme loi N µ1, σ21

.

I Les donn´eesy1, . . . ,yqsont les r´ealisations de variables al´eatoiresY1, . . . ,Yqind´ependantes et de mˆeme loi N µ2, σ22

.

I Les deux ´echantillons sont ind´ependants et de mˆeme variance, i.eσ21222.

L’ind´ependance est souvent donn´ee par le protocole exp´erimentale. On veut donc

I Tester si les variablesX,Ysuivent des loi normales.

I Tester si elles ont la mˆeme variance.

(53)

T EST DE F ISHER

On veut tester au risqueα∈(0,1)

H0: ”σ2122” contre H1: ”σ126=σ22”.

Le cadre probabiliste :

I Les donn´eesx1, . . . ,xpsont les r´ealisations de variables al´eatoiresX1, . . . ,Xpind´ependantes et de mˆeme loi N µ1, σ21

.

I Les donn´eesy1, . . . ,yqsont les r´ealisations de variables al´eatoiresY1, . . . ,Yqind´ependantes et de mˆeme loi N µ2, σ22

.

I Les deux ´echantillons sont ind´ependants.

(54)

C ONSTRUCTION DE LA STATISTIQUE DE TEST

On dispose des estimateursS2X,S2Ydeσ21, σ22d´efinis par S2X= 1

p−1

p

X

i=1

Xi−Xp

2

S2Y= 1 q−1

q

X

i=1

Yi−Yq

2

.

La construction du test de Fisher repose sur la d´efinition suivante :

D´efinition

Soient p,q deux entiers positifs et soient Zp∼χ2pet Zq∼χ2qdeux variables al´eatoires ind´ependantes. Alors

Zp/p

Zq/q ∼F(p,q)

o `u F(p,q)suit une loi de Fisher `a p,q degr´es de libert´e.

(55)

C ONSTRUCTION DE LA STATISTIQUE DE TEST

Corollaire

On a σ22S2X

σ21S2Y ∼F(p−1,q−1).

On obtient donc la statistique de test S2X

S2Y ∼F(p−1,q−1) sous H0, ce qui est faux sous H1.

(56)

T EST DE F ISHER

Le test : On teste au risqueα

H0: ”σ2122” contre H1: ”σ126=σ22”.

On a la statistique de test Z=S2X

S2Y ∼F(p−1,q−1) sous H0 On a la zone de rejet

ZR=

Z<fp−1,q−1,α/2

Z>fp−1,q−1,1−α/2 , o `ufp−1,q−1,α/2etfp−1,q−1,1−α/2sont les quantiles d’ordreα/2 et 1−α/2 de la loi de Fisher `ap−1,q−1 degr´es de libert´e.

On calculezobs. Sizobsappartient `a la zone de rejet, on rejette H0 et inversement.

(57)

R EMARQUES

Remarque 1 : Soitfp,q,αle quantile d’ordreαde la loi de Fisher de param`etresp,q. Alors

fp,q,1−α= 1 fp,q,α

,

o `ufp,q,1−αest le quantile d’ordre 1−αde la loi de Fisher de param`etresp,q.

Remarque 2 : SoitFune variable al´eatoire suivant une loi de Fisher de param`etresp,q,

p−value= min{P[F≤zobs],P[F≥zobs]}.

(58)

R EMARQUES

Remarque 3 : On peut intervertirS2XetS2Y, et on obtient alors la statistique de test

Z= S2Y

S2X ∼F(q−1,p−1) sous H0. Remarque 4 : On voit souvent la statistique de test

Z=max S2X,S2Y min S2X,S2Y

(59)

A PPLICATION

On reprend l’exemple des Iris de Fisher. On as2X=0.522et s2Y=0.642. On teste au risque de 5%

H0: ”σ2122” contre H1: ”σ126=σ22”.

On a la statistique de test Z=S2X

S2Y ∼F(49,49) sous H0 et la zone de rejet

ZR={Z<0.57} ∪ {Z>1.76} etzobs=0.66 et on ne rejette donc pas H0.

(60)

T EST DE S HAPIRO -W ILK

Soientx1, . . . ,xndes r´ealisations de variables al´eatoires ind´ependantes et de mˆeme loiX1, . . . ,Xn. Le test de Shapiro-Wilk permet de tester :

H0 :”la variable X est Gaussienne”

contre

H1 :”la variable X n’est pas Gaussienne”

I si lap-value est sup´erieure au risqueα, alors on ne rejette pas H0

I sinon, on rejette H0.

(61)

A PPLICATION : LES I RIS DE F ISHER

On reprend l’exemple des Iris, on obtient pour le test de Shapiro-Wilk :

I p−value=0.46 pour les Virginica I p−value=0.26 pour les Versicolor

Dans les deux cas, on ne peut pas rejeter le caract`ere gaussien des donn´ees observ´ees.

(62)

V. Cas appari´e

(63)

T EST DE S TUDENT DANS LE CAS APPARI E ´

On consid`ere ici des r´ealisations((x1,y1), . . . ,(xn,yn))d’un couple de variable al´eatoire(X,Y)et on souhaite comparer les moyennes des variables al´eatoiresX,Y.

Le carde probabiliste :

I Les donn´ees(x1,y1), . . . ,(xn,yn)sont les r´ealisations de couples variables al´eatoires(X1,Y1), . . . ,(Xn,Yn) ind´ependantes et de mˆeme loi que(X,Y). I Les variablesXetYne sont pas ind´ependantes.

I La variable al´eatoireX−Ysuit une loi normale d’esp´eranceµ=µ1−µ2et de varianceσ2.

(64)

C ONSTRUCTION DE LA STATISTIQUE DE TEST

On dispose des estimateursXnetYn.

Proposition

On a

Xn−Yn∼ N

µ1−µ22 n

.

En particulier, on a

√nXn−Yn−(µ1−µ2)

σ ∼ N(0,1).

Commeσest inconnu, ce r´esultat est inexploitable.

(65)

C ONSTRUCTION DE LA STATISTIQUE DE TEST

On consid`ere l’estimateurS2deσ2d´efini par S2= 1

n−1

n

X

i=1

Xi−Yi− Xn−Zn2

Proposition

1. On a

(n−1)S2

σ2 ∼χ2n−1 2. Les variables Xn−Ynet S2sont ind´ependantes.

(66)

C ONSTRUCTION DE LA STATISTIQUE DE TEST

Corollaire

On a √

nXn−Yn−(µ1−µ2)

S ∼Tn−1, o `u Tn−1suit une loi de Student `a n−1degr´es de libert´e.

On obtient donc, pour le test d’´egalit´e, la statistique de test

√nXn−Yn

S ∼Tn−1 sous H0 ce qui est faux sous H1.

(67)

T EST D ’ ´ EGALIT E ´ µ

1

= µ

2

Le test : On teste au risqueα∈(0,1)

H0: ”µ12” contre H1: ”µ16=µ2”.

On a la statistique de test

√nXn−Yn

S ∼Tn−1 sous H0. On a la zone de rejet

ZR=

Z,|Z|>tn−1,1−α/2

o `utn−1,1−α/2est le quantile d’ordre 1−α/2 de la loi de Student

`an−1 degr´es de libert´e.

Si|zobs|>tn−1,1−α/2, on rejette H0 et inversement.

(68)

R EMARQUES

Remarque 1 : Faire ce test revient `a v´erifier que 0 appartient `a l’intervalle de confiance de niveau 1−αdeµ=µ1−µ2. Si 0 appartient `a cet intervalle, on ne rejette pas H0 et inversement.

(69)

R EMARQUES

Remarque 2 : Pour trouver la zone de rejet, commeXn−Yn

doit ˆetre proche de 0, on cherchecαtel que sous H0, Pµ=0[”On rejette H0”] =Pµ=0

Xn−Yn

≥cα

=α.

(70)

R EMARQUES

Remarque 3 : SoitTune variable al´eatoire suivant une loi de Student `an−1 degr´es de libert´e, on a alors

p−value=P[|T|>|zobs|].

(71)

A PPLICATION

On s’int´eresse `a un ´echantillon de 30 mati`eres f´ecales, que l’on soumet `a deux m´ethodes de spectrom´etrie pour ´etudier leur teneur en lut´ecium radioactif. On obtient

x30=120.83 et y30=119.33

I En faisant le test pour les donn´ees appari´ees, on obtient unep-value ´egale `a 0.66, et au risque de 5%, on ne rejette pas H0.

I En faisant le test de Student vu pr´ec´edemment, on obtient unep-value ´egale `a 0.0031 et on aurait alors rejet´e H0.

(72)

T EST D ’ IN EGALIT ´ E ´ µ

1

≤ µ

2

Le test : On teste au risqueα∈(0,1)

H0: ”µ1≤µ2” contre H1:µ1> µ2”.

Sous H0, il exsiteµ0≤0 tel que Z(µ0) =√

nXn−Yn−µ0

S ∼Tn−1. On d´efinit la zone de rejet par

ZR={Z(0)>tn−1,1−α},

o `utn−1,1−αest le quantile d’ordre 1−αde la loi de Student `a n−1 degr´es de libert´e.

On calculezobs. Sizobs>tn−1,1−αon rejette H0 et inversement.

(73)

R EMARQUES

Remarque 1 : Pour trouver la zone de rejet, comme µ=µ1−µ2peut ˆetre aussi petit que l’on veut sous H0, on cherchecαtel que

sup

µ≤0Pµ[”On rejette H0”] = sup

µ≤0Pµ

Xn−Yn≥cα

=α.

(74)

R EMARQUES

Remarque 2 : SoitTune variable al´eatoire suivant une loi de Student `an−1 degr´es de libert´e, on a

p−value=P[T≥zobs].

(75)

T EST D ’ IN EGALIT ´ E ´ µ

1

≥ µ

2

Le test : On teste au risqueα∈(0,1)

H0: ”µ1≥µ2” contre H1:µ1< µ2”.

Sous H0, il exsiteµ0≥0 tel que Z(µ0) =√

nXn−Yn−µ0

S ∼Tn−1. On d´efinit la zone de rejet par

ZR={Z(0)<−tn−1,1−α},

o `utn−1,1−αest le quantile d’ordreαde la loi de Student `an−1 degr´es de libert´e.

On calculezobs. Sizobs<−tn−1,1−αon rejette H0 et inversement.

(76)

R EMARQUES

Remarque 1 : Pour trouver la zone de rejet, comme

µ=µ1−µ2peut ˆetre aussi grand que l’on veut sous H0, on cherchecαtel que

sup

µ≥0Pµ[”On rejette H0”] = sup

µ≥0Pµ

Xn−Yn≤cα

=α.

(77)

R EMARQUES

Remarque 2 : SoitTune variable al´eatoire suivant une loi de Student `an−1 degr´es de libert´e, on a

p−value=P[T≤zobs].

(78)

VI. Tests du Khi-deux

(79)

T EST D ’ IND EPENDANCE DU ´ K HI - DEUX

Le test d’ind´ependance du Khi-deux permet de v´erifier l’ind´ependance entre deux variables al´eatoiresXetY, i.e on veut tester au risqueα

H0: ”X,Yind´ependantes” contre H1:X,Ypas ind´ependantes”.

Le cadre : On dispose dendonn´ees(x1,y1), . . . ,(xn,yn)qui sont des r´ealisations de couples de variables al´eatoires i.i.d (Xk,Yk)de mˆeme loi que(X,Y)`a valeurs dans

a1, . . . ,ap ×

b1, . . . ,bq .

(80)

C ONSTRUCTION DE LA STATISTIQUE DE TEST

Le test du Khi-deux repose sur le fait que les variables al´eatoiresXetYsont ind´ependantes si et seulement si pour tout ai,bj

a1, . . . ,ap ×

b1, . . . ,bq , P

X=aietY=bj

=P[X=ai]P Y=bj

.

Pour tester siXetYsont ind´ependantes, il ”suffit” donc de comparer les estimations des probabilit´es jointes au produit des estimations des probabilit´es marginales.

(81)

N OTATIONS

On note : I Oi,j=Pn

k=11{Xk=ai,Yk=bj}, qui d´esigne le nombre de donn´ees pour lesquelles(X,Y) = ai,bj

. I Oi,.=Pq

j=1Oi,jqui d´esigne le nombre de donn´ees pour lesquellesX=ai.

I O.,j=Pp

i=1Oi,jqui d´esigne le nombre de donn´ees pour lesquellesY=bj.

I Ei,j= Oi,.×On .,j. Notons que :

I Oi,j/nest un estimateur deP

X=ai,Y=bj

. I Ei,j/nest un estimateur deP[X=ai]P

Y=bj

.

(82)

C ONSTRUCTION DE LA STATISTIQUE DE TEST

Sous l’hypoth`ese H0, les estimationsoi,j/netei,j/nsont cens´ees ˆetre proches. On introduit donc la statistique de test :

Z=

p

X

i=1 q

X

j=1

Oi,j−Ei,j2

Ei,j

.

Proposition

Si X et Y sont ind´ependantes, Z−−−−−L

n→+∞ χ2(p−1)(q−1).

La proposition pr´ec´edente est fausse sous H1.

(83)

T EST D ’ IND EPENDANCE DU ´ K HI - DEUX

Le test : On teste au risqueα∈(0,1),

H0: ”X,Yind´ependantes” contre H1:X,Ypas ind´ependantes”.

On a la statistique de test Z=

p

X

i=1 q

X

j=1

Oi,j−Ei,j2

Ei,j

−−−→L

n→∞ χ2(p−1)(q−1).

On a la zone de rejet ZR=

Z>k(p−1)(q−1),1−α

o `uk(p−1)(−1),1−αest le quantile d’ordre 1−αde la loi du Khi-deux `a(p−1)(q−1)degr´es de libert´e.

On calculezobs. Sizobs>k(p−1)(q−1), on rejette H0 et inversement.

(84)

A PPLICATION :

On ´etudie l’influence du sexe sur la couleur des cheveux d’un groupe d’´el`eves. On veut savoir si la couleur des cheveux est ind´ependante du sexe. Pour cela, on dispose des donn´ees suivantes :

Sexe Blond Roux Chˆatain Brun Noir de Jais Total

Garc¸on 592 119 849 504 36 2100

Fille 544 97 677 451 14 1783

Total 1136 2126 1526 955 50 3883

On d´esigne parXla variable couleur des cheveux et parYla variable sexe.

(85)

A PPLICATION

On teste au risque de 5%

H0: ”X,Yind´ependantes” contre H1:X,Ypas ind´ependantes”.

On a la statistique de test Z=

5

X

i=1 2

X

j=1

Oi,j−Ei,j2

Ei,j

−−−−−L

n→+∞ χ24 sous H0. On a la zone de rejet

ZR={Z>9.50}.

On azobs=10.47 et on rejette donc l’hypoth`ese H0. A noter que l’on a unep-value ´egale `a 0.033 et on n’aurait donc pas rejet´e H0 au risque de 1%.

(86)

T EST D ’ AD EQUATION DU ´ K HI - DEUX

Le cadre : On dispose dendonn´eesx1, . . . ,xnqui sont des r´ealisations de variables al´eatoires ind´ependantesX1, . . . ,Xnet de mˆeme loi, `a valeurs dans{a1, . . . ,aK}. On notePla loi inconnue de la variable al´eatoire discr`eteXet on souhaite savoir siP=P0, o `uP0 est une loi connue.

On veut donc tester au risqueα∈(0,1)

H0: ”La loi deXestP0” contre H1: ”La loi deXn’est pasP0”

(87)

N OTATIONS

On notep0,1, . . . ,p0,Kles probabilit´es d´efinissant la loi P0. On note pour toutk=1, . . . ,K:

I Ekl’effectif ”observ´e” pour la modalit´eak

Ek=

n

X

i=1

1{Xj=ak}

I Nkl’effectif th´eorique pour la modalit´eaksous la loi P0 Nk=np0,k.

(88)

C ONSTRUCTION DE LA STATISTIQUE DE TEST

La variableEk/nest un estimateur naturel depk=P[X=ak]. Sous H0, cet estimateur doit donc converger versNk/n=p0,k. On s’int´eresse donc `a la statistique de test :

Q2=

K

X

k=1

(Ek−Nk)2 Nk

.

Proposition

Si la loi de X est P0,

Q2−−−−−L

n→+∞ χ2K−1.

La proposition pr´ec´edente est fausse sous H1.

(89)

T EST D ’ AD EQUATION DU ´ K HI - DEUX

Le test : On teste au risqueα∈(0,1)

H0: ”La loi deXestP0” contre H1: ”La loi deXn’est pasP0” On a la statistique de test

Q2=

K

X

k=1

(Ek−Nk)2 Nk

−−−−−L

n→+∞ χ2K−1 sous H0 On d´efinit la zone de rejet

ZR=

Q2>kK−1,1−α ,

o `ukK−1,1−αest le quantile d’ordre 1−αde la loi du Khi-deux `a K−1 degr´es de libert´e.

On calculeq2obs. Siq2obs>kK−1,1−α, on rejette H0 et inversement.

(90)

A PPLICATION

Un biologiste pense qu’`a un age donn´e : I 50%des b´eb´es marchent

I 12%ont une ´ebauche de marche I 38%ne marchent pas

On fait une ´etude sur 80 b´eb´es et on obtient : I 35 de ces b´eb´es ne marchent pas

I 4 ont une ´ebauche de marche I 41 ne marchent pas

(91)

A PPLICATION

On souhaite donc v´erifier que le biologiste `a tort. On r´esume les donn´ees dans le tableau suivant :

Marche Ebauche Ne marche pas Total

Effectif observ´e 35 4 41 80

Effectif Th´eorique 80×0.5 80×0.12 80×0.38 80

”Distance” 0.625 3.267 3.696 7.588

(92)

A PPLICATION

On teste donc au risque 5%l’hypoth`ese nulle H0 : ”Xsuit la loi P0” contre H1 : ”Xne suit pas la loi P0”. On a la statistique de test

Q2=

3

X

k=1

(Ek−Nk)2 Nk

−−−−−L

n→+∞ χ22 sous H0 On a la zone de rejet

ZR=

Q2>5.99 . Ici,q2obs=7.5878 et on rejette donc H0.

(93)

VII. Tests asymptotiques

(94)

T ESTS ASYMPTOTIQUES

On consid`ere ici des donn´eesx1, . . . ,xnqui sont des r´ealisations de variables al´eatoiresX1, . . . ,Xnqui sont ind´ependantes et de mˆeme loi queX. On s’int´eresse `a l’estimation d’un param`etreθ de la loi deX, et on suppose que l’on a un estimateurθˆn asymptotiquement normal, i.e qu’il existeσ2>0 tel que

√n

θˆn−θ L

−−−−−→

n→+∞ N 0, σ2 .

On suppose ´egalement que l’on dispose d’un estimateur consistantσˆn2de la variance asymptotiqueσ2. A l’aide du th´eor`eme de Slutsky, on a alors

√n θˆn−θ

ˆ σn

−−−−−L

n→+∞ N(0,1).

(95)

T EST D ’ ´ EGALIT E ´

Le test : On teste au risqueα∈(0,1)

H0: ”θ=θ0” contre H1: ”θ6=θ0”.

On a la statistique de test Z=√

n θˆn−θ0

ˆ σn

−−−−−L

n→+∞ N(0,1) sous H0. On a la zone de rejet

ZR=

|zobs|>q1−α/2

o `uq1−α/2est le quantile d’ordre 1−α/2 de la loi normale centr´ee r´eduite.

On calculezobs. Si|zobs|>q1−α/2, on rejette H0 et inversement.

(96)

R EMARQUES

Remarque 1 : Faire ce test revient `a v´erifier queθ0est dans l’intervalle de confiance asymptotique de niveau 1−αdeθ.

(97)

R EMARQUES

Remarque 2 : Pour trouver la zone de rejet, on cherchecαtel que sous H0

n→+∞lim Pθ=θ0[”On rejette H0”] = lim

n→+∞Pθ=θ0

h

θˆn−θ >cα

i

=α.

(98)

R EMARQUES

Remarque 3 : SoitZune variable al´eatoire suivant une loi normale centr´ee r´eduite, alors

p−value=P[|Z|>|zobs|].

(99)

T EST D ’ IN EGALIT ´ E ´ θ

0

≥ θ

Le test : On teste au risqueα∈(0,1)

H0: ”θ0≥θ” contre H1: ”θ0< θ”.

Sous H0, il existeθ0 ≤θ0tel que Z(θ0) =√

n θˆn−θ0

ˆ σn

−−−−−L

n→+∞ N(0,1).

On d´efinit la zone de rejet par

ZR={Z(θ0)>q1−α},

o `uq1−αest le quantile d’ordre 1−αde la loi normale centr´ee r´eduite.

On calculezobs. Sizobs>q1−α, on rejette H0 et inversement.

(100)

R EMARQUES

Remarque :SoitZune variable al´eatoire suivant une loi normale centr´ee r´eduite, on a

p−value=P[Z≥zobs].

(101)

T EST D ’ IN EGALIT ´ E ´ θ

0

≤ θ

Le test : On teste au risqueα∈(0,1)

H0: ”θ0≤θ” contre H1: ”θ0> θ”.

Sous H0, il existeθ0 ≥θ0tel que Z(θ0) =√

n θˆn−θ0

ˆ σn

−−−−−L

n→+∞ N(0,1).

On d´efinit la zone de rejet par

ZR={Z(θ0)<−q1−α},

o `uq1−αest le quantile d’ordre 1−αde la loi normale centr´ee r´eduite.

On calculezobs. Sizobs<−q1−α, on rejette H0 et inversement.

(102)

R EMARQUES

Remarque :SoitZune variable al´eatoire suivant une loi normale centr´ee r´eduite, on a

p−value=P[Z≤zobs].

Références

Documents relatifs

Universit´ e Pierre et Marie Curie LM256 : Analyse vectorielle, int´ egrales multiples Ann´ ee universitaire 2009–2010 1er semestre, 1` ere session.. Examen du 12

On suppose que l’on observe seulement le nombre de particules dans le r´ecipient A au cours du temps, et que l’on d´esire estimer le nombre total de particules. Et construire

Le jeu de donn´ees suivant relie le prix des maisons, quartier par quartier, dans chaque ville autour de Philadelphie (premiere colonne) au taux de criminalit´e (seconde colonne), `

Les ´ el´ ements de G sont donc les classes modulo 100 des entiers dont le dernier chiffre est 1 en ´ ecriture d´ ecimale... On a, en utilisant que K est

Ce r´ esultat important permet d’affirmer que si la matrice de Leslie d’un mod` ele dynamique (3) est primitive alors cette dynamique pr´ esentera, lorsque t augmente, un

Interpr´ eter les tests et conclure sur le d´ elai d’apparition d’une infection en fonction du sexe.. (d) R´ ealiser le test de l’effet sexe en stratifiant sur le type

centr´ ees de variance σ 2 0 (mais ce ne sont pas n´ ecessairement

Si on ne fait plus d’hypoth`ese de ce type ou de continuit´e, le r´esultat tombe en d´efaut, et on verra que mˆeme le groupe des automorphismes de C, (strictement) inclus