Statistiques math´ ematiques : Cours 6
Guillaume Lecu´e
4 septembre 2018
Aujourd’hui
Introduction aux tests
Hypoth`ese simple contre alternative simple
Lemme de Neyman-Pearson
Tests gaussiens
Tests sur la moyenne Tests sur la variance
Exemple introductif
I On observe 10 lancers d’une pi`ece de monnaie et on obtient le r´esultat suivant :
(P,P,F,F,P,F,P,P,F,P) Question : La pi`ece est-elle ´equilibr´ee?
I R´epondre`a cette question revient `aprendre une d´ecision : ϕ=ϕ(P,P,F,F,P,F,P,P,F,P)
=
on acceptel’hypoth`esela pi`ece est ´equilibr´ee on rejettel’hypoth`esela pi`ece est ´equilibr´ee
Exemple introductif : mod`elisation et d´efinition des hypoth`eses
I Mod´elisation : On mod´elise ces observations par l’exp´erience statistique
E10= {0,1}10,P({0,1}10),{P10θ, θ∈[0,1]}
,
avec (P= 1, F = 0)
P10θ = θδ1+ (1−θ)δ0⊗10
I et on ”traduit” la question en termes math´ematiques : r´esoudre le probl`eme de test suivant
H0:θ=1
2 contre H1:θ6= 1 2
D´ efinition
L’hypoth`ese H est appel´eehypoth`ese nulle.
D´ efinitions
D´ efinition
1. Soit Z une observation de l’exp´erience statistique E = (Z,Z,{Pθ:θ∈Θ}).
2. SoitΘ = Θ0∪Θ1une partition de l’espace des param`etres.
3. Soit le probl`eme de test
H0:θ∈Θ0 contre H1:θ∈Θ1
Untest our´egle de d´ecision est une statistique de la forme ϕ(Z) =I(Z ∈ R) =
H0 ”on accepte”
H1 ”on rejette”
R ⊂Zest appel´eezone de rejet our´egion critique.
Exemple introductif : construction d’un test (1/2)
I Z = (X1, . . . ,X10) : observation dans le mod`ele d’´echantillonnage de Bernoulli {Pθ: 0< θ <1}o`uPθ=θδ1+ (1−θ)δ0
I on regarde le probl`eme de test suivant : H0:θ=1
2 contre H1:θ6= 1 2
I on construit un test`a partir de l’EMVθbnmv= ¯Xn= ¯X10(n= 10) et d’un seuilt0 donn´e :
ϕ(Z) =I(Z ∈ R) =
H0 quand
bθnmv−12 ≤t0 H1 sinon
I lazone de rejet est ici R=
z ∈ {0,1}10:
bθnmv(z)−12 >t0
Exemple introductif : construction d’un test (2/2)
I Dans le test pr´ec´edent ϕ(Z) =I(Z ∈ R) =
H0 quand
bθnmv−12 ≤t0
H1 sinon
l’EMVθbnmva ´et´e utilis´e pour construire le test. C’est une approche classique : ici l’EMV joue le rˆole destatistique de test
I On peut calculer l’EMV sur les donn´ees :θbnmvexemple= 0,6 et donc prendre une d´ecision.
Question : comment choisir le seuil t0?
I y-a-t’il un meilleur choix de test ? une meilleure statistique de test ?
Les deux types d’erreurs de d´ ecision
Z une observation, Θ = Θ0∪Θ1 une partition et le probl`eme de test H0:θ∈Θ0 contre H1:θ∈Θ1
D´ efinition
Soitϕun test de zone de rejetR(c`adϕ(z) =I(z ∈ R))
I L’erreur de premi`ere esp`ece(rejeter `a tort) sup
θ∈Θ0
Pθ[Z ∈ R]
I La fonction d’erreur de seconde esp`ece(accepter `a tort) θ∈Θ17→Pθ[Z ∈ R] = 1/ −πϕ(θ) o`uπϕ(θ) =Pθ[Z ∈ R]est la fonction puissancedu test
Exemple introductif : les deux types d’erreurs
Le testϕ(z) =I(|θbnmv(z)−0.5|>t0) peut faire deux types d’erreurs :
I rejeter `a tort :
Rejeter (ϕ(Z) =H1) alors que θ= 12∈Θ0={12} dans ce cas, l’erreur de premi`ere esp`eceest
P0.5[|θbnmv(Z)−0.5|>t0]
I accepter `a tort :
Accepter (ϕ(Z) =H0) alors que θ6= 12 dans ce cas, la fonction d’erreur de seconde esp`eceest
θ6= 1/27→Pθ[|θbnmv(Z)−0.5| ≤t0]
et lafonction puissanceestθ6= 1/27→Pθ[|θbnmv(Z)−0.5|>t0] (rejeter `a raison).
Niveau asymptotique d’un test
D´ efinition
Dans le mod`ele d’´echantillonnage, on construit une suite de test(ϕn)(o`u n est le nombre d’observations). Soitα∈(0,1). On dit que(ϕn)est de niveau asymptotiqueαquand
∀θ∈Θ0, lim sup
n→∞ Pθ[ϕn=H1]≤α
1. on veut s’assurer qu’asymptotiquement la probabilit´e de rejeter `a tort est moins que α
2. id´ealement, on aimerait pouvoir fixer un niveau pour les deux types d’erreurs (1`ere et 2-i`eme) mais ce n’est pas possible en g´en´eral. On va donc privil´egier un contrˆole de l’erreur de 1`ere esp`ece en
construisant des tests de niveau asymptotique donn´e :introduction d’une dissym´etrie
Exemple introductif : ´ etude asymptotique du test
SousH0 (c`adθ= 1/2) :
√n θbnmv−0.5 d
−→ N(0,1/4) en particulier, pourg ∼ N(0,1),
P0.5[
bθnmv−0.5
>tn,α]−→P[|g|>q1−α/2] =α o`u, pour le quantileq1−α/2 d’ordre 1−α/2 deg
tn,α=q1−α/2 2√
n
SousH1 (c`adθ6= 1/2) : pour toutθ∈Θc0= Θ1= (0,1)− {0.5},
√n
bθnmv−0.5
p.s.→ +∞
(la puissance tend vers 1)
Exemple introductif : prise de d´ ecision
Les donn´ees d’origines ´etaient :
z = (P,P,F,F,P,F,P,P,F,P)
l’EMV vaut doncθb10mv(z) = 0.6 et, pour un α∈(0,1) donn´e le test est
ϕ(Z) = (
H0 quand
bθ10mv(Z)−12
≤t10,α= q1−α/2
2√ 10
H1 sinon Par exemple :
1. pour α= 5%, on a q1−α/2≈1.96ett10,α≈0.31 alors comme
bθ10mv(z)−12
= 0.1≤t10,5%, onaccepte
2. pour α= 10%, on aq1−α/2≈1.64, alorst10,α≈0.26 alors comme
bθ10mv(z)−12
= 0.1≤t10,10%, on accepte
Exemple introductif : introduction de la p-value
Le choix du niveauαest arbitraire. Dans l’exemple pr´ec´edent, on va
I accepter tant queq1−α/2≥2√ 10∗
bθ10mv−12
I rejeter d`es queq1−α/2≤2√ 10∗
bθ10mv−12
Lavaleur limite deαpour laquelle la d´ecision basculec`ad leαtel que q1−α/2= 2√
10∗
bθ10mv−12
est appel´ee lap-value.
Ici la p-value est donn´ee par l’´equation (enα) q1−α/2= 2√
10∗0.1≈0.63 c`adα= p-value≈0.525.
p-value : introduction formelle
D´ efinition
Soitϕα un test de niveau asymptotiqueαet de zone de rejetRα. On appellep-valuedu test la statistique
p−value(Z) = inf(α∈(0,1) :Z ∈ Rα)
I c’est le seuil critique o`u la d´ecision bascule : ϕα(Z) =
H0 quandα≤p−value(Z) H1 quandα >p−value(Z)
I lap-valuequantifie le niveau de confiance sur l’acceptation (deH0)
p-value : interpr´ etation
p-value niveau de confiance
sur l’acceptation d´ecision
p<0.01 tr`es faible rejet (avec
confiance) 0.01≤p<0.05 faible rejet
0.05≤p<0.1 fort acceptation
0.1≤p tr`es fort acceptation (avec
confiance)
I forte p-value : le test ne permet pas de rejeter H0
I petite p-value : mˆeme si on prend un niveau de test tr`es petit, le test rejeteraH0(alors qu’on a une forte aversion au risque de 1`ere esp`ece, c`ad de rejeter `a tort)
I dans l’exemple, on a p-value ≈0.525, on va donc accepter (avec confiance)
Signification de l’acceptation
AccepterH0ne signifie pas queH0 est vraie
1. par d´efaut, on accepteH0`a moins qu’on apporte une ”preuve” que H0n’est pas acceptable
2. Accepter signifie seulement qu’on n’a pas pu apporter une preuve queH0n’est pas acceptable : on pr´ef´erera dire que
le test ne permet pas de rejeter plutˆot que ”on accepte”.
3. unepreuve est l’observation d’un ´ev´enement ”rare” sousH0 : ”sous H0, la statistique de test prend une valeur qui peut ˆetre consid´er´ee comme rare” est une preuve de rejet
4. la ”raret´e” d’un ´ev´enement est fix´ee par le niveau (asymptotique)α 5. si dans l’exemple, le vrai θ= 0.5 + 10−10, il est fort probable qu’on
ne rejette pas alors que H0 est fausse.
Signification du rejet
Seul le rejet est informatif
1. rejeter signifie qu’on a apport´e la preuve queH0ne peut pas ˆetre accept´ee
2. `a un niveau αfix´e, on rejette quand la valeur prise par la statistique de test est rare ´etant connue sa loi sous H0(d´eclarer un ´ev´enement rare d´epend du niveauα)
3. en g´en´eral,sousH0, on connaˆıt la loi asymptotique de la statistique de test (ex. : bθnmv∼ N(0.5,(4n)−1)) donc si la valeur prise par cette statistique en les observations :θbnmv(z) est peu vraisemblable pour sa loi limite (ex. :θbnmv= 0.9) alors on rejettera =
on aura apport´e une preuve queH0n’est pas acceptable 4. lap-value mesure le niveau de raret´e de la valeur observ´ee de la
statistique de test pour la loi de la statistique de test sousH0.
Choix des hypoth` eses : dissym´ etrie
le choix des hypoth`eses est important
1. Pour une partition Θ =A∪B, il n’y a pas ´equivalence entre les deux probl`emes de test
H0:θ∈AcontreH1:θ∈B et
H0:θ∈B contreH1:θ∈A
2. on choisit les hypoth`eses en fonction de l’int´erˆet qu’on porte au probl`eme : l’hypoth`eseH0 est privil´egi´ee
3. l’hypoth`eseH0est privil´egi´ee car on a d´ecid´e de se
couvrir contre le risque de 1`ere esp`ece avant le risque de 2-i`eme esp`ece : c`ad, on souhaite ´eviter avant tout de rejeter `a tort et par cons´equent, on a tendance `a ”trop accepter”
4. il est plus facile d’accepter que de rejeter car le rejet n´ecessite une
M´ ethodologie pour les tests asymptotiques (1/2)
a) trouver une statistique de test(souvent un estimateur)θbn
b) telle que sousH0 (c`ad ici pourθ=θ0), on a une normalit´e asymptotique
s n
v(bθn) bθn−θ0 d
−→V
(ouv(θ0) `a la place dev(bθn))
c) et tel que sous H1 (c`ad ici pourθ > θ0) : s n
v(bθn) θbn−θ0
p.s.
−→+∞
(avec ou sans valeurs absolues selon la forme deH1)
M´ ethodologie pour les tests asymptotiques (2/2)
d) on utilise cette statistique pour construire un test de niveau asymptotique α∈(0,1) en posant
ϕ(Z) = (
H0 quand (bθn−θ0)≤ q
V 1−α
√
v(bθn)
√n :=tn,α H1 sinon
La forme du test (iciθbn−θ0 plus petit que quelque chose) est donn´ee par le comportement deθbn−θ0sousH1.
e) on a, sous H0, Pθ0[rejet] =Pθ0
h
θbn−θ0>tn,αi
−→P[V >qV1−α] =α C’est donc un test de niveau asymptotiqueα.
f) La puissance tend vers 1 car, sous H1,Pθ[bθn−θ0>tn,α]→1.
Choix de tests : notion d’optimalit´ e pour les tests
Hypoth` ese simple contre alternative simple
I Cas o`u Θ ={θ0, θ1} avecθ06=θ1 et
Θ0={θ0} contre Θ1={θ1}
I Existe-t-il un test ϕ? optimal, au sens o`u :∀ϕtest, on a simultan´ementun meilleur contrˆole sur les deux erreurs (1`ere et 2-i`eme esp`ece)
Pθ0
ϕ?=H1
≤Pθ0
ϕ=H1
”proba de rejet `a tort”
Pθ1
ϕ?=H0
≤Pθ1
ϕ=H0
”proba d’accepter `a tort”
I SiPθ0 etPθ1 ne sont pas´etrang`eres(cf. Cours 5) un tel testϕ?ne peut pas exister.
Riposte : principe de Neyman (1/2)
I Ondissym´etriseles hypoth`esesH0etH1 :H0 estplus importante queH1 dans le sens suivant : onimpose uneerreur de premi`ere esp`ece prescrite:
on souhaite ´eviter avant tout de rejeter `a tort
D´ efinition
Pourα∈(0,1), un testϕ=ϕα de l’hypoth`ese nulle H0:θ∈Θ0contre une alternative H1 est deniveauαsi
sup
θ∈Θ0
Pθ
ϕα=H1
≤α
I Un test de niveau αne ditriensur la fonction erreur de seconde esp`ece (ou la puissance).
Riposte : principe de Neyman (2/2)
D´ efinition
Soitϕun test de zone de rejetR. Lapuissancedu testϕest la fonction πϕ:θ∈Θ17→Pθ[Z ∈ R](proba de rejeter `a raison)
I Principe de Neyman :α∈(0,1), parmi les tests de niveau α, chercher celui (ou ceux) qui sont les plus puissants
D´ efinition
Un test de niveauαest dit Uniform´ement Plus Puissant(UPP) si sa puissance est maximale parmi celles de tous les tests de niveauα:
1. supθ∈Θ
0Pθ
ϕ?=H1
≤α 2. et si ϕest tel que supθ∈Θ
0Pθ
ϕ=H1
≤αalors
∀θ∈Θ1, πϕ?(θ)≥πϕ(θ)
Test de Neyman-Pearson
(test du rapport de vraisemblance) Pour le cas d’unehypoth`ese nulle simple(c`adΘ0={θ0}) contre une hypoth`ese alternative simple(c`adΘ1={θ1}) , un test UPP existe : c’est le test de Neyman-Pearson (ou test du rapport de vraisemblance) dont la construction est comme suit :I f(θ,z) =ddµPθ(z), z ∈Z, θ∈ {θ0, θ1},µmesure dominante
I On choisit uner´egion critique de la forme R(c) =
z ∈Z:f(θ1,z)>cf(θ0,z) , c>0 et on calibrec=cα de sorte que
Pθ0
Z ∈ R(cα)
=α
I Le test ainsi construit (si cette ´equation admet une solution)est de niveauα. Onmontrequ’il est UPP.
Lemme de Neyman-Pearson
Proposition
Soitα∈[0,1]. S’il existe cαsolution de Pθ0
f(θ1,Z)>cαf(θ0,Z)
=α alors le test de r´egion critique
Rα=
z :f(θ1,z)>cαf(θ0,z)
est de niveauαetUPPpour tester H0:θ=θ0 contre H1:θ=θ1.
I Rem. : Si U=f(θ1,Z)/f(θ0,Z) est bien d´efinie etPU<< λ(sous Pθ0), alorsPθ0
U >cα
=αadmet une solution.
Exemple de test de Neyman-Pearson (1/4)
On observeZ = (X1, . . . ,Xn) o`uX1, . . . ,Xni.i.d.∼ N(θ,1). Pourθ0< θ1, on consid`ere le probl`eme de test
H0:θ=θ0 contreH1:θ=θ1
La vraisemblance enθest f(θ,Z) =(2π)1n/2exp
−1 2
n
X
i=1
Xi2+nθXn−nθ2 2
Le rapport de vraisemblanceest f(θ1,Z)
f(θ0,Z)= exp
n(θ1−θ0)Xn−n
2(θ21−θ20)
Exemple de test de Neyman-Pearson (2/4)
I Zone de rejetdu test de N-P. : R(c) =
z ∈Rn:f(θ1,z)>cf(θ0,z)
=
(x1, . . . ,xn)>∈Rn:n(θ1−θ0)xn−n
2(θ21−θ20)>logc
=
(x1, . . . ,xn)>∈Rn:xn> θ0+θ1
2 +n(θlogc
1−θ0)
I Choix dec : on r´esout Pθ0
Xn> 12(θ0+θ1) +n(θlogc
1−θ0)
=α Sous Pθ0 :
Xn∼ N θ0,1n
Exemple de test de Neyman-Pearson (3/4)
R´esoudre en c: pourg ∼ N(0,1), P
hθ0+ 1
√ng >1
2(θ0+θ1) + logc n(θ1−θ0)
i=α
c`adP g >
√n
2 (θ1−θ0) +√1nθlogc
1−θ0
=α,soit
√n
2 (θ1−θ0) + 1
√n logc
θ1−θ0 =q1−α, o`uq1−α est le quantile d’ordre 1−αd’uneN(0,1)
I Conclusion : le test de NP de niveauαa pour zone de rejetR(cα) o`u
cα= exp√
n(θ1−θ0)q1−α−n(θ1−θ0)2 2
qui peut s’´ecrire plus simplement par
R(cα) ={(x1, . . . ,xn)>∈Rn:xn> θ0+tn,α}o`utn,α= q1−α
√n .
Exemple de test de Neyman-Pearson (4/4)
On voit que le test de NP s’´ecrit sous la forme : ϕ(Z) =
H0 quandXn≤θ0+tn,α
H1 sinon o`utn,α= q1−α
√n
rem. : la valeurθ1 n’intervient pas dans le test de NP.
I lapuissancedu test est ici :
πϕ(θ1) =Pθ1[Xn> θ0+tn,α] =P[g >√
n(θ0−θ1) +q1−α] car sous Pθ1,Xn∼ N(θ1,1/n).
rem. : La puissance augmente quandnaugmente et quand|θ0−θ1| augmente. L’alternative n’intervient que dans la puissance.
Tests classiques dans le mod` ele d’´ echantillonnage
gaussien
Test sur la moyenne ` a variance connue
On observeZ = (X1, . . . ,Xn)∼ N(µ, σ2Idn) o`uσest connue. On consid`ere le probl`eme de test
H0:µ≤µ0 contre H1:µ > µ0
Principeon estimeµet on rejetteH0si l’estimateur estplus grandqueµ0. On consid`ere des tests de la forme
ϕα(Z) =
H0 siXn≤µ0+tn,α
H1 sinon
On choisit leseuil tn,α tel que sup
µ≤µ0
Pµ
ϕα(Z) =H1
=α
Rem. : On verra pourquoiXn est la statistique de test naturelle pour ce probl`eme lors de l’´etude des probl`emes de test `a rapport de vraisemblance
D´ etermination de t
n,αMajoration de l’erreur de premi`ere esp`ece. Soitµ≤µ0. SousPµ, Xn∼ N(µ, σ2/n), alors pourg ∼ N(0,1)
Pµ
Xn−µ0≥tn,α
=P
(µ+√σng)−µ0≥tn,α
=P√σ
ng ≥tn,α+ (µ0−µ)
≤P σ
√ng ≥tn,α
on veut
= α
On prend
tn,α= σq1−α
√n En particulier, on a :
sup
µ≤µ0
Pµ
ϕα(Z) =H1
=Pµ0
ϕα(Z) =H1
Calcul de la puissance du test
Soitµ > µ0. Sous Pµ, la loi deXnestN(µ, σ2/n) alors lafonction de puissancedu test est
µ∈(µ0,+∞)7→Pµ
Xn−µ0≥tα,n
=P hg ≥
√n(µ0−µ)
σ +q1−αi
Rem. :
I la puissance tend vers 1 quandntend vers +∞,
I c’est un test UPP ; il fautd’autres outils pour le montrer.
Test sur la moyenne ` a variance inconnue
I Ingr´edient principal: sn2:= 1
n−1
n
X
i=1
(Xi−Xn)2= n
n−1 bσ2nmv
alors
(n−1)sn2
σ2 ∼χ2(n−1)
et √
n(Xn−µ) sn
∼Student(n−1)
et ces variables sont pivotales: leur loi ne d´epend pas deµ, σ2 sous Pµ,σ2.
I Les lois du χ2et de Student(`ak degr´es de libert´e) sont classiques et s’´etudient ind´ependamment.
Tests sur la moyenne
I On testeH0:µ≤µ0contreH1:µ > µ0. Un test de niveauα: donn´e par la zone de rejet
Rα=
z ∈Rn:T(z)>q1−α,n−1T o`u
T(Z) =
√n(Xn−µ0) sn
etq1−α,n−1T = quantile d’ordre 1−αde la loi de Student `an−1 degr´es de libert´e :
P
Studentn−1>q1−α,n−1T
=α
I Rem. : Pour le test H0:µ=µ0contreH1:µ6=µ0, un test de niveauαest donn´e parRα=
z ∈Rn: T(z)
>q1−α/2,n−1T .
Test sur la variance
I On testeH0:σ2≤σ02contreH1:σ2> σ02. Un test de niveauα: donn´e par la zone de rejet
Rα=
z ∈Rn:V(z)>q1−α,n−1χ2 , o`u
V(Z) = 1 σ02
n
X
i=1
(Xi−X)2 et
P
Chi-deuxn−1>q1−α,n−1χ2
=α.
I Mˆemes remarques m´ethodologiquessur l’optimalit´e de ces tests que pr´ec´edemment.