• Aucun résultat trouvé

Statistiques math´ematiques : Cours 6

N/A
N/A
Protected

Academic year: 2022

Partager "Statistiques math´ematiques : Cours 6"

Copied!
37
0
0

Texte intégral

(1)

Statistiques math´ ematiques : Cours 6

Guillaume Lecu´e

4 septembre 2018

(2)

Aujourd’hui

Introduction aux tests

Hypoth`ese simple contre alternative simple

Lemme de Neyman-Pearson

Tests gaussiens

Tests sur la moyenne Tests sur la variance

(3)

Exemple introductif

I On observe 10 lancers d’une pi`ece de monnaie et on obtient le r´esultat suivant :

(P,P,F,F,P,F,P,P,F,P) Question : La pi`ece est-elle ´equilibr´ee?

I R´epondre`a cette question revient `aprendre une d´ecision : ϕ=ϕ(P,P,F,F,P,F,P,P,F,P)

=

on acceptel’hypoth`esela pi`ece est ´equilibr´ee on rejettel’hypoth`esela pi`ece est ´equilibr´ee

(4)

Exemple introductif : mod`elisation et d´efinition des hypoth`eses

I Mod´elisation : On mod´elise ces observations par l’exp´erience statistique

E10= {0,1}10,P({0,1}10),{P10θ, θ∈[0,1]}

,

avec (P= 1, F = 0)

P10θ = θδ1+ (1−θ)δ0⊗10

I et on ”traduit” la question en termes math´ematiques : r´esoudre le probl`eme de test suivant

H0:θ=1

2 contre H1:θ6= 1 2

D´ efinition

L’hypoth`ese H est appel´eehypoth`ese nulle.

(5)

D´ efinitions

D´ efinition

1. Soit Z une observation de l’exp´erience statistique E = (Z,Z,{Pθ:θ∈Θ}).

2. SoitΘ = Θ0∪Θ1une partition de l’espace des param`etres.

3. Soit le probl`eme de test

H0:θ∈Θ0 contre H1:θ∈Θ1

Untest our´egle de d´ecision est une statistique de la forme ϕ(Z) =I(Z ∈ R) =

H0 ”on accepte”

H1 ”on rejette”

R ⊂Zest appel´eezone de rejet our´egion critique.

(6)

Exemple introductif : construction d’un test (1/2)

I Z = (X1, . . . ,X10) : observation dans le mod`ele d’´echantillonnage de Bernoulli {Pθ: 0< θ <1}o`uPθ=θδ1+ (1−θ)δ0

I on regarde le probl`eme de test suivant : H0:θ=1

2 contre H1:θ6= 1 2

I on construit un test`a partir de l’EMVθbnmv= ¯Xn= ¯X10(n= 10) et d’un seuilt0 donn´e :

ϕ(Z) =I(Z ∈ R) =

H0 quand

nmv12 ≤t0 H1 sinon

I lazone de rejet est ici R=

z ∈ {0,1}10:

nmv(z)−12 >t0

(7)

Exemple introductif : construction d’un test (2/2)

I Dans le test pr´ec´edent ϕ(Z) =I(Z ∈ R) =

H0 quand

nmv12 ≤t0

H1 sinon

l’EMVθbnmva ´et´e utilis´e pour construire le test. C’est une approche classique : ici l’EMV joue le rˆole destatistique de test

I On peut calculer l’EMV sur les donn´ees :θbnmvexemple= 0,6 et donc prendre une d´ecision.

Question : comment choisir le seuil t0?

I y-a-t’il un meilleur choix de test ? une meilleure statistique de test ?

(8)

Les deux types d’erreurs de d´ ecision

Z une observation, Θ = Θ0∪Θ1 une partition et le probl`eme de test H0:θ∈Θ0 contre H1:θ∈Θ1

D´ efinition

Soitϕun test de zone de rejetR(c`adϕ(z) =I(z ∈ R))

I L’erreur de premi`ere esp`ece(rejeter `a tort) sup

θ∈Θ0

Pθ[Z ∈ R]

I La fonction d’erreur de seconde esp`ece(accepter `a tort) θ∈Θ17→Pθ[Z ∈ R] = 1/ −πϕ(θ) o`uπϕ(θ) =Pθ[Z ∈ R]est la fonction puissancedu test

(9)

Exemple introductif : les deux types d’erreurs

Le testϕ(z) =I(|θbnmv(z)−0.5|>t0) peut faire deux types d’erreurs :

I rejeter `a tort :

Rejeter (ϕ(Z) =H1) alors que θ= 12∈Θ0={12} dans ce cas, l’erreur de premi`ere esp`eceest

P0.5[|θbnmv(Z)−0.5|>t0]

I accepter `a tort :

Accepter (ϕ(Z) =H0) alors que θ6= 12 dans ce cas, la fonction d’erreur de seconde esp`eceest

θ6= 1/27→Pθ[|θbnmv(Z)−0.5| ≤t0]

et lafonction puissanceestθ6= 1/27→Pθ[|θbnmv(Z)−0.5|>t0] (rejeter `a raison).

(10)

Niveau asymptotique d’un test

D´ efinition

Dans le mod`ele d’´echantillonnage, on construit une suite de test(ϕn)(o`u n est le nombre d’observations). Soitα∈(0,1). On dit que(ϕn)est de niveau asymptotiqueαquand

∀θ∈Θ0, lim sup

n→∞ Pθn=H1]≤α

1. on veut s’assurer qu’asymptotiquement la probabilit´e de rejeter `a tort est moins que α

2. id´ealement, on aimerait pouvoir fixer un niveau pour les deux types d’erreurs (1`ere et 2-i`eme) mais ce n’est pas possible en g´en´eral. On va donc privil´egier un contrˆole de l’erreur de 1`ere esp`ece en

construisant des tests de niveau asymptotique donn´e :introduction d’une dissym´etrie

(11)

Exemple introductif : ´ etude asymptotique du test

SousH0 (c`adθ= 1/2) :

√n θbnmv−0.5 d

−→ N(0,1/4) en particulier, pourg ∼ N(0,1),

P0.5[

nmv−0.5

>tn,α]−→P[|g|>q1−α/2] =α o`u, pour le quantileq1−α/2 d’ordre 1−α/2 deg

tn,α=q1−α/2 2√

n

SousH1 (c`adθ6= 1/2) : pour toutθ∈Θc0= Θ1= (0,1)− {0.5},

√n

nmv−0.5

p.s.→ +∞

(la puissance tend vers 1)

(12)

Exemple introductif : prise de d´ ecision

Les donn´ees d’origines ´etaient :

z = (P,P,F,F,P,F,P,P,F,P)

l’EMV vaut doncθb10mv(z) = 0.6 et, pour un α∈(0,1) donn´e le test est

ϕ(Z) = (

H0 quand

10mv(Z)−12

≤t10,α= q1−α/2

2 10

H1 sinon Par exemple :

1. pour α= 5%, on a q1−α/2≈1.96ett10,α≈0.31 alors comme

10mv(z)−12

= 0.1≤t10,5%, onaccepte

2. pour α= 10%, on aq1−α/2≈1.64, alorst10,α≈0.26 alors comme

10mv(z)−12

= 0.1≤t10,10%, on accepte

(13)

Exemple introductif : introduction de la p-value

Le choix du niveauαest arbitraire. Dans l’exemple pr´ec´edent, on va

I accepter tant queq1−α/2≥2√ 10∗

10mv12

I rejeter d`es queq1−α/2≤2√ 10∗

10mv12

Lavaleur limite deαpour laquelle la d´ecision basculec`ad leαtel que q1−α/2= 2√

10∗

10mv12

est appel´ee lap-value.

Ici la p-value est donn´ee par l’´equation (enα) q1−α/2= 2√

10∗0.1≈0.63 c`adα= p-value≈0.525.

(14)

p-value : introduction formelle

D´ efinition

Soitϕα un test de niveau asymptotiqueαet de zone de rejetRα. On appellep-valuedu test la statistique

p−value(Z) = inf(α∈(0,1) :Z ∈ Rα)

I c’est le seuil critique o`u la d´ecision bascule : ϕα(Z) =

H0 quandα≤p−value(Z) H1 quandα >p−value(Z)

I lap-valuequantifie le niveau de confiance sur l’acceptation (deH0)

(15)

p-value : interpr´ etation

p-value niveau de confiance

sur l’acceptation d´ecision

p<0.01 tr`es faible rejet (avec

confiance) 0.01≤p<0.05 faible rejet

0.05≤p<0.1 fort acceptation

0.1≤p tr`es fort acceptation (avec

confiance)

I forte p-value : le test ne permet pas de rejeter H0

I petite p-value : mˆeme si on prend un niveau de test tr`es petit, le test rejeteraH0(alors qu’on a une forte aversion au risque de 1`ere esp`ece, c`ad de rejeter `a tort)

I dans l’exemple, on a p-value ≈0.525, on va donc accepter (avec confiance)

(16)

Signification de l’acceptation

AccepterH0ne signifie pas queH0 est vraie

1. par d´efaut, on accepteH0`a moins qu’on apporte une ”preuve” que H0n’est pas acceptable

2. Accepter signifie seulement qu’on n’a pas pu apporter une preuve queH0n’est pas acceptable : on pr´ef´erera dire que

le test ne permet pas de rejeter plutˆot que ”on accepte”.

3. unepreuve est l’observation d’un ´ev´enement ”rare” sousH0 : ”sous H0, la statistique de test prend une valeur qui peut ˆetre consid´er´ee comme rare” est une preuve de rejet

4. la ”raret´e” d’un ´ev´enement est fix´ee par le niveau (asymptotique)α 5. si dans l’exemple, le vrai θ= 0.5 + 10−10, il est fort probable qu’on

ne rejette pas alors que H0 est fausse.

(17)

Signification du rejet

Seul le rejet est informatif

1. rejeter signifie qu’on a apport´e la preuve queH0ne peut pas ˆetre accept´ee

2. `a un niveau αfix´e, on rejette quand la valeur prise par la statistique de test est rare ´etant connue sa loi sous H0(d´eclarer un ´ev´enement rare d´epend du niveauα)

3. en g´en´eral,sousH0, on connaˆıt la loi asymptotique de la statistique de test (ex. : bθnmv∼ N(0.5,(4n)−1)) donc si la valeur prise par cette statistique en les observations :θbnmv(z) est peu vraisemblable pour sa loi limite (ex. :θbnmv= 0.9) alors on rejettera =

on aura apport´e une preuve queH0n’est pas acceptable 4. lap-value mesure le niveau de raret´e de la valeur observ´ee de la

statistique de test pour la loi de la statistique de test sousH0.

(18)

Choix des hypoth` eses : dissym´ etrie

le choix des hypoth`eses est important

1. Pour une partition Θ =A∪B, il n’y a pas ´equivalence entre les deux probl`emes de test

H0:θ∈AcontreH1:θ∈B et

H0:θ∈B contreH1:θ∈A

2. on choisit les hypoth`eses en fonction de l’int´erˆet qu’on porte au probl`eme : l’hypoth`eseH0 est privil´egi´ee

3. l’hypoth`eseH0est privil´egi´ee car on a d´ecid´e de se

couvrir contre le risque de 1`ere esp`ece avant le risque de 2-i`eme esp`ece : c`ad, on souhaite ´eviter avant tout de rejeter `a tort et par cons´equent, on a tendance `a ”trop accepter”

4. il est plus facile d’accepter que de rejeter car le rejet n´ecessite une

(19)

M´ ethodologie pour les tests asymptotiques (1/2)

a) trouver une statistique de test(souvent un estimateur)θbn

b) telle que sousH0 (c`ad ici pourθ=θ0), on a une normalit´e asymptotique

s n

v(bθn) bθn−θ0 d

−→V

(ouv(θ0) `a la place dev(bθn))

c) et tel que sous H1 (c`ad ici pourθ > θ0) : s n

v(bθn) θbn−θ0

p.s.

−→+∞

(avec ou sans valeurs absolues selon la forme deH1)

(20)

M´ ethodologie pour les tests asymptotiques (2/2)

d) on utilise cette statistique pour construire un test de niveau asymptotique α∈(0,1) en posant

ϕ(Z) = (

H0 quand (bθn−θ0)≤ q

V 1−α

v(bθn)

n :=tn,α H1 sinon

La forme du test (iciθbn−θ0 plus petit que quelque chose) est donn´ee par le comportement deθbn−θ0sousH1.

e) on a, sous H0, Pθ0[rejet] =Pθ0

h

θbn−θ0>tn,αi

−→P[V >qV1−α] =α C’est donc un test de niveau asymptotiqueα.

f) La puissance tend vers 1 car, sous H1,Pθ[bθn−θ0>tn,α]→1.

(21)

Choix de tests : notion d’optimalit´ e pour les tests

(22)

Hypoth` ese simple contre alternative simple

I Cas o`u Θ ={θ0, θ1} avecθ06=θ1 et

Θ0={θ0} contre Θ1={θ1}

I Existe-t-il un test ϕ? optimal, au sens o`u :∀ϕtest, on a simultan´ementun meilleur contrˆole sur les deux erreurs (1`ere et 2-i`eme esp`ece)

Pθ0

ϕ?=H1

≤Pθ0

ϕ=H1

”proba de rejet `a tort”

Pθ1

ϕ?=H0

≤Pθ1

ϕ=H0

”proba d’accepter `a tort”

I SiPθ0 etPθ1 ne sont pas´etrang`eres(cf. Cours 5) un tel testϕ?ne peut pas exister.

(23)

Riposte : principe de Neyman (1/2)

I Ondissym´etriseles hypoth`esesH0etH1 :H0 estplus importante queH1 dans le sens suivant : onimpose uneerreur de premi`ere esp`ece prescrite:

on souhaite ´eviter avant tout de rejeter `a tort

D´ efinition

Pourα∈(0,1), un testϕ=ϕα de l’hypoth`ese nulle H0:θ∈Θ0contre une alternative H1 est deniveauαsi

sup

θ∈Θ0

Pθ

ϕα=H1

≤α

I Un test de niveau αne ditriensur la fonction erreur de seconde esp`ece (ou la puissance).

(24)

Riposte : principe de Neyman (2/2)

D´ efinition

Soitϕun test de zone de rejetR. Lapuissancedu testϕest la fonction πϕ:θ∈Θ17→Pθ[Z ∈ R](proba de rejeter `a raison)

I Principe de Neyman :α∈(0,1), parmi les tests de niveau α, chercher celui (ou ceux) qui sont les plus puissants

D´ efinition

Un test de niveauαest dit Uniform´ement Plus Puissant(UPP) si sa puissance est maximale parmi celles de tous les tests de niveauα:

1. supθ∈Θ

0Pθ

ϕ?=H1

≤α 2. et si ϕest tel que supθ∈Θ

0Pθ

ϕ=H1

≤αalors

∀θ∈Θ1, πϕ?(θ)≥πϕ(θ)

(25)

Test de Neyman-Pearson

(test du rapport de vraisemblance) Pour le cas d’unehypoth`ese nulle simple(c`adΘ0={θ0}) contre une hypoth`ese alternative simple(c`adΘ1={θ1}) , un test UPP existe : c’est le test de Neyman-Pearson (ou test du rapport de vraisemblance) dont la construction est comme suit :

I f(θ,z) =dPθ(z), z ∈Z, θ∈ {θ0, θ1},µmesure dominante

I On choisit uner´egion critique de la forme R(c) =

z ∈Z:f(θ1,z)>cf(θ0,z) , c>0 et on calibrec=cα de sorte que

Pθ0

Z ∈ R(cα)

I Le test ainsi construit (si cette ´equation admet une solution)est de niveauα. Onmontrequ’il est UPP.

(26)

Lemme de Neyman-Pearson

Proposition

Soitα∈[0,1]. S’il existe cαsolution de Pθ0

f(θ1,Z)>cαf(θ0,Z)

=α alors le test de r´egion critique

Rα=

z :f(θ1,z)>cαf(θ0,z)

est de niveauαetUPPpour tester H0:θ=θ0 contre H1:θ=θ1.

I Rem. : Si U=f(θ1,Z)/f(θ0,Z) est bien d´efinie etPU<< λ(sous Pθ0), alorsPθ0

U >cα

=αadmet une solution.

(27)

Exemple de test de Neyman-Pearson (1/4)

On observeZ = (X1, . . . ,Xn) o`uX1, . . . ,Xni.i.d.∼ N(θ,1). Pourθ0< θ1, on consid`ere le probl`eme de test

H0:θ=θ0 contreH1:θ=θ1

La vraisemblance enθest f(θ,Z) =(2π)1n/2exp

−1 2

n

X

i=1

Xi2+nθXn−nθ2 2

Le rapport de vraisemblanceest f(θ1,Z)

f(θ0,Z)= exp

n(θ1−θ0)Xn−n

2(θ21−θ20)

(28)

Exemple de test de Neyman-Pearson (2/4)

I Zone de rejetdu test de N-P. : R(c) =

z ∈Rn:f(θ1,z)>cf(θ0,z)

=

(x1, . . . ,xn)>∈Rn:n(θ1−θ0)xn−n

2(θ21−θ20)>logc

=

(x1, . . . ,xn)>∈Rn:xn> θ01

2 +n(θlogc

1−θ0)

I Choix dec : on r´esout Pθ0

Xn> 1201) +n(θlogc

1−θ0)

=α Sous Pθ0 :

Xn∼ N θ0,1n

(29)

Exemple de test de Neyman-Pearson (3/4)

R´esoudre en c: pourg ∼ N(0,1), P

0+ 1

√ng >1

2(θ01) + logc n(θ1−θ0)

i=α

c`adP g >

n

21−θ0) +1nθlogc

1−θ0

=α,soit

√n

2 (θ1−θ0) + 1

√n logc

θ1−θ0 =q1−α, o`uq1−α est le quantile d’ordre 1−αd’uneN(0,1)

I Conclusion : le test de NP de niveauαa pour zone de rejetR(cα) o`u

cα= exp√

n(θ1−θ0)q1−α−n(θ1−θ0)2 2

qui peut s’´ecrire plus simplement par

R(cα) ={(x1, . . . ,xn)>∈Rn:xn> θ0+tn,α}o`utn,α= q1−α

√n .

(30)

Exemple de test de Neyman-Pearson (4/4)

On voit que le test de NP s’´ecrit sous la forme : ϕ(Z) =

H0 quandXn≤θ0+tn,α

H1 sinon o`utn,α= q1−α

√n

rem. : la valeurθ1 n’intervient pas dans le test de NP.

I lapuissancedu test est ici :

πϕ1) =Pθ1[Xn> θ0+tn,α] =P[g >√

n(θ0−θ1) +q1−α] car sous Pθ1,Xn∼ N(θ1,1/n).

rem. : La puissance augmente quandnaugmente et quand|θ0−θ1| augmente. L’alternative n’intervient que dans la puissance.

(31)

Tests classiques dans le mod` ele d’´ echantillonnage

gaussien

(32)

Test sur la moyenne ` a variance connue

On observeZ = (X1, . . . ,Xn)∼ N(µ, σ2Idn) o`uσest connue. On consid`ere le probl`eme de test

H0:µ≤µ0 contre H1:µ > µ0

Principeon estimeµet on rejetteH0si l’estimateur estplus grandqueµ0. On consid`ere des tests de la forme

ϕα(Z) =

H0 siXn≤µ0+tn,α

H1 sinon

On choisit leseuil tn,α tel que sup

µ≤µ0

Pµ

ϕα(Z) =H1

Rem. : On verra pourquoiXn est la statistique de test naturelle pour ce probl`eme lors de l’´etude des probl`emes de test `a rapport de vraisemblance

(33)

D´ etermination de t

n,α

Majoration de l’erreur de premi`ere esp`ece. Soitµ≤µ0. SousPµ, Xn∼ N(µ, σ2/n), alors pourg ∼ N(0,1)

Pµ

Xn−µ0≥tn,α

=P

(µ+σng)−µ0≥tn,α

=Pσ

ng ≥tn,α+ (µ0−µ)

≤P σ

ng ≥tn,α

on veut

= α

On prend

tn,α= σq1−α

√n En particulier, on a :

sup

µ≤µ0

Pµ

ϕα(Z) =H1

=Pµ0

ϕα(Z) =H1

(34)

Calcul de la puissance du test

Soitµ > µ0. Sous Pµ, la loi deXnestN(µ, σ2/n) alors lafonction de puissancedu test est

µ∈(µ0,+∞)7→Pµ

Xn−µ0≥tα,n

=P hg ≥

√n(µ0−µ)

σ +q1−αi

Rem. :

I la puissance tend vers 1 quandntend vers +∞,

I c’est un test UPP ; il fautd’autres outils pour le montrer.

(35)

Test sur la moyenne ` a variance inconnue

I Ingr´edient principal: sn2:= 1

n−1

n

X

i=1

(Xi−Xn)2= n

n−1 bσ2nmv

alors

(n−1)sn2

σ2 ∼χ2(n−1)

et √

n(Xn−µ) sn

∼Student(n−1)

et ces variables sont pivotales: leur loi ne d´epend pas deµ, σ2 sous Pµ,σ2.

I Les lois du χ2et de Student(`ak degr´es de libert´e) sont classiques et s’´etudient ind´ependamment.

(36)

Tests sur la moyenne

I On testeH0:µ≤µ0contreH1:µ > µ0. Un test de niveauα: donn´e par la zone de rejet

Rα=

z ∈Rn:T(z)>q1−α,n−1T o`u

T(Z) =

√n(Xn−µ0) sn

etq1−α,n−1T = quantile d’ordre 1−αde la loi de Student `an−1 degr´es de libert´e :

P

Studentn−1>q1−α,n−1T

I Rem. : Pour le test H0:µ=µ0contreH1:µ6=µ0, un test de niveauαest donn´e parRα=

z ∈Rn: T(z)

>q1−α/2,n−1T .

(37)

Test sur la variance

I On testeH02≤σ02contreH12> σ02. Un test de niveauα: donn´e par la zone de rejet

Rα=

z ∈Rn:V(z)>q1−α,n−1χ2 , o`u

V(Z) = 1 σ02

n

X

i=1

(Xi−X)2 et

P

Chi-deuxn−1>q1−α,n−1χ2

=α.

I Mˆemes remarques m´ethodologiquessur l’optimalit´e de ces tests que pr´ec´edemment.

Références

Documents relatifs

Une autre difficult´ e de comprendre l’implication est que, dans un rai- sonnement habituel, l’implication est consid´ er´ ee comme la causalit´ e, or ce n’est pas du tout le

Abstract: In this paper, we develop a large deviations principle for random evolution delay equations driven by small multiplicative white noise in h¨ olderian space.. Keywords:

1. Construire des mod` eles statistiques pour des donn´ ees classiques 2. Connaˆıtre leurs propri´ et´ es statistiques et les outils math´ ematiques qui permettent de les

si les points sont “approximativement” align´ es avec une droite affine alors l’hypoth` ese est vraie ` a une transformation de centrage et.1. convergence des

I On g´ en´ eralise le principe pr´ ec´ edent pour une famille de lois et un ensemble de param` etres quelconque. I Situation : X

Mod` eles r´ eguliers et information de Fisher Construction de l’information de Fisher Cadre g´ en´ eral et interpr´ etation g´ eom´ etrique Exemples, applications..

Information de Fisher et r´ esultats non-asymptotiques : borne de Cramer-Rao.. Approche non-asymptotique de

r´ esultat : construction du test de Neyman-Pearson grˆ ace au rapport de vraisemblance pour les probl` emes de tests ` a hypoth` eses simples – propri´ et´ e UPP des tests