• Aucun résultat trouvé

Tests statistiques paramétriques usuels

N/A
N/A
Protected

Academic year: 2021

Partager "Tests statistiques paramétriques usuels"

Copied!
17
0
0

Texte intégral

(1)

Chapitre 6

Tests statistiques paramétriques usuels

Chap 6.

1.  Introduction

2.  Tests paramétriques usuels à partir dun échantillon

3.  Notion de puissance de test 4.  Tests de comparaison

1.  Introduction

Vérité

Décision prise H

0

H

1

H

0

1- α β

H

1

α 1- β

On est souvent amenés à prendre des décisions sur la base d’un ensemble d’observations. On fera un choix entre deux propositions contradictoires: les hypothèses H0 et H1 (nulle et alternative

respectivement), qui dépendent des paramètres théorique de la population.

Pour trancher, nous devons nous baser sur les obs. disponibles, i.e. les échantillons, avec 2 types d’erreurs possibles:

•  Risque de 1ere espèce α=P(H0 rejetée/H0 vraie) Fixé à une faible valeur (5% ou 1% généralement)

•  Risque de 2e espèce β=P(H0 non rejetée/H1 vraie)

•  1-β = puissance du test = P(H1 acceptée/ H1 vraie)

Si H0 rejetée, on dit que le test est significatif, le risque de cette décision, α, étant connu. Risque β souvent inconnu: on ne peut alors pas dire qu’on accepte H0 (test non significatif).

Variable de décision: variable aléatoire dont on connait la loi de probabilité; au moins si H0 est vraie.

Région critique: ensemble des valeurs de la variable aléatoire de décision qui permettent de refuser H0.

Variable de décision: variable aléatoire dont on connait la loi de probabilité; au moins si H0 est vraie.

Région critique: ensemble des valeurs de la variable aléatoire de décision qui

permettent d’écarter H0 au profit de H1.

(2)

Déroulement dun test:

1.  Choix de H0 et H1

2.  Choix de la variable de décision (statistique du test)

(choisie de façon à apporter le max d’info sur le pb posé et sa loi de probabilité sera différente selon que l’hypothèse nulle ou alternative est vraie.)

3.  Choix de α petit (typiquement 1% ou 5%)

4.  Calcul de la région critique en fonction de α et de la statistique du test 5.  Calcul de la valeur observée de la variable de décision

6.  Comparaison et conclusion: Rejet de lhypothèse si valeur calculée ∈ région critique

Test paramétrique: son objet est de tester une hypothèse relative à un ou plusieurs paramètres dune variable aléatoire (e.g. moyenne, variance) suivant une loi spécifiée ou pas.

Test simple:

H: θ = θ0, où θ0 est une valeur isolée de θ.

Test composite: H:

θ ≠ θ

0

, θ > θ

0 ou

θ < θ

0

Test bilatérale: région critique est séparée en 2 régions distinctes (on ne se soucie pas du signe);

Test unilatéral: région critique ne correspond qu’à une seule région connexe de l’espace des valeurs de la variable (on se soucie du signe).

(3)

Chap 6.

1.  Introduction

2.  Tests paramétriques usuels à partir dun échantillon

3.  Notion de puissance de test 4.  Tests de comparaison

2. Tests paramétriques usuels à partir dun échantillon

2.1) Comparaison d’une moyenne à une moyenne théorique donnée

On considère une variable aléatoire X ~ N(µ,σ) avec µ inconnue.

Note: si X nest pas Gaussienne mais que léchantillon est suff. grand (n> 30);

le théorème central limite (TCL) sapplique

=> méthodes indiquées pour une variable Gaussienne sont applicables.

Test unilatéral:

H0: µ = µ0

H1: µ > µ0

σ connu, µ estimé par la moyenne empirique et:

La statistique du test est donc: et si H0 vraie (cad si µ=µ0).

( )

(0,1) ( , )

/

2

N n X

n N

X n n σ

σ µ

µ ⎯⎯ →⎯⎯ ⎯⎯ →⎯⎯

ou

) , (

~

2

N n

X σ

µ n

Z X σ /

µ

= − Z ~ N ( 0 , 1 )

Région critique:

On peut ici utiliser la table de la loi normale N(0,1) Et H0 est rejetée si

( ) ( )

⎟⎟

⎠

⎞

⎜⎜

⎝

⎛ −

=

⎟⎟

⎠

⎞

⎜⎜

⎝

⎛ − =

− ≥

=

=

=

=

n Z x

P

n x

n P X

x X P vraie H

x X P

/

/ / / /

/ 0 lim

lim 0 0

lim 0

lim

σ µ

µ σ µ

µ σ

µ µ µ α

Quantile e1-α t.q. P(Z>=Zlim)=α (H0 rejetée)

P(Z<=e1-α)=1- α (H0 non rejetée)

e n X

soit x

X σ

µ + α

lim 0 1

(4)

Test unilatéral:

H0: µ = µH1: µ > µ0 0

σ inconnu, µ estimé par la moyenne empirique et:

La statistique du test est alors: avec

(démo: cf chap. 4)

S n

T X /

µ

= − ∑ ( )

=

− −

=

n i

i

X

n X S

1 2 2

1 1

H0 vraie, variable T suit une loi de Student à n-1 degrés de liberté.

On suit le même raisonnement que précédemment et H0 est rejetée si

n t S

X soit x

Xlim ≥ µ0 + n1,1α

Remarque: même raisonnement pour tester le test unilatéral: H0: µ = µ0 H1: µ < µ0

n t S

X soit x

Xlim ≤ µ0n1,1α H0 est rejetée si

Dans le cas dune variance inconnue e n

X soit x

X σ

µ − α

lim 0 1 Dans le cas dune variance connue

Note: si n>30, grand échantillon => variable de décision = Z avec σ≈S (estimation)

(5)

Test bilatéral:

H0: H1: µµ = µµ0 0

σ connu, µ estimé par la moyenne empirique et:

La statistique du test est donc: et si H0 vraie.

) , (

~

2

N n

X σ

µ n

Z X σ /

µ

= − Z ~ N ( 0 , 1 )

Région critique:

( ) ( )

⎟⎟

⎠

⎞

⎜⎜

⎝

⎛ −

− ≤

=

=

=

=

n Z x

n ou Z x

P

x X ou x

X P vraie H

x X ou x

X P

/ /

/ /

0 0 inf

sup

0 inf

sup 0

inf sup

σ µ σ

µ

µ µ α

ou

⎟ ⎟

⎠

⎞

⎜ ⎜

⎝

⎛ −

= n

Z x

P /

0 lim

σ

α µ

Quantile e1-α/2 t.q. P(|Z|<=e1-α/2)=1- α

Si on connait σ, H0 est donc rejetée si:

1 α 2

e

Z

ou si

n

n

µ σ

µ α σ α

1 2 0

1 2

0 + − ≤ − −

e ou X e

X

1 2 ) (

1 )) (

1 ( ) (

1 ) (

α

α α

=

=

=

u Z P

u Z P u

Z P

u Z u P

(6)

Test bilatéral:

H0: H1: µµ = µµ0 0

σ inconnu, µ estimé par la moyenne empirique et:

La statistique du test est donc: avec

n S T X

/ µ 0

= −

T suit une loi de Student à n-1 degrés de liberté.

Région critique:

Si on ne connait pas σ, H0 est donc rejetée avec un risque α si:

1 2

;

1 α

≥ −

t n

Z

ou si

n

n

t S X

S ou t

X n n

1 2

; 0 1

1 2

;

0 1 α µ α

µ + − − ≤ − − −

( )

=

− −

=

n i

i

X

n X S

1 2 2

1 1

⎟⎟

⎟

⎠

⎞

⎜⎜

⎜

⎝

⎛

= − −

1 2 ,

1 α

α P Z t n

n t S

x n

1 2 , 0 1

lim µ α

± −

=

(7)

2.2) Comparaison d’une proportion observée à une proportion théorique donnée

Test bilatéral:

H0: H1: ππ = ππ0 0

Nous considérons ici une variable aléatoire X prenant des valeurs binaires (0 ou 1 par exemple) et suit une loi de Bernouilli de paramètre π (fréquence empirique).

On observe un échantillon de n variables aléatoires indépendantes.

Si nπ > 5, alors X ~ N(π, π(1- π )).

La statistique du test est alors: avec fréquence observée

n Z X

) 1

( 0

0

0

π π

π

= − X = p 0

H0 vraie si Z suit une loi normale N(0,1) et on rejette H0 si:

1 α 2

e

Z

Test unilatéral:

H1: H0: ππ > = ππ0 0 (resp. π<π0)

On rejette H0 si:

Ze

1

α ( resp . Ze

1

α )

(8)

2.3) Comparaison d’une variance à une variance théorique

Moyenne connue (peu fréquent): H0: σ = σ

0

H1: σ > σ

0

Nous considérons ici des variables aléatoires X suivant une loi normale N(µ,σ2).

La statistique du test est alors:

H0 vraie si

2

2 2

nS n

σ χ

On rejette H0 si:

( )

=

=

n i

X

i

S n

1

2

2

1

µ

Note: 1/n et non 1/(n-1) car on veut tester si notre valeur obs est égale à la variance théorique.

Note:

( ) ( )

2 2

1

2 2

1 2

2

1 2 2

σ µ

σ σ

χ µ

nS

n X n

Z X

n i

i n

i

i n

i

n

i

∑ ∑

=

=

=

− =

− =

=

=

Risque de 1ere espèce – région critique:

( ) ⎟ ⎟

⎠

⎞

⎜ ⎜

⎝

⎛ ≥

=

=

= 2 2 , 1

0 2 0

2 lim / χ α

σ σ σ

α P S k P nS n

2 , 1 0 2

2 σ χ α

n

S n

(9)

Moyenne inconnue (plus fréquent): H0: σ = σ

0

H1: σ > σ 0

La statistique du test est alors:

H0 vraie si

( ) 2

2 1

1 2

→ −

S n

n χ

σ

On rejette H0 si:

( )

=

− −

=

n i

X

i

S n

1

2 2

1

1 µ

Risque de 1ere espèce

– région critique:

( ) ( ) ⎟ ⎟

⎠

⎞

⎜ ⎜

⎝

⎛ − ≥

=

=

= 2 2 1 , 1

0 2 0

2 lim 1

/ χ α

σ σ σ

α P S k P n S n

2 1 , 1 0 2

2

1 χ α

σ − −

≥ − n S n

Note: d° de liberté en moins car on utilise les obs pour calculer S2.

Cas bilatéral:

Même méthode mais on

considère la région critique sur les 2 bords de la courbe de Chi2.

2 1 2 , 1 0 2

2 2

, 2 1 0 2

2

1

1 α σ χ α

σ χ

− ≥ −

≤ −

n

n et S n

S n

(10)

β

α

Chap 6.

1.  Introduction

2.  Tests paramétriques usuels à partir dun échantillon

3.  Notion de puissance de test 4.  Tests de comparaison

3. Notion de puissance de test

Puissance du test = P(H1 acceptée/ H1 vraie)= 1-β

Si nous procédons à un test du type: H0: µ = µ0 et H1: µ > µ0, c’est-à-dire avec H1 composite, le

risque β ne pourra pas être calculé explicitement et donc on ne pourra pas calculer la puissance du test.

Seul cas pour lequel nous pouvons calculer β et donc la puissance de test: cas où H1 est fixé.

On testera par exemple la moyenne d’une variable Gaussienne avec:

H0: µ = µ0 et H1: µ = µ1.

( ) ( ) ⎟ ⎟

⎠

⎞

⎜ ⎜

⎝

⎛ −

=

=

=

= S n

T x P x

X P vraie

H refusée H

P

0

/

1 lim

/

1

'

lim

/ µ

1

µ µ β

Loi de Student à n-1 d° de liberté

(11)

β

α

différence entre les moyennes de test µ0 et µ1, même risque α

risque β (-) de risque de se tromper en ne rejetant pas H0.

puissance du test

risque α de se tromper en rejetant H0 pour la même différence entre les moyennes de test

risque β (-) de risque de se tromper en ne rejetant pas H0. puissance du test

Uniquement si

taille de l’échantillon n

Propriété utile pour déterminer la taille minimale dun échantillon pour détecter des différences entre des moyennes théoriques avec un faible risque derreur.

(12)

Chap 6.

1.  Introduction

2.  Tests paramétriques usuels à partir dun échantillon

3.  Notion de puissance de test 4.  Tests de comparaison

4. Tests de comparaison déchantillons

Jusqu’à présent, nous avons considéré la différence entre les propriétés d’un échantillon pour décider de la validité d’hypothèses portant sur des paramètres théoriques.

Les tests statistiques permettent aussi de répondre à des questions concernant les différences et similitudes entre différents échantillons.

Plus particulièrement, on cherchera ici à répondre à la question suivante:

si nous considérons deux échantillons différents de taille respectivement nX et nY, prélevés indépendamment l’un de l’autre, peut-on affirmer qu’ils sont issus de la même population (hypothèse nulle) ou quils proviennent chacun de deux populations distinctes ?

(13)

4.1) Comparaison de 2 moyennes observées pour des grands échantillons

Considérons 2 variables aléatoires X et Y suivant des lois qcq, avec E(X)=µX, var(X)=σX2 et E(Y)=µY et var(Y)=σY2

• 1er échantillon: nX observations de X, avec nX>30.

• 2e échantillon: nY observations de Y, avec nY>30.

Variable de décision:

D = XY

Hypothèses ou

Y X

Y X

H H

µ µ

µ µ

= :

:

1 0

0 :

0 :

1 0

=

Y X

Y X

H H

µ µ

µ µ

La statistique du test est donc:

Y Y X

X

n S n

S Y Z X

2 2

+

= −

et si H0 est vrai alors:

Z ~ N ( 0 , 1 )

Le risque de 1ere espèce étant fixé (α=5% ou 1%),

on peut déduire la région critique:

⎟⎟

⎟

⎠

⎞

⎜⎜

⎜

⎝

⎛

= −

1 α 2

α P Z e

Note: c’est un test bilatéral si on ne s’intéresse pas au sens de la différence entre les moyennes.

On rejette H0 si:

Y Y X

X

n S n

e S Y X ou

e

Z 2 2

1 2

1 2 − ≥ +

≥ − α − α

Remarque: si on veut tester:

On rejette H0 si:

0 :

; 0

: 1

0 XY = H XY >

H µ µ µ µ

Y Y X

X n S n

S e

Y

X − ≥ 1α 2 / + 2/

(14)

4.2) Comparaison de 2 moyennes observées pour des échantillons Gaussiens de taille qcq et de même variance

Considérons 2 variables aléatoires X et Y suivant des lois qcq, avec E(X)=µX, var(X)=σ2 et E(Y)=µY et var(Y)=σ2

• 1er échantillon: nX observations de X, avec nX qcq.

• 2e échantillon: nY observations de Y, avec nY qcq.

Variable de décision:

D = XY

Hypothèses ou

Y X

Y X

H H

µ µ

µ µ

= :

:

1 0

0 :

0 :

1 0

=

Y X

Y X

H H

µ µ

µ µ

La statistique du test est donc:

Y X n S n

Y T X

1 1 +

= −

et si H0 est vrai alors T suit une loi de Student à nx+ny-2 d° de liberté.

Le risque de 1ere espèce étant fixé (α=5%

ou 1%), on peut déduire la région critique:

⎟⎟

⎟

⎠

⎞

⎜⎜

⎜

⎝

⎛

= + − −

1; 2

2 α

α P T t nx ny

Note: c’est un test bilatéral si on ne s’intéresse pas au sens de la différence entre les moyennes.

On rejette H0 si:

Y ny X

nx ny

nx ou X Y t S n n

t

T 1 1

1; 2 2 2

1;

2 − ≥ +

≥ + − − α + − − α

Remarque: ce test nest valable que si les variances théoriques sont égales, il est donc nécessaire de tester en 1er lieu cette hypothèse!

avec

2 ) 1 (

) 1

(

2 2

2

− +

− +

= −

Y X

Y Y

X X

n n

S n

S

S n

(15)

4.3) Comparaison de 2 proportions observées

Considérons 2 variables aléatoires X et Y suivant des lois de Bernouilli de paramètres théoriques πX et πY.

• 1er échantillon: nX observations de X, avec une prop. obs. pX;

• 2e échantillon: nY observations de Y, avec une prop. obs. pY. Bernouilli: E(X)= πX ; var(X)= πX(1- πX), même chose pour Y.

Variable de décision:

D = XY

Hypothèses ou

Y X

Y X

H H

π π

π π

= :

:

1 0

0 :

0 :

1 0

=

Y X

Y X

H H

π π

π π

La statistique du test est donc:

Y X

Y Y X X

Y X

Y X

n n

p n p

p n n

p n p

p Z p

+

= +

⎟ ⎟

⎠

⎞

⎜ ⎜

⎝

⎛ +

= − 0

0

0 1 1

) 1

(

et si H0 est vrai alors Z suit une loi normale N(0,1).

Le risque de 1ere espèce étant fixé (α=5%

ou 1%), on peut déduire la région critique:

⎟⎟

⎟

⎠

⎞

⎜⎜

⎜

⎝

⎛

= −

1 α 2

α P Z e

Note: c

est un test bilatéral si on ne sintéresse pas au sens de la différence entre les moyennes.

On rejette H0 si:

( ) ⎟ ⎟

⎠

⎞

⎜ ⎜

⎝

⎛ +

YX Y

X

p e p p n n

p 1 1

1

0

0 1

α

2

Remarque: ce test nest valable que si les proportions observées vérifient:

; 5 ; ( 1 ) 5 ; ( 1 ) 5

5

0 0 0

0

n pnpnp

p

n

X Y X Y

(16)

4.4) Comparaison de moyennes observées pour deux échantillons appariés.

On considère alors les mêmes individus dans deux expériences différentes.

e.g.: test médicaments sur les mêmes patients.

Variable de décision: les observations sont faites sur les mêmes individus et ne sont donc pas indépendantes. Dans ce cas on considère des paires d’observations et leur différence:

i i

i

X X

d =

1,

2,

Hypothèses ou

Y X

Y X

H H

µ µ

µ µ

= :

:

1 0

0 :

0 :

1 0

=

Y X

Y X

H H

µ µ

µ µ

La statistique du test est alors:

T = d

S

d

/ n où d = 1

n ( x

1,i

x

2,i

)

i=1 n

et S

d2

= n 1 1 ( d

i

d )

2

i=1 n

et si H0 est vrai alors T suit une loi de Student à n-1 d° de liberté.

Le risque de 1ere espèce étant fixé (α=5%

ou 1%), on peut déduire la région critique:

⎟⎟

⎟

⎠

⎞

⎜⎜

⎜

⎝

⎛

= − −

1; 2

1 α

α P T t n

Note: c’est un test bilatéral si on ne s’intéresse pas au sens de la différence entre les moyennes.

On rejette H0 si:

1 2

;

1 α

≥ −

t n

T

(17)

4.5) Comparaison des variances de deux échantillons

Hypothèses

Y X

Y X

H H

σ σ

σ σ

= :

:

1 0

La statistique du test est donc une loi de Fisher-Snedecor.

Si H0 est vrai alors K suit une loi de Fisher-Snedecor à nx-1 et ny-1 d° liberté.

test bilatéral On rejette H0 si:

Considérons 2 variables aléatoires X et Y Gaussiennes:

• 1er échantillon: nX observations de X ~ N(µXX2)

• 2e échantillon: nY observations de Y ~ N(µYY2).

Variable de décision = rapport des deux variances

Or et

2 2 Y X

S K = S

( 1 ) 2 2 ~ 2 1

n

X

X X S X

n χ

σ ( 1 ) 2 2 ~ 2 1

n

Y

Y Y S Y

n χ

σ

; 2 1 , 2 1

2 1 2

; 1 , 2 1

2

α

α − −

− ≤

Y X

Y

X

Y n n

X n

Y n

X F

S ou S S F

S

Remarque

Une méthode approchée utilisée parfois pour éviter de faire un test bilatéral est dimposer que le numérateur de la statistique soit la variance numériquement la plus grande, le test peut se réduire alors à un test unilatéral. Il faut alors faire attention à choisir la loi de Fisher correspondante, cest à dire que le 1er degré de liberté sera celui du numérateur ( variance empirique la plus forte) et le 2ème celui du dénominateur.

Références

Documents relatifs

I Mais la médiane et les quantiles (percentiles, déciles...) bien I Les tests applicables au nominal sont applicables à l’ordinal...

connue sont estimés I dans le sens où ils résultent d’une estimation I alors le test n’est pas valable. I Une généralisation à un cas

I Donc, la fonction boot( ) prend i comme index du bootstrap. I Dans chaque réplication bootstrap, un

On va utiliser le même fichier W:\Psy3\TD EXCEL\Enfants-PRN.xls et réaliser un test de la médiane pour comparer les IDM à 24 mois des groupes PRN expérimental et PRN

L'existence de deux suites de longueur 9, Tune de valeurs supérieures à la médiane au début des observations, l'autre de valeurs inférieures à la médiane vers la fin

La démarche à suivre pour la mise en place d’un test Choix d’un test... À quoi sert

La démarche à suivre pour la mise en place d’un test Choix d’un test... À quoi sert

Pour cela, nous comparons deux échantillons de personnes du niveau de connaissance requis pour accéder à la formation.. Le premier échantillon (1) est constitué de 220