• Aucun résultat trouvé

Chapitre 10: Tests et intervalles de confiance pour proportions

N/A
N/A
Protected

Academic year: 2022

Partager "Chapitre 10: Tests et intervalles de confiance pour proportions"

Copied!
24
0
0

Texte intégral

(1)

Chapitre 10: Tests et intervalles de confiance pour proportions

1. Test statistique pour une proportion

2. Intervalle de confiance pour une proportion

3. Test statistique pour deux proportions

(2)

1. Test statistique pour une proportion

Ex: Taux d’individus ayant une caract´eristique A dans une population.

Soit p = P ( A ) ce taux.

De fa¸con g´en´erale dans ce chapitre, on utilisera la notation q = 1 − p

(de mˆeme, q ˆ = 1 − p, etc.) ˆ

(3)

– Hypoth`eses

H

0

: p = p

0

H

1

: p 6 = p

0

– Echantillon

Tirage al´eatoire de n individus

– Statistique de test (“distance” entre H

0

et les observations)

K = Nombre d’individus avec A dans l’´echantillon

(4)

Sous H0, on peut calculer la distribution de K.

Ex: H0: p = 0.4; n = 120 Distribution: K ∼ B(120,0.4)

0 20 40 60 80 100 120

0.000.020.040.06

k

P(K=k)

On peut par exemple adopter la r`egle de d´ecision suivante:

R`egle de d´ecision: rejeter H si k ≤ 37 ou si k ≥ 60

(5)

Sous H0, on peut calculer la distribution de K.

Ex: H0: p = 0.4; n = 120 Distribution: K ∼ B(120,0.4)

0 20 40 60 80 100 120

0.000.020.040.06

k

P(K=k)

p1 = 0.024 p2 = 0.017

On peut par exemple adopter la r`egle de d´ecision suivante:

R`egle de d´ecision: rejeter H0 si k ≤ 37 ou si k ≥ 60 Niveau: p1 + p2 = 0.041

(6)

Avantage de cette approche: le niveau est connu exactement, pas d’approximation.

D´esavantage: Il faut trouver les bornes“manuellement”pour chaque valeur

de n et de p

0

.

(7)

Sous certaines conditions (grˆ ace au th´eor`eme centrale limite), la distribution de K est bien approxim´ee par la distribution normale:

0 20 40 60 80 100 120

0.000.020.040.06

k

P(K=k)

(8)

Sous certaines conditions (grˆ ace au th´eor`eme centrale limite), la distribution de K est bien approxim´ee par la distribution normale:

0 20 40 60 80 100 120

0.000.020.040.06

k

P(K=k)

Densité de X ~ N(np0, np0(1p0))

(9)

A la place de K, on prend comme statistique de test:

Z = K/n − p0

q

p0(1 − p0)/n .

Sous H0, et sous les conditions d’application (v. p. suivante), Z a approximativement une distribution N(0,1).

→ R`egle de d´ecision:

Rejeter H0 si |z| > z1−α/2

o`u z est la valeur observ´ee de Z et z1−α/2 est le quantile 1 − α/2 de la distribution N(0,1).

Remarque: pour faire le test unilat´eral de H0: p = p0 contre H1: p > p0, on utilisera la r`egle de d´ecision

Rejeter H0 si z > z1−α .

(10)

Conditions d’application: il faut que n soit suffisamment grand pour que l’approximation normale soit bonne. Or, plus p est extrˆeme (proche de 0 ou de 1), plus n doit ˆetre grand. Concr`etement, si n et p sont tels que

np > 5 et n (1 − p ) > 5 , alors

K/n − p

q

p (1 − p ) /n

a approximativement une distribution N (0 , 1) .

Nous avons d´ej` a rencontr´e ces conditions dans le chapitre 8.

(11)

2. Intervalle de confiance pour une proportion

Rappel: un intervalle de confiance contient toutes les valeurs du param`etre d’int´erˆet qui ne seraient pas rejet´ees par un test.

Ici, ce sont les valeurs de p telles que

|z| = |k/n − p|

q

p (1 − p ) /n ≤ z

1−α/2

, (1)

o` u k est la valeur observ´ee de K dans l’´echantillon.

(12)

La relation (1) est satisfaite pour des valeurs de p situ´ees entre p

i

= 1

1 + c p ˆ + c/ 2 −

r

c

2

/ 4 + c p ˆ (1 − p ˆ )

!

et

p

s

= 1

1 + c p ˆ + c/ 2 +

r

c

2

/ 4 + c p ˆ (1 − p ˆ )

!

, o` u

c = z

12−α/2

/n et p ˆ = k/n.

Cet intervalle s’appelle l’intervalle de Wilson, que l’on notera IC

W I

. On a donc

IC

W I

= [ p

i

, p

s

] .

(13)

Au chapitre pr´ec´edent, nous avons vu une m´ethode g´en´erale pour construire des intervalles de confiance pour un param`etre θ, appel´ee la m´ethode de Wald. Elle se base sur la valeur observ´ee θˆ de l’estimateur du param`etre et d´efinit l’intervalle avec niveau de couverture 1 − α comme

[ˆθ − z1−α

2

sd(ˆˆ θ) , θˆ+ z1−α

2

sd(ˆˆ θ)], o`u sd(ˆˆ θ) est une estimation de l’´ecart-type de θ.ˆ

Dans le cas o`u le param`etre est une proportion p, on a:

• Estimateur de p: pˆ= K

n , la proportion observ´ee dans l’´echantillon.

Que vaut sd(ˆˆ p)? → On sait que K, le nombre de personnes avec la caract´eristique d’int´erˆet (“succ`es”) dans l’´echantillon, suit une distribution binomiale B(n, p). Son ´ecart type est donc sd(K) = √

npq. On en d´eduit (propri´et´e de l’´ecart-type) que sd(ˆp) =

q

pq/n, que l’on estime par

sd(ˆˆ p) =

q

pˆˆq/n.

On obtient donc que l’intervale de confiance de Wald pour une proportion, not´e ICW A est donn´e par

ICW A =

pˆ− z1−α

2

q

pˆˆq/n , pˆ+ z1−α

2

q

pˆˆq/n

.

(14)

L’intervalle de Wald plus simple mais moins pr´ecis que l’intervalle de Wilson, qui fait moins d’approximations. Concr`etemement, on ne l’utilisera que lorsque

• 0 . 3 ≤ p ˆ ≤ 0 . 7 et

• n ≥ 50 .

Pour l’intervalle de Wald, il peut arriver que la formule de la page

pr´ec´edente donne une valeur inf´erieure ` a 0 pour la borne inf´erieure ou

une valeur sup´erieure ` a 1 pour la borne sup´erieure. Il faut alors corriger

l’intervalle en mettant respectivement 0 ou 1 ` a la place de la borne qui

sort de l’intervalle [0,1]. L’intervalle de Wilson n’a pas ce probl`eme, ses

bornes ´etant automatiquement comprises entre 0 et 1.

(15)

3. Test statistique pour deux proportions

Ex: Taux p

1

et p

2

d’individus ayant une caract´eristique A dans deux populations diff´erentes.

On se demande si les proportions d’individus ayant la caract´eristique

d’int´erˆet sont les mˆemes dans les deux populations ou si elles sont

diff´erentes.

(16)

– Hypoth`eses

H

0

: p

1

= p

2

H

1

: p

1

6 = p

2

– Echantillon

Tirage al´eatoire de n

1

individus dans la premi`ere population et n

2

dans la deuxi`eme

– Statistique de test (“distance” entre H

0

et les observations) Sous H

0

et si n

1

et n

2

sont suffisamment grands, la variable

Z = K

1

/n

1

− K

2

/n

2

q

pq/n

1

+ pq/n

2

a approximativement une distribution N (0 , 1) .

Ici K

1

est le nb d’individus avec A dans le premier ´echantillon et

(17)

Pour effectuer le test, on calcule la valeur observ´ee de Z sur nos ´echantillons:

z = pˆ1 − pˆ2

q

pˆˆq(1/n1 + 1/n2) o`u

1 = k1/n1, pˆ2 = k2/n2 et

pˆ= (k1 + k2)/(n1 + n2)

R`egle de d´ecision:

Rejeter H0 si |z| > z1−α/2 .

Remarque: pour faire le test unilat´eral de H0: p1 = p2 contre H1: p1 > p2, on utilisera la r`egle de d´ecision

Rejeter H0 si z > z1−α .

(18)

Les donn´ees peuvent ˆetre pr´esent´ees de la fa¸con suivante:

Caract`ere A

Echantillon Pr´esent Absent Total

1 n11 n12 n1.

2 n21 n22 n2.

Total n.1 n.2 n

On peut d´emontrer que

z2 = n(n11n22 − n12n21)2 n1.n2.n.1n.2

R`egle de d´ecision ´equivalente (pour un test bilat´eral):

Rejeter H0 si z2 > χ21,1−α, o`u χ21,1−α est le quantile 1 − α de la distribution χ2 `a un degr´e de libert´e, not´ee χ21.

(En effet, on rappelle que, par d´efinition de la distribution χ2, si Z ∼ N(0,1), alors Z2 χ21.)

Remarque:

2 2

(19)

Au niveau des statistiques de test, on a la situation suivante:

Densit´e de Z sous H0:

0

ϕ

z1α

2 z1α

2

P0(|Z|>z1−α

2) = α

Densit´e de Z2 sous H0:

(z α)2 = χ2

P0(Z2>χ1,12 −α) = α densité χ12

(20)

Exemple: On veut tester si la proportion de nouveaux n´es dont le poids ` a la naissance est inf´erieur ` a 2500g est diff´erente dans les deux populations suivantes:

– Age de la m`ere ≤ 20 ans – Age de la m`ere > 20 ans

On pr´el`eve deux ´echantillons de taille 100 et on obtient la situation suivante:

Poids ` a la naissance

Age Proportion de faibles

maternel ≤ 2500 g > 2500 g Total poids ` a la naissance

≤ 20 20 80 100 0.20 (= ˆ p

1

)

> 20 10 90 100 0.10 (= ˆ p

2

)

Total 30 170 200 0.15 (= ˆ p )

(21)

Calculs:

z = p ˆ

1

− p ˆ

2

q

p ˆ q ˆ (1 /n

1

+ 1 /n

2

)

= 0 . 2 − 0 . 1

q

0 . 15 × 0 . 85 × (1 / 100 + 1 / 100)

= 1 . 98

z

2

= n ( n

11

n

22

− n

12

n

21

)

2

n

1.

n

2.

n

.1

n

.2

= 200 × (20 × 90 − 10 × 80)

2

(100 × 100 × 30 × 170)

= 3 . 92

On a bien 1 . 98

2

= 3 . 92 .

(22)

D´ecision:

z > 1 . 96 = z

0.975

et donc on rejette H

0

. De fa¸con ´equivalente:

z

2

> 3 . 84 = χ

21,0.95

et donc on rejette H

0

.

On vient de tester l’hypoth`ese d’ind´ependance entre les variables “poids ` a

la naissance inf´erieur ` a 2500g” et “ˆ age de la m`ere inf´erieur ` a 20 ans”. En

effet, demander si la proprotion de b´eb´es dont le poids ` a la naissance est

inf´erieur ` a 2500g diff`ere entre les populations des m`eres de moins et de

plus de 20 ans revient ` a demander s’il y a une d´ependance entre ces deux

variables. Si les proportions diff`erent cela implique que le fait de connaˆıtre

l’ˆ age de la m`ere donne une information sur le poids du b´eb´e, ce qui est le

(23)

De fa¸con g´en´erale, on pourra donc tester l’ind´ependance entre deux variables dichotomiques (i.e. qui n’ont que deux modalit´es) de la fa¸con ci-dessus. Souvent, ces variables indiquent la pr´esence ou l’absence d’un caract`ere (ex.: ˆage ≤ 20 ans), et on parle alors de test sur l’ind´ependance de deux caract`eres. Donc, pour tester l’ind´ependance entre deux caract`eres A et B, on pose

H0 : A et B ind´ependants H1 : A et B pas ind´ependants et on construit le tableau suivant:

B pr´esent B absent Total

A pr´esent n11 n12 n1.

A absent n21 n22 n2.

Total n.1 n.2 n

On calcule ensuite la valeur observ´ee de la statistique de test Z2: z2 = n(n11n22 − n12n21)2

n1.n2.n.1n.2 .

On rejette alors H0 si z2 > χ21,1−α, o`u χ21,1−α est le quantile 1−α de la distribution

2

(24)

Pour information:

Souvent, lorsqu’on s’int´eresse `a la d´ependance entre deux caract`eres, il y a un caract`ere, appel´e facteur ant´ed´edant ou facteur de risque qui cause potentiellement l’autre (par exemple une maladie). Par exemple, le facteur ant´ec´edent fumer cause potentiellement le caract`ere cancer du poumon. Il y a alors trois types d’´etudes qui se distinguent par leur mode d’´echantillonnage:

• Etude prospective: On pr´el`eve des ´echantillons de tailles fix´ees dans les populations avec et sans le facteur de risque, et on observe ensuite quels individus d´eveloppent la maladie.

• Etude r´etrospective: On pr´el`eve des ´echantillons de tailles fix´ees dans les populations avec et sans la maladie et on regarde quels individus ont le facteur de risque.

• Etude transversale: On pr´el`eve un seul ´echantillon dans la population globale et on d´etermine quels individus ont (ou d´eveloppent) la maladie et quels individus ont le facteur de risque.

Suivant la situation, on choisira le type d’´etude le plus appropri´e (ou le plus r´ealisable).

Par exemple, dans le cas d’une maladie rare, une ´etude r´etrospective est g´en´eralement plus puissante, car avec les deux autres types on obtiendrait tr`es peu d’individus avec la

Références

Documents relatifs

Un échantillon de taille n est constitué des résultats de n répétitions indépendantes de la même expé- rience sur l’ensemble des personnes ou objets sur lesquels porte

Alors que 79,1 % de la population de ce comté était d’origine mexicaine, sur les 870 per- sonnes convoquées pour être jurés lors d’une certaine période de référence, il n’y

Le 4 mai 2007, soit deux jours avant le second tour des élections présidentielles, on publie le son- dage suivant réalisé auprès de 992 personnes :. Ségolène Royal : 45 %

Voici les résultats du marais Tartuguien Lansargus où M signifie « nombre d’animaux capturés et marqués », C signifie?. « nombres d’animaux capturés lors de la recapture »,

Voici les résultats du marais du Grès St Nazaire où M signifie « nombre d’animaux capturés et marqués », C signifie « nombres d’animaux capturés lors de la recapture »,

L’intérêt de réaliser plusieurs recaptures est d’obte- nir un résultat plus fiable ; les individus sont davan- tage mélangés, les recaptures sont faites à des mo-

→ Comme le nombre de degr´es de libert´e est ´egal ` a n − 1, on voit que pour des grandes tailles d’´echantillon la proc´edure de test d´ecrite ici devient ´equivalente `

L’entreprise avait l’habitude de travailler avec un fournisseur A, qui produit des ampoules dont la durée moyenne a été estimée à 14,6.. En voyant les résultats