Introduction à la biostatistique – Mat 2779 L’été 2010 Cours 16 — le jeudi 8 juillet 16.1. Tests d’hypothèses sur une proportion. – L’hypothèse nulle à tester : H

(1)

Introduction `a la biostatistique – Mat 2779

L’´et´e 2010

Cours 16 — le jeudi 8 juillet

16.1. Tests d’hypoth`eses sur une proportion.

– L’hypoth`ese nulle `a tester :

H⁰: π =π^H0,

o`uπest une proportion th´eorique de la population (inconnue).

– L’hypoth`ese alternative est formul´ee, comme toujours,

H¹:π <

6=> π^H0.

– La proportion d’´echantillon (connue) : p⁰ = n^a

n .

– Sinpi⁰ ≥5etn(1−π⁰)≥5, alors la statistique du test Z = P⁰−p^H0

pp^H0(1−p^H0)/n

suit approximativement la loi normaleN(0,1), si l’hypoth`ese nulleH⁰ est vraie.

Remarque : dans le dénominateur on utilise la proportionp^H0 et pas la valeur ob- servée d’échantillon,p⁰, car on suppose que l’hypothèse nulle est vraie.¹

– La statistique du test observ´ee :

z⁰ = p⁰−p^H0

pp^H0(1−p^H0)/n.

– Maintenant on calcule la valeurp, et cetera, de fac¸on standard.

Exemple 16.1. On voudrait tester l’hypothèse que la proportion des mutants dans une po- pulation particulière est π = 2%. Des500 sujets choisis aléatoirement8sont des mutants.

Est-ce que les données suggèrent quep <0.02auα= 5%? L’hypothèse nulle :

H⁰: π= 0.02 L’hypoth`ese alternative :

H¹: π <0.02.

1Tout est correct dans les notes que j’utilisais pendant mon cours, pourtant j’ai un soupc¸on que dans le cours actuel j’ai fait une erreur ici. Veuillez v´efirier la formule et la corriger si besoin est.

1

(2)

2

Le test est unitaleral `a gauche. Voici la proportion observ´ee p⁰ = 8

500 = 0.016.

On a :npi⁰ = 10≥5etn(1−π⁰) = 490≥5. Voici la statistique du test observ´ee : z⁰ = p⁰−p^H0

pp^H0(1−p^H0)/n = 0.016−0.02

p0.02(1−0.02)/500 =−0.6388766.

La valeurpcorrespondante :

p= 0.2614516.

> z0 <- (0.016-0.02)/(sqrt(0.02*(1-0.02)/500))

> z0

[1] -0.6388766

> p <- pnorm(c(z0), mean=0, sd=1, lower.tail=TRUE)

> p

[1] 0.2614516 Car on a

p= 0.2614516 = 26%>5% =α,

l’hypothèse nulle ne peut pas être rejetée. La fluctuation de la proportion observée est pro- bablement aléatoire. La réponse à la question du problème est donc négative.

16.2. Tests de comparaison des moyennes de deux populations indépendantes. Soient deux échantillons de taille n¹ etn², respectivement, dans lesquels la variable étudiée a une valeur moyenne de m¹ (resp. m²). Chaque échantillon est extrait d’une population dans laquelle la variable qui nous intéresse a une valeur moyenne (la moyenne de la population) inconnueµ¹, resp.µ².

La question qui se pose naturellement est la suivante : les deux échantillons sont-ils extraits de deux populations différentes(µ¹ 6=µ²) ou d’une seule et même population(µ¹ =µ²) ?

Formulons donc l’hypoth`ese nulle :

H⁰: µ¹ =µ², ou bien

H⁰: (µ¹−µ²) = 0.

L’hypothèse alternative est formulée, comme d’habitude, sous trois formes diférentes pos- sibles :

H¹: µ¹ <

6=> µ²,

ou, qui est la mˆeme chose,

H¹: (µ¹−µ²) <

6=> 0.

NotonsM¹la variable aléatoire “la moyenne d’échantillon un”, dontm¹est une evaluation ponctuelle, et de même pourM².

(3)

3

Comme toujours, s¹ est l’écart type du premier échantillon, et s² est l’écart type du deuxième échantillon.

En omettant entierèment la déduction mathématique de la statistique du test, voici le som- maire des conclusions. Il y a deux cas à considerer.

(a) Le cas où les tailles des échantillons,n¹ etn², sont tous les deux supérieures à30.

SiH⁰ est vrai, alorsµ¹ =µ² et la variable aléatoireZ centrée réduite : Z = M¹ −M²

qs²

1

n₁ +n^s²²₂

suit la loi normaleN(0,1).

(Bien sûr si l’écart type de la populationσ¹ est connu, on remplaces¹avecσ¹, et de même pourσ². Mais généralement ce n’est pas le cas).

Voici la statistique de test observ´ee :

z⁰ = m¹−m² qs²

1

n₁ + ^sn²²₂

.

(b) Le cas oùn¹ ou/etn²est(sont) inférieur(s) à30.

En supposant queH⁰ est vraie, la même variable aléatoire, mais cette fois notéeT : T = M¹−M²

qs²

1

n₁ +_n^s²²

2

,

suit la loi de Studenttavecdf =n¹+n²−2degr´es de libert´e.

Voici la statistique de test observ´ee :

t0 = m¹−m² qs²

1

n₁ + n^s²²₂

.

C’est tout ce que vous voulez pour tester l’hypoth`ese. Le reste est standard.

Exemple 16.2. (Voir page 204 dans Biostatistique sous la direction de Beuscart). Soit une

étude où deux groupes de femmes primipares, âgées de20à25ans, ont accouché normale- ment, d’une petite fille. Le premier groupe est composée des anciennes fumeuses, et le second des femmes qui n’ont jamais fumé.

Dans le groupe de femmes non fumeuses, dont l’effectif est 49, le poids moyen des b´eb´es

à la naissance est de 3010 grammes avec l’écart type observé 170 g; dans le groupe des anciennes fumeuses, dont l’effectif est également49, le poids moyen des bébés à la naissance est de2950grammes avec l’écart type observé168g.

Les poids moyens de deux groups sont-ils statistiquement diff´erents ? On a :

– n¹ =n² = 49; tous les deux sont sup´erieurs `a30; – m¹ = 3010;

(4)

4

– s¹ = 170; – m² = 2950; – s2 = 168;

– l’hypothèse nulleH⁰: µ¹ =µ²; – l’hypothèse alternative :²H¹: µ¹ > µ². – Le teste est unilateral à droite.

– Car le niveau de confiance n’a pas été mentionné, on choisitα = 5%.

Maintenant on calcule la statistique du test observ´ee : z⁰ = m¹−m²

qs²

1

n₁ + ^sn²²₂

= 3010−2950 q170²

49 + ¹⁶⁸₄₉²

= 2.050155.

> m1 <- 3010

> m2 <- 2950

> n1 <- 49

> n2 <- 49

> s1 <- 170

> s2 <- 168

> n1 > 30 [1] TRUE

> n2 >30 [1] TRUE

> z0 <- (m1-m2)/sqrt(s1ˆ2/n1 + s2ˆ2/n2)

> z0

[1] 1.757276

Nous sommes prêts à determiner la valeur p corréspondant à la statistique : car R passe les valeurs des paramètres à R commander, il suffit de trouver la probabilité de la queue supérieure dez⁰ :

> p<-pnorm(c(z0), mean=0, sd=1, lower.tail=FALSE)

> p

[1] 0.02017464

p= 0.03943539 = 4%.

Au5%, l’hypothèse nulleH⁰ est rejetée avec le risque de4% à se tromper.

2Le cas bilateral est aussi légitime. Ce qui est intéressant ici, c’est que dans le cas bilateral l’hypothèse nulle H⁰ne serait pas rejetée.