Introduction `a la biostatistique – Mat 2779

(1)

L’´et´e 2010

Cours 13 — le jeudi 24 juin

13.1. Effectif nécessaire pour estimer une proportionπ avec une précision donnée. La terminologie et la notation suivent 12.2. En particulier,

π=P[X∈A]

et la probabilit´e (la proportion dans la population) `a estimer, et p= n_A

n

et la proportion observée de l’évènement. Comme on a montré dans le cours 12 (page 3 des notes de cours), on a

|p−π| ≤a

pp(1−p)

√n−1 au niveau de confiance1−α.

Soiti >0donn´e d’avance. On veut que

|p−π| ≤a

pp(1−p)

√n−1 ≤i.

L’inégalité à droite se résoudre aisément comme suit :

(13.1) n≥ a²p(1−p)

i²

Même si p est assez mal connu, l’approximation p(1−p) ∼ π(1−π) (utilisée de façon implicite pour déduire notre formule) est raisonnable.

Exercice 13.1. On suppose que la prévalence d’une maladie est comprise entre 10 et 20 pour cent. On veut conduire une étude pour estimer cette proportion à±2pour cent près au niveau de confiance usuelle de95%. Quelle taille d’échantillon faut-il ?

Ici0.1≤p≤0.2, donc on approximeppar0.15. De plus, la pr´ecision exig´ee esti= 0.02.

En utilisant (13.1), on trouve :

> n<- 1.96ˆ2*0.15*(1-0.15)/0.02ˆ2

> n

[1] 1224.51

1

(2)

n ≥ a²p(1−p)

i² = 1.96²·0.15(1−0.15)

0.02² = 1225.

N

13.2. Tests d’hypoth`ese. L’exemple suivant provient de Biostatistique sous la direction de Beuscart, page 146.

En 1997, selon une étude rigoreuse et représentative, le tour de taille moyenne de la population française s’élèvait à84.6cm. L’an est 2006, et les chercheurs dans l’institut de sondage ont des raisons à croire que la taille moyenne des français s’est augmentée depuis le dernier sondage. Ils tirent au hasard30personnes de la population générale. La moyenne de tour de taille observée d’échantillon est de88.26cm.

Qu’est-ce qu’on peut en déduire ? Est-ce que l’augmentation de la moyenne est due à une fluctuation aléatoire d’échantillonage, car l’échantillon est, en vérité, tout petit ? Ou bien peut-on conclure que la population française contemporaine ait un tour de taille moyen plus grande que jadis ?

La réponse est loin d’être évidente. Pour répondre à cette question, on se sert de la téchnique statistique qui s’appelle les tests d’hypothèse (hypothesis testing). Voici la démarche qu’il faut suivre rigoreusement.

(1) Même avant d’entreprendre l’étude sur30personnes, il faut formuler l’hypothèse nulle, qui est une hypothèse dont on souhaite qu’elle soit fausse après le test. L’hypothèse nulle est d’habitude notéeH⁰, et elle est le plus souvent définie par l’égalité d’un paramètre statistique, θ, à une valeur particulière,θ⁰. Dans notre cas, il s’agit de la moyenne du tour de taille, qu’on noteµ, et le choix le plus naturel pour l’hypothèse nulle sera le suivant :

H⁰ = [µ= 84.6].

On note la moyenne84.6parµ_H0. Donc, l’hypoth`ese nulle pour les moyennes est de la forme [µ=µ_H0].

(2) Au même moment, il faut formuler l’hypothèse alternative qui sera acceptée si l’hy- pothèse nulle sera rejetée. L’hypothèse alternative, notée H¹, est donnée par une inégalité : soit [θ < θ⁰](dans lequel cas il s’agit d’un test unilateral à gauche), soit [θ > θ⁰](un test unilateral à droite), soit[θ 6=θ0](un test bilateral). Dans notre petit exemple, les chercheurs choisissent l’hypothèse alternative suivante :

H¹ = [µ >84.6].

En d’autres mots, l’hypothèse alternative nous dit, tout simplement, que la moyenne du tour de taille de la population s’est augmentée entre1997et2006. Lorsque cette hypothèse a été choisie, notre test devient unilateral à droite. Plus généralement, notre hypothèse s’écrit

[µ > µ_H0].

Soulingons que le choix de l’hypothèse alternative doit être fait avant de connaˆıtre les résultats d’échantillonage. L’hypothèse se base sur d’autres données (par exemple, sur d’ob- servations visuelles quotidiennes par les chercheurs).... On n’a pas été mesuré les30sujets.

(3)

Veuillez noter aussi que même si les deux hypothèses, H⁰ et H¹, s’excluenet mutuelle- ment, elles ne forment pas forcément une partition de l’ensemble fondamental ! Il y a une possibilité théorique que[µ <84.6], disjoint deH0ainsi que deH1. Mais la structure du test d’hypothèse, déterminée par le choix deH0et deH1, est telle que, même s’il est vrai que le moyen du tour de taille s’est réduit, l’hypothèse nulle ne sera pas rejetée.

(3) Maintenant on analyse les deux hypothèses de façon à répondre à la question suivante : en supposant que l’hypothèse nulle est vraie, qu’est-ce qu’on va observer dans notre étude ? Quel résultat d’étude rendra l’hypothèse nulle crédible ? Ou bien, en d’autres mots : quel résultat de l’étude mettrait la crédibilité de l’hypothèse nulle en question ?

Clairement, il faudra rejeter l’hypothèse nulle si le résultat d’échantillonage sera très peu probable. Ici, peu probable signifie : inférieure à un risque donné,α > 0, tel queα = 5%, par exemple. (Ce risque est appelé, plus précisement, le risque de première espèce).

Dans notre cas, il s’agit de la probabilité d’observer la moyenne d’échantillonx¯= 88.26 cm. Quelle est probabilité d’obtenir un tel résultat surn = 30sujet en supposant queH⁰ est vraie ?

Supposons donc queH⁰ est vraie. Selon le théorème de la limite centrale, le tour de taille moyen suit la loi normale avec le moyenneµ_H0 = 84.6cm et l’écart-type σ/√

n, où σ est l’écart-type du tour de taille dans la population générale, etn= 30. Bien sûr que dans notre cas σest connu, car en 1997 on avait obtenu un bon estimation pour σ, la valeur estσ = 2 cm. Alors, la moyenne d’échantillon (qui est une variable aléatoire) suit la loi

X¯ ∼N

84.6, 4

√30

=N(84.6,0.73).

Pour cette loi particuli`ere, on a bien sˆur

P( ¯X = 88.26),

tout simplement parce que la probabilité qu’une variable continue prenne la valeur numérique donnée, est zéro ! C’est peu intéressant et peu utile.

Pour cette raison, on considère la probabilité d’une fluctuation deX¯ plus grande ou égale

`a la fluctuation observ´ee,x¯=µ⁰ :

P X¯ ≥µ⁰kH⁰ est vraie .

Il s’agit de la probabilit´e conditionnelle siH⁰, c’est-`a dire, en supposant queH⁰ soit vraie.

C’est exactement cette hypoth`ese qui nous permet d’estimer la moyenne et l’´ecart-type de la distribution deX.¯

CarX¯ suit la loi normaleN(µ_H0, σ/√

n)conditionnellement surH⁰, on peut facilement calculer la valeur ci-dessus : soit directement avec R commander (distributions→continuous distributions→quantiles), soit en réduisant l’étude à la loi normale centrée réduite :

X¯ ≥µ⁰ ⇐⇒ X¯−µ_H0 ≥µ⁰−µ_H0

⇐⇒ X¯ −µ_H0

σ/√

n ≥ µ0−µ_H0

σ/√ n .

(4)

La variable al´eatoire

Z = X¯ −µ_H0

σ/√ n suit la loi normale centr´ee r´eduite :

Z ∼N(0,1).

Notons aussi

z⁰ = µ0−µ_H0

σ/√ n . Alors, nous nous occupons de la probabilit´e conditionnelle

P[Z ≥z⁰kH⁰]

de la fluctuation au moins aussi grande que la fluctuation observ´ee, siH⁰est vraie.

Voici quelques situations imaginaires, en gardant toujours les valeurs actuellesµ_H0 = 84.6 cm etσ = 4cm, ainsi quen = 30.

Exemple 13.2. Supposons que le tour de taille moyen d’échantillon est égal àµ⁰ = 85cm.

Dans ce cas-l`a, on a

z⁰ = µ⁰−µ_H0

σ/√ n

= 85−84.6 2/√

30

= 1.095445.

Pour chercher l’air sous la queue sup´erieure de la loi normale N(0,1) qui correspond `a z⁰ = 1.095445(oir la figure 1), on choisit dans R commander :

distributions→continuous distributions→normal distribution→probabilities On metµ= 0,σ = 1, upper tail, et la valeur de la variable= 1.095445:

> pnorm(c(1.095445), mean=0, sd=1, lower.tail=FALSE) [1] 0.1366609

D’ici on conclut :

P[Z ≥z⁰kH⁰] = 0.1366609.

On peut obtenir le mˆeme chiffre directement, sans passer parZ etz⁰ (voir la figure 1) : distributions → continuous distributions→ normal distribution→ probabilities, main- tenant on met µ = 84.6, σ = 2/√

30 = 0.3651484, upper tail, et la valeur de la variable

= 85:

> pnorm(c(85), mean=84.6, sd=0.3651484, lower.tail=FALSE) [1] 0.1366609

On en conclut :

P[ ¯X ≥85kH⁰] = 0.1366609.

Avec sa probabilité de13.6%, cet évènement est tout à fait probable, il n’y a rien d’extraor- dinaire dans l’observation du tour de taille moyen de 85cm siH0 est vraie. Dans ce cas-là,

(5)

−4 −2 0 2 4

0.00.10.20.30.4

densité

z_0 = 1.095445

FIG. 1. La densité de la loi normale N(0,1) de la v.a. Z. L’aire sous la courbe à droite dez⁰ = 1.095445est égale à la probabilité0.1366609

83.0 83.5 84.0 84.5 85.0 85.5 86.0

0.00.20.40.60.81.0

le tour de taille moyen

densité

la moyenne du tour de taille

observée

FIG. 2. La densit´e de la loi normale N(µ, σ/√

n)de la v.a.X. L’aire sous¯ la courbe à droite deµ⁰ = 85cm est égale à la probabilité0.1366609

l’hypothèse H0 est crédible : l’observation de la moyenne d’ćhantillon ne la contredit pas.

Dans cette situation imaginaire, on ´echoue `a rejetterH0.

(6)

Voici comment le diagramme 1 a ´et´e produit :

> plot(function(x) dnorm(x), -4,4, ylab="densit",xlab="", + col="blue",lwd=3)

> abline(v=c(1.095445),lwd=3,lty=2,col="red")

> abline(h=0,col="grey")

> text(x=2.2,y=0.3,cex=1,labels="z_0 = 1.095445")

> z <- seq(1.095445,4,length=100)

> w <- dnorm(z)

> points(z,w,type="h",col="red")

Donc, à cette étape, on décide queH⁰sera rejetée si, lors de l’échantillonage, la probabilité d’observer le résultat sera plus petite que le risque spécifiéα >0, disonsα= 0.05.

(4) Enfin, on construit l’échantillon tiré au hasard, de l’effectif nécessaire pour pouvoir interpreter les résultats d’étude. Les paramètres statistiques d’interêt sont mesurés. Dans notre cas, c’est la moyenne du tour de taille d’échantillon, qui s’avère àµ⁰ = 88.26cm.

(5) Maintenant, nous allons confronter l’hypothèse nulleH⁰ à l’observation. L’hypothèse sera crédible si la probabilité d’observer l’écart du tour de taille moyen de30sujets≥88.26− 84.6 = 3.66cm est plus grande que α. Si cette probabilité est plus petite, l’hypothèse nulle semblerait pas crédible.

On peut calculer cette probabilité de deux façons différentes. Soit directement,

> pnorm(c(88.26), mean=84.6, sd=0.3651484, lower.tail=FALSE) [1] 6.019353e-24

P[ ¯X ≥88.26kH⁰] = 6.019353e−24 = 0.000000000000000000000006, soit en utilisant les variables centr´ees r´eduites :

z⁰ = µ0−µ_H0

σ/√ n

= 88.26−84.6 2/√

30

= 10.02332, et la r´eponse est plus convaincante encore :

P[Z ≥z⁰kH⁰] =P[Z ≥ 10.02332kH⁰] = 0.

> pnorm(c(10.02332), mean=0, sd=0, lower.tail=FALSE) [1] 0

En tout cas, la valeur de la probabilité est infinitesimale. Cela veut dire que H⁰ n’est pas crédible, et doit être rejetée.

(6) Le rejet deH⁰signifie qu’on accepte automatiquement l’hypothèse alternativeH¹. On en conclut que le tour de taille moyen de la population française s’est augmenté.

Maintenant, sans doute, une nouvelle ´etude sera conduite afin d’estimer la valeur pr´ecise du tour moyen de taille...

(7)

13.3. Sommaire des tests d’hypoth`ese pour la moyenne.

13.3.1. Test unilateral à droite. Pour un test d’hypothèse unilateral à droite de la moyenne de la population (comme le test au-dessus), on fixe la valeur du risque de 1e espèse,α, et on cherche la valeur réelleatelle que

P[Z ≥a] =α, o`uZ suit la loi normaleN(0,1).

L’intervalle[a,+∞)est dit la r´egion critique. Voir la figure 3.

−4 −2 0 2 4

0.00.10.20.30.4

valeurs de la v.a. Z centrée réduite

densité

region critique

FIG. 3. La valeura = 1.644854et la r´egion critique au α = 0.05pour un test unilateral `a droite.

On calcule la valeur observée de la moyenne centrée réduitez⁰,

(13.2) z0 = µ0−µ_H0

σ/√ n .

Siz⁰appartient à la région critique, l’hypothèseH⁰est rejetée. Sinon,H⁰n’est pas rejetée.

De façon équivalente, on peut déterminer la probabilité p d’avoir la fluctuation de la moyenne au moins aussi grande que la moyenne observée d’échantillonµ⁰siH⁰ est vrai :

p=P[ ¯X ≥µ⁰kH⁰] =P[Z ≥z⁰].

Cette valuerps’appelle la valeurp(p-value, en anglais), ou bien le degr´e de signification de l’hypoth`ese nulle,H0. Si

p < α, alors l’hypoth`eseH⁰ est rejet´ee. Si

p≥α,

(8)

l’hypothèseH⁰n’est pas rejetée. Cela ne signifie pas queH⁰est acceptée comme vraie ; c’est juste qu’il n’y a pas assez des preuves queH0 ne le soit pas.

13.3.2. Test unilateral à gauche. La seule différence ici, c’est la détermination de la région critique et de la valeurp. On cherche la valeur réelleatelle que

P[Z ≤a] =α,

oùZ suit la loi normaleN(0,1), et la région critique est défini par (−∞, a].

De mˆeme fac¸on, on pose

p=P[ ¯X ≤µ⁰kH⁰] =P[Z ≤z⁰].

−4 −2 0 2 4

0.00.10.20.30.4

densité

region critique

FIG. 4. La valeura = 1.96et la r´egion critique au α = 0.05pour un test unilateral `a gauche.

13.3.3. Test bilateral. Ici, la r´egion critique est sous la forme (−∞,−a]∪[1,+∞), o`u

P[Z ≤ −a] =P[Z ≥a] = α 2. La d´efinition de la valeurpdevient :

p=P[|X¯ −µ| ≥ |µ⁰−µ|kH⁰] =P[Z ≤ −|z⁰|] +P[Z ≥ |z⁰|].

Voir la figure 5.

(9)

−4 −2 0 2 4

0.00.10.20.30.4

densité

region critique region

critique

FIG. 5. La valeura= 1.96et la r´egion critique auα= 0.05pour un test bilateral.

> plot(function(x) dnorm(x), -4,4, ylab="densite, + xlab="valeurs de la v.a. Z centree reduite", + col="blue",lwd=3)

> abline(v=c(-1.96,1.96),lwd=3,lty=2,col="red")

> abline(h=0,col="grey")

> z <- seq(1.96,4,length=100)

> w <- dnorm(z)

> points(z,w,type="h",col="red")

> points(-z,w,type="h",col="red")

> text(x=3.0,y=0.3,cex=1,labels="region \n critique")

> text(x=-3.4,y=0.3,cex=1,labels="region \n critique")