• Aucun résultat trouvé

Introduction `a la biostatistique – Mat 2779

N/A
N/A
Protected

Academic year: 2022

Partager "Introduction `a la biostatistique – Mat 2779"

Copied!
9
0
0

Texte intégral

(1)

L’´et´e 2010

Cours 13 — le jeudi 24 juin

13.1. Effectif n´ecessaire pour estimer une proportionπ avec une pr´ecision donn´ee. La terminologie et la notation suivent 12.2. En particulier,

π=P[X∈A]

et la probabilit´e (la proportion dans la population) `a estimer, et p= nA

n

et la proportion observ´ee de l’´ev`enement. Comme on a montr´e dans le cours 12 (page 3 des notes de cours), on a

|p−π| ≤a

pp(1−p)

√n−1 au niveau de confiance1−α.

Soiti >0donn´e d’avance. On veut que

|p−π| ≤a

pp(1−p)

√n−1 ≤i.

L’in´egalit´e `a droite se r´esoudre ais´ement comme suit :

(13.1) n≥ a2p(1−p)

i2

Mˆeme si p est assez mal connu, l’approximation p(1−p) ∼ π(1−π) (utilis´ee de fac¸on implicite pour d´eduire notre formule) est raisonnable.

Exercice 13.1. On suppose que la pr´evalence d’une maladie est comprise entre 10 et 20 pour cent. On veut conduire une ´etude pour estimer cette proportion `a±2pour cent pr`es au niveau de confiance usuelle de95%. Quelle taille d’´echantillon faut-il ?

Ici0.1≤p≤0.2, donc on approximeppar0.15. De plus, la pr´ecision exig´ee esti= 0.02.

En utilisant (13.1), on trouve :

> n<- 1.96ˆ2*0.15*(1-0.15)/0.02ˆ2

> n

[1] 1224.51

1

(2)

n ≥ a2p(1−p)

i2 = 1.962·0.15(1−0.15)

0.022 = 1225.

N

13.2. Tests d’hypoth`ese. L’exemple suivant provient de Biostatistique sous la direction de Beuscart, page 146.

En 1997, selon une ´etude rigoreuse et repr´esentative, le tour de taille moyenne de la popu- lation franc¸aise s’´el`evait `a84.6cm. L’an est 2006, et les chercheurs dans l’institut de sondage ont des raisons `a croire que la taille moyenne des franc¸ais s’est augment´ee depuis le dernier sondage. Ils tirent au hasard30personnes de la population g´en´erale. La moyenne de tour de taille observ´ee d’´echantillon est de88.26cm.

Qu’est-ce qu’on peut en d´eduire ? Est-ce que l’augmentation de la moyenne est due `a une fluctuation al´eatoire d’´echantillonage, car l’´echantillon est, en v´erit´e, tout petit ? Ou bien peut-on conclure que la population franc¸aise contemporaine ait un tour de taille moyen plus grande que jadis ?

La r´eponse est loin d’ˆetre ´evidente. Pour r´epondre `a cette question, on se sert de la t´echnique statistique qui s’appelle les tests d’hypoth`ese (hypothesis testing). Voici la d´emarche qu’il faut suivre rigoreusement.

(1) Mˆeme avant d’entreprendre l’´etude sur30personnes, il faut formuler l’hypoth`ese nulle, qui est une hypoth`ese dont on souhaite qu’elle soit fausse apr`es le test. L’hypoth`ese nulle est d’habitude not´eeH0, et elle est le plus souvent d´efinie par l’´egalit´e d’un param`etre statistique, θ, `a une valeur particuli`ere,θ0. Dans notre cas, il s’agit de la moyenne du tour de taille, qu’on noteµ, et le choix le plus naturel pour l’hypoth`ese nulle sera le suivant :

H0 = [µ= 84.6].

On note la moyenne84.6parµH0. Donc, l’hypoth`ese nulle pour les moyennes est de la forme [µ=µH0].

(2) Au mˆeme moment, il faut formuler l’hypoth`ese alternative qui sera accept´ee si l’hy- poth`ese nulle sera rejet´ee. L’hypoth`ese alternative, not´ee H1, est donn´ee par une in´egalit´e : soit [θ < θ0](dans lequel cas il s’agit d’un test unilateral `a gauche), soit [θ > θ0](un test unilateral `a droite), soit[θ 6=θ0](un test bilateral). Dans notre petit exemple, les chercheurs choisissent l’hypoth`ese alternative suivante :

H1 = [µ >84.6].

En d’autres mots, l’hypoth`ese alternative nous dit, tout simplement, que la moyenne du tour de taille de la population s’est augment´ee entre1997et2006. Lorsque cette hypoth`ese a ´et´e choisie, notre test devient unilateral `a droite. Plus g´en´eralement, notre hypoth`ese s’´ecrit

[µ > µH0].

Soulingons que le choix de l’hypoth`ese alternative doit ˆetre fait avant de connaˆıtre les r´esultats d’´echantillonage. L’hypoth`ese se base sur d’autres donn´ees (par exemple, sur d’ob- servations visuelles quotidiennes par les chercheurs).... On n’a pas ´et´e mesur´e les30sujets.

(3)

Veuillez noter aussi que mˆeme si les deux hypoth`eses, H0 et H1, s’excluenet mutuelle- ment, elles ne forment pas forc´ement une partition de l’ensemble fondamental ! Il y a une possibilit´e th´eorique que[µ <84.6], disjoint deH0ainsi que deH1. Mais la structure du test d’hypoth`ese, d´etermin´ee par le choix deH0et deH1, est telle que, mˆeme s’il est vrai que le moyen du tour de taille s’est r´eduit, l’hypoth`ese nulle ne sera pas rejet´ee.

(3) Maintenant on analyse les deux hypoth`eses de fac¸on `a r´epondre `a la question suivante : en supposant que l’hypoth`ese nulle est vraie, qu’est-ce qu’on va observer dans notre ´etude ? Quel r´esultat d’´etude rendra l’hypoth`ese nulle cr´edible ? Ou bien, en d’autres mots : quel r´esultat de l’´etude mettrait la cr´edibilit´e de l’hypoth`ese nulle en question ?

Clairement, il faudra rejeter l’hypoth`ese nulle si le r´esultat d’´echantillonage sera tr`es peu probable. Ici, peu probable signifie : inf´erieure `a un risque donn´e,α > 0, tel queα = 5%, par exemple. (Ce risque est appel´e, plus pr´ecisement, le risque de premi`ere esp`ece).

Dans notre cas, il s’agit de la probabilit´e d’observer la moyenne d’´echantillonx¯= 88.26 cm. Quelle est probabilit´e d’obtenir un tel r´esultat surn = 30sujet en supposant queH0 est vraie ?

Supposons donc queH0 est vraie. Selon le th´eor`eme de la limite centrale, le tour de taille moyen suit la loi normale avec le moyenneµH0 = 84.6cm et l’´ecart-type σ/√

n, o`u σ est l’´ecart-type du tour de taille dans la population g´en´erale, etn= 30. Bien sˆur que dans notre cas σest connu, car en 1997 on avait obtenu un bon estimation pour σ, la valeur estσ = 2 cm. Alors, la moyenne d’´echantillon (qui est une variable al´eatoire) suit la loi

X¯ ∼N

84.6, 4

√30

=N(84.6,0.73).

Pour cette loi particuli`ere, on a bien sˆur

P( ¯X = 88.26),

tout simplement parce que la probabilit´e qu’une variable continue prenne la valeur num´erique donn´ee, est z´ero ! C’est peu int´eressant et peu utile.

Pour cette raison, on consid`ere la probabilit´e d’une fluctuation deX¯ plus grande ou ´egale

`a la fluctuation observ´ee,x¯=µ0 :

P X¯ ≥µ0kH0 est vraie .

Il s’agit de la probabilit´e conditionnelle siH0, c’est-`a dire, en supposant queH0 soit vraie.

C’est exactement cette hypoth`ese qui nous permet d’estimer la moyenne et l’´ecart-type de la distribution deX.¯

CarX¯ suit la loi normaleN(µH0, σ/√

n)conditionnellement surH0, on peut facilement calculer la valeur ci-dessus : soit directement avec R commander (distributionscontinuous distributionsquantiles), soit en r´eduisant l’´etude `a la loi normale centr´ee r´eduite :

X¯ ≥µ0 ⇐⇒ X¯−µH0 ≥µ0−µH0

⇐⇒ X¯ −µH0

σ/√

n ≥ µ0−µH0

σ/√ n .

(4)

La variable al´eatoire

Z = X¯ −µH0

σ/√ n suit la loi normale centr´ee r´eduite :

Z ∼N(0,1).

Notons aussi

z0 = µ0−µH0

σ/√ n . Alors, nous nous occupons de la probabilit´e conditionnelle

P[Z ≥z0kH0]

de la fluctuation au moins aussi grande que la fluctuation observ´ee, siH0est vraie.

Voici quelques situations imaginaires, en gardant toujours les valeurs actuellesµH0 = 84.6 cm etσ = 4cm, ainsi quen = 30.

Exemple 13.2. Supposons que le tour de taille moyen d’´echantillon est ´egal `aµ0 = 85cm.

Dans ce cas-l`a, on a

z0 = µ0−µH0

σ/√ n

= 85−84.6 2/√

30

= 1.095445.

Pour chercher l’air sous la queue sup´erieure de la loi normale N(0,1) qui correspond `a z0 = 1.095445(oir la figure 1), on choisit dans R commander :

distributionscontinuous distributionsnormal distributionprobabilities On metµ= 0,σ = 1, upper tail, et la valeur de la variable= 1.095445:

> pnorm(c(1.095445), mean=0, sd=1, lower.tail=FALSE) [1] 0.1366609

D’ici on conclut :

P[Z ≥z0kH0] = 0.1366609.

On peut obtenir le mˆeme chiffre directement, sans passer parZ etz0 (voir la figure 1) : distributionscontinuous distributionsnormal distributionprobabilities, main- tenant on met µ = 84.6, σ = 2/√

30 = 0.3651484, upper tail, et la valeur de la variable

= 85:

> pnorm(c(85), mean=84.6, sd=0.3651484, lower.tail=FALSE) [1] 0.1366609

On en conclut :

P[ ¯X ≥85kH0] = 0.1366609.

Avec sa probabilit´e de13.6%, cet ´ev`enement est tout `a fait probable, il n’y a rien d’extraor- dinaire dans l’observation du tour de taille moyen de 85cm siH0 est vraie. Dans ce cas-l`a,

(5)

−4 −2 0 2 4

0.00.10.20.30.4

densité

z_0 = 1.095445

FIG. 1. La densit´e de la loi normale N(0,1) de la v.a. Z. L’aire sous la courbe `a droite dez0 = 1.095445est ´egale `a la probabilit´e0.1366609

83.0 83.5 84.0 84.5 85.0 85.5 86.0

0.00.20.40.60.81.0

le tour de taille moyen

densité

la moyenne du tour de taille

observée

FIG. 2. La densit´e de la loi normale N(µ, σ/√

n)de la v.a.X. L’aire sous¯ la courbe `a droite deµ0 = 85cm est ´egale `a la probabilit´e0.1366609

l’hypoth`ese H0 est cr´edible : l’observation de la moyenne d’´chantillon ne la contredit pas.

Dans cette situation imaginaire, on ´echoue `a rejetterH0.

(6)

Voici comment le diagramme 1 a ´et´e produit :

> plot(function(x) dnorm(x), -4,4, ylab="densit",xlab="", + col="blue",lwd=3)

> abline(v=c(1.095445),lwd=3,lty=2,col="red")

> abline(h=0,col="grey")

> text(x=2.2,y=0.3,cex=1,labels="z_0 = 1.095445")

> z <- seq(1.095445,4,length=100)

> w <- dnorm(z)

> points(z,w,type="h",col="red")

Donc, `a cette ´etape, on d´ecide queH0sera rejet´ee si, lors de l’´echantillonage, la probabilit´e d’observer le r´esultat sera plus petite que le risque sp´ecifi´eα >0, disonsα= 0.05.

(4) Enfin, on construit l’´echantillon tir´e au hasard, de l’effectif n´ecessaire pour pouvoir interpreter les r´esultats d’´etude. Les param`etres statistiques d’interˆet sont mesur´es. Dans notre cas, c’est la moyenne du tour de taille d’´echantillon, qui s’av`ere `aµ0 = 88.26cm.

(5) Maintenant, nous allons confronter l’hypoth`ese nulleH0 `a l’observation. L’hypoth`ese sera cr´edible si la probabilit´e d’observer l’´ecart du tour de taille moyen de30sujets≥88.26− 84.6 = 3.66cm est plus grande que α. Si cette probabilit´e est plus petite, l’hypoth`ese nulle semblerait pas cr´edible.

On peut calculer cette probabilit´e de deux fac¸ons diff´erentes. Soit directement,

> pnorm(c(88.26), mean=84.6, sd=0.3651484, lower.tail=FALSE) [1] 6.019353e-24

P[ ¯X ≥88.26kH0] = 6.019353e−24 = 0.000000000000000000000006, soit en utilisant les variables centr´ees r´eduites :

z0 = µ0−µH0

σ/√ n

= 88.26−84.6 2/√

30

= 10.02332, et la r´eponse est plus convaincante encore :

P[Z ≥z0kH0] =P[Z ≥ 10.02332kH0] = 0.

> pnorm(c(10.02332), mean=0, sd=0, lower.tail=FALSE) [1] 0

En tout cas, la valeur de la probabilit´e est infinitesimale. Cela veut dire que H0 n’est pas cr´edible, et doit ˆetre rejet´ee.

(6) Le rejet deH0signifie qu’on accepte automatiquement l’hypoth`ese alternativeH1. On en conclut que le tour de taille moyen de la population franc¸aise s’est augment´e.

Maintenant, sans doute, une nouvelle ´etude sera conduite afin d’estimer la valeur pr´ecise du tour moyen de taille...

(7)

13.3. Sommaire des tests d’hypoth`ese pour la moyenne.

13.3.1. Test unilateral `a droite. Pour un test d’hypoth`ese unilateral `a droite de la moyenne de la population (comme le test au-dessus), on fixe la valeur du risque de 1e esp`ese,α, et on cherche la valeur r´eelleatelle que

P[Z ≥a] =α, o`uZ suit la loi normaleN(0,1).

L’intervalle[a,+∞)est dit la r´egion critique. Voir la figure 3.

−4 −2 0 2 4

0.00.10.20.30.4

valeurs de la v.a. Z centrée réduite

densité

region critique

FIG. 3. La valeura = 1.644854et la r´egion critique au α = 0.05pour un test unilateral `a droite.

On calcule la valeur observ´ee de la moyenne centr´ee r´eduitez0,

(13.2) z0 = µ0−µH0

σ/√ n .

Siz0appartient `a la r´egion critique, l’hypoth`eseH0est rejet´ee. Sinon,H0n’est pas rejet´ee.

De fac¸on ´equivalente, on peut d´eterminer la probabilit´e p d’avoir la fluctuation de la moyenne au moins aussi grande que la moyenne observ´ee d’´echantillonµ0siH0 est vrai :

p=P[ ¯X ≥µ0kH0] =P[Z ≥z0].

Cette valuerps’appelle la valeurp(p-value, en anglais), ou bien le degr´e de signification de l’hypoth`ese nulle,H0. Si

p < α, alors l’hypoth`eseH0 est rejet´ee. Si

p≥α,

(8)

l’hypoth`eseH0n’est pas rejet´ee. Cela ne signifie pas queH0est accept´ee comme vraie ; c’est juste qu’il n’y a pas assez des preuves queH0 ne le soit pas.

13.3.2. Test unilateral `a gauche. La seule diff´erence ici, c’est la d´etermination de la r´egion critique et de la valeurp. On cherche la valeur r´eelleatelle que

P[Z ≤a] =α,

o`uZ suit la loi normaleN(0,1), et la r´egion critique est d´efini par (−∞, a].

De mˆeme fac¸on, on pose

p=P[ ¯X ≤µ0kH0] =P[Z ≤z0].

−4 −2 0 2 4

0.00.10.20.30.4

valeurs de la v.a. Z centrée réduite

densité

region critique

FIG. 4. La valeura = 1.96et la r´egion critique au α = 0.05pour un test unilateral `a gauche.

13.3.3. Test bilateral. Ici, la r´egion critique est sous la forme (−∞,−a]∪[1,+∞), o`u

P[Z ≤ −a] =P[Z ≥a] = α 2. La d´efinition de la valeurpdevient :

p=P[|X¯ −µ| ≥ |µ0−µ|kH0] =P[Z ≤ −|z0|] +P[Z ≥ |z0|].

Voir la figure 5.

(9)

−4 −2 0 2 4

0.00.10.20.30.4

valeurs de la v.a. Z centrée réduite

densité

region critique region

critique

FIG. 5. La valeura= 1.96et la r´egion critique auα= 0.05pour un test bilateral.

> plot(function(x) dnorm(x), -4,4, ylab="densite, + xlab="valeurs de la v.a. Z centree reduite", + col="blue",lwd=3)

> abline(v=c(-1.96,1.96),lwd=3,lty=2,col="red")

> abline(h=0,col="grey")

> z <- seq(1.96,4,length=100)

> w <- dnorm(z)

> points(z,w,type="h",col="red")

> points(-z,w,type="h",col="red")

> text(x=3.0,y=0.3,cex=1,labels="region \n critique")

> text(x=-3.4,y=0.3,cex=1,labels="region \n critique")

Références

Documents relatifs

Apr`es la variable est centr´ee et r´eduite, la loi de distribution converge vers la fonction N (0, 1) mˆeme dans le cas asym´etrique o`u p 6 = 0.5.. La fogure 8 illustre la loi

Par exemple, si on rajoute `a l’´echantillon des valeurs deux valeurs extrˆemes telles que 50 et 70 par exemple, on peut voir ce qu’on obtiendra comme boˆıte `a moustache sur

Quant `1a moi, je pr´ef`ere fortement la d´efinition des quartiles comme dans (7.1), car elle est plus facile `a m´emoriser et `a utiliser.. Quand mˆeme, on a toujours, de

Le test quantile-quantile, ou le test QQ, trace les points x i contre les n-quantiles cor- respondantes y i de la loi normale ayant la mˆeme moyenne et le mˆeme ´ecart-type que

Par contre, les r´esultats pour la distribution de la dur´ee du sommeil sans rˆeve (figure 2) favourisent l’hypoth`ese de normalit´e de la distribution. La normalit´e de

On a besoin d’un objet du type data.frame et pas une matrice parce que la fonction mean calcule la moyenne d’un data.frame colonne par colonne, en d’autres mots, pour

On veut rejeter l’hypoth`ese nulle H 0 , et avec ce but on en d´eduit une chose quasi impossible, improbable, en calculant la valeur p, qui est la probabilit´e d’observer une

Notons π 1 la proportion des employ´es qui arrˆetent de fumer chaque an de tous les entreprises (disons nord-am´ericaines) avec l’interdiction de fumer, et π 2 la proportion