• Aucun résultat trouvé

Introduction `a la biostatistique – Mat 2779

N/A
N/A
Protected

Academic year: 2022

Partager "Introduction `a la biostatistique – Mat 2779"

Copied!
6
0
0

Texte intégral

(1)

L’´et´e 2010 Cours 15 — le 6 juillet

∗ ∗ ∗

15.1. Les principes g´en´eraux des tests d’hypoth`ese. Les mˆemes m´ethodes peuvent ˆetre facilement modifi´ees pour pouvoir ˆetre utilis´ees dans beaucoup d’autres circonstances. La d´emarche reste toujours pareille.

– L’hypoth`ese nulle, qui est normalement d´efinie par une ´egalit´e H0 :θ =θH0.

Iciθest la valeur du param`etre statistique de la population dite th´eorique parce qu’elle est inaccessible, et θH0 est une valeur du param`etre concr`ete. D’habitude, on souhaite que l’hypoth`ese nulle soit rejet´ee.

– L’hypoth`ese alternative sous une de trois formes possibles : H1 :θ 6=θH0, H1 :θ ≥θH0, H1 :θ ≤θH0.

Selon le cas, on dit que le test est bilateral, unilateral `a droite, et unilateral `a gauche, resp´ectivement.

– On fixe d’avance la valeur α > 0 du risque de premi`ere esp`ece (c.`a.d., le risque de rejeterH0 mˆeme siH0est vraie). De fac¸on ´equivalente, on fixe la confiance1−α, qui est la probabilit´e de ne pas rejeterH0si elle est vraie.

– Au param`etre θ inconnu (qui n’est qu’un nombre r´eel) on associe la variable al´eatoire Θ, qui est la valeur observ´ee deθd’´echantillon. La variableΘd´epend d’´echantillonage.

On noteθ0la valeur deΘpour l’´echantillon, θ0 = Θ(s),

s∈S ´etant l’´ev`enement ´el´ementaire (le choix d’´echantillon). La valeurθ0est dite aussi estimation ponctuelle de Θ. Les estimations ponctuelles de Θ fluctuent autour de la valeur th´eorique,θ.

– La statistique du test, Z. C’est une variable al´eatoire d´etermin´ee en fonction de la va- riable al´eatoireΘ. La variableZ doit ˆetre choisie de telle fac¸on que, sous l’hypoth`ese nulleH0, la loi de distribution deZ soit connue. En d’autres mots, la distribution deZ est connue conditionnellement sur H0. L’estimation ponctuelle θ0 correspond `a l’esti- mation ponctuelle (valeur observ´ee) de la v.a.Z, qui est not´ez0.

1

(2)

– Le reste est standard. Par exemple, si on utilise la m´ethode de la valeurp, on d´etermine la valeurpcorr´espondante `a la valeur observ´ee,θ0, deΘ.

Dans le cas bilateral, on a

p=P[|Θ|>|θ0|kH0] =P[|Z|>|z0|kH0], dans le cas unilateral `a droite

p=P[Θ> θ0kH0] =P[Z > z0kH0], et enfin dans le cas unilateral `a gauche

p=P[Θ< θ0kH0] =P[Z < z0kH0].

On cherche la valeurpen utilisant les quantiles pertinants de la loi de distribution deZ, qui est connue si on suppose que l’hypoth`ese nulleH0 est vraie.

– Finalement, on confronte la valeurpet la valeurα. Si p < α,

on conclut que l’hypoth`ese nulle H0 n’est pas cr´edible, et on la rejette en faveur de l’hypoth`ese alternativeH1. Si, par contre,

p≤α,

alors l’observationθ0 peut ˆetre expliqu´ee comme une fluctuation al´eatoire deΘautour deθH0, et on ´echoue de rejeter l’hypoth`ese nulle.

15.2. Tests d’hypoth`ese pour la comparaison des fr´equences (proportions). Soientπ1 et π1 les proportions th´eoriques (donc inconnues) des membres d’une classeAparmi les deux populations ind´ependantes dif´erentes.

Exemple :1. Deux populations sont des entreprises avec et sans l’interdiction de fumer. L’´ev`enement Aqui nous int´eresse, c’est l’arrˆet du tabagisme. Plus pr´ecisement, nous nous int´eressons de la propor- tion des employ´es fumants qui arrˆete de fumer pendant un an dans chaque cas. Notonsπ1la proportion des employ´es qui arrˆetent de fumer chaque an de tous les entreprises (disons nord-am´ericaines) avec l’interdiction de fumer, etπ2 la proportion pareille qui travaillent aux entreprises sans l’interdiction de fumer. Bien sˆur que les deux proportions sont hors de la port´ee, on ne pourra jamais les mesurer de fac¸on pr´ecise.

On peut engendrer deux echantillons de deux populations ind´ependants, contenant respec- tivement n1 et n2 sujets, dont n1A etn2A sujets appartiennent `a la classeA. Alors on peut calculer les fr´equences (les proportions) observ´ees deA:

p1 = n1A

n1

etp2 = n2A

n2

.

Exemple : L’organisme d’accr´editation des organisations li´ees `a la sant´e a impos´e l’interdiction de fumer dans les hˆospitaux am´ericains en 1994. Dans une ´etude sur les effets de cette interdiction, des sujets fumeurs ont ´et´es s´elecionn´es al´eatoirement dans deux populations. Sur 843 employ´es fumeurs de l’hˆopital soumis `a l’interdiction, 56 ont arrˆet´e de fumer un an apr`es l’interdiction. Parmi 703

1Voir la page 151 dans Biostatistique pour les sciences de vie et de la sant´e par Triola et Triola.

(3)

employ´es fumeurs des entreprises sans interdiction de fumer, 27 ont cess´e de fumer pendant la mˆeme p´eriode. Donc, on a

p1 = n1A

n1

= 56

843 = 0.06642942 = 6.6%, p2 = n2A

n2

= 27

703 = 0.03840683 = 3.8%.

Maintenant la question qu’on se pose, c’est pas d’estimer les proportions th´eoriquesπ1 et π2, mais plutˆot : Y a-t-il une diff´erence statistiquement significative entrep1etp2pour qu’on puisse en d´eduire queπ1 > π2?

Nous allons ´etudier cette question au niveau de confiance95%, comme d’habutide.

Au cadre de notre exemple : peut-on conclure qu’en moyenne plus d’employ´es des entreprises avec interdiction de fumer arrˆeter de fumer ?

Voici le test d’hypoth`ese pertinent.

1. Le param`etre statistique au centre d’´etude est la diff´erence des deux proportions : θ =π1−π2.

2. L’hypoth`ese nulle dit que les fluctuations observ´ee entrep1etp2sont al´eatoires et sans signification statistique :

H0: π12, ou bienH0: π1−π2 = 0.

3. Le choix raisonnable pour l’hypoth`ese alternative sera H1: π1 > π2, c.`a.d.π1−π2 >0.

(Veuillez noter que l’hypoth`ese alternative n’est jamais formul´ee apr`es avoir analys´e l’´echantillon.) 4. On consid`ere les variables al´eatoiresP1(la proportion observ´ee deAdu premier ´echantillon, en fonction d’´echantillon), et pareillementP2. La valeurp1 est une estimation ponctulee de P1, etp2 est une estimation ponctuelle deP2.

5. On construit la statistique du test comme suit. D’abord, notonsp0la moyenne pond´er´ee des deux fr´equences :

p0 = n1A+n2A

n1+n2 = n1p1+n2p2 n1+n2 . C’est la fr´equence de la population combin´ee.

Sous l’hypoth`ese nulle, on a

E(P1 −P2) =π1−π2 = 0,

donc si la taille d’´echantillon est suffisamment grande,p1etp2sont tous les deux estimations de la valeur communeπ0 deπ1 etπ2, d’o`u on conclut

varP1 = p0(1−p0)

n1 , varP2 = p0(1−p0) n2 .

(4)

Puisque les deux populations sont ind´ependantes, les v.a.P1, P2sont ind´ependantes aussi, et on a

var(P1−P2) = var(P1) +var(−P2)

= var(P1) +var(P2)

= p0(1−p0)

n1 +p0(1−p0) n2

= p0(1−p0) 1

n1 + 1 n2

.

Les distributions de P1, P2 sont binˆomiales, donc si n1, n2 sont chacun suffisamment grands,

(15.1) n1A =n1 ≥ p1

5, (n1−n1A) =n1 ≥ 1−p1 5 ,

(15.2) n2A =n2 ≥ p2

5, (n2−n2A) =n2 ≥ 1−p2 5 ,

alors — toujours sous l’hypoth`ese nulle — les distributions deP1, P2 tendent chacune vers la loi normale. Il en va de mˆeme pour la somme de deux v.a. ind´ependantes P1 et −P2. La version centr´ee r´eduite de la v.a.

P1−P2

est pr´ecisement la statistique du test de comparaison de deux proportions (fr´equences) des populations ind´ependantes :

Z = P1−P2 r

π0(1−π0)

1

n1 +n12. SousH0, on a

Z ∼N(0,1).

Enfin, voici l’estimation ponctuelle de la statistique du test : z0 = p1−p2

r

p0(1−p0)

1

n1 +n12 .

C’est tout dont vous avez besoin pour tester l’hypoth`ese.

Exemple : Dans notre exemple, on a p0= n1A+n2A

n1+n2

= 56 + 27

843 + 703 = 0.05368693 = 5.3%.

(5)

Voici la statistique du test observ´ee :

z0 = p1−p2

r

p0(1−p0)

1

n1 +n12

= 0.06642942−0.03840683 q

0.05368693(1−0.05368693) 8431 + 7031

= 2.434127.

Carn1A,(n1−n1A), n2A,(n2 −n2A) >5, la statistique suit la loi normale. Le test est unilateral `a droite (par rapport `aπ1−π2). Pour determiner la valeur p, on utilise (par exemple) R commander (Distributions→. . .→normal probabilities) :

> pnorm(c(2.434127), mean=0, sd=1, lower.tail=FALSE) [1] 0.007463878

Alors,

p= 0.7%.

Donc, la diff´erence entre les deux proportions est statistiquement significative au α = 5%, voire α = 1%. L’hypoth`ese nulle est rejet´ee en faveur de l’hypoth`ese alternative : il est plus facile d’arrˆeter de fumer si personne ne fume plus au travail autour de vous.

Bien sˆur que tout cela peut ˆetre reformul´e au language de la r´egion critique.

15.3. L’intervalle de confiance pour la diff´erence entre les deux fr´equences. Soientp1, p2 les fr´equences observ´ees du mˆeme ´ev`enement dans deux populations ind´ependantes.

Alors p1 −p2 est un estimateur statistique sans biais pourπ1 −π2 (c.`a.d., la v.a. P1 −P2 converge en probabilit´e vers le nombre r´eelπ1−π2). Quelle est l’intervalle de confiance pour π1−π2 autour dep1−p2, au niveau donn´eeα?

Le probl`eme est diff´erent du test d’hypoth`ese : bien sˆur qu’on peut estimer l’intervalle de confiance en question sous l’hypoth`ese nulle, cette estimation est inutile, car au fond, on croit que l’hypoth`ese nulle est fausse !

La variance deP1−P2est ´egale `a

var(P1−P2) =varP1+varP2 = p1(1−p1)

n1 +p2(1−p2) n2 .

Sous la condition que n1, n2 soient suffisamment grands (les conditions (15.1) et (15.2)), la diff´erenceP1−P2suit la loi normale, et on a

(p1−p2)±zα/2

s

p1(1−p1)

n1 +p2(1−p2) n2 comme l’intervalle de confiance.

Exemple 15.1. (Voir Biostatistique pour les sciences de vie et de la sant´e par Triola et Triola, p. 151). Dans une ´etude sur les femmes et les maladies cardiaques, les r´esultats suivants ont ´et´e obtenus `a partir d’un ´echantillon : sur 10239 femmes soumises `a un niveau faible d’activit´e physique (moins de 200 kcal/semaine), il y a eu 101 cas de maladies cardiaques.

(6)

Parmi9877femmes exerc¸ant une activit´e physique mesur´ee entre 200 et 600 kcal/semaine, il y a eu 56 cas de maladies cardiaques. Construisez une estimation de l’intervalle de confiance

`a90%de la diff´erence entre les deux proportions. La diff´erence, est-elle significative ? On a :

– n1 = 10239, – n1A= 101,

– p1 = 101/10239 = 0.009864245, – n2 = 9877,

– n2A= 56,

– p2 = 56/9877 = 0.005669738, – α= 0.1.

Car ´evidemmentn1A,(n1−n1A), n2A,(n2−n2A)>5, on utilise la loi normale, et cherche zα/2 =z0.5 = 1.644854.

Voici l’intervalle de confiance : (p1−p2) ± zα/2

s

p1(1−p1)

n1 + p2(1−p2) n2 = (0.009864245−0.005669738)± 1.644854

r0.009864245(1−0.009864245)

10239 + 0.005669738(1−0.005669738) 9877

= [0.002163478,0.006225536]

= [0.2%,0.6%].

On peut en conclure que la diff´erence a une signification statistique.

Références

Documents relatifs

Le test quantile-quantile, ou le test QQ, trace les points x i contre les n-quantiles cor- respondantes y i de la loi normale ayant la mˆeme moyenne et le mˆeme ´ecart-type que

Par contre, les r´esultats pour la distribution de la dur´ee du sommeil sans rˆeve (figure 2) favourisent l’hypoth`ese de normalit´e de la distribution. La normalit´e de

On a besoin d’un objet du type data.frame et pas une matrice parce que la fonction mean calcule la moyenne d’un data.frame colonne par colonne, en d’autres mots, pour

Mais la structure du test d’hypoth`ese, d´etermin´ee par le choix de H 0 et de H 1 , est telle que, mˆeme s’il est vrai que le moyen du tour de taille s’est r´eduit,

On veut rejeter l’hypoth`ese nulle H 0 , et avec ce but on en d´eduit une chose quasi impossible, improbable, en calculant la valeur p, qui est la probabilit´e d’observer une

Chaque ´echantillon est extrait d’une population dans laquelle la variable qui nous int´eresse a une valeur moyenne (la moyenne de la population) inconnue µ 1 , resp... Comme

(a) Si une personne est tir´e au hasard de cette population, quelle est la probabilit´e qu’elle soit test´ee positive pour cette type de cancer.. (b) Calculez la probabilit´e que

(a) [1 point] Donner le nombre attendu des grenouilles poss`edant ce trait, ainsi que l’´ecart-type du nombre des grenouilles avec ce trait.. (b) [1 point] Calculer la