Introduction `a la biostatistique – Mat 2779

(1)

L’´et´e 2010 Cours 15 — le 6 juillet

∗ ∗ ∗

15.1. Les principes généraux des tests d’hypothèse. Les mêmes méthodes peuvent être facilement modifiées pour pouvoir être utilisées dans beaucoup d’autres circonstances. La démarche reste toujours pareille.

– L’hypothèse nulle, qui est normalement définie par une égalité H0 :θ =θ_H0.

Iciθest la valeur du paramètre statistique de la population dite théorique parce qu’elle est inaccessible, et θ_H0 est une valeur du paramètre concrète. D’habitude, on souhaite que l’hypothèse nulle soit rejetée.

– L’hypoth`ese alternative sous une de trois formes possibles : H¹ :θ 6=θ_H0, H¹ :θ ≥θ_H0, H¹ :θ ≤θ_H0.

Selon le cas, on dit que le test est bilateral, unilateral à droite, et unilateral à gauche, respéctivement.

– On fixe d’avance la valeur α > 0 du risque de première espèce (c.à.d., le risque de rejeterH⁰ même siH⁰est vraie). De façon équivalente, on fixe la confiance1−α, qui est la probabilité de ne pas rejeterH⁰si elle est vraie.

– Au paramètre θ inconnu (qui n’est qu’un nombre réel) on associe la variable aléatoire Θ, qui est la valeur observée deθd’échantillon. La variableΘdépend d’échantillonage.

On noteθ⁰la valeur deΘpour l’´echantillon, θ⁰ = Θ(s),

s∈S étant l’évènement élémentaire (le choix d’échantillon). La valeurθ⁰est dite aussi estimation ponctuelle de Θ. Les estimations ponctuelles de Θ fluctuent autour de la valeur théorique,θ.

– La statistique du test, Z. C’est une variable aléatoire déterminée en fonction de la variable aléatoireΘ. La variableZ doit être choisie de telle façon que, sous l’hypothèse nulleH0, la loi de distribution deZ soit connue. En d’autres mots, la distribution deZ est connue conditionnellement sur H⁰. L’estimation ponctuelle θ⁰ correspond à l’estimation ponctuelle (valeur observée) de la v.a.Z, qui est notéz⁰.

1

(2)

– Le reste est standard. Par exemple, si on utilise la méthode de la valeurp, on détermine la valeurpcorréspondante à la valeur observée,θ⁰, deΘ.

Dans le cas bilateral, on a

p=P[|Θ|>|θ⁰|kH⁰] =P[|Z|>|z⁰|kH⁰], dans le cas unilateral `a droite

p=P[Θ> θ0kH0] =P[Z > z0kH0], et enfin dans le cas unilateral `a gauche

p=P[Θ< θ⁰kH⁰] =P[Z < z⁰kH⁰].

On cherche la valeurpen utilisant les quantiles pertinants de la loi de distribution deZ, qui est connue si on suppose que l’hypoth`ese nulleH0 est vraie.

– Finalement, on confronte la valeurpet la valeurα. Si p < α,

on conclut que l’hypothèse nulle H⁰ n’est pas crédible, et on la rejette en faveur de l’hypothèse alternativeH¹. Si, par contre,

p≤α,

alors l’observationθ⁰ peut être expliquée comme une fluctuation aléatoire deΘautour deθH⁰, et on échoue de rejeter l’hypothèse nulle.

15.2. Tests d’hypothèse pour la comparaison des fréquences (proportions). Soientπ¹ et π¹ les proportions théoriques (donc inconnues) des membres d’une classeAparmi les deux populations indépendantes diférentes.

Exemple :¹. Deux populations sont des entreprises avec et sans l’interdiction de fumer. L’évènement Aqui nous intéresse, c’est l’arrêt du tabagisme. Plus précisement, nous nous intéressons de la proportion des employés fumants qui arrête de fumer pendant un an dans chaque cas. Notonsπ1la proportion des employés qui arrêtent de fumer chaque an de tous les entreprises (disons nord-américaines) avec l’interdiction de fumer, etπ2 la proportion pareille qui travaillent aux entreprises sans l’interdiction de fumer. Bien sûr que les deux proportions sont hors de la portée, on ne pourra jamais les mesurer de façon précise.

On peut engendrer deux echantillons de deux populations indépendants, contenant respec- tivement n¹ et n² sujets, dont n¹A etn²A sujets appartiennent à la classeA. Alors on peut calculer les fréquences (les proportions) observées deA:

p¹ = n¹A

n1

etp² = n²A

n2

.

Exemple : L’organisme d’accréditation des organisations liées à la santé a imposé l’interdiction de fumer dans les hôspitaux américains en 1994. Dans une étude sur les effets de cette interdiction, des sujets fumeurs ont étés sélecionnés aléatoirement dans deux populations. Sur 843 employés fumeurs de l’hôpital soumis à l’interdiction, 56 ont arrêté de fumer un an après l’interdiction. Parmi 703

1Voir la page 151 dans Biostatistique pour les sciences de vie et de la sant´e par Triola et Triola.

(3)

employés fumeurs des entreprises sans interdiction de fumer, 27 ont cessé de fumer pendant la même période. Donc, on a

p1 = n1A

n1

= 56

843 = 0.06642942 = 6.6%, p2 = n2A

n2

= 27

703 = 0.03840683 = 3.8%.

Maintenant la question qu’on se pose, c’est pas d’estimer les proportions théoriquesπ¹ et π², mais plutôt : Y a-t-il une différence statistiquement significative entrep¹etp²pour qu’on puisse en déduire queπ1 > π2?

Nous allons ´etudier cette question au niveau de confiance95%, comme d’habutide.

Au cadre de notre exemple : peut-on conclure qu’en moyenne plus d’employ´es des entreprises avec interdiction de fumer arrˆeter de fumer ?

Voici le test d’hypoth`ese pertinent.

1. Le paramètre statistique au centre d’étude est la différence des deux proportions : θ =π¹−π².

2. L’hypothèse nulle dit que les fluctuations observée entrep¹etp²sont aléatoires et sans signification statistique :

H⁰: π¹ =π², ou bienH⁰: π¹−π² = 0.

3. Le choix raisonnable pour l’hypoth`ese alternative sera H¹: π¹ > π², c.`a.d.π¹−π² >0.

(Veuillez noter que l’hypothèse alternative n’est jamais formulée après avoir analysé l’échantillon.) 4. On considère les variables aléatoiresP¹(la proportion observée deAdu premier échantillon, en fonction d’échantillon), et pareillementP². La valeurp¹ est une estimation ponctulee de P¹, etp² est une estimation ponctuelle deP².

5. On construit la statistique du test comme suit. D’abord, notonsp⁰la moyenne pondérée des deux fréquences :

p⁰ = n¹_A+n²_A

n¹+n² = n¹p¹+n²p² n¹+n² . C’est la fr´equence de la population combin´ee.

Sous l’hypoth`ese nulle, on a

E(P¹ −P²) =π¹−π² = 0,

donc si la taille d’´echantillon est suffisamment grande,p¹etp²sont tous les deux estimations de la valeur communeπ⁰ deπ¹ etπ², d’o`u on conclut

varP¹ = p⁰(1−p⁰)

n¹ , varP² = p⁰(1−p⁰) n² .

(4)

Puisque les deux populations sont ind´ependantes, les v.a.P¹, P²sont ind´ependantes aussi, et on a

var(P¹−P²) = var(P¹) +var(−P²)

= var(P¹) +var(P²)

= p⁰(1−p⁰)

n¹ +p⁰(1−p⁰) n²

= p⁰(1−p⁰) 1

n¹ + 1 n²

.

Les distributions de P¹, P² sont binˆomiales, donc si n¹, n² sont chacun suffisamment grands,

(15.1) n¹A =n¹ ≥ p¹

5, (n¹−n¹A) =n¹ ≥ 1−p¹ 5 ,

(15.2) n²A =n² ≥ p²

5, (n²−n²A) =n² ≥ 1−p² 5 ,

alors — toujours sous l’hypothèse nulle — les distributions deP¹, P² tendent chacune vers la loi normale. Il en va de même pour la somme de deux v.a. indépendantes P¹ et −P². La version centrée réduite de la v.a.

P¹−P²

est précisement la statistique du test de comparaison de deux proportions (fréquences) des populations indépendantes :

Z = P¹−P² r

π⁰(1−π⁰)

1

n¹ +_n¹₂. SousH⁰, on a

Z ∼N(0,1).

Enfin, voici l’estimation ponctuelle de la statistique du test : z⁰ = p¹−p²

r

p⁰(1−p⁰)

1

n¹ +_n¹₂ .

C’est tout dont vous avez besoin pour tester l’hypoth`ese.

Exemple : Dans notre exemple, on a p0= n1A+n2A

n1+n2

= 56 + 27

843 + 703 = 0.05368693 = 5.3%.

(5)

Voici la statistique du test observ´ee :

z0 = p1−p2

r

p0(1−p0)

1

n¹ +_n¹₂

= 0.06642942−0.03840683 q

0.05368693(1−0.05368693) ₈₄₃¹ + ₇₀₃¹

= 2.434127.

Carn1A,(n1−n1A), n2A,(n2 −n2A) >5, la statistique suit la loi normale. Le test est unilateral `a droite (par rapport `aπ1−π2). Pour determiner la valeur p, on utilise (par exemple) R commander (Distributions→. . .→normal probabilities) :

> pnorm(c(2.434127), mean=0, sd=1, lower.tail=FALSE) [1] 0.007463878

Alors,

p= 0.7%.

Donc, la différence entre les deux proportions est statistiquement significative au α = 5%, voire α = 1%. L’hypothèse nulle est rejetée en faveur de l’hypothèse alternative : il est plus facile d’arrêter de fumer si personne ne fume plus au travail autour de vous.

Bien sûr que tout cela peut être reformulé au language de la région critique.

15.3. L’intervalle de confiance pour la différence entre les deux fréquences. Soientp¹, p² les fréquences observées du même évènement dans deux populations indépendantes.

Alors p¹ −p² est un estimateur statistique sans biais pourπ¹ −π² (c.à.d., la v.a. P¹ −P² converge en probabilité vers le nombre réelπ¹−π²). Quelle est l’intervalle de confiance pour π¹−π² autour dep¹−p², au niveau donnéeα?

Le problème est différent du test d’hypothèse : bien sûr qu’on peut estimer l’intervalle de confiance en question sous l’hypothèse nulle, cette estimation est inutile, car au fond, on croit que l’hypothèse nulle est fausse !

La variance deP¹−P²est ´egale `a

var(P¹−P²) =varP¹+varP² = p¹(1−p¹)

n¹ +p²(1−p²) n² .

Sous la condition que n¹, n² soient suffisamment grands (les conditions (15.1) et (15.2)), la diff´erenceP¹−P²suit la loi normale, et on a

(p¹−p²)±zα/2

s

p¹(1−p¹)

n¹ +p²(1−p²) n² comme l’intervalle de confiance.

Exemple 15.1. (Voir Biostatistique pour les sciences de vie et de la santé par Triola et Triola, p. 151). Dans une étude sur les femmes et les maladies cardiaques, les résultats suivants ont été obtenus à partir d’un échantillon : sur 10239 femmes soumises à un niveau faible d’activité physique (moins de 200 kcal/semaine), il y a eu 101 cas de maladies cardiaques.

(6)

Parmi9877femmes exerçant une activité physique mesurée entre 200 et 600 kcal/semaine, il y a eu 56 cas de maladies cardiaques. Construisez une estimation de l’intervalle de confiance

à90%de la différence entre les deux proportions. La différence, est-elle significative ? On a :

– n¹ = 10239, – n¹A= 101,

– p¹ = 101/10239 = 0.009864245, – n² = 9877,

– n²A= 56,

– p² = 56/9877 = 0.005669738, – α= 0.1.

Car ´evidemmentn¹A,(n¹−n¹A), n²A,(n²−n²A)>5, on utilise la loi normale, et cherche zα/2 =z⁰.5 = 1.644854.

Voici l’intervalle de confiance : (p¹−p²) ± zα/2

s

p¹(1−p¹)

n¹ + p²(1−p²) n² = (0.009864245−0.005669738)± 1.644854

r0.009864245(1−0.009864245)

10239 + 0.005669738(1−0.005669738) 9877

= [0.002163478,0.006225536]

= [0.2%,0.6%].

On peut en conclure que la diff´erence a une signification statistique.