Introduction `a la biostatistique – Mat 2779

(1)

L’´et´e 2010 Cours 14 — le 29 juin

14.1. Sur l’idée des tests d’hypothèse. En mathématique, on fait souvent des preuves par contradiction. Si on veut montrer un énoncéA, on suppose queAest faux, donc la négation de A, ¬A, est vraie. On veut rejeter ¬A, et pour ce but on en déduit une chose absurde, impossible, une contradiction. Cela veut dire que¬A est faux, par conséquent on adopteA comme vrai.

C’est pareil avec les tests d’hypothèse. On veut rejeter l’hypothèse nulle H0, et avec ce but on en déduit une chose quasi impossible, improbable, en calculant la valeurp, qui est la probabilité d’observer une valeur autant, ou plus, extrème que la valeur actuellement observé.

Sipest trop petit (plus petit que le risqueαfix´e d’avance), on rejetteH⁰. 14.2. Terminologie et notation.

14.2.1. Erreur standard. C’est un autre nom pour l’´ecart-type de la moyenne de l’´echantillon : SE = sM = s

√n.

14.2.2. L’écart observé. C’est la différence entre µ (la moyenne observée) et la moyenne µH0 de l’hypothèse nulle :

µ⁰−µH0.

14.2.3. La statistique du test. Cette expression designe deux choses `a la fois.

D’abord, la statistique du test est la variable aléatoire Z associée au test dont la loi de distribution est (approximativement) connue. Pour les tests d’hypothèse de moyenne, il s’agit de la v.a.

Z = X¯ −µH0

σ/√ n . CetteZ est une variable al´atoire th´eorique.

Au même temps, la statistique du test observée est la valeur de Z qui corréspond à la valeur observée du paramètre statistique (dans notre cas, la moyenne d’échantillonµ⁰) :

z⁰ = µ⁰−µH0

σ/√n . C’est un nombre r´eel.

1

(2)

tique du test :

Z = X¯ −µH0

s/√n .

14.2.5. La taille d’échantillon et le choix entre Z ou T. Si n est petit (pour les tests d’hy- pothèse de la moyenne, n < 30), on note parfois la statistique du test par la lettreT pour souligner que la statistique suit la loi de Student plutôt que la loi normale :

T = X¯ −µH0

σ/√

n , ou bienT = X¯ −µH0

s/√ n .

Si on adopte cette notation-là, alors la valeur de statistique du test observé sera notéet⁰. 14.2.6. La loi de la statistique du test. Conditionnellement sur l’hypothèse nulle, on suppose que :

σest connu σest inconnu n≥30 Z = ^X^¯_s/^−µ^√^H0_n ∼N(0,1) Z = ^X−µ^¯_s/^√^H0_n ∼N(0,1) n <30 T = ^X^¯_σ/^−µ^√^H0_n ∼tⁿ⁻¹ T = ^X^¯_s/^−µ^√^H0_n ∼tⁿ⁻¹

14.2.7. Les valeurs extrêmes. Il s’agit des valeursaqui correspondent à unα >0donné, et aussi dépendent de la forme du test (unilateral/bilateral). Au lieu dea, on utilise parfoiszα

outⁿ_α⁻¹.

Par exemple, pour un test unilateral `a gauche, avecn≥30, on a a=−zα,

o`u

P[Z <−zα] =α.

La r´egion critique est

(−∞,−z_α].

Pour un test bilateral avecn≥30, la r´egion critique est (−∞,−z_α/2)∪(z_α/2∪+∞), o`u

P[Z > zα/2] = α 2.

De même façon, si n < 30, si le test est par exemple unilateral à gauche, on se sert de la valeur

a=−tⁿ_α⁻¹, o`u

P[Z <−tⁿ_α⁻¹] =α.

(3)

−2 0 2 4 6

0.00.10.20.30.40.50.60.7

x

densité

FIG. 1. La courbe `a gauche est la distribution de Z sous H⁰, et la courbe

à droite est la vraie distribution deZ (qui est bien sûr inconnue à nous). La ligne verticale marque la valeur critique pour l’hypothèse nulle. L’aire de la surface hachurée est le risqueβde 2e espèce.

La r´egion critique dans ce cas est

(−∞,−tα].

14.2.8. z-test ett-test. Si on suppose que la statistique du test suit la loi normale, le test est parfois dit unz-test. Si la statistique suit la loi de Student, il s’agit d’unt-test.

14.3. Le risque de deuxième espèce et la puissance du test. Au cadre des tests d’hy- pothèse, la valeur du risqueα >0est dite le risque de 1e espèce. C’est précisement le risque de rejeter l’hypothèse nulleH⁰ si elle est vraie.

Le risque de 2e espèce est le risque de ne pas rejeter l’hypothèse nulle en faveur de l’hy- pothèse alternativeH¹même siH¹est vraie. Le risque de 2e espèce est notéβ.

La valeur1−β est dite la puissance de test. De façon informelle, c’est la probabilité de discerner une différence entre les deux hypothèses lorsqu’elle existe. Regardez le diagramme 1.

Lorsque la taille d’´echantillon s’augmente,βse diminue, car le deux courbes devients plus resserr´ees autours de leurs moyennes respectives. La puissance de test s’accroit.

14.4. La démarche précisée.

14.4.1. L’approche traditionnelle utilisant la r´egion critique.

– D´efinirH0etH1.

– Choisisser le risqueα >0.

(4)

– Calculer la statistique du test observée. Si la valeur appartient à la région critique, on rejetteH0en faveur deH1. Sinon, on échoue à rejeterH0.

14.4.2. L’approche plus moderne utilisant la valeursp.

– D´efinirH⁰etH¹.

– Choisisser le risqueα >0.

– Mésurer le paramètre observé.

– Determiner la statistique du test et la valeurppour la valeur du param`etre observ´ee.

– Sip < α, on rejetteH⁰ en faveur deH¹. Sinon, on ´echoue `a rejeterH⁰.

Les deux approaches sont rigoreusement équivalentes : elles donnent les mêmes résultats.

Exercice 14.1. La moyenne d’un échantillon aléatoire des 106 températures humaines est 36.78ôC. Supposons que l’écart type de la population est connu et vaut 0.34ôC. Au 95%, testez la croyance commune que la température d’un adulte en bonne santé est37.0ôC.

L’hypoth`ese nulle est l’affirmation queµ= 37^oC, symboliquement : H⁰ :µ= 37.

L’hypoth`ese alternative :

H¹ :µ6= 37.

Le test est dont bilateral.

Le risqueα= 0.05.

Voici la statistique du test observ´ee :

z⁰ = 36.78−37.0

0.34/sqrt106 =−6.66.

La m´ethode de la r´egion critique. Car le test est bilateral, etn >30, on a a=zα/2 =z⁰.025 = 1.959964.

R commander→distributions→continuous distributions→normal distribution→normal quantiles ...

La region critique :

(−∞,−1.959964]∪[1.959964,+∞).

Carz⁰ appartient à la région critique,H⁰ est rejetée en faveur deH¹. La méthode de la valeurp. La valeurpcorréspondante àz⁰est égale à

P[|Z|>|z0|kH0],

donc, avec R commander→distributions→continuous distributions→normal distribution

→normal probabilities, variable value=-6.66, lower tail, on obtient la valeur infinitesimal :

> pnorm(c(-6.66), mean=0, sd=1, lower.tail=TRUE) [1] 1.369138e-11

(5)

Il faut le multiplier par2, car le test est bilateral, mais ce ne change rien : p= 2×1.369138×10⁻¹¹= 2.738276×10⁻¹¹= 0.00000000001.

Carpest plus petit que0.05, on rejetteH⁰ en faveur deH¹.

14.5. Tests d’hypoth`ese sur la moyenne avec R commander. Voir le solutionnaire au devoir 3, le probl`eme 4(d).