Notes de cours Biostatistiques – MIV (L3) Tests param´etriques
M. Bailly-Bechet
Universit´ e Claude Bernard Lyon 1 – France
1 Variable et test du χ 2
1.1 Variable du χ
2On d´ efinit une variable du χ
2` a k degr´ es de libert´ e (d.d.l) comme la somme de k carr´ es des tirages ind´ ependants d’une loi normale centr´ ee r´ eduite.
Math´ ematiquement, on a :
χ
2k=
k
X
i=1
x
2i, (1)
avec chaque x
iune r´ ealisation d’une variable normale centr´ ee r´ eduite. Sachant cela, on pourrait calculer la densit´ e de la loi du χ
2` a k d.d.l ` a partir de la densit´ e de probabilit´ e de la loi normale. Le calcul est complexe, mais la densit´ e de probabilit´ e de la loi du χ
2` a k degr´ es de libert´ e est :
p(X = x) = 1
2
k2Γ(
k2) x
k2−1e
−x2. (2) La fonction Γ(r) est une fonction math´ ematique qui g´ en´ eralise la fonction factorielle n! = n × (n − 1) × (n − 2) × . . . × 1. Une de ses d´ efinitions est :
Γ(r) = Z
∞0
e
−λxλ
rx
r−1dx. (3)
Cette fonction est donc d´ efinie par une int´ egrale, et n’a pas de forme analytique. Elle conserve et g´ en´ eralise ` a l’ensemble des r´ eels les propri´ et´ es de la fonction factorielle
1.
Concernant le χ
2, on peut ais´ ement remarquer que χ
2k+ χ
2l= χ
2k+l, tous les x
i´ etant ind´ ependants. Ceci permet de retrouver les propri´ et´ es du χ
2` a partir de celles du χ
2` a 1 d.d.l. Pour celui-ci – qui est donc simplement le carr´ e d’une variable normale – on peut montrer que E (χ
21) = 1 et V (χ
21) = 2.
Pour l’esp´ erance, on ´ ecrit que x
2e
−x2
2
= x × xe
−x2
2
et on int` egre par parties : E (χ
21) =
Z
+∞−∞
x
21
√ 2π e
−x2
2
dx (4)
=
x 1
√ 2π e
−x2 2
+∞−∞
+ Z
+∞−∞
√ 1 2π e
−x2
2
dx = 1 car on reconnaˆıt une int´ egrale gaussienne (5)
La d´ emonstration pour la variance suit la mˆ eme logique, mais est laiss´ ee aux ´ etudiants. On peut d´ eduire des deux proprit´ et´ es pr´ ec´ edentes et de la lin´ earit´ e de l’esp´ erance que l’esp´ erance d’une v.a. du χ
2` a k d.d.l vaut k, et sa variance 2k.
1.2 Fonction g´ en´ eratrice des moments
Nous avons besoin pour la suite de la fonction g´ en´ eratrice des moments (FGM) du χ
2. Le calcul est direct, et passe par l’emploi de la d´ efinition de la fonction Γ. On va calculer la FGM d’une loi du χ
2` a k degr´ es de libert´ e
1. On peut facilement remarquer, par int´egration par parties en prenant u = xr et v0=e−λxλr+1, que Γ(r+ 1) =rΓ(r), ou encore que sirest entier, Γ(r) = (r−1)!
en passant par la formulation M
X(t) = E (e
tx). On a : E (e
tx) =
Z
∞ 0e
tx1
2
k2Γ(
k2) x
k2−1e
−x2dx (6)
= 1
2
k2Γ(
k2) Z
∞0
e
−(
12−t)
xx (
k2−1) dx (7)
= 1
2
k2Γ(
k2) Z
∞0
e
−λxx
r−1dx en prenant λ = 1
2 − t et r = k
2 , (8)
= 1
2
k2Γ(
k2) 1
λ
rΓ(r) (9)
= Γ
k22
k2Γ(
k2)
1
1
2
− t
k2(10)
= 1
(1 − 2t)
k2(11)
= (1 − 2t)
−k2. (12)
On peut v´ erifier les propri´ et´ es pr´ ec´ edentes (esp´ erance, variance) ` a partir de cette FGM.
1.3 Test du χ
2Le test du χ
2existe en deux versions :
Le test de conformit´ e o` u l’on v´ erifie si une table de contingence repr´ e- sente un tirage ”conforme” ` a une loi de probabilit´ e pour les diff´ erents
´
evenements.
Le test d’ind´ ependance o` u l’on v´ erifie que la table de contingence crois´ ee de deux variables ou plus est bien le produit des tables de contingences de chaque variable, c-` a-d que la valeur d’une variable n’influe pas sur le tirage de l’autre.
Pour retrouver comment le test du χ
2est reli´ e aux variables du χ
2, on va
prendre un cas simple : le test de conformit´ e pour un tirage ` a deux urnes. On
d´ efinit deux ´ evenements compl´ ementaires A et B de probabilit´ e respectives
p et 1 − p (exemples : pi` ece ` a pile ou face, probabilit´ e d’avoir un gar¸con ` a la
naissance, . . . ). On observe une statistique de n tirages de ces ´ evenements,
compos´ e de n
1tirages de A et n −n
1tirages de B. La question est : ce r´ esultat est-il significativement diff´ erent de l’hypoth` ese nulle que l’on s’est fix´ ee au d´ epart, ` a savoir que les tirages se font avec des probabilit´ es p et 1 − p ? Dans le cas des naissances, on peut se poser la question de savoir si, dans une population particuli` ere, le pourcentage observ´ e de gar¸cons ` a la naissance est le mˆ eme que dans le reste de la population du pays, o` u la proportion de gar¸cons vaut p.
La proc´ edure habituelle pour v´ erifier cette hypoth` ese est la suivante : 1. Calculer la statistique observ´ ee du χ
2: χ
2obs=
(n1−np)np 2+
((n−nn(1−p)1)−n(1−p))22. Comparer sa valeur ` a celle de la loi du χ
2` a 1 d.d.l (1 ici car le nombre
de d.d.l doit ˆ etres ´ egal au nombres de cat´ egories possibles moins 1) 3. Conclure
Quel est le lien entre χ
2obset la loi du χ
2? Pourquoi n − 1 d.d.l ? On peut r´ epondre ` a ces questions par le calcul suivant :
χ
2obs= (n
1− np)
2np + ((n − n
1) − n (1 − p))
2n (1 − p) (13)
= (n
1− np)
2np + (np − n
1)
2n (1 − p) (14)
= (n
1− np)
2n
1 p + 1
1 − p
(15)
= (n
1− np)
2n
1 p(1 − p)
(16)
= n
1− np p np(1 − p)
!
2(17) Le terme de droite de la derni` ere ligne est une r´ ealisation de n tirages qui a ´ et´ e centr´ ee et r´ eduite. En effet, le tirage de n ´ el´ ements de probabilit´ e p suit une loi binomiale de moyenne np et d’´ ecart-type p
np(1 − p). De plus, si n est tr` es grand, d’apr` es le TCL on sait que l’on peut approximer la loi binomiale exacte suivie par ce tirage par une loi normale. La variable √
n1−npnp(1−p)
est donc
une variable normale centr´ ee r´ eduite ; mise au carr´ e, c’est donc une variable
du χ
2` a 1 d.d.l. On obtient donc bien que, si le TCL est applicable, le χ
2obssuit une loi du χ
2` a 1 d.d.l, ce qui explique pourquoi on la compare ensuite
`
a cette loi.
On peut g´ en´ eraliser cette formule par r´ ecurrence ` a un test de conformit´ e du χ
2` a k degr´ es de libert´ e, le raisonnement ´ etant exactement le mˆ eme. Pour les tests d’ind´ ependance, le principe est l´ eg` erement plus complexe, mais ne sera pas d´ emontr´ e ici.
2 Test de la moyenne
Il existe diff´ erents tests de la moyenne. Ceux-ci servent ` a comparer les moyennes de deux ´ echantillons pour un param` etre quantitatif. L’hypoth` ese nulle y est toujours : ”Les deux ´ echantillons ont mˆ eme moyenne”, ce que l’on interpr` ete g´ en´ eralement par le fait que les deux ´ echantillons viennent de la mˆ eme population.
En fonction du fait que l’on connaisse ou non a priori la variance des populations de d´ epart – cas en pratique tr` es rare – le test se fait de diff´ erentes mani` eres. On va les expliciter ici. Le cadre g´ en´ eral est donc que l’on a deux
´
echantillons, que l’on peut consid´ erer comme deux s´ eries de tirages de deux v.a. X et Y . On note respectivement µ
Xet µ
Yles esp´ erances des deux v.a.
et σ
X2et σ
Y2leurs variances. On suppose que les tailles des ´ echantillons sont n
Xet n
Y. On note ¯ x et ¯ y les moyennes des deux ´ echantillons.
2.1 Variances connues
Si on connaˆıt a priori les variances de X et Y , suite ` a des ´ etudes popu- lationelles pr´ ec´ edentes, la construction du test est assez simple. On sait que la moyenne du premier ´ echantillon ¯ x suit une loi qui vient directement de la loi de X, la loi de la population d’origine. On sait en effet que ¯ x suit une loi de mˆ eme moyenne que X (par lin´ earit´ e de l’esp´ erance) et de variance
nσ2XX
, d’apr` es les propri´ et´ es de la variance. Idem pour ¯ y. Si X et Y sont ind´ epen- dantes, on peut construire facilement la loi de la v.a. ¯ x − y ¯ : c’est une loi de moyenne µ
X− µ
Yet de variance
σn2XX
+
nσ2YY
. La quantit´ e = (¯ x − y) ¯ − (µ
X− µ
Y)
q
σX2 nX+
σn2YY
(18)
est donc une v.a. centr´ ee r´ eduite. Pour d´ eterminer la loi suivie par cette v.a., nous avons plusieurs possibilit´ es. Tout d’abord, si X et Y suivent chacun une loi normale, alors on peut montrer
2que la loi de x + y, et a fortiori de
¯
x − y, est une loi normale. Si on ne connaˆıt pas la loi suivie par ¯ X, Y , ou les deux, mais que l’on sait que n
X, n
You les deux sont suffisament grands, on peut appliquer le TCL pour dire que ¯ x, ¯ y ou les deux suivent une loi normale ; encore une fois dans ce cas la v.a. ¯ x− y ¯ suivra elle aussi une loi normale. Donc pour conclure que suit une loi normale, il suffit que chaque ´ echantillon ait une taille importante ou provienne d’une population normalement distribu´ ee.
Dans ces cas, suit une loi normale. Attention cependant, si les effectifs n
Xet n
Ysont tr` es faibles, il va ˆ etre techniquement difficile de rejeter l’hypoth` ese de normalit´ e avec un test de normalit´ e (voir chapitres suivants). Dans le cas des petits effectifs, on se tournera donc en pratique vers des tests non param´ etriques pour lesquelles la distribution des donn´ ees de d´ epart a moins d’importance.
Finalement, pour effectuer le test de comparaison de moyennes, on veut comparer l’hypoth` ese nulle H
0µ
X= µ
Y` a l’hypoth` ese alternative µ
X6= µ
Y. Si H
0est vraie, alors on peut dire que la quantit´ e
obs= x ¯ − y ¯ q
σX2nX
+
σn2YY
(19)
suit une loi normale. On va donc calculer cette quantit´ e, et regarder la probabilit´ e que le r´ esultat obtenu (ou mieux) provienne d’une loi normale centr´ ee r´ eduite. Cette probabilit´ e est une p-value, et on d´ ecidera en fonction de sa valeur d’accepter ou de rejeter l’hypoth` ese H
0. Notez bien que si H
0est fausse, on ne peut plus rien dire sur notre statistique et sur la valeur attendue de
obs: on ne peut donc pas calculer de la mˆ eme mani` ere le risque de deuxi` eme esp` ece.
2.2 Variances inconnues : test de Fischer et test de Student
Dans de nombreux cas pratiques, on veut comparer les moyennes d’´ echan- tillons dont la variance est inconnue, et donc estim´ ee ` a partir des donn´ ees.
Cette estimation de la variance conduit ` a faire des erreurs suppl´ ementaires,
2. Il s’agit de la stabilit´e par convolution de la loi normale
et la loi suivie par la diff´ erence centr´ ee r´ eduite des moyennes ne va plus ˆ etre une loi normale.
Soit Z une v.a normale de moyenne µ et de variance σ
2. Si on a un
´
echantillon de Z compos´ e de n tirages z
1, z
2. . . , z
n, on sait que la moyenne observ´ ee ¯ z, d’apr` es le TCL, suit une loi normale de moyenne µ et de variance
σ2
n
. Qu’en est-il de la variance observ´ ee, s
2? Par d´ efinition, s
2=
1nP
n i=1(z
i−
¯
z)
2. On a :
ns
2σ
2=
n
X
i=1
z
i− z ¯ σ
2(20)
=
n
X
i=1
x
i− µ + µ − z ¯ σ
2(21)
= 1 σ
2n
X
i=1
(z
i− µ)
2− 2 (z
i− µ) (µ − z) + (µ ¯ − z) ¯
2(22)
= 1 σ
2n
X
i=1
(z
i− µ)
2+ 2
n
X
i=1
z
iµ − z
iz ¯ − µ
2+ µ¯ z +
n
X
i=1
µ
2− 2µ¯ z + ¯ z
2(23)
= 1 σ
2n
X
i=1
(z
i− µ)
2+ 2n¯ zµ − 2n z ¯
2+ 2nµ
2+ 2nµ¯ z + nµ
2− 2nµ¯ z + n¯ z
2(24)
= 1 σ
2n
X
i=1
(z
i− µ)
2− nµ
2+ 2nµ¯ z − n z ¯
2(25)
=
n
X
i=1
z
i− µ σ
2− n
z ¯ − µ σ
2(26)
=
n
X
i=1
z
i− µ σ
2−
¯ z − µ
q
σ2 n
2
(27)
Les deux termes suivent une loi du χ
2, respectivement ` a n d.d.l et 1 d.d.l.
Cependant, la loi suivie par la diff´ erence de deux termes du χ
2n’est pas
connue, contrairement au cas additif ; de plus, les deux termes ici ne sont pas
ind´ ependants (ils d´ ependent tous deux des z
iplus ou moins directement), et
on ne peut donc pas appliquer les relations sur la lin´ erait´ e de l’esp´ erance ou d’additivit´ e des variances.
Comme dans le cas du TCL, on va donc passer par les FGM pour trouver la loi suivie par la variance observ´ ee s
2. Cette variance, comme la moyenne
¯
z, est en effet une v.a. qui d´ epend du tirage des z
i. On r´ e´ ecrit l’´ equation 27 et on prend sa FGM :
ns
2σ
2+
¯ z − µ
q
σ2 n
2
=
n
X
i=1
z
i− µ σ
2(28)
E
exp
t ns
2σ
2+ t
¯ z − µ
q
σ2 n
2
= E exp (
t
z
i− µ σ
2)!
(29)
E
exp
t ns
2σ
2exp
t
¯ z − µ
q
σ2 n
2
= E exp (
t
z
i− µ σ
2)!
(30)
Par ind´ ependance de s
2et ¯ z (ind´ ependance qui d´ ecoule de la normalit´ e de X), on peut utiliser l’´ egalit´ e E (XY ) = E (X) E (Y ) sur le membre gauche de l’´ equation 30. On obtient alors, en reconnaissant les FGM de variables du χ
2`
a n et 1 d.d.l :
E
exp
t ns
2σ
2E
exp
t
¯ z − µ
q
σ2 n
2
= E exp (
t
z
i− µ σ
2)!
(31) E
exp
t ns
2σ
2(1 − 2t)
−12= (1 − 2t)
−n2(32) E
exp
t ns
2σ
2= (1 − 2t)
−(n−1)
2
(33)
La v.a.
nsσ22a donc pour FGM (1 − 2t)
−(n−1)
2
, ce qui est la FGM d’une v.a.
du χ
2` a n − 1 d.d.l. On en d´ eduit donc, par le th´ eor` eme de L´ evy, que
nsσ22suit une loi du χ
2` a n − 1 d.d.l. Cette ´ egalit´ e nous sera tr` es utile par la suite,
pour retrouver les lois de Fisher et Student. De plus, on peut remarquer,
en prenant l’esp´ erance de
nsσ22, que l’on a E (
nsσ22) = n − 1, formule que l’on
voit souvent r´ e´ ecrite de mani` ere simplifi´ ee comme ˆ σ
2=
n−1ns
2. Cette derni` ere formule nous donne la valeur de ˆ σ
2, l’estimateur de σ
2, mais contient moins d’information, puisque l’on perd la notion de la loi suivie par s
2dans ce cas.
2.2.1 Egalit´ ´ e des variances et test de Fisher
Reprenons les v.a. X et Y de la section 2.1 et les notations associ´ ees.
Quand les variances sont estim´ ees, il faut avant de comparer les moyennes de X et Y v´ erifier si leurs variances sont significativement diff´ erentes ou non. Le test associ´ e ` a cette question est le test de Fisher, d’hypoth` ese nulle H
0: ”Les variances de X et Y sont ´ egales”. Pour effectuer ce test, on a besoin d’utiliser la loi de Fisher, qui est d´ efinie ` a partir de la loi du χ
2. En effet, on d´ efinit la loi de Fisher de param` etres n
1− 1 et n
2− 1 comme le rapport de lois du χ
2normalis´ es :
F (a, b) =
χ2a a χ2b b−1
(34) Ici encore, on pourrait calculer la densit´ e de probabilit´ e de la loi de Fisher ` a partir de celle du χ
2, mais ce ne sera pas n´ ecessaire en pratique.
Sachant cela, on peut dire que le rapport des variances observ´ ees des v.a.
X et Y va suivre une loi de Fisher. En effet on a :
nXs2X σX2(nX−1)
nYs2Y σ2Y(nY−1)
→ F (n
X− 1, n
Y− 1), (35)
ou plus simplement
σˆX2 σX2 σˆ2Y σ2Y
→ F (n
X− 1, n
Y− 1). (36)
Sous l’hypoth` ese H
0, on a σ
X2= σ
Y2et alors
σˆˆ2XσY2
→ F (n
X− 1, n
X− 2).
C’est cette statistique que l’on va calculer, puisque l’on ne dispose pas de σ
X2ou σ
Y2. Si H
0est vraie, on peut estimer la probabilit´ e des d´ eviations de la valeur observ´ ee de F par rapport ` a la loi de Fisher. Si cette d´ eviation est trop grande ou trop faible, on rejettera H
0et concluera que les variances sont diff´ erentes
3.
3. En pratique, on choisit souvent de faire un test de Fisher unilat´eral en divisant la
2.2.2 Construction du test de Student
Si les deux variances sont ´ egales, on d´ efinit la variance commune esti- m´ ee par la formule
ˆ
σ
2= n
Xs
2X+ n
Ys
2Yn
X+ n
Y− 2 . (37)
L’esp´ erance de ˆ σ
2vaut 1 ; en effet, de la mˆ eme mani` ere que plus haut dans le cas d’une seule variance, on peut ´ egalement d´ emontrer que la variance commune observ´ ee de deux variables suit une loi du χ
2` a n
X+ n
Y− 2 d.d.l ; plus pr´ ecis´ ement on a :
n
Xs
2X+ n
Ys
2Yσ
2→ χ
2nX+nY−2
. (38)
La d´ emonstration est la mˆ eme que plus haut et passe par les FGM. La combinaison de ces deux ´ equations nous donne :
ˆ σ
2σ
2(n
X+ n
Y− 2) → χ
2nX+nY−2
(39)
Si on reprend maintenant le raisonnement vu pour le cas des variances connues, toujours en supposant que X et Y suivent une loi normale (ici cette hypoth` ese est n´ ecessaire et ne peut pas ˆ etre remplac´ ee par de grands ´ echan- tillons comme plus haut, notamment pour pouvoir montrer les convergences des variances observ´ ees vers des lois de χ
2), on va pouvoir ´ ecrire que :
¯
x − y ¯ − (µ
X− µ
Y) r
σ
2 1nX
+
n1Y
→ N (0, 1) (40)
Le probl` eme vient du fait que l’on ne dispose que de ˆ σ
2et pas de σ
2. On r´ e´ ecrit alors l’´ equation pr´ ec´ edente sous la forme :
¯
x − y ¯ − (µ
X− µ
Y) r
ˆ σ
21 nX
+
n1Y
r σ ˆ
2σ
2→ N (0, 1) (41) En rempla¸cant le terme sous la racine par l’´ equation 39, et en supposant H
0vraie (donc en supprimant le terme µ
X− µ
Y), on obtient la convergence en loi suivante :
variance la plus grande par la plus faible, et en ne regardant que les grandes valeurs de F comme significatives.
t
obs= x ¯ − y ¯ r
ˆ σ
21 nX
+
n1Y
→ N (0, 1) q
χ2nX+nY−2nX+nY−2
(42)
La statistique de t
obssuit donc celle du rapport d’une loi normale centr´ ee r´ eduite et de la racine d’un χ
2normalis´ e. C’est ainsi que l’on d´ efinit la loi de Student ` a n
X+ n
Y− 2 d.d.l. Ici encore, il serait possible de trouver une expression analytique pour la densit´ e de probabilit´ e de la loi de Student, mais en pratique elle est inutile, et soit le calcul direct sur ordinateur, soit les tables statistiques sont utilis´ ees. Comme pr´ ecedemment, si H
0est fausse, on ne peut rien dire en termes statistiques, et notamment on ne peut pas estimer l’erreur faite si on accepte H
0` a partir des calculs pr´ ec´ edents.
Si les deux variances sont in´ egales, les choses deviennent plus com- plexes. En effet, on ne peut pas dans ce cas l` a calculer une statistique exacte, se ramenant ` a une distribution connue comme celle de Student. Dans la pra- tique, on calculera
t
obs= x ¯ − y ¯ q
σˆX2nX
+
σnˆY2Y
(43) et on fera l’hypoth` ese que, si H
0est vraie, cette quantit´ e suit une loi de Student. Comme l’on sait que cette hypoth` ese est partiellement inexacte, on la corrige en disant que le nombre de d.d.l n’est pas n
X+ n
Y− 2 comme pr´ ecedemment, mais plutˆ ot par
ν =
s2 XNX
+
Ns2YY
2s4X
NX2·(NX−1)