1 Variable et test du χ 2

(1)

Notes de cours Biostatistiques – MIV (L3) Tests param´etriques

M. Bailly-Bechet

Universit´ e Claude Bernard Lyon 1 – France

1 Variable et test du χ ²

1.1 Variable du χ

²

On d´ efinit une variable du χ

²

` a k degr´ es de libert´ e (d.d.l) comme la somme de k carr´ es des tirages ind´ ependants d’une loi normale centr´ ee r´ eduite.

Math´ ematiquement, on a :

χ

²_k

=

k

X

i=1

x

²_i

, (1)

avec chaque x

_i

une r´ ealisation d’une variable normale centr´ ee r´ eduite. Sachant cela, on pourrait calculer la densit´ e de la loi du χ

²

` a k d.d.l ` a partir de la densit´ e de probabilit´ e de la loi normale. Le calcul est complexe, mais la densit´ e de probabilit´ e de la loi du χ

²

` a k degr´ es de libert´ e est :

p(X = x) = 1

2

^k²

Γ(

^k₂

) x

^k²⁻¹

e

^−x²

. (2) La fonction Γ(r) est une fonction math´ ematique qui g´ en´ eralise la fonction factorielle n! = n × (n − 1) × (n − 2) × . . . × 1. Une de ses d´ efinitions est :

Γ(r) = Z

∞

0

e

^−λx

λ

^r

x

^r−1

dx. (3)

(2)

Cette fonction est donc d´ efinie par une int´ egrale, et n’a pas de forme analytique. Elle conserve et g´ en´ eralise ` a l’ensemble des r´ eels les propri´ et´ es de la fonction factorielle

¹

.

Concernant le χ

²

, on peut ais´ ement remarquer que χ

²_k

+ χ

²_l

= χ

²_k+l

, tous les x

_i

´ etant ind´ ependants. Ceci permet de retrouver les propri´ et´ es du χ

²

` a partir de celles du χ

²

` a 1 d.d.l. Pour celui-ci – qui est donc simplement le carr´ e d’une variable normale – on peut montrer que E (χ

²₁

) = 1 et V (χ

²₁

) = 2.

Pour l’esp´ erance, on ´ ecrit que x

²

e

⁻^x

2

= x × xe

⁻^x

2

et on int` egre par parties : E (χ

²₁

) =

Z

+∞

−∞

x

²

1 √ 2π e

^−x

2

dx (4)

=

x 1

√ 2π e

^−x

2 2

+∞

−∞

+ Z

+∞

−∞

√ 1 2π e

^−x

2

dx = 1 car on reconnaˆıt une int´ egrale gaussienne (5)

La d´ emonstration pour la variance suit la mˆ eme logique, mais est laiss´ ee aux ´ etudiants. On peut d´ eduire des deux proprit´ et´ es pr´ ec´ edentes et de la lin´ earit´ e de l’esp´ erance que l’esp´ erance d’une v.a. du χ

²

` a k d.d.l vaut k, et sa variance 2k.

1.2 Fonction g´ en´ eratrice des moments

Nous avons besoin pour la suite de la fonction g´ en´ eratrice des moments (FGM) du χ

²

. Le calcul est direct, et passe par l’emploi de la d´ efinition de la fonction Γ. On va calculer la FGM d’une loi du χ

²

` a k degr´ es de libert´ e

1. On peut facilement remarquer, par int´egration par parties en prenant u = x^r et v⁰=e^−λxλ^r+1, que Γ(r+ 1) =rΓ(r), ou encore que sirest entier, Γ(r) = (r−1)!

(3)

en passant par la formulation M

_X

(t) = E (e

^tx

). On a : E (e

^tx

) =

Z

∞ 0

e

^tx

1

2

^k²

Γ(

^k₂

) x

^k²⁻¹

e

^−x²

dx (6)

= 1

2

^k²

Γ(

^k₂

) Z

∞

0

e

⁻

(

¹₂^−t

)

^x

x (

^k₂⁻¹

) dx (7)

= 1

2

^k²

Γ(

^k₂

) Z

∞

0

e

^−λx

x

^r−1

dx en prenant λ = 1

2 − t et r = k

2 , (8)

= 1

2

^k²

Γ(

^k₂

) 1

λ

^r

Γ(r) (9)

= Γ

^k₂

2

^k²

Γ(

^k₂

)

1

2

− t

^k₂

(10)

= 1

(1 − 2t)

^k²

(11)

= (1 − 2t)

⁻^k²

. (12)

On peut v´ erifier les propri´ et´ es pr´ ec´ edentes (esp´ erance, variance) ` a partir de cette FGM.

1.3 Test du χ

²

Le test du χ

²

existe en deux versions :

Le test de conformit´ e o` u l’on v´ erifie si une table de contingence repr´ e- sente un tirage ”conforme” ` a une loi de probabilit´ e pour les diff´ erents

´

evenements.

Le test d’ind´ ependance o` u l’on v´ erifie que la table de contingence crois´ ee de deux variables ou plus est bien le produit des tables de contingences de chaque variable, c-` a-d que la valeur d’une variable n’influe pas sur le tirage de l’autre.

Pour retrouver comment le test du χ

²

est reli´ e aux variables du χ

²

, on va

prendre un cas simple : le test de conformit´ e pour un tirage ` a deux urnes. On

d´ efinit deux ´ evenements compl´ ementaires A et B de probabilit´ e respectives

p et 1 − p (exemples : pi` ece ` a pile ou face, probabilit´ e d’avoir un gar¸con ` a la

naissance, . . . ). On observe une statistique de n tirages de ces ´ evenements,

(4)

compos´ e de n

₁

tirages de A et n −n

₁

tirages de B. La question est : ce r´ esultat est-il significativement diff´ erent de l’hypoth` ese nulle que l’on s’est fix´ ee au d´ epart, ` a savoir que les tirages se font avec des probabilit´ es p et 1 − p ? Dans le cas des naissances, on peut se poser la question de savoir si, dans une population particuli` ere, le pourcentage observ´ e de gar¸cons ` a la naissance est le mˆ eme que dans le reste de la population du pays, o` u la proportion de gar¸cons vaut p.

La proc´ edure habituelle pour v´ erifier cette hypoth` ese est la suivante : 1. Calculer la statistique observ´ ee du χ

²

: χ

²_obs

=

⁽ⁿ¹^−np)_np ²

+

⁽⁽ⁿ⁻ⁿ_n(1−p)¹^{)−n(1−p))}²

2. Comparer sa valeur ` a celle de la loi du χ

²

` a 1 d.d.l (1 ici car le nombre

de d.d.l doit ˆ etres ´ egal au nombres de cat´ egories possibles moins 1) 3. Conclure

Quel est le lien entre χ

²_obs

et la loi du χ

²

? Pourquoi n − 1 d.d.l ? On peut r´ epondre ` a ces questions par le calcul suivant :

χ

²_obs

= (n

₁

− np)

²

np + ((n − n

₁

) − n (1 − p))

²

n (1 − p) (13)

= (n

₁

− np)

²

np + (np − n

₁

)

²

n (1 − p) (14)

= (n

₁

− np)

²

n

1 p + 1

1 − p

(15)

= (n

₁

− np)

²

n

1 p(1 − p)

(16)

= n

₁

− np p np(1 − p)

!

2

(17) Le terme de droite de la derni` ere ligne est une r´ ealisation de n tirages qui a ´ et´ e centr´ ee et r´ eduite. En effet, le tirage de n ´ el´ ements de probabilit´ e p suit une loi binomiale de moyenne np et d’´ ecart-type p

np(1 − p). De plus, si n est tr` es grand, d’apr` es le TCL on sait que l’on peut approximer la loi binomiale exacte suivie par ce tirage par une loi normale. La variable √

ⁿ¹^−np

np(1−p)

est donc

une variable normale centr´ ee r´ eduite ; mise au carr´ e, c’est donc une variable

du χ

²

` a 1 d.d.l. On obtient donc bien que, si le TCL est applicable, le χ

²_obs

(5)

suit une loi du χ

²

` a 1 d.d.l, ce qui explique pourquoi on la compare ensuite

`

a cette loi.

On peut g´ en´ eraliser cette formule par r´ ecurrence ` a un test de conformit´ e du χ

²

` a k degr´ es de libert´ e, le raisonnement ´ etant exactement le mˆ eme. Pour les tests d’ind´ ependance, le principe est l´ eg` erement plus complexe, mais ne sera pas d´ emontr´ e ici.

2 Test de la moyenne

Il existe diff´ erents tests de la moyenne. Ceux-ci servent ` a comparer les moyennes de deux ´ echantillons pour un param` etre quantitatif. L’hypoth` ese nulle y est toujours : ”Les deux ´ echantillons ont mˆ eme moyenne”, ce que l’on interpr` ete g´ en´ eralement par le fait que les deux ´ echantillons viennent de la mˆ eme population.

En fonction du fait que l’on connaisse ou non a priori la variance des populations de d´ epart – cas en pratique tr` es rare – le test se fait de diff´ erentes mani` eres. On va les expliciter ici. Le cadre g´ en´ eral est donc que l’on a deux

´

echantillons, que l’on peut consid´ erer comme deux s´ eries de tirages de deux v.a. X et Y . On note respectivement µ

_X

et µ

_Y

les esp´ erances des deux v.a.

et σ

_X²

et σ

_Y²

leurs variances. On suppose que les tailles des ´ echantillons sont n

_X

et n

_Y

. On note ¯ x et ¯ y les moyennes des deux ´ echantillons.

2.1 Variances connues

Si on connaˆıt a priori les variances de X et Y , suite ` a des ´ etudes popu- lationelles pr´ ec´ edentes, la construction du test est assez simple. On sait que la moyenne du premier ´ echantillon ¯ x suit une loi qui vient directement de la loi de X, la loi de la population d’origine. On sait en effet que ¯ x suit une loi de mˆ eme moyenne que X (par lin´ earit´ e de l’esp´ erance) et de variance

_n^σ²^X

X

, d’apr` es les propri´ et´ es de la variance. Idem pour ¯ y. Si X et Y sont ind´ epen- dantes, on peut construire facilement la loi de la v.a. ¯ x − y ¯ : c’est une loi de moyenne µ

_X

− µ

_Y

et de variance

^σ_n²^X

X

+

_n^σ²^Y

Y

. La quantit´ e = (¯ x − y) ¯ − (µ

_X

− µ

_Y

)

q

σ_X² nX

+

^σ_n²^Y

Y

(18)

(6)

est donc une v.a. centr´ ee r´ eduite. Pour d´ eterminer la loi suivie par cette v.a., nous avons plusieurs possibilit´ es. Tout d’abord, si X et Y suivent chacun une loi normale, alors on peut montrer

²

que la loi de x + y, et a fortiori de

¯

x − y, est une loi normale. Si on ne connaˆıt pas la loi suivie par ¯ X, Y , ou les deux, mais que l’on sait que n

_X

, n

_Y

ou les deux sont suffisament grands, on peut appliquer le TCL pour dire que ¯ x, ¯ y ou les deux suivent une loi normale ; encore une fois dans ce cas la v.a. ¯ x− y ¯ suivra elle aussi une loi normale. Donc pour conclure que suit une loi normale, il suffit que chaque ´ echantillon ait une taille importante ou provienne d’une population normalement distribu´ ee.

Dans ces cas, suit une loi normale. Attention cependant, si les effectifs n

_X

et n

_Y

sont tr` es faibles, il va ˆ etre techniquement difficile de rejeter l’hypoth` ese de normalit´ e avec un test de normalit´ e (voir chapitres suivants). Dans le cas des petits effectifs, on se tournera donc en pratique vers des tests non param´ etriques pour lesquelles la distribution des donn´ ees de d´ epart a moins d’importance.

Finalement, pour effectuer le test de comparaison de moyennes, on veut comparer l’hypoth` ese nulle H

₀

µ

_X

= µ

_Y

` a l’hypoth` ese alternative µ

_X

6= µ

_Y

. Si H

0

est vraie, alors on peut dire que la quantit´ e

_obs

= x ¯ − y ¯ q

σ_X²

nX

+

^σ_n²^Y

Y

(19)

suit une loi normale. On va donc calculer cette quantit´ e, et regarder la probabilit´ e que le r´ esultat obtenu (ou mieux) provienne d’une loi normale centr´ ee r´ eduite. Cette probabilit´ e est une p-value, et on d´ ecidera en fonction de sa valeur d’accepter ou de rejeter l’hypoth` ese H

₀

. Notez bien que si H

₀

est fausse, on ne peut plus rien dire sur notre statistique et sur la valeur attendue de

_obs

: on ne peut donc pas calculer de la mˆ eme mani` ere le risque de deuxi` eme esp` ece.

2.2 Variances inconnues : test de Fischer et test de Student

Dans de nombreux cas pratiques, on veut comparer les moyennes d’´ echantillons dont la variance est inconnue, et donc estim´ ee ` a partir des donn´ ees.

Cette estimation de la variance conduit ` a faire des erreurs suppl´ ementaires,

2. Il s’agit de la stabilit´e par convolution de la loi normale

(7)

et la loi suivie par la diff´ erence centr´ ee r´ eduite des moyennes ne va plus ˆ etre une loi normale.

Soit Z une v.a normale de moyenne µ et de variance σ

²

. Si on a un

´

echantillon de Z compos´ e de n tirages z

₁

, z

₂

. . . , z

_n

, on sait que la moyenne observ´ ee ¯ z, d’apr` es le TCL, suit une loi normale de moyenne µ et de variance

σ²

n

. Qu’en est-il de la variance observ´ ee, s

²

? Par d´ efinition, s

²

=

¹_n

P

n i=1

(z

i

−

¯

z)

²

. On a :

ns

²

σ

²

=

n

X

i=1

z

i

− z ¯ σ

2

(20)

=

n

X

i=1

x

_i

− µ + µ − z ¯ σ

2

(21)

= 1 σ

²

n

X

i=1

(z

_i

− µ)

²

− 2 (z

_i

− µ) (µ − z) + (µ ¯ − z) ¯

²

(22)

= 1 σ

²

n

X

i=1

(z

_i

− µ)

²

+ 2

n

X

i=1

z

_i

µ − z

_i

z ¯ − µ

²

+ µ¯ z +

n

X

i=1

µ

²

− 2µ¯ z + ¯ z

²

(23)

= 1 σ

²

n

X

i=1

(z

_i

− µ)

²

+ 2n¯ zµ − 2n z ¯

²

+ 2nµ

²

+ 2nµ¯ z + nµ

²

− 2nµ¯ z + n¯ z

²

(24)

= 1 σ

²

n

X

i=1

(z

_i

− µ)

²

− nµ

²

+ 2nµ¯ z − n z ¯

²

(25)

=

n

X

i=1

z

_i

− µ σ

2

− n

z ¯ − µ σ

2

(26)

=

n

X

i=1

z

_i

− µ σ

2

−





¯ z − µ

q

σ² n





2

(27)

Les deux termes suivent une loi du χ

²

, respectivement ` a n d.d.l et 1 d.d.l.

Cependant, la loi suivie par la diff´ erence de deux termes du χ

²

n’est pas

connue, contrairement au cas additif ; de plus, les deux termes ici ne sont pas

ind´ ependants (ils d´ ependent tous deux des z

_i

plus ou moins directement), et

(8)

on ne peut donc pas appliquer les relations sur la lin´ erait´ e de l’esp´ erance ou d’additivit´ e des variances.

Comme dans le cas du TCL, on va donc passer par les FGM pour trouver la loi suivie par la variance observ´ ee s

²

. Cette variance, comme la moyenne

¯

z, est en effet une v.a. qui d´ epend du tirage des z

_i

. On r´ e´ ecrit l’´ equation 27 et on prend sa FGM :

ns

²

σ

²

+





¯ z − µ

q

σ² n





2

=

n

X

i=1

z

_i

− µ σ

2

(28)

E



exp





 t ns

²

σ

²

+ t





¯ z − µ

q

σ² n





2









 = E exp (

t

z

i

− µ σ

2

)!

(29)

E



exp

t ns

²

σ

²

exp





 t





¯ z − µ

q

σ² n





2









 = E exp (

t

z

_i

− µ σ

2

)!

(30)

Par ind´ ependance de s

²

et ¯ z (ind´ ependance qui d´ ecoule de la normalit´ e de X), on peut utiliser l’´ egalit´ e E (XY ) = E (X) E (Y ) sur le membre gauche de l’´ equation 30. On obtient alors, en reconnaissant les FGM de variables du χ

²

`

a n et 1 d.d.l :

E

exp

t ns

²

σ

²

E



exp





 t





¯ z − µ

q

σ² n





2









 = E exp (

t

z

i

− µ σ

2

)!

(31) E

exp

t ns

²

σ

²

(1 − 2t)

⁻¹²

= (1 − 2t)

⁻ⁿ²

(32) E

exp

t ns

²

σ

²

= (1 − 2t)

⁻

(n−1)

2

(33)

La v.a.

^ns_σ2²

a donc pour FGM (1 − 2t)

⁻

(n−1)

2

, ce qui est la FGM d’une v.a.

du χ

²

` a n − 1 d.d.l. On en d´ eduit donc, par le th´ eor` eme de L´ evy, que

^ns_σ2²

suit une loi du χ

²

` a n − 1 d.d.l. Cette ´ egalit´ e nous sera tr` es utile par la suite,

pour retrouver les lois de Fisher et Student. De plus, on peut remarquer,

en prenant l’esp´ erance de

^ns_σ2²

, que l’on a E (

^ns_σ2²

) = n − 1, formule que l’on

(9)

voit souvent r´ e´ ecrite de mani` ere simplifi´ ee comme ˆ σ

²

=

_n−1ⁿ

s

²

. Cette derni` ere formule nous donne la valeur de ˆ σ

²

, l’estimateur de σ

²

, mais contient moins d’information, puisque l’on perd la notion de la loi suivie par s

²

dans ce cas.

2.2.1 Egalit´ ´ e des variances et test de Fisher

Reprenons les v.a. X et Y de la section 2.1 et les notations associ´ ees.

Quand les variances sont estim´ ees, il faut avant de comparer les moyennes de X et Y v´ erifier si leurs variances sont significativement diff´ erentes ou non. Le test associ´ e ` a cette question est le test de Fisher, d’hypoth` ese nulle H

₀

: ”Les variances de X et Y sont ´ egales”. Pour effectuer ce test, on a besoin d’utiliser la loi de Fisher, qui est d´ efinie ` a partir de la loi du χ

²

. En effet, on d´ efinit la loi de Fisher de param` etres n

₁

− 1 et n

₂

− 1 comme le rapport de lois du χ

²

normalis´ es :

F (a, b) =

χ²_a a χ²_b b−1

(34) Ici encore, on pourrait calculer la densit´ e de probabilit´ e de la loi de Fisher ` a partir de celle du χ

²

, mais ce ne sera pas n´ ecessaire en pratique.

Sachant cela, on peut dire que le rapport des variances observ´ ees des v.a.

X et Y va suivre une loi de Fisher. En effet on a :

nXs²_X σ_X²(nX−1)

nYs²_Y σ²_Y(nY−1)

→ F (n

_X

− 1, n

_Y

− 1), (35)

ou plus simplement

σˆ_X² σ_X² σˆ²_Y σ²_Y

→ F (n

_X

− 1, n

_Y

− 1). (36)

Sous l’hypoth` ese H

0

, on a σ

_X²

= σ

_Y²

et alors

^σ^ˆ_ˆ²^X

σ_Y²

→ F (n

X

− 1, n

X

− 2).

C’est cette statistique que l’on va calculer, puisque l’on ne dispose pas de σ

_X²

ou σ

_Y²

. Si H

₀

est vraie, on peut estimer la probabilit´ e des d´ eviations de la valeur observ´ ee de F par rapport ` a la loi de Fisher. Si cette d´ eviation est trop grande ou trop faible, on rejettera H

₀

et concluera que les variances sont diff´ erentes

³

.

3. En pratique, on choisit souvent de faire un test de Fisher unilat´eral en divisant la

(10)

2.2.2 Construction du test de Student

Si les deux variances sont ´ egales, on d´ efinit la variance commune esti- m´ ee par la formule

ˆ

σ

²

= n

_X

s

²_X

+ n

_Y

s

²_Y

n

_X

+ n

_Y

− 2 . (37)

L’esp´ erance de ˆ σ

²

vaut 1 ; en effet, de la mˆ eme mani` ere que plus haut dans le cas d’une seule variance, on peut ´ egalement d´ emontrer que la variance commune observ´ ee de deux variables suit une loi du χ

²

` a n

X

+ n

Y

− 2 d.d.l ; plus pr´ ecis´ ement on a :

n

_X

s

²_X

+ n

_Y

s

²_Y

σ

²

→ χ

²_n

X+n_Y−2

. (38)

La d´ emonstration est la mˆ eme que plus haut et passe par les FGM. La combinaison de ces deux ´ equations nous donne :

ˆ σ

²

σ

²

(n

_X

+ n

_Y

− 2) → χ

²_n

X+nY−2

(39)

Si on reprend maintenant le raisonnement vu pour le cas des variances connues, toujours en supposant que X et Y suivent une loi normale (ici cette hypoth` ese est n´ ecessaire et ne peut pas ˆ etre remplac´ ee par de grands ´ echantillons comme plus haut, notamment pour pouvoir montrer les convergences des variances observ´ ees vers des lois de χ

²

), on va pouvoir ´ ecrire que :

¯

x − y ¯ − (µ

_X

− µ

_Y

) r

σ

²

1

nX

+

_n¹

Y

→ N (0, 1) (40)

Le probl` eme vient du fait que l’on ne dispose que de ˆ σ

²

et pas de σ

²

. On r´ e´ ecrit alors l’´ equation pr´ ec´ edente sous la forme :

¯

x − y ¯ − (µ

X

− µ

Y

) r

ˆ σ

²

1 nX

+

_n¹

Y

r σ ˆ

²

σ

²

→ N (0, 1) (41) En rempla¸cant le terme sous la racine par l’´ equation 39, et en supposant H

₀

vraie (donc en supprimant le terme µ

_X

− µ

_Y

), on obtient la convergence en loi suivante :

variance la plus grande par la plus faible, et en ne regardant que les grandes valeurs de F comme significatives.

(11)

t

_obs

= x ¯ − y ¯ r

ˆ σ

²

1 nX

+

_n¹

Y

→ N (0, 1) q

χ²_nX₊_nY₋₂

nX+nY−2

(42)

La statistique de t

obs

suit donc celle du rapport d’une loi normale centr´ ee r´ eduite et de la racine d’un χ

²

normalis´ e. C’est ainsi que l’on d´ efinit la loi de Student ` a n

_X

+ n

_Y

− 2 d.d.l. Ici encore, il serait possible de trouver une expression analytique pour la densit´ e de probabilit´ e de la loi de Student, mais en pratique elle est inutile, et soit le calcul direct sur ordinateur, soit les tables statistiques sont utilis´ ees. Comme pr´ ecedemment, si H

₀

est fausse, on ne peut rien dire en termes statistiques, et notamment on ne peut pas estimer l’erreur faite si on accepte H

₀

` a partir des calculs pr´ ec´ edents.

Si les deux variances sont in´ egales, les choses deviennent plus com- plexes. En effet, on ne peut pas dans ce cas l` a calculer une statistique exacte, se ramenant ` a une distribution connue comme celle de Student. Dans la pratique, on calculera

t

_obs

= x ¯ − y ¯ q

σˆX2

nX

+

^σ_n^ˆ^Y²

Y

(43) et on fera l’hypoth` ese que, si H

₀

est vraie, cette quantit´ e suit une loi de Student. Comme l’on sait que cette hypoth` ese est partiellement inexacte, on la corrige en disant que le nombre de d.d.l n’est pas n

_X

+ n

_Y

− 2 comme pr´ ecedemment, mais plutˆ ot par

ν =

_s2 X

NX

+

_N^s²^Y

Y

2

s⁴_X

N_X²·(N_X−1)

+

_N2 ^s⁴^Y Y·(N_Y−1)

(44)

Cette correction permet de se rapprocher le plus possible de la distribu-

tion de Student pour la quantit´ e calcul´ ee. On parle alors de test du t de

Welch (employ´ e par d´ efaut sous quand un t.test est appel´ e sans l’option

var.equal=TRUE).