Tests du Khi-deux

(1)

Tests du Khi-deux

Retour auplan du cours

1 Test d’ajustement du χ

²

SoitX1, . . . Xni.i.d. à valeurs dans un ensemble fini{a1, . . . , ar}avec r >1. On suppose que

∀j= 1, . . . , r, p_j=P(X_i=a_j)>0.

Le problème que l’on se pose est le suivant : étant donnéπ = (π1, . . . , πr)⁰ vérifiant∀j, πj > 0 et Pr

j=1πj = 1, comment tester p = π à partir du n-echantillon,X1, . . . , Xn?

Pour toutj = 1, . . . , ron pose N_jn=

n

X

i=1

1{X_i =a_j},

le nombre deXiprenant la valeuraj.

PROPOSITION1. — La v.a.Nn = (N1n, . . . , Nrn)⁰suit une loi multinomiale M(n, p1, . . . , pr)surN^r, c’est à dire que pour tout(n1, . . . , nr)∈N^ron a

P[N1n=n1, . . . , Nrn=nr] =

n!

n1!...nr!pⁿ₁¹. . . pⁿ_r^r si Pr

j=1nj=n

0 sinon.

PROPOSITION2. — Soit√ p= √

p₁, . . . ,√ p_r0

. On a

Yn=

N_1n−np₁

√np1

, . . .N_rn−np_r

√npr

_Loi

−−→ Nr(0,Γ),

oùΓ =Ir−√ p√

p⁰.

THÉORÈME3. — Sous l’hypothèse que X1, . . . , Xn sont i.i.d. de loi p = (p1, . . . , pr),

Z_n=

r

X

j=1

(Njn−npj)² np_j

−−→Loi χ²_(r−1).

Le test d’ajustement duχ²consiste à rejeter l’hypothèsep=πau niveauα si

Tn=

r

X

j=1

(N_jn−nπ_j)² nπj

> xr−1,1−α

oùx_r−1,1−αest le1−αquantile d’unχ²àr−1degrés de liberté. D’après le résultat précedent on obtient un test de niveauasymptotiqueα. En montre que l’approximation de la loi deTr(sous l’hypothèse) par unχ²àr−1degrés de liberté est bon dès lors quenπj≥5pour toutj.

Que peut-on dire de la puissance du test ? En notant pard(., .)la distance euclidienne surR^r, on a que

T_n

n ≥ d²(N_n/n, π)−−→ d^p.s. ²(p, π)

par la loi des grands nombres et doncT_n−−→^p.s. +∞. La puissance du test tend donc vers 1 quandntend vers+∞.

Exemple. — Expérience de Mendel

On croise 2 populations (pures) de pois : l’une jaune et ronde l’autre verte et ridée. Selon sa prédiction au bout de 2 croisements la proportion de pois

JR jaunes et ronds est9/16 Jr jaunes et ridés est3/16 vR verts et ronds est3/16 vr verts et ridés est1/16

Pour chacun des phénotypes il obtient les résultats suivants :NJ R = 315, NJ r = 101,NvR = 108,Nvr = 32. Icir= 4et l’on obtient queTn = 0.47 etx_3,0.95= 7.82. On accepte donc très largement l’hypothèse de Mendel.

1

(2)

Tests du Khi-deux

2 Test du χ

²

d’adéquation à une famille de lois

SoitΘun ouvert deR^kavec1≤k < ret

P(Θ) ={π(θ)mboxtelque θ∈Θ},

une famille de lois discrètes sur{a1, . . . , ar}. On aimerait tester l’hypothèse p∈ P(Θ)contrep6∈ P(Θ).

Or, on a le résultat (admis) suivant : THÉORÈME4. — Supposons que

– Pour toutj= 1, . . . , r,θ7→πj(θ)estC²surΘet vérifie pour toutθ∈Θ, πj(θ)6= 0.

– Pour tout θ ∈ Θ, les vecteursvi = (∂iπj(θ), . . . , ∂iπr(θ))⁰ pour i = 1, . . . , kforment une famille libre deR^r(bonne paramétrisation).

– Pour tout θ, siX1, . . . , Xn sont i.i.d. de loi π(θ) alors l’estimateur du maximum de vraisemblanceθˆnest consistant versθ.

Sous ces conditions, siX1, . . . , Xnsont i.i.d. de loiπ(θ)alors

r

X

j=1

Njn−nπj(ˆθn)² nπj(ˆθn)

−−→Loi χ²(r−k−1).

On construit le test duχ²d’adéquation àP(Θ)de la manière suivante : on rejette l’hypothèse si

Tn=

r

X

j=1

N_jn−nπ_j(ˆθ_n)2

nπ_j(ˆθ_n) > x_{r−k−1,1−α}. Sous l’alternative :

Tn

n ≥ d²(N_n/n,P(Θ))−−→ d^p.s. ²(p,P(Θ)), et donc la puissance tend vers 1 dès qued²(p,P(Θ))>0.

2.1 Test du χ

²

d’indépendance

On suppose que le support deµ est un ensemble fini doublement indicé {a_i,j, i = 1, . . . I, j = 1, . . . J} pour lequel les indices i, j représentent 2 facteurs (par exemple : couleur des cheveux/ couleur des yeux). On veut tester l’indépendance des 2 facteurs. On prend

Θ ={θ= (u1, . . . , u_I−1, v1, . . . , v_J−1)tel que ui>0, vj>0,

I−1

X

i=1

ui<1,

J−1

X

j=1

vj <1





 ,

P(Θ) ={πi,j(θ) =uivjtel queuI = 1−

I−1

X

i=1

ui, vJ = 1−

J−1

X

j=1

vj, θ∈Θ}.

L’estimateur du maximum de vraisemblance deθest donné par ˆ

ui=Ni.= 1 n

J

X

j=1

Ni,j et ˆvj=N.j = 1 n

I

X

i=1

Ni,j.

Les hypothèses du théorème sont vérifées et l’on rejette donc l’hypothèse d’in- dépendance si

Tn=n

I

X

i=1 J

X

j=1

(Ni,j−Ni,.N.,j/n)²

N_i,.N_.,j > x(I−1)(J−1),1−α.

Montrons que l’estimateur du maximum de vraisemblance est bien celui-là : on a à maximiser enuietvj:

X

i,j

Ni,jlog(uivj) =

I

X

i=1

Ni,.log(ui) +

J

X

j=1

N.,jlog(vj)

=

I−1

X

i=1

N_i,.log(u_i) +N_I,.log(1−

I−1

X

i=1

u_i)

+

J−1

X

j=1

N.,jlog(vj) +N.,Jlog(1−

J−1

X

j=1

vj)

2

(3)

Tests du Khi-deux

En dérivant enuion obtient que Ni,.

ui

=NI,.

uI

et donc que les membres de droites sont constants= c indépendants de i.

CommeP

iNi,.=netP

iui= 1on obtient quec=net doncui=Ni,./n.

Il en est de même pour lesvj. On obtient ainsi un maximum surΘquand les

Ni,.etN.,jsont non nuls.

2.2 Test d’homogénéité

SoitX₁, . . . , X_n etX₁⁰, . . . , X_n⁰ 2 échantillons indépendants de 2 lois dis- crètes,µ(correspondants àp),µ⁰(correspondants àp⁰). sur{a₁, . . . , a_r}. On veut testerH₀: p=p⁰(pétant inconnu). On utilise la statistique de test

Tn =

r

X

i=1

(Ni−N_i⁰)² (Ni+N_i⁰).

Sous l’hypothèseH0,Tn

−−→Loi χ²(r−1). Pour tester au niveauα, on rejette donc quandTn > x²_r−1,1−α.

Montrons la convergence en loi. Par le lemme de Slutsky il suffit de montrer que

T˜_n= n 2

r

X

i=1

(N_i/n−N_i⁰/n)² pi

−−→Loi χ²(r−1),

car pour touti, sousH₀,(N_i+N_i⁰)/(2n)−−→^p.s. p_i. T˜_n = 1

2k

N_1n−np₁

√np1

, . . .N_rn−np_r

√npr

−

N_1n⁰ −np₁

√np1

, . . .N_rn⁰ −np_r

√npr

k²

= 1

2kYn−Y_n⁰k²

oùYnetY_n⁰ sont i.i.d. et convergent en loi vers la loiNr(0,Γ). On en déduit que

Yn−Y_n⁰−−→ N^Loi r(0,2Γ).

√1

2(Yn−Y_n⁰)−−→ N^Loi r(0,Γ).

1

2kYn−Y_n⁰k²−−→^Loi χ²_(r−1) par le théorème de l’application continue.

Remarque. — Ce test d’homogénéité correspond à un test d’indépendance entre l’appartenance à l’un ou l’autre des 2 groupes et le caractère étudié.

3