• Aucun résultat trouvé

Tests du Khi-deux

N/A
N/A
Protected

Academic year: 2022

Partager "Tests du Khi-deux"

Copied!
3
0
0

Texte intégral

(1)

Tests du Khi-deux

Tests du Khi-deux

Retour auplan du cours

1 Test d’ajustement du χ

2

SoitX1, . . . Xni.i.d. à valeurs dans un ensemble fini{a1, . . . , ar}avec r >1. On suppose que

∀j= 1, . . . , r, pj=P(Xi=aj)>0.

Le problème que l’on se pose est le suivant : étant donnéπ = (π1, . . . , πr)0 vérifiant∀j, πj > 0 et Pr

j=1πj = 1, comment tester p = π à partir du n-echantillon,X1, . . . , Xn?

Pour toutj = 1, . . . , ron pose Njn=

n

X

i=1

1{Xi =aj},

le nombre deXiprenant la valeuraj.

PROPOSITION1. — La v.a.Nn = (N1n, . . . , Nrn)0suit une loi multinomiale M(n, p1, . . . , pr)surNr, c’est à dire que pour tout(n1, . . . , nr)∈Nron a

P[N1n=n1, . . . , Nrn=nr] =

n!

n1!...nr!pn11. . . pnrr si Pr

j=1nj=n

0 sinon.

PROPOSITION2. — Soit√ p= √

p1, . . . ,√ pr0

. On a

Yn=

N1n−np1

√np1

, . . .Nrn−npr

√npr

Loi

−−→ Nr(0,Γ),

oùΓ =Ir−√ p√

p0.

THÉORÈME3. — Sous l’hypothèse que X1, . . . , Xn sont i.i.d. de loi p = (p1, . . . , pr),

Zn=

r

X

j=1

(Njn−npj)2 npj

−−→Loi χ2(r−1).

Le test d’ajustement duχ2consiste à rejeter l’hypothèsep=πau niveauα si

Tn=

r

X

j=1

(Njn−nπj)2j

> xr−1,1−α

oùxr−1,1−αest le1−αquantile d’unχ2àr−1degrés de liberté. D’après le résultat précedent on obtient un test de niveauasymptotiqueα. En montre que l’approximation de la loi deTr(sous l’hypothèse) par unχ2àr−1degrés de liberté est bon dès lors quenπj≥5pour toutj.

Que peut-on dire de la puissance du test ? En notant pard(., .)la distance euclidienne surRr, on a que

Tn

n ≥ d2(Nn/n, π)−−→ dp.s. 2(p, π)

par la loi des grands nombres et doncTn−−→p.s. +∞. La puissance du test tend donc vers 1 quandntend vers+∞.

Exemple. — Expérience de Mendel

On croise 2 populations (pures) de pois : l’une jaune et ronde l’autre verte et ridée. Selon sa prédiction au bout de 2 croisements la proportion de pois

JR jaunes et ronds est9/16 Jr jaunes et ridés est3/16 vR verts et ronds est3/16 vr verts et ridés est1/16

Pour chacun des phénotypes il obtient les résultats suivants :NJ R = 315, NJ r = 101,NvR = 108,Nvr = 32. Icir= 4et l’on obtient queTn = 0.47 etx3,0.95= 7.82. On accepte donc très largement l’hypothèse de Mendel.

1

(2)

Tests du Khi-deux

2 Test du χ

2

d’adéquation à une famille de lois

SoitΘun ouvert deRkavec1≤k < ret

P(Θ) ={π(θ)mboxtelque θ∈Θ},

une famille de lois discrètes sur{a1, . . . , ar}. On aimerait tester l’hypothèse p∈ P(Θ)contrep6∈ P(Θ).

Or, on a le résultat (admis) suivant : THÉORÈME4. — Supposons que

– Pour toutj= 1, . . . , r,θ7→πj(θ)estC2surΘet vérifie pour toutθ∈Θ, πj(θ)6= 0.

– Pour tout θ ∈ Θ, les vecteursvi = (∂iπj(θ), . . . , ∂iπr(θ))0 pour i = 1, . . . , kforment une famille libre deRr(bonne paramétrisation).

– Pour tout θ, siX1, . . . , Xn sont i.i.d. de loi π(θ) alors l’estimateur du maximum de vraisemblanceθˆnest consistant versθ.

Sous ces conditions, siX1, . . . , Xnsont i.i.d. de loiπ(θ)alors

r

X

j=1

Njn−nπj(ˆθn)2j(ˆθn)

−−→Loi χ2(r−k−1).

On construit le test duχ2d’adéquation àP(Θ)de la manière suivante : on rejette l’hypothèse si

Tn=

r

X

j=1

Njn−nπj(ˆθn)2

j(ˆθn) > xr−k−1,1−α. Sous l’alternative :

Tn

n ≥ d2(Nn/n,P(Θ))−−→ dp.s. 2(p,P(Θ)), et donc la puissance tend vers 1 dès qued2(p,P(Θ))>0.

2.1 Test du χ

2

d’indépendance

On suppose que le support deµ est un ensemble fini doublement indicé {ai,j, i = 1, . . . I, j = 1, . . . J} pour lequel les indices i, j représentent 2 facteurs (par exemple : couleur des cheveux/ couleur des yeux). On veut tester l’indépendance des 2 facteurs. On prend

Θ ={θ= (u1, . . . , uI−1, v1, . . . , vJ−1)tel que ui>0, vj>0,

I−1

X

i=1

ui<1,

J−1

X

j=1

vj <1

 ,

P(Θ) ={πi,j(θ) =uivjtel queuI = 1−

I−1

X

i=1

ui, vJ = 1−

J−1

X

j=1

vj, θ∈Θ}.

L’estimateur du maximum de vraisemblance deθest donné par ˆ

ui=Ni.= 1 n

J

X

j=1

Ni,j et ˆvj=N.j = 1 n

I

X

i=1

Ni,j.

Les hypothèses du théorème sont vérifées et l’on rejette donc l’hypothèse d’in- dépendance si

Tn=n

I

X

i=1 J

X

j=1

(Ni,j−Ni,.N.,j/n)2

Ni,.N.,j > x(I−1)(J−1),1−α.

Montrons que l’estimateur du maximum de vraisemblance est bien celui-là : on a à maximiser enuietvj:

X

i,j

Ni,jlog(uivj) =

I

X

i=1

Ni,.log(ui) +

J

X

j=1

N.,jlog(vj)

=

I−1

X

i=1

Ni,.log(ui) +NI,.log(1−

I−1

X

i=1

ui)

+

J−1

X

j=1

N.,jlog(vj) +N.,Jlog(1−

J−1

X

j=1

vj)

2

(3)

Tests du Khi-deux

En dérivant enuion obtient que Ni,.

ui

=NI,.

uI

et donc que les membres de droites sont constants= c indépendants de i.

CommeP

iNi,.=netP

iui= 1on obtient quec=net doncui=Ni,./n.

Il en est de même pour lesvj. On obtient ainsi un maximum surΘquand les

Ni,.etN.,jsont non nuls.

2.2 Test d’homogénéité

SoitX1, . . . , Xn etX10, . . . , Xn0 2 échantillons indépendants de 2 lois dis- crètes,µ(correspondants àp),µ0(correspondants àp0). sur{a1, . . . , ar}. On veut testerH0: p=p0(pétant inconnu). On utilise la statistique de test

Tn =

r

X

i=1

(Ni−Ni0)2 (Ni+Ni0).

Sous l’hypothèseH0,Tn

−−→Loi χ2(r−1). Pour tester au niveauα, on rejette donc quandTn > x2r−1,1−α.

Montrons la convergence en loi. Par le lemme de Slutsky il suffit de montrer que

n= n 2

r

X

i=1

(Ni/n−Ni0/n)2 pi

−−→Loi χ2(r−1),

car pour touti, sousH0,(Ni+Ni0)/(2n)−−→p.s. pi. T˜n = 1

2k

N1n−np1

√np1

, . . .Nrn−npr

√npr

N1n0 −np1

√np1

, . . .Nrn0 −npr

√npr

k2

= 1

2kYn−Yn0k2

oùYnetYn0 sont i.i.d. et convergent en loi vers la loiNr(0,Γ). On en déduit que

Yn−Yn0−−→ NLoi r(0,2Γ).

√1

2(Yn−Yn0)−−→ NLoi r(0,Γ).

1

2kYn−Yn0k2−−→Loi χ2(r−1) par le théorème de l’application continue.

Remarque. — Ce test d’homogénéité correspond à un test d’indépendance entre l’appartenance à l’un ou l’autre des 2 groupes et le caractère étudié.

3

Références

Documents relatifs

On suppose que λ ne peut prendre que deux valeurs : 0.5 ou 1 Test de λ = 1 contre λ = 0.5 : développement complet du calcul, pour trouver que la règle est fondée sur la somme des

Une souches est de phénotype yeux sépias (se) et corps poilu (h comme hairy) ; l'autre souche est de phénotype sauvage (yeux rouges et corps avec quelques poils). La génération F1

où les Z i,j sont les variables aléatoires qui donnent le nombre d'observations de chaque couple de modalités (Race , Issue) et les t i,j sont les valeurs théoriques des

[r]

Pour réaliser l’analyse bivariée on sélectionne dans cette matrice les cellules correspondant aux modalités des deux variables retenues.. Soit la matrice observée

Ce test ne fait pas l'objet d'un menu spécifique dans R Commander, mais le test des rangs de Friedman, avec application de la correction pour ex aequo, aboutit à un résultat

Ce test ne fait pas l'objet d'un menu spécifique dans R Commander, mais le test des rangs de Friedman, avec application de la correction pour ex aequo,

utilise alors un test non paramétrique : le coefficient de corrélation des rangs de. Spearman, qui utilise le rang des variables et non Spearman, qui utilise le rang des variables