Distribution asymptotique - Test de Kruskal-Wallis

3.1 Test de Kruskal-Wallis

3.1.2 Distribution asymptotique

Lorsque les eectifs sont assez élevés, en pratiquenk >5,∀k, la distribution deHpeut être approximée par une loi duχ² à (K−1) degrés de liberté lorsqueH0 est vrai.

En eet, n'oublions pas que les sommes de rangsSk sont asymptotiquement normaux (plus générale-ment la somme des scores). De fait, toute statistique de la forme

k=1

[Sk−E(Sk)]² V(Sk)

Suit une loi duχ² àK−1 degrés de liberté compte tenu du fait que les quantitésSk sont reliées par une relation linéaire. La région critique du test au risqueαs'écrit

R.C.:H ≥χ²_1−α(K−1)

Exemple 22(Kruskal-Wallis : distribution asymptotique - Les hot-dogs plus ou moins salés). On s'intéresse à la teneur en sel (variable d'intérêt "Sodium") de "Hot-Dogs". Il y a3catégories, selon la viande qu'ils contiennent : boeuf, volaille et viande (un mélange boeuf, porc et volaille)⁴. Visuellement, il semble qu'il y ait un petit quelque chose si l'on se réfère aux boîtes à moustaches conditionnelles (Figure 3.2). Il faut conrmer ou inrmer cela avec les calculs statistiques.

Les données ont été regroupées en bloc d'appartenance, nous pouvons lancer les calculs (Figure 3.3) : Nous disposons den= 54observations, avec les eectifs conditionnelsn1= 20,n2= 17et n3= 17.

Nous réunissions les conditions nécessaires au passage à la loi asymptotique.

Les données sont transformées en rangs, il n'y a pas d'ex-aequo dans le chier⁵

Nous calculons les sommes des rangs conditionnelles, nous obtenonsS1= 440,S2= 478etS3= 567. Nous les passons au carré. Tout est réuni pour calculer la statistique du test. Nous allons utiliser la seconde formulation (équation 3.2).

4 Voir http://lib.stat.cmu.edu/DASL/Datafiles/Hotdogs.html

5 Il y avait des eq-aequo dans le chier originel. Nous l'avons très légèrement modié pour ne pas avoir à gérer ce problème à ce stade de notre exposé.

Fig. 3.2. Teneur en seul des "hot-dogs" - Boxplot

Nous formons tout d'abord la quantité B=X

S_k²

nk = 193600

20 +228484

17 +321489

17 = 42031.3529 Nous en déduisons la statistique du test

H = 12

n(n+ 1) ×B−3(n+ 1) = 12

54(54 + 1)×42031.3529−3(54 + 1) = 4.8236

SousH0,Hsuit une loi duχ²à (K−1 = 3−1 = 2) degrés de liberté. Pour un niveau de signication de 5%, nous devons comparer H avec le quantileχ²_0.95(2) = 5.9915. Les données sont compatibles avec l'hypothèse nulle d'égalité de teneur en sel des "hot-dogs".

Résultat conrmé par la probabilité critique du test égale à p= 0.0897

3.1.3 Traitement des ex-aequo

Lorsque les données comportent des ex-aequo, nous utilisons le principe des rangs moyens et la sta-tistique du test devra être corrigée. SoitGle nombre de valeurs distinctes dans le chier (G≤n). Pour la valeurn^og, nous observons tg valeurs. La statistique ajustée s'écrit

H˜ = H

1−

P_G

g=1(t³_g−tg) n³−n

(3.3)

Attention, la statistiqueH est calculée sur les rangs modiés (c.-à-d. avec les rangs moyens lorsqu'il y a des ex-aequo).

Exemple 23(Un second exemple : poids des animaux à la naissance). Cet exemple est encore une fois repris de l'article fondateur des auteurs de la méthode (pages 588 et 589), ils semblent l'avoir repris

Fig. 3.3. Test de Kruskal-Wallis sur les grands eectifs - Teneur en seul des "hot-dogs"

eux-même d'un ouvrage de Scnedecor⁶ Il s'agit de comparer le poids à la naissance deK= 8portée de porcs. Ici également, l'intérêt est de pouvoir calibrer nos calculs⁷.

Les données ont été triées selon la variable d'intérêt croissante "poids". Nous disposons de n = 56 observations etK= 8groupes ("portée") (Figure 3.4) :

Nous avons comptabilisé le nombre d'observationsnk dans chaque groupe, nous obtenonsn1= 10, n2= 8, etc.

6 G. Scnedecor,Statistical Methods, Iowa State College Press, 1937.

7 Eux à l'époque ne disposaient ni d'un ordinateur, ni d'un tableur, même pas d'une calculette. Ils faisaient tous les calculs à la main ? avec une règle à calcul ? ? ? C'est quand même positivement impressionnant.

Fig. 3.4. Test de Kruskal-Wallis avec les ex-aequo - Poids à la naissance de portées de porcs

Puis nous avons attribué les rangs aux individus. Ils ont été corrigés selon la méthode des rangs moyens. Par exemple, les 2 individus correspondant à la valeur vg = 1.2 ont récupéré le rang

2+3

2 = 2.5, etc.

Nous réalisons la somme des rangs Sk par groupe, nous obtenons S1 = 317,S2 = 216.5, etc. Nous montons ces valeurs au carré pour disposer desS_k²

Nous pouvons dès lors former la somme

B=X

S_k²

nk = 50397.396 et la statistique non ajustée de Kruskal-Wallis

H= 12

n(n+ 1)×B−3(n+ 1) = 12

56(56 + 1) ×50397.396−3(56 + 1) = 18.464

Penchons nous maintenant sur l'ajustement. Il y a G= 22valeurs distinctes dans le chier. Dans le tableau "Comptage des valeurs distinctes", nous disposons des eectifs associés aux valeurs tg, nous formons la quantité t³_g−tg, puis la sommeP

g(t³_g−tg) = 960 Le facteur d'ajustement est égal à

C= 1− P_G

g=1(t³_g−tg)

n³−n = 1− 960

56³−56 = 0.9945

Il est faible. Il le sera d'autant plus que l'eectif est élevé et que le nombre d'ex-aequo est limité. A l'extrême, s'il n'y a pas d'ex-aequo dans le chier, nous aurons C= 1.

Nous pouvons alors produire la statistique ajustée H˜ =H

C =18.464

0.9945 = 18.565

SousH0, il suit asymptotiquement une loi duχ²(7)àddl= 7degrés de liberté. Le seuil critique au risqueα= 5%est le quantileχ²_0.95(7) = 14.067. Nous rejetons l'hypothèse nulle d'égalité des poids à la naissance dans les portées.

La probabilité critiquep= 0.01est cohérente avec cette conclusion.

3.1.4 Sorties des logiciels

Pour illustrer les sorties des logiciels, nous utilisons le chier "Crédit" (Figure 0.1). Nous souhaitons savoir si le revenu par tête des ménages ("Rev.Tete") est diérent selon le type de garantie supplémentaire qu'ils ont contracté ("Garantie.Supp", avec3modalités possibles).

TANAGRAproduit les résultats suivants (Figure 3.5) :

Fig. 3.5. Tanagra - Test de Kruskal-Wallis sur le chier "Crédit"

Pour chaque modalité de la variable indépendante "Garantie.Supp", nous disposons des eectifs, de la moyenne empirique, de la somme des rangs et de la moyenne des rangs. Ainsi, pour la première modalité "Garantie.Supp = hypothèque", nous obtenons n1 = 29, x¯1 = 6.8566, S1 = 688.5 et

r1= 23.7414.

La statistique de Kruskal-Wallis non corrigée des ex-aequo est fournie, H = 1.209128 avec une probabilité critiquep= 0.546313.

Plus intéressante pour nous est la statistique corrigée des ex-aequo, nous avons H˜ = 1.209418avec p = 0.546233. Comme nous l'avons signalée dans l'exposé de la méthode, la correction est faible généralement.

Il apparaît en tous les cas que l'hypothèse nulle d'égalité des revenus par tête selon la garantie supplémentaire contractée n'est pas démentie par les données.

SAS, outre les indicateurs par groupe (eectif, somme des rangs, etc.), fournit directement la statis-tique corrigée et la probabilité cristatis-tique (Figure 3.6).Ren fait de même (Figure 3.7).

Fig. 3.6. SAS - Test de Kruskal-Wallis sur le chier "Crédit"

Fig. 3.7. R - Test de Kruskal-Wallis sur le chier "Crédit"

Dans le document +F=H=EI @A FFK=JEI 6AIJI F=H= JHEGKAI (Page 82-87)