3.1 Test de Kruskal-Wallis
3.1.2 Distribution asymptotique
Lorsque les eectifs sont assez élevés, en pratiquenk >5,∀k, la distribution deHpeut être approximée par une loi duχ2 à (K−1) degrés de liberté lorsqueH0 est vrai.
En eet, n'oublions pas que les sommes de rangsSk sont asymptotiquement normaux (plus générale-ment la somme des scores). De fait, toute statistique de la forme
XK
k=1
[Sk−E(Sk)]2 V(Sk)
Suit une loi duχ2 àK−1 degrés de liberté compte tenu du fait que les quantitésSk sont reliées par une relation linéaire. La région critique du test au risqueαs'écrit
R.C.:H ≥χ21−α(K−1)
Exemple 22(Kruskal-Wallis : distribution asymptotique - Les hot-dogs plus ou moins salés). On s'intéresse à la teneur en sel (variable d'intérêt "Sodium") de "Hot-Dogs". Il y a3catégories, selon la viande qu'ils contiennent : boeuf, volaille et viande (un mélange boeuf, porc et volaille)4. Visuellement, il semble qu'il y ait un petit quelque chose si l'on se réfère aux boîtes à moustaches conditionnelles (Figure 3.2). Il faut conrmer ou inrmer cela avec les calculs statistiques.
Les données ont été regroupées en bloc d'appartenance, nous pouvons lancer les calculs (Figure 3.3) : Nous disposons den= 54observations, avec les eectifs conditionnelsn1= 20,n2= 17et n3= 17.
Nous réunissions les conditions nécessaires au passage à la loi asymptotique.
Les données sont transformées en rangs, il n'y a pas d'ex-aequo dans le chier5
Nous calculons les sommes des rangs conditionnelles, nous obtenonsS1= 440,S2= 478etS3= 567. Nous les passons au carré. Tout est réuni pour calculer la statistique du test. Nous allons utiliser la seconde formulation (équation 3.2).
4 Voir http://lib.stat.cmu.edu/DASL/Datafiles/Hotdogs.html
5 Il y avait des eq-aequo dans le chier originel. Nous l'avons très légèrement modié pour ne pas avoir à gérer ce problème à ce stade de notre exposé.
Fig. 3.2. Teneur en seul des "hot-dogs" - Boxplot
Nous formons tout d'abord la quantité B=X
k
Sk2
nk = 193600
20 +228484
17 +321489
17 = 42031.3529 Nous en déduisons la statistique du test
H = 12
n(n+ 1) ×B−3(n+ 1) = 12
54(54 + 1)×42031.3529−3(54 + 1) = 4.8236
SousH0,Hsuit une loi duχ2à (K−1 = 3−1 = 2) degrés de liberté. Pour un niveau de signication de 5%, nous devons comparer H avec le quantileχ20.95(2) = 5.9915. Les données sont compatibles avec l'hypothèse nulle d'égalité de teneur en sel des "hot-dogs".
Résultat conrmé par la probabilité critique du test égale à p= 0.0897
3.1.3 Traitement des ex-aequo
Lorsque les données comportent des ex-aequo, nous utilisons le principe des rangs moyens et la sta-tistique du test devra être corrigée. SoitGle nombre de valeurs distinctes dans le chier (G≤n). Pour la valeurnog, nous observons tg valeurs. La statistique ajustée s'écrit
H˜ = H
1−
PG
g=1(t3g−tg) n3−n
(3.3)
Attention, la statistiqueH est calculée sur les rangs modiés (c.-à-d. avec les rangs moyens lorsqu'il y a des ex-aequo).
Exemple 23(Un second exemple : poids des animaux à la naissance). Cet exemple est encore une fois repris de l'article fondateur des auteurs de la méthode (pages 588 et 589), ils semblent l'avoir repris
Fig. 3.3. Test de Kruskal-Wallis sur les grands eectifs - Teneur en seul des "hot-dogs"
eux-même d'un ouvrage de Scnedecor6 Il s'agit de comparer le poids à la naissance deK= 8portée de porcs. Ici également, l'intérêt est de pouvoir calibrer nos calculs7.
Les données ont été triées selon la variable d'intérêt croissante "poids". Nous disposons de n = 56 observations etK= 8groupes ("portée") (Figure 3.4) :
Nous avons comptabilisé le nombre d'observationsnk dans chaque groupe, nous obtenonsn1= 10, n2= 8, etc.
6 G. Scnedecor,Statistical Methods, Iowa State College Press, 1937.
7 Eux à l'époque ne disposaient ni d'un ordinateur, ni d'un tableur, même pas d'une calculette. Ils faisaient tous les calculs à la main ? avec une règle à calcul ? ? ? C'est quand même positivement impressionnant.
Fig. 3.4. Test de Kruskal-Wallis avec les ex-aequo - Poids à la naissance de portées de porcs
Puis nous avons attribué les rangs aux individus. Ils ont été corrigés selon la méthode des rangs moyens. Par exemple, les 2 individus correspondant à la valeur vg = 1.2 ont récupéré le rang
2+3
2 = 2.5, etc.
Nous réalisons la somme des rangs Sk par groupe, nous obtenons S1 = 317,S2 = 216.5, etc. Nous montons ces valeurs au carré pour disposer desSk2
Nous pouvons dès lors former la somme
B=X
k
Sk2
nk = 50397.396 et la statistique non ajustée de Kruskal-Wallis
H= 12
n(n+ 1)×B−3(n+ 1) = 12
56(56 + 1) ×50397.396−3(56 + 1) = 18.464
Penchons nous maintenant sur l'ajustement. Il y a G= 22valeurs distinctes dans le chier. Dans le tableau "Comptage des valeurs distinctes", nous disposons des eectifs associés aux valeurs tg, nous formons la quantité t3g−tg, puis la sommeP
g(t3g−tg) = 960 Le facteur d'ajustement est égal à
C= 1− PG
g=1(t3g−tg)
n3−n = 1− 960
563−56 = 0.9945
Il est faible. Il le sera d'autant plus que l'eectif est élevé et que le nombre d'ex-aequo est limité. A l'extrême, s'il n'y a pas d'ex-aequo dans le chier, nous aurons C= 1.
Nous pouvons alors produire la statistique ajustée H˜ =H
C =18.464
0.9945 = 18.565
SousH0, il suit asymptotiquement une loi duχ2(7)àddl= 7degrés de liberté. Le seuil critique au risqueα= 5%est le quantileχ20.95(7) = 14.067. Nous rejetons l'hypothèse nulle d'égalité des poids à la naissance dans les portées.
La probabilité critiquep= 0.01est cohérente avec cette conclusion.
3.1.4 Sorties des logiciels
Pour illustrer les sorties des logiciels, nous utilisons le chier "Crédit" (Figure 0.1). Nous souhaitons savoir si le revenu par tête des ménages ("Rev.Tete") est diérent selon le type de garantie supplémentaire qu'ils ont contracté ("Garantie.Supp", avec3modalités possibles).
TANAGRAproduit les résultats suivants (Figure 3.5) :
Fig. 3.5. Tanagra - Test de Kruskal-Wallis sur le chier "Crédit"
Pour chaque modalité de la variable indépendante "Garantie.Supp", nous disposons des eectifs, de la moyenne empirique, de la somme des rangs et de la moyenne des rangs. Ainsi, pour la première modalité "Garantie.Supp = hypothèque", nous obtenons n1 = 29, x¯1 = 6.8566, S1 = 688.5 et
¯
r1= 23.7414.
La statistique de Kruskal-Wallis non corrigée des ex-aequo est fournie, H = 1.209128 avec une probabilité critiquep= 0.546313.
Plus intéressante pour nous est la statistique corrigée des ex-aequo, nous avons H˜ = 1.209418avec p = 0.546233. Comme nous l'avons signalée dans l'exposé de la méthode, la correction est faible généralement.
Il apparaît en tous les cas que l'hypothèse nulle d'égalité des revenus par tête selon la garantie supplémentaire contractée n'est pas démentie par les données.
SAS, outre les indicateurs par groupe (eectif, somme des rangs, etc.), fournit directement la statis-tique corrigée et la probabilité cristatis-tique (Figure 3.6).Ren fait de même (Figure 3.7).
Fig. 3.6. SAS - Test de Kruskal-Wallis sur le chier "Crédit"
Fig. 3.7. R - Test de Kruskal-Wallis sur le chier "Crédit"