Tests :Rappel / bilan / Tests non paramétriques

(1)

Tests :

Rappel / bilan / Tests non paramétriques

I Rappel...2

II Bilan...3

III Test Exact de Fisher...4

IV R de Spearman...5

V Test des rangs de Wilcoxon...6

(2)

I Rappel

Pour avoir le droit d'utiliser les tests, il faut que certaines conditions soient remplies. Vérifier les conditions, cela s'appelle faire un "Diagnostique de régression". Quand les conditions ne sont pas remplies, on ne peut pas utiliser le test, il faut alors utiliser un autre test à la place.

Les tests de remplacement sont appelés "tests non-paramétriques". Le tableau suivant résume le type de variable, le test paramétrique à utiliser (tous les tests que nous avons déjà vu pendant les 8 semaines), le diagnostique de régression et le test non paramétrique (de remplacement) si le diagnostic de régression n'est pas rempli.

Variables Test

paramétrique

Diagnostic Test non

paramétrique Qualitative

&

Qualitative

Khi2 1. Les valeurs de toutes les cases du tableau des effectifs attendus (deuxième tableau) doivent être supérieures ou égales a 5.

Test exact de Fisher

Qualitative

&

Numérique

T de Student 1. Les écart types sont égaux(*) 2. Pour chaque groupe, la variable

numérique suit une loi normale OU les effectifs sont supérieurs égal à 15

Test des rangs de Wilcoxon

Qualitative

&

Numérique

F de Fisher

(ANOVA) 1. Les écart types sont égaux(*)

2. Pour chaque groupe, la variable numérique suit une loi normale OU les effectifs sont supérieurs égal à 15

Test de Kruskal- Wallis

Numérique

&

Numérique

R de Pearson (coefficient de

corrélation)

1. Au moins une des deux

variables suit une loi normale R des rangs de Spearman

(*) : les écarts types sont égaux si le plus grand divisé par le plus petit donne un résultat inferieur ou égal à 2

(3)

II Bilan

Pour déterminer s'il y a un lien entre deux variables, vous devez donc :

- Déterminer la nature des variables (pour savoir sur quelle ligne du tableau vous devez vous situer)

- Faire le diagnostic de régression (colonne 3)

- Choisir le test en fonction du diagnostic (colonne 2 ou 4)

- Conclure grâce au p. Rappel : si p est petit (low en anglais), il y a un lien entre les variables.

Low  Lien

(4)

III Test Exact de Fisher

- Diagnostic

o Si chaque case du tableau des effectifs attendus est supérieure ou égale a 5, alors Khi2. Sinon, test exact de Fisher.

- Sous Excel

o il est compliqué (voir impossible) de le calculer à la main.

- Sous R

o Chargez vos données en mémoire.

o Calculez le tableau croisé (en utilisant table(Dn$colonne1,Dn$colonne2) et en le stockant dans la variable TableCroisee par exemple)

o Diagnostic de régression : La fonction chisq.test calcule le chi2 ET vous donne le diagnostic de régression en même temps. Si, après avoir utilisé la fonction, un warning apparait : Warning message: l'approximation du Chi-2 est peut-être incorrecte, c'est que le diagnostic de régression n'est pas bon et qu'il vous faut calculer le test exact de fisher. Si aucun Warning n'apparait, le diagnostic de régression est bon, le test à utiliser est le chi2 (vous venez de le faire avec chi.test), il ne vous reste qu'a lire le p et vous avez fini.

o Si le diagnostic de régression n'est pas bon, il faut calculer le test exact de Fisher. Pour cela, utilisez la fonction fisher.test que vous appliquez à TableCroisee

(5)

IV R de Spearman

- Diagnostic de régression : représentez l'histogramme de la première variable, puis celui de la seconde variable (hist sous R ; impossible sous Excel). Si l'une des deux suit une loi normale, vous pouvez utiliser le R de Pearson (coefficiant.correlation sous Excel, cor.test sous R). Sinon R de Spearman

- Sinon, sous Excel

o Remplacez chaque donnée de la première variable par son rang (en utilisant la fonction rang ou à la main) puis chaque donnée de la deuxième variable par son rang également. Par exemple, les données (3 ; 48 ; 12 ; 53) doivent devenir (1 ; 3 ; 2 ;4)

o Calculez le coefficient de corrélation non plus sur les données, mais sur les rangs ainsi obtenus. Le résultat est le R des rangs de Spearman

- Sous R

o Utilisez la fonction cor.test( Dn$Col1 , Dn$Col2 , method="spearman" ). La fonction donne aussi le p.

(6)

V Kruskal-Wallis

- Diagnostic de régression

o 1) calculez les écarts types de chacun des groupes.

Si le plus grand divisé par le plus petit est inférieur a 2 ; o 2) Pour chaque groupe :

 Si le groupe a une taille supérieur ou égale a 30

 ou si le groupe suit une loi normale,

o alors appliquez le F de Fischer. Sinon Kruskal-Wallis

- Sous Excel

o Impossible - Sous R

o la fonction kruskal.test(Dn$col1~Dn$col2) calcule le test de Kruskal-Wallis et donne le p.

(7)

VI Test des rangs de Wilcoxon

- Diagnostic de régression

o 1) calculez les écarts types de chacun des groupes.

Si le plus grand divisé par le plus petit est inférieur a 2 ;

o 2) si les effectifs sont inférieurs à 30 et que l'histogramme de la variable quantitative suit une loi normale

o Appliquez le T de Student. Sinon wilcoxon - Sous Excel

o Pour les deux groupes mélangés, remplacez la variable par son rang.

o Pour chacun des groupes, additionnez les rangs.

o Considérez la plus petite des deux sommes SOM1 ainsi obtenue et reportez-la sur une table des rangs :

http://www.socr.ucla.edu/Applets.dir/WilcoxonRankSumTable.html o Reportez sur la première colonne les effectifs du plus grand de vos deux

groupes. Sur la deuxième colonne, reportez l'effectif de votre deuxième groupe. La cinquième donne alors la valeur en dessous de laquelle il y a un lien : si SOM1 est plus petit ou égale à la valeur lu dans la cinquième colonne, il y a un lien entre les variables. Sinon, il n'y a pas de lien.

- Sous R

o la fonction wilcox.test(Dn$col1~Dn$col2) calcule le test des rang de wilcoxon et donne le p.