Statistiques non-paramétriques Ch.1. Tests non-paramétriques 2017-18

(1)

Statistiques non-paramétriques Ch.1. Tests non-paramétriques 2017-18

M2 CEE

Pr. Philippe Polomé, Université Lumière Lyon 2

(2)

Motivation : Quand utiliser ?

Hyp. de normalité pas facilement acceptable

I

Données nominales ou ordinales [+loin]

I Ou des outliers qu’on ne veut pas enlever

I

Tests sur des fréquences, médianes ou quantiles

I plutôt que des moyennes ou des variances

I Souvent les mesures associées au revenu sont asymétriques

I dépenses, dispositions à payer...

I Alors, la médiane représente mieux les obs. que la moyenne,

I qui est tirée dans la queue asymétrique de la distribution

(3)

Quand utiliser ?

I

Quand on a peu de données

I Les test np ont peu de puissance (ci-dessous)

I mais les tests param. peuvent donner des résultats aberrants

I si l’hyp. de normalité est fausse I

Inconvénients

I Est plus une collection de recettes

I Qu’une méthodo bien claire

(4)

Sommaire

Rappel sur les tests Tests

Corrélation non-paramétrique

(5)

Rappel sur les tests

I

Les test ont pour objet une hyp. nulle

H₀

d’égalité

I p.e. la moyenne dans une certaine population = celle d’un autre groupe

I Si elle est rejetée, on peut accepter l’alternativeH₁

I H1 peut être une6=, ou une inégalité si on sait qu’un des côtés de l’= est impossible

I

Les tests sont construits sur plusieurs autres hyp. que

H₀

I Si l’une de ces hyp. vient à faillir, les résultats du test sont aberrants

I Mais c’est diﬃcile à avérer

I Moins un test présuppose, plus il est général

(6)

Procédure du test

I

On calcule une statistique du test

I Cette stat suit une distribution connuesi H₀ est vraie

I p.e. ² ,t,F,... – c’est la partie diﬃcile à démontrer

I dépend aussi de la taillende l’échantillon I

On compare la stat avec une valeur tabulée de cette

distribution connue

I Cette valeur tabulée est choisie arbitrairement

I Ce choix est le niveau de significativité↵du test

I On prend généralement 5%

I Si la stat est + grande, en valeur absolue, que cette valeur tabulée,

I onRH0

(7)

Les erreurs du test

I

Erreur de type I :

RH₀

alors que

H₀

est vraie

I Pr{RH₀|H₀vraie}=↵

I Parfois appelé taille du test

I RH0|H0vraie est unfaux positif: détecter une diﬀérence, alors qu’il n’y en a pas

I Rem. dans une régression, un régresseur non pertinent a 5%

de passer pour significatif

I Plus↵est grand, plus onRH₀ faussement

I p.e. un coef. d’une régression est + facilement significatif quand↵=.1 que lorsque↵=.05

I

Erreur de type II :

¬RH₀

alors que

H₀

est fausse

I Pr{¬RH₀|H₀fausse}=

I CettePrdécroit à mesure quencroit

I 1 = Pr{RH₀|H₀fausse}est appelépuissance du test

I Mais pas connu en pratique car dépend de la “fausseté” deH0

(8)

Sommaire

Rappel sur les tests

Tests & corrélation : mesures Tests

Nominal : Test du ² Un échantillon

Plusieurs échantillons 2 échantillons reliés 2 échantillons indépendants k échantillons

Procédure de randomisation Corrélation non-paramétrique

(9)

Tests & mesures de corrélation np

I 9

une vingtaine de tests np connus

I et une demi-douzaine de mesure de corrélation np

I Selon les situations : mesure & échantillon

I On va voir les mesures ci-dessous

I

L’échantillon

I 1 échantillon

I 2 ou +

I indépendants ou reliés I

Au sein d’un échantillon

I Pour les tests, les obs doivent être indépendantes

I Pour les mesures de corrélations, non

(10)

La mesure

I

Les données sont toutes codées par des chiﬀres

I Mais ces chiﬀres n’ont pas tous la même signification

I

Qualitatif / nominal

I = classification

I p.e. couleurs

I Les classes sont mutuellement exclusives

I La seule relation entre classes est l’équivalence (=)

I Pas de ,ou de +,-,⇥,÷

I Seul le mode (les fréquences) est défini

I Classe la + fréquemment observée

I Médiane, moyenne, variance ne sont pas définies

(11)

La mesure

I

Ordinal (classement, rangs, hiérarchie)

I Il y a un ordre entre les classes

I + grands, diﬃciles, ...

I Cet ordre ne pourrait prévaloir qu’entre certaines classes mais ici il faut qu’il prévale partout

I Relations d’équivalence = et d’ordre

I ordre : irréflexif, asymétrique et transitif

I Pas d’opérations +, -,⇥,÷

I La distance entre 2 classes n’a pas de sens

I Même si une classe est codée 1 et une autre 3, cette dernière n’est pas “deux de plus” que la 1º

I La moyenne et la variance ne sont donc pas définies

I Mais la médiane et les quantiles (percentiles, déciles...) bien I

Les tests applicables au nominal sont applicables à l’ordinal

(12)

La mesure

I

Intervalle / cardinal / quantitatif

I La distance entre les classes est définie

I p.e. la température

I La même relation d’ordre prévaut

I mais en plus les opérations sont définies

I Tous les moments ont du sens

I moyenne, variance, ...

I

Les tests applicables à l’ordinal et/ou au nominal sont applicables à l’intervalle

I Les tests param. ne sont applicables qu’à la mesure d’intervalle

I p.e. les tests t & F des régressions

(13)

Sommaire

(14)

Récapitulatif sur les tests np (réf. Siegel)

Mesure 1 éch. 2 échantillons k éch.

Reliés Indépendants Reliés Indép.

Nomin. Binomial₂ McNemar Fisher₂ Cochran Q ₂

Ordin.

Runs Médiane Médiane

Kolmogorov Sign Mann-Whitney U Friedman Kruskal-Walis

-Smirnov K-S 2-way 1-way

(K-S) Wilcoxon Wald-Wolfowitz ANOVA ANOVA I

Seuls les tests colorés sont présentés

I Info abondante, souvent sur Wikipedia et aide de R

(15)

Sommaire

(16)

Les tests du

²

I

Un test

²

est tout test d’hyp

I dont la stat suit une dist. ² quandH₀ est vraie

I Sans autre précision, il s’agit svt du test ² de Pearson

I qui est celui qui nous intéresse

I Même si ²est une dist. paramétrique, le test ne porte pas sur un paramètre

I

2 types de comparaison

Ajustement

tester si une distribution observée diﬀère d’une distribution théorique

I Pour un éch.

I “Goodness-of-fit”

Indépendance

tester si des obs non reliées sur 2 variables sont indépendantes l’une de l’autre

I Pour 2+ éch.

I s’exprime entable de contingence

(17)

2

1 échantillon – Nominal

I

On cherche à comparer

I un groupe de fréquences absolues observées

I kcatégoriesi sont observées

I avec un groupe de fréquences théoriques

I

La stat de test est

2 = Xk

i=1

(Oi Ei)² Ei

Oi =

nombre de cas observés dans la cat.

i Ei =

nombre de cas espérés dans la cat.

i

sous

H₀

I Il faut donc spécifier une dist espérée

I

S’il y a peu de

6=

entre

O

et

E

I donc si les fréq. obs. sont proches des espérées

I alors, ² sera petit, donc pas dans les extrêmes de la dist.

I

Le nombre de degrés de liberté est

k p

I pest le nombre de paramètres de la dist. espérée

I p.e. 2 si c’est une normale (espérance, variance)

(18)

2

1 échantillon – Nominal : exemple

I

On lance un dé à 6 faces 60 fois

I Le dé est-il pipé (biaisé) selon le test de ² de Pearson ?

I

Dé régulier

I Pr{face}=¹/6

i Oi Ei (O_i E_i)² Ei

1 5 10 2.5

2 8 10 .4

3 9 10 .1

4 8 10 .4

5 10 10 0

6 20 10 10

I k =

6

I

Degrés de liberté 6-1=5

I Je pense que c’est plutôt 4 car U(a,b)

I 2 =

13

.

4

I 2 .95;5=?

I Rqchisq(.95, df=5)= 11.07

I RH₀

(19)

2

2 ou + échantillons indépendants – Nominal

Figure –Table de contingence

Groupe

i

Résultat

j P

ligne (échantillon) 1 2

. . .

C

1

O₁₁ O_1.

2 ...

Oij Oi.

R

ORC

P

col

O.1 O.j

N

I

Table de contingence : fréq. absolues observées

Oij

I H₀

: La distribution des résultats est indépendante des groupes

I Peut-on dire que les lignes sont indépendantes entre elles ?

I On ne précise pas de quelle distribution viendraient ces lignes

(20)

2

2 ou + échantillons indépendants – Nominal

I

Il y a N observations au total

I

Somme par ligne (résultats) :

Oi.=P

jOij

I Soitp_i.=O_i./N

I

Somme par colonne (groupes) :

O.j =P

iOij

I Soitp.j =O.j/N

I

On définit les fréquences absolues espérées comme

Eij =Npi.p.j

I

La stat de test est

2 = XR i=1

XC j=1

(Oij Eij)² Eij

(21)

2

2 ou + échantillons indépendants – Nominal

I

Même logique que à un échantillon

I

Le nombre de degrés de liberté est

RC (R+C

1)

I RC est bien le nbr de catégories comme à 1 éch.

I La réduction vient de ce qu’il faut calculerR+C 1 quantités

I pour calculer les fréquences espérées I

Limitations

I Il faut que lesO_ij 5

I 10 lorsqu’il y a un seul degré de liberté

I Sinon, la stat du test ne converge pas à une ²

I Ne peut déterminer la causalité

I Groupe$résultat

(22)

2

2 ou + échantillons indépendants – Nominal : exemple

I

Y-a-t-il indépendance entre la pratique du sport et le choix de logement ?

I Échantillon d’étudiants d’une université USA

Groupe

i

Sport

j P

ligne Aucun Peu Régulier

Résidence U 32 30 28 90

Appart. sur campus 74 64 42 180

Appart. hors campus 110 25 15 150

Chez ses parents 39 6 5 50

P

col 255 125 90 470

(23)

2

2 ou + échantillons indépendants – Nominal : exemple

I

Questions posée dans ce genre d’exercice :

I Le lieu de vie aﬀecte-il la pratique du sport ?

I

Mais le test ne peut déterminer si

I les étudiants ont choisi leur logement pour pratiquer le sport

I le logement induit la pratique du sport

I Pas de un test de causalité

I Sauf à conclure à l’indépendance (pas de causalité) I

Intéressant pour chercher un régresseur

I qu’on penserait significatif

I mais pas linéaire

(24)

2

2 ou + échantillons indépendants – Nominal : exemple

I

Calcul des fréquences espérées

I p.e.EAucun,Resid=Np_Aucun.p_.Resid =48.82

I p_Aucun.=O_Aucun./N=255/470p_.Resid =O_.Resid/N=90/470

Groupe

i

Sport

j P

ligne Aucun Peu Régulier

Résidence U 48.8 32 23.9 30 17.2 28 90 Appart. sur campus 97.7 74 47.9 64 34.5 42 180

Appart. hors campus 110 25 15 150

81.4 39.9 28.7

Chez ses parents 27.1 39 13.3 6 9.6 5 50

P

col 255 125 90 470

(25)

2

2 ou + échantillons indépendants – Nominal : exemple

I

Il faut que chaque

Eij

5

I c’est le cas

I

La

²

est calculée en sommant tous les

(Ôîj Êîj)²

Eij I (32 48.8)²

48.8 +. . .=60.5

I Les degrés de liberté sont

RC (R+C 1) =12 (4+3 1) =6

I 2

.95;6=12.59 =) RH₀

I Il n’y a pas de quoi conclure à l’indépendance du logement et sport

(26)

2

2 ou + échantillons indépendants – Nominal : exemple

I

Si on ramène la table de contingence en fréquences relatives

I On voit bien qu’il y a un clivage dans/hors campus

Groupe

i

Sport

j P

ligne Aucun Peu Régulier

Résidence U 36% 33% 31% 100%

Appart. sur campus 41% 36% 23% 100%

Appart. hors campus 73% 17% 10% 100%

Chez ses parents 78% 12% 10% 100%

P

col 54% 27% 19% 100%

(27)

2

dans R “Pearson’s Chi-squared Test for Count Data”

chisq.test(x, y = NULL, correct = TRUE, p = rep(1/length(x), length(x)), rescale.p = FALSE, simulate.p.value = FALSE, B = 2000)

x

vecteur ou matrice numérique

y

vecteur numérique ; ignoré si x est une matrice

I

x & y peuvent aussi être des factors

I

Si x est un factor, y devrait être un factor de même longueur

correct

logique, indique s’il faut appliquer une correction de continuité pour 1 table 2 par 2

p

vecteur de proba de même longueur que x

I

permet de spécifier des proba ad hoc

simulate.p.value

logique indicant si calculer les p-valeurs par

simulation

B

entier = nombre de réplications pour la simulation

(28)

2

dans R – exemple

M <- as.table(rbind(c(762, 327, 468), c(484, 239, 477)))

I

les données

dimnames(M) <- list(gender = c("F", "M"), party = c("Democrat","Independent", "Republican"))

I

nommer les variables (Xsq <- chisq.test(M))

I

Calcul du test, on met dans Xsq & imprime le résumé Xsq$observed

I

Comptes observés (⌘ M) Xsq$expected

I

Comptes espérés sous

H₀

I

Conclusion

I on rejette l’indépendance des “échantillons”

I les femmes votent diﬀéremment des hommes

(29)

2

dans R – exercices

I

Refaites les 2 tests précédents dans R

I Dé et sport

I

Un échantillon de 44 hommes et 56 femmes

I A-t-il été tiré d’une population où les hommes et les femmes sont en égales proportions ?

I

Une certaine procédure médicale est associée à une morbidité

±

importante

I On voudrait savoir si cette dernière dépendrait d’un score dit Apgar

Morbidité

Apgar Nulle Mineure Majeure

0-4 21 20 16

5-6 135 71 35

7-10 158 62 35

(30)

Sommaire

(31)

Un échantillon – Nominal : Binomial – Intro

I

Population partagée en 2 classes

I Nombreux exemples

I

Proportion dans une classe est

P

I Dans l’autre classe 1 P

I Proportion fixe dans une pop.

I mais v.a. dans un éch. à cause de l’échantillonnage I

Distribution binomiale

I Distribution d’échantillonnage de proportions calculées sur des échantillons d’une population à 2 classes

I

Test

H₀ :

la proportion est

P

dans la population

I P est un certain chiﬀre

I Le test indique s’il est raisonnable de croire que la proportion observée dans l’éch. puisse provenir d’une pop. avec proportion P

(32)

Un échantillon – Nominal : Binomial – méthode

I

Dans un éch. de taille

N

I extrait d’une pop à 2 classes

I la proba. d’obtenirx objets d’une classe

I et doncN x de l’autre classe

I est

p(x) =

✓ N x

◆

P^x(1 P)^{N x} avec

✓ N x

◆

= N!

x! (N x)!

I Ce n’est que de la combinatoire, on compte les évènements

I

La proba d’obtenir

au plus x

objets d’une classe

I est Xx i=0

p(i)

(33)

Un échantillon – Nominal : Binomial – méthode

I

p.e. un dé à 6 faces tiré 5 fois

I Pr{deux

6}

I N=5,x =2,

I P proportion supposée de 6=¹₆ =H₀

I p(2) =

✓ 5 2

◆ 1 6

2 1 ¹₆ ^{5 2}=.16

I Pr{au plus deux

6}

=p(0) +p(1) +p(2) =.4+.4+.16

I p(0)etp(1)constituent la queue de la dist. “après” p(2)

I Donc, sousH₀:P=¹₆, on aPr{x 2}=.96

I Donc, on est .05 =) ¬RH0

I C’est un test à 1 côté (1 tail) car on a supposéP<1 P

I Si on veut juste testerP6=1 P, on a un 2-tailed test

I Il faut doubler la proba calculé (ici : 100%)

I On peut ainsi calculer de nombreuses probabilités

I pour6=H0,6=N,6=x

I C’est de plus en plus long à mesure queNaugmente

I Mais on peut montrer que laPde binomiales_N!

!1normale

(34)

Un échantillon – Nominal : Binomial – R

I

binom.test(x, n, p = 0.5, alternative = c("two.sided", "less",

"greater"), conf.level = 0.95)

I x nombre de “1” (succès, vrai...)

I n taille de l’échantillon

I p Proba de succès que l’on teste =H0 I alternative indique l’hyp. alternative

I "two.sided", "greater" ou "less" (on n’indique que la 1ºlettre)

I par défaut two.sided

I conf.level le niveau de confiance choisi pour calculer l’intervalle de confiance

(35)

Un échantillon – Nominal : Binomial – Exemple

I

En supposant l’hérédité mendélienne

I un croisement de 2 variétés d’une certaine plante produirait 1/4 de “naines” et 3/4 de “géantes”

I Dans une expérience pour déterminer si cette hyp. est raisonable

I on obtient 243 naines et 682 géantes.

I

On teste

H₀ :p =

3/4, en prenant “géante” comme le succès

I binom.test(682,682+243,p=3/4)

I résultat : p-valeur>5%¬RH0

(36)

Un échantillon – Ordinal : Kolmogorov-Smirnov

I

KS teste l’égalité de 2 dist. uni-dimensionnelles continues

I À 1 éch. : compare la dist. empirique de celui-ci avec une distribution connue

I spécifiée dans le test

I H0 la dist. empirique est compatible avec la théorique

I H1 2 tailed : pas compatible, sans dominance claire

I H1 1-tailed : pas compatible, l’une domine l’autre

I À 2 éch. : compare les deux dist. empiriques

I

La stat du test est la plus grande distance possible entre les deux distributions

I Cette stat suit une dist. de Kolmogorov sousH₀

(37)

Un échantillon – Ordinal : Kolmogorov-Smirnov

En rouge, une dist. théorique, en bleu une empirique

La flèche noire est la stat du test KS

(38)

Un échantillon – Ordinal : Kolmogorov-Smirnov – remarques

I

Comme les dist. sont continues, la proba de 2 points égaux est nulle

I En pratique, ks ne devrait pas s’appliquer à 2 éch. avec bcp de points identiques

I

Pour tester la normalité,

9

des test spécialisés + puissants

I p.e. Shapiro–Wilk ou Anderson–Darling

I

Si les paramètres de la dist. connue sont estimés

I dans le sens où ils résultent d’une estimation

I alors le test n’est pas valable

I

Une généralisation à un cas multivarié existe

I

La fonction ks.test de R implémente le test – prochaine dia

I Mais permet aussi que la distribution théorique soit discrète

(39)

Un échantillon – Ordinal : Kolmogorov-Smirnov dans R

ks.test(x, y, ..., alternative = c("two.sided", "less", "greater"), exact = NULL)

I

Arguments

I x vecteur numérique de données

I y soit un vecteur numérique de données pour le test à 2 échantillons

I ou une chaine de caractère qui nomme une fonction de distribution continue p.e. pnorm

I ... d’éventuels paramètres de la distribution indiquée dans y

I alternative – voir test binomial

I exact : NULL ou bien TRUE ou 1 pour indiquer si une p-valeur exacte doit être calculée (pas calculable dans tous les cas)

(40)

Un échantillon – Ordinal : Kolmogorov-Smirnov dans R – détails

I

Si y est numérique, c’est le test à 2 éch.

H₀ :

x et y sont tirés de la même distribution

I Sinon, y est une chaine de caractères qui teste si x est généré par la distribution nommée

I avec les paramètres indiqués par ...

I

Des égalités causent un avertissement

I car l’hyp. sous-jacente de distribution continue ne les permet pas

I Les arrondis peuvent générer des erreurs importantes ici.

I

Les NA sont omises silencieusement

(41)

Un échantillon – Ordinal : Kolmogorov-Smirnov – exemple

I

x <- rnorm(50)

I Est-ce que x+1.2 vient d’une distribution gamma avec paramètres de forme 3 et taux 2 ?

I ks.test(x+1.2, "pgamma", 3, 2)# deux côtés (two-sided)

I ks.test(x+1.2, "pgamma", 3, 2, exact = FALSE)

I ks.test(x+1.2, "pgamma", 3, 2, alternative = "gr")

(42)

Un échantillon – Ordinal : Runs

I

Wald-Wolfowitz “Runs” runs.test

I Installer le package randtests

I Skip

(43)

Sommaire

(44)

2 ou plus échantillons

I

Échantillons

reliés

I Il y a un lien entre les obs des6=éch.

I p.e. pls obs de la même personne : poids, taille, revenu..

I dans le temps : poids en t & t+1 pour des personnes

I n juges classent k vins. Un vin est-il classé systématiquement plus haut ou plus bas que les autres ?

I

Échantillons

indépendants

I Pas de lien dans le processus d’échantillonnage

I On veut alors souvent comparer les distributions

I Et tester l’indépendance

(45)

Sommaire

(46)

2 échantillons reliés – Nominal : McNemar

I

Test de significativité des changements

I mcnemar.test

I

Skip

(47)

2 échantillons reliés – Ordinal : Signe

I

Test pour une diﬀérence systématique entre paires d’obs.

(x,y)

I p.e. le poids de sujets avant & après traitement

I

Le test est plus utile si les comparaisons ne peuvent être exprimés que par

x >y,x =y,x<y

I Si(x,y)peuvent être exprimés cardinalement

I p.e.x =17,y =12!t-test

I Mais on peut utiliser le test du signe pour vérifier si la médianedex y est6=0

I Si(x,y)ne peuvent être exprimés que ordinalement

I p.e. x est 1ºrang de tous les x, y est 7º!test des rangs signés de Wilcoxon (prochain test)

(48)

2 échantillons reliés – Ordinal : Signe – Principe

I

S’il n’y a pas de

6=

entre

x

&

y,p = Pr{x >y}=.

5

I Pr{x=y}=0 pour des variables continues

I les paires t.q.x =y sont omises du test

I DoncH₀:p=.5

I

Soit

W

le nombre de paires positives

I “paire positive” peut-êtrex >y qualitatif, oux y quanti

I SousH₀,W suit une distribution binomiale

I Il faut supposer l’indépendance entre paires

I

On utilise donc binom.test comme dans le test binomial avec

p =.5

(49)

2 échantillons reliés – Ordinal : Signe – Exemple 1

I

Longueur des pattes antérieures et postérieures G de cerfs i Avt Arr.

6=

1 142 138 +

2 140 136 +

3 144 147

−

4 144 139 +

5 142 143

−

6 146 141 +

7 149 143 +

8 150 145 +

9 142 136 +

10 148 146 +

I H₀

: pas de

6=

de longueur

I two-tailed, pas d’à priori

I Si on disaitH₀ Avt>Arr. : one-tailed

I

Écrivez le test dans R

I p-value = .109 > .05

I ¬RH₀

I À retenir : 8/10 pas signif6=5/10

I Comparer si c’était 80/100

(50)

2 échantillons reliés – Ordinal : Signe – Exemple 2

I

Un fabriquant a 2 produits, A & B

I Il veut savoir si les consommateurs préfèrent B à A

I

Éch de 10 consommateurs

I Chacun reçoit A & B et indique ce qu’il préfère

I H₀

B n’est pas préféré à A

I H₁B est préféré à A

I =) C’est un test à un côté

I

Sur l’éch. 8 consommateurs préfèrent B, un préfère A et un est indiﬀérent

I Tester

I binom.test(8, 9, p = 0.5, alternative = c("greater"), conf.level = 0.95)

I p-valeur=.0195RH0

(51)

2 échantillons reliés – Ordinal : Signe – Exemple 3 médiane

I

Survie en semaines pour 10 sujets :

I 49, 58, 75, 110, 112, 132, 151, 276, 281, 362+

I 362+ veut dire >362

I

La médiane est-elle supérieure à 200 ?

I Dans cet éch., la médiane est toute valeur entre 112 & 132

I SiH₀ est vraie, médiane =200,

I alors on doit s’attendre à la moitié des sujets en vie après 200 semaines

I on assigne + aux obs >200 et - aux <

I Donc 7 - et 3 +

I vsH₁ Médiane6=200 : 2-tailed

I Tester – p-val=.34 :¬RH0 I vsH₁ Médiane > 200 : 1-tailed

I Tester – p-val=. ? ? : ? ?

(52)

2 échantillons reliés – Ordinal : Wilcoxon

I

Test des rangs signés (“Wilcoxon signed-ranks test”)

I H₀:la dist. des paires est symmétrique autour de zéro

I lorsqu’on ne peut pas supposer la normalité

I Si on peut supp. la norm. : test t I

Hyp

I Les données sont en paires et viennent de la même pop.

I Chaque paire est choisie au hasard, indépendamment

I

Soit

N

le nombre de paires

I éventuellement en omettant les paires égales

I Calculer|x_2i x_1i|etsigne(x_2i x_1i) =si I Assigner un rangR_i aux|x_2i x_1i|

I Le rang 1 va à la plus petite

I Stat du test :W =P

is_iR_i la somme de rangs signés

I RH0 si|W|>Wcritical,N

(53)

2 échantillons reliés – Ordinal : Wilcoxon – R

wilcox.test(x, y, alternative = c("t"), mu = 0, paired = 0/1, exact

= NULL, ...)

I

Arguments

I x : vecteur de données numériques, NA omises

I y : vecteur optionnel de données numériques, comme x

I alternative : comme binomial

I mu : un nombre optionnel – ‘Détails’

I Permet de tester si les6=sont sym. autour de mu, au lieu de zéro

I paired : 0/1 indique si les obs. sont en paires (2 éch.) – Détails

I exact : 0/1 indique une p-valeur exacte doit être calculée

(54)

2 échantillons reliés – Ordinal : Wilcoxon

I

Détails “paired”

I Si seul x est donné, ou x & y, mais paired=1,

I un test de Wilcoxon rangs signés est calculé

I H0 : la distribution de x (1 éch.) ou de x-y (2 éch. paired) est symmétrique autour de mu

I Si x et y sont donnés, mais paired=0,

I un test équivalent au test de Mann-Whitney est calculé

I H0 : les distributions de x et de y diﬀère de mu (localisition) et l’alternative est qu’ils diﬀèrent par une autre valeur

I Avec moins de 50 obs : la dist. exacte du test est calculée

I sinon approx normale

(55)

2 échantillons reliés – Ordinal : Wilcoxon – R exemple

I

Mesures d’importance de dépression sur 9 patients

I Avant & après traitements

I Ordinal car on ne peut comparer entre patients

I On se demande si le traitement a un eﬀet

I H0:dist. sym autour de zéro

I Alternative : dist sym autour de mu>0 “greater” – comme avec binomial

I =) One-tailed test

avt <- c(1.83, 0.50, 1.62, 2.48, 1.68, 1.88, 1.55, 3.06, 1.30) apr <- c(0.878, 0.647, 0.598, 2.05, 1.06, 1.29, 1.06, 3.14, 1.29) wilcox.test(avt, apr, paired = TRUE, alternative = "greater")

I

Quelle conclusion ?

(56)

Sommaire

(57)

2 échantillons indépendants – Nominal

I

Test de Fisher

I Skip

I

Test du

²

I Voir la section ²

(58)

2 échantillons indépendants – Ordinal

I

Test de la Médiane

I Skip

I

Test “Mann-Whitney U”

I Même test que Wilcoxon à 2 éch.

I Rwilcox.test( )

(59)

2 échantillons indépendants – Ordinal : Kolmogorov-Smirnov

I

Voir Kolmogorov-Smirnov 1 échantillon

I

ks.test(x, y, ..., alternative = c("two.sided", "less", "greater"), exact = NULL)

I x & y vecteurs numériques de données

I

Exemple

I x <- rnorm(50)

I y <- runif(30)

I H₀x et y viennent de la même distribution

I ks.test(x, y)

I H₀x est (stochastiquement) plus grand que x2

I x2 <- rnorm(50, -1)

I plot(ecdf(x), xlim = range(c(x, x2)))

I plot(ecdf(x2), add = TRUE, lty = "dashed")

I ks.test(x, x2, alternative = "l")

I Comparer avec

I t.test(x, x2, alternative = "g")

I wilcox.test(x, x2, alternative = "g")

(60)

Sommaire

(61)

k échantillons indépendants

I

Je laisse tomber les éch. reliés

I

Éch. indép.

I Nominal

I Voir section ²

I Ordinal : Extension du test de la médiane

I Skip

(62)

k échantillons indépendants – Ordinal : Kruskal-Wallis

I

Teste si des éch. proviennent de la même dist.

I Assez bien une extension de Wilcoxon

I

La significativité (RH

0

)

I indique qu’au moins un éch. domine stochastiquement au moins un autre éch.

I mais n’identifie pas où cette dominance pourrait se placer

I D’autres tests pourraient aider

I Si on peut faire l’hyp. d’une même distribution pour tous les groupes à l’exception de la médiane

I En rappelant que la moyenne & la variance ne sont pas définies

I alorsH0: toutes les médianes sont égales

I H1 : au moins une médiane est6=de celle d’une autre groupe

I Plus généralement, K-W teste l’égalité des paramètres de localisation (=position) entre les groupes

I Moyenne (si définie), médiane et mode

(63)

k éch. indép. – Ordinal : Kruskal-Wallis – méthode

I

Classer toutes les

N

obs. des k éch. ensemble

I Sans tenir compte de l’appartenance de groupes - donc de 1 à N

I

La stat de test est

H = (N

1)

Pg

i=1ni(¯ri. ¯r)² Pg

i=1Pni

j=1(rij r)¯² ni

est le nombre d’obs. du groupe

i

rij

est le classement de l’obs.

j

du groupe

i

¯ ri.=

Pni

j=1rij

ni

est le classement moyen des obs. du groupe

i

¯

r = ¹₂(N+

1) est la moyenne des

rij

(64)

k éch. indép. – Ordinal : Kruskal-Wallis – méthode

I

Je ne discute pas les gestions des égalités

I mais s’il n’y a pas d’égalité, alors

H= 12 N(N+1)

Xg i=1

nir¯_i.² 3(N+1)

qui donc ne comprend que des moyennes de rangs (par groupe)

I

On voit que si les groupes sont “mélangés”

I donc les rangs dans un groupe sont répartis dans tout l’éch.

I alorsHsera relativement petit

I plus petit que si un groupe concentre des rangs élevés

I Cela, à cause du carré I

Sous

H₀

,

H ⇠ ²g 1

I Donc siH< ²_g _1;0.95alors aucun ne domine un autre stochastiquement

I Si c’est le cas contraire, il faut chercher entre paires de groupes

(65)

k éch. indép. – Ordinal : Kruskal-Wallis – Remarques

I H

ne suit pas exactement une

²_g ₁

I La diﬀérence devient importante lorsque certains groupes ont moins de 5 membres

I Il est possible de trouver une dist. exacte pourH

I

Le test des rangs signés de Wilcoxon est essentiellement un cas particulier de celui-ci

I

Kruskal-Walis est parfois appelé “ANOVA 1-way for ranks”

I ANOVA = ANalysis Of VAriance

I KW n’est pas du tout un test sur les variances

I Mais la structure en tableau évoque ANOVA

I ANOVA teste les moyennes

I KW la dominance stoch

I qui devient la médiane en cas de symmétrie

(66)

k éch. indép. – Ordinal : Kruskal-Wallis – R

I

Kruskal-Wallis Rank Sum Test kruskal.test(x, ...)

x vec. numérique des données ou liste de vec. num de données

I Les éventuels éléments non-num. seront forcés (coerced), avec avertissement

g vec ou factor qui indique le groupe pour chaque élément de x

I Ignoré si x est une liste (car les groupes sont alors définis)

formula une formule de type “response ~ group” comme pour les régressions

– voir exercice 3

data matrice ou frame optionnel qui contient les données de la formula

subset perment éventuellement de prendre un sous-ensemble des données

na.action fonction qui indique ce qu’il faut faire des NAs.

(67)

k éch. indép. – Ordinal : Kruskal-Wallis – Exemple

I

Mesure d’eﬃcience d’un certain médicament

I pour retirer des poussières de sujets

I normaux x <- c(2.9, 3.0, 2.5, 2.6, 3.2)

I avec une maladie des voies respiratoires y <- c(3.8, 2.7, 4.0, 2.4)

I avec asbestose z <- c(2.8, 3.4, 3.7, 2.2, 2.0)

I kruskal.test(list(x, y, z))

I p-valeur ? Conclusion : pas de dominance stoch

(68)

k éch. indép. – Ordinal : Kruskal-Wallis – Exercice 1

I

24 sujets (N)

I 3 groupes A, B, C de 8, pour une interview

I mais 1 sujet en B et 2 en C ne viennent pas

I nA=8,nB =7,nC=6

I Éch. de6=tailles : argument pour np ? I

Doivent classer 3 vins

I En fait : le même vin, mais

I l’interview est faite pour que les A s’attendent à de bons vins, les C de mauvais

A B C

6.4 2.5 1.3

6.8 3.7 4.1

7.2 4.9 4.9

8.3 5.4 5.2

8.4 5.9 5.5

9.1 8.1 8.2

9.4 8.2

9.7

(69)

k éch. indép. – Ordinal : Kruskal-Wallis – Exercice 1

Niveaux Rangs

A B C A B C

6.4 2.5 1.3 11 2 1

6.8 3.7 4.1 12 2 4

7.2 4.9 4.9 13 5.5 5.5

8.3 5.4 5.2 17 8 7

8.4 5.9 5.5 18 10 9

9.1 8.1 8.2 19 14 15.5

r¯=

9.4 8.2 NA 20 15.5 11

9.7 NA NA 21

P

rij

Somme rangs 131 58 42 231

Moyenne rangs 16.4 8.3 7.0

r¯i.

Entrez les données à la main et réalisez le test

(70)

k éch. indép. – Ordinal : Kruskal-Wallis – Exercice 2 & 3

I

Ex. 2. Données simulées SimKW.csv sur site diplôme

I 3 éch avec la même moyenne (43.5), la même médiane (27.5),

I mais un résultat Kruskal-Wallis tranché, avec p-valeur=0.025 I

Ex. 3. Illustration de la version “formule” de la commande

I Airquality : Daily air quality measurements in New York, May to September 1973.

I Ozone = niv d’ozone

I Month = 5,6...9

I Core distribution R

I utiliserdata(airquality)

I boxplot(Ozone ~ Month, data = airquality)

I kruskal.test(Ozone ~ Month, data = airquality)

(71)

k échantillons reliés – Nominal

I

Cochran Q

I Skip

I

Friedman analyse de variance 2 voies

I “ANOVA 2-way for ranks”

I Sur Rfriedman.test

I Skip

(72)

Résumé tests np dans R

Mesure 1 éch. 2 échantillons k éch.

Reliés Indépendants Reliés Indép.

Nomin. Binomial

binom.test McNemar Fisher Cochran Q

2

chisq.test mcnemar.test ² ²

Ordin.

Runs Sign Médiane Médiane

runs.test¹ binom.test Mann-Whitney Friedman Kruskal-Walis

Kolmogorov Wilcoxon Runs 2-way ANOVA 1-way ANOVA

SmirnovK-S wilcox.test K-Sks.test friedman.test kruskal.test

1. Installer packagerandtests

(73)

Sommaire

(74)

Tests de randomisation

I

Divers noms

I randomisation, permutation, exact

I

R package coin

I Voir vignette coin_implementation.pdf

I

Randomisation/permutation = une

classe

de tests

I Qui ont pour objectif commun de tester des hyp.

d’indépendance

I Beaucoup de tests y sont dispo, dont ceux qu’on a vu

I 2 I Wilcoxon

I Kruskal-Walis

(75)

Idée de la randomisation

I

Pour un certain test

I np ou autre, sur 2 ou plus éch.

I

La distribution de la stat du test est obtenue

I en calculant la stat du test dans tous les réarrangements possibles des étiquettes des points de donnée

I l’étiquette est un groupe auquel appartient le point de donnée

I La ligne d’un tableau de contingence I H₀

: les étiquettes sont interchangeables

I Équivalent à “même distribution entre 2 groupes de données”

I Un rejet deH₀conduit à l’indépendance des 2 éch.

(76)

Exemple. Randomisation sur des moyennes

I

Soit 2 groupes A & B

I de taillesnA etnB I avec moyennesx¯_A etx¯_B

I L’appartenance à un groupe estl’étiquettede chaque point de donnée

I

On veut tester si les 2 groupes ont la même distribution (H

0

)

I Lastat du test de permutationest la6=entre les moyennes

¯ x_A x¯_B

I AppeléeT(obs)

I T(obs)est-elle assez grande pour rejeterH0?

I On calculeT(obs)

I Puis onmélangeles obs. des 2 échantillons

(77)

faire 2 groupes de tailles

nA

et

nB

dans ces données

I L’ensemble de ces6=est l’exacte dist. deT(obs)sousH₀

I H0: les 2 groupes ont les mêmes moyennes / étiquettes

I SinA et/ounB est très grand, il faudra en calculer moins

I

p-valeur one-tailed

I proportion de ces permutations pour lesquelles la6=de moyennes est T(obs)

I si <5% :RH0

I

p-valeur two-tailed

I proportion de ces permutations pour lesquelles la valeur absolue de la6=de moyennes est |T(obs)|

I Remarque : ici on ne teste qu’une égalité de moyennes, pas l’indépendance

I parce que la stat de test est une6=de moyenne

I

On peut calculer un Intervalle de Confiance pourT

(obs)

:

I Trier toutes les6=calculées de la + petite à la + grande

I La borne inf de l’IC est p.e. la 25ºou 250ºvaleur, selon nbr d’obs

(78)

Tests de randomisation – Package coin

I

On ne part pas sur une stat de test à priori

I Ds l’ex., une moyenne

I Mais on peut refaire la stat de test de n’importe quel test

I p.e. rangs signés de Wilcoxon ou somme de carrés de ²

I En général, il s’agit de test d’indépendance sur base d’une table de contingence

I

Au lieu de faire une hypothèse sur la distribution asymptotique de cette stat

I p.e. le test ² approche la dist. de la stat de test par celle de la ²

I le test calcule la stat de test sur base de permutations de l’éch.

I Si on peut faire toutes les permutations : “exact”

I Sinon : “approximée” – on en prend “beaucoup”

I par opposition à “asymptotique” qui est le cas classique

(79)

Tests de randomisation – Package coin

I

En général, les permutations reproduisent les tables de contingence

I Avec chaque table, on calcule la stat de test

I Ça donne une distribution “empirique” de la stat de test

I Si la stat de test est dans la queue de la distribution, onRH₀

I

C’est la commande qui “choisit” le test par défaut

I Donc, il faudrait connaitre + de tests np pour comprendre ce test

I En particulier, évaluer si le choix est approprié

I Mais quelques exemples pour comprendre la base

(80)

Tests de randomisation – Package coin

I

Charger le package coin

I La commande principale estIndependenceTest( )

I

En premier on met une formule

I Comme dans le dernier exemple de Kruskal-Walis

I independence_test(Ozone ~ Month, data = airquality)

I Les résultats sont bien diﬀérents !

I Mais on peut introduire des groupes (blocks)

I y ~ x | block

I p.e. y = satisfaction de son emploi, x = groupes de revenus, block = ho & fe

I

C’est la commande qui “choisit” le test

I Par défaut – on verra + loin une façon de changer

I

On peut choisir un test “exact”, “approximate”, “asymptotic”

I

+ des options diverses

(81)

Tests de randomisation – Package coin : exemple simple

I

Données asat de toxicologie

I mesures avec traitement "compound" et sans (témoin)

I boxplot(asat ~ group, data = asat)

I independence_test(asat ~ group, data = asat)

I

Que concluez-vous ?

(82)

Tests de randomisation – Package coin : exemple

I

Données “job satisfaction”

I en 4 cat.

I selon 4 niveaux de revenu

I pour les hommes et les femmes

I data("jobsatisfaction", package = "coin")

I

Attention, les données sont en “Table”

I pas en Frame

I Une Table dans R est une table de contingence

I présente le comptes (fréq. abs.) dans chauqe cellule / combinaison de factor

I On l’utilise directement dans le test

(83)

Tests de randomisation – Package coin : exemple

I

Visualisation

I ftable “flat contingency tables”

I ftable(js)

I Tableau de contingence à pls dim

I Installer & charger le packagevcd

I Mosaic plot pour des donnés cat pluridim

I mosaic(Income ~ Gender + Job.Satisfaction, data = js, split_vertical=c(TRUE, FALSE, TRUE))

I Peut-être pas le + joli – je vous laisse expérimenter

(84)

Tests de randomisation – Package coin : exemple

I

independence_test(js)

I Le test décide seul

I Il emploie une stat de Max : peu d’info, peu de puissance I

independence_test(js, teststat = "quadratic", distribution =

asymptotic())

I On impose un test classique

I Ici Cochran-Mantel-Haenszel – mais c’est là qu’il faut connaitre bcp de tests

I p-valeurw.33 :H0 pas rejetée

I H0 était “pas de diﬀérence entre les éch. / groupes” : donc même distribution

(85)

Tests de randomisation – Package coin : exemple

I

independence_test(js, distribution = approximate(B = 10000), scores = list(Job.Satisfaction = 1 :4, Income = 1 :4))

I scores, ici, force Job.Satisfaction et Income, de factor qu’ils étaient à “facteur ordonné”

I Donc : exploite le fait que la satisfaction et le revenu sont des ordres (ordinal, pas nominal)

I Le test a donc un peu plus d’info

I p-valeurw.01 :H₀ rejetée

I Donc : indépendance – les groupes ne viennent pas tous de la même dist.

I Donc, une diﬀérence significative entre hommes et femmes

I Réaliser qu’on teste avec 2 ordinales et une nominale

(86)

Conclusion

I

Ceci conclut les tests np

I

On en a vu un échantillon

I Plutôt à titre pédagogique que pour être exhaustif

I

On a vu qu’on pouvait tester dans des situations

I où on ne pourrait utiliser des régressions

I cfr dernier exemple

I mais où la puissance est sans doute faible

I p.e. les diﬀérents résultats des tests

(87)

Sommaire

(88)

Corrélation non-paramétrique

Équivalent du coef de corrélation pour données “quali.”

+ précisément : “coef de corrélation de Pearson” r ou R – paramétrique

Mesure Corrélation

Nomin. Coeﬃcient de contingence, ,...

Ordin. Coef. de corrélation de rangs de Spearman

rs

Coef. de corrélation de rangs de Kendall

⌧

Il y en a quelques autres

(89)

Nominal : Coeﬃcient de contingence, ,...

I

Plusieurs mesures ont été définies

I pour des données nominales

I à partir des tables de contingence

I pour essayer de décrire la force de l’association entre variables

I principalement à partir des valeurs de la stat du test ²

I

Il est vrai qu’il est souvent utile de décrire la relation

I mais je crois que la table de contingence y arrive mieux

I qu’un coeﬃcient résumé

(90)

Ordinal : Corrélation de rang de Spearman ⇢

I

Parfois noté

⇢

, parfois

rs I

Les obs. sont en paires

hx,yi

I La formule est simplement celle de la corrélation

I appliquée au rangs

⇢= cov(rx,ry) pvar(x)var(y)

I Si les rangs dex sont proches de ceux dey

I ⇢!1

I S’ils sont complètement à l’opposé :⇢! 1

cov(x, y = NULL, use = "everything", method = c("pearson",

"kendall", "spearman"))

(91)

Ordinal : Corrélation de Kendall ⌧

I

Dans les 2 éch. appareillés

I une paire de paireshxi,yiiethxj,yjiest dite concordante si

I soitxi >xj etyi>yj I soitxi <xj etyi<yj I sinon elle est discordante

I Une double égalité sort du calcul du⌧

I

Soit

nc

et

nd

les nombres de paires concordantes et discordantes, respect.,

⌧ = nc nd

n(n

1)

/2

est le

⌧

de Kendall

I

Le dénominateur est le total de combinaisons de paires

I s’il y a parfaite concordance,⌧=1

I s’il y a parfaite disconcordance,⌧= 1

I s’il y a indépendance,⌧ =0

(92)

Corrélation de Kendall ⌧ : exemple

I

Données "survey" préchargées dans R

I 237 variables

I smoke <- factor(survey$Smoke,

levels=c("Never","Occas","Regul","Heavy"))

I exer <- factor(survey$Exer, levels=c("None","Some","Freq"))

I m <- cbind(exer, smoke)

I on refait une petite matrice

I

cor(m, method="kendall", use="pairwise")

I On utilise pairwise sinon les NA causent un résultat NA

I La corrélation est donc le chiﬀre hors de la diag princ.