Tests statistiques

(1)

Tests statistiques

M1 IMSV

Etienne Birmel´ e

(2)

I. TESTS STATISTIQUES :PRINCIPE

(3)

Test

Definition

Un test statistique est une proc´ edure de d´ ecision entre deux hypoth` eses concernant un ou plusieurs ´ echantillons.

Exemple : On consid` ere deux s´ eries de personnes soumises les unes ` a un m´ edicament, les autres ` a un placebo. On mesure les tensions art´ erielles dans les deux groupes.

Au vu des r´ esultats, le m´ edicament a-t-il un effet sur la tension ?

(4)

Hypoth` eses

D´ efinition

L’hypoth` ese nulle not´ ee H

0

est celle que l’on consid` ere vraie ` a priori. Le but du test est de d´ ecider si cet ` a priori est cr´ edible.

L’hypoth` ese alternative not´ ee H

1

est l’hypoth` ese compl´ ementaire de H

0

.

Exemple : Sous H

0

, le m´ edicament n’a pas d’influence, sous H

1

il en a une.

(5)

Hypoth` eses

D´ efinition

L’hypoth` ese nulle not´ ee H

0

est celle que l’on consid` ere vraie ` a priori. Le but du test est de d´ ecider si cet ` a priori est cr´ edible.

L’hypoth` ese alternative not´ ee H

1

est l’hypoth` ese compl´ ementaire de H

0

. Exemple : Sous H

0

, le m´ edicament n’a pas d’influence, sous H

1

il en a une.

Attention

I

Les deux hypoth` eses ne sont pas sym´ etriques. H

1

est choisie uniquement par d´ efaut si H

0

n’est pas consid´ er´ ee comme cr´ edible.

I

Le choix de H

0

et de H

1

est en g´ en´ eral impos´ e par le test qu’on utilise et

ne rel` eve donc pas de l’utilisateur.

(6)

Ecriture des hypoth` eses

Soit µ

1

et µ

2

les moyennes de tension des deux populations correspondant ` a la prise de m´ edicament ou de placebo. Une mani` ere de d´ emontrer que le

m´ edicament modifie la tension est de montrer que µ

2

est diff´ erent de µ

1

. Les hypoth` eses deviennent alors

{

H

0

: les moyennes des deux populations sont

´ egales

}

et

{

H

0

: les moyennes des deux populations sont diff´ erentes

}

. On l’´ ecrit succintement sous la forme :

H

0

: µ

1

= µ

2

H

1

: µ

16=

µ

2

(7)

Ecriture des hypoth` eses

Question 1

La moyenne de la tension dans le premier groupe est de 13,4. La moyenne de la tension dans le second groupe est de 12,8.

Le m´ edicament est-il efficace ?

Question 2 (pour ceux qui ont r´ epondu oui)

Je lance six fois un d´ e, puis fais 50 pompes, puis relance six fois un d´ e. Ma premi` ere s´ erie de lancers vaut en moyenne 3,1. La seconde s´ erie vaut en moyenne 3,7.

Les pompes m’ont-elles rendues meilleur au lancer de d´ e ?

R´ eponse

On n’en sait rien ` a ce stade !

(8)

Ecriture des hypoth` eses

Question 1

La moyenne de la tension dans le premier groupe est de 13,4. La moyenne de la tension dans le second groupe est de 12,8.

Le m´ edicament est-il efficace ?

Question 2 (pour ceux qui ont r´ epondu oui)

Je lance six fois un d´ e, puis fais 50 pompes, puis relance six fois un d´ e. Ma premi` ere s´ erie de lancers vaut en moyenne 3,1. La seconde s´ erie vaut en moyenne 3,7.

Les pompes m’ont-elles rendues meilleur au lancer de d´ e ?

R´ eponse

On n’en sait rien ` a ce stade !

(9)

Ecriture des hypoth` eses

Question 1

La moyenne de la tension dans le premier groupe est de 13,4. La moyenne de la tension dans le second groupe est de 12,8.

Le m´ edicament est-il efficace ?

Question 2 (pour ceux qui ont r´ epondu oui)

Je lance six fois un d´ e, puis fais 50 pompes, puis relance six fois un d´ e. Ma premi` ere s´ erie de lancers vaut en moyenne 3,1. La seconde s´ erie vaut en moyenne 3,7.

Les pompes m’ont-elles rendues meilleur au lancer de d´ e ?

R´ eponse

On n’en sait rien ` a ce stade !

(10)

Ecriture des hypoth` eses

Attention

Les moyennes x

1

et x

2

des ´ echantillons r´ esultent d’´ echantillonnages, et ne sont donc que des estimations de µ

1

et µ

2

. Ce n’est pas parce qu’elles sont diff´ erentes que µ

1

et µ

2

le sont (et vice-versa, mais c’est rare !).

Comparer les moyennes des ´ echantillons ne peut en aucun cas suffire !

(11)

Ecriture des hypoth` eses

Attention

Les moyennes x

1

et x

2

des ´ echantillons r´ esultent d’´ echantillonnages, et ne sont donc que des estimations de µ

1

et µ

2

. Ce n’est pas parce qu’elles sont diff´ erentes que µ

1

et µ

2

le sont (et vice-versa, mais c’est rare !).

Comparer les moyennes des ´ echantillons ne peut en aucun cas suffire !

Les signes =,

6=,

> et

≤

dans l’´ ecriture succinte des hypoth` eses ne

correspondent pas ` a l’´ egalit´ e ou aux in´ egalit´ es au sens math´ ematique du terme.

Il s’agit d’une fa¸ con d’´ ecrire :

H

0

: Il est cr´ edible de penser que µ

1

= µ

2

H

1

: µ

1

est significativement diff´ erent de µ

2

(12)

Statistique

La statistique de test S est une fonction qui r´ esume l’information sur l’´ echantillon qu’on veut tester. On la choisit de fa¸ con ` a pouvoir calculer sa loi sous H

0

.

I

S est une variable al´ eatoire, d´ efinie ind´ ependemment des donn´ ees observ´ ees. La valeur que prend cette variable al´ eatoire pour les donn´ ees observ´ ees sera appel´ ee statistique observ´ ee et not´ ee S

obs

dans la suite.

I

Suivant le type de statistique choisi, le test sera param´ etrique ou

non-param´ etrique.

(13)

R´ egion de rejet - Lat´ eralit´ e

D´ efinition

La r´ egion de rejet est le sous-ensemble

I

de

R

tel qu’on rejette H

0

si S

obs

appartient ` a

I.

D´ efinir une proc´ edure de test peut donc se faire en d´ efinissant

1.

une statistique

2.

une r´ egion de rejet pour cette statistique

Exemple : Les test m´ edicaux figurant sur une prise de sang, comme le taux de fer.

H

0

: La ferritine est entre 20 et 300µg /L

H

1

: La ferritine est trop haute ou trop basse

(14)

R´ egion de rejet - Lat´ eralit´ e

D´ efinition

La r´ egion de rejet est le sous-ensemble

I

de

R

tel qu’on rejette H

0

si S

obs

appartient ` a

I.

La forme de la r´ egion de rejet d´ efinit la lat´ eralit´ e du test :

I

test multilat´ eral : On veut rejetter H

0

si S

obs

est trop grand ou trop petit, sans ` a priori. La r´ egion de rejet est alors de la forme ]

− ∞,

a]

∪

[b, +∞[.

I

test unilat´ eral ` a droite : On veut rejetter H

0

seulement si S

obs

est trop grand. La r´ egion de rejet est alors de la forme [a, +∞[.

I

test unilat´ eral ` a gauche : On veut rejetter H

0

seulement si S

obs

est trop

petit. La r´ egion de rejet est alors de la forme ]

− ∞,

b ].

(15)

Exemples

On consid` ere toujours des m´ edicaments r´ eduisant la tension art´ erielle. Quelles sont les hypoth` eses pour r´ epondre aux questions suivantes ?

I

Comparaison entre deux m´ edicaments en vente

H

0

: µ

1

= µ

2

H

1

: µ

16=

µ

2

I

Int´ erˆ et d’un nouveau m´ edicament plus cher que l’existant.

H

0

: µ

new≥

µ

old

H

1

: µ

new

< µ

old

I

Int´ erˆ et d’un nouveau m´ edicament moins cher que l’existant.

H

0

: µ

new≤

µ

old

H

1

: µ

new

> µ

old

(16)

Exemples

On consid` ere toujours des m´ edicaments r´ eduisant la tension art´ erielle.

I

Comparaison entre deux m´ edicaments en vente H

0

: µ

1

= µ

2

H

1

: µ

16=

µ

2

I

Int´ erˆ et d’un nouveau m´ edicament plus cher que l’existant.

H

0

: µ

new≥

µ

old

H

1

: µ

new

< µ

old

I

Int´ erˆ et d’un nouveau m´ edicament moins cher que l’existant.

H

0

: µ

new≤

µ

old

H

1

: µ

new

> µ

old

(17)

Probabilit´ e critique D´ efinition

La probabilit´ e critique (ou

p-valeur) est la probabilit´

e, sous H

0

, que la

statistique soit au moins aussi ´ eloign´ ee de son esp´ erance que la valeur observ´ ee.

En d’autres termes, c’est la probabilit´ e d’observer quelque chose d’au moins aussi surprenant que ce que l’on observe.

I

Si le test est unilat´ eral ` a droite, la probabilit´ e critique est

P

(S > S

obs

).

S

_obs

(18)

Probabilit´ e critique D´ efinition

La probabilit´ e critique (ou

e, sous H

0

, que la

statistique soit au moins aussi ´ eloign´ ee de son esp´ erance que la valeur observ´ ee.

En d’autres termes, c’est la probabilit´ e d’observer quelque chose d’au moins aussi surprenant que ce que l’on observe.

I

Si le test est unilat´ eral ` a gauche, la probabilit´ e critique est

P

(S < S

obs

).

S

_obs

(19)

Probabilit´ e critique D´ efinition

La probabilit´ e critique (ou

e, sous H

0

, que la

statistique soit au moins aussi ´ eloign´ ee de son esp´ erance que la valeur observ´ ee.

En d’autres termes, c’est la probabilit´ e d’observer quelque chose d’au moins aussi surprenant que ce que l’on observe.

I

Si le test est bilat´ eral et que la loi de la statistique est sym´ etrique par rapport ` a 0, la probabilit´ e critique est

P

(|S| >

|Sobs|).

S

_obs

(20)

Risque de premi` ere esp` ece ou confiance

D´ efinition

Le risque de premi` ere esp` ece

α

est la probabilit´ e sous H

0

de la r´ egion de rejet.

En d’autres termes, il s’agit de la proabilit´ e avec laquelle on accepte de d´ ecider H

1

si la v´ erit´ e est H

0

.

α =

P^H0

(H

1

) La quantit´ e 1

−

α est la confiance du test.

En d’autres termes, une proportion α des situations dans lesquelles la v´ erit´ e est H

0

verront une d´ ecision en faveur de H

1

.

α

est la probabilit´ e avec laquelle on accepte de se tromper quand la v´ erit´ e est

H0

(21)

Autre mani` ere de mener le test

On peut comparer la p-valeur ` a α plutˆ ot que S

obs

et la r´ egion de rejet.

I

si la p-valeur est sup´ erieure ` a α, il n’est pas exceptionnel sous H

0

d’observer la valeur effectivement observ´ ee. Par cons´ equent, H

0

est accept´ ee.

I

si la p-valeur est inf´ erieure ` a α, la valeur observ´ ee est jug´ ee exceptionnelle sous H

0

. On d´ ecide alors de rejeter H

0

et de valider H

1

.

Acceptation

Seuil 5%

S

_obs

(22)

Autre mani` ere de mener le test

On peut comparer la p-valeur ` a α plutˆ ot que S

obs

et la r´ egion de rejet.

I

si la p-valeur est sup´ erieure ` a α, il n’est pas exceptionnel sous H

0

d’observer la valeur effectivement observ´ ee. Par cons´ equent, H

0

est accept´ ee.

I

si la p-valeur est inf´ erieure ` a α, la valeur observ´ ee est jug´ ee exceptionnelle sous H

0

. On d´ ecide alors de rejeter H

0

et de valider H

1

.

Rejet

Seuil

5%

S

_obs

(23)

Autre mani` ere de mener le test

On peut comparer la p-valeur ` a α plutˆ ot que S

obs

et la r´ egion de rejet.

I

si la p-valeur est sup´ erieure ` a α, il n’est pas exceptionnel sous H

0

d’observer la valeur effectivement observ´ ee. Par cons´ equent, H

0

est accept´ ee.

I

si la p-valeur est inf´ erieure ` a α, la valeur observ´ ee est jug´ ee exceptionnelle sous H

0

. On d´ ecide alors de rejeter H

0

et de valider H

1

.

Avantage

Cette m´ ethode permet de se rendre compte ` a quel point on est sur de sa d´ ecision : la position de la p-valeur par rapport ` a α ne d´ epend pas de l’´ echelle des donn´ ees, contrairement ` a S

obs

et au(x) seuil(s) de la r´ egion de rejet.

Exemple : Si on a fix´ e α = 0.05, une p-valeur de 3.10

⁻⁴

est clairement un rejet,

alors qu’une p-valeur de 0.03 est un rejet ’de peu’ qu’il faudra nuancer au

moment de l’interpr´ etation.

(24)

Risque de premi` ere esp` ece ou confiance

I

Hormis dans des cas de tests multiples non abord´ es dans ce cours, α varie g´ en´ eralement entre 0, 01 et 0, 05.

I

Dans le cas de variables continues, on peut choisir une valeur arbitraire de α et obtenir une r´ egion de rejet pr´ esentant exactement le risque α.

I

Dans le cas de variables discr` etes, le nombre de r´ egions de rejet, et donc

de risques, possibles est fini ou d´ enombrable. Dans ce cas, on fixe un

risque, dit risque nominal, par exemple de 5%. On cherche alors la plus

grande r´ egion ne d´ epassant pas ce risque, qui devient la r´ egion de rejet. Le

v´ eritable risque, dit risque r´ eel, peut alors ˆ etre recalcul´ e.

(25)

Risque de deuxi` eme esp` ece ou puissance

D´ efinition

Le risque de deuxi` eme esp` ece

β

est la probabilit´ e d’accepter H

0

alors que la v´ erit´ e est H

1

.

β =

P^H1

(H

0

) La quantit´ e 1

−

β est la puissance du test.

V´erit´e

H

0

H

1

D´ecision

H

0

1-α

β

H

1 α

1-β

(26)

Choix de α et β

H

₀

H

₁

S β α

Si l’´ echantillon reste inchang´ e, une diminution de α entraˆıne une augmentation de β et inversement. Autrement dit, si on d´ ecide de r´ eduire le nombre de faux positifs, on augmente forc´ ement le nombre de faux n´ egatifs.

La seule mani` ere d’am´ eliorer les deux crit` eres est d’augmenter la taille de

l’´ echantillon.

(27)

Choix de α et β

H

₀

H

₁

S β α

Si l’´ echantillon reste inchang´ e, une diminution de α entraˆıne une augmentation de β et inversement. Autrement dit, si on d´ ecide de r´ eduire le nombre de faux positifs, on augmente forc´ ement le nombre de faux n´ egatifs.

La seule mani` ere d’am´ eliorer les deux crit` eres est d’augmenter la taille de

l’´ echantillon.

(28)

Courbe de puissance

I

Pour d´ eterminer la puissance, il faut connaˆıtre la lois de S sous H

1

, ce qui n’est g´ en´ eralement pas le cas.

I

On recourt alors ` a des courbes de puissance qui sont des courbes pour laquelle la puissance est calcul´ ee pour des valeurs donn´ ees des param` etres du probl` eme ou de la taille de l’´ echantillon.

On ne sait pas o` u se situe la situation r´ eelle sur cette courbe mais on y lit la probabilit´ e de d´ etecter H

1

en fonction de son ’´ eloignement’ de H

0

. Exemple : Courbe de puissance d’un test de Student bilat´ eral sur 100 individus en fonction de mu[2]

−

mu[1] (en supposant que σ

1

= σ

2

= 1).

0.0 0.5 1.0 1.5

0.0 1.0

(29)

Principe du test

Les ´ etapes d’un test sont toujours r´ ealis´ ees dans l’ordre suivant :

1)

Choix du risque α

2)

Choix du type de test et de sa lat´ eralit´ e si besoin

3)

Calcul de la statistique de test

4)

Calcul de la p-valeur

5)

Conclusion

En pratique, l’utilisation d’un logiciel type R permet de ne pas se soucier des

partie 3) et 4). Par contre, les choix li´ ees aux ´ etapes 1) et 2) ainsi que

l’interpr´ etation finale ne peuvent ˆ etre faits par le logiciel.

(30)

Remarques sur les tests

I Le r´esultat d’un test comprend toujours une dose d’incertitude : ON NE SAIT JAMAIS SI ON A BIEN PRIS LA BONNE DECISION !

I

La probabilit´ e critique permet d’avoir une vision plus fine que sa simple

comparaison avec α. En effet, plus elle est petite, plus l’´ ev` enement observ´ e

est surprenant sous H

0

. Ainsi, pour α = 0.5, des probabilit´ es critiques de

10

⁻⁶

et de 0.35 impliquent le rejet de H

0

mais avec des degr´ es de

certitude diff´ erent concernant la d´ ecision.

(31)

Tests param´ etriques et non param´ etriques

D´ efinition : test param´ etrique

Un test param´ etrique est un test pour lequel on fait une hypoth` ese sur la forme des donn´ ees sous H

0

(normale, Poisson, ...). Les hypoth` eses du test concernant alors les param` etres gouvernant cette loi.

Exemple : On suppose que la tension sous m´ edicament suit une loi

N

(µ

1

, σ

1

) et celle sous placebo suit une loi

N

(µ

2

, σ

2

).

H

0

: µ

1

= µ

2

H

1

: µ

16=

µ

2

S = x

1−

x

2

σ

q1

n

+

_m¹

o` u σ =

s

(n

−

1) ˆ σ

12

+ (m

−

1) ˆ σ

22

n + m

−

2 La loi de S sous H

0

est connue (loi de Student)

(32)

Tests param´ etriques et non param´ etriques

D´ efinition : test non-param´ etrique

Un test non param´ etrique est un test ne n´ ecessitant pas d’hypoth` ese sur la forme des donn´ ees. Les donn´ ees sont alors remplac´ ees par des statistiques ne d´ ependant pas des moyennes/variances des donn´ ees initiales (tables de contingence, statistique d’ordre ...).

Exemple : on classe les tensions de tous les individus par ordre croissant et on regarde comment sont class´ es les personnes sont m´ edicaments. On obtient par exemple

M M P M M P M P P M P P

S est alors la somme des rangs des individus sous m´ edicaments. On peut

d´ eterminer sa loi sous H

0

.

(33)

Tests param´ etriques et non param´ etriques

Lequel choisir ?

I

Les tests param´ etriques, quand leur utilisation est justifi´ ee, sont en g´ en´ eral plus puissants que les tests non-param´ etriques.

I

Les tests param´ etriques reposent cependant sur l’hypoth` ese forte que l’´ echantillon consid´ er´ e est tir´ e suivant une distribution appartenant ` a une famille donn´ ee. Il est possible de s’en affranchir pour des ´ echantillons suffisament grands en utilisant des th´ eor` emes asymptotiques tels le TCL.

Lese tests non-param´ etriques sont cependant ` a pr´ ef´ erer dans de nombreux cas pratiques pour lesquels les tests param´ etriques ne peuvent ˆ etre utilis´ es sans violer les postulats dont ils d´ ependent (notamment les ´ echantillons trop petits).

I

Les donn´ ees sont parfois r´ ecup´ er´ es sous forme de rangs et non de donn´ ees

brutes. Seuls les tests non-param´ etriques sont alors applicables.

(34)

Tests param´ etriques et non param´ etriques Efficacit´ e relative asymptotique

On fixe une confiance 1

−

α , une puissance 1

−

β. Soit

Hk

une suite d’hyptoh` eses alternatives (se rapprochant de

H0

) et n

1k

et n

2k

les tailles d’´ echantillons n´ ecessaires pour que T

1

et T

2

aient la puissance β sous l’hypoth` ese

Hk

. Sous certaines conditions de r´ egularit´ e, le quotient

ⁿ_n^2k

1k

tend vers une constante, l’ARE, quand k tend vers l’infini.

Un ARE de 2 signifie que pour d´ etecter la mˆ eme diff´ erence, il faut

asymptotiquement des ´ echantillons deux fois plus grands pour T

2

que pour T

1

pour obtenir la mˆ eme puissance, impliquant que T

1

est plus ’efficace’. Cette mesure est asymptotique mais en pratique, l’efficacit´ e pour des petits

´ echantillons se r´ ev` ele souvent proche de l’efficacit´ e asymptotique.

Consid´ erons l’exemple o` u T

1

est le test du signe pour H

0

: m = 0 et T

2

le test t pour H

0

: µ = 0, dans le cas de distributions sym´ etriques. On peut montrer que l’ARE est inf´ erieure est de

_π²

< 1 pour des distributions normales mais sup´ erieure ` a 1 pour d’autres ditributions comme les double exponentielle ou les distributions de Laplace.

Mˆ eme en cas de validit´ e des tests param´ etriques, les tests non-param´ etriques peuvent donc ˆ etre concurrentiels, d’autant plus que la puissance de calcul des ordianteurs actuels permet maintenant leur utilisation sur de grands

´ echantillons.

(35)

II. TESTS DE COMPARAISON

DE MEDIANES

(36)

I.1 Un ´ echantillon : Test de Student

(37)

Test param´ etrique d’´ egalit´ e de la moyenne avec une valeur pr´ ed´ efinie : Test de Student

Donn´ ees

Un ´ echantillon

x

= (x

1

, . . . , x

n

), une valeur µ

0

Question

La moyenne µ de la population dont

x

est issu est-elle significativement diff´ erente de µ

0

.

Postulat

La loi de la population est une loi normale ou

x

est suffisamment grand pour

appliquer le TCL.

(38)

Test param´ etrique d’´ egalit´ e de la moyenne : Test de Student Formulation

H

0

: µ = µ

0

H

1

: µ

6=

µ

0

Ce test peut ˆ etre men´ e de mani` ere unilat´ erale.

Statistique

La statistique de Student est d´ efinie par t = µ ˆ

−

µ

0

ˆ σ/

√

n

Sous H

0

, t suit une loi de Student ` a n

−

1 degr´ es de libert´ e.

Sous R

t.test en utilisant les param` etres x pour l’´ echantillon et mu pour la valeur

de µ

0

.

(39)

I.2 Un ´ echantillon : Test du signe

(40)

Test non-param´ etrique d’´ egalit´ e de la m´ ediane avec une valeur pr´ ed´ efinie : Test du signe

Donn´ ees

Un ´ echantillon

x

= (x

1

, . . . ,

xn

), une valeur m

0

Question

La m´ ediane m de la population dont

x

est issu est-elle significativement diff´ erente de m

0

.

Postulat

Aucun

(41)

Test du signe

Formulation

H

0

: m = m

0

H

1

: m

6=

m

0

Ce test peut ˆ etre men´ e de mani` ere unilat´ erale.

Statistique

On associe un signe + aux valeurs sup´ erieures ` a m

0

et un signe

−

aux valeurs inf´ erieures ` a m

0

, et on note N

⁺

le nombre de +.

Sous H

0

, chaque valeur de l’´ echantillon a une probabilit´ e

¹₂

d’ˆ etre sup´ erieure ` a

m

0

. N

⁺

suit donc une loi binimiale

B(n,¹₂

).

(42)

Test du signe

Cas d’´ egalit´ e

Il est possible que certaines valeurs de l’´ echantillon soient ´ egales ` a m

0

.

Plusieurs strat´ egies sont possibles, les principales ´ etant a) d’ignorer ces valeurs ; b) de les affecter par tirage au sort ´ equiprobable ; c) de leur affecter le signe minoritaire afin d’obtenir un test conservatif.

Approximation normale

Pour les grands ´ echantillons (n>30), on peut utiliser la statistique Z = N

⁺−¹₂

n

1 2

√

n qui suit une loi normale centr´ ee r´ eduite.

Une correction de continuit´ e peut s’av´ erer n´ ecessaire dans ce cas.

(43)

Exemple

Le nombre d’observations de sanglier par an et par poste d’observation a une m´ ediane de 50 lorsque la population est normale. L’´ echantillon suivant repr´ esente les observations de l’ann´ ee. A-t-il une m´ ediane significativement diff´ erente de 50 ?

> betes <- c(29,12,62,64,43,21,35,89,8,32,47,61) On applique un test du signe bilat´ eral ` a un niveau de 5% :

H

0

: m = 50 H

1

: m

6= 50

> Npos <- sum(betes>50)

> Nneg <- sum(betes<50)

Sous H

0

, N

⁺∼ B(12,

0.5) et cette loi est sym´ etrique. La p-valeur vaut donc 2

P

(N

⁺≤

4)

> 2* pbinom(4,12,.5,lower.tail=TRUE) [1] 0.3876953

On accepte H

0

: il n’y pas de raison de penser que la population a un niveau

anormal.

(44)

Exemple, suite

On suppose maintenant que les donn´ ees de cinquante postes d’observations sont collect´ ees et que 15 d’entre eux ont donn´ ee lieu ` a 50 observations ou plus.

On applique toujours un test du signe bilat´ eral ` a un niveau de 5% : H

0

: m = 50

H

1

: m

6= 50

Le nombre d’observation nous permet de faire une approximation normale.

> Zobs <- (15-25)/(sqrt(50)/2)

> 2*pnorm(Zobs,0,1) [1] 0.004677735

Cette fois, on rejette H

0

` a un niveau de 5% : la population souffre d’une

anomalie.

(45)

Variantes

Test d’´ equiprobabilit´ e de deux ´ ev` enements

La proc´ edure est exactement la mˆ eme, un des ´ ev` enements correspondant au signe

−, l’autre au signe

+.

Test d’un quantile

Soit q

α

le quantile d’ordre α de l’´ echantillon et q une valeur fix´ ee. On peut g´ en´ eraliser le test du signe au probl` eme

H

0

: q

α

= q H

1

: q

α6=

q

Il suffit pour cela d’assigner un signe

−

aux valeurs inf´ erieures ` a q, un signe +

aux valeurs sup´ erieures ` a q et de consid´ erer le nombre de signe

−

qui suit sous

H

0

une loi binomiale

B(n,

q).

(46)

Variantes

Test d’´ equiprobabilit´ e de deux ´ ev` enements

La proc´ edure est exactement la mˆ eme, un des ´ ev` enements correspondant au signe

−, l’autre au signe

+.

Test d’un quantile

Soit q

α

le quantile d’ordre α de l’´ echantillon et q une valeur fix´ ee. On peut g´ en´ eraliser le test du signe au probl` eme

H

0

: q

α

= q H

1

: q

α6=

q

Il suffit pour cela d’assigner un signe

−

aux valeurs inf´ erieures ` a q, un signe +

aux valeurs sup´ erieures ` a q et de consid´ erer le nombre de signe

−

qui suit sous

H

0

une loi binomiale

B(n,

q).

(47)

Variantes

Test du signe pour une tendance : test de Cox et Stuart

I

Tendance ` a la hausse ou ` a la baisse dans un ´ echantillon d’observations ind´ ependantes ordonn´ ees ?

H

0

: Pas de tendance H

1

: Tendance significative

I

Dans le cas d’un ´ echantillon pair n = 2m , les diff´ erences

(x

m+1−

x

1

, . . . , x

2m−

x

m

) sont calcul´ ees et leur signe est gard´ e en m´ emoire. Pour n = 2m + 1, on proc` ede de mˆ eme en ´ eliminant la valeur x

m+1

. Sous H

0

, le nombre de signes

−

suit une loi

B(m,¹₂

.

I

Test unilat´ eral : hausse (ou baisse) uniquement.

I

Moins puissant que les tests li´ es au mod` ele lin´ eaire, mais sans postulat

d’´ evolution lin´ eaire.

(48)

I.3 Un ´ echantillon : Test des rangs sign´ es de Wilcoxon

(49)

Statistique du rang Definition : rang

Soit

X

un vecteur al´ eatoire. Le rang R

i

de la variable X

i

est l’ordre de cette derni` ere quand on r´ eordonne

X

par ordre croissant.

Exemple :

X = (15, 6, 23, 17, 8), R = (3, 1, 5, 4, 2)

sous R

La fonction rank donne l’´ echantillon des rangs

La fonction order donne la place dans l’´ echantillon du minimum, puis de la deuxi` eme plus petite valeur, ...

> x <- c(15,6,23,17,8)

> rank(x) [1] 3 1 5 4 2

> order(x) [1] 2 5 1 4 3

> x[order(x)]

[1] 6 8 15 17 23

(50)

Cas absolument continu

Si la loi des X

i

est absolument continue, la probabilit´ e d’avoir des ex-aequos est nulle.

Proposition

Pour tout k , 1

≤

i

1

< . . . < i

k ≤

n et 1

≤

j

1

< . . . < j

k

= n),

P

(R

i₁

, . . . , R

i_k

) = (j

1

, . . . , j

k

)

= (n

−

k )!

n!

Proposition

E

(R

i

) =

ⁿ⁺¹₂

et VarR

i

=

ⁿ²₁₂⁻¹

(51)

Cas des ex-aequo

Definition : rang avec ex-aequos

Soit

X

un vecteur al´ eatoire dont les coordonn´ ees sont iid. Soit t le nombre de variables prenant la mˆ eme valeur que X

i

. L’ordre R

i

de X

i

est la moyenne arithm´ etique des ordres des t variables concern´ ees quand on r´ eordonne

X

par ordre croissant.

Exemple : Pour

X

= (9, 7, 5, 7, 4, 5, 5), R = (7, 5.5, 3, 5.5, 1, 3, 3).

(52)

Cas des ex-aequo

Definition : rang avec ex-aequos

Soit

X

un vecteur al´ eatoire dont les coordonn´ ees sont iid. Soit t le nombre de variables prenant la mˆ eme valeur que X

i

. L’ordre R

i

de X

i

est la moyenne arithm´ etique des ordres des t variables concern´ ees quand on r´ eordonne

X

par ordre croissant.

Exemple : Pour

X

= (9, 7, 5, 7, 4, 5, 5), R = (7, 5.5, 3, 5.5, 1, 3, 3).

Soit t

l

le nombre de valeurs ayant le l

^ime

rang (dans l’exemple, t

1

= 1, t

2

= 3, t

3

= 2, t

4

= 1) et T =

P

l

t

_l²

(t

l−

1).

Proposition

E

(R

i

) =

ⁿ⁺¹₂

et VarR

i

=

ⁿ²₁₂⁻¹−^E(T)_12n

(53)

Test des rangs sign´ es de Wilcoxon

Donn´ ees

Un ´ echantillon

x

= (x

1

, . . . ,

xn

), une valeur m

0

Question

La m´ ediane m de la population dont

x

est issu est-elle significativement diff´ erente de m

0

?

Postulat

Le test n´ ecessite de faire l’hypoth` ese d’une distribution sym´ etrique.

Ce postulat implique que m´ ediane et moyenne sont confondues.

(54)

Test des rangs sign´ es de Wilcoxon

Formulation

H

0

: m = m

0

H

1

: m

6=

m

0

Ce test peut ˆ etre men´ e de mani` ere unilat´ erale.

Sous R

Fonction wilcox.test

(55)

Test des rangs sign´ es de Wilcoxon

Statistique

On pose

D

=

X−

m

0

puis on calcule les rangs

R

du vecteurs

|D|

= (|D

1|, . . . ,|Dn|. Les statistiques d’interˆ

et sont alors S

⁺

=

P

i,D_i>0

R

i

et S

⁻

=

P

i,D_i<0

R

i

. Exemple :

Si

X^t

= (1, 5, 10, 12, 0, 8) et m

0

= 7,

D^t

= (−6,

−2,

3, 5,

−7,

1) et

R^t

= (5, 2, 3, 4, 6, 1). Une autre mani` ere de l’´ ecrire est de r´ eordonner

D

suivant les valeurs absolues croissantes, c’est-` a-dire 1,

−2,

3, 5,

−6,−7.

On obtient donc S

⁺

= 1 + 3 + 4 = 8 et S

⁻

= 2 + 5 + 6 = 13.

(56)

Test des rangs sign´ es de Wilcoxon

On a toujours S

⁺

+ S

⁻

=

ⁿ⁽ⁿ⁺¹⁾₂

, s’int´ eresser ` a l’une des variables suffit donc.

Le test s’´ ecrit alors (dans le cas bilat´ eral)

H

0

:

E

S

⁺

=

E

S

⁻

= n(n + 1) 4 H

1

:

E

S

⁺6=

n(n + 1)

4 Proposition

Sous l’hypoth` ese H

0

et en supposant que de X est absolument continue (pas d’ex-aequos),

VarS

⁺

= n(n + 1)(2n + 1)

24 et

P

(S

⁺

= k = c

kn

2

ⁿ

) o` u c

kn

est le coefficient de t

^k

dans

Qn

k=1

(1 + t

^k

).

(57)

Approximation pour les grands ´ echantillons

Dans le cas de grands ´ echantillons (n > 20), l’utilisation du TCL permet d’utiliser la statistique

Z = S

⁺−ⁿ⁽ⁿ⁺¹⁾₄ qn(n+1)(2n+1)

24

dont la loi peut ˆ etre approch´ ee par une loi normale centr´ ee r´ eduite.

(58)

Cas des ex-aequos

I

d le nombre de valeurs ´ egales ` a m

0 I

t

l

introduits pr´ ec´ edemment

Pour des grands ´ echantillons, l’approximation normale peut alors ˆ etre utilis´ ee en rempla¸ cant la variance par

n(n + 1)(2n + 1)

24

−

d(d + 1)(2d + 1)

24

−X

l

t

_l³−

t

l

48

(59)

Exemple (P. Sprent)

Reprenons l’exemple du nombre d’animaux observ´ es, un total de 35 postes ayant ´ et´ e pris en compte

21 17 43 81 32 102 7 43 39 11 67 23 142 117 44 39 82 93 28 145 0 17 77 53

50 60 9 14 40 19 101 104 33 2 22

(60)

Exemple (P. Sprent)

L’´ echantillon modifi´ e devient

0 3

−6 −7 −7 −10

10

−11 −11 −17

17

−18

−22 −27

27

−28 −29 −31

31 32

−33 −33 −36 −39

−41

43

−43 −48 −50

51 52 54 67 92 95 La statistique S

⁺

vaut alors 293, d = 1 et il y 7 paires d’ex-aequo donc

P

l t_l³−t_l

48

= 7

⁸⁻²₄₈

.

La p-valeur est de 0.61. H

0

est accept´ e.

(61)

I.4 Tests param´ etriques pour deux ´ echantillons :

Fisher-Snedecor et Student

(62)

Test d’´ egalit´ e des variances : test de Fisher

Hypoth` eses

On dispose de deux ´ echantillons d’´ ecart-types respectifs σ ˆ

1

et σ ˆ

2

. On se demande s’il est raisonnable de penser que les deux ´ echantillons ont ´ et´ e tir´ es suivant des lois de mˆ eme ´ ecart-type ou si ils sont significativement diff´ erents.

H

0

: σ

1

= σ

2

H

1

: σ

16=

σ

2

Statistique F =

^σ_σ^ˆ_ˆ¹²

22

suit une loi de Fisher

Fn₁,n₂

sous H

0

. Lat´ eralit´ e - R´ egion de rejet

Les trois options ´ enonc´ ees au chapitre pr´ ec´ edent sont possibles : rejet unilat´ eral

` a droite, ` a gauche ou bilat´ eral.

Sous R

var.test

(63)

Comparaison de la moyenne de deux ´ echantillons : t-test ou test de Student

Hypoth` eses

On dispose de deux ´ echantillons de moyennes respectives µ

1

et µ

2

et d’´ ecart-type respectifs σ

1

et σ

2

. On se demande s’il est raisonnable de penser que les deux ´ echantillons ont ´ et´ e tir´ es suivant des lois de mˆ eme esp´ erance ou si leurs moyennes sont significativement diff´ erentes.

H

0

: µ

1

= µ

2

H

1

: µ

16=

µ

2

(64)

Comparaison de la moyenne de deux ´ echantillons : t-test ou test de Student

Statistique

La valeur de la statistique peut prendre quatre expressions diff´ erentes suivants les crit` eres suivants :

appariement

les ´ echantillons sont appari´ es ou non.

´egalit´e des variances

les variances sont significativement diff´ erentes (h´ et´ erosc´ edasticit´ e) ou pas (homosc´ edasticit´ e).

Toutes ces statistiques reposent en fait sur le mˆ eme principe qui est de d´ ependre essentiellement de la diff´ erence µ

1−

µ

2

, normalis´ ee par une quantit´ e permettant d’obtenir une variable de loi de Student sous H

0

.

Par exemple, dans le cas d’´ echantillons non appari´ es, de variance non significativement diff´ erentes, et de taille respectives n et m ,

t = µ

1−

µ

2

σ

q1

n

+

_m¹

o` u

σ =

s

(n

−

1) ˆ σ

12

+ (m

−

1) ˆ σ

22

n + m

−

2

(65)

Comparaison de la moyenne de deux ´ echantillons : t-test ou test de Student

Lat´ eralit´ e - R´ egion de rejet

Les trois options ´ enonc´ ees au chapitre pr´ ec´ edent sont possibles : rejet unilat´ eral

` a droite, ` a gauche ou bilat´ eral.

Sous R

t.test en utilisant les param` etres x et y pour les deux ´ echantillons, alternative pour le lat´ eralit´ e, paired pour l’appariement ou non des

´ echantillons et var.equal pour l’´ egalit´ e des variances.

(66)

Exemple

Pour n grand et p petit, la loi binˆ omiale

B(n,

p) peut etre approxim´ ee par la loi de Poisson

P(np).

> x <- rbinom(100,100,.05)

> y <- rpois(100,5)

> var.test(x,y)

F test to compare two variances data: x and y

F = 1.1054, num df = 99, denom df = 99, p-value = 0.6192

alternative hypothesis: true ratio of variances is not equal to 1 95 percent confidence interval:

0.7437349 1.6428291 sample estimates:

ratio of variances 1.105364

>

(67)

Exemple

Pour n grand et p petit, la loi binˆ omiale

B(n,

p) peut etre approxim´ ee par la loi de Poisson

P(np).

> x <- rbinom(100,100,.05)

> y <- rpois(100,5)

> t.test(x,y,alternative="two.sided",paired=FALSE,var.equal=TRUE)

Two Sample t-test data: x and y

t = -0.51623, df = 198, p-value = 0.6063

alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval:

-0.7230104 0.4230104 sample estimates:

mean of x mean of y

4.93 5.08

(68)

I.5 Test non-param´ etrique pour deux ´ echantillons :

Test de Wilcoxon-Mann-Whitney

(69)

Appariement

Deux ´ echantillons

x

= (x

1

, . . . , x

n

) et

y

= (y

1

, . . . , y

n

) sont appari´ es si ils correspondent ` a des mesures prises sur les mˆ emes individus dans des conditions diff´ erentes.

Tester l’´ egalit´ e de leurs m´ edianes revient alors ` a consid´ erer l’´ echantillon des diff´ erences

x−y

et ` a tester si la m´ ediane de cet ´ echantillon est bien nulle

⇒

test du signe ou des rangs sign´ es de Wilcoxon.

On suppose par la suite que les deux ´ echantillons sont non appari´ es.

(70)

Test de Wilcoxon-Mann-Whitney

Donn´ ees

Deux ´ echantillons

x

= (x

1

, . . . ,

xn₁

) et

y

= (y

1

, . . . ,

yn₂

).

Question

La m´ ediane m

1

de la population dont

x

est issu est-elle significativement diff´ erente de la m´ ediane m

2

de la population dont

y

est issu ?

Postulat

Le test n´ ecessite de faire l’hypoth` ese que les distributions sont identiques ` a une

translation pr` es.

(71)

Test de Wilcoxon-Mann-Whitney

Formulation

H

0

: m

1

= m

2

H

1

: m

16=

m

2

Ce test peut ˆ etre men´ e de mani` ere unilat´ erale.

Sous R

Fonction wilcox.test

(72)

Test de Wilcoxon-Mann-Whitney

Statistique

On ordonne l’´ echantillon obtenu en concat´ enant les deux ´ echantillons d’interˆ et.

On note S

i

la somme des rangs de l’´ echantillon i . L’id´ ee est que sous H

0

, S

1

et S

2

devraient ˆ etre proche l’un de l’autre et de

⁽ⁿ¹⁺ⁿ²⁾⁽ⁿ₂¹⁺ⁿ²⁺¹⁾

.

L’approche de Wilcoxon consid` ere S

1

ou S

2

comme statistique. Celle de Mann-Whitney consid` ere l’une des statistiques U

i

= S

i−ⁿⁱ⁽ⁿ₂ⁱ⁺¹⁾

.

Les lois des S

i

et U

i

peuvent ˆ etre calcul´ ees explicitement pour des n

i

petits et

sont tabul´ ees dans les logiciels de statistique.

(73)

Test de Wilcoxon-Mann-Whitney

Exemple :

x

= (4,

6,2),y

= (1,

3,8,9)

L’appartenance aux ´ echantillons dans l’´ echantillon concat´ en´ e ordonn´ e est (y,

x,y,x,x,y,y).

On a alors S

x

= 2 + 4 + 5 = 11 et U

x

= 11

−^3×4₂

= 5

U

1

peut ˆ etre calcul´ e en prenant chacune des valeurs de l’´ echantillon 2 et en

regardant combien de valeurs de l’´ echantillon 1 lui sont sup´ erieures, puis en

sommant les r´ esultats obtenus.

(74)

Approximation pour les grands ´ echantillons

Soit U = min(U

1

, U

2

).

Pour n

1

et n

2

tous deux sup´ erieurs ` a 20, il est raisonnable de consid´ erer que Z = U +

¹₂ −¹₂

n

1

n

2

p

(n

1

+ n

2

)(n

1

+ n

2

+ 1)/12 suit une loi normale centr´ ee r´ eduite.

Cas d’ex-aequos

Les rangs des ex-aequos sont remplac´ es par leurs rangs moyens comme dans le chapitre pr´ ec´ edent. Si le nombre d’ex-aequos est tr` es faible, ils peuvent ˆ etre n´ eglig´ es. Sinon, il faut modifier l’approximation pour les grands ´ echantillons en retranchant au terme sous la racine du d´ enominateur la quantit´ e

X

(t

l³−

t

l

) n

1

n

2

12(n

1

+ n

2

)(n

1

+ n

2−

1)

(75)

Autre possibilit´ e : g´ en´ eralisation du test du signe

Soit m

0

la m´ ediane de l’´ echantillon concat´ en´ e. On dresse le tableau de variation Echantillon 1 Echantillon 2

> m

0

a

1

a

2

< m

0

n

1−

a

1

n

2−

a

2

et on applique un test d’ind´ ependance entre les variables Echantillon et Etre inf´ erieur ` a m

0

(cf chapitres suivants).

I

Avantage : pas de postulat

I

Inconv´ enient : manque de puissance

(76)

I.6 Comparaison param´ etrique de trois ´ echantillons non appari´ es ou plus :

ANOVA

(77)

ANOVA ` a un facteur

Donn´ ees

k ´ echantillons

x1

= (x

1,1

, . . . ,

x1,n1

) et

xk

= (x

k,1

, . . . ,

xk,n_k

).

Question

Les m´ edianes µ

1

, . . . , µ

k

des populations dont sont issues les ´ echantillons sont-elles toutes ´ egales ?

Postulat

Les distributions sont normales

de variances identiques.

(78)

ANOVA ` a un facteur

Formulation

H

0

: µ

1

= µ

2

= . . . = µ

k

H

1

: Au moins une moyenne diff` ere Sous R

Fonction aov

(79)

ANOVA ` a un facteur

D´ ecomposition de la variance

p

X

j=1 n_j

X

i=1

(x

ij−

x )

²

=

p

X

j=1

(x

j−

x )

²

+

p

X

j=1 n_j

X

i=1

(x

ij−

x

j

)

²

(1)

SCT = SCE + SCR (2)

Carr´ es moyens : CMT =

^SCT_n−1

, CME =

^SCE_p−1

, CMR =

^SCR_n−p

. Statistique

F =

^CME_CMR

. Souc H

0

, F suit une loi Fisher(p

−

1, n

−

p).

(80)

I.7 Comparaison non-param´ etrique de trois ´ echantillons non appari´ es ou plus :

Test de Kruskal-Wallis

(81)

Test de Kruskal-Wallis

Donn´ ees

k ´ echantillons

x1

= (x

1,1

, . . . ,

x1,n1

) et

xk

= (x

k,1

, . . . ,

xk,n_k

).

Question

Les m´ edianes m

1

, . . . , m

k

des populations dont sont issues les ´ echantillons sont-elles toutes ´ egales ?

Postulat

Les distributions sont identiques ` a des translations pr` es.

(82)

Test de Kruskal-Wallis

Formulation

H

0

: m

1

= m

2

= . . . = m

k

H

1

: Au moins une m´ ediane diff` ere Sous R

Fonction kruskal.test

(83)

Test de Kruskal-Wallis

Statistique

I

x

ij

la j

^eme

observation de l’´ echantillon i et R

ij

son rang dans l’union de tous les ´ echantillons.

I

n

i

la taille de l’´ echantillon i et R

i.

=

P

1≤i≤n_i

R

ij

.

I

La statistique est

F

KW

= 12

n(n + 1)

k

X

i=1

n

i

(R

i.−

n + 1 2 )

²

= 12

n(n + 1)

k

X

i=1

R

²_i.

n

i

−

3(n + 1)

F

KW

a une loi qui peut ˆ etre calcul´ ee exactement pour les petits ´ echantillons et qui suit asymptotiquement une loi du χ

²

` a k

−

1 ddl pour de grands

´ echantillons.

(84)

I.8 Comparaison de trois ´ echantillons appari´ es ou plus :

Test de Friedman

(85)

Test de Friedman

Donn´ ees

k ´ echantillons appari´ es

x1

= (x

1,1

, . . . ,

x1,n

) et

xk

= (x

k,1

, . . . ,

xk,n

).

Question

Les m´ edianes m

1

, . . . , m

k

des populations dont sont issues les ´ echantillons sont-elles toutes ´ egales ?

Postulat

Les distributions sont identiques ` a des translations pr` es.

(86)

Test de Friedman

Formulation

H

0

: m

1

= m

2

= . . . = m

k

H

1

: Au moins une m´ ediane diff` ere Sous R

Fonction friedman.test

(87)

Test de Friedman

Statistique

I

X = ((x

ij

)) une matrice de taille k

×

n contenant les observations.

I

R

ij

le rang de x

ij

dans sa colonne, c’est-` a-dire parmi toutes les j

^eme

observations.

I

La statistique est

S

F

= 12n

k (k + 1)

k

X

i=1

(R

i.−

k + 1 2 )

²

= 12

nk(k + 1)

k

X

i=1

R

²i.−

3n(k + 1)

S

F

a une loi qui peut ˆ etre calcul´ ee exactement pour les petits ´ echantillons et qui

suit asymptotiquement une loi du χ

²

` a k

−

1 ddl pour de grands ´ echantillons.

(88)

III. COMPARER PLUSIEURS VARIABLES

(89)

Question

On consid` ere un couple de variables (X , Y ). Que peut-on dire de la fa¸ con dont X ´ evolue suivant les valeurs de Y ?

Variable quantitative vs variable qualitative

Cela revient ` a comparer les ´ echantillons de valeurs de X correspondant aux

diff´ erentes valeurs de Y . On utilise donc les tests du chapitre pr´ ec´ edent pour

comparer les moyennes/m´ edianes.

(90)

III.3 Deux variables quantitatives :

Tests de corr´ elation

(91)

Ind´ ependance de deux variables qualitatives : test des coefficients de corr´ elation

Corr´ elation de Pearson

corr (x,

y) =

cov(x,

y)

s

x

s

y

> x

[1] 0.78567941 0.05432453 0.89717001 0.91937463 0.22518722 0.73888938 [7] 0.76829641 0.36158277 0.31026795 0.40520112

> y

[1] 0.079708449 0.726701520 0.006416492 0.704536224 0.227744839 0.320827909 [7] 0.339496034 0.671403866 0.079917410 0.682257054

> z

[1] 0.2384315 0.8917615 0.2553335 0.7994183 0.3156023 0.5391647 0.6285664 [8] 0.7197179 0.2830458 0.9801462

> cor(x,y) [1] -0.3106941

> cor(y,z)

[1] 0.9549087

(92)

Ind´ ependance de deux variables qualitatives : test des coefficients de corr´ elation

Corr´ elation des rangs de Spearman

ρ = corr (r(x), r(y)) o` u r(x) d´ esigne l’´ echantillon des rangs tir´ e de

x.

> rank(x)

[1] 8 1 9 10 2 6 7 4 3 5

> rank(y)

[1] 2 10 1 9 4 5 6 7 3 8

> rank(z)

[1] 1 9 2 8 4 5 6 7 3 10

> cor(x,y,method="spearman") [1] -0.2484848

> cor(y,z,method="spearman")

[1] 0.9515152

(93)

Ind´ ependance de deux variables qualitatives : test des coefficients de corr´ elation

Corr´ elation des rangs de Kendall

I

Soit n

c

le nombre de concordances, c’est-` a-dire de paires (x

i

, y

i

) et (x

j

, y

j

) telles que x

i

< x

j

et y

i

< y

j

;

I

Soit n

d

le nombre de discordances, c’est-` a-dire de paires (x

i

, y

i

) et (x

j

, y

j

) telles que x

i

< x

j

et y

i

> y

j

;

Le coefficient de Kendall est alors

τ = n

c−

n

d

n(n

−

1)/2

> rank(x)

[1] 8 1 9 10 2 6 7 4 3 5

> rank(y)

[1] 2 10 1 9 4 5 6 7 3 8

> rank(z)

[1] 1 9 2 8 4 5 6 7 3 10

> cor(x,y,method="kendall") [1] -0.2

> cor(y,z,method="kendall")

[1] 0.8666667

(94)

Ind´ ependance de deux variables qualitatives : test des coefficients de corr´ elation

Interpr´ etation

Ces trois coefficients sont compris entre

−1

et 1 et valent 0 pour des variables ind´ ependantes.

Une valeur significativement positive indique une corr´ elation positive (Y augmente quand X augmente).

Une valeur significativement n´ egative indique une corr´ elation n´ egative (Y

augmente quand X augmente).

(95)

Ind´ ependance de deux variables qualitatives : test des coefficients de corr´ elation

Formulation

H

0

: corr (x,

y) = 0

ou ρ = 0 ou τ = 0 H

1

: corr (x,

y)6= 0

ou ρ

6= 0

ou τ

6= 0

Lat´ eralit´ e

Le test peut ˆ etre men´ e de fa¸ con unilat´ erale pour ne d´ etecter qu’une corr´ elation positive ou qu’une corr´ elation n´ egative.

Sous R

cor.test

(96)

Principe des tests

Test de Pearson

Sous H

0

, ` a condition que le couple (X , Y ) suive une loi normale bivari´ ee ou que l’effectif soit suffisamment important,

S = corr (x , y)

q1−corr(x,y)²

n−2

suit une loi du χ

²

` a n

−

2 ddl, Tests non paramtrique

Les lois correspondantes sont tabul´ ees.

(97)

Exemple 1 (P. Sprent)

7 d´ eclinaisons d’un mˆ eme produit ont ´ et´ e ´ evalu´ es par des panels de

consommateurs fran¸ cais et allemands. Les rangs obtenus pour les 7 produits sont les suivants. On se demande s’il y a une concardance entre les classements.

F 1 2 3 4 5 6 7

D 3 4 1 5 2 7 6

Spearman : ρ = 0.57, p-valeur de 0.2.

Kendall : 15 concardances, 6 discordances, τ = 0.48, p-valeur de 0.43.

(98)

Exemple 2

Le tableau suivant donne le taux d’ensoleillement (en heures/an) et de pluviom´ etrie (en mm/an) en dix villes situ´ es sur un axe nord-sud. Peut-on parler d’une tendance monotone de croissance de l’ensoleillement le long de cet axe ? De diminution de la pluviom´ etrie ?