• Aucun résultat trouvé

Tests statistiques

N/A
N/A
Protected

Academic year: 2022

Partager "Tests statistiques"

Copied!
150
0
0

Texte intégral

(1)

Tests statistiques

M1 IMSV

Etienne Birmel´ e

(2)

I. TESTS STATISTIQUES :PRINCIPE

(3)

Test

Definition

Un test statistique est une proc´ edure de d´ ecision entre deux hypoth` eses concernant un ou plusieurs ´ echantillons.

Exemple : On consid` ere deux s´ eries de personnes soumises les unes ` a un m´ edicament, les autres ` a un placebo. On mesure les tensions art´ erielles dans les deux groupes.

Au vu des r´ esultats, le m´ edicament a-t-il un effet sur la tension ?

(4)

Hypoth` eses

D´ efinition

L’hypoth` ese nulle not´ ee H

0

est celle que l’on consid` ere vraie ` a priori. Le but du test est de d´ ecider si cet ` a priori est cr´ edible.

L’hypoth` ese alternative not´ ee H

1

est l’hypoth` ese compl´ ementaire de H

0

.

Exemple : Sous H

0

, le m´ edicament n’a pas d’influence, sous H

1

il en a une.

(5)

Hypoth` eses

D´ efinition

L’hypoth` ese nulle not´ ee H

0

est celle que l’on consid` ere vraie ` a priori. Le but du test est de d´ ecider si cet ` a priori est cr´ edible.

L’hypoth` ese alternative not´ ee H

1

est l’hypoth` ese compl´ ementaire de H

0

. Exemple : Sous H

0

, le m´ edicament n’a pas d’influence, sous H

1

il en a une.

Attention

I

Les deux hypoth` eses ne sont pas sym´ etriques. H

1

est choisie uniquement par d´ efaut si H

0

n’est pas consid´ er´ ee comme cr´ edible.

I

Le choix de H

0

et de H

1

est en g´ en´ eral impos´ e par le test qu’on utilise et

ne rel` eve donc pas de l’utilisateur.

(6)

Ecriture des hypoth` eses

Soit µ

1

et µ

2

les moyennes de tension des deux populations correspondant ` a la prise de m´ edicament ou de placebo. Une mani` ere de d´ emontrer que le

m´ edicament modifie la tension est de montrer que µ

2

est diff´ erent de µ

1

. Les hypoth` eses deviennent alors

{

H

0

: les moyennes des deux populations sont

´ egales

}

et

{

H

0

: les moyennes des deux populations sont diff´ erentes

}

. On l’´ ecrit succintement sous la forme :

H

0

: µ

1

= µ

2

H

1

: µ

16=

µ

2

(7)

Ecriture des hypoth` eses

Question 1

La moyenne de la tension dans le premier groupe est de 13,4. La moyenne de la tension dans le second groupe est de 12,8.

Le m´ edicament est-il efficace ?

Question 2 (pour ceux qui ont r´ epondu oui)

Je lance six fois un d´ e, puis fais 50 pompes, puis relance six fois un d´ e. Ma premi` ere s´ erie de lancers vaut en moyenne 3,1. La seconde s´ erie vaut en moyenne 3,7.

Les pompes m’ont-elles rendues meilleur au lancer de d´ e ?

R´ eponse

On n’en sait rien ` a ce stade !

(8)

Ecriture des hypoth` eses

Question 1

La moyenne de la tension dans le premier groupe est de 13,4. La moyenne de la tension dans le second groupe est de 12,8.

Le m´ edicament est-il efficace ?

Question 2 (pour ceux qui ont r´ epondu oui)

Je lance six fois un d´ e, puis fais 50 pompes, puis relance six fois un d´ e. Ma premi` ere s´ erie de lancers vaut en moyenne 3,1. La seconde s´ erie vaut en moyenne 3,7.

Les pompes m’ont-elles rendues meilleur au lancer de d´ e ?

R´ eponse

On n’en sait rien ` a ce stade !

(9)

Ecriture des hypoth` eses

Question 1

La moyenne de la tension dans le premier groupe est de 13,4. La moyenne de la tension dans le second groupe est de 12,8.

Le m´ edicament est-il efficace ?

Question 2 (pour ceux qui ont r´ epondu oui)

Je lance six fois un d´ e, puis fais 50 pompes, puis relance six fois un d´ e. Ma premi` ere s´ erie de lancers vaut en moyenne 3,1. La seconde s´ erie vaut en moyenne 3,7.

Les pompes m’ont-elles rendues meilleur au lancer de d´ e ?

R´ eponse

On n’en sait rien ` a ce stade !

(10)

Ecriture des hypoth` eses

Attention

Les moyennes x

1

et x

2

des ´ echantillons r´ esultent d’´ echantillonnages, et ne sont donc que des estimations de µ

1

et µ

2

. Ce n’est pas parce qu’elles sont diff´ erentes que µ

1

et µ

2

le sont (et vice-versa, mais c’est rare !).

Comparer les moyennes des ´ echantillons ne peut en aucun cas suffire !

(11)

Ecriture des hypoth` eses

Attention

Les moyennes x

1

et x

2

des ´ echantillons r´ esultent d’´ echantillonnages, et ne sont donc que des estimations de µ

1

et µ

2

. Ce n’est pas parce qu’elles sont diff´ erentes que µ

1

et µ

2

le sont (et vice-versa, mais c’est rare !).

Comparer les moyennes des ´ echantillons ne peut en aucun cas suffire !

Les signes =,

6=,

> et

dans l’´ ecriture succinte des hypoth` eses ne

correspondent pas ` a l’´ egalit´ e ou aux in´ egalit´ es au sens math´ ematique du terme.

Il s’agit d’une fa¸ con d’´ ecrire :

H

0

: Il est cr´ edible de penser que µ

1

= µ

2

H

1

: µ

1

est significativement diff´ erent de µ

2

(12)

Statistique

La statistique de test S est une fonction qui r´ esume l’information sur l’´ echantillon qu’on veut tester. On la choisit de fa¸ con ` a pouvoir calculer sa loi sous H

0

.

I

S est une variable al´ eatoire, d´ efinie ind´ ependemment des donn´ ees observ´ ees. La valeur que prend cette variable al´ eatoire pour les donn´ ees observ´ ees sera appel´ ee statistique observ´ ee et not´ ee S

obs

dans la suite.

I

Suivant le type de statistique choisi, le test sera param´ etrique ou

non-param´ etrique.

(13)

R´ egion de rejet - Lat´ eralit´ e

D´ efinition

La r´ egion de rejet est le sous-ensemble

I

de

R

tel qu’on rejette H

0

si S

obs

appartient ` a

I.

D´ efinir une proc´ edure de test peut donc se faire en d´ efinissant

1.

une statistique

2.

une r´ egion de rejet pour cette statistique

Exemple : Les test m´ edicaux figurant sur une prise de sang, comme le taux de fer.

H

0

: La ferritine est entre 20 et 300µg /L

H

1

: La ferritine est trop haute ou trop basse

(14)

R´ egion de rejet - Lat´ eralit´ e

D´ efinition

La r´ egion de rejet est le sous-ensemble

I

de

R

tel qu’on rejette H

0

si S

obs

appartient ` a

I.

La forme de la r´ egion de rejet d´ efinit la lat´ eralit´ e du test :

I

test multilat´ eral : On veut rejetter H

0

si S

obs

est trop grand ou trop petit, sans ` a priori. La r´ egion de rejet est alors de la forme ]

− ∞,

a]

[b, +∞[.

I

test unilat´ eral ` a droite : On veut rejetter H

0

seulement si S

obs

est trop grand. La r´ egion de rejet est alors de la forme [a, +∞[.

I

test unilat´ eral ` a gauche : On veut rejetter H

0

seulement si S

obs

est trop

petit. La r´ egion de rejet est alors de la forme ]

− ∞,

b ].

(15)

Exemples

On consid` ere toujours des m´ edicaments r´ eduisant la tension art´ erielle. Quelles sont les hypoth` eses pour r´ epondre aux questions suivantes ?

I

Comparaison entre deux m´ edicaments en vente

H

0

: µ

1

= µ

2

H

1

: µ

16=

µ

2

I

Int´ erˆ et d’un nouveau m´ edicament plus cher que l’existant.

H

0

: µ

new

µ

old

H

1

: µ

new

< µ

old

I

Int´ erˆ et d’un nouveau m´ edicament moins cher que l’existant.

H

0

: µ

new

µ

old

H

1

: µ

new

> µ

old

(16)

Exemples

On consid` ere toujours des m´ edicaments r´ eduisant la tension art´ erielle.

I

Comparaison entre deux m´ edicaments en vente H

0

: µ

1

= µ

2

H

1

: µ

16=

µ

2

I

Int´ erˆ et d’un nouveau m´ edicament plus cher que l’existant.

H

0

: µ

new

µ

old

H

1

: µ

new

< µ

old

I

Int´ erˆ et d’un nouveau m´ edicament moins cher que l’existant.

H

0

: µ

new

µ

old

H

1

: µ

new

> µ

old

(17)

Probabilit´ e critique D´ efinition

La probabilit´ e critique (ou

p-valeur) est la probabilit´

e, sous H

0

, que la

statistique soit au moins aussi ´ eloign´ ee de son esp´ erance que la valeur observ´ ee.

En d’autres termes, c’est la probabilit´ e d’observer quelque chose d’au moins aussi surprenant que ce que l’on observe.

I

Si le test est unilat´ eral ` a droite, la probabilit´ e critique est

P

(S > S

obs

).

S

obs

(18)

Probabilit´ e critique D´ efinition

La probabilit´ e critique (ou

p-valeur) est la probabilit´

e, sous H

0

, que la

statistique soit au moins aussi ´ eloign´ ee de son esp´ erance que la valeur observ´ ee.

En d’autres termes, c’est la probabilit´ e d’observer quelque chose d’au moins aussi surprenant que ce que l’on observe.

I

Si le test est unilat´ eral ` a gauche, la probabilit´ e critique est

P

(S < S

obs

).

S

obs

(19)

Probabilit´ e critique D´ efinition

La probabilit´ e critique (ou

p-valeur) est la probabilit´

e, sous H

0

, que la

statistique soit au moins aussi ´ eloign´ ee de son esp´ erance que la valeur observ´ ee.

En d’autres termes, c’est la probabilit´ e d’observer quelque chose d’au moins aussi surprenant que ce que l’on observe.

I

Si le test est bilat´ eral et que la loi de la statistique est sym´ etrique par rapport ` a 0, la probabilit´ e critique est

P

(|S| >

|Sobs|).

S

obs

(20)

Risque de premi` ere esp` ece ou confiance

D´ efinition

Le risque de premi` ere esp` ece

α

est la probabilit´ e sous H

0

de la r´ egion de rejet.

En d’autres termes, il s’agit de la proabilit´ e avec laquelle on accepte de d´ ecider H

1

si la v´ erit´ e est H

0

.

α =

PH0

(H

1

) La quantit´ e 1

α est la confiance du test.

En d’autres termes, une proportion α des situations dans lesquelles la v´ erit´ e est H

0

verront une d´ ecision en faveur de H

1

.

α

est la probabilit´ e avec laquelle on accepte de se tromper quand la v´ erit´ e est

H0

(21)

Autre mani` ere de mener le test

On peut comparer la p-valeur ` a α plutˆ ot que S

obs

et la r´ egion de rejet.

I

si la p-valeur est sup´ erieure ` a α, il n’est pas exceptionnel sous H

0

d’observer la valeur effectivement observ´ ee. Par cons´ equent, H

0

est accept´ ee.

I

si la p-valeur est inf´ erieure ` a α, la valeur observ´ ee est jug´ ee exceptionnelle sous H

0

. On d´ ecide alors de rejeter H

0

et de valider H

1

.

Acceptation

Seuil 5%

S

obs

(22)

Autre mani` ere de mener le test

On peut comparer la p-valeur ` a α plutˆ ot que S

obs

et la r´ egion de rejet.

I

si la p-valeur est sup´ erieure ` a α, il n’est pas exceptionnel sous H

0

d’observer la valeur effectivement observ´ ee. Par cons´ equent, H

0

est accept´ ee.

I

si la p-valeur est inf´ erieure ` a α, la valeur observ´ ee est jug´ ee exceptionnelle sous H

0

. On d´ ecide alors de rejeter H

0

et de valider H

1

.

Rejet

Seuil

5%

S

obs

(23)

Autre mani` ere de mener le test

On peut comparer la p-valeur ` a α plutˆ ot que S

obs

et la r´ egion de rejet.

I

si la p-valeur est sup´ erieure ` a α, il n’est pas exceptionnel sous H

0

d’observer la valeur effectivement observ´ ee. Par cons´ equent, H

0

est accept´ ee.

I

si la p-valeur est inf´ erieure ` a α, la valeur observ´ ee est jug´ ee exceptionnelle sous H

0

. On d´ ecide alors de rejeter H

0

et de valider H

1

.

Avantage

Cette m´ ethode permet de se rendre compte ` a quel point on est sur de sa d´ ecision : la position de la p-valeur par rapport ` a α ne d´ epend pas de l’´ echelle des donn´ ees, contrairement ` a S

obs

et au(x) seuil(s) de la r´ egion de rejet.

Exemple : Si on a fix´ e α = 0.05, une p-valeur de 3.10

−4

est clairement un rejet,

alors qu’une p-valeur de 0.03 est un rejet ’de peu’ qu’il faudra nuancer au

moment de l’interpr´ etation.

(24)

Risque de premi` ere esp` ece ou confiance

I

Hormis dans des cas de tests multiples non abord´ es dans ce cours, α varie g´ en´ eralement entre 0, 01 et 0, 05.

I

Dans le cas de variables continues, on peut choisir une valeur arbitraire de α et obtenir une r´ egion de rejet pr´ esentant exactement le risque α.

I

Dans le cas de variables discr` etes, le nombre de r´ egions de rejet, et donc

de risques, possibles est fini ou d´ enombrable. Dans ce cas, on fixe un

risque, dit risque nominal, par exemple de 5%. On cherche alors la plus

grande r´ egion ne d´ epassant pas ce risque, qui devient la r´ egion de rejet. Le

v´ eritable risque, dit risque r´ eel, peut alors ˆ etre recalcul´ e.

(25)

Risque de deuxi` eme esp` ece ou puissance

D´ efinition

Le risque de deuxi` eme esp` ece

β

est la probabilit´ e d’accepter H

0

alors que la v´ erit´ e est H

1

.

β =

PH1

(H

0

) La quantit´ e 1

β est la puissance du test.

V´erit´e

H

0

H

1

D´ecision

H

0

1-α

β

H

1 α

1-β

(26)

Choix de α et β

H

0

H

1

S β α

Si l’´ echantillon reste inchang´ e, une diminution de α entraˆıne une augmentation de β et inversement. Autrement dit, si on d´ ecide de r´ eduire le nombre de faux positifs, on augmente forc´ ement le nombre de faux n´ egatifs.

La seule mani` ere d’am´ eliorer les deux crit` eres est d’augmenter la taille de

l’´ echantillon.

(27)

Choix de α et β

H

0

H

1

S β α

Si l’´ echantillon reste inchang´ e, une diminution de α entraˆıne une augmentation de β et inversement. Autrement dit, si on d´ ecide de r´ eduire le nombre de faux positifs, on augmente forc´ ement le nombre de faux n´ egatifs.

La seule mani` ere d’am´ eliorer les deux crit` eres est d’augmenter la taille de

l’´ echantillon.

(28)

Courbe de puissance

I

Pour d´ eterminer la puissance, il faut connaˆıtre la lois de S sous H

1

, ce qui n’est g´ en´ eralement pas le cas.

I

On recourt alors ` a des courbes de puissance qui sont des courbes pour laquelle la puissance est calcul´ ee pour des valeurs donn´ ees des param` etres du probl` eme ou de la taille de l’´ echantillon.

On ne sait pas o` u se situe la situation r´ eelle sur cette courbe mais on y lit la probabilit´ e de d´ etecter H

1

en fonction de son ’´ eloignement’ de H

0

. Exemple : Courbe de puissance d’un test de Student bilat´ eral sur 100 individus en fonction de mu[2]

mu[1] (en supposant que σ

1

= σ

2

= 1).

0.0 0.5 1.0 1.5

0.0 1.0

(29)

Principe du test

Les ´ etapes d’un test sont toujours r´ ealis´ ees dans l’ordre suivant :

1)

Choix du risque α

2)

Choix du type de test et de sa lat´ eralit´ e si besoin

3)

Calcul de la statistique de test

4)

Calcul de la p-valeur

5)

Conclusion

En pratique, l’utilisation d’un logiciel type R permet de ne pas se soucier des

partie 3) et 4). Par contre, les choix li´ ees aux ´ etapes 1) et 2) ainsi que

l’interpr´ etation finale ne peuvent ˆ etre faits par le logiciel.

(30)

Remarques sur les tests

I Le r´esultat d’un test comprend toujours une dose d’incertitude : ON NE SAIT JAMAIS SI ON A BIEN PRIS LA BONNE DECISION !

I

La probabilit´ e critique permet d’avoir une vision plus fine que sa simple

comparaison avec α. En effet, plus elle est petite, plus l’´ ev` enement observ´ e

est surprenant sous H

0

. Ainsi, pour α = 0.5, des probabilit´ es critiques de

10

−6

et de 0.35 impliquent le rejet de H

0

mais avec des degr´ es de

certitude diff´ erent concernant la d´ ecision.

(31)

Tests param´ etriques et non param´ etriques

D´ efinition : test param´ etrique

Un test param´ etrique est un test pour lequel on fait une hypoth` ese sur la forme des donn´ ees sous H

0

(normale, Poisson, ...). Les hypoth` eses du test concernant alors les param` etres gouvernant cette loi.

Exemple : On suppose que la tension sous m´ edicament suit une loi

N

1

, σ

1

) et celle sous placebo suit une loi

N

2

, σ

2

).

H

0

: µ

1

= µ

2

H

1

: µ

16=

µ

2

S = x

1

x

2

σ

q1

n

+

m1

o` u σ =

s

(n

1) ˆ σ

12

+ (m

1) ˆ σ

22

n + m

2

La loi de S sous H

0

est connue (loi de Student)

(32)

Tests param´ etriques et non param´ etriques

D´ efinition : test non-param´ etrique

Un test non param´ etrique est un test ne n´ ecessitant pas d’hypoth` ese sur la forme des donn´ ees. Les donn´ ees sont alors remplac´ ees par des statistiques ne d´ ependant pas des moyennes/variances des donn´ ees initiales (tables de contingence, statistique d’ordre ...).

Exemple : on classe les tensions de tous les individus par ordre croissant et on regarde comment sont class´ es les personnes sont m´ edicaments. On obtient par exemple

M M P M M P M P P M P P

S est alors la somme des rangs des individus sous m´ edicaments. On peut

d´ eterminer sa loi sous H

0

.

(33)

Tests param´ etriques et non param´ etriques

Lequel choisir ?

I

Les tests param´ etriques, quand leur utilisation est justifi´ ee, sont en g´ en´ eral plus puissants que les tests non-param´ etriques.

I

Les tests param´ etriques reposent cependant sur l’hypoth` ese forte que l’´ echantillon consid´ er´ e est tir´ e suivant une distribution appartenant ` a une famille donn´ ee. Il est possible de s’en affranchir pour des ´ echantillons suffisament grands en utilisant des th´ eor` emes asymptotiques tels le TCL.

Lese tests non-param´ etriques sont cependant ` a pr´ ef´ erer dans de nombreux cas pratiques pour lesquels les tests param´ etriques ne peuvent ˆ etre utilis´ es sans violer les postulats dont ils d´ ependent (notamment les ´ echantillons trop petits).

I

Les donn´ ees sont parfois r´ ecup´ er´ es sous forme de rangs et non de donn´ ees

brutes. Seuls les tests non-param´ etriques sont alors applicables.

(34)

Tests param´ etriques et non param´ etriques Efficacit´ e relative asymptotique

On fixe une confiance 1

α , une puissance 1

β. Soit

Hk

une suite d’hyptoh` eses alternatives (se rapprochant de

H0

) et n

1k

et n

2k

les tailles d’´ echantillons n´ ecessaires pour que T

1

et T

2

aient la puissance β sous l’hypoth` ese

Hk

. Sous certaines conditions de r´ egularit´ e, le quotient

nn2k

1k

tend vers une constante, l’ARE, quand k tend vers l’infini.

Un ARE de 2 signifie que pour d´ etecter la mˆ eme diff´ erence, il faut

asymptotiquement des ´ echantillons deux fois plus grands pour T

2

que pour T

1

pour obtenir la mˆ eme puissance, impliquant que T

1

est plus ’efficace’. Cette mesure est asymptotique mais en pratique, l’efficacit´ e pour des petits

´ echantillons se r´ ev` ele souvent proche de l’efficacit´ e asymptotique.

Consid´ erons l’exemple o` u T

1

est le test du signe pour H

0

: m = 0 et T

2

le test t pour H

0

: µ = 0, dans le cas de distributions sym´ etriques. On peut montrer que l’ARE est inf´ erieure est de

π2

< 1 pour des distributions normales mais sup´ erieure ` a 1 pour d’autres ditributions comme les double exponentielle ou les distributions de Laplace.

Mˆ eme en cas de validit´ e des tests param´ etriques, les tests non-param´ etriques peuvent donc ˆ etre concurrentiels, d’autant plus que la puissance de calcul des ordianteurs actuels permet maintenant leur utilisation sur de grands

´ echantillons.

(35)

II. TESTS DE COMPARAISON

DE MEDIANES

(36)

I.1 Un ´ echantillon : Test de Student

(37)

Test param´ etrique d’´ egalit´ e de la moyenne avec une valeur pr´ ed´ efinie : Test de Student

Donn´ ees

Un ´ echantillon

x

= (x

1

, . . . , x

n

), une valeur µ

0

Question

La moyenne µ de la population dont

x

est issu est-elle significativement diff´ erente de µ

0

.

Postulat

La loi de la population est une loi normale ou

x

est suffisamment grand pour

appliquer le TCL.

(38)

Test param´ etrique d’´ egalit´ e de la moyenne : Test de Student Formulation

H

0

: µ = µ

0

H

1

: µ

6=

µ

0

Ce test peut ˆ etre men´ e de mani` ere unilat´ erale.

Statistique

La statistique de Student est d´ efinie par t = µ ˆ

µ

0

ˆ σ/

n

Sous H

0

, t suit une loi de Student ` a n

1 degr´ es de libert´ e.

Sous R

t.test en utilisant les param` etres x pour l’´ echantillon et mu pour la valeur

de µ

0

.

(39)

I.2 Un ´ echantillon : Test du signe

(40)

Test non-param´ etrique d’´ egalit´ e de la m´ ediane avec une valeur pr´ ed´ efinie : Test du signe

Donn´ ees

Un ´ echantillon

x

= (x

1

, . . . ,

xn

), une valeur m

0

Question

La m´ ediane m de la population dont

x

est issu est-elle significativement diff´ erente de m

0

.

Postulat

Aucun

(41)

Test du signe

Formulation

H

0

: m = m

0

H

1

: m

6=

m

0

Ce test peut ˆ etre men´ e de mani` ere unilat´ erale.

Statistique

On associe un signe + aux valeurs sup´ erieures ` a m

0

et un signe

aux valeurs inf´ erieures ` a m

0

, et on note N

+

le nombre de +.

Sous H

0

, chaque valeur de l’´ echantillon a une probabilit´ e

12

d’ˆ etre sup´ erieure ` a

m

0

. N

+

suit donc une loi binimiale

B(n,12

).

(42)

Test du signe

Cas d’´ egalit´ e

Il est possible que certaines valeurs de l’´ echantillon soient ´ egales ` a m

0

.

Plusieurs strat´ egies sont possibles, les principales ´ etant a) d’ignorer ces valeurs ; b) de les affecter par tirage au sort ´ equiprobable ; c) de leur affecter le signe minoritaire afin d’obtenir un test conservatif.

Approximation normale

Pour les grands ´ echantillons (n>30), on peut utiliser la statistique Z = N

+12

n

1 2

n qui suit une loi normale centr´ ee r´ eduite.

Une correction de continuit´ e peut s’av´ erer n´ ecessaire dans ce cas.

(43)

Exemple

Le nombre d’observations de sanglier par an et par poste d’observation a une m´ ediane de 50 lorsque la population est normale. L’´ echantillon suivant repr´ esente les observations de l’ann´ ee. A-t-il une m´ ediane significativement diff´ erente de 50 ?

> betes <- c(29,12,62,64,43,21,35,89,8,32,47,61) On applique un test du signe bilat´ eral ` a un niveau de 5% :

H

0

: m = 50 H

1

: m

6= 50

> Npos <- sum(betes>50)

> Nneg <- sum(betes<50)

Sous H

0

, N

+∼ B(12,

0.5) et cette loi est sym´ etrique. La p-valeur vaut donc 2

P

(N

+

4)

> 2* pbinom(4,12,.5,lower.tail=TRUE) [1] 0.3876953

On accepte H

0

: il n’y pas de raison de penser que la population a un niveau

anormal.

(44)

Exemple, suite

On suppose maintenant que les donn´ ees de cinquante postes d’observations sont collect´ ees et que 15 d’entre eux ont donn´ ee lieu ` a 50 observations ou plus.

On applique toujours un test du signe bilat´ eral ` a un niveau de 5% : H

0

: m = 50

H

1

: m

6= 50

Le nombre d’observation nous permet de faire une approximation normale.

> Zobs <- (15-25)/(sqrt(50)/2)

> 2*pnorm(Zobs,0,1) [1] 0.004677735

Cette fois, on rejette H

0

` a un niveau de 5% : la population souffre d’une

anomalie.

(45)

Variantes

Test d’´ equiprobabilit´ e de deux ´ ev` enements

La proc´ edure est exactement la mˆ eme, un des ´ ev` enements correspondant au signe

−, l’autre au signe

+.

Test d’un quantile

Soit q

α

le quantile d’ordre α de l’´ echantillon et q une valeur fix´ ee. On peut g´ en´ eraliser le test du signe au probl` eme

H

0

: q

α

= q H

1

: q

α6=

q

Il suffit pour cela d’assigner un signe

aux valeurs inf´ erieures ` a q, un signe +

aux valeurs sup´ erieures ` a q et de consid´ erer le nombre de signe

qui suit sous

H

0

une loi binomiale

B(n,

q).

(46)

Variantes

Test d’´ equiprobabilit´ e de deux ´ ev` enements

La proc´ edure est exactement la mˆ eme, un des ´ ev` enements correspondant au signe

−, l’autre au signe

+.

Test d’un quantile

Soit q

α

le quantile d’ordre α de l’´ echantillon et q une valeur fix´ ee. On peut g´ en´ eraliser le test du signe au probl` eme

H

0

: q

α

= q H

1

: q

α6=

q

Il suffit pour cela d’assigner un signe

aux valeurs inf´ erieures ` a q, un signe +

aux valeurs sup´ erieures ` a q et de consid´ erer le nombre de signe

qui suit sous

H

0

une loi binomiale

B(n,

q).

(47)

Variantes

Test du signe pour une tendance : test de Cox et Stuart

I

Tendance ` a la hausse ou ` a la baisse dans un ´ echantillon d’observations ind´ ependantes ordonn´ ees ?

H

0

: Pas de tendance H

1

: Tendance significative

I

Dans le cas d’un ´ echantillon pair n = 2m , les diff´ erences

(x

m+1

x

1

, . . . , x

2m

x

m

) sont calcul´ ees et leur signe est gard´ e en m´ emoire. Pour n = 2m + 1, on proc` ede de mˆ eme en ´ eliminant la valeur x

m+1

. Sous H

0

, le nombre de signes

suit une loi

B(m,12

.

I

Test unilat´ eral : hausse (ou baisse) uniquement.

I

Moins puissant que les tests li´ es au mod` ele lin´ eaire, mais sans postulat

d’´ evolution lin´ eaire.

(48)

I.3 Un ´ echantillon : Test des rangs sign´ es de Wilcoxon

(49)

Statistique du rang Definition : rang

Soit

X

un vecteur al´ eatoire. Le rang R

i

de la variable X

i

est l’ordre de cette derni` ere quand on r´ eordonne

X

par ordre croissant.

Exemple :

X = (15, 6, 23, 17, 8), R = (3, 1, 5, 4, 2)

sous R

La fonction rank donne l’´ echantillon des rangs

La fonction order donne la place dans l’´ echantillon du minimum, puis de la deuxi` eme plus petite valeur, ...

> x <- c(15,6,23,17,8)

> rank(x) [1] 3 1 5 4 2

> order(x) [1] 2 5 1 4 3

> x[order(x)]

[1] 6 8 15 17 23

(50)

Cas absolument continu

Si la loi des X

i

est absolument continue, la probabilit´ e d’avoir des ex-aequos est nulle.

Proposition

Pour tout k , 1

i

1

< . . . < i

k

n et 1

j

1

< . . . < j

k

= n),

P

(R

i1

, . . . , R

ik

) = (j

1

, . . . , j

k

)

= (n

k )!

n!

Proposition

E

(R

i

) =

n+12

et VarR

i

=

n212−1

(51)

Cas des ex-aequo

Definition : rang avec ex-aequos

Soit

X

un vecteur al´ eatoire dont les coordonn´ ees sont iid. Soit t le nombre de variables prenant la mˆ eme valeur que X

i

. L’ordre R

i

de X

i

est la moyenne arithm´ etique des ordres des t variables concern´ ees quand on r´ eordonne

X

par ordre croissant.

Exemple : Pour

X

= (9, 7, 5, 7, 4, 5, 5), R = (7, 5.5, 3, 5.5, 1, 3, 3).

(52)

Cas des ex-aequo

Definition : rang avec ex-aequos

Soit

X

un vecteur al´ eatoire dont les coordonn´ ees sont iid. Soit t le nombre de variables prenant la mˆ eme valeur que X

i

. L’ordre R

i

de X

i

est la moyenne arithm´ etique des ordres des t variables concern´ ees quand on r´ eordonne

X

par ordre croissant.

Exemple : Pour

X

= (9, 7, 5, 7, 4, 5, 5), R = (7, 5.5, 3, 5.5, 1, 3, 3).

Soit t

l

le nombre de valeurs ayant le l

ime

rang (dans l’exemple, t

1

= 1, t

2

= 3, t

3

= 2, t

4

= 1) et T =

P

l

t

l2

(t

l

1).

Proposition

E

(R

i

) =

n+12

et VarR

i

=

n212−1E(T)12n

(53)

Test des rangs sign´ es de Wilcoxon

Donn´ ees

Un ´ echantillon

x

= (x

1

, . . . ,

xn

), une valeur m

0

Question

La m´ ediane m de la population dont

x

est issu est-elle significativement diff´ erente de m

0

?

Postulat

Le test n´ ecessite de faire l’hypoth` ese d’une distribution sym´ etrique.

Ce postulat implique que m´ ediane et moyenne sont confondues.

(54)

Test des rangs sign´ es de Wilcoxon

Formulation

H

0

: m = m

0

H

1

: m

6=

m

0

Ce test peut ˆ etre men´ e de mani` ere unilat´ erale.

Sous R

Fonction wilcox.test

(55)

Test des rangs sign´ es de Wilcoxon

Statistique

On pose

D

=

X−

m

0

puis on calcule les rangs

R

du vecteurs

|D|

= (|D

1|, . . . ,|Dn|. Les statistiques d’interˆ

et sont alors S

+

=

P

i,Di>0

R

i

et S

=

P

i,Di<0

R

i

. Exemple :

Si

Xt

= (1, 5, 10, 12, 0, 8) et m

0

= 7,

Dt

= (−6,

−2,

3, 5,

−7,

1) et

Rt

= (5, 2, 3, 4, 6, 1). Une autre mani` ere de l’´ ecrire est de r´ eordonner

D

suivant les valeurs absolues croissantes, c’est-` a-dire 1,

−2,

3, 5,

−6,−7.

On obtient donc S

+

= 1 + 3 + 4 = 8 et S

= 2 + 5 + 6 = 13.

(56)

Test des rangs sign´ es de Wilcoxon

On a toujours S

+

+ S

=

n(n+1)2

, s’int´ eresser ` a l’une des variables suffit donc.

Le test s’´ ecrit alors (dans le cas bilat´ eral)

H

0

:

E

S

+

=

E

S

= n(n + 1) 4 H

1

:

E

S

+6=

n(n + 1)

4

Proposition

Sous l’hypoth` ese H

0

et en supposant que de X est absolument continue (pas d’ex-aequos),

VarS

+

= n(n + 1)(2n + 1)

24 et

P

(S

+

= k = c

kn

2

n

) o` u c

kn

est le coefficient de t

k

dans

Qn

k=1

(1 + t

k

).

(57)

Approximation pour les grands ´ echantillons

Dans le cas de grands ´ echantillons (n > 20), l’utilisation du TCL permet d’utiliser la statistique

Z = S

+n(n+1)4 qn(n+1)(2n+1)

24

dont la loi peut ˆ etre approch´ ee par une loi normale centr´ ee r´ eduite.

(58)

Cas des ex-aequos

I

d le nombre de valeurs ´ egales ` a m

0 I

t

l

introduits pr´ ec´ edemment

Pour des grands ´ echantillons, l’approximation normale peut alors ˆ etre utilis´ ee en rempla¸ cant la variance par

n(n + 1)(2n + 1)

24

d(d + 1)(2d + 1)

24

−X

l

t

l3

t

l

48

(59)

Exemple (P. Sprent)

Reprenons l’exemple du nombre d’animaux observ´ es, un total de 35 postes ayant ´ et´ e pris en compte

21 17 43 81 32 102 7 43 39 11 67 23 142 117 44 39 82 93 28 145 0 17 77 53

50 60 9 14 40 19 101 104 33 2 22

(60)

Exemple (P. Sprent)

L’´ echantillon modifi´ e devient

0 3

−6 −7 −7 −10

10

−11 −11 −17

17

−18

−22 −27

27

−28 −29 −31

31 32

−33 −33 −36 −39

−41

43

−43 −48 −50

51 52 54 67 92 95 La statistique S

+

vaut alors 293, d = 1 et il y 7 paires d’ex-aequo donc

P

l tl3−tl

48

= 7

8−248

.

La p-valeur est de 0.61. H

0

est accept´ e.

(61)

I.4 Tests param´ etriques pour deux ´ echantillons :

Fisher-Snedecor et Student

(62)

Test d’´ egalit´ e des variances : test de Fisher

Hypoth` eses

On dispose de deux ´ echantillons d’´ ecart-types respectifs σ ˆ

1

et σ ˆ

2

. On se demande s’il est raisonnable de penser que les deux ´ echantillons ont ´ et´ e tir´ es suivant des lois de mˆ eme ´ ecart-type ou si ils sont significativement diff´ erents.

H

0

: σ

1

= σ

2

H

1

: σ

16=

σ

2

Statistique F =

σσˆˆ12

22

suit une loi de Fisher

Fn1,n2

sous H

0

. Lat´ eralit´ e - R´ egion de rejet

Les trois options ´ enonc´ ees au chapitre pr´ ec´ edent sont possibles : rejet unilat´ eral

` a droite, ` a gauche ou bilat´ eral.

Sous R

var.test

(63)

Comparaison de la moyenne de deux ´ echantillons : t-test ou test de Student

Hypoth` eses

On dispose de deux ´ echantillons de moyennes respectives µ

1

et µ

2

et d’´ ecart-type respectifs σ

1

et σ

2

. On se demande s’il est raisonnable de penser que les deux ´ echantillons ont ´ et´ e tir´ es suivant des lois de mˆ eme esp´ erance ou si leurs moyennes sont significativement diff´ erentes.

H

0

: µ

1

= µ

2

H

1

: µ

16=

µ

2

(64)

Comparaison de la moyenne de deux ´ echantillons : t-test ou test de Student

Statistique

La valeur de la statistique peut prendre quatre expressions diff´ erentes suivants les crit` eres suivants :

appariement

les ´ echantillons sont appari´ es ou non.

´egalit´e des variances

les variances sont significativement diff´ erentes (h´ et´ erosc´ edasticit´ e) ou pas (homosc´ edasticit´ e).

Toutes ces statistiques reposent en fait sur le mˆ eme principe qui est de d´ ependre essentiellement de la diff´ erence µ

1

µ

2

, normalis´ ee par une quantit´ e permettant d’obtenir une variable de loi de Student sous H

0

.

Par exemple, dans le cas d’´ echantillons non appari´ es, de variance non significativement diff´ erentes, et de taille respectives n et m ,

t = µ

1

µ

2

σ

q1

n

+

m1

o` u

σ =

s

(n

1) ˆ σ

12

+ (m

1) ˆ σ

22

n + m

2

(65)

Comparaison de la moyenne de deux ´ echantillons : t-test ou test de Student

Lat´ eralit´ e - R´ egion de rejet

Les trois options ´ enonc´ ees au chapitre pr´ ec´ edent sont possibles : rejet unilat´ eral

` a droite, ` a gauche ou bilat´ eral.

Sous R

t.test en utilisant les param` etres x et y pour les deux ´ echantillons, alternative pour le lat´ eralit´ e, paired pour l’appariement ou non des

´ echantillons et var.equal pour l’´ egalit´ e des variances.

(66)

Exemple

Pour n grand et p petit, la loi binˆ omiale

B(n,

p) peut etre approxim´ ee par la loi de Poisson

P(np).

> x <- rbinom(100,100,.05)

> y <- rpois(100,5)

> var.test(x,y)

F test to compare two variances data: x and y

F = 1.1054, num df = 99, denom df = 99, p-value = 0.6192

alternative hypothesis: true ratio of variances is not equal to 1 95 percent confidence interval:

0.7437349 1.6428291 sample estimates:

ratio of variances 1.105364

>

(67)

Exemple

Pour n grand et p petit, la loi binˆ omiale

B(n,

p) peut etre approxim´ ee par la loi de Poisson

P(np).

> x <- rbinom(100,100,.05)

> y <- rpois(100,5)

> t.test(x,y,alternative="two.sided",paired=FALSE,var.equal=TRUE)

Two Sample t-test data: x and y

t = -0.51623, df = 198, p-value = 0.6063

alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval:

-0.7230104 0.4230104 sample estimates:

mean of x mean of y

4.93 5.08

(68)

I.5 Test non-param´ etrique pour deux ´ echantillons :

Test de Wilcoxon-Mann-Whitney

(69)

Appariement

Deux ´ echantillons

x

= (x

1

, . . . , x

n

) et

y

= (y

1

, . . . , y

n

) sont appari´ es si ils correspondent ` a des mesures prises sur les mˆ emes individus dans des conditions diff´ erentes.

Tester l’´ egalit´ e de leurs m´ edianes revient alors ` a consid´ erer l’´ echantillon des diff´ erences

x−y

et ` a tester si la m´ ediane de cet ´ echantillon est bien nulle

test du signe ou des rangs sign´ es de Wilcoxon.

On suppose par la suite que les deux ´ echantillons sont non appari´ es.

(70)

Test de Wilcoxon-Mann-Whitney

Donn´ ees

Deux ´ echantillons

x

= (x

1

, . . . ,

xn1

) et

y

= (y

1

, . . . ,

yn2

).

Question

La m´ ediane m

1

de la population dont

x

est issu est-elle significativement diff´ erente de la m´ ediane m

2

de la population dont

y

est issu ?

Postulat

Le test n´ ecessite de faire l’hypoth` ese que les distributions sont identiques ` a une

translation pr` es.

(71)

Test de Wilcoxon-Mann-Whitney

Formulation

H

0

: m

1

= m

2

H

1

: m

16=

m

2

Ce test peut ˆ etre men´ e de mani` ere unilat´ erale.

Sous R

Fonction wilcox.test

(72)

Test de Wilcoxon-Mann-Whitney

Statistique

On ordonne l’´ echantillon obtenu en concat´ enant les deux ´ echantillons d’interˆ et.

On note S

i

la somme des rangs de l’´ echantillon i . L’id´ ee est que sous H

0

, S

1

et S

2

devraient ˆ etre proche l’un de l’autre et de

(n1+n2)(n21+n2+1)

.

L’approche de Wilcoxon consid` ere S

1

ou S

2

comme statistique. Celle de Mann-Whitney consid` ere l’une des statistiques U

i

= S

ini(n2i+1)

.

Les lois des S

i

et U

i

peuvent ˆ etre calcul´ ees explicitement pour des n

i

petits et

sont tabul´ ees dans les logiciels de statistique.

(73)

Test de Wilcoxon-Mann-Whitney

Exemple :

x

= (4,

6,2),y

= (1,

3,8,9)

L’appartenance aux ´ echantillons dans l’´ echantillon concat´ en´ e ordonn´ e est (y,

x,y,x,x,y,y).

On a alors S

x

= 2 + 4 + 5 = 11 et U

x

= 11

3×42

= 5

U

1

peut ˆ etre calcul´ e en prenant chacune des valeurs de l’´ echantillon 2 et en

regardant combien de valeurs de l’´ echantillon 1 lui sont sup´ erieures, puis en

sommant les r´ esultats obtenus.

(74)

Approximation pour les grands ´ echantillons

Soit U = min(U

1

, U

2

).

Pour n

1

et n

2

tous deux sup´ erieurs ` a 20, il est raisonnable de consid´ erer que Z = U +

1212

n

1

n

2

p

(n

1

+ n

2

)(n

1

+ n

2

+ 1)/12 suit une loi normale centr´ ee r´ eduite.

Cas d’ex-aequos

Les rangs des ex-aequos sont remplac´ es par leurs rangs moyens comme dans le chapitre pr´ ec´ edent. Si le nombre d’ex-aequos est tr` es faible, ils peuvent ˆ etre n´ eglig´ es. Sinon, il faut modifier l’approximation pour les grands ´ echantillons en retranchant au terme sous la racine du d´ enominateur la quantit´ e

X

(t

l3

t

l

) n

1

n

2

12(n

1

+ n

2

)(n

1

+ n

2

1)

(75)

Autre possibilit´ e : g´ en´ eralisation du test du signe

Soit m

0

la m´ ediane de l’´ echantillon concat´ en´ e. On dresse le tableau de variation Echantillon 1 Echantillon 2

> m

0

a

1

a

2

< m

0

n

1

a

1

n

2

a

2

et on applique un test d’ind´ ependance entre les variables Echantillon et Etre inf´ erieur ` a m

0

(cf chapitres suivants).

I

Avantage : pas de postulat

I

Inconv´ enient : manque de puissance

(76)

I.6 Comparaison param´ etrique de trois ´ echantillons non appari´ es ou plus :

ANOVA

(77)

ANOVA ` a un facteur

Donn´ ees

k ´ echantillons

x1

= (x

1,1

, . . . ,

x1,n1

) et

xk

= (x

k,1

, . . . ,

xk,nk

).

Question

Les m´ edianes µ

1

, . . . , µ

k

des populations dont sont issues les ´ echantillons sont-elles toutes ´ egales ?

Postulat

Les distributions sont normales

de variances identiques.

(78)

ANOVA ` a un facteur

Formulation

H

0

: µ

1

= µ

2

= . . . = µ

k

H

1

: Au moins une moyenne diff` ere Sous R

Fonction aov

(79)

ANOVA ` a un facteur

D´ ecomposition de la variance

p

X

j=1 nj

X

i=1

(x

ij

x )

2

=

p

X

j=1

(x

j

x )

2

+

p

X

j=1 nj

X

i=1

(x

ij

x

j

)

2

(1)

SCT = SCE + SCR (2)

Carr´ es moyens : CMT =

SCTn−1

, CME =

SCEp−1

, CMR =

SCRn−p

. Statistique

F =

CMECMR

. Souc H

0

, F suit une loi Fisher(p

1, n

p).

(80)

I.7 Comparaison non-param´ etrique de trois ´ echantillons non appari´ es ou plus :

Test de Kruskal-Wallis

(81)

Test de Kruskal-Wallis

Donn´ ees

k ´ echantillons

x1

= (x

1,1

, . . . ,

x1,n1

) et

xk

= (x

k,1

, . . . ,

xk,nk

).

Question

Les m´ edianes m

1

, . . . , m

k

des populations dont sont issues les ´ echantillons sont-elles toutes ´ egales ?

Postulat

Les distributions sont identiques ` a des translations pr` es.

(82)

Test de Kruskal-Wallis

Formulation

H

0

: m

1

= m

2

= . . . = m

k

H

1

: Au moins une m´ ediane diff` ere Sous R

Fonction kruskal.test

(83)

Test de Kruskal-Wallis

Statistique

I

x

ij

la j

eme

observation de l’´ echantillon i et R

ij

son rang dans l’union de tous les ´ echantillons.

I

n

i

la taille de l’´ echantillon i et R

i.

=

P

1≤i≤ni

R

ij

.

I

La statistique est

F

KW

= 12

n(n + 1)

k

X

i=1

n

i

(R

i.

n + 1 2 )

2

= 12

n(n + 1)

k

X

i=1

R

2i.

n

i

3(n + 1)

F

KW

a une loi qui peut ˆ etre calcul´ ee exactement pour les petits ´ echantillons et qui suit asymptotiquement une loi du χ

2

` a k

1 ddl pour de grands

´ echantillons.

(84)

I.8 Comparaison de trois ´ echantillons appari´ es ou plus :

Test de Friedman

(85)

Test de Friedman

Donn´ ees

k ´ echantillons appari´ es

x1

= (x

1,1

, . . . ,

x1,n

) et

xk

= (x

k,1

, . . . ,

xk,n

).

Question

Les m´ edianes m

1

, . . . , m

k

des populations dont sont issues les ´ echantillons sont-elles toutes ´ egales ?

Postulat

Les distributions sont identiques ` a des translations pr` es.

(86)

Test de Friedman

Formulation

H

0

: m

1

= m

2

= . . . = m

k

H

1

: Au moins une m´ ediane diff` ere Sous R

Fonction friedman.test

(87)

Test de Friedman

Statistique

I

X = ((x

ij

)) une matrice de taille k

×

n contenant les observations.

I

R

ij

le rang de x

ij

dans sa colonne, c’est-` a-dire parmi toutes les j

eme

observations.

I

La statistique est

S

F

= 12n

k (k + 1)

k

X

i=1

(R

i.

k + 1 2 )

2

= 12

nk(k + 1)

k

X

i=1

R

2i.

3n(k + 1)

S

F

a une loi qui peut ˆ etre calcul´ ee exactement pour les petits ´ echantillons et qui

suit asymptotiquement une loi du χ

2

` a k

1 ddl pour de grands ´ echantillons.

(88)

III. COMPARER PLUSIEURS VARIABLES

(89)

Question

On consid` ere un couple de variables (X , Y ). Que peut-on dire de la fa¸ con dont X ´ evolue suivant les valeurs de Y ?

Variable quantitative vs variable qualitative

Cela revient ` a comparer les ´ echantillons de valeurs de X correspondant aux

diff´ erentes valeurs de Y . On utilise donc les tests du chapitre pr´ ec´ edent pour

comparer les moyennes/m´ edianes.

(90)

III.3 Deux variables quantitatives :

Tests de corr´ elation

(91)

Ind´ ependance de deux variables qualitatives : test des coefficients de corr´ elation

Corr´ elation de Pearson

corr (x,

y) =

cov(x,

y)

s

x

s

y

> x

[1] 0.78567941 0.05432453 0.89717001 0.91937463 0.22518722 0.73888938 [7] 0.76829641 0.36158277 0.31026795 0.40520112

> y

[1] 0.079708449 0.726701520 0.006416492 0.704536224 0.227744839 0.320827909 [7] 0.339496034 0.671403866 0.079917410 0.682257054

> z

[1] 0.2384315 0.8917615 0.2553335 0.7994183 0.3156023 0.5391647 0.6285664 [8] 0.7197179 0.2830458 0.9801462

> cor(x,y) [1] -0.3106941

> cor(y,z)

[1] 0.9549087

(92)

Ind´ ependance de deux variables qualitatives : test des coefficients de corr´ elation

Corr´ elation des rangs de Spearman

ρ = corr (r(x), r(y)) o` u r(x) d´ esigne l’´ echantillon des rangs tir´ e de

x.

> rank(x)

[1] 8 1 9 10 2 6 7 4 3 5

> rank(y)

[1] 2 10 1 9 4 5 6 7 3 8

> rank(z)

[1] 1 9 2 8 4 5 6 7 3 10

> cor(x,y,method="spearman") [1] -0.2484848

> cor(y,z,method="spearman")

[1] 0.9515152

(93)

Ind´ ependance de deux variables qualitatives : test des coefficients de corr´ elation

Corr´ elation des rangs de Kendall

I

Soit n

c

le nombre de concordances, c’est-` a-dire de paires (x

i

, y

i

) et (x

j

, y

j

) telles que x

i

< x

j

et y

i

< y

j

;

I

Soit n

d

le nombre de discordances, c’est-` a-dire de paires (x

i

, y

i

) et (x

j

, y

j

) telles que x

i

< x

j

et y

i

> y

j

;

Le coefficient de Kendall est alors

τ = n

c

n

d

n(n

1)/2

> rank(x)

[1] 8 1 9 10 2 6 7 4 3 5

> rank(y)

[1] 2 10 1 9 4 5 6 7 3 8

> rank(z)

[1] 1 9 2 8 4 5 6 7 3 10

> cor(x,y,method="kendall") [1] -0.2

> cor(y,z,method="kendall")

[1] 0.8666667

(94)

Ind´ ependance de deux variables qualitatives : test des coefficients de corr´ elation

Interpr´ etation

Ces trois coefficients sont compris entre

−1

et 1 et valent 0 pour des variables ind´ ependantes.

Une valeur significativement positive indique une corr´ elation positive (Y augmente quand X augmente).

Une valeur significativement n´ egative indique une corr´ elation n´ egative (Y

augmente quand X augmente).

(95)

Ind´ ependance de deux variables qualitatives : test des coefficients de corr´ elation

Formulation

H

0

: corr (x,

y) = 0

ou ρ = 0 ou τ = 0 H

1

: corr (x,

y)6= 0

ou ρ

6= 0

ou τ

6= 0

Lat´ eralit´ e

Le test peut ˆ etre men´ e de fa¸ con unilat´ erale pour ne d´ etecter qu’une corr´ elation positive ou qu’une corr´ elation n´ egative.

Sous R

cor.test

(96)

Principe des tests

Test de Pearson

Sous H

0

, ` a condition que le couple (X , Y ) suive une loi normale bivari´ ee ou que l’effectif soit suffisamment important,

S = corr (x , y)

q1−corr(x,y)2

n−2

suit une loi du χ

2

` a n

2 ddl, Tests non paramtrique

Les lois correspondantes sont tabul´ ees.

(97)

Exemple 1 (P. Sprent)

7 d´ eclinaisons d’un mˆ eme produit ont ´ et´ e ´ evalu´ es par des panels de

consommateurs fran¸ cais et allemands. Les rangs obtenus pour les 7 produits sont les suivants. On se demande s’il y a une concardance entre les classements.

F 1 2 3 4 5 6 7

D 3 4 1 5 2 7 6

Spearman : ρ = 0.57, p-valeur de 0.2.

Kendall : 15 concardances, 6 discordances, τ = 0.48, p-valeur de 0.43.

(98)

Exemple 2

Le tableau suivant donne le taux d’ensoleillement (en heures/an) et de pluviom´ etrie (en mm/an) en dix villes situ´ es sur un axe nord-sud. Peut-on parler d’une tendance monotone de croissance de l’ensoleillement le long de cet axe ? De diminution de la pluviom´ etrie ?

Lille Amiens Paris Auxerre Dijon Lyon Orange Marseille Bastia Ajaccio

1617 1608 1630 1710 1789 1932 2596 2851 2533 2726

686 675 641 637 744 843 722 555 835 640

Les tests de corr´ elation peuvent ˆ etre une alternative plus puissante au test de

Cox-Stuart pour la d´ etection de tendance. On peut par exemple caract´ eriser

chaque ville par sa latitude.

Références

Documents relatifs

Aucun document ni calculatrice autoris´ e Toute r´ eponse non justifi´ ee est consid´ er´ ee comme z´ ero Questions :1. Montrer que A

[r]

Dans un ´ echantillon de 300 personnes, pr´ elev´ e dans la population d’une ville A, il y en a 36 qui fument au moins deux paquets de cigarettes par jour.. Dans une autre ville B

Si la valeur absolue de la valeur de la statistique calcul´ ee sur l’´ echantillon, not´ ee t ν,obs est sup´ erieure ou ´ egale ` a c α , alors le test est significatif`. Vous

Un test bilat´ eral s’applique quand vous cherchez une diff´ erence entre deux param` etres, ou entre un param` etre et une valeur donn´ ee sans se pr´ eoccuper du signe ou du sens

` A cha- cune des valeurs ´ egales nous associons un entier au hasard puis nous affectons, par ordre croissant de ces entiers, un rang diff´ erent ` a chaque observation... Les

Objectifs: Savoir effectuer une estimation ponctuelle ou par intervalle de confiance, savoir poser et faire un test, pour l’un des param` etres inconnus : moyenne µ, variance σ 2

L’objectif de l’´ etude est de mettre en place un mod` ele de r´ egression logistique pour pr´ edire la probabilit´ e de que ces patients fassent une apn´ ee du sommeil et