• Aucun résultat trouvé

Deux ´echantillons appari´es : le test de Wilcoxon

Dans le document ´ECOLE NATIONALE DES PONTS ET CHAUSS´EES (Page 104-107)

V.4 Probl`emes ` a deux ´echantillons

V.4.2 Deux ´echantillons appari´es : le test de Wilcoxon

Dans l’exemple V.3 de l’´etude d’une drogue sur la pression art´erielle, on d´esire savoir si l’administration de cette drogue diminue la pression. On peut reformuler cette question de la fa¸con suivante : la loi de la pression art´erielle des patients a-t-elle ´et´e d´ecal´ee vers les valeurs inf´erieures apr`es l’administration de la drogue ?

Pour y r´epondre, on se place dans le mod`ele non param´etrique de d´ecalage suivant : on suppose que les variables (X1, . . . , Xn) (pressions avant administration de la drogue) sont i.i.d.

de fonction de r´epartition F continue et ind´ependantes des variables (Y1, . . . , Yn) (pressions apr`es administration) i.i.d. de fonction de r´epartition Fµ(t) = F(t−µ) o`u µ ∈ R. Dans ce mod`ele, les variables Yi ont mˆeme loi que les variables Xi+µ. En effet,

P(Y1 ≤t) =F(t−µ) =P(X1 ≤t−µ) =P(X1+µ≤t).

On souhaite tester H0 ={µ= 0} contre H1 ={µ <0} (cela revient au mˆeme de choisir H0 ={µ≥0} contreH1 ={µ <0}).

Pour r´epondre `a cette question, on pr´esente le test de Wilcoxon3 construit `a partir de la statistique de Wilcoxon. On ordonne les variablesZi =Xi−Yi suivant l’ordre croissant des valeurs absolues pour obtenir la suite Z(1), . . . , Z(n) avec |Z(1)| ≤ |Z(2)| ≤ . . . ≤ |Z(n)|. On calcule ensuite

T+ = Xn k=1

k1{Z(k)>0}.

3Ce test est ´egalement appel´e test dessignes et rangs.

V.4. PROBL `EMES `A DEUX ´ECHANTILLONS 95 L’expression deT+ mˆele donc les rangs des valeurs absolues des diff´erences Zi =Xi−Yi

et leur signes. Sous H0, ces diff´erences ont une loi sym´etrique autour de 0 : en effet, comme Xi etYi sont ind´ependantes et de mˆeme loi,Xi−Yi a mˆeme loi queYi−Xi. En outre comme F est continue,P(Zi = 0) = 0.

La proposition suivante (assez intuitive), permet alors de d´eterminer la loi deT+sousH0 puisqu’elle assure que les variables al´eatoires (1{Z(k)>0}, 1≤k ≤n) sont alors i.i.d. suivant la loi de Bernoulli B(12) :

Proposition V.16. Si Z suit une loi sym´etrique autour de z´ero telle que P(Z = 0) = 0, alors sa valeur absolue et son signe sont ind´ependants.

D´emonstration. La sym´etrie de la loi deZ, jointe au fait queP(Z= 0) = 0, exprime que siB est une partie bor´elienne de R+ et qu’on note −B sa sym´etrique (−B ={x ≤0 :−x∈B}), on a :

P(|Z| ∈B) =P(Z∈ −B∪B) = 2P(Z ∈B).

Il en r´esulte pour le choix B =R+ que :

P(signe(Z) = +) =P(signe(Z) =−) = 1 2 donc :

P(signe(Z) = +,|Z| ∈B) =P(Z ∈B) = 1

2P(|Z| ∈B) =P(signe(Z) = +)P(|Z| ∈B).

De mˆeme, on a P(signe(Z) =−,|Z| ∈B) = P(signe(Z) = −)P(|Z| ∈ B). La d´efinition de l’ind´ependance entre signe(Z) et |Z|est ainsi v´erifi´ee (voir X.1.4, p. 239).

On d´eduit de la proposition pr´ec´edente que, sous H0, les variables al´eatoires 1{Z(k)>0} sont i.i.d. de loi de Bernoulli B(12). On a ainsi

E[T+] = n(n+ 1) 4

Var T+

= 1 4

Xk2= n(n+ 1) (2n+ 1)

24 .

Et mˆeme si les diff´erents termes deT+ n’ont pas mˆeme variance `a cause du coefficientk, on peut n´eanmoins montrer la normalit´e asymptotique de T+. On consid`ere la statistique de test

ζn= T+n(n+1)4 qn(n+1)(2n+1)

24

.

Proposition V.17. Sous H0, la suite (ζn, n≥1) converge en loi vers la loi normale centr´ee r´eduite N(0,1).

La preuve de cette proposition est donn´ee en annexe en fin de chapitre.

On ´etudie maintenant le comportement de la statistique de test sousH1. Comme|Z(1)| ≤

|Z(2)| ≤. . .≤ |Z(n)|, pour 1≤j ≤k≤n,Z(k)+Z(j) est positif si et seulement si Z(k) l’est.

Donck1{Z(k)>0} =Pk

j=11{Z(j)+Z(k)>0} et

T+= X

1≤j≤k≤n

1{Z(j)+Z(k)>0}.

Mais les doubletons{Z(j), Z(k)}avecj≤ksont en bijection avec les doubletons{Zi, Zj}avec i≤j. D’o`u

T+= X

1ijn

1{Zi+Zj>0}= X

1ijn

1{Xi(Yiµ)+Xj(Yjµ)>2µ},

o`u les variables al´eatoires Yi−µ ont mˆeme loi que lesXi. En utilisant cette expression, on peut d´emontrer que lorsque n tend vers l’infini, ζn tend p.s. vers −∞ ou +∞ suivant que µ >0 ou µ <0.

Ainsi pour l’exemple de l’´etude de l’effet d’une drogue (H1 ={µ <0}), la zone critique est de la forme [a,+∞[.

Remarque V.18. Si on choisit comme hypoth`ese alternative : – H1 ={µ >0}, la zone critique est de la forme ]− ∞,−a],

– H1 ={µ6= 0} alors la zone critique est de la forme ]− ∞, a]∪[a,+∞[.

♦ Pour les petits ´echantillons (n < 20), on consultera les tables pour trouver les valeurs seuils deT+ ou on ´ecrira quelques lignes de programmation afin de simuler un grand nombre de r´ealisations deT+sous l’hypoth`ese nulle. Pour les grands ´echantillons (n≥20), on utilisera l’approximation gaussienne. Ce r´esultat reste approximativement valable quand les donn´ees comportent des ex-aequo. Voyons plus pr´ecis´ement comment traiter ces cas en pratique.

Traitement des ex-aequo

C’est un des probl`emes permanents de la statistique non param´etrique. En th´eorie, on sait pourtant que si on travaille avec des lois F continues, il ne devrait pas apparaˆıtre d’ex-aequo (probabilit´e d’occurrence nulle !). En pratique, on en trouve souvent et surtout quand on travaille sur des notes. Par exemple, si un ou plusieurs examinateurs notent 200 individus de 1 `a 20, on est assur´e de trouver des ex-aequo en grand nombre. Ce probl`eme est donc incontournable en pratique. Nous donnons ci-dessous les trois principales r´eponses possibles et qui s’appliquent `a l’ensemble des tests de ce chapitre.

– Randomisation: on d´epartage tous les ex-aequo par un tirage au sort auxiliaire : on jette une pi`ece en l’air... Cette m´ethode est la plus s´eduisante sur le plan th´eorique, cependant elle a l’inconv´enient d’introduire un hasard exog`ene qui peut “brouiller” les r´esultats pour les petits ´echantillons.

– Suppression: dans un test de signe, si on a deux donn´ees appari´ees ´egales, on supprime la paire correspondante.

V.4. PROBL `EMES `A DEUX ´ECHANTILLONS 97 – Rang moyen : dans les tests de rangs, quand plusieurs valeurs sont ´egales, on leur donne la moyenne des rangs qu’elles auraient si elles ´etaient diff´erentes. C’est la m´ethode la plus employ´ee dans les tests de rangs, et c’est celle que nous conseillons, et que nous utiliserons dans les exemples `a venir. Elle n’est pas parfai-tement rigoureuse sur le plan th´eorique, mais pour la plupart des tests, il existe des corrections pour tenir compte des ´egalisations.

Exemple V.19. Revenons sur l’exemple V.3 concernant l’´etude de l’effet d’une certaine drogue.

(X−Y) -4 +4 +21 +3 -3 +31 +17 +2

rang(|X−Y|) 4.5 4.5 7 2.5 2.5 8 6 1

rang des dif.≥0 4.5 7 2.5 8 6 1

On en d´eduit t+ = 29. Des simulations ou une table de Wilcoxon donne la p-valeur sous H0 :P(T+≥29) = 0.074. Au niveau de signification de 0.05 (comme pour tout niveau inf´erieur `a 0.074),t+= 29 tombe dans la r´egion d’acceptation deH0; la drogue n’a pas d’effet significatif sur la tension.

Dans le document ´ECOLE NATIONALE DES PONTS ET CHAUSS´EES (Page 104-107)