• Aucun résultat trouvé

Comment diagnostiquer la dépendance ?

Dans le document en fr (Page 56-60)

3.2 Outils mathématiques

3.2.1 Comment diagnostiquer la dépendance ?

Classiquement, la caractérisation de la dépendance se mesure à l'aide de co-ecients de corrélation. Le plus connu est le coecient de corrélation linéaire de Pearson R2 utilisé par exemple dans une régression linéaire. Celui-ci ne caractérise que la dépendance linéaire entre deux variables. Pour une dépendance non linéaire, l'utilisation de deux autres coecients de corrélations basés sur les rangs est forte-ment recommandée [37] : le rho de Spearman et le tau de Kendall qui sont dénis comme suit :

Soient X etY deux variables aléatoires continues.

On suppose disposer un n-échantillon de réalisations de X et de Y : X= (Xi)i=1..n et Y= (Yi)i=1..n.

Soit Ri (resp. Si) le rang de Xi (resp. Yi) parmi les n réalisations.

Le Rho de Spearman

L'idée est de calculer la dépendance entre les paires des rangs(Ri, Si). Ceci mène alors directement au calcul du coecient de corrélation de Spearman généralement noté ρn :

ρn =

Pn

i=1(Ri−R) (Si−S) q

Pn

i=1(Ri−R)2 Pn

i=1(Si−S)2

∈ [−1,1]

oùR = 1 n

n

X

i=1

Ri = n+ 1 2 = 1

n

n

X

i=1

Si = S

Le calcul de ce coecient est plus généralement eectué de la façon suivante :

ρn = 12

n(n+ 1) (n−1)

n

X

i=1

RiSi − 3n+ 1

n−1 (3.1)

SiX et Y sont indépendants alors ρn≈0. Plus |ρn| est proche de 1, plus la dépen-dance entre les deux variables est forte. Siρn>0(resp.ρn <0) alors la dépendance

CemOA : archive ouverte d'Irstea / Cemagref

est dite positive (resp. négative).

On note également que sous l'hypothèse H0 : indépendance de X et Y, la distribu-tion deρnest proche d'une loi normale de moyenne 0 et de variance 1/(n−1). Nous pouvons alors rejeter H0 avec un risque α = 5% si

√n−1|ρn| > zα/2 = 1.96.

Le Tau de Kendall

Une autre mesure de dépendance basée sur les rangs couramment utilisée est le tau de Kendall qui se calcule empiriquement de la façon suivante :

τn = Pn−Qn

Cn2 = 4

n(n−1)Pn−1 (3.2)

où Pn (resp. Qn) est le nombre de paires concordantes (resp. discordantes). Deux paires (Xi, Yi),(Xj, Yj) sont dites concordantes si (Xi−Xj)(Yi−Yj)>0 et discor-dantes si (Xi−Xj)(Yi−Yj) < 0. Notons que le cas (Xi−Xj)(Yi−Yj) = 0 a une probabilité nulle de se produire sous l'hypothèse que X et Y soient des variables aléatoires continues.

τn n'est fonction que des rangs des observations et non des valeurs de X etY elles-mêmes. En eet (Xi−Xj)(Yi−Yj)>0si et seulement si (Ri−Rj)×(Si−Sj)>0. Pour donner une expression à Pn, nous introduisons∀i∈1, . . . , n:

Iij =

1 si i=j

1 si Xj < Xi, Yj < Yi 0 sinon

Nous avons alors Pn = 1

2

n

X

i=1

X

j6=i

Iij +Iji =

n

X

i=1

X

j6=i

Iij = −n+

n

X

i=1 n

X

j=1

Iij

puisque Iij +Iji = 1 si et seulement si (Xi, Yi) et (Xj, Yj) sont concordantes.

En notant

Wi = 1 n

n

X

j=1

Iij = 1

n]{j :Xj ≤Xi, Yj ≤Yi} et W = n1 Pn

i=1Wi, on aPn = −n+n2W, ce qui implique τn = 4 n

n−1W − n+ 3

n−1 (3.3)

CemOA : archive ouverte d'Irstea / Cemagref

3.2 Outils mathématiques 45

Comme pour le rho de Spearman, si X etY sont indépendantes alorsτn ≈0. Plus

n| est proche de 1, plus la dépendance entre les deux variables est forte. Si τn>0 (resp. τn <0) alors la dépendance est dite positive (resp. négative).

On note également que sous l'hypothèseH0 : indépendance deXetY, la distribution deτnest proche d'une loi normale de moyenne 0 et de variance2(2n+5)/ 9n(n+1) Nous pouvons alors rejeterH0 avec un risque α = 5% si : .

s

9n(n+ 1)

2(2n+ 5) |τn| > zα/2 = 1.96

Il existe d'autres façons de calculer et de tester la dépendance entre variables.

Mais les deux précedemment présentées ont de bonnes performances et sont facile-ment utilisables. Voir [40, 23] pour d'autres tests qui sont basés sur l'utilisation de copule empirique (voir Section 3.2.2).

Pour compléter les approches numériques basées sur les coecientsρ etτ, nous pré-sentons ci-dessous deux outils graphiques fréquemment utilisés dans la littérature : Chi-Plots et Kendall-Plots.

Chi-Plots

Les Chi-Plots ont été proposés par [31] et approfondis dans [32]. Leurs construc-tions sont basées sur la statistique du χ2 qui est utilisée pour tester l'indépendence dans un tableau de contingence. Nous introduisons alors les variables suivantes :

Hi = 1

n−1]{j 6=i:Xj ≤Xi, Yj ≤Yi} = nWi−1

n−1 (3.4)

Fi = 1

n−1]{j 6=i:Xj ≤Xi} Gi = 1

n−1]{j 6=i:Yj ≤Yi}

Ces quantités ne dépendent que des rangs des observations. [32] proposent de tracer les paires (χi, λi) qui sont dénies comme suit :

χi = Hi−FiGi

pFi(1−Fi)Gi(1−Gi) et

λi = 4.sign(FeiGfi) max(Fei2,fGi2)

CemOA : archive ouverte d'Irstea / Cemagref

où Fei = Fi −1/2 et Gfi = Gi−1/2 pour i ∈ {1, . . . , n}. λi représente la distance du couple (Xi, Yi) par rapport au centre du nuage de points, et √

i est la racine carrée de la statistique du χ2. Pour tester l'indépendance entre les deux variables, une bande de contrôle est alors dénie :0±cp/√

n oùcp est égale à 1.54, 1.78 et 2.18 pour p = 0.9, 0.95, 0.99 respectivement (valeurs estimées à l'aide d'une méthode de Monte-Carlo [32]). L'hypothèse d'indépendance est alors rejetée au risque p s'il y a plus de 100(1− p)% paires (χi, λi) hors de la bande contrôle. De plus, [31]

recommande d'exclure les observations douteuses et de ne considérer dans l'analyse que les couples tels queλi <4 1/(n−1)−0.52

. La Figure 3.4 illustre les Chi-Plots pour des données indépendantes et dépendantes avec unτ = 0.45(n= 500) générées à l'aide d'une copule de Frank (voir Sec. 3.2.5).

●●

● ●

●●

● ●

● ●

●●

−1.0 −0.5 0.0 0.5 1.0

−1.0−0.50.00.51.0

Chi−plot

lambda

Chi

Bande de controle avec p = 0.9 avec p = 0.95 avec p = 0.99

% de couples en dehors des bandes contrôles

IC 90%: 0 % IC 95%: 0 % IC 99%: 0 %

(a) X etY indépendants

● ●

−1.0 −0.5 0.0 0.5 1.0

−1.0−0.50.00.51.0

Chi−plot

lambda

Chi

Bande de controle avec p = 0.9 avec p = 0.95 avec p = 0.99

% de couples en dehors des bandes contrôles

IC 90%: 96 % IC 95%: 95 % IC 99%: 94 %

(b) X et Y dépendantsτ= 0.45

Fig. 3.4 Exemples de Chi-Plots.

Kendall-Plots ou K-Plots

Un autre outil graphique basé sur les rangs a été proposé par [36] pour la visua-lisation de la dépendance. Cette méthode a été inspirée par la notion du QQ-plot.

Cette technique consiste à tracer les paires (Wi:n, H(i)) pouri∈ {1, . . . , n} où H(1) < . . . < H(n)

sont les statistiques d'ordre associées aux quantités H1, . . . , Hn (voir Éq. 3.4). La quantité Wi:n représente l'espérance de la ième statistique d'ordre associé à

l'échan-CemOA : archive ouverte d'Irstea / Cemagref

3.2 Outils mathématiques 47

tillonH de taillen sous l'hypothèse d'indépendance entreX etY. Par dénition, la ième statistique d'ordre s'exprime par :

Wi:n = nCn−1i−1 Z 1

0

wk0(w) K0(w)i−1

1−K0(w)n−i

dw

oùk0 est la densité associée à la distribution K0. [36] proposent alors de prendre la distribution asymptotique K0 dénie par :

K0(w) = P(U V ≤w) = Z 1

0

P(U ≤ w v)dv =

Z w 0

1dv+ Z 1

w

w

vdv = w−lnw oùU etV sont des variables uniformes indépendantes sur [0,1].

L'interprétation des K-plots est semblable à celle d'un QQ-plot. Si les couples(Wi:n, H(i)) se situent sur la bissectrice, on est dans le cas de l'indépendance. Toute déviation par rapport à la bissectrice est signe d'une dépendance entre les variables. Fami-lièrement on peut dire : plus on s'éloigne de la bissectrice, plus la dépendance est grande. La dépendance est positive (resp. négative) si la courbe est au dessus (resp.

en dessous) de la droite y = x. Dans cette construction, la dépendance négative parfaite est représentée par des (Wi:n, H(i)) sur l'axe des abscisses. Au contraire, une dépendance positive parfaite est représentée par un alignement sur la courbe deK0(w). La dénomination Kendall-Plot provient de la relation entre lesH(i) et leτ de Kendall [36]. La Figure 3.5 illustre les K-Plots pour des données indépendantes, dépendantes avec unτ = 0.45et quasi parfaitement dépendantes avec unτ = 0.96 (n= 500), générées à l'aide d'une copule de Frank (voir Sec. 3.2.5).

Dans le document en fr (Page 56-60)