• Aucun résultat trouvé

Association de variables quantitatives

N/A
N/A
Protected

Academic year: 2022

Partager "Association de variables quantitatives"

Copied!
217
0
0

Texte intégral

(1)

1/217

Coefficient de corrélation simple Le cas bidimensionnel Le cas général(n>2) Corrélation multiple Corrélation partielle

Association de variables quantitatives

Cas paramétrique gaussien

Myriam Maumy-Bertrand & Marie Chion1

1IRMA, Université de Strasbourg Strasbourg, France

Master 1 2019-2020

1 / 217 Myriam Maumy-Bertrand & Marie Chion Association de variables quantitatives

(2)

2/217

1 Coefficient de corrélation simple Introduction

2 Le cas bidimensionnel

Loi normale bidimensionnelle Estimation des paramètres Procédure de test

Remarques sur les liaisons

(3)

3/217

Coefficient de corrélation simple Le cas bidimensionnel Le cas général(n>2) Corrélation multiple Corrélation partielle

Sommaire

3 Le cas général(n>2) Loi multinormale Estimation

Test de l’hypothèseρij =0

Test de l’hypothèseρij006=0

3 / 217 Myriam Maumy-Bertrand & Marie Chion Association de variables quantitatives

(4)

4/217

4 Corrélation multiple Définition

Estimation Asymptotique

Test de l’hypothèseR(X1,X2) =0

Test de l’hypothèseR(X1,X2) =R0,R06=0

(5)

5/217

Coefficient de corrélation simple Le cas bidimensionnel Le cas général(n>2) Corrélation multiple Corrélation partielle

Sommaire

5 Corrélation partielle Définition

Estimation Asymptotique

Test de l’hypothèseρi,j|q+1,...,m=0

Test de l’hypothèseρi,j|q+1,...,m006=0 Cas de trois variables réelles

5 / 217 Myriam Maumy-Bertrand & Marie Chion Association de variables quantitatives

(6)

6/217

1 Coefficient de corrélation simple Introduction

(7)

7/217

Coefficient de corrélation simple Le cas bidimensionnel Le cas général(n>2) Corrélation multiple Corrélation partielle

Introduction

Introduction

Le coefficient de corrélation simpleρ(X,Y)mesure le degré d’association linéaire entre deux variables aléatoiresX etY.

ρ(X,Y) =Cor(X,Y) = Cov[X,Y] (Var[X]×Var[Y])12

.

On a toujours−16ρ(X,Y)61.

7 / 217 Myriam Maumy-Bertrand & Marie Chion Association de variables quantitatives

(8)

8/217

Introduction

Lorsqueρ(X,Y) =0, on dit que les deux variables aléatoiresX etY sont non corrélées. Attention, ne pas être corrélés ne signifie pas généralement être indépendants. Mais

l’indépendance implique toujours l’absence de corrélation.

Exemple

PrenonsX ∼ N(0,1)etY =X2, on sait alors queY ∼χ21une loi duχ2à un degré de liberté. Ainsi les propriétés classiques d’une loi duχ2impliquent queE[Y] =1 etVar[Y] =2.

(9)

9/217

Coefficient de corrélation simple Le cas bidimensionnel Le cas général(n>2) Corrélation multiple Corrélation partielle

Introduction

Exemple

Remarquez que nous ne sommes donc pas dans le cas qui sera développé plus tard où le couple(X,Y)suit une loi normale bidimensionnelle. On a alors :

ρ(X,Y) = Cor(X,Y) = Cov[X,Y] (Var[X]×Var[Y])12

= E

(X0)(X21) (1×2)12

= 1

2E

X3X

= 1

2 E

X3

E[X]

=00=0,

carX suit une loi normale centrée donc symétrique par rapport à 0. Pourtant il est clair que les deux variables aléatoiresX et Y =X2ne sont pas indépendantes !

9 / 217 Myriam Maumy-Bertrand & Marie Chion Association de variables quantitatives

(10)

10/217

(11)

11/217

Coefficient de corrélation simple Le cas bidimensionnel Le cas général(n>2) Corrélation multiple Corrélation partielle

Introduction

Exemple

En bleu la relation entre les deux variables aléatoiresX et Y =X2, en rouge 50 points qui sont autant de réalisations du couple(X,X2). On calculera page 27 la valeur de la statistique de corrélation linéaire à partir de l’échantillon formé des points en rouge.

11 / 217 Myriam Maumy-Bertrand & Marie Chion Association de variables quantitatives

(12)

12/217

Propriétés

Il faut donc toujours garder en mémoire que le coefficient de corrélation ne mesure que ledegré d’association linéaire entre deux variables aléatoires. Nous verrons dans les sections suivantes quels outils utiliser lorsque l’on suspecte que

l’association n’est pas nécessairement linéaire.

Lorsque|ρ(X,Y)|=1 alors, avec une probabilité de 1,

Y =aX+bpour des constantes réellesa, du même signe que ρ(X,Y), etb.

(13)

13/217

Coefficient de corrélation simple Le cas bidimensionnel Le cas général(n>2) Corrélation multiple Corrélation partielle

Introduction

Introduction

Le coefficient de corrélation est invariant par transformation linéaire. SiCor(X,Y) =ρ(X,Y)et que l’on pose :

X0 = aX +b, Y0 = cY +d, alorsCor(X0,Y0) =Cor(X,Y) =ρ(X,Y).

Ceci a une conséquence extrêmement importante : on peut aussi bien travailler avec les variables brutes qu’avec les variables centrées réduites pour l’étude de la corrélation.

13 / 217 Myriam Maumy-Bertrand & Marie Chion Association de variables quantitatives

(14)

14/217

2 Le cas bidimensionnel

Loi normale bidimensionnelle Estimation des paramètres Procédure de test

Remarques sur les liaisons

(15)

15/217

Coefficient de corrélation simple Le cas bidimensionnel Le cas général(n>2) Corrélation multiple Corrélation partielle

Loi normale bidimensionnelle Estimation des paramètres Procédure de test Remarques sur les liaisons

Supposons que l’on dispose d’un vecteur aléatoire(X,Y) gaussien.

Nous verrons dans la suite, au moment de tester cette hypothèse, qu’un vecteur aléatoire(X,Y)n’est pas

nécéssairement gaussien siX etY suivent des lois normalesa.

a. Voir l’ouvrage de J.-Y. Ouvrard [5], exercice 13.1 page 276, pour un contre-exemple.

15 / 217 Myriam Maumy-Bertrand & Marie Chion Association de variables quantitatives

(16)

16/217

L’hypothèse que l’on fait porte sur le couple et est de ce fait plus délicate à tester que simplement tester la normalité de l’échantillonx issu deX et celle de l’échantillony issu deY. Commençons par rappeler ce que l’on entend par la loi d’un vecteur aléatoire gaussien à deux dimensions.

(17)

17/217

Coefficient de corrélation simple Le cas bidimensionnel Le cas général(n>2) Corrélation multiple Corrélation partielle

Loi normale bidimensionnelle Estimation des paramètres Procédure de test Remarques sur les liaisons

Définition

Loi normale bidimensionnelle

La densité de la loi normale à deux dimensions est : f(x,y) = Kexp

−1

2P(x,y)

où :

K = 1

2πσXσYp

1ρ(X,Y)2, P(x,y) = 1

1ρ(X,Y)2 ×

"

(xmX)2

σX2 2ρ(X,Y)(xmX) (y mY)

σXσY +(ymY)2 σY2

# .

17 / 217 Myriam Maumy-Bertrand & Marie Chion Association de variables quantitatives

(18)

18/217

Définition

Loi normale bidimensionnelle

Cette loi dépend donc des cinq paramètres : mX, mYXY et ρ(X,Y).

Les quatre premiers sont les moyennes et les écarts types des deux lois marginales, la loi deX et celle deY, qui sont des lois normales,X ∼ N mX, σX2

etY ∼ N mY, σY2 .

(19)

19/217

Coefficient de corrélation simple Le cas bidimensionnel Le cas général(n>2) Corrélation multiple Corrélation partielle

Loi normale bidimensionnelle Estimation des paramètres Procédure de test Remarques sur les liaisons

Les lois liées, c’est-à-dire la probabilité d’obtenir une valeur Y =y sachant que l’on a obtenuX =x ou d’obtenir une valeur X =x sachant que l’on a obtenu une valeurY =y sont

également des lois normales dont les paramètres respectifs

mY|X=x, σ2Y|X=x et

mX|Y=y, σX2|Y=y

s’expriment ainsi :

19 / 217 Myriam Maumy-Bertrand & Marie Chion Association de variables quantitatives

(20)

20/217

mY|X=x = mY +ρ(X,Y)σY

σX (x−mX), σY2|X=x = σY2

1−ρ(X,Y)2

. mX|Y=y = mX+ρ(X,Y)σX

σY (y−mY), σX|Y2 =y = σX2

1−ρ(X,Y)2

.

(21)

21/217

Coefficient de corrélation simple Le cas bidimensionnel Le cas général(n>2) Corrélation multiple Corrélation partielle

Loi normale bidimensionnelle Estimation des paramètres Procédure de test Remarques sur les liaisons

On remarque que :

• La variance de chacune des lois liées est constante : elle ne dépend pas de la valeur deX ou deY prise en compte pour la calculer, c’est-à-dire du nombrex, qui intervient dansσY|X=x, respectivementy, qui intervient dansσX|Y=y, pour lequel elle est calculée.

21 / 217 Myriam Maumy-Bertrand & Marie Chion Association de variables quantitatives

(22)

22/217

• La moyenne de chacune des lois liées varie linéairement avec la variable liée. On peut donc parler de deux droites de régression :

DYX : y−mY = ρ(X,Y)σY

σX (x −mX), DXY : x−mX = ρ(X,Y)σX

σY (y −mY).

(23)

23/217

Coefficient de corrélation simple Le cas bidimensionnel Le cas général(n>2) Corrélation multiple Corrélation partielle

Loi normale bidimensionnelle Estimation des paramètres Procédure de test Remarques sur les liaisons

• ρ(X,Y)est le coefficient de corrélation linéaire : ρ(X,Y) = Cov[X,Y]

(Var[X]×Var[Y])12

= E[(X −mX)×(Y −mY)]

h E

h

(X−mX)2 i

×E h

(Y−mY)2 ii12

.

23 / 217 Myriam Maumy-Bertrand & Marie Chion Association de variables quantitatives

(24)

24/217

ρ(X,Y) =0 est une conditionnécessaire et suffisante pour que les deux variables aléatoiresX etY soient indépendantes car ici on a unehypothèsede normalité bidimensionnellesupplémentaire, voir page 7 pour la situation générale.

(25)

25/217

Coefficient de corrélation simple Le cas bidimensionnel Le cas général(n>2) Corrélation multiple Corrélation partielle

Loi normale bidimensionnelle Estimation des paramètres Procédure de test Remarques sur les liaisons

Siρ(X,Y) =±1, les deux droites sont confondues et il y a une relation fonctionnelle entreX etY. Plus précisement, (X−mX)et(Y −mY)sont colinéaires, c’est-à-dire qu’il existeλetµdeux nombres réels tels que

λ(X−mX) +µ(Y −mY) =0. On reconnaît dans la formule précédente l’équation d’une droite. Ainsi si

ρ(X,Y) =±1, les deux variablesX etY sont liées par une relation fonctionnelle linéaire.

25 / 217 Myriam Maumy-Bertrand & Marie Chion Association de variables quantitatives

(26)

26/217

La valeur absolue deρ(X,Y)est toujours inférieure ou égale à 1. Plusρ(X,Y)est proche de cette valeur, plus la liaison entreX etY est serrée. Si l’on considère un échantillon((x1,y1), . . . ,(xn,yn))de réalisations du couple (X,Y), la dispersion des couples de points(xi,yi)autour des droites est d’autant plus faible que les deux droites sont plus proches l’une de l’autre.

• ρ(X,Y)2est égal au coefficient de déterminationR2que l’on trouve dans le contexte de la régression linéaire simple.

(27)

27/217

Coefficient de corrélation simple Le cas bidimensionnel Le cas général(n>2) Corrélation multiple Corrélation partielle

Loi normale bidimensionnelle Estimation des paramètres Procédure de test Remarques sur les liaisons

Estimation des paramètres

On considère unn−échantillon(X1,Y1), . . . ,(Xn,Yn)

indépendant et identiquement distribué suivant la loi de(X,Y), qui est une loi normale bidimensionnelle.

Les estimateurs des moyennesmX etmY et des écarts types σX etσY que nous allons utiliser sont :

27 / 217 Myriam Maumy-Bertrand & Marie Chion Association de variables quantitatives

(28)

28/217

dmX = X = 1 n

n

X

i=1

Xi,

dmY = Y = 1 n

n

X

i=1

Yi,

σcX2 = 1 n−1

n

X

i=1

Xi−X2

,

(29)

29/217

Coefficient de corrélation simple Le cas bidimensionnel Le cas général(n>2) Corrélation multiple Corrélation partielle

Loi normale bidimensionnelle Estimation des paramètres Procédure de test Remarques sur les liaisons

σcY2 = 1 n−1

n

X

i=1

Yi−Y2

,

σcX = v u u t

1 n−1

n

X

i=1

Xi−X2

= q

σc2X,

σcY = v u u t

1 n−1

n

X

i=1

Yi−Y2

= q

σcY2.

29 / 217 Myriam Maumy-Bertrand & Marie Chion Association de variables quantitatives

(30)

30/217

Par convention et par soucis d’alléger les notations, on noteX à la place dedmX.

Les quatre premiers estimateurs ci-dessus sont des estimateurssans biaiset convergents :

E dmX

= mX Var dmX

= σX2 n , E

dmY

= mY Var dmY

= σ2Y n ,

(31)

31/217

Coefficient de corrélation simple Le cas bidimensionnel Le cas général(n>2) Corrélation multiple Corrélation partielle

Loi normale bidimensionnelle Estimation des paramètres Procédure de test Remarques sur les liaisons

E h

σc2Xi

= σX2 Varh σc2Xi

= 2σX4 n−1, E

h σcY2

i

= σY2 Var h

σc2Y i

= 2σ4Y n−1.

31 / 217 Myriam Maumy-Bertrand & Marie Chion Association de variables quantitatives

(32)

32/217

Les deux derniers sontbiaiséset convergents :

E[σcX] =

r 2 n−1

Γn 2 Γ

n−1 2

σX =

1− 3 4n +o

1 n

σX,

Var[σcX] = 1 n−1

n−1−

2Γn 2

2

Γ

n−1 2

2

 σ2X,

(33)

33/217

Coefficient de corrélation simple Le cas bidimensionnel Le cas général(n>2) Corrélation multiple Corrélation partielle

Loi normale bidimensionnelle Estimation des paramètres Procédure de test Remarques sur les liaisons

E[σcY] =

r 2 n−1

Γ n

2 Γ

n−1 2

σY =

1− 3 4n +o

1 n

σY,

Var[σcY] = 1 n−1

n−1−

2Γn 2

2

Γ

n−1 2

2

 σY2,

33 / 217 Myriam Maumy-Bertrand & Marie Chion Association de variables quantitatives

(34)

34/217

oùo(1/n)est une fonction qui tend vers 0 plus vite que 1/net Γ (x)est une fonction mathématique définie à l’aide d’une intégrale !

Il serait possible de corriger le biais de l’estimateurσcX, en posant :σcXcorrigé=

rn−1 2

Γ

n−1 2

Γn

2

σcX.

(35)

35/217

Coefficient de corrélation simple Le cas bidimensionnel Le cas général(n>2) Corrélation multiple Corrélation partielle

Loi normale bidimensionnelle Estimation des paramètres Procédure de test Remarques sur les liaisons

Néanmoins l’obtention d’un intervalle de confiance reste délicate puisque la loi de cet estimateur n’est pas classique.

P. Chapouille, dans son livre [2], propose la formule approximative :

σcXcorrigé ≈σcX

r2n−2 2n−3 ≈σcX

1+ 1

4n−6

.

35 / 217 Myriam Maumy-Bertrand & Marie Chion Association de variables quantitatives

(36)

36/217

La situation est beaucoup plus compliquée que pour les estimateurs ci-dessus.

On comprend ainsi pourquoi on préfère estimer la variance d’une loi normale à la place de son écart type.

« Heureusement », les deux paramètres qui ont été choisis pour définir une loi normale sont sa moyenne et sa variance.

(37)

37/217

Coefficient de corrélation simple Le cas bidimensionnel Le cas général(n>2) Corrélation multiple Corrélation partielle

Loi normale bidimensionnelle Estimation des paramètres Procédure de test Remarques sur les liaisons

Au passage on remarque que la racine carrée d’un estimateur sans biais n’est pas nécessairement sans biais.

Le coefficient de corrélation linéaireρ(X,Y)est un rapport.

Pour estimer ce rapport nous allons estimer le numérateur Cov[X,Y]et le dénominateur(Var[X]×Var[Y])12.

37 / 217 Myriam Maumy-Bertrand & Marie Chion Association de variables quantitatives

(38)

38/217

En ce qui concerne le dénominateur, nous verrons qu’il suffit d’utiliser les estimateursσcX etσcY ci-dessus. Un estimateur du numérateur peut être défini par la quantité :

Cov\[X,Y] = 1 n−1

n

X

i=1

Xi−X

Yi−Y

= 1

n−1

n

X

i=1

(Xi×Yi)− n

n−1X×Y.

(39)

39/217

Coefficient de corrélation simple Le cas bidimensionnel Le cas général(n>2) Corrélation multiple Corrélation partielle

Loi normale bidimensionnelle Estimation des paramètres Procédure de test Remarques sur les liaisons

C’est un estimateur sans biais et convergent deCov[X,Y]: E

h

Cov\[X,Y] i

=Cov[X,Y].

Notez la similitude avec l’estimateur corrigé de la variance. Ici aussi apparaît au dénominateur le nombren−1.

39 / 217 Myriam Maumy-Bertrand & Marie Chion Association de variables quantitatives

(40)

40/217

L’estimateur du coefficient de corrélationρ(X,Y), que nous allons utiliser, estρ(X,\Y)défini par :

ρ(X\,Y) = 1 n−1

n

X

i=1

Xi−X

× Yi−Y

σc2X ×σcY2 12

= 1 n−1

n

X

i=1

Xi−X

× Yi−Y σcX ×σcY

(41)

41/217

Coefficient de corrélation simple Le cas bidimensionnel Le cas général(n>2) Corrélation multiple Corrélation partielle

Loi normale bidimensionnelle Estimation des paramètres Procédure de test Remarques sur les liaisons

41 / 217 Myriam Maumy-Bertrand & Marie Chion Association de variables quantitatives

(42)

42/217

=

1 n−1

n

X

i=1

Xi−X

× Yi−Y 1

n−1

n

X

i=1

Xi−X2

× 1 n−1

n

X

i=1

Yi−Y2

!1

2

=

1 n−1

n

X

i=1

Xi−X

× Yi−Y 1

n−1

n

X

i=1

Xi−X2

×

n

X

i=1

Yi−Y2

!12

(43)

43/217

Coefficient de corrélation simple Le cas bidimensionnel Le cas général(n>2) Corrélation multiple Corrélation partielle

Loi normale bidimensionnelle Estimation des paramètres Procédure de test Remarques sur les liaisons

43 / 217 Myriam Maumy-Bertrand & Marie Chion Association de variables quantitatives

(44)

44/217

=

n

X

i=1

Xi−X

× Yi−Y

n

X

i=1

Xi−X2

×

n

X

i=1

Yi−Y2

!1

2

=

n

X

i=1

(Xi×Yi)−X ×Y

n

X

i=1

Xi2−X2

!12 n X

i=1

Yi2−Y2

!12 .

(45)

45/217

Coefficient de corrélation simple Le cas bidimensionnel Le cas général(n>2) Corrélation multiple Corrélation partielle

Loi normale bidimensionnelle Estimation des paramètres Procédure de test Remarques sur les liaisons

L’étude des propriétés de cet estimateur est plus complexe puisqu’il s’agit d’un rapport de variables aléatoires qui ne sont pas indépendantes. Il s’agit d’un estimateurbiaiséet

convergent deρ(X,Y): E

hρ(X\,Y)i

= ρ(X,Y)−ρ(X,Y)(1−ρ(X,Y)2) 2n

Varh

ρ(X\,Y)i

= (1−ρ(X,Y)2)2

n +o

1 n

,

oùo(1/n)est une fonction qui tend vers 0 lorsquentend vers +∞plus vite que 1/n.

45 / 217 Myriam Maumy-Bertrand & Marie Chion Association de variables quantitatives

(46)

46/217

La distribution asymptotique deρ(X,Y)est :

√n(ρ(X\,Y)−ρ(X,Y))≈ N

0,

1−ρ(X,Y)22 . Ce résultat n’est pas assez précis pour permettre de résoudre les problèmes qui nous intéressent généralement. On l’utilisera uniquement si l’on ne peut pas faire autrement et sin>30.

(47)

47/217

Coefficient de corrélation simple Le cas bidimensionnel Le cas général(n>2) Corrélation multiple Corrélation partielle

Loi normale bidimensionnelle Estimation des paramètres Procédure de test Remarques sur les liaisons

Ainsi lorsque l’on dispose d’un échantillon(x1,y1), . . . ,(xn,yn) de réalisations du couple(X,Y)on obtient les estimations des paramètres de la loi normale bidimensionnelle suivie par(X,Y) en utilisant les formules ci-dessous qui sont les réalisations des estimateurs ci-dessus sur notre échantillon. On notex

l’échantillon(x1, . . . ,xn),y l’échantillon(y1, . . . ,yn)et(x,y) l’échantillon(x1,y1), . . . ,(xn,yn).

47 / 217 Myriam Maumy-Bertrand & Marie Chion Association de variables quantitatives

(48)

48/217

Les estimations des moyennesmX etmY et des écarts types σX etσY sont :

dmX(x) = x = 1 n

n

X

i=1

xi,

dmY(y) = y = 1 n

n

X

i=1

yi,

σcX2(x) = 1 n−1

n

X

i=1

(xi−x)2,

(49)

49/217

Coefficient de corrélation simple Le cas bidimensionnel Le cas général(n>2) Corrélation multiple Corrélation partielle

Loi normale bidimensionnelle Estimation des paramètres Procédure de test Remarques sur les liaisons

σc2Y(y) = 1 n−1

n

X

i=1

(yi−y)2,

σcX(x) = v u u t

1 n−1

n

X

i=1

(xi−x)2,

σcY(y) = v u u t

1 n−1

n

X

i=1

(yi−y)2.

49 / 217 Myriam Maumy-Bertrand & Marie Chion Association de variables quantitatives

(50)

50/217

On notex bien qu’il s’agisse de la moyenne de l’échantillonx et que de ce fait on pourrait également écrirex. Il s’agit là aussi d’une convention mais si l’on voulait être cohérent avec les notations utilisées pour les autres estimateurs on devrait écrire dmX(x).

(51)

51/217

Coefficient de corrélation simple Le cas bidimensionnel Le cas général(n>2) Corrélation multiple Corrélation partielle

Loi normale bidimensionnelle Estimation des paramètres Procédure de test Remarques sur les liaisons

L’estimation de la covarianceCov[X,Y]est donnée par : Cov\[X,Y](x,y) = 1

n−1

n

X

i=1

(xi−x)×(yi−y).

51 / 217 Myriam Maumy-Bertrand & Marie Chion Association de variables quantitatives

(52)

52/217

L’estimation du coefficient de corrélationρ(X,Y)est donnée par :

ρ(X\,Y)(x,y) = 1 n−1

n

X

i=1

(xi−x)×(yi−y)

σcX2(x)×σcY2(y)12

= 1 n−1

n

X

i=1

(xi−x)×(yi−y) σcX(x)×σcY(y)

(53)

53/217

Coefficient de corrélation simple Le cas bidimensionnel Le cas général(n>2) Corrélation multiple Corrélation partielle

Loi normale bidimensionnelle Estimation des paramètres Procédure de test Remarques sur les liaisons

53 / 217 Myriam Maumy-Bertrand & Marie Chion Association de variables quantitatives

(54)

54/217

=

n

X

i=1

(xi−x)×(yi−y)

n

X

i=1

(xi−x)2×

n

X

i=1

(yi−y)2

!1

2

=

n

X

i=1

(xi×yi)−x×y

n

X

i=1

xi2−x2

!12

×

n

X

i=1

yi2−y2

!12 .

(55)

55/217

Coefficient de corrélation simple Le cas bidimensionnel Le cas général(n>2) Corrélation multiple Corrélation partielle

Loi normale bidimensionnelle Estimation des paramètres Procédure de test Remarques sur les liaisons

Exemple

On évalue la formule ci-dessus pour l’échantillon représenté en rouge page 7 :

Pearson correlation of Y and X = 0,006

55 / 217 Myriam Maumy-Bertrand & Marie Chion Association de variables quantitatives

(56)

56/217

Sous l’hypothèse nulleH0: «X etY sont indépendantes », la variable :

n−2 ρ(X\,Y) q

1−ρ(X\,Y)2

suit une loi de StudentTn−2àn−2 degrés de liberté.

(57)

57/217

Coefficient de corrélation simple Le cas bidimensionnel Le cas général(n>2) Corrélation multiple Corrélation partielle

Loi normale bidimensionnelle Estimation des paramètres Procédure de test Remarques sur les liaisons

Ceci permet de réaliser le test suivant : H0:ρ(X,Y) =0

contre H1:ρ(X,Y)6=0.

Pour prendre une décision associée à un test de niveau

(1−α) %, il suffit donc de trouver la valeur critique d’une loi de Student àn−2 degrés de liberté pourα/2.

57 / 217 Myriam Maumy-Bertrand & Marie Chion Association de variables quantitatives

(58)

58/217

Il est également possible, en réalisant un test unilatéral, de tester les hypothèses suivantes :

H0:ρ(X,Y) =0 contre H1:ρ(X,Y)>0.

(59)

59/217

Coefficient de corrélation simple Le cas bidimensionnel Le cas général(n>2) Corrélation multiple Corrélation partielle

Loi normale bidimensionnelle Estimation des paramètres Procédure de test Remarques sur les liaisons

ou encore

H0:ρ(X,Y) =0 contre H1:ρ(X,Y)<0.

59 / 217 Myriam Maumy-Bertrand & Marie Chion Association de variables quantitatives

(60)

60/217

Notons que, siρ06=0, la propriété ci-dessus ne permet pas de tester des hypothèses du type :

H0:ρ(X,Y) =ρ0 contre H1:ρ(X,Y)6=ρ0.

Pour procéder à ces types de test, on utilise la transformation de Fisher

(61)

61/217

Coefficient de corrélation simple Le cas bidimensionnel Le cas général(n>2) Corrélation multiple Corrélation partielle

Loi normale bidimensionnelle Estimation des paramètres Procédure de test Remarques sur les liaisons

Il existe d’autres transformations pour obtenir des intervalles de confiance pourρ(X,Y), par exemple l’approximation de Ruben qui semble être plus précise mais encore plus complexe que celle de Fisher.

On peut par exemple montrer que, quelque soit la valeur du coefficient de corrélationρ(X,Y), la variable aléatoire (R−ρ(X,Y))

q

(n−2)/

(1−R2)(1−ρ(X,Y)2) suit

approximativement une loiTn−2de Student àn−2 degrés de liberté. On retrouve le résultat de la page 56 établi lorsque ρ(X,Y) =0. Pour plus de détails voir [1] et [4].

61 / 217 Myriam Maumy-Bertrand & Marie Chion Association de variables quantitatives

(62)

62/217

En effet, Fisher, le premier, a démontré que si l’on introduit les deux variables :

Z(X,Y) = 1 2ln

1+ρ(X,Y) 1−ρ(X,Y)

= tanh−1(ρ(X,Y)),

(63)

63/217

Coefficient de corrélation simple Le cas bidimensionnel Le cas général(n>2) Corrélation multiple Corrélation partielle

Loi normale bidimensionnelle Estimation des paramètres Procédure de test Remarques sur les liaisons

Z\(X,Y) = 1

2ln 1+ρ(X,\Y) 1−ρ(X,\Y)

!

= tanh−1

ρ(X\,Y) ,

alors la différenceZ\(X,Y)−Z(X,Y)suit une loi voisine de la loi normale de moyenneρ(X,Y)/(2(n−1))et de variance proche de 1/(n−3).

63 / 217 Myriam Maumy-Bertrand & Marie Chion Association de variables quantitatives

(64)

64/217

On approximera donc dans le cas général la loi de cette

différence par une loiN(ρ(X,Y)/(2(n−1)),1/(n−3))et sous une hypothèse d’indépendance entreX etY, qui implique donc ρ(X,Y) =0, par une loiN(0,1/(n−3)).

Pour passer des résultats obtenus pourZ(X,Y)à des résultats concernantρ(X,Y), on utilise la transformation inverse de celle de Fisher :

(65)

65/217

Coefficient de corrélation simple Le cas bidimensionnel Le cas général(n>2) Corrélation multiple Corrélation partielle

Loi normale bidimensionnelle Estimation des paramètres Procédure de test Remarques sur les liaisons

ρ(X,Y) = exp (2Z(X,Y))−1 exp (2Z(X,Y)) +1 ρ(X,Y) = tanh(Z(X,Y)).

La plupart des logiciels de statistique permettent de calculer les estimations par intervalles deρ(X,Y). Certains proposent même des intervalles de confiance exacts.

65 / 217 Myriam Maumy-Bertrand & Marie Chion Association de variables quantitatives

(66)

66/217

• L’existence de deux droites de régression dans les études de corrélation est embarassante car elle amène à la question suivante : laquelle des deux droites

représente-t-elle le mieux la réalité ? On ne peut trancher sans utiliser la notion de causalité : si l’on pense queX est la cause deY, on retiendra la droiteDYX qui est la

régression de la variable dépendante par rapport à la variable cause.

(67)

67/217

Coefficient de corrélation simple Le cas bidimensionnel Le cas général(n>2) Corrélation multiple Corrélation partielle

Loi normale bidimensionnelle Estimation des paramètres Procédure de test Remarques sur les liaisons

Dans les cas où l’on ne peut établir une relation de cause à effet, il n’y a pas lieu de fixer son attention sur l’une des droites de régression plutôt que sur l’autre. Le coefficient de corrélation linéaireρ(X,Y)est alors le paramètre le plus intéressant ; quelque soit sa valeur, positive ou négative, il ne préjuge en rien d’un quelconque rapport de cause à effet entre les variables étudiées.

67 / 217 Myriam Maumy-Bertrand & Marie Chion Association de variables quantitatives

(68)

68/217

Dans tous les cas, l’interprétation de toute étude de liaison mérite beaucoup de réflexions, et seules les raisons physiques ou biologiques et non statistiques pourront permettre de porter des jugements de cause à effet.

• Lorsque l’on trouve une courbe de régression qui serre de près le phénomène étudié, il faut se garder de conclure que cette formule traduit la loi exacte qui gouverne le phénomène.

(69)

69/217

Coefficient de corrélation simple Le cas bidimensionnel Le cas général(n>2) Corrélation multiple Corrélation partielle

Loi normale bidimensionnelle Estimation des paramètres Procédure de test Remarques sur les liaisons

• Enfin signalons que souvent deux variablesX etY sont fortement corrélées avec une troisièmeZ, le temps par exemple, et on peut conclure à une corrélation significative entreX etY, alors qu’à priori il n’y a aucune relation entre ces deux grandeurs si ce n’est leur liaison avecZ. On sent alors la nécessité d’introduire une mesure de liaison qui permettra de connaître l’association deX etY en éliminant l’influence deZ : il s’agit de la notion de corrélation partiellequi sera étudiée aux paragraphes vignette 128,??et??.

69 / 217 Myriam Maumy-Bertrand & Marie Chion Association de variables quantitatives

(70)

70/217

3 Le cas général(n>2) Loi multinormale Estimation

Test de l’hypothèseρij =0

Test de l’hypothèseρij006=0

(71)

71/217

Coefficient de corrélation simple Le cas bidimensionnel Le cas général(n>2) Corrélation multiple Corrélation partielle

Loi multinormale Estimation

Test de l’hypothèseρij=0 Test de l’hypothèseρij=ρ0,ρ06=0

On considère un vecteur gaussien de dimensionp>1 : X = (X1, . . . ,Xp).

Un tel vecteur est entièrement déterminé par la connaissance de

sa moyenneµ(X)

et de sa matrice de variance-covarianceΣ(X).

Il s’agit d’une extension de ce que nous venons de voir pour le cas bidimensionnel.

71 / 217 Myriam Maumy-Bertrand & Marie Chion Association de variables quantitatives

(72)

72/217

En termes plus clairs, il suffit de connaître :

µ(X) = (µ1, . . . , µp) = (E[X1], . . . ,E[Xp]), Σ(X) = σi,j =Cov

Xi,Xj

16i,j6p

=

Var[X1] . . . Cov[X1,Xp] ... . .. ... Cov[Xp,X1] · · · Var[Xp]

.

(73)

73/217

Coefficient de corrélation simple Le cas bidimensionnel Le cas général(n>2) Corrélation multiple Corrélation partielle

Loi multinormale Estimation

Test de l’hypothèseρij=0 Test de l’hypothèseρij=ρ0,ρ06=0

On introduit alors la matrice des corrélationsρ(X)entre les composantesXi, 16i6pdeX :

ρ(X) = ρi,j =Cor

Xi,Xj

16i,j6p

=

1 . . . Cov[X1,Xp]

(Var[X1]Var[Xp])12

... . .. ...

Cov[Xp,X1] (Var[Xp]Var[X1])12

· · · 1

 .

73 / 217 Myriam Maumy-Bertrand & Marie Chion Association de variables quantitatives

(74)

74/217

Afin de construire un estimateur simple de la matriceρ(X)on doit disposer d’unn−échantillon(X1, . . . ,Xn)indépendant et identiquementdistribué du vecteurX.

(75)

75/217

Coefficient de corrélation simple Le cas bidimensionnel Le cas général(n>2) Corrélation multiple Corrélation partielle

Loi multinormale Estimation

Test de l’hypothèseρij=0 Test de l’hypothèseρij=ρ0,ρ06=0

Cen−échantillon est donc composé denéléments, qui sont des vecteurs de taillep, que l’on note

(X1,1, . . . ,Xp,1), . . . ,(X1,n, . . . ,Xp,n).Xi,j est la variable aléatoire associée à la valeur prise par lai−ème composanteXi lors de la réalisation de laj−ème expérience. Par exempleX1,3serait la variable aléatoire associée à la valeur prise parX1lors de la troisième expérience etX5,2serait la variable aléatoire

associée à la valeur prise parX5lors de la seconde expérience.

75 / 217 Myriam Maumy-Bertrand & Marie Chion Association de variables quantitatives

(76)

76/217

Un estimateurµb de la moyenneµest : µb = X1+· · ·+Xn

n

=

n

X

i=1

Xi n .

On note, comme d’habitude,µb parx. Il s’agit d’un estimateur sans biais et convergent, comme à la page 27 :

(77)

77/217

Coefficient de corrélation simple Le cas bidimensionnel Le cas général(n>2) Corrélation multiple Corrélation partielle

Loi multinormale Estimation

Test de l’hypothèseρij=0 Test de l’hypothèseρij=ρ0,ρ06=0

E[µ]b = E

X1+· · ·+Xn n

= E

" n X

i=1

Xi

#

n

=

n

X

i=1

E[Xi]

n =

n

X

i=1

µ n =µ.

Var[µ]b = Σ n·

77 / 217 Myriam Maumy-Bertrand & Marie Chion Association de variables quantitatives

(78)

78/217

Un estimateurρ(X[)de la matrice des corrélationsρ(X)est alors donné par :

ρ(X[) =

ρbi,j =ρci,j =Cor\ Xi,Xj

16i,j6p

(79)

79/217

Coefficient de corrélation simple Le cas bidimensionnel Le cas général(n>2) Corrélation multiple Corrélation partielle

Loi multinormale Estimation

Test de l’hypothèseρij=0 Test de l’hypothèseρij=ρ0,ρ06=0

=

1 . . .

1 n1

n X i=1

X1,iX1

× Xp,iXp

σc1× σcp ..

.

...

.. . 1

n1 n X i=1

Xp,iXp

× X1,iX1

cσp×cσ1 · · · 1

.

79 / 217 Myriam Maumy-Bertrand & Marie Chion Association de variables quantitatives

(80)

80/217

On obtient alors la forme explicite suivante :

1 . . .

n X i=1

X1,iX1

× Xp,iXp

n X i=1

X1,iX12

× n X i=1

Xi,pXp2

12

.. .

...

.. . n

X i=1

Xp,iXp

× X1,iX1

n X i=1

Xp,iXp2

× n X i=1

X1,iX12

1 2

· · · 1

.

(81)

81/217

Coefficient de corrélation simple Le cas bidimensionnel Le cas général(n>2) Corrélation multiple Corrélation partielle

Loi multinormale Estimation

Test de l’hypothèseρij=0 Test de l’hypothèseρij=ρ0,ρ06=0

La distribution asymptotique deρij est :

√n(ρbij−ρij)≈ N

0,

1−ρ2ij 2

.

Ce résultat n’est pas assez précis pour permettre de résoudre les problèmes qui nous intéressent généralement. On l’utilisera uniquement si l’on ne peut pas faire autrement et sin>30.

81 / 217 Myriam Maumy-Bertrand & Marie Chion Association de variables quantitatives

(82)

82/217

On a donc une estimationρ(X[)(x)deρ(X)à l’aide d’un échantillonx denréalisations deX. En notantx1l’échantillon formé par lesnréalisations,(x1,1, . . . ,x1,n), deX1,. . . ,xp

l’échantillon formé par lesnréalisations,(xp,1, . . . ,xp,n), deXp on a :

ρ(X[)(x) =

ρ(X[)(x)i,j =ρci,j(xi,xj) =Cor\[Xi,Xj](xi,xj)

16i,j6p

Références

Documents relatifs

On peut justifier à ce point l'hypothèse que chaque caractère résiduel ait trois modalités au minimum parce qu'en considérant deux modalités on aurait deux points de régression

 On veut un indice qui reflète les disparités de notre tableau.. Tableau des effectifs observés

L'objectif général de cette recherche était de discuter de l'efficacité de la réglementation actuellement en vigueur au Nouveau-Brunswick en ce qui concerne la protection des

En guise de solution, et ce, bien avant la hausse des prix actuels, le Syndicat a débuté son pro- jet de négociation collective du sciage résineux sapin-épinette dans le but que

La lutte est, pour de multiples raisons allant des plus nobles aux plus mercantiles, tournée essentiellement.. vers la maladie cancéreuse avérée et non vers une réduction de

En somme, les éléments les plus notoires que nous retenons de notre analyse de l’évolution des contenus du chapitre 6 de l’EPOG sont les suivants : une formulation de la

+ Scientifiquement cohérent, implémenté dans de nombreux logiciels + Rapidité sur les grandes bases (nombre d’observations). - Paramétrage de l’arbre pas

A,B,C,D et E décident de disputer un tournoi circulaire qui met successivement face à face deux personnes jouant à une partie de pile ou face (Ppf) où chacun d’eux a une