• Aucun résultat trouvé

Chapitre 3: Description de la relation entre deux variables

N/A
N/A
Protected

Academic year: 2022

Partager "Chapitre 3: Description de la relation entre deux variables"

Copied!
45
0
0

Texte intégral

(1)

Chapitre 3: Description de la relation entre deux variables

1. Diagramme de dispersion 2. Covariance et corr´elation 3. Moyenne mobile

4. R´egression lin´eaire

5. Ajustement

(2)

1. Diagramme de dispersion

Comme dans le chapitre pr´ec´edent, nous allons nous concentrer sur les variables quantitatives avec un grand nombre de modalit´es.

Pour visualiser l’association entre deux telles variables, le moyen le plus simple est de construire un diagramme de dispersion ou scatter plot. Voici par exemple le diagramme de dispersion des poids et tailles des ´etudiant(e)s de premi`ere ann´ee:

● ●

● ●

● ●

160 165 170 175 180 185 190

50 55 60 65 70 75

Tailles et poids

Taille

P oids

N.B.: Pour simplifier la suite, l’´ etudiant dont le poids ´ etait particuli` erement ´ elev´ e a ´ et´ e retir´ e de l’´ echantillon.

(3)

2. Covariance et corr´elation

Le graphique semble indiquer une association entre les variables poids et taille: une plus grande taille semble correspondre en moyenne ` a un plus grand poids.

Une fa¸con de quantifier cette association est le coefficient de covariance. Pour deux variables X et Y mesur´ ees sur les mˆ emes unit´ es d’observation, le coefficient de covariance (ou simplement covariance), not´e v (X, Y ), est d´efini par:

v(X, Y ) = m (X − m(X )) (Y − m(Y )) . Exemple de calcul:

x i y i x i − m(X ) y i − m(Y ) (x i − m(X ))(y i − m(Y ))

-9 4 -7 3 -21

-5 3 -3 2 -6

3 -1 5 -2 -10

7 -3 9 -4 -36

-1 0 1 -1 -1

-7 3 -5 2 -10

Moyenne -2 1 0 0 -14

On a donc v (X, Y ) = −14.

(4)

Propri´ et´ es de la covariance

Soient X , Y et Z des variables et soient a, b, c et d des constantes.

1. Si les grandes valeurs de X sont g´en´eralement associ´ees aux grandes valeurs de Y et les petites valeurs aux petites valeurs, alors v(X, Y ) > 0.

2. Si les grandes valeurs de X sont g´en´eralement associ´ees aux petites valeurs de Y et les petites valeurs aux grandes valeurs, alors v (X, Y ) < 0.

3. v(X, X ) = s 2 (X )

4. Sym´etrie: v (X, Y ) = v (Y, X ) 5. v(X, c) = 0

6. v(aX + bY, Z ) = a v(X, Z ) + b v (Y, Z ) 7. v(aX + b, cY + d) = ac v(X, Y )

8. s 2 (X + Y ) = s 2 (X ) + s 2 (Y ) + 2v (X, Y ) 9. v(X, Y ) = m(X, Y ) − m(X )m(Y )

La propri´et´e 9. est pratique pour faire le calcul ` a la main car elle ´evite de calculer tous

les ´ecarts (x i − m(X )) et (y i − m(Y )).

(5)

L’inconv´enient de la covariance comme mesure de l’association entre deux variables est qu’elle d´epend des unit´es de mesures. Par exemple, la covariance entre les tailles et les poids des ´etudiant(e)s vaut v(T , P ) = 41.82 cm kg. Si on d´ecidait de mesurer la taille en m`etres (T m ) et le poids en grammes (P g ), on obtiendrait v(T m , P g ) = 418.2 m g.

Il est donc difficile d’interpr´eter la covariance entre deux variables.

Pour rem´edier ` a cet inconv´enient, on d´efinit le coefficient de corr´elation (ou simplement corr´elation), not´e r(X, Y ), entre les variables X et Y comme

r (X, Y ) = v (X, Y ) s(X )s(Y ) . Pour les poids et tailles, on obtient

r(T , P ) = r(T m , P g ) = 0.64.

La corr´elation est une mesure sans unit´e. Elle est donc interpr´etable mˆeme dans des cas

o` u les unit´es des variables ne nous sont pas famili`eres.

(6)

Propri´ et´ es de la corr´ elation

Soient X et Y des variables et soient a, b, c et d des constantes.

1. Si les grandes valeurs de X sont g´en´eralement associ´ees aux grandes valeurs de Y et les petites valeurs aux petites valeurs, alors r(X, Y ) > 0.

2. Si les grandes valeurs de X sont g´en´eralement associ´ees aux petites valeurs de Y et les petites valeurs aux grandes valeurs, alors r(X, Y ) < 0.

3. r(X, X ) = 1

4. Sym´etrie: r (X, Y ) = r(Y, X ) 5. r(X, c) = v(X,c)

s(X)s(c) = 0 0 est ind´ efini 6. r(aX + b, cY + d) = signe(ac) r(X, Y ) 7. r(aX + b, X ) = signe(a) r(X, X ) = ± 1 8. −1 ≤ r(X, Y ) ≤ 1

La corr´ elation entre deux variables est donc toujours comprise entre -1 et 1,

et ces bornes maximale et minimale sont atteintes lorsqu’il a y une relation

lin´ eaire parfaite entre les variables.

(7)

La corr´elation est une mesure de l’association lin´eaire entre deux variables.

Une autre formulation des propri´et´es 1. et 2. est la suivante: Si une valeur de X sup´erieure

`

a la moyenne de X est g´en´eralement associ´ee ` a une valeur de Y sup´erieure ` a la moyenne de Y , et de mˆeme pour les valeurs inf´erieures ` a la moyenne, r(X, Y ) aura tendance ` a ˆetre positif. Une association renvers´ee conduira r(X, Y ) ` a ˆetre n´egatif.

● ●

● ●

● ●

● ●

● ● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

7 8 9 10 11 12 13

17 18 19 20 21 22 23

r(X,Y) = 0.79

X

Y m(Y)

m(X)

● ●

● ● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ● ● ●

● ●

47 48 49 50 51 52

−1 0 1 2 3 4 5

r(X,Y) = −0.58

X

Y m(Y)

m(X)

(8)

Dans le cas des tailles et des poids, la corr´elation est donc positive:

● ●

● ●

160 165 170 175 180 185 190

50 55 60 65 70 75

r(Taille,Poids) = 0.64

Taille P oids m(Poids)

m(Taille)

(9)

Voici quelques exemples de diagrammes de dispersion correspondant ` a diff´erentes valeurs positives de la corr´elation:

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●●

● ●

●●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

r = 0.01

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

●● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

●●

● ●●

●●

● ●

● ●

● ●

●●

● ●

● ●

● ●

● ●

● ●

● ●

●●

r = 0.22

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

●●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

●●

● ●

● ●

● ●

● ●

r = 0.44

● ●

● ●

● ●

● ●

● ●

● ●

● ●

●●

● ●

● ●

●●

● ●

● ●

● ●

●●

● ●

● ●

● ●

● ●

● ●

●●

● ●

● ● ●

● ●

● ●

● ●

● ●

r = 0.75

● ●

● ●

●●

● ●

● ●

●●

●●

● ●

● ●

● ●

● ●

●●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●●

● ●

● ●

● ●

●●

●●

● ●

●●

●●

● ●

● ● ●

● ●

●●

● ●

● ●

● ●

r = 0.9

●●

●●

●● ●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

● ●

●●

●●

●●

● ●

●●

●●

●●

●●

●●

● ●●

●●

●●

●●

●●

●●●

●●

●●

● ●

● ●

●●

●●

● ●

●●

r = 0.99

Références

Documents relatifs

Les planètes de ce système sont en orbite autour de l’étoile et cette vue laisse supposer qu’elles gravitent toutes dans le même plan.. L’artiste semble

→ Etape 2 : Faites le bilan de vos recherches et élaborez le plan détaillé des réponses à vos questions : Précisez les arguments utiles pour démontrer vos grandes idées..

Au III e siècle avant J.C, Hiéron II (306-215) roi de Syracuse avait confié à un orfèvre, une certaine quantité d’or pour en faire une couronne... Calculer les poids P T et P

3 ère méthode : Avec un logiciel de pointage et d’acquisition de données AVISTEP Ouvrir avistep.exe et suivre la notice + la vidéo intitulée « tutoriel avistep ».

conjointe de deux variables ordonnées, de leurs distributions marginales, et de la densité de la première par rapport au produit des deux autres. On y lit une forme

Nous présentons ensuite les résultats d'une étude comparant des implémentations efficaces sur PC, appliquées à des graphes de grande taille modélisant des réseaux routiers. Sur

Accordingly to our gênerai notion of proximiby between variables, we construct hère an association coefficient between an ordinary (said &#34;net&#34; by.. différence with the

Parfois, à partir de données récoltées, il semble exister une relation entre deux caractères d’une série statistique ; par exemple : entre le poids et l’âge d’un