• Aucun résultat trouvé

Corrélation et régression linéaire

N/A
N/A
Protected

Academic year: 2021

Partager "Corrélation et régression linéaire"

Copied!
17
0
0

Texte intégral

(1)

Chapitre 9

Corrélation et régression linéaire

Chap 9.

1.  La corrélation linéaire 2.  La régression linéaire

1.  La corrélation linéaire

1.1) Définitions

L’étude statistique d'une population peut porter simultanément sur plusieurs variables è nécessaire de mesurer la liaison éventuelle entre ces variables.

e.g.: l'une augmente, l'autre augmente également ou l'une augmente, l'autre diminue, etc.

è on va alors étudier les corrélations

Vocabulaire utilisé fonction de la nature et du nb de variables impliquées:

• Liaison linéaire entre 2 variables quantitatives gaussiennes:

on parlera de corrélation linéaire simple, ce qui sera développé ici;

• Intensité de la relation liant 1 variable à 1 ensemble de variables indépendantes quantitatives : corrélation multiple

• Lien entre 2 ensembles de variables quantitatives: corrélation canonique;

• Relation entre 2 variables semi quantitatives: corrélation de rang;

• Relation entre 2 variables qualitatives: association

• Relation entre 2 variables qualitatives binaires: corrélation de point ou d'association Les séries statistiques doubles (ou multiples) peuvent être obtenues

•  en considérant une variable aléatoire Y et une variable contrôlée X (on parle alors de modèle I),

•  en considérant deux variables aléatoires X et Y (modèle II).

(2)

On considère une variable aléatoire normale X de moyenne μx et la variance σx2 è densité de probabilité gaussienne, forme typique de cloche.

Loi binormale suivie par 2 variables aléatoires X et Y: caractérisée par 5 paramètres:

• μx, σx2 pour la distribution de X,

• μy, σy2 pour la distribution de Y,

• ρ = coeff. de corrélation linéaire, pour caractériser la liaison entre les 2 variables.

Point μ de coordonnées (μxy) = point moyen théorique de la distribution de la bivariable (X,Y).

Les variances σx et σy sont appelées variances marginales de X et de Y envisagées indépendamment l'une de l'autre.

S'il existe une corrélation entre les 2 variables, on définira pour Y, la valeur de X étant fixée (= X1,) une distribution conditionnelle caractérisée par:

•  moyenne= E(Y|X1) ≠ μy

•  variance σ2(Y|X1) < σy2

•  distribution normale

De même : on définira la distribution conditionnelle de X, Y étant fixée à Y1.

La distribution de chaque variable dépend donc de la valeur prise par l'autre.

Si :

è  distributions marginales et les distributions conditionnelles sont toutes normales

è  variances conditionnelles sont constantes (c-a-d σ2(Y|Xi) est indépendante de Xi et σ2(X|Yi) est indépendante de Yi)

la distribution conjointe de X et de Y est dite binormale.

Elle s’exprime par une fonction de densité de probabilité bivariable Z = f(X,Y), = généralisation 2D de la loi normale univariable, se représente dans l'espace euclidien {X,Y,Z} par une surface en cloche.

1.2) Distribution binormale

(3)

La projection des courbes de niveau (pour une valeur donnée de Z) de la surface de la cloche représente des courbes concentriques centrées sur μ, qui sont des ellipses (d'isodensité ou de probabilité) si la distribution est binormale.

On peut déterminer des ellipses délimitant des

portions du plan {X,Y} contenant 95%, 99% ou 99,9%

des points de la bivariable (X,Y).

(4)

1.3) Le coefficient de corrélation linéaire

Corrélation de Pearson (ou de Bravais-Pearson): mesure la liaison linéaire existant entre deux variables quantitatives aléatoires.

ρ =

coefficient de corrélation linéaire, mesure le degré d'aplatissement des ellipses de distribution.

( )

2 2 2

2 2

2

)]

)(

[(

))]

( ))(

( [(

,

Y X

Y X

Y X Y

X

XY

Cov X Y E X E X Y E Y E X Y σ σ

µ µ

σ σ σ

σ

ρ − − =

=

=

Estimation à partir d'un échantillon obtenue à partir des estimateurs non biaisés (donc pondérés à n – 1) Sxy de la covariance et Sx et Sy des variances de X et de Y:

Y X XY XY

S S

r = S

[-1, 1]

(5)

Remarques:

1. La valeur de r mesure le degré de liaison linéaire entre 2 variables. Si la relation n'est pas linéaire, r peut être nul ou très faible malgré une très forte dépendance curvilinéaire ou, au contraire, est très élevé même si le modèle linéaire décrit visiblement mal la liaison entre ces variables.

2. Le coefficient de corrélation linéaire n'indique pas nécessairement une relation de cause à effet. En particulier, il est fréquent que deux variables évoluant dans le temps de façon totalement

indépendante montrent une corrélation fortuite.

3. Le coefficient de corrélation linéaire est indépendant des échelles de mesure des 2 variables considérées, ce qui facilite la comparaison de coefficients de corrélation.

(6)

1.4) Test de signification du r de Pearson

Comme toujours, l'estimation r à partir d'un échantillon subit la variabilité de celui-ci.

Test:

H0 : ρ = 0

H1 : ρ ≠ 0 test bilatéral

ou H1 : ρ > 0 ou ρ < 0 tests unilatéraux La variable auxiliaire (ou statistique du test)

Si alors H0 est rejetée.

C’est-à-dire qu’il existe une corrélation significative entre les deux variables (ρ≠0).

Sinon, on peut conclure qu’on n’a pas de relation significative entre les deux variables.

Il revient au même d'estimer la variable

On compare cette valeur à Fα(1, n -2). Ce test revient à effectuer une analyse de variance sur r2 (cf. § 9.2.2).

En pratique, on utilise couramment une table de signification du r de Pearson indiquant la valeur critique en fonction de n ou du ddl n - 2.

è Corrélation significative au rang α si rcalc > rα/2.

) 2 ( ) 1

(

2

= n

r

T r

obéit à une loi de Student à n – 2 ddl

si H0 vraie.

Suit une loi de Fisher- Snedecor si H0 vraie.

) 1

(

) 2 (

2 2

r n F r

= −

α 1 2

;

2 α

>

t

n

T

(7)

1.5) Comparaison de 2 coefficients de corrélation linéaire

On considère deux échantillons aléatoires et indépendants d’effectifs n1, n2 et de coefficients de corrélation r1 et r2.

Les transformations de Fisher de r1 et r2, variables zr1 et zr2 ~ lois normales

⇒  différence obéit également approximativement à une loi normale de moyenne 0 et de variance 1/

(n1 – 3) + 1/(n2 – 3),

⇒  permet de construire un test à part de l'écart réduit zdr :

La transformation de Fisher se lit dans une table ou se déduit de la formule :

La comparaison des 2 coefficients de corrélation se fera donc selon un mode bilatéral (H1 : ρ1 ≠ ρ2) ou unilatéral (H1 : ρ1 > ρ2 ou H1 : ρ1 < ρ2) en utilisant la table des probabilités de la courbe normale centrée réduite.

( )

( 1 /(

1

3 ) 1 /(

2

3 ) )

2 1

− +

= −

n n

z

z

dr

z

r r

( ) ( )

[ r r ]

z = ln 1 + − ln 1 − 2

1

(8)

Objectif: résumer la relation entre deux variables par une fonction simple (ici une droite) de type Y = aX + b.

En réalité, on recherche un estimateur,

Deux démarches sont possibles:

è Prédire la valeur la plus probable de Y, notée Ŷ, pour une valeur donnée de X, on parle alors de régression de Y en X, c'est la plus couramment utilisée (il existe symétriquement une régression de X en Y), c'est la predictive regression des anglo-saxons;

è Décrire simplement sans souci de prédiction la tendance du nuage de point par une équation de droite ; dans ce cas, on utilise généralement la méthode de l'axe majeur réduit, c'est la functionnal regression des anglo-saxons ou droite de Teissier.

i i

i

i i

b aX Y

et

b aX Y

ε + +

=

+ ˆ =

Faibles variations

= erreur du modèle

Chap 9.

1.  La corrélation linéaire 2.  La régression linéaire

2.  La régression linéaire

(9)

2.1) Régression de Y en X: méthode des moindres carrés

Méthode la plus adaptée pour prédire Y à partir de X (pour modèle I ou II).

Régression = déterminer, connaissant la valeur de X, la valeur de Y la

plus probable (si Y est discrète) ou de densité de probabilité maximale (si Y est continue) == mode de la distribution (Y|Xi), Xi étant fixée.

Si cette distribution conditionnelle est normale, mode == espérance mathématique.

Symétriquement, on définit une fonction et une droite de régression de X en Y è il existe 2 régressions différentes.

Note:

Régression de Y en X ≠ régression de X en Y!

E.g.: ce n'est pas parce que les sardines de 20 cm pèsent en moy 100 g que les sardines de 100 g mesureront en moy 20 cm.

(10)

Moindres carrés:

On détermine les valeurs des coefficients a et b de la droite de régression Y=aX+b qui minimisent la somme des carrés des écarts entre valeurs observées Yi et valeurs prévues

( ˆ )

2

( ( ) )

2

= +

= Y Y Y aX b

S

i i i i

Y ˆ

i

On recherche les valeurs de a et b

satisfaisant simultanément :

= 0

a

S

et

= 0

b S

( )

( ) ( )

X a Y b

nb X

an Y

n nb X

a Y

b aX Y

b aX b Y

b S

i i

i i

i i

=

=

=

=

⎟ =

⎟

⎠

⎞

⎜ ⎜

⎝

⎛ − +

= ∂

0

0

2

2

( )

( ) ( )

( ) 0

0

0 2

2 2

2

=

=

=

⎟ =

⎟

⎠

⎞

⎜ ⎜

⎝

⎛ − +

= ∂

X n X a Y X

a Y X

X b

X a

Y X

b aX Y

X b

aX a Y

a S

i i

i

i i

i i

i i

i i

i

En développant on trouve:

Or

cov

XY

= E XY ( ) E X ( ) E Y ( ) =X

i

Y

i

nXY = 0 σ

X2

= 1

n ( ∑ X

i2

nX

2

)

2 X XY

S a = S

Ou en utilisant les estimateurs:

(11)

On obtient donc:

( ) ( X X )

a Y Y ou

X a Y aX b

aX Y

=

− +

= +

= ˆ ˆ

La droite de régression passe par le point moyen de coordonnées m(X),m(Y), a une pente égale à a et une ordonnée à l'origine égale à [m(Y) – a.m(X)].

Partant de l'expression de rxy = Sxy/(Sx.Sy), on peut en déduire

X Y

S r S a =

i

i Y

Y résidu = − ˆ

(12)

2.2) Coefficient de détermination R

2

et décomposition de la variance

Le coefficient de détermination mesure la proportion de la variation de Y expliquée par la variation de X.

Dans le cas de la régression linéaire:

R

2

= r

2

Décomposition de la variance:

Somme des carrés

des écarts totaux= dispersion due à la régression + autour de la régression SCET = SCER + SCEE

( )

Y ˆ

i

Y

2

( Y

i

Y ˆ

i

)

2

Par définition:

SCET R 2 = SCER

SCET R

SCET R

SCEE SCER

SCET = + = 2 ⋅ + ( 1 − 2 )

R2 représente donc la proportion de variation de Y expliquée par la régression (donc la variation de X) et (1 – R2) la proportion de variation de Y non expliquée ou résiduelle ou encore la dispersion du nuage de points autour de la régression.

(13)

Lorsqu'on analyse la liaison entre deux variables X et Y, il faut donc considérer deux aspects distincts:

•  d'une part, la valeur de r et l'indication de la signification de la corrélation en fonction de la taille de l'échantillon

•  d'autre part, la proportion de la variance expliquée par la régression et celle de la variance résiduelle

(14)

2.2) Comparaison de la pente a à une pente théorique a

th

Variable de décision:

(

e2

/(

th

1 ).

2X

)

a

S n S

a t a

= −

Test: H0: a=ath

H1: a≠ath (test bilatéral) ou test unilatéral

Suit une loi de Student à n-2 ddl si H0 vraie

2.3) Comparaison de lordonnée à lorigine b à une valeur théorique b

th

H0 refusée si pour un test bilatéral

ou pour un test unilatéral

2 , 2

/ −

>

n

a

t

t

α

2 , −

>

n

a

t

t

α

( )

=

= −

2 2 2

) var(

) var(

X X n

X b S

et

b b t b

i e i b th

Même principe avec:

(15)

2.4) L’axe majeur réduit (régression non prédictive)

Une alternative au modèle de régression de Y en X (predictive regression) est d'utiliser une méthode descriptive lorsque les deux variables sont aléatoires et qu'il n'y a pas de raison de choisir X ou Y

comme variable explicative (on parle alors de functional regression). Une des méthodes possibles est le calculer l'axe majeur (ou principal) réduit encore appelée droite de Teissier (geometric mean

regression).

Il correspond à la bissectrice des régressions de Y en X et de X en Y. On dispose alors d'une équation unique pour décrire (et non prévoir) une relation biunivoque et la pente est alors indépendante du coefficient de corrélation linéaire :

a = Sy/Sx

Remarque : lorsque r tend vers 1, les deux régressions prédictives (Y en X et X en Y) tendent à se

"redresser" pour se confondre avec la bissectrice, l'angle formé par ces deux droites tend alors vers 0.

(16)

2.5) Régression forcée à l’origine

Il peut arriver que deux variables soient liées par une relation passant par définition par l'origine, c'est- à-dire impliquant que, lorsque l'une est nulle, l'autre l'est aussi (par exemple, la relation entre la

longueur et la largeur d'un organisme).

Il est alors possible de forcer la régression à passer par l'origine après s'être assuré que l'ordonnée

estimée b n'est pas significativement différente de 0 (bien que dans ce cas, le risque de 2ème espèce β ne soit pas connu).

On imposera alors la relation :

Ŷ = a.X, droite passant à la fois par l'origine et le point moyen [m(X),m(Y)], de pente égale à : a = m(Y)/m(X) = ΣY/ΣX

(17)

Références

Documents relatifs

guer plusieurs notions fondamentales concernant la liaison en probabilité, notions qui dans le modèle particulier de Galton se trouvent soit confondues soit

L'intérêt essentiel de ce coefficient est de per- mettre l'utilisation des méthodes d'analyse des variables aléatoires pour étudier les similarités entre points de R Qompte tenu de

La question qui se pose est de savoir, pour prendre un exemple, si les ventes dépendent ou non du budget publicitaire, et si oui, quelle est la relation entre l'importance du

C'est pourquoi on préfère généralement utiliser un paramètre sans unités : le coefficient de corrélation.. Coefficient de corrélation de

Tester l’association linéaire entre deux variables.. quantitatives : corrélation, régression

On reprend les données Eval-Cours.stw. On veut estimer la variable Qual-Glob en utilisant comme prédicteurs les 5 autres variables. Déterminer l'équation

Mots clés : Modèle de régression linéaire, sélection bayésienne de variables, loi a priori de Zellner, lois a priori compatibles, modèles hiérarchiques, échantillonneur de

En 1846, Auguste Bravais publia dans les Mémoires de l'Institut de France une commu- nication intitulée : « Analyse mathématique sur les probabili- tés des erreurs de situation d'un