M ATHÉMATIQUES ET SCIENCES HUMAINES
M. G IRAULT
Liaisons, corrélation, régression
Mathématiques et sciences humaines, tome 5 (1964), p. 11-22
<http://www.numdam.org/item?id=MSH_1964__5__11_0>
© Centre d’analyse et de mathématiques sociales de l’EHESS, 1964, tous droits réservés.
L’accès aux archives de la revue « Mathématiques et sciences humaines » (http://
msh.revues.org/) implique l’accord avec les conditions générales d’utilisation (http://www.
numdam.org/conditions). Toute utilisation commerciale ou impression systématique est consti- tutive d’une infraction pénale. Toute copie ou impression de ce fichier doit conte- nir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
LIAISONS, CORRELATION, REGRESSION M. Gl RAULT
INTRODUCTION ’
1.1.- La
physique classique
a utilisé la notion de liàison fonctionnelle entre deux ensembles degrandeurs:
Exem le:
: Soit une barremétallique portée
àdi fférentes ’ températures : ti t2 ... , tn:
elle
prend
leslongueurs 11 12 ..., ln.
Chaque
fois que la barre estportée
à latempérature t2
parexemple,
elleprend
lalongueur 12.
Ainsi à toutetempérature (d’un
certain intervalle detempé- ratures)
est associée unelongueur
et uneseule.
Telle est la notion de fonction oude liaison fonctionnelle
t --+ 1.
Ce
type
demodèle,
bienadapté
auxphénomènes
étudiés enphysique classique
ne convient
généralement
pas dans les sciencesbiologiques, économiques,
humaines.1.2.- L’idée de liaison en
probabilité
aété introduite
pour lapremière
fois parFrancis Galton dans ses travaux sur l’hérédité dans les
espéces végétales puis
ani-males. Les
principaux
résultats furentpubliés
en 1889 sous le titre "lVatural inheri- tance".’
L’auteur s’intéresse tout
spécialement
aux mesures X et Y d’une même par- tie du corps chez deux êtres dont l’un est fils de l’autre.Appelons
"taille" lamesure retenue:
est un
couple
de tailles observéesGalton montre que la loi de
fréquence
descouples
de nombres(X, Y)
est bienreprésentée
par une loi de distribution à deux dimensionsgénéralisant
celle deLaplace-Gauss
et étudiéeprécédemment
parBravais (1 ) (Mémoire
de1846).
Le modèle utilisé par Galton est très
fréquemment employé.
Ce modèleprésente
des
particularités qu’il
faut biencomprendre et,
pourcela,
ilimporte
de distin-guer
plusieurs
notions fondamentales concernant la liaison enprobabilité,
notionsqui
dans le modèleparticulier
de Galton se trouvent soit confondues soit liées entre elles d’une manièreparticulière.
En d’autrestermes,
il faut biendistinguer
les
propriétés générales
de toute distribution despropriétés particulières
de ladistribution de
Laplace-Gauss
àplusieurs
dimensions.(1)
Bravais ne semble pas s’être Intéressé à la liaison en probabilité.i
nemarque préliminaire:
Les notions que nous allons étudier se rattachent à desaistributions
sur un espace àplusieurs
dimensions(tout spécialement deux) :
ce§ont
des distributions sur descouples (X, Y)
de nombres.1
Ces distributions
peuvent
être indifféremment des distributionsstatistiques Qu
des distributions deprobabilité;
ces dernières elles-mêmespouvant
être discrè-tes
ou continues.° ’
a) Distribution statistique:
échantillon de taille(n):
ensemble de ncouples
JX1’ Y1); x2 Y2)y
...y( xn , yn)
chacun affecté de la nb)
Distribution deprobabilité
b.1 - Discrète:
ensemble decouples (xi, Yi)
le
couple (xi , Yj )
étantaffecté
de laprobabilité Pij
~.2 -
Continue : ensemble decouples (x,y)~ où
x et yappartiennent
à des ensem- bles continus(intervalles
où mêmeR ).
Chaque pavé
est affecté d’uneprobabilité.
1
’ 1
1
En
particulier
toutpavé élémeiltaire 1 est affecté de la proba -
ilité f
~x, y) dx dy.
’ ~ ’
1
Danschaque
cas, nous choisirons pour fixer les idées untype
de distributiontantôt discret,
y tant8tçontinu;
étant bien entendu que les notions étudiées se dé-finissent
pour les deuxtypes
de distributions. ’.-
LI AI SON EN PROBABI LITE(ou 1 i
aison stocha,st
.1.- Considérons donc une
épreuve
àlaquelle
est associé lecouple
de nombresx, y) distribués,
parexemple,
’ y suivant une loi discrète.-
.
Posions
Rappelons
les définitions des loismarginales
et des droits conditionnelles:Distribution marginale
de X: soitai -
P(X
=xi)
i =1,
... n On a,(axiome
i’ additivité ) :
~ -que l’on note encore
Pi
*La donnée des xi et celle des
pi,
définit(pi~)
la distributionmarginale
de X.Distribution
marginale
de Y : on a de façonanalogue
Les
yj
J et lesp.j
. définissent la distributionmarginale
de Y.Remarque :
Si la distribution estcontinue,
de densitésuperficielle f (x, y).
Les den-sités
marginales
sont :ou, si l’on
préfère,
les lois élémentaires sontrespectivement
pour X
pour Y
2.2.-
D i st r i but i on conditionnel le
de i X =x
1On effectue
l’épreuve
donnant lecouple (X, Y)
et l’ on sait que X = xi. La pro- babilité d’avoir Y =yj
est alorsOn aurait de
façon analogue:
Et,
dans le cas d’une distribution continue:loi élémentaire de Y si X = x :
2.3.-
Dépendance
enprobabilité
On
peut
considérer non seulement les lois conditionnelles de Y si X prend une valeurparticulière.
dans le cas discret
dx dans le cas continu
1
mais les lois conditionnelles de Y
lorsque
Xappartient
à un sous-ensemble de valeurspossibles:
un intervalle(xo, x )
parexemple.
On dit que Y
dépend
de X(en probabilité)
si les lois conditionnelles de Y dé-pendent
des conditionsimposées
àX. Il
y a liaison enprobabilité
si2.4.-
indépendance
enprobabilité
Au contraire on dit de Y
qu’il
estindépendant
de X(en probabilité)
si touteloi conditionnelle de Y est
indépendante
des conditionsimposées
àX;
c’est-à-dire si toutes les lois conditionnelles sontidentiques.
On aura en
particulier:
(distribution discrète):
soit :
d’où ’ 1
De la même
manière?
dans le cascontinu,
on démontrequ’il
fautavoir, quels
que soient x et y
Des relations
(1 )
et(2)
on déduitplusieurs conséquences.
!On asimplement.
supposé,
pour obtenir Cesrelations
y que les lois conditionnelles de Y pour des conditionsélémentaire:-,
de, Xdx
étaientindépendantes
dex : .
On déduit dp
(1 )
ou de(2)
-
Que
toute loi conditionnp-L-I-e de Y pour des conditionsexprimées
sur X est iden-tique
à la loimarginale
deY,
y-
Que
toute loi conditionnelle de X pour des conditionsexprimées
sur Y est identi-que à la loi
marginale
de X.On
exprime
cette situation en disant que les v.a. X et Y sont mutuellement in-dépendantes
enprobable
Dans ce ca,s. la distributions est
complètement
déterminée par la donnée des distributions t b.Une connaissance
quelconque
surX,
ne modifie en rienl’information
que l’onpossède
sur Y.3.- ¡ ~~~~t~~~ ~
Ligne
derégression
Pour les
notations,
nou.s supposerons ici que la distribution est conti- nue, y de ci ellef(x,y).
·La loi élémentaire de Y
La moyenne de
(Y
si X =x)
est(quand
elleexiste)
y
(x)
est une fonction de x; sa courbefigurative
est diteligne
derégression
deY en x.
On définit d’une manière
analogue
laligne
derégression
de X en y; c’est le lieu des moyennes conditionnelles de X pour Y = y.Si les v.a. X et Y sont
indépendantes,
leslignes
derégression
sont des droi-tes
parallèles
aux axes.Une
ligne
derégression (de
Y en x parexemple)
est un indice de la liaison enprobabilité
de Y avec le "facteur" X.L’origine
du terme"régression"
est la sui- yante.Or i g i ne
duterme "reg réss i on"
Etude de l’hérédité des tailles
(F.
GALTONpuis
K.PEARSON).
Soit Y la
taille
d’unindi,vidu,
X celle de sonpère.
Lescouples (X,Y)
sontdécrits par une loi de
probabilité
où laligne
derégression
de Y en x est unedroite de
pente
rpositive
inférieure à 1.Soit m la tai.lle moyenne de la
popu.lation
étudiée. Les"grands"
individus(de
taille a = m + h pax
exemple)
ont. de s fils dont les tailles sont en. moyenne: a + rh Ces fils sontqes
individus(en moyenne) grands
mais ce caractère"grand."
est moinsaccusé
qu’il
ne l’est chez leurspères:
on dit que ce caractère est enrégression
d’une
génération
à la suivante.4.- MOMENTS DU SECOND
ORDRE ’, _,,
’4,i . - Pour
décrire
la liaison desgrandeurs
X etY,
lesindices
domiés par les mo- ments dupremier
ordre sont insuffisants. On s’intéresse donc aux moments du secondordre
(en supposant
là encorequ’ils existent).
moments du 2ème ordre du
couple X,
Y.Soit enfin la variance conditionnelle de
Y/si X
= x.On
appelle
fonctionscédasti (la
fonction on ditV r BV r
qu’il
y a homoscédasticité de Y parrapport
à x.4.2.-
I nd i ces
decorrélation
Plusieurs indices ont été
proposés,
y mais en fait leplus
utilisé est le coef- ficient de corrélationLa
signification
du coefficient de corrélations’interprète
commodément surl’ellipse
des variances que nous définironsplus
loin, .Un autre indice intéressant est le
rapport
de corrélation que nous allons , , maintenant définir.4.3.-
Analyse
devariance - Rapport
decorrélation
Sur le
couple
aléatoire(X,Y)
on considère:la moyenne
générale
deY,
soitE(Y) = 7 = f jyf(x y)
dxdy
les moyennes conditionnelles de Y si X = x
Soit
(x,y)
uncouple
de valeurs obtenues.L’écart de y
peut
sedécompo’ser
de lamapière suivante:
La variance de Y est
En
remplaçant (y - y)
par sa valeur( 1 )
on obtient:La variance con-
ditionnelle «Y2 )
2 me- sure ladispersion
autour de la
ligne
derégression.
Elle estnulle si la distribu- tion est entièrement
sur la courbe de ré--
gression
et dans cecas seulement.
1
au
couple
de valeurs(x,y) représenté
par M sont associés:HM = écart total
PM = écart conditionnel
. HP = écart lié.
La variance liée
(62
mesure ladispersion
desmoyennes
conditionnellesYX.
1 x
Elle est nulle si la courbe de
régression
est une droitehorizontale,
et dans cecas seulement.
Rapport
de corrélation(PEARSON - 1905).
’
On
appelle rapport
de corrélation de Y en X le nombrepositif
R tel queEn vertu de
l’équation (2)
on voit que 0 R 1R = 0 -
(x) = cte (la
courbe derégression
est une droitehorizontale) x
R = 1 distribution sur la courbe de
régression
donc liaison fonction- nelle entre X et Y.4.4.-
Droite
desmoindres carrés
..On
appelle
droite des moindres carrés(de Y/x)
la droite D telleque’ l’ espé-
rance
mathématique
dem2
soit minimum :minimum.
La recherche de ce minimum montre que D passe par
G,
centrede la distribution. D a pour
pente
Remarque :
Certains auteurs ap-pellent
la droite D: "droite derégression"
de Y en x.,
1 4.5.-
Ellipse des variances
1
~
Toutes les notions
précédentes: 4-1
y~--2,
4-3 et 4-4 se rattachant auxmo-~
ments du 2ème ordre. Les moments des formes linéaires en
X,
Y(expressions
de laforme aX +
bY) s’expriment
facilement àpartir
del’ellipse
des variance.Soit une distribution sur le
plan (ox,oy)
admettant des moments du second or-dre:
E(X2)
etE(Y2) (donc
aussiE(X.Y) ) . ,
MIl existe une
ellipse
E de centre 0qui
ala
propriété
suivante:Soit A une droite
issue dé l’origine.
Lemoment de la distribution par
rapport
à à(es- pérance mathématique MH2)
estégal
às2
A ou sA est la distance de 0 à latangente
à Eparal-
lèle à A.
En
particulier,
si l’onrapporte
la distribution à son centre Gl’ellipse
as-sociée :
EG
est dite"ellipse
des variances"On a:
La droite
GC,
depente
p C’yy est la droite des moindres carrés de Y en x. La 1 cr-y xdroite
Go,
de estla droite
des moi.ndres carrés de X en y.p
x
p 1 1 ~ droites GC et GD confondues:
EG
est uneellipse aplatie:
X et Y sontliés par une relation fonctionnelle linéaire.
pu 0 ~
ellipse
desvariances
a pour axes ox oy.’Cette circonstance
peut
seproduire
non seulementlorsque
X et Y sontliés en
probabilité
maiségalement lorsqu’il
existe entre eux une liai-son. fonctionnelle non monotone. »
Donc: Lorsqu’on
étudie des distributions trèsgénérales:
p est un mauvais indice decorrélation;
lerapport
de corrélation R estplus significatif.
5..- CAS DES A REGRESSION LINAIRE .
la famille des distributions sur
(X,Y)
telles que la cou.rbe de ré-gression
de Y en x(voir 3)
soit une droite. On dit alors que larégression (de
Yen
X)
est linéaire. ,On demontre alors que :
La droite des moindres carrés s’identifie à la droite de
régression.
- La conditionnelle de Y si
x
est alors6 2 ~._ F
- Enfin le
rapport
de ré-gression.
R s’identifie au coef-de corrélation:
, 2 2
(-y2
2 est la(à il 2 1
2
omt la vaxianco , to- f, 0, 1 e de Y. (1
(-)22
est la conditiond-o Y. 8J
Au soin de la fa-
dîstributions iO 1
p lede
corrélation
1-2~~~l-ît, iiri i nd «o de la corrélation
i 4 IJS PART ICUL IER DE LI
AISONI LA DIITRI8UTt’ON
DE GAUSS A DEUXDIMENS tON 8
L 1 on o ’Ide doúx
dimenoînnotty
, p . la parBRAVAIS psr BRAVAIS (1846).., fu utilisée
par Y.GALTON,
K.PEARSON ot {tp11ÀI
il ’ de
très
nombroux Z110présente
unestructure impi
it,
IUMoBptiblo
de nombZ’GUIJ’11Il importe
de1’la-
duptor
comemodèloe
de faire preuvecritique.
Expression
de la loi deLaplace-Gauss
à deux dimensions: loi élémentaire:Les courbes réunissant les
points d’égale
densité sont desellipses
homothéti~- ques etconcentriques.
Le centre commun à toutes cesellipses
est le centre de ladistribution,
de coordonnéesm x = E(X)
etmy = E(X).
On a choisi cepoint
pour ori-gine
des axes pour écrire la relation(1 ) .
"
L’une de ces
ellipses
estl’ellipse
desvariances (E)
dontl’équation
est :Dans ce
modèle:
lescourbes
derégression
sont desdroites;
on dit que lesrégres-
sions sont linéaires et par
conséquent
toutes lesparticularités (5)
sont réalisées.Ces
propriétés (5)
serattachent
aux moments du 1 er et du 2eordre;
et ne fontpas état des lois de
probabilité
des variables étudiées.La famille
des
distributions deLaplace-Gauss
étudiées maintenant ne contient que 5paramètres: my;
ax;ay
et p parexemple.
Or la donnée del’ellipse
E desvariances définit ces 5
paramètres.
Donc dans ce cas, non seulement les moments du 2ème ordre des formes linéaires en(X,Y)
sontdéterminées,
mais les lois deproba-
bilité de ces formes ainsi que les lois des variables liées.
Distribution de Laplace Gauss
à2 dimensions
1
Loi de
probabilité
du vecteur G M.Les trois
ellipses
sont des courbesjoignant
lespoints
de même densité(cour-
bes de niveau de la surface
figurative
desdensités).
E estl’ellipse
des .variances.Le vecteur aléatoire
TIF
obéit à la loi de L.G.(centre G,
y écarttype GA)
---4-
’
Le vecteur aléatoire
GQ
obéit à la loi de L.G,(centre G,
écarttype GB)
. Si P est donné :
ie
obéit à la loi de L.G.(centre H,
écarttype GF).
> La droite GT est à la fois: la
ligne
derégression
de Y en x et la droite desmoindres carrés de Y en x.
La v. a. X obéit à la loi de
Laplace-Gauss
de moyennemx
et d’écarttype
Duomême pour Y.
Si X = x la v.a. Y obéit à la loi de
Laplace-Gauss
de moyenne:son écart
type
est : ®Cet
écart-type
estindépendant
de x :il y a homos cédasticité
. II y a même
plus :
1 a loi del’ é cart
de Y(rapporté
à la moyenne conditionnei i»1 c’ e s t-à-di r e la loi deest
indépendante
de x. .On dit alors
(définition
due à S.BERNSTEIN)
que la corrélation entre X et Y est dure.- - - -
BIBLIOGRAPHIE
R. FERON "Information -
Régression - Corrélation" -
thèse -Publication
ISUP-Vol. V fasc. 34 - 1956 -
G. DARMOIS - Sur certaines formes de liaisons en
probabilité - Colloque
CNRS - LeCalcul des Probabilités et ses
applications - Lyon -
1948 -Publ. CNRS -