M ATHÉMATIQUES ET SCIENCES HUMAINES
S. R ÉGNIER
À propos de l’analyse de dépendance
Mathématiques et sciences humaines, tome 25 (1969), p. 5-11
<http://www.numdam.org/item?id=MSH_1969__25__5_0>
© Centre d’analyse et de mathématiques sociales de l’EHESS, 1969, tous droits réservés.
L’accès aux archives de la revue « Mathématiques et sciences humaines » (http://
msh.revues.org/) implique l’accord avec les conditions générales d’utilisation (http://www.
numdam.org/conditions). Toute utilisation commerciale ou impression systématique est consti- tutive d’une infraction pénale. Toute copie ou impression de ce fichier doit conte- nir la présente mention de copyright.
Article numérisé dans le cadre du programme
A PROPOS DE L’ANALYSE DE DÉPENDANCE
*par
S.
RÉGNIER **
1. - INTRODUCTION.
L’objet
del’analyse
dedépendance
est de mesurer l’intensité des relations de Causalitëqui
peuvent intervenir dans une structure
complexe,
entre desgrandeurs sociologiques
observables dans différentespopulations.
Une telle structureapparaît
parexemple,
dans la célèbre étude dusuicide,
parDurkheim,
la variable x3 = taux de suicide est influencée par :mais X2
(mariage
oucélibat)
est elle-même influencée par xl, cequi peut
sereprésenter
par ungraphe
orientél :
On peut chercher à traduire ce
graphe
par unsystème
de relationslinéaires,
mais il est alorsindispensable d’ajouter
des facteurs externes : il est évident que x3 n’est pas seulement une fonction de x, et x2. On écrira :(où
Cidésigne
l’action du milieu ambiantspécifiquement
sur xl, e2 sur x2,etc.).
Le
problème
est de déterminer les coefficientai
alors que seules lesgrandeurs
xi sont mesurées.Nous exposerons d’abord la solution
proposée
par R.Boudon,
avec le cheminement suivi par cet auteur,en
explicitant plus complètement
les démonstrations pour aboutir finalement à unpoint
de vue un peu différent en 6 et 7.* D’après R. Boudon : L’Analyse mathématique des faits sociaux, Plon, 1967, 30, 1, p. 88-134.
* * Centre de Mathématique appliquée et de Calcul de la Maison des Sciences de l’Homme.
1. L’âge influence l’état-civil, et non l’inverse. Cette « évidence » doit être acceptée dans la règle du jeu. Dès lors les dépen- dances considérées sont complètement dissymétriques à la différence des notions probabilistes ou statistiques usuelles de coefficients de corrélation, de régression, etc.
Pour nous
exprimer
en termesplus généraux,
nous allons considérer unsystème
de n variables réelles observées dans Npopulations :
Pour
alléger,
on peut considérer x comme unegrandeur statistique,
comme un vecteuraléatoire,
et omettre l’indice s. Nous nous donnons de
plus
ungraphe
dedépendance,
c’est-à-dire unsystème
deflèches liant certains
couples
de variables Xi : E- xj ;chaque
flèchereprésente
une relation dedépendance hypothétique,
ils’agit
de valuer cegraphe
à l’aide d’une matrice carrée A. On devra avoir :a(
ne pourra être # 0 que s’il existe une flèche dedépendance
de Xi vers Xt, dans le cascontraire,
l’absence de flèche de Xi vers xc se traduit par la contraintea(
=0,
que nousappellerons
dans la suite un zérostructurel ;
ecreprésente
l’influence des facteurs extérieurs aumodèle,
non mesurés parhypothèse.
Posons : B = 1 -
A,
nous aurons :Nous supposerons les variables x
centrées, (2)
est une relation entre les covariances.Sans
hypothèse supplémentaire,
nous ne pouvons pas déterminer A(et B).
On peut trouver des matrices P telles que P Bpossède
les mêmes zéros que B.Alors
P B x = P e, et P B
constitue une autre solution duproblème.
Le choix de P estcependant
limité par l’existence des zéros structurels dans la matrice B.
Si P comporte un terme non nul
p(,
en dehors de ladiagonale (i
9~j),
dansP B,
laligne 1
estremplacée
par une combinaison où intervient laligne j
deB,
cette dernière doit doncprésenter
au moinsles mêmes zéros
(moins
de termes nonnuls).
3. - CONDITION POUR L’IDENTIFICATION.
Si nous
imposons
aux facteurs externes d’avoir deux à deux une corrélationnulle,
et augraphe
de
dépendance
d’êtretransitif et
sanscycles,
nous allons voir que la matrice moyenne : E(e x’) présente,
elle
aussi,
des zéros structurels :et
qu’alors
une seule matrice B vérifie à la fois(1)
et(2)
en respectant à la fois les zéros structurels de Bet ceux de E
(e x’).
Commençons
par le dernierpoint.
· l’absence decycle
delongueur
1(boucles)
entraînea(
-= 0 etb( = 1.
1. X’ désigne le transposé du vecteur X, E (xx’) désigne l’espérance mathématique de la matrice xx’, soit ici simplement la
moyenne arithmétique des N matrices indexées par s.
Si deux matrices B et PB vérifient
(1)
et(2),
et si P estdiagonale,
P = I.Si P n’est pas
diagonale
etqu’un
termepl
est non nul avec i ~j,
on a vu que laligne j
de B doitprésenter
au moins les mêmes zéros structurels que laligne
i. Et dès lors...Puisque :
De même dans la matrice E
(e x’),
le termediagonal
E(el xj)
est non nul(c’est
la covariance de Xiavec le facteur externe
qui agit
sur xl et sur luiseul).
Ce même raisonnement montre donc que dans laligne i :
E(ei xi) :F 0,
cequi
contredit que :b{ 1=
0.Revenons maintenant au
point
délicat. Nous allons montrer que :La deuxième
implication exprime
l’absence decycle
delongueur
2.La
première exprime qu’il n’y
a corrélation entre un facteurexplicite
Xi et un facteur externe etque si xj
dépend
du facteurexplicite
en relation directe avec eh c’est-à-dire xi.En effet :
1 -...- ""
Le
premier
terme est nul parhypothèse pour i
~j.
Sous le
signe
somme, on doit isoler le termeai
E(e, xi),
car la corrélation de e et xi esttoujours positive.
L’hypothèse :
E(ei x~) ~
0implique
donc :ou
bienai
#0,
? ou bien 3 k =F i
mais dans ce second cas, E
(et xk) #
0implique
encore :La chaîne
complète
desimplications
est infinie et peut s’écrire : E(ei xi) 0
0 P1 ... ,.
Nous voyons
qu’il
existe une chaîne de variables delongueur
finie ou non : xx xl etc. xm Xn etc.,telles que dans le
graphe :
et que si la chaîne est
finie,
elle se termine par la variable xc, parexemple :
xn - x, aveca~ 1=
0.Mais le nombre de variables xk étant
fini,
la chaîne nepeut
être infinie sansprésenter
descycles (en
passantplusieurs
fois par les mêmesvariables).
Dans
l’hypothèse
où legraphe
est sanscycle,
nous devons conclure que :xj
dépend
de xc à travers une chaîne de variables : Xk, Xe, etc. xm, Xn.Si maintenant le
graphe
esttransitif,
il en résulte que Xidépend
aussi directement de x selon le schéma : Xi f- Xt, que parconséquent bj
n’est pas un zérostructurel,
et que par contreb(
en est un.4. -
MÉTHODE
DE CALCUL DES COEFFICIENTSb~.
A tout coefficient
b~, qui
n’est pas un zérostructurel,
nous pouvons associerl’équation :
qui
concerne toute laligne 1
de B.Ces
équations
vont-elles admettre une solutionunique ?
Considérons le
sous-système d’équation
relatif à laligne i
de B :(c’est-à-dire
tel que xc ~ Xi dans legraphe).
Nous avons p
équations
à p inconnues : p est le nombre de flèches reçues par x. On peut supposerqu’elles proviennent
de xi, x~, ..., Xp. Commeb~ = 1,
nous pouvons isoler les termes E(xj x)
commesecond membre. Sous forme
matricielle,
et en mettant en facteurl’opérateur
Ed’espérance
mathéma-tique,
lesystème (4)
va s’écrire :Soit en condensant :
x
désigne
ici le vecteur des variables dontdépend
Xi. Le déterminant dusystème
ne peut être nul que si ces variables Xi, X2’ x, sont liées par une relation linéaire stricte. Dans ce cas, l’une de ces variabless’exprime
comme une combinaison linéaire stricte desp -1
autres et devrait être retirée du modèle.Moyennant
cetteconvention,
nécessaireégalement
dans les études derégression,
nous voyons que lesystème (4)
admettoujours
une solutionunique.
Les
équations :
expriment
que la variance :Qi
= E(e2)
est extremum.En effet :
car :
Considérons alors un
graphe particulièrement simple
où seule la variable xndépend
desprécédentes :
Fig.
2Le
système d’équation correspondant :
aura pour solution les coefficients :
ai
= -bi qui
rendent minima la variance de l’écart :Les coefficient
an
seront alors les coefficients derégression classique.
Nous voyons ainsi que
l’analyse
dedépendance
est unegénéralisation
del’analyse
derégression multiple.
6. -
RÉSUMÉ CRITIQUE.
Dans les
cinq paragraphes précédents, j’ai
tenté de suivre fidèlementl’exposé
deBoudon,
enprécisant
seulement les démonstrations et leurs conditions de validité. Ilapparaît :
a)
que la démonstration de l’énoncé «quand
les corrélations entre facteursimplicites
sontnulles,
les coefficients de
dépendance
sonttoujours identifiables o,
suppose legraphe
sanscycle,
ettransitif;
b)
que leprocédé proposé
pour le calcul des coefficients dedépendance
n’estunivoque qu’au prix
d’une
convention, qui
élimine dugraphe
tout facteur internequi
serait strictement une combinaison linéaire de certains autres.Dès
lors,
il nousparaît
difficile de conserver l’articulation del’exposé
de Boudon construit surla notion d’identification. Les coefficients de
dépendance seraient,
selonlui,
identifiables dans certaines conditions où les coefficients derégression
ne le sont pas. (Test le contrairequi
nous semble vrai. Lescoefficients de
régression
sontuniques
àpartir
de la seule conventionb).
Les coefficients dedépendance
de Boudon demandent en
plus,
pourl’être,
que legraphe
des flèches dedépendance
soit transitif sanscycle (condition
a ~graphe
d’une relationd’ordre)
et que les facteurs externes soient sans corrélations mutuelles.Quand
ils existent, les coefficientsa~
du modèle sont les coefficients derégression
de la variable interne Xt par rapport aux variables Xi dont ellereçoit
des flèches(dont
xdépend
selon legraphe
dedépendance).
CONCLUSION.
Nous proposons, devant un
graphe
dedépendance
tel que celui deDurkheim,
de le valuer à l’aide des coefficients derégression,
en traitant tour à tourchaque
variable comme un effet et comme unecause. Est-ce à dire que la distinction entre coefficients de
régression
et coefficients dedépendance
soitvide de contenu? La
réponse
doit être nuancée. On savaitdéjà
les coefficients derégression
porteurs de deuxsignifications principales,
ils donnentl’espérance mathématique
conditionnelle dey/x (i ~ J),
soit pour une loi normale de dimension 1
+ 1,
soit pour une certaine famille de lois unidimensionnellesdépendant
desparamètres
x. Ils serviront ici à mesurer l’intensité d’une influencecausale,
notioncomplètement dissymétrique.
Legraphe
pourra être non transitif et comporter descycles :
les valuations de deux flèchesopposées
seront deux coefficientscomplètement
distincts comme dansl’exemple ci-après :
Fig. 3
Nous devons
cependant rejeter
lesgraphes
avecbouclez ;
uneéquation
telle que :conduirait à la solution triviale :
Pour
conclure,
ilapparaît
que les coefficients derégression
constituent une solutionpossible
auproblème
del’analyse causale,
etqu’on peut
les nommer dans ce cas coefficients dedépendance.
Nota. - A titre de contre
exemple
concernant l’énoncéa),
p.31,
voici ungraphe
nontransitif,
d’ailleurs sans