R EVUE DE STATISTIQUE APPLIQUÉE
G ÉRALD M ARION
Colinéarité et interaction dans l’analyse de modèles linéaires : un modèle et un exemple
Revue de statistique appliquée, tome 20, n
o3 (1972), p. 57-66
<
http://www.numdam.org/item?id=RSA_1972__20_3_57_0>
© Société française de statistique, 1972, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (
http://www.sfds.asso.fr/publicat/rsa.htm
) implique l’accord avec les conditions générales d’uti-
lisation (
http://www.numdam.org/conditions). Toute utilisation commerciale ou im-
pression systématique est constitutive d’une infraction pénale. Toute copie ou im-
pression de ce fichier doit contenir la présente mention de copyright.
57
COLINÉARITE ET INTERACTION
DANS L’ANALYSE DE MODÈLES LINÉAIRES :
UN MODÈLE ET UN EXEMPLE
Gérald MARION
Université
de Montréal
Dans un article
publié
en1948,
W. L. Stevensprésentait
unetechnique
d’itération pour estimer les coefficients d’un modèle linéaire où la distribu- tion des observations selon divers critères de classification n’est pas ortho-
gonale. Malgré
toutel’ingéniosité
del’auteur,
cette méthode n’estdéveloppée
et
présentée qu’à
l’aide d’unexemple arithmétique
et ne débouche pas surune
technique générale (1).
Le
présent
article a pour but de définir leséquations
normalesqui
per- mettent deprésenter
latechnique
de Stevens sous une formegénérale
et d’enfaire une
application
à l’aide d’unexemple
tiré desstatistiques
de revenus au Canada.1 - RAPPEL DU PROBLEME
Il est
possible
de mesurer l’influence d’un facteur si onpeut
fairevarier le niveau de ce facteur sans que les autres facteurs varient concurrem-
ment. En d’autres mots, les facteurs ne doivent pas être corrélés mais in-
dépendants.
Cette conditionprésente
dans lesexpériences
contrôlées estplus
rare dans
l’analyse économique
où nombre de variablesprésentent
des colli- néarités accusées(2).
En termestechniques,
on dit alors que la distribution des échantillons selon les facteurs estnon-orthogonale.
Pour fixer les idéessur cette notion, prenons un
exemple. Supposons
que le taux moyen de salairedépende
del’occupation
et du niveau d’instruction. Classifions les unités selonces deux facteurs dans le tableau ci-dessous :
(1) W. L. Stevens, "Statistical Analysis of a Non-Orthogonal Trifactoriar, Experiment", Piometrika, Vol. XXXV (1948), pp. 346-367.
(2) E. Malinvaud, Méthodes statistiques de l’Econométrie. Dunod, p. 225 et suivantes.
Revue de Statistique Appliquée. 1972 - vol. XX N° 3
Appelons A,
la classification selon lesoccupations
et B la classification selon la scolarité. Chacun des carreaux de lagrille
contient un certain nom-bre d’unités
égal
ànij’ représentant
le nombre d’unitésappartenant
à la foisaux classes ex
et pj.
Le
point
essentiel est le suivant : si tous les élémentsnij
sontégaux,
la distribution selon les industries et la taille est dite
orthogonale.
Dans cecas, le nombre d’unités dans les classes d’un facteur n’est pas relié au nom-
bre d’unités
qui apparaît
dans lescatégories
d’un autrecritère ;
les facteurssont alors
indépendants
les uns des autres. Il suit que le niveau d’un facteurpeut changer
sans que celui de l’autre facteur varieconcurremment.
C’estprécisément
cettepossibilité
de faire varier un facteurindépendamment
desvariations des autres facteurs
qui permet
d’observer les effets nets de cefacteur ;
car dans cecontexte,
c’est-à-direlorsque
lesdistributions
sont or-thogonales,
l’effet obtenu par la variation d’un facteur n’est pas entaché d’uneerreur
provenant
de variations concomitantes du second facteur. Il est alorspossible,
parexemple,
de mesurer l’effetd’appartenance
à uneoccupation simplement
enprenant
la différence entre le taux moyen de l’ensemble de l’échantillon et le taux moyen del’occupation
dont on recherche l’effet. Leniveau d’éducation n’étant pas corrélé avec la structure
occupationnelle,
il n’affecte pas l’effetd’occupation.
Dans le cascontraire,
c’est-à-direlorsque
les distributions ne sont pas
orthogonales,
les écarts entre la classeai d’un
critère A et la moyenne
générale
résultentpartiellement
ouintégralement
dedifférences dans la
composition
des classes parrapport
à l’autre critère.Précisons de
plus
que la condition del’égalité
desn 1j
est une conditionsuffisante,
mais non nécessaire pour quel’orthogonalité
existe. Il suffit que larépartition
des unités dans les classes(a 1 ~ j)
obéisse à certainesrègles
de
proportionnalité
que nousprésentons plus
bas.Une distribution des unités dans les diverses "cases" d’une classification
multiple qui
obéit à certainesrègles
d’une distributionorthogonale
est doncune
propriété
désirable dans touteanalyse
factorielle.Cependant,
il arrivesouvent que les auteurs
procèdent
à desanalyses
de variances, parexemple,
sans se soucier de la
présence
de cespropriétés
concernant la distribution des unités. C’est d’ailleurs la même difficultéqui
nous confrontelorsque
lesvariables
indépendantes
d’uneanalyse
derégression
sont collinéaires.Dans les
lignes qui suivent,
nous dérivons leséquations
normalesqui
nous
permettent
d’estimer les effets des facteurs de même que nous identi- fions les éléments de ceséquations
dont la valeur est déterminée parl’asy-
métrie de la distribution des unités par
rapport
aux critères de classement des unités. Nousprésentons
enfin une méthode d’itérationqui
pour l’estima- tion des facteurs ou de lavaleur
desparamètres
deséquations normales,
tient
compte
del’asymétrie
de la distribution des unités.II - EVALUATION DU BIAIS DU A LA NON-ORTHOGONALITE Prenons le modèle suivant :
59
Dans ce
modèle,
ydésigne
le revenu moyen du groupe de travailleurs k étant à la fois dans lacatégorie ex i du
critère A(industrie),
la classep.
du critère B
(taille)
et la classeYk
du critère C. m est une constante.Pour l’estimation des effets a,
P,
y, on cherche lesparamètres ai,
bj,
ek et m, tels que :soit minimum où :
De
plus,
posons :En
prenant
les dérivéespartielles
de F parrapport
à m, a, b et c,on obtient les
équations
normalessuivantes :
D’où l’on tire :
Revue de Statistique Appliquée. 1972 - vol. XX N° 3
Dans
l’équation précédente,
lesexpressions
représentent
le biais introduit en utilisantYi... - y....
comme estimé depef- fetai.
Il est évident que ce biais est nul si
Une transformation triviale de la
première expression
donneOn
peut
montrer que cetteexpression
définit lesrègles
deproportion-
nalitéauxquelles
doit obéir une distributionorthogonale.
Ajoutons
enfin la condition que m soit la moyenne de revenupour toute
la
population,
alorset
Rappelons
que les deux dernièresexpressions
sont le biaisprovenant
de lanon-orthogonalité
des distributions etqu’elles
s’annulent dès que les distributions deviennentorthogonales.
Dèslors,
dans le cas de distributionorthogonale, y 1... - y
=ai (1).
---~-
° ° ° ° ° °
(1) En effet, dans le cas d’orthogonalité des distributions
Si on substitue n ij. et ni.k par leur valeur respective dans l’équation normale
Yi...==(...),
on aura :-
l’équation
normale
se réduit àEtant donné les contraintes ci-dessus, m =
....,
ainsi :61 On démontre de la même
façon
que :Et que :
III - INTERACTION
Le biais
provenant
de la collinéarité entre les facteursdépend
de ladistribution des unités dans les diverses
catégories
des facteurs. Mais il arrive aussi que les effets des différents facteurs soient liés entre eux indé-pendamment
de la distribution des unités. Cephénomène
seproduit lorsque
les effets d’un facteur
dépendent
du niveau d’un autre facteur.Ainsi,
l’écart de revenu entre un travailleurqualifié
et unnon-qualifié peut
ne pas être le même pour tous les groupesethniques,
maisdépendre
del’origine ethnique
des
salariés,
étant donné que la rareté des diversescatégories
de travailpeut
être différente d’un groupeethnique
à un autre. Pour calculer l’inte-raction entre deux
facteurs,
on doit connaftre pourchaque catégorie
d’unfacteur les effets de ce facteur pour chacune des
catégories
d’un deuxième facteur. En ce sens, ces deux facteurs n’en formentqu’un seul, puisqu’ils
ont un
effet joint.
IV - ITERATION
1 - Sans interaction entre les facteurs
La méthode d’itération que nous utilisons consiste à éliminer
graduel-
lement les biais
qui
entachent la valeur desparamètres ;
ce biaisprovient
du fait que :1)
lapremière
estimation d’unpremier paramètre
est elle- mêmebiaisée,
et que2)
lesparamètres
des autres facteursqui, lorsque
les distributions sont
asymétriques,
affectent la valeur dupremier paramètre,
sont eux-mêmes biaisés.
D’après
leséquations
normales :Si on évalue d’abord la valeur des
paramètres
ensupposant
que les distributions sontorthogonales.
On obtient alors àl’étape (o) :
Revue de Statistique Appliquée. 1972 - vol. XX N° 3
Par la
suite,
oncorrige
la valeur dea (0)
pour éliminer les effets deb
i etc k
sura , 1
On obtient :i
On fait de même pour les autres
paramètres ;
mais en tenantcompte
de la nouvelle estimation dea puis
deb :
Bien que l’estimation de
a~B b ~~ ~ et c:) présente
une amélioration surcelle de
a~. b~~ ~
etc~B
il est évident que des biaispersistent,
dûs au faitque les corrections ont été
pratiquées
àpartir
deparamètres
eux-mêmesencore biaisés en
partie.
Nous continuons donc l’itération pour obtenir :
1 - Avec interaction entre les facteurs
Nous avons vu
précédemment
que pour calculer l’interaction entre deuxfacteurs,
on doit connaftre pourchaque catégorie
d’unpremier
facteur les effets de ce facteur pour chacune descatégories
du deuxième facteur. Si parexemple,
on tient pouracquis qu’il
existe une interaction entre les facteurs A etB,
on estimera la valeur desAi
pourchaque Bj.
On cherche donc la valeur desparamètres aij. Appliquant
la méthodeitérative,
lapremière
étape apparaftra
alors comme étant :63 Les autres
étapes
seront alors :La classification des unités se fait en tenant
compte
du fait quelorsque
deux facteurs sont en
interaction,
àchaque .catégorie
d’un de ces facteurscorrespond
unecatégorie
de l’autre facteurqui
est en interaction.V - UNE APPLICATION A L’ETUDE DES DISPARITES ENTRE GROUPES
ETHNIQUES
SELON LES CRITERES EDUCATION ET PROFESSIONSLe modèle
précédent
sera utilisé pour étudierl’importance
des facteursethnicité,
éducation etprofessions
dansl’explication
desdisparités
de reve-nus. On sait que ces trois facteurs sont fortement corroies et
qu’il
est doncnécessaire d’avoir recours à une méthode itérative pour mesurer leurs effets
respectifs.
Mais avant de
présenter
les résultats del’itération,
nousrappelons
les
statistiques
brutes surlesquelles
cetteanalyse
est fondée.D’abord,
ence
qui
concerne les revenus, nous retenons lesgains
annuels moyens de tra- vail des travailleurs masculins du Grand-Montréal en 1961. Les effectifs serapportent également
aux travailleurs masculins de larégion métropolitaine
de Montréal en 1961.
En
1961,
la moyennegénérale
de revenus estde $ 4, 447. 86 .
Les reve-nus et les
quantités
selon une classificationsimple
des trois critères retenusse
présentent
ainsi :Revue de Statistique Appliquée. 1972 - vol. XX N° 3
A
partir
desstatistiques ci-dessus,
nous pouvons d’abord calculer les effets bruts des diversescatégories
des trois facteursexplicatifs
retenus :l’origine ethnique,
le niveau d’éducation et laprofession.
Cespremiers
ré-sultats
apparaissent
à la colonne 2 du tableau ci-dessous. Ilscorrespondent
à
l’étape (o)
de l’itération et s’obtiennent toutsimplement
enprenant
la dif- férence entre la moyenne d’unecatégorie
d’un facteur et la moyennegénérale.
En résolvant successivement les
équations
du modèle itératifci-dessus,
nous éliminons
graduellement,
de ces effetsbruts,
les biais causés par la distribution nonsymétrique
des unités. Ces effetscorrigés, qui
sont en fait les effets nets,apparaissent
à la colonne(1).
Lacomparaison
entre les co- lonnes(1)
et(2)
révèlel’importance
de ces biais. Les effets del’origine
eth-nique
tout comme les effets du niveau d’éducation sontgrossièrement
sures-timés
lorsqu’on
neprend
pas soin d’éliminer le biais causé par laprésence
de collinéarité entre les variables. Il demeure
cependant
que les diverses ca-tégories
de facteursont,
parrapport
à la moyennegénérale
de $4,447,
des effetsimportants
dont onpeut
mesurerl’ampleur
à la lecture du tableau 1.Enfin, signalons
que si les effets bruts ne sont pasadditifs,
en ce sens que les effets bruts d’ethnicité parexemple, qui
sontamplifiés
par le chevauche- ment des effets de scolarité ou deprofessions,
nepeuvent
pas êtreajoutés
à ces
derniers,
les effets nets eux,qui
ne sontsensés
contenir aucun biais de cette nature,peuvent
être additionnés les uns aux autres.65 Tableau 1
Effets bruts et
corrigés
descatégories
desfacteurs,
mesurés par
rapport
à lagrande
moyenne4, 447. 86
VI - INTERACTION : GROUPES
ETHNIQUES/EDUCATION
Nous
présentons
maintenant unestatistique qui,
tout encorrigeant
pour les biais decollinéarité,
tientcompte
de l’interaction entre deux facteurs : l’éducation etl’appartenance ethnique.
Les effets sont calculés parrapport
à lagrande
moyenne. Au tableau 2 nous avonscolligé
les revenus par ni-veau de scolarité selon les groupes
ethniques.
Cesstatistiques représentent
les effets bruts et les effets
corrigés
ou nets. Les effets nets sont obtenusaprès
dix itérations successives. Lacomparaison
entre ces effets et les effets bruts révèle encore icil’importance
des biais causés par laprésence
de collinéarité entre les facteurs
explicatifs.
Ainsi au niveauuniversitaire,
la différence entre les effets bruts et les effets nets est de
prés de $ 1, 000
pour le groupefrançais
etplus
de $1,200
pour le groupebritannique.
Revue de Statistique Appliquée. 1972 - vol. XX N° 3
Enfin,
les effets d’interaction sont évidents.Ainsi,
parrapport
à lagrande
moyenne, l’effet net sur les revenus d’undiplôme
universitaire est de $3,241,
pour le groupebritannique
etde $ 1,556.63,
pour le groupefrançais. Remarquons
que pour obtenir cettestatistique,
nous avons tenucompte
de la structureoccupationnelle
des divers groupes. Les effets d’in- teraction sont doncimportants.
On nepeut
pas calculer les effets des divers niveaux d’éducation sans tenircompte
del’origine ethnique
des salariés. Ils’agit donc,
enréalité, d’effet joint éducation/ethnie.
Tableau 2
Effets nets des niveaux d’éducation selon les groupes
ethniques
mesurés par