R EVUE DE STATISTIQUE APPLIQUÉE
A. F ARAJ
Analyse de contiguïté : une analyse discriminante généralisée à plusieurs variables qualitatives
Revue de statistique appliquée, tome 41, n
o3 (1993), p. 73-84
<http://www.numdam.org/item?id=RSA_1993__41_3_73_0>
© Société française de statistique, 1993, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les condi- tions générales d’utilisation (http://www.numdam.org/conditions). Toute uti- lisation commerciale ou impression systématique est constitutive d’une in- fraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
73
ANALYSE DE CONTIGUITÉ :
UNE ANALYSE DISCRIMINANTE GÉNÉRALISÉE
À PLUSIEURS VARIABLES QUALITATIVES
A.
Faraj
Rev.
Statistique Appliquée,
1993, XLI (3),Institut
Français
du Pétrole 1-4, Av. de Bois-Préau 92506 Rueil Malmaison CedexRÉSUMÉ
Nous traitons ici un
couple
de tableaux de données définies sur un même ensemble d’individusqui
en constituent leslignes.
Lepremier
croise ces individus avec des variablesquantitatives
et le deuxième les croise avec des variablesqualitatives.
Les variables
qualitatives
induisent despartitions
sur l’ensemble des individus. Nousnous intéressons à étudier les effets des variables
qualitatives
sur les valeursprises
par les variablesquantitatives.
Nous proposons un indice d’évaluation de lapertinence
des variablesqualitatives
quant à cet effet. Nous rechercherons, dans un espace de dimension réduite, unereprésentation
des individus aussiproche
quepossible
despartitions
définies par les variablesqualitatives
lesplus significatives.
Notre démarche est basée sur les méthodes
proposées
par L. Lebart [7] pour laprise
en compte de structures decontiguïté
et par Y. Le Foll [8] concernant lapondération
descouples
de
points.
Nous
pondérons chaque
individu par l’effectif de sescontigus.
Ensuite nous centronset réduisons les variables
quantitatives
relativement à cettepondération.
C’est sur ces me- sures centrées et réduites que nous effectuonsl’analyse.
La matrice des variances-covariances coïncide alors avec la matrice des corrélationspondérées.
Ceci nous permettra de diminuerl’importance
des individus isolés, mais surtout de retrouver leséquations
del’analyse
discri-minante dans le cas d’une seule variable
qualitative.
Notre méthodeapparaît
alors comme unegénéralisation
del’analyse
discriminante àplusieurs
variablesqualitatives.
L’Analyse Canonique
desCorrespondances
[13] tellequ’elle
est décrite par D. Chessel et al. [5]pourrait s’appliquer
à notreproblème.
Elle donne, d’unpoint
de vue formel toutau moins, des
équations comparables
aux notres.Cependant
ellen’exploite
pas les mêmespondérations
que celles utilisées par notre méthode.Mots clés :
Analyse
decontiguïté,
ACP,Analyse
discriminante, Pondération,Graphe
de contiguïté, Covariance locale.SUMMARY
Methods are
investigated
forhandling
acouple
of tables, the lines of eachbeing
casesissued from a
unique
set. In the first table, cases are crossed withquantitative
variables whereasqualitative
in the second.Qualitative variables induce
partitions
of the cases set. Influence ofqualitative
variableson
quantitative
ones are studied and a criterion isproposed measuring
its relevance. Arepresentation
of the individuals in a reduced dimensionnal space ispresented,
expected tobe as close as
possible
to thepartitions
definedby
the most relevantqualitative
variables.Our process is based, on the one hand, on methods
proposed by
L. Lebart (see [7]) forhandling contiguity
structures and, on the other hand, on Y. Le Foll’s works (see [8]) on theweightings
ofcouple
ofpoints.
In order to calculate variances/covariances, each individual is
weighted by
the numberof its
neighbours,
what leads to diminish the isolated individualsimportance
and moreover, torecover the discriminant
analysis
formalism (in theone-qualitative-variable
case). Our method then appears as ageneralization
of discriminantanalysis
to themultiple
variables case.Canonical
correspondance analysis
(see Ter Braak [13]), as describedby
D. Chessel etal. (see [5]) could be
applied
to ourproblem,
as far as both formalisms are close.Key
Words :Contiguity Analysis,
PCA, DiscriminantAnalysis, Weightings, Contiguity graph,
Local covariance.
1. Covariance locale - Costabilité
On se donne un
couple
X et V de tableaux de données ayant le même nombre n delignes
que nous noterons i(1
in)
etqui
constituent l’ensemble des individus.Le
premier
tableau croise ces individus avec J variablesquantitatives
x)(1 j J)
et le deuxième les croise avec K variables
qualitatives vk (1 k K).
Chacune des variables
qualitatives vk
induit sur l’ensemble des individus ungraphe
decontiguïté Gk = [gkii,]
de lafaçon
suivante :De sorte que l’ensemble
{vk}
des variablesqualitatives
définit legraphe
symétrique pondéré
G(compris
entre 0 etK) représente
le nombre de variablesqualitatives qui
réunissent i et z’ dans unemême classe de modalité.
Nous
désignerons
par le nombre de connexions dugraphe
Gk
et par le nombre total des connexions des K variablesqualitatives.
75
ANALYSE DE CONTIGUITÉ
La matrice des covariances locales du tableau X définie par Lebart
[7]
relativement au
graphe G
sera notéeFxx.
Son termegénéral 0393jj’ qui représente
la covariance locale entre les deux variables
xi
etxJ’ est
défini par :Si
r;jl désigne
le termegénéral
de la matrice0393kXX
des covariances locales du tableau X relative augraphe Gk,
nous avons la relation suivante :Soit matriciellement :
La valeur
0393jj
duj-ème
terme de ladiagonale
de0393XX correspond
à la variancelocale de la variable xJ par
rapport
augraphe
decontiguïté
induit par l’ensemble des variablesqualitatives.
n
Notons n2 =
03A3gii,
l’effectif local au«voisinage» de i,
pi =ni-
le taux deses
contigus,
N =[ni]
etDn = [pi]
les matrices carréesdiagonales
d’ordre n des ni et des pirespectivement.
Nous supposerons que
chaque
individu i a pour masse pi, cequi
revient àpondérer
i par le taux de sescontigus (au
lieu de lapondération classique égale à n )
et à
adopter
commemétrique
despoids
lamétrique
de matriceDn .
Dans la
suite,
nous considérons que les variables x j sontDn-centrées
etDn-
réduites. Nous
prendrons
la même notation X pour le tableau des donnéesDn-
normées. Nous noterons
Cxx
la matrice des corrélations relativement àDn.
Nous définissons le
coefficient
de stabilité d’une variablex-1
par :De même le
coefficient
de costabilité de deux variablesxi
etxj’
par :Notons que Tjj’ + 0393jj’ = cor(xj, xj’)(1) et plus particulièrement Tjj + 0393jj
= 1.Si
Tkjj’ désigne
le termegénéral
de la matriceTkXX
des costabilités du tableau X relative augraphe Gk
etTkjj
le coefficient de stabilité de la variablexj
par rapport àGk,
nous avons la relation suivante :En
désignant
parTxx
la matrice dont le termegénéral
estTjj’,
nous avons les écritures matricielles suivantes :et
Cette deuxième relation
représente
une écriture del’égalité
deHuyghens
étendue aux classes
empiétantes
danslaquelle Cxx
est calculée relativement à lamétrique Dn.
Lebart en propose une autre[7] généralisée
par Mom dans sa thèse[9].
Remarque
Si K -
1, Txx
etGxx correspondent respectivement
aux matrices de covariances inter et intra-classes associées à lapartition
définie par la seule variablequalitative
del’analyse, chaque
individu étantpondéré
par la masse de la classe àlaquelle
ilappartient.
Dans ce cas, si
covc(xj,xj’) désigne
la covariance usuelle entre les variablesxi
etxi’
dans la classe c,M3 . c
le centre degravité
de cette classe pour la variablec c
On voit ainsi
apparaître,
du fait despoids adoptés,
lespondérations n 2
au lieu despondérations nc n
usuelles.compte tenu du fait que 9ii’ = 9i’ i :
Et, puisque les variables sont centrées et réduites par rapport est le terme général de la matrice CXX des corrélations calculée relativement à Dn.
77 ANALYSE DE CONTIGUITÉ
2. La méthode
Une variable
xj
pourlaquelle
le coefficientTjj ~
1présente
en moyenne defaibles
dispersions (ou variabilités)
à l’intérieur des classes induites par les variablesqualitatives.
Par contre, siTjj ~ 0, xj présentera
de fortes variabilités à l’intérieur de ces classes.Nous
appliquons l’analyse
de lacontiguïté (cf [7]).
Elle consiste à rechercherune variable
f (composante principale),
combinaison linéaire des variables initialesxj ( f
=X u),
pourlaquelle
la variance locale est minimale. Cequi
estéquivalent
àrechercher celle pour
laquelle
lerapport
destabilité Tf 03C32f
=utTXXu utCXXu
est maximal.Ceci revient à déterminer les vecteurs propres
(ul)l=1,...,J
de la matriceC-1XXTXX
associés aux valeurs propres03BB1 03BB2
...Aj - Àl -
coefficient de stabilité de la l-ème composante - s’écrit :ou encore
est la contribution de la variable
vk
à la construction de lal-ème
composante.
avec lerapport
dela variance inter-classes de la
partition
induite par la variable v’ sur la variance totale de la l-ème composante etpossède
un«comportement» analogue
à ce dernier pour K ~ 2.Rf
est d’autantplus
fort que les classes de cettepartition
sonthomogènes
et bien isolées pour les valeurs de la lème
composante.
Ceci nous conduit à une méthode d’élimination pas à pas des variablesqualitatives
les moins discriminantes pour negarder
que celles dont laségrégation
des mesures des variablesquantitatives
est
significative.
Nous conserverons comme variablesqualitatives significatives
cellespour
lesquelles
cerapport -
pour lespremières
composantes factorielles retenues - estproche
de 1.3.
Décomposition
du coefficient de stabilitéOn montre que les
composantes
factorielles sontDn-normées
et leurs coeffi- cientsrespectifs
de stabilitéégaux
aux valeurs propres deCx 1- T x x .
Soit
rj 1
=cor(xi, fi)
le coefficient de corrélation dela j-ème
variable initialeavec la l-ème
composante,
on montre que le coefficient de stabilitéde xi
se met sousla forme :
Donc,
du fait que les variables initiales sontD,,-normées
uj 2
=1),
le coefficient de stabilité d’une variable s’écrit sous la forme d’une sommepondérée
des coefficients de stabilité des composantes factorielles.(rjl)2 -
carré ducoefficient de corrélation - est la contribution de la l-ème
composante
factorielle à la stabilité de la variablexi .
4. Un
exemple d’application
Les données que nous traitons nous ont été
communiquées
par E. Stemmelen de la SOFRES.L’application
del’analyse
de lacontiguïté
à ce type de données nouspermet d’illustrer notre méthode. La collecte de ces données a été faite dans le cadre de la
«Sémiométrie»[6].
Une liste de 66 mots estprésentée
à un échantillon de 970 élèves degrandes
écolesauxquels
il est demandé d’attribuer à chacun des mots une noted’agrément (allant
de 1 à7)
selonqu’ils
n’aiment pas ouqu’ils
aiment le mot enquestion.
Lesréponses
sontrangées
dans un tableau où les 970 élèves sont enlignes
et les 66 mots en colonnes.
Il
existe,
parailleurs,
des informationssignalétiques
apriori
sur les élèvesrépertoriées
en tant que variablesqualitatives :
type d’école(2
modalités deréponses :
écoles
d’ingénieurs
ou decommerce), région (2
modalités :Paris/Région
Parisienneou
Province),
sexe(2 modalités),
lieu où l’élève désire commencer à travailler(3
modalités : enFrance,
àl’étranger
ou «ne saitpas»),
année de scolarité de l’élève(2
modalités : dernière année ounon).
Le but est de
définir,
dans unpremier temps,
un espace dereprésentation qui
fournisse une
organisation conceptuelle
des 66 mots. Onrecherche,
dans un deuxièmetemps,
desinter-dépendances
entre ces mots-concepts et les modalités des variablesqualitatives signalétiques
des individus.Quelles
notes accorderait - parexemple -
unélève de sexe masculin étudiant à Paris en dernière année d’école de commerce aux mots
Mariage
ou Honneur? Existe-t-il une relation entre ces modalités combinées et les notes attribuées aux motsindiqués?
L’analyse
discriminantegénéralisée (ADG) apporte
des éléments deréponse
à
l’analyse
de telles données. Non seulement elle établit le modèleconceptuel
des66 mots en relation avec les variables
qualitatives,
mais elle nous fournit aussi des critères d’évaluation de l’effet de ces variables dans l’élaboration du modèle.D’autres méthodes
pourraient cependant
êtreappliquées
pourl’analyse
detels
types
de données. Laplus simple -
voire laplus classique -
seraitl’analyse
en
composantes principales.
Elle déterminerait dans unpremier temps l’espace
de
représentation
des variablesquantitatives. L’importance
de l’effet des variablesqualitatives
seraitillustrée,
dans un deuxième temps, par laprojection
des centres de79
ANALYSE DE CONTIG UITÉ
classes de leurs modalités dans
l’espace
des individus. Lespositions
de ces centrespermettent
alors de les rattacher auxsignifications
des axes factoriels(cf [6]).
Notons que l’ACP ne donne aucune indication chiffrée ni surl’importance
relative des variablesqualitatives
quant à leur influence sur les valeursprises
par les variablesquantitatives,
ni sur la construction des axes factoriels.Remarquons,
pourtant, que l’absence de l’apriori
des variablesqualitatives
dans l’utilisation de l’ACP
pourrait,
dans certains cas, constituer un avantage de celle-ci sur l’ADG. Elle laissechamp
libre àl’interprétation
des résultats vis-à- vis de nouvelles variablesqualitatives.
De cepoint
de vue, l’ADG offre moins desouplesse.
Mais nous dironssimplement
que la «meilleure» méthode est cellequi répond
aux besoins de l’utilisateur. Pour lui permettre le choix entre l’une oul’autre,
nous lesappliquerons
succesivement à notrejeu
de données et comparerons les résultatsauxquels
elles aboutissent. Nous nepréconiserons
pas l’efficacité de l’une des deuxanalyses
par rapport à l’autre. Bienqu’elles conduisent
à des résultats fondamentalementdifférents,
elles seraientplutôt complémentaires
que concurrentesdu fait
qu’elles offrent,
chacune à samanière,
unregard privilégié
sur les données.C’est ce que nous nous efforcerons de montrer dans la suite de cet article.
Les résultats de l’ADG
Les valeurs
proches
de 0(0,083
et0,032)
des coefficients de stabilité des deuxpremiers
facteurs montrentqu’il
n’existe pas unetypologie
nette des élèves - selon lesnotes
qu’ils
attribuent aux mots -qui
soit reliée aux variablesqualitatives
intervenant dansl’analyse. Cependant,
nous pouvons considérerqu’il
existe des effets de certainesde ces variables
qualitatives
sur les notes attribuées. Ils’agit
enparticulier
du typed’école,
du sexe et du lieu où l’élève désire commencer à travaillerqui présentent
descontributions assez élevées. Ceci montre les tendances
qu’ont
les individus de cescatégories
à noter très fortement ou très faiblement certains mots.La
projection
des centres de classes des modalités de toutes les variables(figure
1 )
montre en effetl’importance
des trois variables enquestion
et du moindre effet des deux autres(Région
et Année de scolarité del’élève).
Lafigure
2permet
de rattacherchacune de ces modalités à une famille de concept. Ainsi les filles auraient tendance à noter fortement les mots à caractère féminin
(« Mode »
et« B ij ou »)
et ceux enrapport
avec le confort intérieur
(«Nid», «Mariage», «Moelleux», ... )
ou cequi s’y rapporte (tel
que le mot«Propriété»).
Lesgarçons
tout enayant
moins depenchant
vers cesmots auraient
davantage
tendance à sumoter des mots de morbidité ou d’instabilité tels que«Fusil», «Mort», «Angoisse», «Labyrinthe»
et «Vide». Cepremier
axequi oppose le plaisir
defaire (à droite)
à l’instabilité-Morbidité(à gauche) sépare
aussiles élèves des écoles de commerce à ceux des écoles
d’ingénieurs.
Le deuxième axe est surtout caractérisé par la variable «Lieu où l’élève désire
commencer à travailler» dont la modalité «à
l’étranger»
se trouve du côté des mots révélant une certaine curiosité del’esprit
tels que«Différent», «Étranger»,
«Interroger», «Aventurier», «Original»,
... Alors que la modalité «en France» se trouve du côté des mots que nous avons défini autour duconcept
«Confort intérieur».Avec cette
modalité,
le mot «intérieur»prend
son sens leplus large.
FIGURE 1
Individus - A.D.G. -
Projection
des centres de classesLa
proximité
entre deux centres de classes est àinterpréter
en tenant compte del’espace
dereprésentation
des mots(figure 2).
Ainsil’éloignement
entre lesclasses «Sexe F» et «Commencera à
l’étranger» s’expliquerait
par le fait que les élèves de sexe féminin auraientplus
tendance à sumoter les mots«Nid», « Mariage »,
81
ANALYSE DE CONTIGUITÉ
«Moelleux», ... (qui
sontregroupés
sur lafigure
2 autour desconcepts
«Chez-soi» et«Confort
intérieur»)
et sous-noter les mots «Différent» et«Étranger»
contrairementaux individus de la classe «Commencera à
l’étranger».
FIGURE 2
Variables - A. D. G. - Corrélations avec les deux
premières
composantesLa
position
du centre de la classe «Sexe M» à côté de «Action Morbide»ne
signifie
pas que les hommes soientplus
morbides que les femmes. Les faibles valeurs des coefficients de stabilité despremiers
facteurs’montrentqu’il n’ y
a pas unetypologie
très nette des individus allant dans ce sens. Cela traduit que les individusqui
donnent des notes élevées à«Fusil», «Mort», «Angoisse», ...
sontplutôt
de sexemasculin que féminin. A
l’inverse,
ceuxqui
sumotent les mots«Bijou»
et «Mode»proviennent
enmajorité
de la classe «Sexe F».Les résultats de l’ACP
Ici,
contrairement àl’ADG,
les variablesqualitatives
ne nous seront d’aucuneaide dans la
description préliminaire
des résultats. Elles ont un rôle illustratif aposteriori.
FIGURE 3
Variables - ACP - Corrélations avec les deux
premières
composantesEn examinant la
figure 3,
nous voyons que d’une manièreisolée,
certains mots s’assemblent deux à deux de la mêmefaçon qu’en ADG;
maisglobalement,
leursregroupements
avec d’autres offrent un «modèleconceptuel»
différent. Les motssuivants sont réunis aussi bien par l’ADG que par l’ACP :
«Angoisse»
et«Mort»;
«Labyrinthe»
et«Vide»;
«Différent» et«Étranger»;
... Leur similitude nedépend
donc pas des variables
qualitatives
utilisées en ADG.Par ailleurs d’autres mots
(rapprochés
parl’ADG)
sontséparés
par l’ACP faisant ainsiapparaître
uneinterprétation
nouvelle des résultats. C’est le cas de«Travail» et
«Rire»; «Argent»
et«Théatre»; «Mariage»
et «Tendresse». Et alors que les uns(«Travail», «Argent»
et«Mariage»),
en se combinant avec d’autres mots, fontapparaître
leconcept
«Valeurs desociété»,
les autres(«Rire»,
«Théâtre» et«Tendresse») apparaissent plutôt
comme des valeurs individuelles.Les centres de
classes,
à échelleégale,
se trouvent dans unrectangle
dedimensions
plus
faible parrapport
à lafigure
1. Latypologie
données par l’ACPest moins conforme aux variables
qualitatives
que celle donnée par l’ ADG.83
ANALYSE DE CONTIGUITÉ
FIGURE 4
individus - ACP - Projection des centres de classes
5. Conclusion
La
pondération
despaires
d’individus par le nombre de variablesqualitatives qui
les réunissent offre uneméthologie
permettantl’analyse
simultanée d’uncouple
de
tableaux;
l’unquantitatif
et l’autrequalitatif.
Elle permetd’accepter
ou deréfuter l’influence des variables
qualitatives
sur les valeursprises
par les variablesquantitatives.
En
pondérant,
d’autre part, chacun des individus par le nombre de ses«contigus»,
nous établissons leséquations
d’uneanalyse
factorielle discriminantegénéralisée
àplusieurs
variablesqualitatives.
Signalons cependant
quel’analyse canonique
descorrespondances
mise enplace
par Ter Braak[13]
et tellequ’elle
estprésentée
par Chessel et al.[5]
permetd’analyser
uncouple
detableaux;
lepremier
relevant de l’ACP et le deuxième del’analyse
descorrespondances -
en l’occurrence le tableaudisjonctif complet
des variables
qualitatives
éclatées. Elle peut doncrépondre
à notreproblème.
Elleremplace
la notion decontiguïté
par celle de moyenne conditionnelle par classe. Elle permet comme l’ADGd’indiquer
l’influence des modalités des variablesqualitatives
sur la construction de
l’espace
dereprésentation
des variablesquantitatives.
Je remercie Monsieur L. Lebart pour ses conseils
qui
m’ontpermis
de réaliserce travail.
Références
[1]
BenaliH., (1989), Analyse statistique spatiale : Application
à la mortalité parcancer chez
l’homme,
XIVèmeréunion, Vevey, Suisse,
4-5 mai1989,
pp. 101-114.
[2] Burtchy B.,
Lebart L.(1991), Contiguity analysis
andProjection Pursuit,
5thInternational
Symposium
onApplied
Stochastic Models and DataAnalysis, Granada, April
23-26 1991.[3]
Carlier A.(1985), Application
del’analyse
factorielle des évolutions et del’analyse
intra-période, Statistique
etAnalyse
desdonnées,
Vol.10,
n°1,
pp.13-31.
[4]
CazesP.,
Moreau J.(1991), Analysis
of acontingency
table in which the rowsand columns have a
graph
structure, Journées Internationales deVersailles,
18-20septembre 1991,
pp. 271-280.[5]
ChesselD.,
LebretonJ.D.,
Yoccoz N.(1987), Propriétés
del’analyse canonique
des
correspondances,
Rev. deStatistique Appliquée,
Vol. 35(4),
pp. 57-72.[6]
Deutsch E.( 1989),
Sémiométrie : une nouvelleapproche
depositionnement
etde
segmentation,
RevueFrançaise
duMarketing,
n°25,
pp. 5-16.[7]
Lebart L.(1974), Description statistique
de certaines relationsbinaires,
Actes du 3èmecolloque
surl’analyse
des données enGéographie, Besançon,
pp. 75-101.
[8]
Le Foll Y.(1982),
Pondération des distances enanalyse factorielle, Statistique
et
Analyse
desdonnées,
pp. 13-31.[9]
Mom A.(1988), Méthodologie statistique
de la classification des réseaux de transports, ThèseUSTL, Montpellier.
[10]
Monestiez P.( 1978),
Présentation de deux méthodes utilisant lacontiguïté
pourl’analyse
des donnéesgéographiques,
Thèse de docteuringénieur,
Paris 6.[11]
Romeder J.M.(1973),
Méthodes et programmesd’analyse discriminante, Dunod,
Paris.[12] Royer
J.J.(1988), Analyse
multivariable etfiltrage
des donnéesrégionalisées,
Thèse de
Doctorat, INPL, Nancy.
[13]
Ter Braak C.J.F.(1986),
Canonicalcorrespondance analysis :
a neweigenvector technique
for multivariate directgradient analysis, Ecology,
67(5),
pp. 1167-1179.