B. L E R OUX H. R OUANET
L’analyse multidimensionnelle des données structurées
Mathématiques et sciences humaines, tome 85 (1984), p. 5-18
<http://www.numdam.org/item?id=MSH_1984__85__5_0>
© Centre d’analyse et de mathématiques sociales de l’EHESS, 1984, tous droits réservés.
L’accès aux archives de la revue « Mathématiques et sciences humaines » (http://
msh.revues.org/) implique l’accord avec les conditions générales d’utilisation (http://www.
numdam.org/conditions). Toute utilisation commerciale ou impression systématique est consti- tutive d’une infraction pénale. Toute copie ou impression de ce fichier doit conte- nir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
L’ANALYSE
MULTIDIMENSIONNELLE DES DONNEESSTRUCTUREESX
B. LE
ROUXXX,
H.ROUANETXX
RESUME
Le but de cet article est de montrer comment on
peut ,
pourl’analyse
desdonnées
d’observation , conjuguer
les deuxapproches
suivantes : d’unepart
les méthodes traditionnelles del’analyse
encomposantes principales
et sesvariantes,
d’autre
part
les méthodesd’analyse
des donnéesexpérimentales
commel’analyse
dela variance et,
plus généralement , l’analyse
descomparaisons.
Noussuggérons alors,
commetechnique standard ,
deprocéder
à une doubledécomposition
desinerties : selon
chaque
source de variation et selonchaque
variableprincipale.
I - INTRODUCTION
Les données que nous nous proposons
d’analyser
seront des données d’obser- vationprovenant ,
parexemple, d’une enquête
danslaquelle
on pourradistinguer
les variables
explicatives
des variables àexpliquer.
Ladistinction peut
relever duplan d’enquête lui même ( descripteurs
dessujets
commel’âge,la catégorie socio-professionnelle ...)
ou sefaire
au moment del’analyse .
Paranalogie
avec lelangage
del’expérimentation,
onpourrait dire "variables indé-
pendantes"
et"variables dépendantes"
sinon"par construction"
dumoins "par
inten-tion".
Les donnéesd’observation
sont engénéral
traitées par desprocédures particulières
commel’analyse
encomposantes principales
oul’analyse
des corres-pondances qui laissent
de côté lesconcepts classiques
del’analyse
des donnéesexpérimentales
tels que parexemple
celuid’interaction .
Le but de cetarticle
x L’essentiel de ce texte a fait
l’objet
d’une communication aucongrès
inter- national dePsychométrie
deJouy-en-Josas(Juillet 1983)
xxGroupe Mathématique
etPsychologie.
Sciences Sorbonne
Université René
Descartes -12,
RueCujas,
75005Paris
sera de montrer en
quoi
lesméthodes_issues
del’analyse
des donnéesexpérimen-
tales
peuvent enrichir l’analyse
des donnéesd’observation .
Les données réelles obtenues à
partir
desprocédures d’observation
se réduisent rarement à un
simple
tableau à double entrée . Elles sontgénérale-
ment
constituées
àpartir
deplusieurs facteurs ,
au sens où onparle
de facteuren
analyse
de la variance . Lesrelations
entre les facteursengendrent
unestructure
plus
oumoins complexe mais
formellementéquivalente
à celled’un plan
d’une véritable expérience ,
etqu’il
nousparait essentiel
deprendre
encompte
dansl’analyse
des données .C’est pourquoi
de telles données serontdésormais appelées
données structurées. Les relations entre les facteurs sont souventtrès
simples , beaucoup plus simples
que celles rencontrées pour les données dulaboratoire ; (
elles se bornent souvent à celles decroisement
etd’emboî-
tement ) ;
par contre , les"plans"
ne sont pas, engénéral, orthogonaux.
Ilen résulte que le transfert des
techniques
élaborées dans un contexteexpérimen-
tal sera assez
facile , tandis
quel’interprétation
des résultats requerra beau- coup desoin .
Pour
l’analyse
des donnéesstructurées ,
unoutil
utile sera lanotion formalisée
decomparaison. Conceptuellement ,
la notion decomparaison
étendcelle de source de variation
familière
enanalyse
de variance et vise àrépondre
à toutes sortes de
questions spécifiques
seposant
à propos desdonnées ,
dansle cadre de la structure
engendrée
par leplan .
Pourchaque question ,
onpeut
trouver une
comparaison ,
àlaquelle
on associe une somme des carrés ou inertie.Cette
méthode , qui constitue
donc une extension del’analyse
de lavariance classique
seraappelée analyse
descomparaisons
à la suite de H.Rouanet etD.Lépine (5~ .
Les
inerties qui figurent
dans ladécomposition
des sources devaria-
tion
peuvent
servir à desanalyses descriptives
aussi bienqu’inf érentielles .
Seules des
analyses descriptives
serontprésentées ici :
elles auront pour but de trouver desindices appropriés permettant d’évaluer
lagrandeur
etl’importance
des
divers
effetsprincipaux
desfacteurs ,
de leurinteraction
etc... Cesindices
descriptifs
donnerontlieu
à desinterprétations comparables
à celles des contri-butions
enanalyse
descorrespondances . L’utilisation
à lafois
del’analyse
des
comparaisons
et del’analyse
encomposantes principales
nousconduit, naturel-
lement à une doubledécomposition
des inerties selonchaque
source devariation
et
chaque variable principale .
II - ANALYSE DES COMPARAISONS
Nous donnerons maintenant les
définitions
desnotions
fondamentales del’analyse
descomparaisons :
celles de contraste , decomparaison
etd’inertie .~5~
II.1 - Contraste et
comparaison
Soit
J un ensemble fini .On
appelle
contraste sur J toute mesure sur J dont la somme descoefficients (
ou massetotale )
est nulle .On
appelle comparaison
sur J tout sous-espacevectoriel
de contras- tes sur J .En
particillier ,
nousparlerons
de lacomparaison
à 1degré
deliberté
(
1d.l. ) engendrée
par uncontraste ;
de lacomparaison
à p d.l.(p>1)
engendrée
par une base de p contrastes etc...L’espace
de tous les contrastessur J sera
appelé
lacomparaison globale
sur J .Etant donnée une mesure fondamentale
strictement positive
surJ , l’espace vectoriel
des mesures sur J estmuni
de la structureeuclidienne
selonlaquelle
la norme du contrastec
J est(Ec/n )1/2
J J II.2 - Nuage euclidien
Nous allons
maintenant appliquer
les notionsprécédentes
à unnuage
pondéré
depoints d’un
espace affineeuclidien,
noté( MJ,n ) ,
depoint
. J
moyen
(
oubarycentre )
G =EniMJ/En
J JRappelons d’abord
lanotion classique d’ inertie
d’un nuage :3 ... J
i
où
GMJ désigne
ladistance euclidienne
entre lespoints
G etM .
Il.3 - Effet d’un contraste sur un nuage et inertie associée
[4]
- Nous
définirons
l’effet d’un contraste sur un nuageM
par leNous
définirons
l’inertie(ou
somme descarrés )
associée par :où le numérateur est le carré de la norme
euclidienne
du vecteur effet et le déno-minateur
le carré de la norme du contraste . Cetteinertie
est celleassociée
à tout contrasteproportionel ,
donc nous laprendrons
pourdéfinir l’inertie
de lacomparaison (
à 1d.l. ) engendrée
par ce contraste .Nous
définirons
enfinl’inertie
associée à unecomparaison
à pdegrés
deliberté ,
avecp >
1 . Cettecomparaison
serareprésentée
par une basede p contrastes .
L’inertie associée
pourraêtre
définie comme la somme desinerties
associées à p contrastesorthogonaux .
Bienentendu ,
cetteinertie
nedépend
pas du choix de la base .11.4 - Croisement de deux facteurs
Nous
envisageons maintenant
le casparticulier
ducroisement
de deux facteurs A etB ,
noté AxB . Dans ce cas , onpeut définir
destypes parti-
culiers
decomparaisons
àsavoir
lescomparaisons
intra etd’interaction ainsi
que desdérivations
vers A et vers Bpermettant
deconstruire
àpartir
du nuagedéfini
sur AxB des nuagesdérivés
sur A et sur B[4]
Contrastes et
comparaisons intra
Un contraste sur AxB est un contraste
intra-A
si pourchaque
a de A
c’est
un contraste sur B :On définira de
même
un contrasteintra-B .
Une
comparaison intra-A
seraengendrée
par une famille de con- trastes intra-A .Contrastes et
comparaisons d’interaction
Un contraste sur AxB est un contraste
d’interaction
entre A etB
s’il
est à la fois contraste intra-A et contrasteintra-B .
En
particulier
leproduit
terme à termed’un
contraste sur Aet
d’un
contraste sur B est un contrasted’interaction .
On démontrefacilement
que , étant donné une base de contrastes sur A et une base de contrastes surB ,
la
famille
descontrastes-produits
est une base de lacomparaison globale d’inte- raction qui
sera notée A.B .Dérivation d’un
nuageOn étudiera le cas de la
dérivation
vers A .Etant donné une
transition TA
de A versB ,
ondéfinit
lenuage
dérivé
sur A(
notéMA ) par :
Le
point Ma
est lebarycentre
despoints (Mab) bEB affectés
despoids
( -ra )
.L’effet global
du facteur Adépendra
donc de latransition TA .
. Leb
A
*
ri
B nuage
MA n’est
pas , àpriori , muni d’une pondération .
Dans[41
on aprécisé
pour
divers types
detransition TA
lespondérations compatibles .
Enparticulier ,
pour
la dérivation ondérée ar les effectifs c’est
àdire
pourTA - (
on pourra
munir
le nuageMA
de lapondération n A
etainsi
calculerl’inertie
gE
Bassociée à la source de variation A : elle vaut E n
a
(GM a)2
a
Décomposition de l’inertie selon les
sourcesde variation
En
analyse de la variance,
il estd’usage
dedécomposer
lasource de
variation
AxB en les trois sourcesA ,
B etl’interaction
A.B . Nous ferons demême
enanalyse des comparaisons , quand
leplan
estéquilibré
ouplus généralement orthogonal ,
lescomparaisons
associées à ces trois sources devaria-
tion sont
orthogonales
et les inerties sontadditives .
En
analyse des données structurées ,
leplan n’est
pas engénéral orthogonal ,
iln’y
aura donc pasdécomposition
additive desinerties , mais
cecin’empêche
pas deprocéder
à cettedécomposition
et surtoutd’interpréter
les effetsd’interaction vis
à vis des effetsprincipaux .
III - LA DOUBLE DECOMPOSITION DES INERTIES
Les données
d’observation
sont communémentanalysées
par des méthodesmultivariées
familières commel’analyse
encomposantes principales
oul’analyse
descorrespondances ;
il sera souventintéressant ,
pour des donnéesstructurées ,
de combiner les deuxapproches .
Pour cefaire ,
noussuggérons ,
comme
technique standard,
deprocéder systématiquement
à une doubledécompo-
sition des inerties selon
chaque
source devariation d’une part
etchaque
varia-ble
principale d’autre
part .IV - EXEMPLE
Nous
appliquerons
la méthoded’analyse
des données structurées à desdonnées psychométriques empruntées
àRouanet , Lépine
et Pelnard[6J .
Cesdonnées
proviennent d’une enquête
effectuée sur 334 élèvesrépartis
en 4 groupesayant
à peuprès
le mêmeeffectif .
Ces groupes sont obtenus en croisant deux facteurs A et Bayant
chacun deuxmodalités .
Les variables
dépendantes
étaient 9 tests dedéveloppement
intellectuelet de connaissance à savoir
QI verbal_ , QI
nonverbal ,
2 tests decombinatoire,
2 tests de
probabilité ,
2 tests delogique
despropositions
et un test de maths . Nousprendrons
ici lepoint
de vuemultidimensionnel
et nous nousbornerons à des
analyses descriptives . A P rès
avoirprocédé
à une réductionvariable par
variable,
nous feronscorrespondre
àchaque
élève unprofil
(
9 valeursnumériques ) qui
serareprésenté
par unpoint
dans un espace affinemuni de la
métrique
élémentaire .IV.1 -
Analyse
multidimensionnelledescriptive
descomparaisons
Pour calculer les vecteurs-effets relatifs aux
sources de variation
A ,
B etA.B ,
onprocèdera
à deux dérivations successives:la
première
consiste à passer du nuage initial au nuage dérivéM qui
comporte1 ’
r ..a’b’
-, . ., .
les
quatre points ( M ab ,m ab’ 9m alb m atbl )
; la deuxième consiste à obtenir les(~)
: Lepoint
de vueinférentiel
étudiant variableaprès
variable estexposé
dans[6] ; l’analyse
inférentiellemultivariée pourrait
être faite àpartie
de[3] -
points
moyens( M, Mar )
et( Mb
~Mb~ ) définis
commebarycentres
despoints
dunuage
MAB
avec despondérations appropriées :
nousprendrons
ici ladérivation pondérée
par les effectifs(
cffig
1)
-Figure
1 :Représentation
du nuageMAB et
despoints
moyensLe vecteur effet associé
Comme indice
descriptif permettant d’évaluer
lagrandeur des effets,
on pourra
prendre
la norme euclidienne des vecteurs effets . On obtient les résul-tats suivants :
Une autre
façon d’apprécier
lagrandeur
del’effet
serait deconstruire ,
àpartir
du nuage au moyen d’une dérivationappropriée
unnuage
additif -
i.e. sans interaction - et d’évaluer lagrandeur
des effets d’interaction par une norme moyenne des écartsvectoriels,
end’autres
termesdes
résidus (vectoriels)
parrapport
au nuageadditif.
Une telle norme moyennesera environ
(exactement
s’il y acquiponderation)
lefluart
de lanorme de
l’effet d’interaction
défini ci-dessus .Quant
àl’importance de l’effet d’interaction ,
elle pourra êtreappréciée descriptivement
par unrapport
denormes . Par
exemple ,
si onfait
lerapport
de la norme des écarts au modèleadditif
à la norme del’un
oul’autre
des effetsprincipaux ,
on trouveraici
unrapport
de l’ordre de1/8 .
Puis
oncalcule ,
comme enanalyse
de lavariance , les inerties associées à chaque
sourcede var2at2on .
On obtient les résultatssuivants :
De
plus ,
onconstate ,
en calculant lesangles
entre les vecteurseffets associés aux trois sources de variation que le vecteur effet associé à A.B
n’est
pas dans leplan
des vecteurs effetsassociés
à A et à B . Ce dernierpoint
sera
repris
au cours del’étude conjointe
desrésultats
del’analyse
descomparai-
sons et de
l’analyse
encomposantes principales .
Iv.2 -
Analyse
en composantesprincipales
Effectuons
maintenant l’analyse
encomposantes prin- cipales
du nuage des 334points .
Nousobtenons ,
pour lesvariances
des quatrepremières variables principales ,
les résultatssuivants :
Nous effectuerons des
représentations graphiques
dansle
plan
des deuxpremiers
axesprincipaux ( 56 %
de lavariance
totale du nuage),
à
savoir
lesprojections
despoints
des sous-nuagescorrespondants
aux 4 groupes( fig. 2 ) , puis
lesprojections
des 4points M AB ainsi
que celles de( M ,M )
b
b’
et de
( Mb,M ) (fig. 3 )
.Le
premier
axe opposepédagogie
moderne( a )
etmilieu favorisé ( b ) d’une part
àpédagogie traditionnelle ( a’ )
etmilieu
défavorisé ( b’ ) d’autre part .
Le
deuxième
axe montre uneopposition
peumarquée
entre
pédagogie
moderne(a)
etmilieu
défavorisé(b’) d’une part
etpédagogie
traditionnelle (a)
etmilieu
favorisé(b’) ,
cequi
revient à dire que ledeuxième
axeprend
encompte
unepartie
del’interaction .
IV.3 Double
décomposition
des inertiesSi
nousprocédons maintenant
à ladouble décompo-
sition des inerties
selonchaque
sourcede variation
etchaque variable
principale,
onobtient :
~
Les inerties
apparaissant
dans ce tableau secalculent
facilementià l’aide
du programme vAR UNI G réalisé en1978
parM.O. Lebeaux
[2] .
A
partir
de ce tableau nous pouvonsétudier
les variables une par une . Pourchaque
axeprincipal ,
nous calculeronssa
contribution à l’inertie associée
à une soureede var2at2an :
cette contribu- tion estaussi
le carré ducosinus
del’angle
quefait
le vecteur effet avecl’axe principal ; c’est
lagénéralisation ,
pourl’analyse
des donnéesstructurées,
de la
contribution de l’axe
aupoint, indice classique
enanalyse
des corres-pondances
.Tableau des
contributions
des axesà
l’inertie
associée aux sources devariation
A
partir
du tableau descontributions ,
on voitimmédiatement
que le 1er axe contribue presquecomplètement
àl’inertie associée
à A et àB ;
par contre , il faut aumoins
les deuxpremiers axes.auquel
ilserait
bon
d’adjoindre
le4èmelpour prendre
encompte
une bonnepart
de l’inertied’inter-
action. On voit ainsi que
si,
dansl’analyse
en composantesprincipales
on se contentait de
prendre
encompte
les deuxpremiers
axesprincipaux, même s’ils contribuent
à lamajeure partie
del’inertie totale,
onnégligerait
une bonnepartie
des effets
d’interaction.
Dans cet
article ,
nous avonsprésenté
unexemple portant
surdes variables numériques , la
structuredes données étant du type
SAxB>>#,
mais l’analyse des données structurées peut également traiter
untableau de contingence ternaire [8]
oumême multiple, de structure,
parexemple,
(AxB~ x (CxD~---> N :
onfera jouer
unrôle dissymétrique
auxvariables,
en
prenant
commevariables explicatives celles
,parexemple , liées
aucroise-
ment
AxB,et
onétudiera alors l’interaction
entre A et Brelativement
auxvariables à
C et D[7] .
,Fig.
2.1 : Plan desaxes
1 et2;
sous-nuagecorrespondant
au groupe(a,b)
a :
pédagogie moderne ;
b :milieu favorisé
Fig.
2.2 : Plan des axes 1 et2;
sous-nuagecorrespondant
au groupe(a,b’)
a : t
pédagogie
moderne ; b’ : t milieu défavoriséFig.
2.3 : Plan des axes 1 et2;
sous-nuagecorrespondantau
groupe(a’,b)
a’ : pédagogie traditionnelle ;
b : milieu favoriséFig.
2.4 :plan
des axes 1 et2;
sous-nuagecorrespondant
au groupe(a’,b’)
a’ :
pédagogie traditionnelle
;b’ :
t-milieu
défavoriséFig.
g 3 :plan
P des axesa a
1t 2 ;
,projetions PJ
des 4points
P du nuageMAB
etdes
points
moyens(M ,M )
et(M ,M ) ..
a :
pédagogie moderne , a’
b :
milieu favorisé , b’
:
pédagogie traditionnelle
:
milieu défavorisé
BIBLIOGRAPHIE
[1]
BENZECRI J.-P. &F., Pratique de l’analyse des données,tome 1, Analyse des correspondances, Paris, Dunod, 1980 .
[2]
LEBEAUX M.-O. & ROUANETH., Notice d’utilisation du programme
VAR UNIG,
texte
multigraphié,1978,Groupe mathématique
et psy-chologie.
[3]
LECOUTRE B. & ROUANETH.,Deux
structuresstatistiques fondamentales
enanalyse de la variance univariée
etmultivariée, Math. Sci. hum., 75, 1981, p.71-82.
[4]
LE ROUX B. & ROUANETH., L’analyse statistique des protocoles multidimen- sionnels : analyse des comparaisons,
Pub.Inst.Stat.Univ., XXVIII, fasc.1,2, 1983, 47-70.
[5]
ROUANET H. & LEPINED.,Structures linéaires
etanalyse des comparaisons, Math.sci.hum.,56,1976,p.5-46 .
[6]
ROUANETH.,LEPINE D.,PELNARD-CONSIDERE J., Bayes-fiducial procedures
aspractical substitutes for misplaced significance
testing: application
toeducational data. Communi- cation
àl’"international Symposium
foreducational
testing",Montreux,1975,in
D.N.M. deGruijter
andL.J.Th. Van der
Kamp (Eds)
:Advances inPsychological
and
educational Measurement, J.Wiley
andSons,p.35-50.
[7]
ROUANET H.Compte-rendu
de find’étude (ATP 4214). Structuration
des données