A. L ECLERC
Quelques propriétés optimales en analyse des données, en termes de corrélation entre variables
Mathématiques et sciences humaines, tome 70 (1980), p. 51-67
<http://www.numdam.org/item?id=MSH_1980__70__51_0>
© Centre d’analyse et de mathématiques sociales de l’EHESS, 1980, tous droits réservés.
L’accès aux archives de la revue « Mathématiques et sciences humaines » (http://
msh.revues.org/) implique l’accord avec les conditions générales d’utilisation (http://www.
numdam.org/conditions). Toute utilisation commerciale ou impression systématique est consti- tutive d’une infraction pénale. Toute copie ou impression de ce fichier doit conte- nir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
QUELQUES
PROPRIETES OPTIMALES EN ANALYSE DESDONNEES,
EN TERMES DE CORRELATION ENTRE VARIABLES
A. LECLERC *
1. INTRODUCTION
Les
propriétés optimales
desméthodes d’analyse
desdonnées
sontnombreuses,
etpeuvent
se ranger sousplusieurs chapitres ;
onpourrait distinguer,
entre autres : des
propriétés
en terme de distance(à minimiser),
de variance oud’inertie
(à maximiser) ;
enfin onpeut présenter
certainesméthodes
commerecherche de variables sur les
observations,
maximisant une fonction des coefficients decorrélation
entre ces variables. Des articlesplus
ou moinsrécents présentent
despropriétés optimales
sous unaspect plus général,
cequi
a unintérêt évident (6, 13, 25).
Notreobjectif
estplus limité ;
nous ne cherchons pasà
êtreexhaustif,
maisà rapprocher quelques propriétés simples
dedifférentes méthodes,
dont les
présentations
lesplus
courantes accentuent souvent lesdifférences.
On trouvera donc ici une liste
commentée
dequelques propriétés optimales,
en termes decorrélation
entrevariables, principalement
pourl’analyse
en
composantes principales (A.
C.P.)
et diverses variantes del’analyse
descorrespondances (A.
F.C.)
et del’analyse canonique.
Laplupart
desrésultats présentés
ne sont pasoriginaux,
mais ils restent mal connus etdispersés
dans lalittérature, chaque
article ou document ne traitant engénéral
que d’uneméthode.
II. GENERALITES, NOTATIONS
On suppose que l’on
connait,
pour unéchantillon
de taille n, lesréalisations
d’un certain nombre de variablesaléatoires quantitatives
ouqualitatives.
On
distinguera
le casoù
l’on a un ensemble de p variablesaléatoires :
Et le cas
où
l’on a deux ensembles de variables :groupe
de RechercheINSERM,
U88, 91,
bd del’Hôpital,
F-75634 PARIS Cedex 13%
Ce dernier cas est celui
qui
seprésente,
parexemple,
dans uneenquête où
l’on ad’une
part
descaractéristiques socio-démographiques,
d’autrepart
desréponses à
des
questions
propres authème
del’enquête ;
onpeut
avoir p = 1 et(ou)
r = 1.Une variable
quantitative peut
êtreconsidérée
comme uneapplication
del’ensemble des observations sur l’ensemble des
réels.
Une variable
qualitative Xi prend
ses valeurs dans l’ensemble desmodalités ;
on af fectera d’uneétoile X+
une variablequantitative
construiteà
1 une varia
partir
de la variablequalitative X..
IIIx+ i
est obtenue enappliquant à X.
unefonction-codage, qui à chaque modalité
deX. i
associe unréel.
Onparlera,
poursimplifier,
ducodage X~ ; à
une variablequalitative XI peuvent être associées
plusieurs variables quantitatives qui
seront alorsnotées X1
.."""X.
plusieurs
q
q seront alors notées1i
Pour des variables
X. i
1quantitatives,
ou pour des variablescodées X+1
i ouY+ J
on
peut
alorsparler
de moyenne, de variance(VAR),
de coefficient decorrélation (CORR)
et de covariance(COV).
Dans la suite ils’agira toujours
devaleurs
empiriques,
et les variablescodées seront,
dans laplupart
des cas,définies à
unchangement
de moyenne etd’écart - type près, c’est-à-dire
que l’on pourra lesprendre centrées réduites.
On
appellera a 1 ... a P
des coefficientsnumériques associés
auxXi, b 1
...b des coefficients
associés
auxY..
r J
,
On va voir.
qu’un
certain nombre deproblèmes qui
se formulent comme larecherche de coefficient et
(ou)
decodages, à
associer aux variables dedépart,
defaçon à
maximiser une fonctionlinéaire
ouquadratique
des coefficients decorrélations,
sous certainescontraintes,
ont comme solution uneméthode d’analyse
des
données.
La suite de
l’exposé
renvoieà
desméthodes
ouà
des"sous-méthodes", principalement différentes
variantes del’analyse
descorrespondances (sur
tableaude
Burt,
tableaudisjonctif complet, juxtaposition
de tableaux decontingence)
donton pourra trouver une
présentation rapide
dans(20).
Pour desrésultats
debase,
onpourra se
référer à (2, 4, 14, 26)
età (7, 15)
pourquelques résultats
oudémonstrations, particulièrement
sur les tableaux deBûrt
etl’analyse
descorrespondances
sur tableaudisjonctif complet
III. UN SEUL GROUPE DE VARIABLES
’)UANTITATIVES
111.1. Soient
X 1 ...X
des variablesquantitatives.
On suppose que l’on cherche des coefficientsa il
maximisant :sous la contrainte E
a2
La solution est
l’analyse
encomposantes principales, normée,
desvariables
Xi.
Le vecteur desa il
est le vecteur propre,normé,
de la matrice decorrélation, associé à
laplus grande
valeur propre. Celle-ci estégale à
laquantité
à
maximiser.Aux valeurs propres suivantes sont
associés
des vecteurs propresmaximisant une
expression analogue à 1,
fonction de coefficients a.vérifiant
descontraintes
supplémentaires d’orthogonalité (voir
tableau1).
111.2. Si l’on cherche une fonction
Z l’
combinaisonlinéaire
des variablesXi,
telleque soit maximum :
la solution est aussi
donnée
par lepremier
facteur del’analyse
encomposantes principales normée .
Auxdifférents
facteurs sontassociés
des variablesZ ,
noncorrélées
entre elles. Ladémonstration
estévidente.
Unrésultat plus général
estdonné
par Okamoto(25).
IV. UN SEUL GROUPE DE VARIABLES
QUALITATIVES
IV.1. Soient variables
qualitatives.
,
On cherche une fonction
Z 1
sur lesobservations,
somme de p termesdépendant
chacun de la valeur
prise
par une variable pourl’observation,
et descodages
associant
à chaque
q variable dedépart
P une variablequantitative
9 1 tels que soit9 maximum :La solution est
donnée
par lepremier
facteur del’analyse
descorrespondances
dutableau
disjonctif complet,
croisant l’ensemble des observations avec l’ensemble desmodalités
deréponse,
en un tableau de 0 et de 1 seprésentant
ainsi(3) :
(ici,
la variableX 1
seraità
2modalités
deréponses,
la variableX 2 à
3modalités ; à
l’observation 1 serait
associée
lapremière modalité
pourXI,
latroisième
pourX2 ...)
On
peut prendre
comme variableZ 1la coordonnée
d’une observation surle
premier
axefactoriel,
et lecodage
associeà chaque modalité
deX.
sacoordonnée
sur lepremier
axe factoriel.Chaque
facteur del’analyse
fournit une fonction Z qet un ensemble de p
codages,
maximisant sous contraintes uneexpression
semblableà [3].
Ontrouvera
dans le tableau 1
l’expression
de laquantité maximisée,
et des contraintesimposées
aux variables.
Une
démonstration
de cesrésultats
se trouve dans(22),
avecl’équivalence
entrel’analyse
descorrespondances
sur tableaudisjonctif complet,
etla
méthode d’analyse canonique généralisée proposée
par J.D. Carroll(5) appliquée
au cas
particulier
de tableauxlogiques.
Cesrésultats
sont aussiprésents
dans(23)
et
(27)
mais pas directement sous cette forme. Onpeut
aussi lesconsidérer
comme un casparticulier
de ce que l’on a dans le cas d’unejuxtaposition
de tableaux decontingence (18)
cequi
donneplus
facilementl’expression
des contraintesimposées
aux variables.
IV.2. On cherche maintenant
à
associerà chaque
variable uncodage
etun coefficient
ai 1 positif
defaçon à
maximiser :sous la contrainte
La solution est encore
l’analyse
descorrespondances
du tableaudisjonctif complet
ou, cequi
donne des facteurséquivalents, l’analyse
descorrespondances
dutableau de
Burt,
croisant l’ensemble desmodalités
des variablesX i
avecelles-mêmes.
Chaque
facteur fournit un ensemble decoefficients,
et decodages, vérifiant
certaines contraintes(voir
le tableau1)
et maximisant uneexpression
demême forme que
L 4 l .
Les variables
codées, eq i
@ sont obtenuesà partir
descoordonnées
des1
différentes modalités
de X.i sur l’axe q. Un coefficient
a. iq
est la racinecarré
de lasomme des contributions absolues des
modalités
deX. i au
facteur q.Ces
résultats peuvent
se trouver dans(23)
ou(27), plutôt
comme casparticulier
derésultats plus généraux,
et dans(3)
sous une forme un peudifférente.
On en trouvera une
démonstration
en annexe.IV.3. Ce
qui précède peut s’écrire
defaçon légèrement différente :
- trouver des
codages
et des coefficientsqui
maximisent :sous la contrainte 7-
ai,=1,
et des contraintesd’orthogonalité.
- et : trouver des
codages optimaux (que
l’onappelle toujours
bienqu’il
nes’agisse
pas des mêmesvariables)
maximisant :sous la contrainte
à laquelle s’ajoutent
des contraintesd’orthogonalité.
V. UN SEUL GROUPE DE VARIABLES
QUALITATIVES
OUQUANTITATIVES
Il existe d’autres solutions au
problème
de ladescription
des relations entre variablesqualitatives ;
Masson(23)
proposeplusieurs
alternativesà l’analyse
des
correspondances
sur tableaudisjonctif complet, qui
ontl’inconvénient
de n’avoir pas de solutionmathématique simple. Saporta (28)
proposed’appliquer l’analyse
descorrespondances à
un tableaudéduit
du tableaudisjonctif complet
parpondération
des
différents sous-tableaux,
cequi
maximise desexpressions
de la forme :Les
différentes méthodes, qui possèdent
despropriétés optimales
en termes decorrélation,
sontintéressantes
d’unpoint
de vuethéorique ;
leur usage neprésente
pas
d’avantage,
pour lepraticien,
sur cequi
est d’un usageplus courant, c’est-à-dire l’analyse
descorrespondances
sur tableaudisjonctif complet.
Le
rapprochement
desexpressions [ 1 ] et [ 4 ] , [ 2 ] et [ 3] ,
montrel’analogie très étroite
de cettedernière méthode
avecl’analyse
encomposantes principales.
(Si
les contraintes sur les coefficientsai q
ne sont pas lesmêmes,
cela tientà
cequ’un changement
designe éventuel
d’une variable interviendra en ACP parl’intermédiaire
d’un coefficientnégatif,
et en AFC au niveau ducodage).
Onpeut
considérer
l’AFC sur tableaudisjonctif complet
comme une extension de l’ACPà
des variablesqualitatives,
celles-ciétant transformées
en variablesquantitatives,
de
façon optimale, puis
soumisesà
uneanalyse
encomposantes principales.
Ceci aété
mis enévidence
par Masson en 1974(23), puis repris
etdéveloppé
parSaporta (27).
Hill(9)
lerappelle aussi,
en se basant sur unepropriété
de maximisation de variance. Laprésentation
laplus
accessible decette équivalence
estcependant
celle de l’article de B. Escofier
(8), qui
propose unetechnique permettant d’analyser simultanément
variablesqualitatives
etquantitatives,
en utilisant les programmesclassiques
d’AFC. Ceci maximise(pour
lepremier facteur) :
où
1 soit la variable dedépart (si
elle estquantitative),
soit uncodage
propreau facteur
(pour
les variablesqualitatives).
Hill propose la même
méthode (10),
avec une solutionmathématique
paritération, beaucoup plus
lourde. Une alternative au traitementsimultané
de variablesqualitatives
etquantitatives
estproposée
par Tenenhaus(29)
avec uncodage unique
des variablesqualitatives,
mieuxadapté
au casoù
lesmodalités
sontordonnées.
Laméthode cependant
estlongue
et lesrésultats proches
de ce que l’ontrouve par d’autres
méthodes (19).
Dans le cas de variables
dichotomiques, à chaque
variable nepeut
êtreassocié qu’un codage (à
deschangements
de moyenne et de varianceprès).
Il y aéquivalence
entre l’AFC du tableaudédoublé (tableau à 2p colonnes)
et l’ACP dutableau non
dédoublé, à
p colonnes. Cerésultat
estdémontré
parNakhlé,
sous uneforme
plus générale (24).
VI. DEUX GROUPES DE VARIABLES
QUANTITATIVES
L’on suppose que l’on cherche
à décrire
les relations entre deux groupes de variablesquantitatives :
on sait que
l’analyse canonique
est la recherche de coefficients 4brl
maximisantsous les contraintes :
n
(pour l’équivalence
entre les deux ensembles decontraintes,
on pourra seréférer
par
exemple
auchapitre
111.1. de15 ).
Le processus se
poursuit
par la recherche decouples
de fonctionsde covariance maximale et
orthogonales
auxprécédentes (11).
VII. DEUX GROUPES DE
VARIABLES QUALITATIVES
On suppose maintenant que les variables sont
qualitatives.
On chercheà
associer
à
chacune une variablequantItatIve. 1 ou . J et
un coefficient oubu
i
i
ilji
positif,
tels que soit maximum :Deux solutions au moins existent
à
ceproblème,
selon les contraintes que l’onimpose :
VIL 1.
Reprenant
ce que l’on a pourl’analyse canonique "classique"
onpeut
introduire les contraintes :Il
s’agit très
exactement d’uneanalyse canonique classique
sur lesvariables indicatrices des
modalités
des variables des deuxensembles, à
ceciprès
que les contraintes
imposent
derejeter
des solutionstriviales, qui
seraient lasomme des variables indicatrices des
modalités
d’une même variables. On obtientune suite de
couples
de combinaisonslinéaires
des variablesindicatrices,
avec desconditions
d’orthogonalité qui
sedéduisent
del’analyse canonique "classique" (voir
tableau
1).
VII.2. Avec les contraintes :
on a une autre solution :
l’analyse
descorrespondances
du tableau"juxtaposition
detableaux de
contingence"
croisant lesmodalités
des variablesX. i
avec lesmodalités
des variables
Y l (17).
,A
chaque
facteur del’analyse correspondent
despondérations a.
etb. ,
+q +q .. , , lq Jq
et des
codages
et maximisant uneexpression
semblableà [9], sous
descontraintes
précisées
dans le tableau 1. Les variablesquantitatives X+q ou
sont... ..
1 J
données
par lescoordonnées
desdifférentes modalités
lelong
de l’axe q. Les coefficients a.lq
oub.
sont les racinescarrés
des sommes des contributionslq Jq
.. ,absolues des
modalités associées à
une variable.Une
démonstration
de cettepropriété optimale
del’analyse
descorrespondances
se trouve dans(16).
On
peut
remarquer que l’on introduit ici une contrainte sur la somme des variances des variables(car
onpeut toujours
choisir descodages
de variance1),
alorsqu’en
VIL l. la contrainte est sur la variance de la somme. Des contraintessur la somme des variances existent aussi dans l’AFC d’un tableau
disjonctif complet et,
on l’a vu, enanalyse canonique.
Pour revenir
à
lacomparaison
des contraintes VIL 1. etVII.2.,
dupoint
devue de la
pratique,
onpeut
penser que lapremière méthode (analyse canonique)
estplus puissante,
car elle tientcompte
des associations entre variables d’un même groupe. La secondeméthode (analyse
descorrespondances
surjuxtaposition
detableaux de
contingence)
esttrès proche
de ladémarche simple
de l’examen destableaux
croisés,
avec calculs deKhi-2,
et ondispose
d’aidesà l’interprétation
assez
variées (17).
VIII. CAS
PARTICULIERSLes cas
particuliers où
l’un ou l’autre groupe de variablesqualitatives -
ou les deux - ne
comportent
en faitqu’une variable, méritent
d’êtreexaminés.
VIII. 1. On suppose que l’on cherche
à décrire
les relations entre p variablesqualitatives
et une variablequalitative
Y.On
peut
formuler ainsi unproblème
de maximisation :trouver des
codages centrés réduits
des coefficients a....,
, 1 P ’ 1a p 1
tels que soit maximum :sous une contrainte de
type "analyse canonique" :
ou de
type "analyse
descorrespondances" :
2 -
Si l’on retient la
première contrainte,
on est dans un casparticulier
del’analyse canonique.
En
adoptant
la secondecontrainte,
on obtient une formulationdifférente
pour
l’expression à
maximiser. Eneffet, quel
que soit lecodage
desvariables,
lescoefficients
a. qui
maximisent[10]sont
de la forme :a.. =
c CDRRX1 Y+1
1 q 1 1 1 ’
le coefficient
étant
choisi defaçon à respecter
la norme dea .
Le
problème
de la maximisations’écrit
doncplus simplement :
trouverdes
codages
des variables maximisant :On est dans un cas
particulier
del’analyse
descorrespondances
surjuxtaposition
detableaux de
contingence, où
la variablequalitative
Y estcroisée
successivementavec les p variables
qualitatives X..
1Chaque
facteur q fournit un ensemble de(p+1) codages
des variables :X,q
...X Y+q .
Cescodages
sontdonnés
par les1 ,
1 p
coordonnées
desmodalités
des variables sur l’axe factoriel q.Les
propriétés
de cetteapplication particulière
del’analyse
descorrespondances,
ycompris
lapropriété optimale [11]
sontdéveloppées
dans(18).
Ces
résultats
ontété donnés
aussi par Cazes(6)
sous une forme un peudifférente .
VIII.2. Dans le cas
particulier où
l’on a aussi p =1, c’est-à-dire
dans le casoù
l’on chercheà décrire
les relations entre deux variablesqualitatives
X etY,
les deuxtypes
de contraintes"analyse canonique"
ou"analyse
descorrespondances"
sontéquivalentes.
On retrouve lesrésultats
connus del’analyse
descorrespondances appliquée à
un tableau decontingence
dont onpeut
trouver unedémonstration
parexemple
dans(7)~ les
facteurs q donnent descodages X+q
etY+q
tels que soient maximum lesquantités :
sous des contraintes
d’orthogonalité :
Il est
équivalent
dans ce cas deparler d’analyse
descorrespondances
oud’analyse
canonique (12,
page568 ; 2,
page182).
IX.
CONSEQUENCES
ET CONCLUSIONSOn a
rappelé rapidement
lesanalogies
existant entre desméthodes
complémentaires.
Laprésentation
en termes de maximisation d’une fonction des coefficients decorrélation peut
avoirl’intérêt
desouligner
certainspoints
importants
dansl’application
desméthodes d’analyse
desdonnées :
- Certaines
propriétés
desméthodes
sontbasées
sur les coefficients decorrélation
entre des variablescodées , à
valeursdiscrètes.
Ces coefficients nepeuvent être considérés
que comme des mesures,parmi d’autres,
d’association entrevariables,
lanon-normalité
des variablesrestreignant largement
lespossibilités d’interprétation.
Onpourrait imaginer
desméthodes
utilisant desmesures d’association entre variables mieux
adaptées à
la nature de celles-ci..Pour les
méthodes proposées,
lesrésultats
sont sensiblesà
cequi peut
entraînerdes
perturbations (ou
unaléa trop important)
des coefficients decorrélation
entre variables
discrètes,
enparticulier
lesmodalités à
effectiftrop
faible(1).
- On voit que toutes les
méthodes
donnent des variablesquantitatives
sur lesobservations ,
variables dont certainespeuvent
êtreconsidérées
commenormales. Ceci est souvent utile dans la
pratique, où
l’onpeut
chercherà disposer
de variablesquantitatives
seprétant à
desopérations ultérieures,
tellesque la mise en
évidence
dedifférences
entre groupes ou uncodage quantitatif
de
modalités ordonnées.
- Dans la recherche des
codages optimaux,
de variablesqualitatives,
en vue de lamaximisation d’un
critère,
toutes les variables ne sont pasà égalité.
Pour unevariable
à
nombreusesmodalités, l’éventail
descodages possibles
estplus large,
il y a
plus
de chance apriori
pourqu’il
s’en trouve unqui
soit fortementcorrélé
aux autres variables. Dans toute
analyse,
une variableà beaucoup
demodalités
pèse plus lourd, même
si cela nepeut
pas être exactementquantifié (21).
Dansla
pratique
il estpréférable,
dans la mesure dupossible,
de ne pasanalyser conjointement
des variablestrop hétérogènes vis-à-vis
du nombre demodalités,
et de
réserver
desméthodes
traitantconjointement
des variablesqualitatives
etquantitatives (8, 29)
aux casoù
uncodage plus homogène
estimpossible.
L’examen des
méthodes
relativement nombreusesproposées
pourdécrire
des relations entre variables ou les ressemblances entre
individus,
inciteà
penser que lesméthodes
lesplus classiques, Analyse
enComposantes Principales
etAnalyse
desCorrespondances
sousdifférentes formes, complétées
par desméthodes
declassification,
restent les outils lesplus
utiles. Cesméthodes,
outre lespropriétés mathématiques qu’elles possèdent,
ontl’avantage
d’avoirété éprouvées
par la
pratique,
cequi
a conduità
un certain nombre derègles
d’utilisation(codage
et choix des
variables, interprétation
et validation desrésultats) qui permettent
actuellement une utilisation dans de bonnes conditions.REFERENCES
1 AGRESTI
A.,
"The effect ofcategory
choice on some ordinal measures of association" J. Amer. Statis.Assoc., 71,
353(1976),
49-552
BENZECRI,
J.P. :L’analyse
desdonnées.
II.L’analyse
descorrespondances, Dunod,
1973.
3
BENZECRI,
J.P. "Surl’analyse
des tableaux binairesassociés à
unecorrespondance multiple".
Les Cahiers del’Analyse des Données, II,
1(1977),
55-714 CAILLIEZ
F.,
PAGES J.P.Intrcduction à l’analyse
desdonnées. Paris, SMASH,
1976.
5 CARROLL J.D. "A
generalization
of canonical corrélationanalysis
to three ormore sets of variables". In Proc. 76th Conv.
Amer., Psych. Assoc.,
227-2286 CAZES P. "Etude de
quelques propriétés
extrêmales des facteurs issus d’un soustableau d’un tableau de Burt". Les
Cahiers
del’Analyse
desDonnées, II,
2(1977),
143-160.
7 CEHESSAT R. Exercices
commentés
destatistique
etinformatique appliquées.
Paris, Dunod,
1976.8 ESCOFIER B. "Traitement
simultané
de variablesqualitatives
etquantitatives
enAnalyse
Factorielle". Les Cahiersde l’Analyse
desDonnées, IV,
2(1979), 137-146.
9 HILL M.O.
"Correspondence analysis :
aneglected
multivariate method".Appl.
Statist. 23,
3(1974)
340-354.10 HILL
M.O.,
SMITH A.J.E."Principal component analysis
of taxonomic data with multi-state discrete characters". Taxon 25(2/3) (1976)
249-255.Il HOTELLING H. "relations between two sets of variables".
Biometrika , 28, (1936),
321-377.12 KENDALL M.G.
The advanced theory of statistics,
volII, Londres, Griffin,
1961.13 KOBILINSKI A. "Ordre entre formes
quadratiques Application à l’optimalité
desous espace en
analyse
desdonnées". Rev. Statist. Appl., 27,
1(1979)
45-54.14 LEBART
L.,
MORINEAUA.,
FENELON J.P. Traitement desdonnées statistiques.
Paris, Duno d, 1979.
15 LEBART
L.,
MORINEAUA.,
TABARDN. Techniques
de ladescription statistique.
Paris, Dunod,
1977.16 LECLERC A. Etude de certains types de tableaux par
l’analyse
descorrespondances. Thèse
de3ème cycle, Université
ParisVI,
1973.17 LECLERC A.
"L’analyse
descorrespondances
surjuxtaposition
de tableaux decontingence".
Rev. Stat.Appl., 23,
3(1975),
5-16.18 LECLERC A. "Une
étude
de la relation entre une variablequalitative
et un groupe de variablesqualitatives".
Internat. Stat.Rev., 44,
2(1976),
241-248.19 LECLERC
A., MACQUIN
A. "Ladescription
des relations entre variablesqualitatives à modalités ordonnées : comparaison
de troisméthodes". Séminaire
IRIA. Classification
automatique
etperception
parordinateur, 1978,
31-44.20 LECLERC
A.,
AIACH P. "Mesures del’importance
des valeurs propres enanalyse
des
données. Application à l’analyse
encomposantes principales
de variablescatégorisées".
Rev. Stat.Appl., 26 ,
1(1978)
5-21.21 LECLERC A.
Pratique
desanalyses
dedonnées.
Coursd’option
duCSA, Paris, Université
ParisVI,
documentmultigraphié,
1977.22
MACQUIN
A. Laméthode PRINQUAL. Présentation
etcomparaison
avecl’analyse
des
correspondances Rapport d’application, Cycle
de Stat.Appliquée, Paris, Université
ParisVI,
1977.23 MASSON M. Processus
linéaires. Analyse non linéaire
desdonnées. Thèse d’Etat,
Université
ParisVI,
1974.24 NAKHLE F. "Sur
l’analyse
d’un tableau de notesdédoublées"
Les Cahiers del’Analyse
desDonnées, I,
3(1976)
243-257.25 OKAMOTO M.
Optimality
ofprincipal components,
inMultivariate analysis II,
Pr.Krishnaiah,
ed. New York AcademicPress, 1969,
673-685.26 RAO C.R. "The use and
interpretation
ofprincipal component analysis
inapplied
research".
SANKHYA, 26,
A(1964)
329-358.27 SAPORTA G. Liaison entre
plusieurs
ensembles de variables etcodage
dedonnées qualitatives. Thèse
de3ème cycle, Paris, Université
Paris VI.28
SAPORTA
G."Pondération optimale
de variablesqualitatives
enanalyse
desdonnées". Statistique
etAnalyse
desDonnées, 1979, 3,
19-32.29 TENENHAUS
M.,
VACHETTE J.L.PRINQUAL : un
programmed’analyse
en composantesprincipales
d’un ensemble de variables nominales ounumériques.
Document
multigraphié,
Centred’Enseignement Supérieur
desAffaires, Jouy
enJosas,
1977.ANNEXE
Proposition 1
On
peut
formuler de deuxfaçons analogues
le mêmeproblème
de maximisation :
A. Trouver des coefficients et des
codages X~ 1,
maximisant :sous la contrainte
B. Trouver des
codages
maximisant :- - 1
sous la contrainte
Démonstration
On suppose que l’on ait la solution de A. On
peut prendre
les
codages centrés réduits.
Ondéfinit
La solution
trouvée
maximise :avec une contrainte
qui peut s’écrire :
pour des
codages W i +1 de
la f ormeoù a.
estpositif,
P g 1 1 1 1 p ’
mais
où X:l
estquelconque (centré réduit) c’est-à-dire
pour l’ensemble descodages centrés possibles.
Or dans B les ne sontdéfinis
qu’à
uncentrage près.
Inversement,
supposons que l’on ait la solution deB ,
on
peut prendre
lesW. 1 centrés.
Le
problème
Bs’écrit
alors dans les termes duproblème
A.Pour la
suite,
onadoptera
la formulationB,
enparlant
de
codages X+ 1au
i lieu dew:!
i *
Proposition 2
On cherche des
codages X+ (fonctions
de moyenne nullesur les
observations)
maximisant :sous la contrainte :
La solution est
donnée
par lepremier
facteur del’analyse
des
correspondances
du tableaudisjonctif complet.
Démonstration
Soit n le nombre
d’observation,
m une colonne du tableau
disjonctif complet
T.m
représente
unemodalité
d’une variableXi ,
on noteTi
le soustableau de
T,
restreint auxmodalités
deX..
On note
Xi
le vecteur colonne descodages associés
auxmodalités
de
Xi
par lepremier
facteur.U. i est
un vecteur colonne de 1 dont le nombre delignes
estégal
au nombre de
modalités
deX..
1U est un vecteur colonne de 1
à n lignes.
L’expression
matricielle duproblème
de maximisation est :sous les contraintes :
qui s’écrit aussi ;
1T’T. 1 ) est un tableau de
contingence
croisant lesmodalités
deXi
iet celles de
X..
1 , ,T’T.
est une matricediagonale
dont leséléments
sont les effectifs desmodalités
deX..
Négligeant
les coef ficients1 /n,
leLagrangien s’écrit :
En
dérivant
successivement p arrapport
aux vecteursX+ 1on
obtientp
équations :
Les coefficients b sont
nuls ;
on le voit enmultipliant à gauche
par
U’,
1 et en utilisant la relation(3) (noter
queU’ ’Ti ’’
1 1 =U’ )
Reste donc :
Si l’on
multiplie à gauche
par et que l’on somme suri
on voitque la
quantité à
maximiser est(2a - 1).
L’ensemble des p
équations :
signifie
que le vecteur colonneX+1
obtenu en mettantà
la suite tous les vecteurs est vecteur propre, parrapport à
laplus grande
valeur propre, du tableau obtenu enmultipliant chaque ligne
du tableau de Burt
(tableau
desT’ T.)
par :,
1 J
1 j (ef fectif
de lamodalité associé à
laligne)
On identifie ce vecteur
X+1
aupremier
facteur(appelé
classiquement(p1 )
del’analyse
descorrespondances
du tableauT .
.Les facteurs suivants donnent les
fonctions-codages
suivantes.Les
propriétés d’orthogonalité
des facteurspeuvent s’écrire
entermes de relation entre
fonctions-codages associées à
des facteursdifférents.
Tableau 1
Tableau 1