R EVUE DE STATISTIQUE APPLIQUÉE
P. C AZES
A. C HOUAKRIA E. D IDAY
Y. S CHEKTMAN
Extension de l’analyse en composantes principales à des données de type intervalle
Revue de statistique appliquée, tome 45, n
o3 (1997), p. 5-24
<http://www.numdam.org/item?id=RSA_1997__45_3_5_0>
© Société française de statistique, 1997, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les condi- tions générales d’utilisation (http://www.numdam.org/conditions). Toute uti- lisation commerciale ou impression systématique est constitutive d’une in- fraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
ENTENSION DE L’ANALYSE
EN COMPOSANTES PRINCIPALES
À DES DONNÉES DE TYPE INTERVALLE
P. Cazes
(1),
A. Chouakria(1),
E.Diday (1),
Y. Schektman(2)
(1 ) LISE-CEREMADE, Université Paris IXDauphine,
Place du Maréchal de Lattre de
Tassigny,
75775 Paris Cedex 16(2)
Maison de la Recherche, Université Toulouse le Mirail.RÉSUMÉ
Les méthodes
d’analyse
factorielle sontlargement
utilisées;cependant,
elles ne sontapplicables qu’à
desobjets
caractérisés par des variables monovaluées(la
valeurprise
parune variable pour un
objet
est une valeurunique).
Dans cet article nous étendonsl’analyse
en composantesprincipales
à desobjets
caractérisés par des variables multivaluées décrivant de la variation ou del’imprécision
(la valeurprise
par une variable pour unobjet
est un intervallede
valeurs).
Ce travail entre dans le cadre del’analyse
de donnéessymboliques
dontl’objectif
est d’étendre les méthodes
d’analyse
de donnéesclassiques
à desobjets plus complexes,
ditssymboliques.
Unexemple d’application
seraprésenté
afin d’illustrer la fiabilité et l’efficacité de la nouvelle méthode.Mots-clés :
Analyse
en composantesprincipales, Analyse
de donnéessymboliques,
Intervalle.ABSTRACT
Factorial
analysis
methods areextensively
studied, however, these methods dealonly
with
objects
which are describedby single-value
features (the feature value, for eachobject,
is
single).
The aim of the present paper is to extend the well knownprincipal
componentanalysis
method to aparticular
kind ofsymbolic objects
characterizedby
multi-values features of interval type data. Anexample
isreported
to corroborate the effectiveness of the method.Keywords : Symbolic
DataAnalysis, Principal Component Analysis,
Interval.1. Introduction
Les bases de données
statistiques manipulent
desobjets
conventionnels décrits par des variables monovaluées(la
valeurprise
par une variable pour unobjet
est une valeur
unique).
Les évolutions récentes dans lessystèmes
de bases de donnéespermettent
de stocker de nouveauxtypes
de données(intervalles, ensembles)
6 Z CAZES, A. CHOUAKRIA, E. DIDAY, K SCHEKTMAN
introduisant de
l’imprécision
ou de la variation. Des contraintes de domainespeuvent
êtreexprimées
et des liens de hiérarchie et decomposition peuvent
être stockés. Ces évolutions dans lessystèmes
de base de données ont donné lieu à de nombreusesapplications manipulant
desobjets
décrits defaçon plus proches
de la réalité et doncplus complexes
que ceux habituellement traités. Engestion
desstocks,
parexemple,
ondécrit une situation de
rupture
de stock comme suit : «Niveau-de-stock =[100, 150],
Quantité-en-cours-de-commande
=[50, 100],
Durée-de-livraison =[30, 45], État-
fournisseur =
{Critique, Mauvais}, État-écoulement-produit = {Moyen, Rapide}
».On peut décrire des contraintes entre des
variables,
parexemple,
si«État-fournisseur
= {Critique}»
alors«Durée-de-livraison
40». Onpeut
avoir destaxinomies,
parexemple,
dans la variable couleur les modalités Blanc et Jaune sontremplaçables
par la modalité Claire. Desobjets
incluant dans leursdescriptions
de telles informations sont ditsSymboliques (Diday, 1987, 1995) (car
danschaque
case du tableau de données peuventapparaître
des valeursmultiples, parfois pondérées
et liées entre elles par desrègles).
L’extension des méthodesd’analyse
des données à de telsobjets
estappelé
«Analyse
de DonnéesSymboliques».
Plusieurs auteurs se sont intéressés à l’extension des méthodes de réduction de dimension et de transformation de variables à des donnéescomplexes. Nagabushan (1988)
aprésenté
une méthode de réduction à deux dimensionss’appliquant
à desobjets
décrits par des variables à valeursintervalles;
cette méthode est basée sur les
développements
en séries deTaylor.
Ichino(1994)
s’est
également
intéressé auxproblèmes
de réduction dedimension;
il propose une extension de la méthoded’Analyse
enComposantes Principales (ACP)
à desobjets
décrits par des variables de
type intervalle,
detype
ensemble et même structurées.Ichino se
base,
pour étendre la méthode d’ACPclassique
à des donnéescomplexes,
sur la
généralisation
de la distance deMinkowsky.
On
présentera
dans cetarticle,
une nouvelle méthode dite Méthode des Sommetsqui
étend l’ACP à des données detype
intervalle. Nousprésenterons,
par la
suite,
une secondeméthode,
dite Méthode desCentres, plus adaptée,
àpremière
vue, aux données décrites par un nombre élevé de variables. Nous comparons ensuite ces deuxméthodes,
avantd’indiquer
unegénéralisation probabiliste, puis
de proposer une extension au cas de
l’analyse
descorrespondances multiples.
Unexemple d’application
termine l’article.2. Les données de
type
intervalleLe résultat d’une observation ou d’une mesure
peut
être de deuxtypes :
- Monovalué : le résultat de la mesure ou de l’observation de la variable est une
valeur
unique.
Parexemple,
les variables :âge
d’une personne,niveau-de-gris
d’un
pixel.
- Multivalué : le résultat de la mesure ou de l’observation de la variable est un
ensemble de valeurs ou un intervalle de valeurs selon que la variable est discrète
ou continue.
En
botanique,
parexemple,
si lesobjets
à étudier sont desplantes,
la taille de latige
d’uneplante
est une valeurunique. Si,
par contre, lesobjets auxquels
on s’intéresse sont des
espèces
deplantes,
la taille de latige
d’uneespèce
estun intervalle de valeurs. Cet intervalle
représente
le domaine de variation de la taille de latige
sur tous lesspecimens appartenant
àl’espèce
enquestion.
L’ACP
classique
traite des tableaux de données de la forme 1 x J où 1représente
l’ensemble des
objets
et J celui des variables. La case dutableau,
croisement de la iemeligne et de la j eme colonne,
contient la valeur observée xij,supposée unique,
dela j eme
variable pour le iemeobjet.
Nous proposons une nouvelle méthodequi permet
de traiter des tableaux de données où Xij est un intervalle devaleur,
introduisant la variation oul’imprécision :
xij =[xij,xij]
où xij,xij
sontrespectivement,
laplus petite
et laplus grande
valeurobservée,
dela j eme
variable pour le ie"2eobjet.
2.1. Données du
problème
Soient
S1,..., Sm
mobjets
décrits par n variablesX 1,
...,Xn
detype
intervalle.est la valeur de la variable
Xj
pourl’objet Si .
2.2.
Objectif
Classiquement,
étant donné un ensembled’objets
décrits chacun par un vecteur(Xi1, ...,
iXin), l’objectif
de toute méthode de réduction dedimension,
enparticulier l’ACP,
est de réduire le nombre de variablesdescriptives,
tout enpréservant
la«structure de distribution» des
objets.
SoientY1, ... , Yp (p n)
les nouvelles variablesdescriptives
obtenuesaprès
réduction :chaque objet Si
sera décrit par un vecteur(Yi1, ..., Yip)
dans un espace de dimensionplus
faible.De
façon similaire, partant
d’un ensembled’objets Si
caractérisés chacun parun
n-uple ([Xi1, Xi1],..., 7i=nl), l’objectif
est depouvoir
décrire cesobjets
parun nombre restreint de variables nouvelles. Ces variables nouvelles devront non seulement
préserver
la structure de distribution desobjets
maiségalement
conserverl’information de variation ou
d’imprécision apportée
par les variables dedépart.
Ils’agit
en fait de décrire la structure de distribution desSi
dans un espace de dimension faible défini par des variables detype
intervalleY1, ... , Yp (p n) : chaque objet Si
sera alors décrit par un
p-uple ([yi1, yi1],···, zip, YiP])
3. Méthode des Sommets
Soit un
objet
S décrit par len-uple ([x1, x1,···, [xn, xn]) .
Cetobjet peut
êtrevisualisé dans
l’espace
dedescription,
par unhypercube
à 2n sommets. Lalongueur
des côtés de
l’hypercube
est donnée par l’étendue des intervalles associés àchaque
variable de
description.
Pour n = 2l’objet
S décrit par(2)
estreprésenté
par un8 P. CAZES, A. CHOUAKRIA, E. DIDAY, Y. SCHEKTMAN
rectangle
commeindiqué
sur lafigure
1.FIGURE 1
Représentation
del’objet
S dans un espace à deux dimensionsUn
hypercube,
dans un espace de dimension n,peut
être décrit par une matrice à 2nlignes
et n colonnes où la iemeligne correspond
aux coordonnées du ieme sommet.Dans ce cas-ci
l’objet
S défini en(2)
sera décrit par la matrice suivante.Notons
qu’un objet peut
être caractérisé soit par un vecteur de composantes detype
intervalles(2),
soit par une matrice réelle(ou
à élémentsréels) (3).
3.1.
Algorithme
de la méthode des Sommets1. Décrire
chaque objet Si
par une matrice de donnéesnumériques Mi
à 2nlignes
et n colonnes dont les éléments sont les coordonnées
(n)
des sommets(2 n)
deshypercubes
associés.2. Construire une nouvelle matrice M à 2 n x m
lignes
et n colonnes en concaténant les m matricesMi précédentes.
Ainsi au tableau(m
xn) suivant,
où
chaque
élément est unintervalle,
on faitcorrespondre
la matrice à 2n x mlignes
et n colonnes suivante :De
plus,
à chacune deslignes
de M(i.e
àchaque sommet),
on attribue unpoids,
àsavoir
Pi / 2n ,
s’ils’agit
d’uneligne
de la sous matriceMi
deM,
pi étant lepoids
de
l’objet Si ( E {Pi 1 i
=1, m}
= 1).
On donne ainsi la mêmeimportance
àchacun des 2n sommets associés à
Si.
3.
Appliquer
l’ACPclassique
à la matrice M de donnéesnumériques
définie en(5).
Soient
Y1, ... , Yp (p n)
les ppremières composantes principales (à
valeursnumériques)
issues de cette ACP etAi,..., Ap
les valeurs propres associées.4. Déterminer les
composantes principales
à valeurs intervallesYl , ... , Yp
àpartir
des
composantes numériques Yi,..., Yp.
Soit
LSZ
l’ensemble des numéros delignes
dans la matrice M associés àl’objet Si
etYkj, k
ELs,,
la valeur dela jeme composante principale numérique 1j
associée au sommet de
l’objet Si correspondant
à la kemeligne
de M. La valeur dela j eme composante principale
detype
intervalleYf
pourl’objet Si
est alorsl [yij, F, 7j-]
avec ;3.2. Paramètres d’aide à
l’interprétation
Les
paramètres d’interprétation
segénéralisent
très naturellement :Pour mesurer la
qualité
de lareprésentation
del’objet Si
sur l’axe factoriel de direction uj, onpeut
proposer l’une des deux formules suivantes :10 Z CAZES, A. CHOUAKRIA, E. DIDAY, K SCHEKTMAN
Ls2 désignant toujours
l’ensemble des 2n sommets associés àl’objet Si,
Pk lepoids
du sommet k
(égal
àpi/2n),
Ykj la coordonnée du sommet k sur l’axe factoriel de direction uj, G le centre degravité
etdu, G)
la distance entre k et G.La
première
formule est lerapport
entre la contribution deLs,
à l’inertieÀj
de l’axe
factoriel j
et la contribution deLs,
à l’inertietotale,
tandis que la secondecorrespond
à la moyenne des cosinus carrés desangles
entre chacun des 2n sommetsk de
L Si
et l’axefactoriel j.
On mesure de même la contribution
de Si
- à l’inertie
À j du j eme
axe factoriel par :- à l’inertie totale du nuage des m.2n sommets associés aux m
objets
par :IT désignant
l’inertie totale.Les deux contributions
précédentes
reviennent à sommer les contributionscorrespondantes
des 2n sommets associés àl’objet Si.
4. Méthode des Centres
La méthode des Sommets
risque
de devenir coûteusequand
le nombre de variablesdescriptives
est élevé. Nous proposons une nouvelleapproche qui
sebase pour la détermination des axes factoriels sur l’information
apportée
par lescentres
d’hypercubes.
Les intervalles de variation descomposantes principales
serontdéterminés à
partir
des variations des variables dedépart.
On considère ici la matrice des centresd’hypercubes
donnée en(10).
avec
Algorithme
de la méthode des Centres1. Transformer la matrice donnée en
(4)
en la matrice donnée en(10).
Soientxl, ... , Xcn
les nouvelles variablesnumériques
ainsi obtenues.2.
Appliquer
l’ACPclassique
sur la matrice des centres obtenue àl’étape
1.3. Déduire pour
chaque objet
les intervalles de variation sur les axes factoriels. Soityfk
la coordonnée(numérique),
sur le keme axeprincipal
dupoint
ci(centre
del’ hypercube
associé àl’objet Si)
de coordonnées( xi 1, ... , xin)’
Cette valeurest obtenue à l’aide de la formule donnée en
(12),
oùXcj
est la moyenne de la variableXj
et Uj kla j eme composante
du keme vecteur axial factoriel :Soit un
point quelconque xr
=(xi1’ ... , xin)
variant à l’intérieur del’hyper- cube Si; l’objectif
est de déterminer laplus petite
valeur Yik et laplus grande
valeurYik
prise
paryrk (coordonnée
dupoint
xr sur l’axe factorielk) quand
les variablesxij
varient dans l’intervalle[xij, xij] pour j
=1,...,
n.Comme yrik
est une fonction linéaire des n variablesxi1"’" xxin,
variantindépendamment
dans[xij, xij] pour j
=1,...,
n, les valeurs extrêmes deyrik
sontdonnées par les
formules (13)
et(14).
Soit encore,
5.
Comparaison
des deux méthodesNous allons voir que les matrices de variances
Vs
etVc
que l’ondiagonalise
dans la méthode des sommets et celle des centres
respectivement
ne diffèrent que par leurs termesdiagonaux. Plaçons
nous d’abord dans la méthode des centres, et12 P. CAZES, A. CHOUAKRIA, E. DIDAY, K SCHEKTMAN
supposons, ce
qui
ne restreint pas lagénéralité
que les variables sontcentrées,
soit :pi
étant, rappelons-le,
lepoids
de l’individu i.Alors le terme
général (Vc) jj’
de la matrice variance dans la méthode des centres s’écrit :Dans la méthode des sommets, chacun des 2n sommets associés à l’individu i est affecté de la masse
pi/2’.
Si l’on considère la variableXj,
les valeurs xij et xijapparaîtront
chacune2n-1
fois. La moyenneXj
deXj
s’écrira donc :On obtient donc la même moyenne que dans la méthode des centres, soit 0
puisqu’on
a centré les variables.De même la variance
(Vs)jj
deXj
s’écrit :soit encore
(puisque
1On obtient donc la variance calculée dans la méthode des centres
(variance
interclasses) augmentée
d’un terme traduisantl’imprécision (variance intraclasses)
puisque :
Dans le calcul de la covariance entre
Xj
etXj’
dans la méthode des sommets,vu que le
produit
des coordonnées de chacun desquatre
sommets durectangle
définipar
(xij, j5îj)
et(xij’, xij’) apparaît 2n-2 fois,
on a,après
mise en facteurs :On obtient
bien,
commeannoncé,
la même covariance que dans la méthode des centres. Il résulte des résultatsprécédents
que si dans la méthode desSommets,
on n’effectue pas les calculs de contribution donnés au
paragraphe 3.2,
et si l’onse contente sur
chaque
axe factoriel de calculer pour un individu i laprojection
dessommets extrêmes
(ce qui
revient à déterminer lescomposantes principales
à valeursintervalles)
lacomplexité
dans la méthode des Sommets est enO(n)
et estidentique
à celle de la méthode des Centres. En effet pour un individu
i,
sur l’axe factorielk,
les valeurs extrêmes Yik etF,7k
desprojections
des 2n sommets associés à l’individu i sont données par les mêmes formules que dans la méthode des Centres(i.e.
par les formules(15)
et(16),
oùXj
= 0 parhypothèse,
et où Ujk estla j eme composante
du keme vecteur propre normé de la matriceVs).
Remarque :
Si on a des données
hétérogènes,
on effectuera des ACPnormées,
et ondiagonalisera
donc les matrices de corrélationRc
etRs respectivement
associéesà Vc et Vs.
C’est ce que l’on a fait dans
l’application exposée
à la fin de l’article. Onpeut
noter que dans ce cas, on obtient bien sûr des corrélations différentes dans la méthode des centres et dans celle des sommets.
Une autre
façon
deprocéder
est de calculer les variances(V,)jj = 82 à
l’aidede la formule
(18) (où j
=j’)
et de réduire les données en considérant les intervalles7- j xij sj).
Dans ce cas, la méthode des centresqui
revient àdiagonaliser
la matriceRe correspond
à une ACPnormée,
alors que ce n’est pas le cas dans la méthode des sommets, les termesdiagonaux
de la matrice àdiagonaliser
étant dans ce dernier cassupérieurs
à 1. Notonsqu’on
aurait pu defaçon symétrique
effectuer la réduction des données àpartir
desécarts-type V (Vs) jj
calculés dans la méthode des sommets.6. Généralisation à des modèles
probabilistes
La
méthodologie précédente,
au niveau de la méthode des sommets, revienten fait à associer à
chaque
individu i et àchaque variable j
la variable aléatoireRiz - xij
+Eij, où
les(Eij, j = 1, n)
pour i fixé sont des variables aléatoires de moyennenulle, indépendantes (indépendance locale)
discrètesprenant
les valeurs(Xij - xij)
et(xij - xij)
avec lesprobabilités
1/2.14 P CAZES, A. CHOUAKRIA, E. DIDAY, K SCHEKTMAN
On
peut
bien sûr faire d’autreshypothèses,
comme parexemple
unerépartition uniforme, triangulaire
ou normaletronquée
deEij
dans l’intervalle[xij - xij’
1xij - xi . ] .
Avec ceshypothèses,
si on considère queXj
est la variable aléatoire dontles fois
deprobabilité
conditionnelles(relativement
aux occurences desobjets Si)
sont les lois deprobabilité
desXij (i
=1, m) alors,
on obtient comme moyennede
chaque
variableXj
et comme covariance entre toutcouple
de variableXj, Xjl (j les
mêmes valeurs que dans la méthode des centres.Par contre la variance de la variable
Xj
s’écrit :où le coefficient aij
dépend
de la loi deprobabilité
retenue pourEu.
Parexemple,
pourune loi
uniforme,
aij vaut 1/12. Notons que la méthode des centres rentreégalement
dans le cadre
précédent :
ilsuffit,
deprendre
pourEij
larépartition
de Dirac de centre0;
le coefficient aij est alors nul.Le tableau 1 donne la valeur de aij pour différentes lois. On voit que cette valeur est maximale dans le cas de la méthode des sommets et minimale dans le cas
de la méthode des centres.
TABLEAU 1
Valeurs du
coefficient
aij pourquelques
loissymétriques (f(-t)=f(t)).
On s’est ramené à l’intervalle
(-1/2,1/2).
L’intérêt de faire des
hypothèses
de lois continues dans les intervalles[xij, !7i-j-] ]
est d’une
part
d’avoir des méthodes intermédiaires entre la méthode des centres et celle des sommets, et d’autrepart
depouvoir
surchaque
axe factoriel donner des intervalles de confiance de niveau donné(95%
ou 99% parexemple)
pourchaque individu,
intervallesplus petits
que ceux obtenus àpartir
de la méthode des sommets ou celle des centres(formules ( 15)( 16)).
Remarque :
d’unpoint
de vuethéorique,
onpeut
abandonner sans difficultél’hypothèse d’indépendance
locale :(27)
restevraie,
mais on aCov(Xj ,Xj/) -=1
(Vc) j j 1.
D’unpoint
de vuepratique,
ce choixpeut
s’avérer meilleurpuisque
dansle cas
particulier
où l’on a des variablesidentiques,
on n’obtientqu’un
seul axefactoriel
(et
non pasplusieurs).
Les calculs détailléscorrespondant
aux différentes extensionsprécédentes quoique simples
sortent du cadre de cepapier.
Elles serontexposées
dans un article ultérieur.7. Extension au cas de
l’analyse
descorrespondances multiples
Au lieu
d’appliquer l’ACP,
onpeut
effectuer uneanalyse
descorrespondances multiples
avec uncodage
flou. Leprincipe
de cecodage
est défini ci dessous.Soit V une variable
prenant
ses valeurs dans l’intervalle[a,b],
intervalledécoupé
en t classes ci
=[a0,a1],
C2=[a1,a2],...,ct=[at-1,at];
avec ao=a,at=b .
Si unobjet Si
est caractérisé par un intervallewi, vi]
de V delongueur
nonnulle,
onadoptera
lecodage
suivant :soit,
3. Si vi = vi
= vi,
onadoptera
lecodage disjonctif usuel,
à savoir :Si on a n variables
VI, V2,
... Vn et si ondésigne
parJq
l’ensemble des classes de la variableVq
et par J l’uniondisjointe
desJq,
on feral’analyse
descorrespondances
du tableaukIJ (I désignant
l’ensemble des mobjets) juxtaposition
des blocs
k¡ Jq
obtenus enappliquant
lecodage précédent
àchaque
variable. Notonsque le tableau
kIJ
se réduit au tableaudisjonctif complet
usuel si on a des variablesnumériques
au lieu de variables intervalles. Notonségalement
que si l’on a des variablesqualitatives
définies defaçon imprécise,
ou unmélange
de ces variablesavec des variables
intervalles,
laméthodologie précédente
reste valable en définissant pourchaque
variablequalitative
uncodage
flou tenantcompte
del’imprécision.
Si l’on veut obtenir des
composantes principales
detype intervalle,
il suffit d’associer àchaque objet
Si un ensemble de sommetsLsi
et deprendre
sur un axefactoriel les coordonnées extrêmes des
projections
de cet ensemble de sommets. Defaçon précise,
sil’objet
Sipossède
uncodage
non nul pour ul sommets deJ1,
U216 P. CAZES, A. CHOUAKRIA, E. DIDAY, Y. SCHEKTMAN
sommets de
J2,...,
un sommets pourJn,
il luicorrespondra
u1u2...un sommets(en codage disjonctif complet).
Un
exemple
de sommets associé à unobjet
Si est donné sur le tableau 2 dans le cas où l’on a 2 variables lapremière
à 3modalités,
la seconde à 4 modalités.TABLEAU 2
Exemple
de sommets associé aucodage flou
d’unobjet
SiCette
méthodologie
estanalogue
à la méthode des centres étudiée auparagraphe 4,
mais où il fautremplacer
l’ACP parl’Analyse
Factorielle desCorrespondances Multiples (AFCM).
Onpeut également
définir en AFCMl’analogue
de la méthode des sommetsdéveloppée
auparagraphe 3;
il suffit dansl’exemple précédent
deremplacer
laligne
associé àl’objet
Si par les 6lignes
associées à chacun des 6 sommetscorrespondant
àSi, chaque ligne
étantpondérée(i.e multipliée)
par unpoids (donné
dans la dernière colonne du tableau
2) égal
auproduit
descodages
de Si pour lesommet
correspondant.
On obtient ainsi un tableauKL si , J .
Opérant ainsi pour chaque individu,
onobtient un tableau KLJ(L
=UfLsi 1 i
==1, m})
concaténation desKLSiJ,
tableau dont on feral’analyse
descorrespondances.
Compte
tenu duprincipe d’équivalence distributionnelle,
cetteanalyse
revientà effectuer
l’analyse
descorrespondances
du tableauKTj suivant,
oùsinon
On obtiendra comme
précédemment
descomposantes principales
detype
intervalle en considérant l’ensemble des sommetsLsi
associé à unobjet
Si. Cetteméthodologie
est en cours d’étude.Remarques :
1.
L’analyse
interclasses du tableauKL J,
L étant muni de lapartition
définiepar les Si n’est rien d’autre que
l’analyse
descorrespondances
du tableauKIJ. L’analyse
de ce dernier tableaucorrespond
donc bien àl’analyse
descorrespondances
des centres des classes du tableauKLJ.
2. Contrairement à la méthode des sommets en
ACP,
la taille du tableauanalysé
ne
dépend
pas de l’ensemble 1 desobjets (soit
m2nlignes)
mais duproduit
T’=II{Jq 1
q =1, n} (soit r1.r2...rn lignes si l’on désigne par rq le cardinal
de
Jq).
8.
Exemple
des Huiles8.1.
Description
des donnéesAfin d’illustrer les méthodes
proposées
nous utilisons les données d’Ichino(1994)
de la table 3.Chaque ligne
du tableaureprésente
une classe d’huile décrite par 4 variablesquantitatives : «Specific gravity», «Freezing point»,
«Iodinevalue»,
«Saponification».
L’intervalle[xij, xij],
croisement de la iemeligne
et de lajeme
colonne
signifie
que la valeur dela jeme
variable pour toute huileappartenant
à la ieme classed’huile, appartient
à l’intervalle[xij, xij].
TABLEAU 3
La
description
des 8 classes d’huile par 4 variables de type intervalleAfin de réduire
l’espace
dedescription
des 8 classes d’huile on utilise la méthode des sommetspuis
celle des centres.18 P. CAZES, A. CHOUAKRIA, E. DIDAY, Y. SCHEKTMAN 8.2. Résultats
Pour chacune des méthodes
(Sommets, puis Centres) utilisées,
on a effectuéune ACP
normée, puisque
les variables sonthétérogènes.
1. Méthode des Sommets
Les valeurs propres et les
pourcentages
d’inertiesfigurent
dans la table4,
tandisque les deux
premières composantes principales
detype
intervalle sont données dans la table 5.Chaque
classe d’huile caractérisée par les deuxcomposantes principales
detype
intervalle est visualisée dans leplan
factoriel(1,2)
parun
rectangle (figure 2).
Les corrélations entre les variables initiales et lescomposantes principales
sont données dans la table6,
et visualisées sur lafigure
3.TABLEAU 4 Valeurs propres et % d’inertie
TAB LEAU 5
Les deux
premières
composantesprincipales
de type intervalle des 8 classes d’huile
TABLEAU 6
Corrélations entre variables
descriptives
et composantesprincipales
PC1
FIGURE 2
Projection
des 8rectangles
associés aux 8 classes d’huile(méthode
desSommets)
FIGURE 3
Cercle
des corrélations(méthode
desSommets)
20 P. CAZES, A. CHOUAKRIA, E. DIDAY, Y. SCHEKTMAN 2. Méthode des Centres
Les valeurs propres et les
pourcentages
d’inerties sont donnés dans la table7,
les deuxpremières composantes principales
des 8 classes d’huile dans la table 8 tandis que lesrectangles
associés sont visualisés sur lafigure
4. Les corrélations entre les variablesdescriptives
et lescomposantes principales figurent
dans latable
9,
et sontreprésentées
sur lafigure
5.TABLEAU 7 Valeurs propres et % d’inertie
TABLEAU 8
Les deux
premières
composantesprincipales
de type intervalle des 8 classes d’huile
TABLEAU 9
Corrélations entre variables
descriptives
et composantesprincipales
PC1
FIGURE 4
Projection
des 8rectangles
associés aux 8 classes d’huile(méthode
desCentres)
FIGURE 5
Cercle des corrélations
(méthode
desCentres)
22 P. CAZES, A. CHOUAKRIA, E. DIDAY, Y SCHEKTMAN
8.3.
Comparaison
des résultats des deux méthodesLes résultats obtenus à
partir
de la Méthode des Sommet et de la Méthode des Centres sont similaires. Eneffet,
Il ressort, dans les deux cas, troisprincipaux groupements
de classe d’huile :{PER, LIN}, {COT, SES, CAM, OLI}
et{BEF, HOG}.
Lareprésentation
simultanée des variablesdescriptives
et des classes d’huilepermet
de fournir les variables caractérisant tel ou telgroupement
d’huile.Notons,
parexemple,
que des valeurs élevées des variables GRA et IOD caractérisent fortement le groupe
{LIN, PER}
etl’opposent
au groupe{BEF, HOG}.
Le groupe{BEF, HOG}
est,par contre, caractérisé par des valeurs élevées de la variable FRE ainsi que de SAP.
Remarquons
que la méthode d’Ichino basée sur lagénéralisation
de lamétrique
deMinkowsky
fournit des résultats similaires(cf. figure 6)
en donnant les 3 groupes trouvés avec les deux méthodesdéveloppées.
FIGURE 6
Projection
des 8 classes d’huile par la méthode deMinkowsky généralisée
On
peut
noter que le taux d’inertie dupremier
axe factoriel estlégèrement supérieur
dans la méthode des centres que dans la méthode des sommets
(75%
contre68%),
ce
qui
estlogique puisque
dans cette dernière méthode le tableauanalysé comporte beaucoup plus
delignes.
Par contre les deux méthodes donnentpratiquement
le mêmepourcentage
d’inertie dans leplan (90.3%
pour la méthode des centres contre 88.5%pour celle des
sommets).
Pour comparer defaçon plus précise
les résultats fournis parces deux
méthodes,
on calcule les corrélations entre lescomposantes principales
issuesdes deux
analyses,
ces corrélations étant calculées àpartir
des sommets(rajoutés
enéléments
supplémentaires
dans la secondeanalyse).
Les corrélations entre les
composantes principales
de même rang sontsupérieures
ouégales
à0.93,
ces corrélations étant mêmesupérieures
à,0.97 si on se limite aux 3premières composantes principales.
Par ailleurs les cosinus entre axes factoriels de même rang issus des deuxanalyses
sonttoujours supérieurs
à 0.96. Les deux méthodes donnent donc ici des résultatséquivalents,
cequi
semblelogique,
les intervalles de variations des variables étant(sauf
pour la variable SAP et la classe d’huileLinseed)
relativement faibles.
9. Conclusion
Les mesures caractérisant les
objets
traités par les méthodes del’analyse
des données et de lastatistique
ne sont pastoujours
le résultat direct d’une observationunique
et
précise. Souvent,
le résultat d’une observation est un ensemble de valeurs ou unintervalle de valeurs. Les méthodes d’ACP étendues aux intervalles trouvent leur intérêt
quand l’expert
est confronté àl’analyse d’objets
caractérisés par des variables multivaluées detype
intervalle.L’expert peut alors,
selonl’objectif
àatteindre, procéder
de deux manières. Sil’objectif
del’analyse
est d’estimer et de connaître la tendanceglobale
de ladispersion
desobjets,
ilpeut
alorsquantifier chaque
intervallepar son centre
puis appliquer
une ACPclassique
aux centres des intervalles.Si,
par contre,l’objectif
del’analyse consiste,
d’unepart,
à étudier ladispersion globale
desobjets
et d’autrepart
à savoir comment évolue laposition (la dispersion)
dechaque objet quand
les valeurs des variables observées dedépart
varient dans leurs intervallesrespectifs,
il est alors nécessaire de tenircompte
des valeurs detype
intervalle dedépart.
Les méthodes d’ACP étendues aux intervallesrépondent
à un telobjectif.
La visualisation à l’aide de
rectangles permet
d’unepart,
de localiser lechamp
dedispersion
dechaque objet quand
les valeurs observées varient dans leurs intervallesrespectifs
et d’autrepart,
de comparerl’amplitude
de ladispersion
des différentsobjets
traités.En considérant que
chaque objet
caractérisé par des variables detype
intervalle définitune
classe, l’analyse qui
a pourobjectif
d’étudier la tendanceglobale
de ladispersion
des
objets
revient à uneanalyse interclasses,
alors quel’analyse qui
s’intéresse enplus
à ladispersion
dechaque objet
est uneanalyse
inter et intra classes.D’autres
types d’analyse
factorielle actuellement en cours d’étudepeuvent
êtreenvisagés
pour traiter des données detype intervalles, ensemblistes,
dotées destructure
taxinomique
apriori
etc. Dans le cas desACP,
onpeut reporter
lesproblèmes
de
dispersion
non sur les individus mais sur lesvariables,
enremplaçant chaque
variable X par 2 variables X min et X max
respectivement
associées à la valeur minimale et à la valeur maximale de l’intervalle caractérisantchaque
individu pour la variable X. Dans le cas del’analyse
factorielle descorrespondances multiples
nous étudions des méthodes de
codages
pour des variables detype
intervalle et des variablesqualitatives
dotées d’une structuretaxinomique
apriori (Chouakria
etal.,
1996).
24 P CAZES, A. CHOUAKRIA, E. DIDAY, Y. SCHEKTMAN
Références
bibliographiques
CAZES P.
L’analyse
de certains tableauxrectangulaires décomposés
en blocs :généra-
lisation des
propriétés
rencontrées dansl’analyse
descorrespondances multiples.
IIQuestionnaires :
variantes decodages
et nouveaux calculs de contributions. Les Ca- hiers del’analyse
des données. Vol.V, n°4,
pp. 387-403, 1980.
CAZES P.
L’analyse
de certains tableauxrectangulaires décomposés
en blocs :généra-
lisation des
propriétés
rencontrées dansl’analyse
descorrespondances multiples.
IVCas modèles. Les Cahiers de
l’analyse
des données. Vol.VI, n°2,
pp.135-143, 1981.
CHOUAKRIA
A.,
DIDAYE.,
CAZES P. Extension ofPrincipal Components
Ana-lysis
to interval data. NTTS ’95 : NewTechniques
andTechnologies
forStatistics, Bonn,
novembre 1995.CHOUAKRIA
A.,
CAZESP.,
DIDAY E. Extension del’analyse
factorielle descorrespondances multiples
à des données detype
intervalle et detype
ensemble.SFC 96 : Actes de la
3ème
rencontre de la Sociétéfrancophone
declassification, Namur, septembre
1995.CHOUAKRIA
A.,
VERDER.,
DIDAYE.,
CAZES P. Généralisation del’analyse
factorielle des
correspondances multiples
à desobjets symboliques.
SFC 96 : Actesdes la
4ème
rencontre de la la Sociétéfrancophone
declassification, Vannes, septembre
1996.
DIDAY E. The
symbolic approach
inclustering
and related methods of DataAnalysis :
The basic choices.
IFCS, Aachen,
1987.DIDAY E. From Data to
Knowledge :
ProbabilistObjects
for aSymbolic
DataAnalysis.
DIMACS : series in discrete mathematics and theoreticalcomputer science,
volume19,
1995.GALLEGO F.J.
Codage
flou enanalyse
descorrespondances.
Les Cahiers del’analyse
des données. Vol.
VII,
n°4,
pp.413-430,
1982.ICHINO M. Generalized
Minkowsky
metrics for mixed featuretype
dataanalysis.
IEEE,
transactions onsystems,
man andcybernetics,
vol.24, n°4,
1994.LEROY
B.,
CHOUAKRIAA.,
HERLINI.,
DIDAY E.Approche géométrique
etclassification pour la reconnaissance de
visage.
RFIA 96 : Reconnaissance de forme etintelligence artificielle, janvier
1996.NAGABUSHAN P. An efficient method for
classifying remotely
senseddata,
incor-porating dimensionality
reduction. Ph.dThesis, Mysore University, India,
1988.NAGABUSHAN
P.,
CHIDANANDAK.,
DIDAY E.Dimentionality
reduction ofsymbolic
data. Patternrecognition
letters. 16(1995)
219- 223.SAPORTA G.