R EVUE DE STATISTIQUE APPLIQUÉE
L E C ERCLE F ACTORIEL
Exploitation graphique des plans factoriels
Revue de statistique appliquée, tome 45, n
o4 (1997), p. 39-64
<http://www.numdam.org/item?id=RSA_1997__45_4_39_0>
© Société française de statistique, 1997, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les condi- tions générales d’utilisation (http://www.numdam.org/conditions). Toute uti- lisation commerciale ou impression systématique est constitutive d’une in- fraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
EXPLOITATION GRAPHIQUE DES PLANS FACTORIELS
Le Cercle
Factoriel(1)
RÉSUMÉ
Les moyens
informatiques graphiques
actuels doivent faciliter la tâched’interprétation
des résultats des
analyses
factorielles des données. Le «Cercle Factoriel», sous groupe du groupe«Logiciel
etStatistique»
de l’ASU, a travaillé à la définition d’un ensemble de fonctionsgraphiques qui pourraient figurer
dans les futurslogiciels d’exploration
des tableaux de données. Ondistingue
les fonctionsgénérales d’habillage
des éléments d’unplan
factorielet les fonctions à caractère
statistique
destinées à faciliterl’interprétation
dugraphique.
Lesdifférents types
d’analyses
sont détaillés ainsi que laprocédure
duBiplot.
Mots-clés :
Analyse
en composantesprincipales, analyse
descorrespondances, analyse factorielle, Biplot, classification, exploration graphique, feuille
destyle, plan factoriel.
ABSTRACT
Interpretation
ofexploratory
dataanalysis
results should be made easierusing
theinteractivity
ofcomputed graphics.
The «Cercle factoriel», asubgroup
of the StatisticalComputer Group
of ASU, defined a set of fonctionalities to beimplemented
in any dataanalysis
software. Generalgraphical
fonctionalities for any element inprincipal
axesgraphics
are described. Statistical
graphical
fonctionalities are thenspecified
forinterpretation
of eachkind of
analysis.
Wefinaly
present theBiplot procedure.
Keywords : Biplot, clustering analysis, correspondence analysis, exploratory analysis, factorial graphics, principal
componentsanalysis, style
sheets.1. Introduction
Les moyens
informatiques
actuelspermettent
d’améliorer considérablementl’exploitation
des résultatsd’analyse
des données. Ceci est rendupossible grâce
notamment à un
affichage graphique
dequalité
et à l’interactivité. L’interactivité permet à l’utilisateur de modifier entemps
réel les éléments dugraphique
par l’intermédiaire du clavier ou de la souris.Le «Cercle Factoriel» - sous-groupe du
Groupe ASU-Logiciels
etStatistique
- s’est fixé comme
objectif
de réfléchir àl’exploitation graphique
desplans
factoriels(1) Membres rédacteurs : D. Ambroise, J-M. Bernard, J-L. Blanchard, F. Goupil-Testu, D. Grangé, A. Mori-
neau, F. Sermier, G. Thauront, N. Valette. Le groupe est animé par A. Morineau (CISIA, Saint-Mandé).
en
s’appuyant
surl’expérience
de sesparticipants,
ens’inspirant
des élémentsbibliographiques
cités en référence et en faisantl’analyse
de certainslogiciels
existant.Le «Cercle Factoriel» a restreint son étude et ses
propositions
au cas desplans factoriels,
sachant que lesreprésentations
à trois dimensionsprésentent
desproblèmes spécifiques.
D’autrepart
ce travail est limité auxplans
issus des méthodesclassiques
suivantes :
2022
l’analyse
encomposantes principales,
normée ou non(ACP);
2022
l’analyse
descorrespondances simples (AFC);
2022
l’analyse
descorrespondances multiples (ACM).
On
s’appuie
ici sur lespropriétés classiques
de cesanalyses
dont on trouvera laprésentation
dans laplupart
des manuels surl’analyse
des données. Pour lesrappels
surces méthodes et pour
compléter
les référencesbibliographiques,
on pourra consulter parexemple [Saporta, 1990;
Rouanet etal., 1993; Tenenhaus, 1994;
Lebart etal.,
1995].
Un
exposé plus
détaillé de ce travail a faitl’objet
d’unrapport
dont l’essentiela été
publié
dans La Revue deModulad,
volume17, 1996,
pp. 31-95(Edition INRIA, Rocquencourt).
2. Généralités
2.1.
Le plan factoriel : un plan
trèsparticulier
Un
plan
factoriel se différencie d’ungraphique (x, y)
usuel deplusieurs façons :
2022 Les axes sont « hiérarchisés » : un des axes est
plus important
que l’autre au sensoù il
indique
une direction deplus grande dispersion (ou
inertie ouallongement)
que l’autre.
2022 Les
points positionnés
sur legraphique peuvent
être de différentstypes (par
exemple
despoints-lignes
et despoints-colonnes).
Ilspeuvent jouer
des rôlesdifférents : actifs ou illustratifs.
2022 Les unités sur les axes
dépendent
dans certains cas de l’intention dugraphique.
2022 La localisation
précise
despoints
dans leplan
factoriel nepermet
pasd’apprécier
exactement la distance réelle entre les
points
ni la distance réelle au centre dugraphique.
2022 Les zones du
graphique
ne sont paséquivalentes (par exemple
le centre dugraphique
est souvent moins intéressant que lapériphérie
et les distances nes’y
lisent pas de la même
façon).
2022 Certains
points
définissentplutôt
des directions que des localisations. Dans cecas on
peut répéter
pour lesangles
entre directions ce que l’on vient de dire pour les distances entrepoints.
2022 Les distances et les
angles
se lisent avec desrègles
de lecturequi
diffèrent selonla nature de
l’analyse
et la nature despoints.
2022 Le sens des axes est arbitraire
(toutes
lessymétries
sontpossibles).
2.2.
Rappel
de vocabulaire2.2.1. Les
points-individus
Ils
correspondent
engénéral
auxlignes
du tableauanalysé
par ACP ou ACM(et
dans certainesapplications
del’AFC).
Ils’agit
des «individusstatistiques »
c’est-à-dire des
objets
engénéral
extraits d’unepopulation
et sur chacundesquels
lesobservations ont été faites.
2.2.2. Les
points-variables
continuesUn
point-variable
continue est défini par ses n coordonnées dansl’espace
à ndimensions des individus.
En
ACP,
on définit une distance entre deux variables continues actives. Suivant le cas cette distances’exprime
àpartir
des covariances(analyse
nonnormée)
ou àpartir
des corrélations
(analyse normée).
Le nuage despoints-variables
actives dans unplan
factoriel
permet
de visualiser cetype
de distances entre variables. Lespoints-variables
continues illustratifs sont
positionnés
dans leplan
en fonction de leurs corrélationsavec les axes factoriels.
Entre deux variables continues
illustratives,
ou entre une active et une illustra-tive,
iln’y a jamais
de calcul de distance.2.2.3. Les
points-anciens
axes unitairesUne
analyse
encomposantes principales peut
être considérée comme unchangement
derepère
orthonormé. Le nuage despoints-individus
est initialement construit dans lerepère originel
desvariables,
colonnes du tableau des observations.Un axe unitaire de ce
repère donne,
dans ce nuaged’individus,
la direction danslaquelle
la variablecorrespondante
va croissant. Le transfert de ces anciens axesunitaires dans le nouveau
repère
des axes factoriels définit des directions associéesaux variables et dont la
position
au sein des individusprésente
le même caractère : la direction danslaquelle
la variable va croissant.2.2.4. Les
points-modalités
Ce sont les
points représentant
les modalités des variables nominales. Ilsreprésentent
donc des groupes d’individus. On verra que, dans tous les cas, les coordonnées de cespoints
sont les moyennes des coordonnées des individus du groupe(éventuellement
à un coefficientprès dépendant
de ladispersion
surl’axe).
2.2.5. Les
points-fréquences
Ce sont les colonnes
(et généralement
aussi leslignes)
d’un tableau defréquences
soumis à une AFC. Mais ce sontparfois
des colonnes defréquences
dansun tableau «individus x variables». Dans ce cas ce sont des variables illustratives pour une ACP ou une ACM.
2.2.6. Rôle
actif ou illustratif
Un
point
est actif s’ilparticipe
au calcul de l’inertie du nuage depoints.
Ilparticipe
alors à la détermination des axes duplan
factoriel(les
directions deplus grandes inerties).
Sinon il est dit illustratif ousupplémentaire.
Le choix du rôlejoué
par un
point
est essentiel dans la construction del’analyse
et la connaissance de cerôle est essentielle au moment de
l’interprétation
des résultats.3. Fonctions
graphiques
3.1. Introduction
On
peut distinguer
deux usages desgraphiques
factoriels :2022 les
graphiques
à des finsexploratoires
des données2022 les
graphiques
deproduction
pourpublication.
En
fait,
les fonctions nécessaires à ces deuxtypes
degraphiques
sont sensi-blement les mêmes. L’interactivité nécessaire dans la
phase exploratoire
l’est aussi pour la mise aupoint
d’ungraphique
àpublier.
Onpeut
donc raisonnablement envi- sager un seulproduit
dont certaines fonctions serontplus importantes
dans laphase exploratoire
et d’autres dans laphase
deproduction.
3.1.1.
Les fonctions
de baseOn liste dans ce
paragraphe
un ensemble defonctions qui
doivent constituer la base de toutlogiciel d’exploration
desplans factoriels.
Le programme doit
permettre
de visualiser en permanence legraphique
en courspour
apprécier
defaçon
interactive les modifications effectuées. On doitégalement pouvoir sauvegarder,
à tout moment, legraphique
et les élémentsqui
ontpermis
saconstitution de
façon
à autoriser lareprise
ultérieure du travail pour le terminer ou pour le modifier.L’utilisateur doit
pouvoir
définir des modèles de feuilles destyle qui
serontutilisées ou réutilisées pour tous les
plans
que l’on désire dessiner.Dans la
phase exploratoire
l’interactivité avec les données de base est nécessaire.Il doit être
possible
enparticulier
de faireapparaître
toutes les informations concernant unpoint
en«cliquant»
sur lepoint (on
s’autorisera l’utilisation du verbecliquer
bienqu’il
soit incorrect enfrançais).
Dans la
phase
deproduction,
legraphique
doit être construit en tenantcompte
dutype
deproduit
que l’on veut obtenir :2022 un
graphique
pourpublication papier
en noir etblanc,
2022 un
graphique
pourpublication papier
encouleur,
2022 une sortie sur
transparent,
2022 une sortie sur
diapositive,
2022 une sortie sur écran d’ordinateur.
Il est souhaitable que
l’utilisateurpuisse imprimer un graphique
«parmorceaux»(impression multi-pages).
Un
graphique
achevé pour untype
de sortie(transparents
couleurs parexemple)
doit
pouvoir
être transforméautomatiquement
pour un autretype
de sortie(publication papier
noir et blanc parexemple).
En fonction du
type
desupport (sur papier
noir etblanc,
surpapier couleur, transparents, diapositives),
lelogiciel
proposera ungraphique
par défaut en faisant des choixadaptés
autype
de sortie. Lesproblèmes
de recouvrement despoints
aurontété résolus
automatiquement.
3.1.2. La notion de groupes de
points
Les différents
points
d’unplan peuvent
êtreregroupés
pour faire des traitementscommuns au niveau de leur
représentation,
de leur sélection ou désélection. Lesgroupements
àenvisager
sont :2022 les variables continues actives ou illustratives
2022 les modalités actives ou illustratives
2022 les individus actifs ou illustratifs
2022 les individus en fonction de
l’appartenance
à une classe(suite
à une classifica-tion)
2022 les individus en fonction des modalités d’une variable.
Il y a autant de groupes d’individus
qu’il
y a de classes ou de modalités. Ilpeut
être intéressant «d’éclater» leplan
factoriel en autant de fenêtresgraphiques
que de modalités ou classes. Dans le cas d’une classification des
individus,
ou d’unereprésentation
suivant les modalités d’unevariable,
un autre groupeapparaît :
celuides centres de
gravité
des classes d’individus.Enfin on
peut
avoir besoin de définir des groupes depoints,
sélectionnés suivant des critèresstatistiques (cosinus carré, contribution, etc.).
3.1.3.
Représentation
des variablesLes
points-variables
d’ungraphique
factoriel doivent être affectés d’unsymbole
et d’un libellé. Le
symbole
doit êtreplacé
aux coordonnées exactes dupoint.
Lelibellé doit être
placé
leplus près possible
dusymbole correspondant.
Lelogiciel
doit calculer la
position
de ce libellé en tenantcompte
de son environnement et enévitant les recouvrements de libellés. Le libellé doit être mobile autour du
symbole.
La
possibilité
de mettre une flèchequi pointe
du libellé vers lesymbole permettra
de clarifier legraphique
si ce libellé esttrop éloigné.
Les attributs de
style
des libellés des variables doiventpouvoir
être traitéspoint
par
point
ou pour tout un groupe. Le texte du libellé et ses attributs doivent être modifiables à tout moment.3.1.4.
Représentation
des individusOn
peut
vouloirreprésenter
le nuage des individus de différentesfaçons :
2022 par les identifiants ou libellés courts : on
distinguera
les individus actifs desillustratifs par des
polices
de caractères et/ou des couleursdifférentes,
2022 par des
symboles,
différents selon le rôle actif ouillustratif,
2022 selon les valeurs d’une variable
continue,
2022 selon les modalités d’une variable nominale ou les classes d’une
partition :
lesindividus seront
représentés
par dessymboles
différents et/ou des couleurs différentes selon les groupes. Ondistinguera
aussi les individus actifs des illustratifs.On aura la
possibilité
de faireapparaître
l’identifiant de l’individu encliquant
sur le
point.
Cette fonction est intéressante pour mettre un individuparticulier
enévidence.
Dans le cas d’un
trop grand
nombre d’individus onreprésente
les seuls centresde
gravité
des classes et des modalités. Ces centres degravité
seront traités comme despoints
illustratifs et dotés desymboles
et de libellés. Ilpeut
être intéressant de mettre lessymboles
des centres degravité
dans une tailleproportionnelle
àl’importance
dela classe
(voir
laFigure 1).
Il pourra aussi être intéressant de relier(par
dessegments) chaque
centre degravité
à l’ensemble despoints
de saclasse,
cequi permet
de visualiser ladispersion
de la classe(voir
laFigure 7).
3.2. Fonctions
d’habillage
des éléments3.2.1.
Habillage
des libellésOn aura le choix entre des libellés courts,
longs,
ou la concaténation desdeux,
aussi bien pour les variables continues que pour les modalités. Siplusieurs points
sontsuperposés,
on doitpouvoir
afficher lisiblement les libellésprès
dusymbole
associé.Attributs des libellés
Ils doivent être contrôlés par :
2022 le choix des
polices
decaractères, auxquelles
il serapossible
d’associer desattributs
(gras, italique, souligné).
2022 le choix des couleurs. Huit couleurs franches sont suffisantes. On notera les
difficultés liées aux
couleurs;
parexemple,
lejaune
est visible sur un écranou une
diapositive
sur fond noir mais n’est pas visible surpapier
blanc ou surtransparent.
FIGURE 1
Traitement des
points superposés.
On
repère
lespoints superposés
en leuraffectant
unsymbole
circulairedont la
surface
estproportionnelle
au nombre depoints superposés (SPAD).
2022 le choix de la taille des
polices
de caractères.Proposé
en % del’écran,
ilpermettra
de conserver lesproportions
dugraphique
surimprimante.
L’effacement
des libellésLes libellés seront
effaçables (et réaffichables) individuellement,
ouglobale-
ment à l’intérieur ou à l’extérieur d’une zone délimitée par
l’utilisateur,
ou pour toutun groupe.
3.2.2. Les
symboles
On doit avoir le choix de la
forme,
la couleur et la taille dessymboles.
L’utilisateur doit
pouvoir
aussi affecter unsymbole
à toute sélection depoints.
Attributs des
symboles
2022 Le choix des
symboles
devra être fait enproposant
une liste desymboles
donton
peut
contrôler la taille et la couleur. Auxsymboles
usuels :carré, cercle,
FIGURE 2
Les Bacs en France
(Cumulus)
triangle, étoile, losange peuvent
êtreajoutés
dessymboles
associés à certainespolices spéciales.
e Le choix des couleurs sera fait en
proposant
unepalette
de couleurs.. La taille des
symboles
pourra êtreproposé
en % de l’écran. ’L’effacement
dessymboles
Les
symboles
seronteffaçables
individuellement ouglobalement
à l’intérieurou à l’extérieur d’une zone délimitée par
l’utilisateur,
ou pour toute sélection. Lespoints
sont alorsreprésentés
par leurs seuls libellés.3.2.3.
Les flèches
Des flèches seront utilisées :
2022 pour marquer les
points qui
sont ramenés sur le bord du cadre(avec
unelongueur
qui peut
êtreproportionnelle
à la distance dupoint
aucadre);
2022 pour
pointer
laposition
exacte d’unpoint quand
le libellé esttrop éloigné (elle
pourrait apparaître automatiquement
dès que la distance atteint une certainevaleur) ;
2022 pour
représenter
des anciens axes unitaires en ACP parexemple (voir
laFigure 3).
On pourra contrôler les valeurs et attributs des flèches.
FIGURE 3
Représentation
simultanée en ACP(SPAD)
Les flèches représentent
les vecteurs unitaires sur les directions des anciens axes.3.2.4. Le tracé de
lignes
’
Deux
types
delignes peuvent
être nécessaires :w les
segments
de droites pourindiquer
destrajectoires
entre éléments de même nature; ou pourjoindre
des modalités d’une même variable(voir
laFigure 4);
pour
joindre
le centre degravité
d’une classe aux individusappartenant
à cette classe(voir
laFigure 7).
2022 Les courbes pour entourer un groupe de
points (voir
laFigure 2).
Attributs des
lignes
2022 Le
type
deligne
est choisi dans une liste delignes disponibles : ligne pleine,
pointillée,
tiretslongs
2022
L’épaisseur
de laligne
pourra êtreproposée
en % de l’écran.2022 La couleur de la
ligne
sera accessible via unepalette
de couleurs.FIGURE 4
Analyse
descorrespondances (Cumulus)
3.3.
Manipulation
des éléments3.3.1. La sélection individuelle
Cette fonction est nécessaire pour
permettre
la sélection(ou
ladésélection)
desdivers
points
duplan.
Enparticulier
pour :w identifier individuellement
chaque point
duplan
par unsimple
clic de la souris.2022 afficher des informations concernant un élément du
plan,
parexemple
sescoordonnées sur les axes, sa contribution aux axes, la
qualité
de sareprésentation
sur les axes.
3.3.2. La sélection d’un groupe
La sélection
(ou désélection)
d’un groupe depoints
se fera deplusieurs façons
soit selon la nature du groupe, soit à
partir
d’un critère. Onpeut
vouloir parexemple
sélectionner :
e un groupe de
points
situés à l’intérieur(ou
àl’extérieur)
d’une zone délimitéepar
l’utilisateur;
e un groupe d’éléments actifs ou un groupe d’éléments illustratifs
(variables
ouindividus);
e une classe d’individus associés à une modalité d’une variable
nominale;
2022 une classe de
points
obtenue par une méthode declassification;
2022 le groupe des centres de
gravités
desclasses;
2022 un groupe de
points
selon un critère deplus
forte contribution auplan;
2022 un groupe de
points
selon un critère de bonnereprésentation
sur ceplan.
3.3.3. Le zoom
La fonction zoom sera
disponible
avec indication visible des bornes. La zone àagrandir
doit être délimitée par l’utilisateur et réaffichée en conservant toutes les informationsqu’elle
contenait antérieurement : parexemple,
identifiants d’éléments etsegments.
Le zoom doit
pouvoir
être utilisé «en cascade». Le niveau de zoom sera alorsindiqué
à l’écran.Les limites du zoom seront mémorisées à
chaque étape
pourpermettre
le retour arrière par les mêmesétapes.
On doitpouvoir
revenir à l’état initial dugraphique
à
partir
den’importe quel
niveau de zoom.Enfin,
toutemanipulation qui
cache despoints
donnera lieu à l’ouverture d’une fenêtre situant laposition
de la zoneagrandie
à l’intérieur du
graphique.
3.3.4. Un zoom
particulier
Un zoom
particulier permet
de se concentrer sur lapartie
laplus
dense dugraphique
tout en conservant l’ensemble despoints.
Ce zoomparticulier
est obtenude la
façon
suivante : lespoints
extérieurs à la zone dense sont ramenés à lapériphérie
du
graphique
dans leur direction parrapport
àl’origine (procédure appelée
«zoomourlé» dans
SPAD).
Le zoom ordinaire doit êtredisponible
à l’intérieur de ce zoomparticulier.
3.3.5.
Étirement
Le
rectangle
contenant legraphique
sera étirable dans le sens de lalongueur
oude la
largeur
dans la limite de laplace disponible
à l’écran.3.3.6. Graduations
Le choix du
type
degraduation
sur legraphique
sera fait selon que l’on souhaite avoir des échellesidentiques
ou utiliser au mieux la surface de l’écran. Pour ne pascharger
legraphique,
il estpréférable
que lesgraduations figurent
sur le cadre.En
analyse
encomposantes principales,
on pourra faireapparaître
sur lesdirections des anciennes variables des
graduations correspondant
aux unités des variables.3.4. Fonctions
d’habillage
duplan
3.4.1. Les axes
On doit
pouvoir
faireapparaître,
àproximité
des axes, leurnuméro,
les valeurs propresassociées,
les taux d’inertie de ces axes(voir
laFigure 2).
3.4.2. Le cadre
Le cadre entourant le
graphique
sera affichable ou non et on aura le contrôle del’épaisseur
et de la couleur de ce cadre. Lesgraduations pourront figurer
ou non surce cadre.
3.4.3. Le
quadrillage
Faire
figurer
unquadrillage
sur legraphique peut
être utile pour faciliter lesrepérages.
3.4.4.
L’ajout
de texte ou de titreIl est intéressant de
pouvoir :
2022
ajouter
un titre ou un texte à un endroitquelconque
dugraphique.
Ce titre outexte doit
pouvoir
être affiché horizontalement ou verticalement avec contrôle de lapolice
decaractères,
la couleur et la taille.2022
modifier, déplacer
ou effacer un texte.3.4.5. La
légende
Dès que l’on donne des
significations sémantiques
à des élémentsgraphiques,
il faut les
expliciter
dans des cartouches delégendes déplaçables
et éditables(voir
laFigure 3)
Exemple
delégende explicative :
«Les individus sont
représentés
par dessymboles dépendant
de la modalité de la variable x; la couleur dusymbole dépend
de la modalité de la variable y; les variables illustratives sont enitalique».
La
légende
pourra contenir des informationsstatistiques (les
effectifs parexemple).
3.4.6. La
définition
etcoloriage
d’une zoneOn pourra entourer une zone de
points
à l’aide de la souris avecpossibilité
d’effacement du tracé et contrôle de la
couleur,
del’épaisseur
et dutype
de trait. On pourra colorier ou choisir une trame pour une zone fermée.FIGURE 5
Segments
dans uneanalyse
descorrespondances (EyeLID)
3.5.
Styles, feuilles
destyles
et modèles3.5.1.
Styles et feuilles
destyles
À chaque
élément dugraphique
est associé un ensemble d’attributsqui peuvent
êtrepurement graphiques
ouqui présentent
un caractèrestatistique.
La notion de
style permet
de regrouper l’ensemble de ces attributs et de leur donner un nom. Il estpossible
desauvegarder
lestyle
soit dans le fichier contenant legraphique,
soit dans une feuille destyle
autonome, soit dans un fichierd’options.
On
peut
ainsirécupérer
les définitions d’attributs et lesappliquer
aux éléments d’un autregraphique
de la mêmeanalyse
ouplus généralement
à une autreanalyse.
3.5.2. Les
graphiques
modèlesLes choix
adoptés
pour la réalisation d’ungraphique
doiventpouvoir
êtrestockés de manière
indépendante
des données. Onpeut envisager
de stocker cesinformations dans des fichiers de modèles
indépendants
les uns des autres ou de lesregrouper dans une
bibliothèque.
L’utilisateur
peut
créer de nouveauxmodèles,
modifier des modèlesexistants,
lessupprimer
et biensûr,
lesappliquer
à sesanalyses,
tout engardant
la faculté de modifier les différents attributs.On
peut envisager
de fournir unjeu
de modèlesadaptés :
2022 aux différentes
analyses
factorielles(ACP, AFC, ACM)
2022 dans des contextes
particuliers
2022
petit
nombre depoints
ou trèsgrand
nombre depoints
2022 modalités
qualitatives ordonnées,...
2022 pour différents
supports
2022
papier, transparent, écran, diapositive,
2022 noir et blanc ou couleur.
3.5.3.
Exemples
de réalisationNous
évoquons quelques
réalisations dans différentslogiciels
du commerce :SAS,
JMP et Excel.Dans le module SAS/GRAPH de SAS
Institute,
il estpossible
degérer
uneliste de définition
d’axes,
de motifs ou desymboles (instructions AXIS, PATTERN, SYMBOL,...).
Ilspeuvent
être définis par programme ou de manière interactive dans des fenêtresspécialisées.
Ces définitions sont ensuite utilisées dans les instructionsqui génèrent
lesgraphiques. Enfin,
de nombreusesoptions graphiques permettent
de choisir lesparamètres graphiques adaptés
aux différentspériphériques
de sortie. Le travail de l’utilisateur de SAS/GRAPH consiste à déterminer un choix deparamètres adapté
à ses besoins. Le travail consiste àgérer
unedescription (programme SAS)
d’un ensemble de
styles
et de modèles degraphiques.
Le
logiciel
JMP surApple
Macintosh(et
d’une manièresimilaire,
le moduleSAS/Insight)
propose uneapproche
très différente. Les attributsgraphiques
etstatistiques
despoints
sont des éléments associés àchaque ligne
de la table de données et il estpossible
de lesstocker,
avec latable,
comme autant de variables nouvelles. Lepoint fort,
sousl’angle qui
nous intéresseici,
est la facilité de créerl’habillage
d’ungraphique
et lagrande
facilité de stocker cethabillage
et de le réutiliser. Cette faciliténe
s’applique qu’à
l’intérieur d’un même tableau de données. Il n’est paspossible
de définir des
styles
au sens où nous les avonsdéfinis,
pasplus
que de créer des documentstypes.
Dans le tableur Excel de
Microsoft,
il estpossible
de définir desstyles qui
sont attachés à
chaque
document. Il estpossible
derécupérer
en bloc l’ensemble desstyles
définis dans un document et de lestransporter
dans un autre document. Il estégalement possible
de créer des documents modèles.Enfin,
onpeut
définir desgraphiques types, repérés
par un nom et par unedescription
sommaire. Ils sontgérés
dans un fichier
d’options (ou
depréférences)
et il est faciled’appliquer
legraphique type
à toute autre série de données.3.5.4.
Exemple
dedialogue
avec ExcelLa
première image (Figure 6.1)
montre ledialogue
de définition dustyle
d’unpoint
réalisé àpartir
de Excel. La définition du motif(trait
etmarque)
débouche sur undialogue
visible sur laFigure
6.2. LaFigure
6.3 montre unexemple
deplan
factorielavec deux
styles
depoints :
individus actifs et individus illustratifs.FIGURE 6.1
Exemple
dedialogue
dedéfinition
destyle (programmation Excel)
FIGURE 6.2
Exemple
dedialogue
dedéfinition
destyle (suite)
4. Fonctions
statistiques
4.1. Fonctions
statistiques
selon letype
depoints
4.1.1. Généralités
Il y a peu de fonctions liées à la nature de
l’analyse (ACP,
ACM ouAFC)
sinon les
règles
dereprésentations
simultanées. Par contre des fonctionsimportantes
sont liées à la nature des
points : individus,
variablescontinues,
modalités ouclasses,
fréquences.
On différencierapoints
actifs et illustratifs car lesrègles d’interprétation
FIGURE 6.3
Exemple
degraphique factoriel (programmation Excel)
des
proximités
ne sont pas les mêmes(même
si les calculs despositionnements
sontidentiques).
Chaque
fois que l’on calcule une distance ou une inertie(ou
unequantité
dérivée comme une
contribution,
uncos 2
unplus proche voisin, etc.)
pour habiller ungraphique,
il fautspécifier
le sous espace servant desupport
au calcul : soit un seul axe, soit lepremier plan,
soitl’espace jusqu’à
l’axe deplus
haut rang duplan représenté
soit
l’espace complet.
Il y aura souvent un sous-espace par défaut(par exemple :
on calcule les k
plus proches
voisins dansl’espace complet
pour les identifier sur lepremier plan factoriel).
S’il y a sélection de
points
selon un critère continu(ex :
lacontribution),
onactionnera des
«jauges»
ou des curseurs. Engénéral
lespoints s’estomperont
maison pourra
garder
un «fantôme» de laposition
despoints
non sélectionnés(un pixel résiduel).
Il en sera de même pour une sélectionlogique (une classe,
un filtrelogique plus général).
En effet il y a souvent intérêt àgarder
uneimage
de l’ensemble du nuage despoints
au seinduquel
on veut mettre en valeur un sous-ensemble depoints.
4.1.2. Pointeur
d’information
En
pointant
sur unpoint
on obtient toutes les informations sur l’élément. Pour unindividu,
on obtient ses valeurs dans le tableau dedonnées,
sonpoids,
sescoordonnées,
contributions et
cos2
sur les axesfactoriels,
sa distance au centre, saparticipation
àl’inertie
globale,
ses classesd’appartenance
dans lespartitions disponibles.
Pour une variable
continue,
on obtient sa moyenne, sonécart-type,
son mini-mum, son
maximum,
le nombre de donnéesmanquantes,
sonhistogramme,
ainsi queses
coordonnées,
contributions etcos2
sur les axes factoriels. Noterqu’un
axe est unevariable
particulière.
Pour une variable
«effectifs»,
on obtient sa moyenne, sonécart-type,
sonminimum,
sonmaximum,
sonhistogramme,
ainsi que sescoordonnées,
contributions etcos2
sur les axes factoriels.Pour une variable nominale
(ou
unepartition, qui
est une variable nominaleparticulière),
on obtient l’effectif(et
lepoids)
dechaque modalité,
lescoordonnées,
contributions etcos2
sur les axesfactoriels,
ainsi que les valeurs-tests sur les axes.4.1.3. Cadre et échelles
Il y a deux
types
dereprésentation :
la formeclassique
desplans (x, y)
avecles axes en bordure et la forme
«plan
factoriel» avec les axes se croisant au centre degravité.
Cette secondeprésentation
sera fournie par défaut. On pourra passer de l’une à l’autre.Noter le
problème particulier
du nuage des variables continues en ACP(en particulier
nonnormée) :
il est souventindispensable d’imposer l’origine
dans legraphique.
Deplus
il est intéressant de «centrer legraphique»
dans un cercle decorrélation dans le cas d’une
analyse
normée même si le nuage despoints
est situéd’un seul côté de
l’origine.
Le choix des échelles et des unités sur les axes factoriels est un choix
important.
Un cercle de rayon unité pourra être déformé et
prendre
la forme d’uneellipse
pour rendreplus
lisible unplan
factoriel.Le sens des axes d’une
analyse
étantarbitraire,
on pourra faire unesymétrie
horizontale ou verticale pour des raisons
esthétiques
ou pour comparerplusieurs graphiques.
4.1.4. Mise en valeur de groupes de
points
Une
opération statistique importante
sur leplan
factoriel est la sélection depoints opérée
pourguider l’interprétation
dugraphique :
reconnaître laspécificité
deszones du
plan, les caractéristiques
des directionsfactorielles, estomper
ou effacer lespoints qui
encombrent etperturbent
lalecture,
etc.Les
principaux
critères de sélection sont la contribution à l’inertie(sur
un axe,sur le
plan, jusque
sur leplan),
lecos2 (sur
un axe, sur leplan, jusque
sur leplan),
ladistance à
l’origine,
lepoids.
Pour lespoints représentatifs
d’un groupe d’individus(modalité
ouclasse),
onpeut ajouter
la sélection en fonction de la valeur-test au sensdéfini dans SPAD
[Morineau, 1984].
Soit la sélection
s’opère
enoui/non,
soit onprocède
à unhabillage qui
met envaleur les
points
en fonction de la valeur du critère retenu.L’habillage peut porter
sur l’écriture du libellé ou sur le
symbole qui
localise lepoint.
Si lespoints
sontreprésentés
par despetits cercles,
onjouera
sur le diamètre des cercles. Enagissant
sur un curseur, on pourra
estomper progressivement
lespoints
en fonction du critère choisi.Pour les
points illustratifs,
on affichera la valeur-test et l’on éliminera à l’aide d’un curseur lespoints
illustratifs dont la valeur-test est inférieure à un seuil defaçon
à negarder
que lespoints
lesplus significatifs.
A l’inverse on feraapparaître
successivement les
points
illustratifs lesplus significatifs
en utilisant la valeur-test.4.1.5. Connexions entre
points
Relier deux
points
par uneligne
introduit souvent une aide à la lecture dugraphique.
On pourra parexemple
relier tous lespoints
d’une classe au centre de la classe(graphique
enétoile)
cequi permet
dejuger
de ladispersion
de la classe dans leplan (voir
laFigure 7).
Dans le même
esprit,
onpeut
relier le centre de classe à ses kplus proches
voisins par un
graphique
en étoile. Une autrefaçon
deprocéder
est de fixer le rayon d’unesphère
et de marquer(ou
mettre ensurbrillance)
lespoints
intérieurs à lasphère
centrée sur le
point.
Pour des
points-catégories
d’une variable ordinale on pourra relier lespoints
dans l’ordre naturel pour dessiner une
trajectoire qui
faciliteral’interprétation.
S’iln’ y
a pas d’ordre entre lescatégories,
on pourra tracer le chemin delongueur
minimale(image
desproximités réelles)
ou le chemin delongueur
maximale(dispersion
descatégories
dans leplan).
4.1.6.
Exploration
d’uneclassification
À partir
d’un centre declasse,
on pourra, à l’aide d’un bouton curseur, relier successivement par dessegments
le centre degravité
auxpoints
lesplus proches (au
sens de la distance réelle et non de la
proximité apparente
sur leplan factoriel). À chaque étape
la fonction identification despoints
doit êtredisponible.
Il est intéressantégalement
derepérer
lespoints
lesplus éloignés
d’un centre declasse,
c’est-à-dire : relier au centre degravité
d’abord lespoints
lesplus éloignés puis
lespoints
deplus
en
plus proches.
4.1.7.
Cercles, ellipses, enveloppes
Autour d’un
point représentant
un grouped’individus,
onpeut
tracer des«ellipses
de confiance»(voir
parexemple [Saporta et al., 1986]).
Onpeut
aussitracer
l’enveloppe
convexe despoints projetés
dans leplan (voir
laFigure 2).
Dans une
analyse
descorrespondances simples,
onpeut
tracer autour dechaque
point
un cercle dont le rayon mesure d’une certainefaçon
de combien leprofil
correspondant
diffère duprofil
moyen, centre dugraphique (voir
Lebart etal., 1995).
FIGURE 7
Nuages
depoints
moyens etdispersion
des classes(EyeLID)
4.1.8. Cas de
l’analyse
descorrespondances simples
La
représentation
simultanée deslignes
et des colonnes de cetteanalyse
estparticulière : chaque point
d’un nuage étant« quasi barycentre »
de l’ensemble despoints
de l’autre nuage. Cettereprésentation
simultanée sera fournie par défaut.Cependant
on devrapouvoir
obtenir à la demande lepositionnement
deslignes
envrais
barycentres
des colonnes et vice versa.4.2. Fonctions liées au
type «actiflillustratif»
4.2.1. Généralités
La distinction actif/illustratif est essentielle et se traduira par des fonctions
graphiques particulières.
Il fautrappeler
en effet que, entre deuxpoints actifs,
ilexiste
toujours
une distanceinterprétable.
Par contre entre deuxpoints
illustratifs -ou entre un
point
illustratif et unpoint
actif - iln’y
a pas de calcul direct de « distance » et parconséquent
lesproximités
ont uneinterprétation
d’un autretype.
Il est donc essentiel de bien
distinguer
lespoints
actifs despoints
illustratifssur un même