R EVUE DE STATISTIQUE APPLIQUÉE
B ERNARD G OLDFARB
C ATHERINE P ARDOUX
Étude de données multidimensionnelles évolutives et comparaison de codages par l’analyse factorielle multiple
Revue de statistique appliquée, tome 49, n
o1 (2001), p. 97-117
<http://www.numdam.org/item?id=RSA_2001__49_1_97_0>
© Société française de statistique, 2001, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les condi- tions générales d’utilisation (http://www.numdam.org/conditions). Toute uti- lisation commerciale ou impression systématique est constitutive d’une in- fraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
ÉTUDE DE DONNÉES MULTIDIMENSIONNELLES
ÉVOLUTIVES ET COMPARAISON DE CODAGES
PAR L’ANALYSE FACTORIELLE MULTIPLE
Bernard
Goldfarb(1), (2), Catherine Pardoux(1)
(1) LISE-CEREMADE, Université Paris IX -
Dauphine
(2) Laboratoire deBiostatistique,
CHUNecker-Enfants
Malades, ParisRÉSUMÉ
Dans ce
papier,
nousdéveloppons
uneméthodologie d’analyse exploratoire
pour des données multidimensionnelles évolutives, que nousappliquons
à un essaithérapeutique prospectif
concernant le traitement des malades atteints d’insuffisance rénalechronique.
Nousproposons de combiner l’information fournie par la survenue d’une censure et celle provenant des observations réalisées sur des marqueurs
quantitatifs
en utilisant pourchaque
marqueurun
recodage.
Nousprésentons
l’utilisation de troiscodages auxquels
nous associons à chacunun tableau de données. La
comparaison
des trois tableaux obtenus au travers d’uneAnalyse
Factorielle
Multiple,
montre l’intérêt ducodage
flouqui
permet de conserver unepartie
del’information distributionnelle de
chaque
variable. L’étude etl’interprétation
destrajectoires
de sous-groupes de
patients
sont alors définies à l’aide d’uneAnalyse
desCorrespondances
réalisée sur le tableau associé à ce
codage.
Cetteapproche
apermis
dedégager
des conclusions que les méthodesclassiques d’analyse
des données de durée n’avaient paspermis
de mettre enévidence.
Mots-clés :
Analyse
FactorielleMultiple, Codage
Flou, Censure Généralisée, Données Multidimensionnelles Évolutives.ABSTRACT
In this paper, we
develop
anexploratory analysis methodology adapted
to multivariatetemporal
data, with anapplication
to a randomized controlled clinical trialsdesigned
forcomparing
non-diabetic chronic renal failure treatments. Theprogression
of chronic renal disease is assessedthrough
both numericaldescriptors
andqualitative
informationconcerning
censored data when
regular dialysis
has occurred;analysis
thusrequires coding. Using
aMultiple
FactorialAnalysis,
we compare different types ofcoding, focusing
on the interest offuzzy coding
with itscapacity
to preserve alarge
amount of the distributional information from each variable. WhenCorrespondence Analysis
isperformed
on the arrayproduced by fuzzy coding,
we obtain meanpaths, according
tosub-group
characteristics, on factorialmappings.
These
procedures
have resulted in new conclusions unobtainable with traditional duration datamethodology.
Keywords :
FuzzyCoding,
GeneralizedCensoring, Multiple
FactorialAnalysis,
MultivariateTemporal Data.
1. Introduction
Nous nous intéressons à l’étude de données multidimensionnelles évolutives
avec un faible nombre de dates de
point,
etpouvant présenter
des observations censurées. La notion de censure est habituellementappliquée
à des données dedurée,
danslesquelles
letemps
écouléjusqu’à (ou depuis)
la survenue d’un événement donné peut ne pas êtredéterminable,
leplus
souvent pour des raisonspurement expérimentales.
Plusgénéralement,
nous définirons la censure à droite pour des variablesnumériques
d’évolutionlorsque
le recueil oul’interprétation
de la mesurene
peut
être effectué au delà d’un certain seuil. On a donc une ou des variables dont le domaine des valeursanalysables
est borné à droite. L’information de l’existence de la censure dansl’analyse
des processus évolutifs différencie cette situation d’une donnéemanquante.
Dans ce
papier,
nous proposons l’utilisation de troiscodages
que nousappli-
quons à des données obtenues dans un essai
thérapeutique prospectif
concernant le traitement de malades atteints d’insuffisance rénalechronique.
Nous associons untableau de données à chacun des
codages.
Nous comparons les trois tableaux obte-nus par une
Analyse
FactorielleMultiple.
Avec lecodage choisi,
nous étudions etinterprétons
lestrajectoires [Goldfarb
&Pardoux, 2000].
2. Présentation des données
Les données
proviennent
d’un essaithérapeutique
concernant le traitement de l’insuffisance rénalechronique [Hannedouche
etal., 1994]
danslequel
ont été inclusn
patients (n
=130) répartis
en k groupes(k = 4)
selon le traitementappliqué (expérimental/conventionnel)
et l’état tensionnel(hypertendu/normotendu).
L’essai aduré 3 ans, avec suivi tous les 6 mois.
Le rein est un organe vital
plurifonctionnel.
De cefait,
dans les processus pa-thologiques
dedégradation
rénaleprogressive,
la mesure de l’altération fonctionnelle repose surplusieurs
indicateurs. Parailleurs,
lasignification métrologique
de chacunde ces indicateurs ne
correspond
pas à uneinterprétation pronostique
directe. Seulle
dépassement
simultané de seuils de ces marqueurs est directementinterprétable
comme nécessitant une
suppléance
extrarénale pardialyse
continue(pouvant
être unepremière étape
avantgreffe rénale).
Pour cespatients,
le passage endialyse
continuerésultant de la
perte
fonctionnelle totale durein,
nepermettait plus
de donner un sensaux mesures
biochimiques
effectuéesjusque-là.
Eneffet,
les fonctions rénales ne sont alorsplus
assurées que par «pulses » correspondant
aux séances dedialyse,
et les pa- ramètres mesurés évoluent seulement par accumulation entre deux séances dedialyse.
L’information n’est
cependant
pasmanquante
etcorrespond
bien à unphénomène
decensure à droite
généralisée.
Ceciimplique qu’on dispose
pourchaque patient
d’unmaximum de T
points
d’observation(T
=7).
Le suivi a
porté
sur les mesures de p variables actives continuescorrespondant
aux marqueurs
classiques
des fonctions rénales(p
=6).
Pourchaque patient,
on
dispose
par ailleurs derenseignements
d’ordrequalitatif (sexe, traitement,
état tensionnel,...)
définissant des variables illustratives.3.
Codage
des donnéesL’information fournie par la survenue d’une censure à droite
généralisée
etcelle
(numérique)
provenant des observations noncensurées, justifient
l’utilisation d’uncodage,
car contrairement aux modèlesclassiques
desurvie, l’objet
de l’étuden’est pas le
temps
écouléjusqu’à
un termedonné,
mais desgrandeurs biologiques
dont on recherche le ou les modes évolutifs.
La censure est ici le substitut
qualitatif
de la mesurelorsque
la valeur de celle-ci aperdu
sasignification métrologique.
3.1.
Codages définis
par lesquartiles
Pour
chaque
variable activecontinue,
on créequatre modalités {1,2,3,4}
àl’aide des trois
quartiles
de sa distribution définie par n x T(130
x 7 =910)
observations non censurées.
La censure
prise
encompte
sous forme d’une modalitésupplémentaire,
on obtient 5modalités pour chacune des variables actives et on
peut
traiter les données par uneAnalyse
desCorrespondances Multiples.
La censurecorrespondant
àl’aggravation
au-delà du stade matérialisé par la valeur
4,
les 5 modalités sont de facto ordonnées.Les variables
peuvent
alors être considérées comme ordinales donnant lieu à untraitement de variables
numériques
parAnalyse
enComposantes Principales.
Ci-dessous nous
présentons
unexemple
extrait desdonnées,
d’unepart
mises sous forme « ordinale »(n°
de lamodalité),
d’autrepart
écrites sous forme «qualitative disjonctive
». Ils’agit
des 3premières
variables d’abord pour les 4premiers
individusà la
1ère
date depoint, puis
pour le 1 er individu aux2ème
et3ème
dates depoint.
e
Codage
ordinala
Codage disjonctif complet
3.2.
Codage flou
Une deuxième
approche
conduisant à unrecodage
en 4 classes utilise leprincipe
du
codage
flou suivant 3 modalités[Cazes, 1990a].
Nousajoutons
une4ème
modalitécorrespondant
à la censure. On s’affranchit alors de l’arbitraire des valeurs de coupure(les quartiles)
et on conserve unepartie
de l’information distributionnelle pourchaque
variable.
Nous avons retenu l’un des
codages
flous lesplus
utilisés. Il consiste à éclater pourchaque
individu Wi lavariable
en troismodalités j+,j-,j= auxquelles
onadjoint
la censure
jc
en définissant pour cette variablej,
4 valeursnumériques : k(i,j+)
et
k(i,j-), k(i,j=)
etk(i,jC).
Ces 4 valeursreprésentent
en fait la distribution defréquences
de la variable sur ces 4 modalités.La réalisation
procède
ainsi :a pour
chaque variable j,
on détermine à l’aide des observations non censuréesson minimum mj, son maximum
M.
et sa moyennexj,
a pour une observation non censurée
. pour une observation non censurée
e pour une observation censurée
Pour tout individu W2, la somme de ces
quatre
valeurs de lavariables j
estégale
à1,
comme pour un
codage disjonctif complet :
De
plus,
comme pour un tableaudisjonctif complet,
la somme enligne
est constanteet
égale
au nombre de variables.Le tableau suivant donne le résultat de ce
codage
flou pour les mêmes individus que dans les tableauxprécédents.
Pourla jème variable,
les 4 modalitésj+, j-, j=
etje
sont notées
Xi- P, Xi- M, Xj- E
etXj_C.
4. Traitement de données évolutives - Tableaux ternaires
Les individus et les variables étant les mêmes à
chaque
dated’observation,
on
dispose
de T tableaux à nlignes
et p colonnes(variables actives).
Le théorème d’Eckart etYoung [Lebart et al., 1995]
surlequel
reposent les méthodes factorielles n’admet pas degénéralisation
en ce sensqu’il
n’existe pas dedécomposition optimale unique
d’un tableau à trois entrées en tableaux de rangs 1.Parmi les
méthodologies proposées,
nous avons choisi d’étudier l’évolution desn individus en utilisant une
juxtaposition
verticale des Ttableaux,
réalisant pour notreapplication
un tableau à 910lignes [Cazes, 1990b].
Le traitement de ce tableau repose, selon la nature des variables
actives,
sur une
analyse
encomposantes principales (codage ordinal)
ou uneanalyse
descorrespondances (codage disjonctif complet, codage flou).
Ce traitement des tableaux ternaires
par juxtaposition
verticalepermet
de suivre les individus ou des groupes d’individushomogènes (repérés
par leur centre degravité)
vis-à-vis d’une variable
supplémentaire
et autorise deschangements
sur lessujets observés,
aux différentes dates.5.
Comparaison
descodages
parl’Analyse
FactorielleMultiple
Avec le
codage disjonctif complet
définissant des variablesqualitatives,
letableau à traiter par
l’analyse
descorrespondances multiples
est un tableaudisjonctif complet
à 910lignes
et 30(6
x5)
colonnes actives.Avec le
codage quartile
définissant des variablesordinales,
le tableau à traiterpar
l’analyse
en composantesprincipales
est un tableau à 910lignes
et 6 colonnesactives. Avec le
codage «
flou », le tableau à traiter parl’analyse
descorrespondances multiples
est un tableaudisjonctif
flou à 910lignes
et 24(6
x4)
colonnes actives.La méthode
privilégiée
pour comparer descodages
différents pour un même ensemble de variables en donnant unereprésentation optimale
dans un référentielcommun des facteurs des
analyses
associées àchaque codage,
estl’Analyse
FactorielleMultiple (AFM).
5.1.
L’Analyse
FactorielleMultiple
L’Analyse
FactorielleMultiple [Escofier
&Pagès, 1998]
traite des tableaux oùun même ensemble d’individus est défini par
plusieurs
groupes de variables. Dans notreapplication,
nous avons trois tableaux différents définis par les mêmes variablesavec un
codage
différent pourchaque
tableau.Le
principe
de l’AFM repose sur uneanalyse
factorielleglobale
de l’ensembledes groupes, les variables de
chaque
groupe étantpondérées
defaçon
àéquilibrer
leurrôle : le coefficient de
pondération
dechaque
variable d’un même groupe étantégal
à l’inverse de la racine carrée de la
plus grande
valeur propre del’analyse
factorielleséparée
du groupe, laplus grande
valeur propre(ou
inertie axialemaximum)
dechaque
groupe estégale
à la valeur 1.Comme en
Analyse Canonique
Généralisée[Carroll, 1968],
on cherche enAFM,
une suite de variablesgénérales, orthogonales
entreelles,
lesplus
liées àl’ensemble des groupes de variables et, pour
chaque
variablegénérale
et danschaque
groupe, des variables
canoniques
lesplus
liées aux variablesgénérales.
La mesure deliaison entre une variable z et un groupe de variables n’est pas en AFM le coefficient de détermination comme en
ACG,
mais la mesure de liaisonLg égale
à la valeurde l’inertie
projetée
des variables du groupe sur z. L’AFMs’applique
à des tableaux formés de groupes de variablesquantitatives, qualitatives
ou detype fréquence,
àcondition
qu’à
l’intérieur d’un groupe, les variables soient de mêmetype.
L’AFM
prend
encompte
la structure en groupes devariables, permet
lacomparaison globale
des groupes, la mise en évidence de facteurs communs auxdifférents groupes et une visualisation des ressemblances entre groupes.
5.2. Mise en 0153uvre
L’Analyse
FactorielleMultiple
a été réalisée à l’aide de laprocédure
AFMULTde LADDAD. Le programme commence par réaliser une ACP
séparée
dechaque
groupe. Dans les groupes
qualitatifs,
les indicatrices des modalités sont centrées etpondérées
de telle sorte que leur ACP estéquivalente
à une ACM. Les axes factorielsextraits de ces
analyses séparées,
dits « axespartiels
», sont considérés comme des variablessupplémentaires (cf. annexe § 3).
5.2.1.
Analyses séparées
des groupes2022 Le tableau associé au
codage disjonctif complet
a été traité par uneAnalyse
des
Correspondances.
La1ère
valeur propre, voisine de la valeur1, indique
que le nuage despoints-individus
estséparé
en deux sous-nuages et que les modalités des variables sedécomposent
en deux groupes[Lebart
etal., 1995].
On peut constater, à l’aide del’interprétation
desfacteurs,
que l’un des sous-groupes de modalités estconstitué des modalités relatives à la censure.
ANALYSE DU GROUPE 1 :
codage quartile qualitatif
(ACM)INERTIE TOTALE (= SOMME DES VALEURS PROPRES) : 4.091 DIAGRAMME COUPE A 5 VALEURS
e Le tableau associé au
codage
ordinal a été traité par uneAnalyse
enComposantes Principales
non normée. Le 1 er facteur résume à lui seul 73 % de l’information. Les variables étant toutes corrélées fortement etpositivement
au 1 erfacteur,
cette situation n’est autre que l’ « effet taille »[Escofier
&Pagès, 1998].
Lecodage
ordinal traite l’état « censure » commeétape
ultime de lamaladie,
et ne traitepas cet état en tant que « donnée
spéciale »
comme le font les deux autrescodages.
Ce 1 er facteur
apparaît
comme un facteur de confusion lié à la fois à l’état degravité
de la maladie et à la censure.
ANALYSE DU GROUPE 2 :
codage quartile
ordinal (ACP non normée)INERTIE TOTALE (= SOMME DES VALEURS PROPRES) : 10.279 DIAGRAMME COUPE A 5 VALEURS
On aurait pu songer à s’affranchir de cet « effet taille » en utilisant une
Analyse
desCorrespondances (AC)
au lieu d’uneAnalyse
enComposantes Principales (ACP).
La
pondération apportée
par l’AC àchaque individu, égale
à lafréquence marginale,
aurait alors été
reportée
pour les autrestableaux 1 .
Mis àpart
ladisparition
de l’ « effettaille », les résultats obtenus pour cette
analyse
par une ACappliquée
à ce tableausont
parfaitement homogènes
avec ceux de l’ACP.e Le tableau associé au
codage
« flou » a été traité par uneAnalyse
desCorrespondances
du tableau définiau §
3.2. On retrouve une1ère
valeur propre voisine de 1 associée à l’ensemble des modalités « censure ».Pour cette
analyse,
lareprésentation
dans lepremier plan
factoriel donne unexcellent résumé de l’information
(73
% del’inertie).
Toutes les modalités « censure »ayant sur le 1 er axe factoriel une
qualité
dereprésentation égale
à 1(tableau 1),
le1 er facteur est défini par la censure. Pour
chaque variable,
les modalités « + » et « - »ayant des coordonnées
opposées
sur le2nd
axefactoriel,
la2nd
facteur est lié à l’état degravité
de lamaladie,
hors cequi
est de la censure.ANALYSE DU GROUPE 3 :
codage
flou (ACM)INERTIE TOTALE (= SOMME DES VALEURS PROPRES) : 1.693 DIAGRAMME COUPE A 5 VALEURS
Avec le
codage flou,
on conserve unepartie
de l’information distributionnelle pourchaque variable,
et l’état « censure » sedistingue
encoreplus
nettement desautres états
qu’avec
lecodage disjonctif complet : c’est,
eneffet,
le seul état pour1 En Analyse Factorielle Multiple, tous les individus ont la même pondération quel que soit le groupe
lequel
on aobligatoirement
uneséquence
du type « 0 0 0 1 »(cf. §
3.1et § 3.3).
Ce sont les raisons pour
lesquelles
on a besoin debeaucoup plus
de facteurs avec lecodage quartile qualitatif
pour une restitution de l’informationéquivalente
à celle ducodage
flou.5.2.2.
Analyse globale
L’analyse globale
du tableaucomplet
à 910lignes
et 60(30
+ 6 +24)
colonnesest une ACP
pondérée
de l’ensemble desvariables,
le coefficient depondération
dechaque
variable d’un même groupe étantégal
à l’inverse de la racine carrée de laplus grande
valeur propre del’analyse
factorielleséparée
de ce groupe.En
AFM,
la liaisonLg
entre une variablequantitative z
et un groupe de variables estégale
à la valeur de l’inertieprojetée
des variables du groupe sur z. La1ère
variablegénérale
z, maximise la somme de ses liaisons avec chacun des groupes. La2nde
variablegénérale
Z2,orthogonales
à zl, maximise la somme de ses liaisons avecchacun des groupes...
On montre que les variables
générales
sont les composantesprincipales
normées del’ACP
pondérée
du tableaucomplet.
En notantÀa
la valeur propre de rang a etwa
le facteur
associé,
on a :W a
=03BB03B1z03B1.
A
chaque
groupe g devariables,
on associe un nuage d’individus dit «partiel
»qui
contient les individus vus par ce groupe devariables,
et onprojette
les nuagespartiels
sur les axesprincipaux
del’analyse
factorielleglobale.
Laprojection
du nuage associé au groupe g sur l’axe factoriel de rang a del’analyse globale
définit la variablecanonique 03A8g03B1
du groupe gqui
n’est autre que la combinaison linéaire des variables du groupe laplus
liée à la variablegénérale
za.A un coefficient
près,
lareprésentation
d’un individu W2 par sa coordonnée est aubarycentre
de sesreprésentations
par les03A8g03B1i:
on dit quel’image globale
d’un individuest au centre de
gravité
de sesimages partielles.
On retrouve cettepropriété
pour les modalités des variablesqualitatives puisqu’on représente
une modalité par le centre degravité
des individusqui
lapossèdent.
ANALYSE DE L’ENSEMBLE DES GROUPES (AFM)
INERTIE TOTALE (= SOMME DES VALEURS PROPRES) : 7.168 DIAGRAMME COUPE A 10 VALEURS
La
1ère
valeur propre,égale
à2,75,
est très élevéepuisque
trèsproche
de sa valeurmaximale
possible,
à savoir 3. Cecisignifie
que les 1 ers axes dechaque
groupe sont trèsproches
du 1 er axe del’analyse globale.
Cetteanalyse
fournit unereprésentation
des individus et des variables
qui s’interprète
selon lesrègles
usuelles del’analyse
factorielle. En examinant les contributions et les
qualités
dereprésentation
descolonnes actives et
supplémentaires
ainsi que leurreprésentation
dans lepremier plan factoriel,
on retrouve la mêmeinterprétation
pour les deuxpremières
variablesgénérales
que pour les deuxpremiers
facteurs ducodage flou,
à savoir une 1 ère variablegénérale
liée à la censure et une2nde
variablegénérale
liée à l’état degravité
de lamaladie,
pour cequi
n’est pas de la censure(cf. annexe § 1, 2
et4).
Au-delà de cetteanalyse globale,
laprise
en considération de la notion de groupe de variables enrichitl’interprétation
des résultats.5.2.3. Liens entre
l’analyse globale
et lesanalyses
par groupeLes valeurs des mesures de liaison
Lg
et RV entre les groupes de variablespris
deux à deux
[Escofier
&Pagès, 1998,
Robert &Escoufier, 1976],
nous montrent que :e le 1 er groupe
présente
laplus grande
dimensionnalité avecLg(1, 1)
=1, 883,
. les groupes 1 et 3 ont les structures les
plus proches (RV - 0, 842),
e la structure commune aux groupes 1 et 3 est la
plus
riche avecLg(1,3)
=1,186.
Les variables
canoniques
du groupe g étant lesprojections
du nuage associé à ce groupe sur les axes de rangcorrespondant
del’analyse globale,
les valeurs des coefficients de corrélation entre les variablescanoniques
d’un groupe et les variablesgénérales
montrent dansquelle
mesure les variablesgénérales
del’analyse globale peuvent
être considérées comme des structures du groupe g.Ici,
la1 ère
variablegénérale
est commune aux trois groupes, et la seconde aux 1 er et3ème
groupes.CORRELATIONS ENTRE LES VARIABLES CANONIQUES
ET LES VARIABLES GENERALES
Ces résultats confirment la ressemblance
plus
forte entre les groupescodage disjonctif complet
etcodage
flouqu’entre
l’un de ces groupes et le groupecodage
ordinal.Le rapport de
corrélation,
défini comme lequotient
de l’inertie inter par l’inertietotale,
est calculé pourchaque
axe de lafaçon
suivante : àchaque
individuactif,
est associé une classe
regroupant
l’ensemble despoints représentant
cetindividu,
icichaque
classe contient troispoints puisqu’on
a trois groupes actifs. Ce rapport montre dansquelle
mesurechaque
axe met en évidence une structure commune aux groupes.Le tableau suivant montre à nouveau que le
premier facteur,
lié à la censure,est commun aux trois groupes. Ce
rapport
de corrélation estplus
faible pour les axessuivants
qui
ne sont communsqu’aux
1 er et3ème
groupes.RAPPORT : INERTIE INTER/INERTIE TOTALE
5.2.4.
Représentation
des groupesA
chaque
groupe, on associe sa matrice desproduits
scalaires entre individusqui
est un élément del’espace RN2 ,
N étantégal
à nT(ici 910). L’Analyse
FactorielleMultiple
fait aussi intervenir les matricesz03B1z’03B1
associées àchaque
variablegénérale
z03B1. Ces éléments forment une base orthonormée d’un sous-espace de
Ru .
C’estsur cette base que sont
projetés
lespoints-groupes
pour visualiser leursproximités.
L’intérêt de cet espace de
projection
est que les axes surlesquels
onprojette possèdent
la même
interprétation
que les axes del’analyse globale.
On montre que la coordonnée du groupe g sur l’axe de rang ex est
égale
àLg(za, g),
cette mesure de liaison étant
toujours comprise
entre 0 et 1 du fait de lapondération
des variables à l’intérieur des groupes. La somme des coordonnées des groupes sur
un axe donné est ainsi
égale
à l’inertie de l’axecorrespondant
dansl’analyse globale.
COORDONNEES ET AIDES A L’INTERPRETATION DES GROUPES ACTIFS
Les valeurs de la
qualité
dereprésentation
des groupes dans 1 erplan principal
montrentque les deux
premiers
facteurs del’analyse globale
rendent mieux compte de lastructure du
3ème
groupe que de celle des 1 er et2ème
groupes(figure 1).
FIGURE 1
Représentation
des groupes dans lepremier plan factoriel
5.2.5. Bilan
L’analyse
factoriellemultiple
est l’outilprivilégié
pour comparer descodages
différents pour un même ensemble de variables en donnant dans un référentiel
commun une
représentation optimale
des facteurs desanalyses séparées
des groupes associés àchaque codage (cf. annexe § 3).
Les
codages disjonctif
et flou ontdéjà
étécomparés,
mais dans le cadre dedonnées exclusivement
quantitatives [Gallego, 1982].
L’auteur a pu essentiellement conclure à uneplus grande
clarté desrésultats,
ainsiqu’à
une facilité de lecture avecle
codage
flou.Nos
principaux
résultats concernant lecodage
flou :e
sauvegarde
d’unepartie
de l’information distributionnelle pourchaque variable,
2022
qualité
de lareprésentation
du groupe«codage
flou » dans le 1 erplan factoriel,
2022 valeur du
pourcentage
de l’information restituée dans leplan
factoriel del’analyse séparée,
etqualité
dereprésentation
des deuxpremiers
axespartiels
actifsdans le
premier plan
factoriel del’analyse globale,
conduisent à le considérer comme le
codage
leplus pertinent
pour notreapplication.
C’est ce
codage
que nous choisissons parconséquent
pour construire lestrajectoires.
6.
Représentation
etinterprétation
destrajectoires
de groupes d’individus Uneanalyse
factorielle descorrespondances
a été réalisée à l’aide dulogiciel
SPAD sur le tableau associé au
codage
flou à 910lignes,
24 colonnes actives et 5 variables nominalessupplémentaires.
Les valeurs propres et leurs
pourcentages
d’inertie associés ont été donnés au§5.2.1.
Les 5 variables nominales illustratives ont été définies
au §
2 :2022 la date
(7
modalitésTl
àT7),
2022 le sexe
(Homme, Femme),
2022 l’état tensionnel
(normotendu NT, hypertendu HT),
2022 le traitement
(hypertenseur H, placebo P, expérimental E),
2022 et une variable croisant l’état tensionnel et le traitement
(NT*P, NT*E, HT*H, HT*E).
Cette dernière variable ne
comporte
que 4 modalitéspuisque
pour lesnormotendus,
ne sont
possibles
que les traitementsplacebo
etexpérimental,
et pour leshypertendus,
les traitements
hypertenseur
etexpérimental.
On
dispose
pourchaque
individu W2 de T coordonnées(7
coordonnées pour notreapplication)
surchaque
axe factoriel.Soient 03A61i(t)
etW 22 (t),
les coordonnéesde Wi
dans lepremier plan
factoriel à la date t.Les T
points
reliés par lachronologie
définissent latrajectoire
de W2 dans lepremier plan
factoriel. Lestrajectoires
ainsi obtenues constituent un résuméprojectif
de l’évolution des individus sur l’ensemble des variables actives. On
peut
aussireprésenter
pourchaque
date les centres degravité
de modalités d’une variablesupplémentaire,
lespoints
moyens selon le sexe, parexemple (figure 2).
Les contributions et cosinus carrés des modalités actives
(tableau 1) complètent
lesrésultats donnés
au § 5.2.1,
àsavoir,
un 1 er facteur défini par la censure et un2nd
facteur lié à l’état degravité
de lamaladie,
pour cequi
n’est pas de la censure.Pour
compléter l’interprétation,
uneanalyse
de variance à deux critères «Temps
»et « Sexe » avec interaction a été réalisée pour chacun des deux
premiers
facteursde
l’analyse
descorrespondances (tableaux
2 et3) :
l’effet «Temps
» estsignificatif
pour les deux
facteurs,
l’effet « Sexe » n’estsignificatif
que pour le2nd facteur,
et leur interaction n’estsignificative
pour aucun des deux facteurs.Ces conclusions sont confirmées par l’examen des valeurs-test
[Lebart et al., 1995]
des modalités illustratives
(tableau 4).
Ces résultats illustrés par la
représentation
destrajectoires
selon le sexe dans le 1 erplan principal (figure 2)
fontévoquer
un biais de recrutement : les femmes de l’échantillonavaient,
à leur entrée dansl’étude,
unpotentiel
d’évolution de la maladieplus
accentuéque les hommes. Les
premières analyses publiées [Hannedouche
etal., 1994]
ont enréalité buté sur ces
particularités
despatients
inclus dansl’étude,
etqui
n’étaientpas
prévisibles
dans l’état actuel desconnaissances, malgré
undispositif
d’inclusionrigoureux.
Les modèles utilisés necorrespondaient
pas à une bonnereprésentation
des données issues de cet essai
thérapeutique.
Notreapproche exploratoire
se révèleêtre une
étape
nécessaire avant modélisation.TABLEAU 1
Coordonnées,
contributions etqualités
dereprésentation
desfréquences
actives
(pour
les libellés desmodalités,
sereporter § 3.2)
TABLEAU 2
Analyse
de variance pour le1er facteur
TABLEAU 3
Analyse
de variance pour le2nd facteur
FIGURE 2
Trajectoires
selon le sexe dans lepremier plan factoriel
TAB LEAU 4
Valeurs-test et coordonnées des modalités
supplémentaires
7. Conclusion
L’application
de cetteméthodologie
factorielle aux données de l’essaithérapeu- tique
apermis
de montrerl’importance
du choix ducodage
et de mettre en évidencel’avantage
ducodage
flouqui sauvegarde
unepartie
de l’information distributionnelle des variables. Parailleurs,
elle apermis
dedégager
des conclusions(dont
un effetsexe) qui
n’avaient pas pu être caractérisées dansl’analyse
initiale réalisée dans le cadreclassique
des modèles de données de durée : modèle deCox, analyse
en donnéesrépétées [Hannedouche
etal., 1994]. L’approche classique
modélisante se heurte à des difficultés aussi bien d’identification que d’estimation du fait du trèsgrand
nombrede
paramètres
enregard
du nombre limité depoints
d’observation. Même dans un casde modèle
identifiable,
les estimateurs peuvent être fortementimprécis.
Références
CARROLL J.D.
(1968)
Ageneralization of
canonical correlationanalysis
to threeor more sets
of variables,
Proc. 76th Conv. Amer.Psych. Assoc.,
227-228.CAZES P.
(1990a) Codage
d’une variable continue en vue del’analyse
des corres-pondances, RSA, 38, 3,
35-51.CAZES P.
(1990b) Quelques
considérations sur l’utilisation des élémentssupplémen-
taires en
Analyse Factorielle,
Revue MODULAD n°5,
29-44.ESCOFIER
B., PAGÈS
J.(1998) Analyses factorielles simples
etmultiples, 3ème éd.,
Dunod.GALLEGO F.J.
(1982) Codage flou
enAnalyse
descorrespondances,
Les Cahiers del’Analyse
desDonnées,
Vol.VII,
n°4,
413-430.GOLDFARB
B.,
PARDOUX C.(2000)
Données multidimensionnelles évolutivesavec
comparaison
decodages
parl’Analyse
FactorielleMultiple, XXXIIèmes
Journées de
Statistique, SFdS, Fès,
Maroc.HANNEDOUCHE T., LANDAIS
P.,
GOLDFARB B. et al.(1994)
Blood pressure control in non diabetic chronic renal failure : aprospective
controlledstudy,
British Medical
Journal,
309 : 833-837.LEBART
L.,
MORINEAUA.,
PIRON M.(1999) Statistique exploratoire
multidi-mensionnelle, 2ème édition,
Dunod.ROBERT
P.,
ESCOUFIER Y.(1976)
Aunifying toolfor
linear multivariate methods : the RVcoefficient, Applied Statistics, 25, 3,
257-265Logiciels
LADDAD
(1997) AFMULT, Programme d’Analyse
FactorielleMultiple,
version 3-1997, ADDAD,
22 rueCharcot,
75013-Paris.SPAD
(1999) Système portable
pourl’analyse
desdonnées,
version4.0,
CISIA.Annexe
Résultats de
l’analyse globale : procédure
AFMULT de LADDAD1. Coordonnées et aides à
l’interprétation
des colonnes activese Modalités du groupe 1
« codage disjonctif complet » : Q
1(1ère
modalité dela
1 ère variable), ... , Q65 (5ème
modalité de la6ème variable).
e Variables du groupe 2 «
codage
ordinal » :XI, X2, X3, X4, X5,
X6.e Modalités du groupe 3 «
codage
flou » : notations définiesau §
3.2.2. Coordonnées et aides à
l’interprétation
des colonnessupplémentaires
Les modalités des variables illustratives ont été définies
au §
6.3. Coordonnées et aides à
l’interprétation
des axespartiels
Les axes
partiels
sont issus desanalyses séparées
des groupes. Ils sont considéréscomme des variables
supplémentaires.
Pour chacun des groupes, ondispose
descoordonnées, qualités
dereprésentation
et contributions des vecteurs unitaires des 5premiers
axes factoriels du groupe sur les 5premiers
axes factoriels del’analyse globale.
La
qualité
dereprésentation
dupremier
axe factoriel dans lepremier plan
factorielde
l’analyse globale
estégale
à :0,996
pour le groupe 1(codage disjonctif complet), 0,992
pour le groupe 2(codage ordinal)
et0,996
pour le groupe 3(codage flou).
Laqualité
dereprésentation
du deuxième axe factoriel dans lepremier plan
factoriel del’analyse globale
estégale
à :0,994
pour le groupe1, 0,368
pour le groupe 2 et0,960
pour le groupe 3.L’indice COR du groupe g pour l’axe ce de
l’analyse globale
estégal
à l’inertie des 5premiers
axes du groupe g sur l’axe a divisée par l’inertie totale du groupe gprojeté
sur l’axe a.
Les deux
premiers
axes factoriels dechaque analyse séparée
rendentcompte
de38,5
% de l’inertie du 1 er groupe,
85,4
% de l’inertie du 2nd groupe et73,1
% de l’inertie du3ème
groupe(cf. §5.2.1).
4.
Comparaison
des troiscodages :
codage disjonctif complet, codage
ordinal etcodage flou
Pour
alléger
legraphique :
2022 les modalités X1_P,
X2Jvl,...
sont notées1 P, 2M, ...
w les modalités illustratives
NT*P, NT*E, HT*H,
HT*E sont notéesrespective-
ment
ET 1, ET2,
ET3 et ET4.Certaines variables n’ont pas pu être
représentées
en raison depoints multiples.
Représentation
des colonnes actives etsupplémentaires
dans le