R EVUE DE STATISTIQUE APPLIQUÉE
M. C HAVANCE
F. A MIEL -L EBIGRE
Sur le codage des données en analyse factorielle des correspondances. Application à un questionnaire
Revue de statistique appliquée, tome 23, n
o1 (1975), p. 65-81
<http://www.numdam.org/item?id=RSA_1975__23_1_65_0>
© Société française de statistique, 1975, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.
sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les conditions générales d’uti- lisation (http://www.numdam.org/conditions). Toute utilisation commerciale ou im- pression systématique est constitutive d’une infraction pénale. Toute copie ou im- pression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
65
SUR LE CODAGE DES DONNÉES
EN ANALYSE FACTORIELLE DES CORRESPONDANCES APPLICATION A UN QUESTIONNAIRE(1)
M. CHAVANCE(2) et F. AMIEL-LEBIGRE(3)
Le
codage
des données pour leur traitementstatistique
est unproblème
délicat. Il masque souvent, comme nous le verrons
plus loin,
l’introductiond’hypothèses implicites
surl’importance
et la nature des variablesétudiées,
mêmelorsque
lestechniques
utilisées nereposent
sur aucunehypothèse stochastique.
Nous nous proposons d’étudier
l’influence
ducodage
enanalyse factorielle
des
correspondances.
Pourcela,
nous énonceronsquelques principes généraux
àrespecter
dans toutcodage, puis
nous étudierons lespropriétés
des variables booléennesdisjonctives
et nous comparerons trois méthodes decodage appli-
cables en
particulier
auxquestionnaires,
nous donneronsenfin
unexemple pratique.
1 - TROIS PRINCIPES
QU’IL
EST BON DE RESPECTEROn sait que
l’analyse
factorielle descorrespondances,
dont nous nerappellerons
pas leprincipe ici(4), permet
de traduiregéométriquement
lesrapports qui
existent entre leslignes
et les colonnes d’un tableau à double entrée(kij)
i ~1, j
E J .Dans le cas d’un
questionnaire,
leslignes correspondent
auxsujets interrogés,
les colonnes auxparamètres
traduisant lesréponses
donnéesà
chaque question.
Mais ilimporte
derespecter
certainesrègles.
1. 1 -Conservation de l’information
On
peut remplacer
une variable à q modalités par q variables booléennessans
perdre
aucunrenseignement :
le passage inverse esttoujours possible.
(1) Article remis le 12/12/73, révisé le 21/6/74
(2) Attaché de recherche INSERM U 88. 91 Bd de l’Hopital. Paris
(3) Attachée de recherche CNRS. Laboratoire de psychologie médicale, clinique des maladies mentales et de l’encéphale. Hôpital Ste Anne. Paris
(4) On pourra se reporter à Benzecri, 1973 (réf. 2) ou à Lebart et Fenelon (1971), (réf. 7)
pour un exposé détaillé ou à Nakache, 1973 (réf. 8) pour un résumé de la mé- thodologie.
Revue de Statistique Appliquée, 1975 vol. XXIII N°1
66
Par contre, si l’on transforme un
paramètre quantitatif
enparamètre qualitatif
à q
modalités,
onconçoit
bienqu’il
y aappauvrissement
de l’information.C’est ce que confirme la théorie de l’information
(cf.
réf. 5 et8) qui précise qu’en
ce cas laperte
d’information est minimalelorsque
les différentes mo-dalités sont
équiprobables.
Bien entendu cetteperte
est d’autantplus
forteque le nombre de modalités est
plus
réduit.1.2 -
Equipondération
dessujets.
Chaque sujet k’
est affecté d’unpoids fi. proportionnel
à la somme desvaleurs des
paramètres qui
le caractérisent :(kij) i ~ I, J E J,
tableau étudié1 ensemble des
sujets
J ensemble des
paramètres.
Si l’on convient de noter 1 la
présence
d’un caractère(e.g. réponse posi-
tive à une
question donnée)
et 0 sonabsence,
on éliminepratiquement
certainssujets
àqui
l’on aurait faitjouer
un rôleprépondérant
enadoptant
lepoint
de vue inverse(ou
enrédigeant
différemment lesquestions).
Pour éviter cet
inconvénient,
il suffitd’ajouter
des variables redondantes.Par
exemple,
enplus
de la variable"réponse positive
à laquestion
k" codée 1 si lesujet
arépondu OUI,
0sinon,
on considère la variable"réponse négative
à laquestion
k" codée 1 si lesujet
arépondu NON,
0 sinon. Ainsi tous lessujets
sont affectés d’un même
poids fo.
et la somme des éléments dechaque ligne
est constante et
égale
àko . :
1.3. - Pondération
équivalente
des variablesChaque
variablekj
est affectés d’unpoids f.j proportionnel
à la sommedes valeurs
qu’elle prend
pour l’ensemble dessujets :
Les deux conditions :
Revue de Statistique Appliquée, 1975 vol. XXIII N°1
67
sont évidemment contradictoires et il est
légitime
den’imposer
que lapremière,
mais il ne faut pas introduire de distorsions
systématiques
enjuxtaposant
mala-droitement des variables
quantitatives
etqualitatives.
Une solution consiste à déterminer des classes de valeurs pour les variablesquantitatives (de préférence équiprobables
pour satisfaire1.1),
cequi
revient à les transformer enparamètres qualitatifs.
II - PROPRIETES DES VARIABLES BOOLEENNES DISJONCTIVES EN ANALYSE FACTORIELLE DES CORRESPONDANCE
Définition 1 : Deux variables booléennes
kj
et ks sont ditesdisjonctives
si ellesne
peuvent prendre
simultanément la valeur 1Les seuls
couples
de valeurspossibles
sont donc(1, 0), (0, 1)
et(0, 0).
Définition 2 : Un ensemble de q variables booléennes deux à deux
disjonctives
kil kj2 ,
... ,kiq
est ditcomplet
si pour toutsujet
il existe une variablede l’ensemble
(nécessairement unique) prenant
la valeur 111.1. - Distance du chi-deux entre deux variables booléennes
disjonctives
Soient
kj
et kS deux variables booléennesdisjonctives,
alors la formule usuelle :
devient
car en posant
il vient
mais étant donnée la nature du
tableau,
nous avons d’unepart
Revue de Statistique Appliquée, 1975 vol. XXIII N°1
68 d’autre
part
nous obtenons donc
Cette
expression peut également
se mettre sous la formeen posant :
Cette formule montre que
a)
pour k et pfixés,
cette distance est inversementproportionnelle
à(k.j
+k.s)’ Donc, en
moyenne, lespoints représentatifs
d’un ensemblecomplet
de variables
disjonctives
sont d’autantplus éloignés
les uns des autres que le cardinal de cet ensemble estplus
élevé.b)
pour(k.j
+k.s ) fixé,
la distance est minimumquand kj = k,s
II.2 -
Principe
du centre degravité.
Proposition :
Surchaque
axefactoriel,
le centre degravité
d’un ensemblecomplet
de variables booléennesdisjonctives
se trouve al’origine.
La coordonnée d’une variable
kj
sur l’axe factoriel’PI
decomposantes
{~i, i~I}
est :Le centre de
gravité
d’un ensemble E de variables booléennesdisjonctives
est donc :
avec
Mais 03A3~i
= 0(car
on sait que~I est orthogonal
au vecteur decomposantes
iEI
{1, 1,...,1}
vecteur propre trivial del’analyse
associé à la valeur propre1).
Revue de Statistique Appliquée, 1975 vol. XX III N°1
69
Une
conséquence
de cettepropriété
est que les variables de l’ensemble sontd’autant
plus éloignées
del’origine qu’elles
sontaffectées
d’unpoids k.j plus
faible.
II.3 - Contribution d’un ensemble
complet
de variables booléennesdisjonctives
à l’inertie du nuage des variables.
Proposition :
La contribution d’un ensemblecomplet
de q variables booléennesdisjonctives
àl’inertie
du nuage estproportionnelle
à q - 1.Soit
kj1, k’2 ,
... ,kjq
un ensemblecomplet
de variablesdisjonctives,
ladistance du chi-deux entre la variable
kil
et le centre degravité G,
de coordon- nées(ki. k)i~I
du nuage des variables est :La contribution de l’ensemble à l’inertie du nuage est donc :
q
En
effet, puisque
l’on a affaire à un ensemblecomplet 03A3 k.jl = n,
nom-bre de
lignes
dutableau,
et la somme des éléments dechaque ligne
étant cons-tante :
Revue de Statistique Appliquée, 1975 vol. XXIII N°1
70 III - COMPARAISON DE TROIS CODAGES
Nous allons maintenant
procéder
à lacomparaison
de troisprocédés
decodage
communément utilisés pour les donnéesprovenant
d’unquestionnaire
fermé.
III.1 -
Codage polytomique
Si à
chaque question
on faitcorrespondre
un ensemblecomplet
de variablesdisjonctives
en associant une variable àchaque
modalité deréponse,
on neperd
aucune information et on a
l’avantage
depouvoir
faireapparaître
laspécificité
de telle ou telle modalité de
réponse.
Bien entendu lesnon-réponses, quand
il en
existe,
doivent être considérées comme des modalitésparticulières,
aumême titre que les
réponses
effectives.Nous avons vu en 11.3 que la contribution d’un ensemble
complet
de q variables booléennesdisjonctives
à l’inertie du nuage estproportionnelle
à(q - 1).
Certainesquestions jouent
alors un rôledeux,
trois ouquatre
foisplus important
que d’autres.Nous avons en outre montré en II.1 que les
points représentatifs
d’unensemble
complet
de variablesdisjonctives
sont, en moyenne, d’autantplus éloignés
del’origine
que le cardinal de l’ensemble estplus
élevé. Certainspoints
sont alorsrejetés
aux extrémités des axes ou(et)
malreprésentés.
Celapeut
rendrel’interprétation
délicate.111.2 -
Codage dichotomique
Si,
pour lesquestions
àréponses multiples,
les différentes modalitéspeuvent
êtreordonnées,
il estpossible
d’utiliser deuxprocédés
decodage dichotomique.
III.2.1 -
Codage dichotomique disjonctif
Si l’on veut que toutes les
questions
aient unpoids égal
dansl’analyse,
on fait
correspondre
à chacune uncouple
de variables booléennesdisjonctives
en associant les
premières
modalités àl’une,
les dernières à l’autre. En raison de1.1,
cela se traduit par uneperte
d’information que l’on minimise en veillant à ce que, pourchaque variable,
les deux valeurs 0 et 1 soient aussiéquiprobables
que
possible.
Exemple :
Si à une
question
lesproportions
deréponse
ont été :jamais
20 %quelquefois
45 %souvent 35 %
il faut identifier les
réponses "jamais"
et"quelquefois"
et les opposer à "souvent".III.2.2. -
Codage dichotomique pondéré
On
peut
éviter touteperte
d’information en associant àchaque
modalitéde
réponse
une notecomprise
entre 0 et 1. Pourrespecter l’équipondération
Revue de Statistique Appliquée, 1975 vol. XXIII N 1
71
des
sujets,
il faut créer une variable redondantequi prend
pour valeur le com-plément
à 1 de cette note.Dans
l’exemple précédent,
si l’on estime que laréponse "quelquefois"
est
équidistante
de"jamais"
et de"souvent",
on crée une variablek’i
et unevariable
k’S
codées :kli
k’sjamais
1 0quelquefois 1/2 1/2
souvent 0 1
Soulignons
l’arbitraire d’une telleattitude,
on aurait pu aussi bien fairecorrespondre
à laréponse "quelquefois"
les valeurs1/3
et2/3
ou3/4
et1/4.
Nous n’avons
plus
affaire à des variables booléennesdisjonctives,
lesrésultats démontrés en II ne sont donc
plus
valables. Nous allonsreprendre
les calculs en nous
plaçant
dans le casparticulier
leplus simple,
celui d’unequestion
à trois modalités deréponse
enposant
commerègle
de passage ducodage polytomique
audichotomique :
kq variable associée à la
réponse intermédiaire, kj
et ks variables associéesaux
réponses
extrêmes dans lecodage polytomique,
’
k’i
etk’S
variables ducodage dichotomique pondéré.
La distance du chi deux entre les deux nouvelles variables est alors :
Un calcul
simple
montre que cette distance est inférieure à cellequi séparait
les variablescorrespondantes
dans lecodage polytomique :
Dans le
développement
de cesexpression,
tous les termes affectés d’unsigne négatif figurent également
munis dusigne opposé.
Il ne reste finalementque des
signes positifs
La contribution des deux nouvelles variables à l’inertie du nuage est :
Revue de Statistique Appliquée, 1975 vol. XXIII N°1
72
On voit que
C’ est
une fonction décroissante et bornée dek puisque
tous les termes sont
positifs
et que,lorsque k.q augmente,
le dénominateur croitplus
vite que le numérateur. Enparticulier,
on aSoulignons
queC’ est
inférieureà 1 k0.,
contribution d’un ensemble com-plet
de deux variablesdisjonctives.
Ce sont donc lesquestions
pourlesquelles
deux modalités de
réponse
seulement sont offertesqui
vontjouer
un rôleplus important.
On
peut
se demanderquelle
est la contribution des deux nouvelles variablesk’i
etks quand
on utilise unepondération différente,
dutype
p,(1 - p).
Nous devons reconnaître que nous n’avons pas effectué les calculs.111.2.3. - On voit que le
codage polytomique
est celuiqui
rend le mieuxcompte
de la richesse duquestionnaire,
auprix cependant
d’une certaine com-plication.
La fécondité de cecodage
est à mettre en relation avec unepropriété particulière
du tableauqui
est alors étudié : J.P. Benzecri(réf. 2,
pages 241 à243)
a montré que sonanalyse
estéquivalente
à celle du tableau decontingence
donnant pour
chaque couple
deréponses possibles
le nombre desujets ayant
donné simultanément ces deuxréponses. Toutefois,
L. Lebart et J.P. Benzecri(réf. 3)
ont montré que cecodage
ne suffit pas à rendrecompte
de cequ’on peut appeler
les interrelations d’ordresupérieur
ouégal
à trois entre les en-sembles de
réponses possibles
aux différentesquestions
d’unquestionnaire.
Le
codage dichotomique pondéré simplifie,
doncappauvrit, l’interpréta- tion ;
enparticulier
on ne voitplus apparaître
laspécificité
de telle ou tellemodalité de
réponse.
Le
codage dichotomique disjonctif,
en raison de laperte
d’informationqu’il entraîne,
est le moins intéressant. L’essentiel des résultatspeut
d’ailleurs être retrouvé àpartir
del’analyse polytomique
en utilisant leprincipe
de lareprésentation
simultanée enanalyse
descorrespondances :
lespoints repré- sentatifs
des variables se trouvent aubarycentre
despoints représentatifs
dessujets
pourlesquels
cette variable estprésente (prend
la valeur1).
Revue de Statistique Appliquée, 1975 vol. XXIII N°1
73
Dans la mesure où le
changement
decodage
ne modifie pastrop
larépar-
tition des
sujets
sur les axes, onpeut prévoir qu’en
identifiantplusieurs
variables que l’on
remplace
alors par uneseule,
lepoint représentatif
de celle-cicoïncidera avec les
points représentatifs
de celles-là(affectées
de leurspoids respectifs).
Or on sait que tout
codage respectant
lesprincipes
énoncés en 1permet
de restituer l’essentiel de la structure des données étudiées. C’est ce que l’on va
vérifier à travers
l’exemple
suivant.IV - ANALYSE DE LA STRUCTURE D’UN
QUESTIONNAIRE :
LE T.S.T.Le T.S.T.
(test
de santétotale)
est unquestionnaire
de 22 itemsqui
vise àapprécier
la santé mentale tant sousl’angle
des fonctionspsychophysiologiques
que des fonctions
psychiques.
Il a été établi par lepsychologue
américainLangner (1962)
etadapté
enfrançais
par R. Amiel et F.Lebigre (1970).
(cf.
réf. 1 et6).
La liste des
questions
est donnée en annexe. Pourchaque sujet,
un scoreest obtenu en faisant la somme des
réponses marquées
d’unastérisque.
Le T.S.T. est utilisé dans un but de
dépistage,
dans desenquêtes épidémio- logiques
ou pour comparer lapsychopathologie
deplusieurs sous-populations.
Dans le cadre d’une étude sur l’utilisation du T.S.T.
(réf.
1bis)
nous avons été amenés à étudier la structure du test àpartir
d’un échantillon de 488sujets
de lapopulation générale.
Nous avons eu recours, enparticulier
à l’ana-lyse
factorielle descorrespondances
en utilisant les troiscodages
étudiésplus
haut.
Le tableau 1 donne les coefficients de corrélation linéaire entre les
cinq premiers
facteurs(coordonnées
des individus sur lesaxes)
de ces troisanalyses.
On remarque que le
premier
axe n’est pasperturbé
par leschangements
decodage (coefficients
de corrélationsupérieurs
ouégaux
à0,98),
que le second n’estguère
modifiéquand
on passe ducodage dichotomique disjonctif
aucodage dichotomique pondéré
maisqu’il
n’est est pas de mêmequand
on utilise lecodage polytomique,
une combinaison linéaire des facteurs deux et trois per- metcependant
de retrouver le facteur deux desanalyses dichotomiques.
(Plus précisément,
il existe dans leplan
factoriel 2 x 3 del’analyse poly- tomique,
un axe dont la corrélation avec le deuxième facteur del’analyse dichotomique
vaut :Tous les autres facteurs sont
également
des combinaisons linéaires deplusieurs
facteurscorrespondant
à un autrecodage.
Ils ne nous ont pas paru intéressants.Ces chiffres montrent que les
interprétations
des troisanalyses
doiventêtre
analogues.
On constate en effet que :Revue de Statistique Appliquée, 1975 vol. XXIII N°1
74 Revue de Statistique Appliquée, 1975 vol. XXIII N°1
75
a)
Lepremier
axe opposetoujours
laprésence
et l’absence destroubles,
ce
qui
confirme lasignificativité
du score habituellementcalculé ;
b)
Une composantedépressive
se détache nettement. On la trouve dans lequadrant supérieur
droit desfigures
1 et2,
et dans lequadrant
inférieurdroit de la
figure 4 ;
elle se détache moins bien sur lafigure
3. Ellecorrespond
aux variables :
H -
question
6 : humeur triste(ou
trèstriste)
1 + 14 : des
journées
sanss’occuper
P + 19 : soucis
qui
rendentphysiquement
maladeJ + 20 : sensation d’isolement
Z + 21 les choses tournent
toujours
malD + 22 :
plus
rien ne vaut lapeine.
Cela
justifie
que soit calculée une notepartielle
dedépression.
c)
un groupe de variables que l’onpeut qualifier
d’anxiété somatisées’oppose
à lacomposante dépressive
dans lesplans
1 x 2 desanalyses
dicho-tomiques
et 2 x 3 del’analyse polytomique.
Mais la frontière entre ce groupe et le reste du nuage estimprécise.
Le calcul d’une seconde notepartielle
ne
s’impose
pas.Certains résultats ne
pouvaient apparaître
quegrâce
aucodage polytomique : a)
Toutes lesréponses
intermédiaires(appétit passable,
troublesapparais-
sant
quelquefois ...)
sortent sur lepremier
axe du côté des variables"patholo- giques"
sauf laréponse quelquefois
à laquestion
7(sentiment
de nervositéNQ).
Il est donc
légitime,
à cetteexpression près,
de les faire intervenir dans le calcul du score, en lescomptant
parexemple
pour1/2 point.
b)
lesréponses
"souvent" auxquestions :
10 -
gêne respiratoire (RS)
15 -palpitations (PS)
16 - évanouissements(ES)
17 - sueurs froides(FS)
18 - tremblement des moins
(TS)
se détachent nettement sur les trois
premiers
axes. Cela est vraisemblablement dûdavantage
à une attitude deréponse qu’à
laplus grande fréquence
de cestroubles chez certains
sujets.
Soulignons
que l’ensemble des résultats est en accord avec les calculs effectuésplus
haut. Ainsi lesdéplacements
relatifs des variables d’uneanalyse dichotomique
à l’autrecorrespondent
aux variations de leur contribution àl’inertie ;
pour le groupe "anxiétésomatisée",
parexemple,
on voit quesur le deuxième axe
(figures
1 et2)
les variables FS,
TS,
PS,
RS,
se rappro- chent del’origine quand
on passe ducodage dichotomique disjonctif
aucodage pondéré,
c’est-à-direquand
on diminue leur contribution à l’inertie du nuage(cf. 111.3).
En outre, comme on
s’y attendait,
les résultats essentiels del’analyse dichotomique disjonctive peuvent
se déduire del’analyse polytomique.
SurRevue de Statistique Appliquée, 1975 vol. XX III N°1
76
FIGURE 2
ANALYSE FACTORIELLE DES CORRESPONDANCES (CODAGE DICHOTOMIQUE PONDERE)
Revue de Statistique Appliquée, 1975 vol. XXIII N°1
77
FIGURE 3
ANALYSE FACTORIELLE DES CORRESPONDANCES (CODAGE POLYTOMIQUE)
la
figure 4, qui représente
leplan
factoriel 2 x 3 del’analyse polytomique,
nous avons
placé
une flèche au centre degravité
dequatre couples
de variables identifiées dansl’analyse dichotomique disjonctive.
On constate :a) Que
dans ceplan
l’axed’allongement principal
du nuage n’estplus
l’axe horizontal mais un axe voisin de la seconde bissectrice.b) Que
la succession des variables estidentique
aux extrémités de cet axeet du second axe factoriel de
l’analyse dichotomique disjonctive :
FS,
TS,
P
S,
R S d’unepart,
Z+,
D+,
P + d’autrepart.
Ces résultats établissent bien la
supériorité
ducodage polytomique
surles
codages dichotomiques
étudiés dans cet article.Revue de Statistique Appliquée, 1975 vol. XXIII N°1
78
FIGURE 4
ANALYSE FACTORIELLE DES CORRESPONDANCES (CODAGE POLYTOMIQUE)
Revue de Statistique Appliquée, 1975 vol. XX III N°1
79 BIBLIOGRAPHIE
[1]
AMIEL R. et LEBIGRE F. - Un nouveau testrapide d’appréciation
de la santé mentale. Ann. Med.
psychol. -
Paris1970, 1, 4,
565-580.[Ibis] AMIEL,
LEBIGRE F. et CHAVANCE M. - Etude d’unquestionnaire
pour
l’appréciation
de la santé mentale. - Rev.Psychol. Appl.
Paris1974, XX4, 4, 251-265.
[2]
BENZECRI J.P. -L’analyse
des données - Tome II :L’analyse
des cor-respondances
Dunod 73.[3]
BENZECRI J.P. - Surl’analyse
des tableaux binaires associés à une corres-pondance multiple
1971 - Laboratoire deStatistique -
Université Paris VI(polycopié).
[4]
CAZES P. - Etude du dédoublement d’un tableau enanalyse
factorielle descorrespondances.
1972 - Laboratoire deStatistique -
Université Paris VI(polycopié).
[5]
DELABREM. 2014 Contribution à l’étude de la classificationautomatique. -
Thèse pour le doctorat en médecine - Lille 1971.
[6]
LANGNER T. - Atwenty
two itemscreening
score ofpsychiatric symptoms indicating impairment -
Health Hum. Behav.1962, 3,
269-276.[7]
LEBART L. et FENELON J.P. -Statistique
etInformatique appliquées -
Dunod 1971.
[8]
NAKACHE J.P. - Influence ducodage
des données enanalyse
factorielle descorrespondances.
Rev. Stat.Appl. 1973,
vol.XXI N° 2,
p. 57 à 70.Revue de Statistique Appliquée, 1975 vol. XX III N°1
80 ANNEXE
Revue de Statistique Appliquée, 1975 vol. XXIII N°1
81 ANNEXE
Revue de Statistique Appliquée, 1975 vol. XXIII N°1