R EVUE DE STATISTIQUE APPLIQUÉE
P. C AZES
Codage d’une variable continue en vue de l’analyse des correspondances
Revue de statistique appliquée, tome 38, n
o3 (1990), p. 35-51
<http://www.numdam.org/item?id=RSA_1990__38_3_35_0>
© Société française de statistique, 1990, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les condi- tions générales d’utilisation (http://www.numdam.org/conditions). Toute uti- lisation commerciale ou impression systématique est constitutive d’une in- fraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
CODAGE D’UNE VARIABLE CONTINUE
EN VUE DE L’ANALYSE DES CORRESPONDANCES
P. CAZES CERESTA Université Paris
Dauphine
RÉSUMÉ
Nous comparons ici divers
codages
flous d’une variable continue utilisés en vue del’analyse
descorrespondances.
Cescodages qui
se font sur deux ou trois colonnes sont descas
particuliers
ou des variantes ducodage barycentrique
(ou semi-linéaire). Le cas d’un ensemble de notes fourni par des experts estégalement
détaillé pour examiner comment onpeut dans une certaine mesure s’affranchir de la
façon
de noter dechaque
expert.Mots clés :
Analyse
desCorrespondances - Analyse
enComposantes Principales - Codages Barycentrique, Disjonctif Complet,
Flou - Fenêtre Glissante.Indices de
classification
STMA : 06-070 , 06-110.SUMMARY
We compare several
fuzzy codages
of a continuous variable used incorrespondence analysis.
Thesecodages split
the variable in two or three items ;they
areparticular
cases ofbarycentric codage.
The case of a set of notes is studied for see how shake off the mannerin which each person notes.
Key
Words :Correspondence Analysis - Principal Component Analysis - Barycentric, Complete Disjunctive, Fuzzy Codages - Sliding
Window.1 Introduction
II
Rappels
sur le dédoublement enanalyse
descorrespondances
III
Quelques exemples
decodage
d’une variable continue 111.1Codage de xj
suivant deuxmodalités j + et
111.1.1 Les
codages proposés
111.1.2
Comparaison
descodages précédents
111.1.3
Remarques
111.2
Codage des
suivant troismodalités j -, j
=et j +
111.3
Codage barycentrique des
en r modalités36 P. CAZES 111.4 Cas d’un ensemble de notes
111.4.1 Introduction
111.4.2
Codage des
suivant deuxmodalités j+ et j -
111.4.3
Codage
de xi suivant troismodalités j -, j
= etj+
111.5
Codage
àpartir
des rangs111.5.1
Codage
variable par variable 111.5.2 Cas del’analyse
despréférences
IV
Codage
flou associé à uncodage disjonctif complet
V Fenêtre
glissante.
Remerciements.
Bibliographie.
1 Introduction
Nous proposons ici divers
codages
d’une variable continue en vue del’analyse
descorrespondances.
Cescodages qui peuvent s’apparenter
à uncodage
flou se font sur deux ou trois
colonnes,
etpermettent
comme lecodage disjonctif complet
usuel de traiter simultanément ces variables avec des variablesqualitatives
codées en 0-1. Contrairement au
codage disjonctif complet,
lescodages proposés
ont
l’avantage
d’unepart
de ne pas faireperdre
d’informationpuisque
l’on neperd
pas la valeur de la variable
prise
pour negarder
quel’appartenance
à unetranche;
et d’autre
part
de ne pas créer de distance artificielle entre deux individusproches
mais situés de
part
et d’autre de la frontière entre deux classes.La
plupart
descodages développés
icicorrespondant
à undédoublement,
nous faisons d’abord des
rappels
surl’analyse
descorrespondances
d’un tableau dédoublé. Nous proposons ensuitecinq codages
d’une variable continue(quatre
surdeux
colonnes,
le dernier sur troiscolonnes) qui
ont été utilisés avec succès ouqui
dérivent de
codages
utilisés enpratique,
et nous montrons que cescodages
sontdes cas
particuliers
ou des variantes ducodage barycentrique (encore appelé
semi-linéaire) ; puis
nous examinons le cas d’unsystème
de notes et étudions comments’affranchir de la
façon
de noter dechaque sujet.
Nousappliquons
alors les résultats obtenus au cas d’uncodage
par rangs et àl’analyse
despréférences.
Nous étudionsensuite comment on
peut
ramener uncodage disjonctif complet trop
fin etrisquant
de donner des résultats
d’analyse
instables à uncodage
flouplus robuste,
avant de donner un aperçu sur latechnique
de fenêtreglissante
encodage disjonctif complet.
II
Rappels
sur le dédoublement enanalyse
descorrespondances
Soit
A;o7j
un tableaurectangulaire
défini sur leproduit
de deux ensembles Iet J et
k! JI
le tableau déduit dek0IJ
par dédoublement et défini par :dj
étant unequantité
connue.Posons :
Alors
(cf [2a]
et[7]) l’analyse
descorrespondances
du tableaukI JI
estéquivalente(*)
àl’analyse
encomposantes principales (A.C.P.)
du tableauk0IJ, chaque point
i étant muni de la masse1/n (où
n =Cardl)
etl’espace Rj
étantmuni de la
métrique
définie par :d2 (i, i’ ) désignant
le carré de la distance entre i et i’ . Enparticulier,
nous traiterons le cas où :xij étant la valeur de la variable xi pour l’individu
i,
cjet bj
étant des constantesindépendantes
de i.La formule de distance
précédente
s’écrit alors :z) Dans le sens où l’on obtient la même représentation de I sur les axes factoriels issus des deux
analyses.
38 P. CAZES avec :
Xj qui
est défini en(8) désignant
la moyenne(sur I)
des xij.L’analyse
descorrespondances
du tableaukIJ
est doncéquivalente
à l’A.C.P.du tableau X des xij,
Rj
étant muni de lamétrique
définie par(5)
et(6).
Dans les cas que nous
traiterons, dj
= 1 et donc D estégal
au nombre CardJde variables. Posant p =
CardJ, l’expression des
sesimplifie
et s’écrit alors :III
Quelques exemples
decodage
d’une variable continueNous supposons ici que l’on a p variables
quantitatives
xi( j E J)
mesuréessur un ensemble I de n
individus,
et nousdésignerons
par Xi) la valeur de la variable x) pour l’individu i. Nousdésignerons
par X le tableau des xij et nous poserons :III.1
Codage
de xj suivant deuxmodalités j + et j -
III.1.1 Les
codages proposés
Comme au
paragraphe précédent,
nous poserons J’ =J+ UJ- ,
avecJ+ =
J- =J.
Nous
suggérons quatre codages possibles.
Chacun de cescodages
revient àdéfinir un tableau de base
k0IJ
dont le termegénéral
est de la forme donnée par(4)
et à le dédoubler parrapport
à1,
lescodages
différant par lesvaleurs bj
et cjadoptées.
L’analyse
descorrespondances
du tableau dédoublé associé est doncéquiva-
lente à l’A.C.P. de
X,
lamétrique
dansRJ dépendant
ducodage adopté
et étantdéfinie par
(5)
et(7).
Le choix du
codage
semble doncéquivalent
au choix descoefficients qj
de la
métrique.
Nous verrons en fait que ce n’est pas tout à fait le cas du fait de lareprésentation
desmodalités j+ et j -
de la variable xj(cf § 111.1.3, 2ème remarque).
2022 1 er
codage :
Ce
codage
est défini par :~i~I,~j~J:
Avec ce
codage
asseznaturel,
les valeurs 0 et 1 sont atteintes pourk1(i,j+) (et
donc pourk1(i,j-)).
Le coefficient demétrique qj
s’écrit alorsd’après (4), (7) et (9) :
2022
2ème codage:
Il est donné par :
~i~I, ~j~J:
Ce
codage
estsuggéré
par lecodage
d’un ensemble de notes introduit par A. DUBOIS dans sa thèse(cf [9]),
pour s’abstraire de lafaçon
de noter dechaque sujet, codage
dont leprincipe
estrappelé
au§111.4.2.
Onpeut
noterqu’en général, k2(i,j+)
n’atteint que l’une des deux valeurs 0 ou 1. Le coefficient qj associé s’écritd’après (4), (7)
et(11) :
Remarque :
Posons : 4 =
Max{Aj/j~J}.
Si dans la formule
(11)
onremplace Aj
parA,
lecoefficient
devientindépendant de j. L’analyse
descorrespondances
du tableauk21 J’
est alorséquivalente (au
coefficient1/ (pA2) près)
à l’A.C.P. sur matrice variance du tableau X.40 P. CAZES
2022
3ème codage :
Il est défini par :
~i~I, ~j~J :
Ce
codage
a été introduit par B. ESCOFIER(cf [10])
pouranalyser conjoin-
tement des variables
qualitatives
etquantitatives.
Onpeut
noter que contrairementaux
codages précédents,
onpeut
obtenir des valeurs extérieures à l’intervalle[0,1],
et en
particulier
des valeursnégatives,
cequi
n’est pasgênant
au niveau de l’ana-lyse
descorrespondances
du tableauk3IJ’, compte
tenu de ce que tous les éléments de marge sont strictementpositifs.
Lecoefficient
valant1/(p03C32j),cette analyse
est
équivalente (au
facteur1/p près)
à l’A.C.P. sur matrice de corrélation du tableau X.2022
4ème codage
Contrairement aux
codages précédents,
cecodage
n’est valable que si la variable xi estpositive.
Il est défini par :VICI, Vjej :
Le
coefficient
associé s’écrit :111.1 .2
Comparaison
descodages précédents
Les
codages précédents
reviennent à normaliser la variable xjpuis
à associerà la variable
normalisée j +,
lavariable j -
obtenue endédoublant j+
parrapport
à 1. Onpeut
remarquer, encomparant
les coefficients qj, que cescodages
introduisent ladispersion
de la variable xi defaçon
différente. Les deuxpremiers codages
sefondent sur l’écart entre la
moyenne x j
et les valeurs extrêmes mj etMj.
Onpeut
noter que ces deuxcodages
sontidentiques
siXj
est à mi-distance de mj etMj.
Le troisièmecodage
se fonde surl’écart-type,
tandis que le derniercodage (où
la variable x j estsupposée positive)
estéquivalent
aupremier
à condition deremplacer mj
par la valeur nulle(qui
est une borne de xj, pas forcément atteintesur l’échantillon 1
considéré).
Une autre
comparaison
de cescodages
est donnéeau §
111.3 àpartir
de lanotion de
codage barycentrique.
III.1.3
Remarques
1)
Dans le cas où l’on a un ensemble de notes, si ajdésigne
la valeurmaximale
possible
pour la note xj(valeur
pas forcémentatteinte)
onpeut
dans lequatrième codage remplacer Mj
par aj(de
la mêmefaçon
que dans cecodage,
on a par
rapport
aupremier codage remplacé
la valeur minimale mj par la valeur minimalepossible
à savoirzéro).
2)
Si la variable xj neprend
que les valeurs 0 ou 1(auquel
cas mj =0, Mj
=1),
lepremier
et lequatrième codage
sontidentiques.
Si donc toutesles variables sont
binaires,
les tableauxkl
etk4
sontidentiques
etcorrespondent
au dédoublement
classique
du tableau X. On sait alors(cf [7])
quel’analyse
descorrespondances
du tableaukl (ou k4)
estéquivalente
à l’A.C.P. sur matrice de corrélation du tableauX,
ce que l’onpeut
vérifier immédiatement àpartir
de(10) compte
tenu de ce que(xj-mj)(mj-xj) = xj(1-xj) qui
n’est autre,puisque
l’ona des données 0-1 que la variance
al
de xj. On obtient donc le même coefficient qj pour lescodages 1,
3 et4,
et donc les mêmesreprésentations
pour l’ensemble I.Par contre les
représentations de j +
etde j -
ne sont pasidentiques
dansl’analyse
de
kl (ou k4)
et dans celle dek3.
Defaçon précise,
soit rj03B1 la corrélation entre la variable xj et le facteur a dans l’A.C.P. sur matrice de corrélation de X. Alors dansl’analyse
descorrespondances
du tableaukl,
lespoints j +et j -
sontreprésentés
sur le
aème
axe factoriel par despoints
dont l’abscisse est donnée(cf [7])
par : tandis que dansl’analyse
descorrespondances
du tableauk3,
lesreprésentations
associées sont données
(cf [10])
par :3)
Dansl’analyse
descorrespondances
des tableauxkm(m
=1, 4)
tous lesindividus ont le même
poids 1 /n ;
de même lepoids
dechaque
variable xi(qui
estla somme des
poids de j +
etde j -)
estégal
à1 / p
et nedépend
donc pasde j.
Si on veut donner un
poids
pi(E
pi =1)
àchaque
individuz,
et unepondération
pj à
chaque
variable xi(E
pj =1)
il suffit de considérer lecodage plus général
suivant défini par :
L’expression (6)
du coefficient demétrique qj
doit alors êtreremplacée
parl’expression
suivante :42 P. CAZES
Dans les cas
qui
nousintéressent, dj
= d =1,
et donc qj s’écrit :Tous les résultats établis
précédemment
restent valables à condition de calculer la varianceu 3 2
en affectant despoids
pi àchaque
observationi,
comme on l’a faitpour le calcul de la moyenne
fi j .
III.2
Codage
de xj suivant troismodalités j -, j
=et j +
Ce
codage
estinspiré
ducodage
d’un ensemble de notes suivant une formule tenantcompte
de lafaçon
de noter dechaque sujet, codage
introduit par P.LOSLEVER et alt.
(cf [12])
et par T. BEHRAKIS et alt.(cf [3])
et dont leprincipe
est
rappelé
au§
111.4.3.Ce
codage
seprésente
ici sous la forme suivante : Sixij xj :
Ce
codage
vérifie les deuxpropriétés
suivantes :Ces relations faciles à vérifier traduisent
simplement
le fait que lebarycentre
de
mj, x j
etMj
affectésrespectivement
des massesk(i,j-), k (i, j =)
etk(i,j +)
est xij.
Remarque :
Lecodage précédent
revient à recadrer la variable xi entre -1 et +1en
posant yij = - k(i,j -)
si Xijxj
et yij =k(i,j +)
sixij ~ xj, puis
à éclateryij suivant les trois
modalités j -, j
=et j +
enposant :
III.3
Codage barycentrique
de xj en r modalitésCe
codage
est uncodage
linéaire par morceaux. Tous lescodages
examinésprécédemment
sont des casparticuliers
ou des variantes de cecodage
dontle
principe
est le suivant : on se donne rpivots,
i.e. r valeurstl, t2,
...,tr
(tl t2 t3
...tr).
Si(k (i,j1), k (i,j2), ..., k (i,jr)) désigne
lecodage
dexj pour l’individu
i,
on pose :Avec ce
codage,
où auplus
deux des valeursk (i, js )
sont nonnulles,
on a lesrelations,
pour xijappartenant
à l’intervalle[t1, tr]:
relations
qui généralisent
les formules(18)
etqui
traduisent le fait que Xij est lebarycentre
despoints ts
affectés des masses k(i,js).
Tous les
codages
définisau §
111.1.1(sauf
letroisième)
sont des casparticuliers
de cecodage quand
l’on a deuxpivots,
cespivots
étantrespectivement
donnés par
tl
=mi, t2
=Mj
pour lepremier codage, ti = xj - Aj, t2 = ’7j + Aj
pour le
deuxième, tl
=0, t2
=Mj
pour lequatrième.
Le troisièmecodage
esttrès voisin d’un
codage barycentrique :
ilcorrespond
auxpivots
tl =xj -
03C3j,t2 = X j
+ 03C3j , et estidentique
à cecodage
entretl
ett2.
Par contre, à l’extérieur de(tl, t2)
il endiffère, k(i,j+)
n’étant paségal
à 0(resp. 1)
si xij estplus petit
que ti
(resp. plus grand
quet2).
Onpeut
du reste noter que cecodage
vérifie(19) quelle
que soit la valeur de xij. En fait cecodage
cesse d’êtrebarycentrique quand k(i,j+)
etk(i,j-)
sortent de l’intervalle(0,1).
Onpourrait
se ramener aucodage barycentrique
enposant k(i,j+)
= 1 si xij >xj
+ 03C3j , etk(i,j+)
= 0 siXij
xj -
03C3j ,k(i,j+)
restant donné par(13) quand
xij estcompris
entreXj - (Tj
et
Xj
+ 03C3j,k(i,j-)
étant bien sûr dans tous les caségal
à 1 -k(i,j+).
Le
codage
en trois modalitésdu §
111.2 estégalement
un casparticulier
ducodage barycentrique
avec troispivots
définis partl
=mj, t2 = xj, t3
=Mj.
Cecodage peut
être considéré comme dérivant dupremier codage
à deux modalitésen
rajoutant
lepivot
intermédiairexj,
cequi permet d’envisager
immédiatement d’autrescodages
enrajoutant
aux trois autrescodages
à deux modalités cepivot
intermédiaire
xj.
L’introduction de ce
codage barycentrique permet
donc de comparer aisémenttous les
codages
introduitsauparavant.
44 P. CAZES
Remarque :
On trouve dans GALLEGO(cf [11])
d’autrestypes
decodages flous,
et en
particulier
une modification ducodage barycentrique (que
GALLEGOappelle semi-linéaire)
rendantinjectif
cecodage
pour les valeursde xj
extérieures à l’intervalle[tl, tr]
défini par lespivots
extrêmes.III.4 Cas d’un ensemble de notes III.4.1 Introduction
On suppose ici que l’ensemble J des variables est un ensemble de notes.
L’analyse
du tableau individus x notes fait souvent ressortir descaractéristiques
propres à la notation des individus. Suivant le
sujet considéré,
la notationpeut
êtresévère, indulgente,
avec uneplage
de variationplus
ou moinsgrande.
Pours’affranchir de
l’équation personnelle
dechaque individu,
onpeut
considérer lescodages suivants, analogues
à ceux donnésprécédemment,
mais où les calculs de moyenne,maximum,
minimum etc... se font pourchaque
individu sur l’ensembledes notes. On supposera que la
plage
de variation dechaque
note est la même0-a
(par exemple
0-20 ou0-10,
ou encore0-1) quitte
à affecter le cas échéant despondérations
à certaines notes(cf Remarque
3du § 111.1.3.).
On posera avec des notations
analogues
à celles définies par(8) :
///.4.2
Codage
de xj suivant deuxmodalités j+ et j -
Nous allons
présenter
troiscodages qui
sont lesanalogues
descodages 1,
2 et4
présentés
au§
III.1.1 mais où il faut intervertir les rôlesjoués
par les indices i etj. Ces codages
reviennent à définir un tableau de basek0IJ
dont le termegénéral k0(i,j)
est de la forme ci +bixij,
et à le dédoubler parrapport
à1,
ciet bi
étantdes coefficients
dépendant
ducodage adopté.
L’analyse
descorrespondances
du tableau dédoublé est doncéquivalente
àl’A.C.P. du tableau
ko,
lamétrique
étant donnée par(3) (où dj
=1,
D =p),
maiselle n’est
plus équivalente
à l’A.C.P. de X avec unemétrique adéquate,
commec’était le cas au
§
111.1.2022 1er
codage :
Il est défini par :
VICI, ~j~J :
Le
codage j+
ramène l’intervalle de notation dusujet
i à l’intervalle0-1,
les extrémités 0 et 1 étantatteintes,
lecodage j - correspondant
au dédoublementclassique.
2022
2ème codage :
Il est défini par :
~2~I, ~j~J:
Ce
codage
a été utilisé comme on l’adéjà
dit par A. DUBOIS dans sa thèse pouranalyser
les résultats d’uneenquête
relative àl’opinion
des usagers sur les services offerts par lescompagnies
aériennes(chaque
passager interviewé accordantune note de 1
(très médiocre)
à 5(très bien)
à une dizaine deservices).
*
3ème codage :
Il est défini par :
~i~I, ~j~J :
C’est
l’analogue
duquatrième codage proposé
au§
111.1.1.Remarque :
On nepeut
utiliserl’analogue
du troisièmecodage
donné au§ 111.1.1,
car il
peut
conduire à des éléments de margenégatifs.
III.4.3
Codage
de xj suivant troismodalités j -, j =, j +
Ce
codage
dont on adéjà parlé (cf § 111.2)
semble être leplus
utiliséactuellement. Il revient à recadrer la variable xi entre -1 et
+1, puis
à éclaterla variable ainsi recadrée et que nous
appellerons
yj, en troismodalités j -, j = et j +.
La
variable
est définie par :~i~I, VjE J :
Le
codage
seprésente
alors sous la forme suivante :46 P. CAZES
Ce
codage
vérifie les relations(18) (où
il fautremplacer
mj,xj,
etMj
par mi, ii et
Mi respectivement),
relationstraduisant, rappelons-le,
le fait que lebarycentre
demi, xi
etMi
affectésrespectivement
des massesk(i,j-), k (i, j =)et k(i,j+)
est xij.Ce
codage
a notamment étéemployé
pour traiter des données relatives à la notation de 0 à 10 d’hommespolitiques
grecs(cf [3]),
pour étudier unquestionnaire ergonomique
relatif àl’appréciation
desréglages
d’unposte
de travail(cf [12])
ainsique pour
analyser
lesréponses (sous
forme denotes)
d’étudiants à unquestionnaire
relatif à leur mémoire de recherche
(cf [13]).
Remarques : 1)
Onpeut
àpartir
de la variable recadrée entre -1 et 1 yj l’éclater en trois modalités suivant lecodage
défini au§ 111.2,
moyenne, minimum et maximum étant calculés sur yj(et
nonplus
surxi );
cequi correspond après
avoir recadré xjen
ligne
à la recadrer encolonne,
et à éclater le résultat en trois modalités que nousnoterons j , j ~et j
> pour lesdistinguer
de celles définies par(24).
L’intérêt dece double
recadrage
est deproduire
desnotes j
>et j équilibrées qu’il s’agisse
d’une
matière j généralement
bien ou mal notée(alors
que lamodalité j - (resp j +)
définie par(24)
est d’autantplus
lourdeque j
est mal(resp. bien) notée).
Ce double
recadrage
a enparticulier
étéutilisé, conjointement
avec lerecadrage simple,
dansl’enquête
sur les mémoires de recherche mentionnée ci-dessus.2)
Des programmespermettant
d’effectuer facilement lecodage (24)
ainsique le
codage barycentrique,
et donc tous lescodages présentés précédemment
sont donnés dans BENZECRI
(cf [5], [6]).
III.5
Codage
àpartir
des rangs III.S .1Codage
variable par variableLe
codage
par rangs est souvent utiliséquand
on veut obtenir un traitementrobuste des données non
perturbé
enparticulier
par des valeurs extrêmesqui peuvent
être aberrantes ou avoirtrop
depoids
dans lesanalyses. Rappelons
quece
codage
revient àremplacer
la valeur xij de la variable xj pour l’individu i parson rang rij dans la suite ordonnée par valeurs croissantes des xij
(i
=1, n).
Les rij
(1
in)
constituent alors unepermutation
des entiers de 1 àn. On
peut appliquer
àpartir
des rij soit lescodages des §§
111.1 et111.2,
soit lescodages
du§
111.4 en considérant alors les rangs comme des notes. Dans lepremier
cas, les formules utilisées aux
§§
111.1 et 111.2 sesimplifient.
Eneffet, gardant
desnotations
analogues
à(8),
mais où xij estremplacé
par rij, on a :Toutes ces
quantités
étantindépendantes de j,
il en est de même des coefficients demétrique qj
associés à l’un desquatre codages
définis au§
111.1.1.L’analyse
descorrespondances
du tableaukmIJ’(m
=1, 4) associé
à l’un de cesquatre codages
est doncéquivalente
à l’A.C.P. sur matrice variance du tableau R des rangs rij. Lesquatre codages
sont doncéquivalents.
III.5.2 Cas de
l’analyse
despréférences
Dans ce cas,
chaque
individu i classe les variablesqui
sont des critères de 1 à p.Chaque ligne
Xij( j
=1, p) constitue
donc unepermutation
des entiers 1 à p. Lesquantités
mi,Xi, Mi
etAi
sontindépendantes
dei(mi
=1, Mi
=p, xi
=(p
+1)/2, Ai
=(p - 1)/2) .
Les transformations liées aux troiscodages (21), (22)
et
(23)
sont doncindépendantes
dei,
cequi implique
que dans ce cas,l’analyse
des
correspondances
du tableau associé à l’un de cescodages
estéquivalente
àl’A.C.P. du tableau X avec une
métrique appropriée (en effet,
on a pour chacun de cescodages
une transformationqui
est donnée par(1)
et(4) avec dj
=1,
lescoefficients
bj
et cj nedépendant
pas dej,
cequi permet d’appliquer
les résultatsdu § II).
De
façon précise,
les deuxcodages (21)
et(22)
sontidentiques (puisque Ai
est
équidistant
de mi etMi )
le coefficient demétrique qj
associé s’écrivant :tandis que le coefficient de
métrique
associé aucodage (23)
est donné par :Ces coefficients sont à comparer avec ceux donnés au
§
111.1.1(formules (10), (12)
et(15)) quand
onadopte
lescodages
définis dans ceparagraphe. Comparons
par
exemple (10)
et(25).
On voit que(10)
estidentique
à(25)
si les valeurs mj etMj atteignent
leurborne,
à savoir 1 et p, cequi signifie qu’il
existe au moins deuxindividus i
et i’
tels que i classe lecritère j
enpremier, i’
le classant en dernier.S’il en est
ainsi,
lescodages (9), (11), (21)
et(22)
sontidentiques.
De même(15)
et
(26)
sontidentiques,
siMj
= p, i.e. s’il existe au moins un individu i classantj
endernier, auquel
cas lescodages (14)
et(23)
sontidentiques.
48 P. CAZES
On
peut
noter que lecodage (21)
revient en fait à faire aller les rangs de 0 à p -1, puis
à effectuer un dédoublement àpartir
de la valeur maximalep - 1,
tandisqu’avec
lecodage (23)
on considère les rangs de 1 à p, et on dédouble parrapport
à p. Usuellement on considère les rangs de 1 à p, et on dédouble parrapport
à p +1,
cequi correspond
à un coefficient demétrique qj égal
à(pxj(p+1 -xj))-1
(cf [2b], [2c], [7]).
IV
Codage
flou associé à uncodage disjonctif complet
Il arrive souvent
qu’on
divise une variablequantitative
xi en un nombre de classes suffisant pour que cela ait un sens, et ceci même si on a un nombre d’individus relativement faible. Pour quel’analyse
ne soit pastrop
sensible à cedécoupage
et à cepetit
nombred’individus,
onpeut
àpartir
ducodage disjonctif complet correspondant
définir uncodage
flou. Onramène,
ainsiqu’il
estexpliqué ci-après,
uncodage disjonctif complet
à 2r - 1(ou
2r -2)
modalités à uncodage
flou à r
modalités,
cequi permet
de stabiliser lesanalyses
où interviennent la variable x j .Désignons par il, j2, ..., js (s
= 2r - 1 ou 2r -2)
les modalités(ordonnées)
associées au
codage disjonctif complet
de xi etpar k (i, j,)
la valeur de cecodage
pour l’individu i et la
modalité jm (1 ~ m ~ s) (k(i,jm)
= 1 si i tombe dans latranche jm ,0 sinon).
Désignons
de mêmepar j’1, j2,
...,j’ les
modalités ducodage
flou associé et park’(i,j’m)(1 ~ m ~ r)
la valeur de cecodage
pour l’individu i et la modalitéj’m.
Cecodage
est défini de lafaçon
suivante :Vm:
Vm:
La
correspondance
entre les deuxcodages
est donnée dans le tableau 1 dans le casparticulier
d’une variabledécoupée
en s = 7tranches, auquel
cas on a r = 4modalités pour le
codage
flou.TABLEAU 1
Ce tableau se lit de la
façon
suivante : si un individu i tombe dans la tranchejt,
lecodage
flou associé est donné dans la colonnecorrespondant
àjt.
Ce
codage qui
est maintenant très usité a été utilisé pour lapremière
fois par S. CHAIEB(cf [8])
dans une étudepharmacocinétique.
Une variante de cecodage, plus précise
et utilisantl’histogramme
de la variable àcoder,
a été réalisée par A. SKALLI(cf [14])
dans une étudeportant
sur lespropriétés
olfactives des deuxenanthiomorphes
de l’a ionone.De
façon plus générale,
onpeut (cf [3bis])
ramener uncodage disjonctif complet
à s =u(r - 1)
+ 1 modalités à uncodage
flou à rmodalités, u
étant unentier
supérieur
ouégal
à 2.Gardant des notations
analogues
à cellesqui
viennent d’êtreutilisées,
cecodage
est défini de lafaçon
suivante :Le tableau
2, analogue
au tableau1,
donne lacorrespondance
entre les deuxcodages
dans le cas où s =7, u
= r = 3.TABLEAU 2
Le
codage précédent
est en fait uncodage barycentrique (cf § III 3) ayant
pourpivots : tel
=1, t2
=1+u,...,tm
=1+(m-1)u,..., tr
=1+(r-1)
u=s;codage barycentrique
effectué non sur la variable initialexj,mais
sur lavariable prenant
la valeur m
(1 ~
m ~s)
pour une observation tombant dans lamème
tranchejm
de xj. Cette
façon de
voirpermet
de ramener uncodage disjonctif complet
à smodalités ordonnées à un
codage
flou à r modalités avec r et squelconques (2 r ~ s);
il suffit d’effectuer uncodage barycentrique
à r modalités sur la variablezj
considéréeci-dessus,
avec pourpivots : ti
=1, t2
= 1 +(s - 1)/(r - 1),
...,tm
= 1 +(m - 1)(s - 1)/(r - 1), ..., tr
= s.50 P. CAZES
V Fenêtre
glissante
Quand
ondécoupe
une variablequantitative xj
en classes pour effectuer uncodage disjonctif complet,
on se heurte auproblème
suivant :- ou bien on
effectue,
pour ne pasperdre trop
d’information uncodage
fin
comportant beaucoup
de classes de faibleamplitude,
mais onrisque
d’avoir des résultats instables et peu
reproductibles
du fait de classes d’effectif très faible.- ou bien on effectue un
découpage grossier
en un nombre de tranches relativementrestreint,
ces tranches étant degrande amplitude auquel
cason
perd beaucoup
d’information.Pour éviter ces
écueils,
onpeut
effectuerplusieurs découpages
sur cettevariable,
enchangeant
les limites des classes d’undécoupage
àl’autre,
le nombrede
classes,
pastrop grand,
étant engénéral
le même pourchaque découpage.
Onpeut prendre
des classes de mêmeamplitude (à part
les classes extrêmes biensûr)
que l’on décale d’une même
quantité
d’undécoupage
au suivant. Toutes cesclasses,
àpart
lesextrêmes,
constituent lespositions
successives d’une fenêtreglissante
delongueur
fixée. Onpeut
aussiprendre
une fenêtreglissante
d’effectif constant(i.e.
contenant un nombre donné
d’individus)
et définir ledécalage
de celle-ci par le nombre d’individusqu’elle perd
àgauche
et celuiqu’elle
gagne à droite.Si on a s
découpages
et siJq (1 ~ q ~ s) désigne
l’ensemble des classes associé auqieme découpage,
la variable xi est caractérisée par scodages disjonctifs complets
sur l’ensemble J = U{ Jq /q
=1,s}.
Cette
technique
a enparticulier
été utilisée par C. ARBACHE(cf [1])
dansune étude où il
s’agissait d’expliquer
leprix
de vente d’un bien(un appartement
parexemple)
en fonction d’un certain nombre decaractéristiques
de ce bien.Pour effectuer cette étude C. ARBACHE a
classiquement découpé
en tranchestoutes les variables et construit le tableau croisant variable à
expliquer
et variablesexplicatives.
C’est au niveau de la variable àexpliquer qu’il
aappliqué
latechnique
de la fenêtreglissante,
croisant ainsi l’ensemble des modalités de tousles
découpages
de cette variable(5 découpages
en 7tranches,
soit 35 modalités enl’occurence)
avec l’ensemble des modalités des variablesexplicatives.
Remerciements
L’auteur remercie le Professeur J.P. BENZECRI et G. CELEUX pour avoir relu son article et effectué des
suggestions
pour l’améliorer.Bibliographie
[1] ARBACHE,
Ch.(1985):
L’évaluation duprix
de biens durables d’uneespèce
donnée
[BIEN DURABLE], C.A.D.,
Vol. X n°4,
pp. 401-411.[2] BASTIN, C., BENZECRI, J.P., BOURGARIT, C., CAZES,
P.( 1980) : Pratique
de
l’analyse
desdonnées,
Vol. 2 :Abrégé théorique -
Etudes de cas modèle :a)
V n° 1 et 2 :Analyse
etrecodage
d’un tableau de notes dédoublé.b)
V n° 7 :Codage
etanalyse
despréférences.
c)
V n° 8 :Représentation géométrique
despréférences
et tableaux decorrespondance.
[3] BEHRAKIS, T., NICOLACOPOULOS,
I.(1988) : Analyse
desréponses
de2 000 électeurs à un thermomètre de
sympathie
vis à vis depersonnalités politiques
grecques[POLIT. GREC.], C.A.D.,
Vol XIII n°2,
pp. 233-238.[3bis] BENJELLOUN,
A.(1990) :
Thèse dedoctorat,
Un. de ParisVI, à paraître.
[4] BENZECRI,
J.P.(1989) :
Essaid’analyse
des notes attribuées par un ensemble desujets
aux mots d’une liste[NOTES MOTS], C.A.D.,
Vol. XIV n°1,
pp.73-98.
[5] BENZECRI,
J.P. et F.(1989) :
Lecodage
linéaire par morceaux : réalisationet
applications [CODAGE LIN.], C.A.D.,
Vol XIV n°2,
pp. 203-210.[6] BENZECRI,
J.P. etF.(1989) : Codage
linéaire par morceaux etéquation personnelle [EQ. PERS.], C.A.D.,
Vol XIV n°3,
pp. 331-336.[7] CAZES,
P.(1972) :
Etude du dédoublement enanalyse
descorrespondances.
Note du Laboratoire de
Statistique,
Un. de Paris VI.[8] CHAIEB,
S.(1984) :
Variation de la concentrationplasmatique
d’une substanceau cours d’une
perfusion
etaprès
celle-ci : cas du dinitrated’isosorbide,
[CONCENTRATION DNIS], C.A.D.,
Vol IX n°1,
pp. 43-58.[9] DUBOIS,
A.(1984): Applications
del’analyse
factorielle descorrespondances
à l’étude d’une
enquête
relative autransport aérien,
Thèse de 3èmecycle,
Un.de Paris VI.
[10] ESCOFIER,
B.(1979) :
Traitement simultané de variablesqualitatives
et quan- titatives enanalyse
factorielle[QUALITATIVES
ETQUANTITATIVES],
C.A.D.,
Vol IV n°2,
pp. 137-146.[11] GALLEGO,
F.J.(1982) : Codage
flou enanalyse
descorrespondances [COD.
FLOU], C.A.D.,
Vol VII n°4,
pp. 413-430.[12] LOSLEVER, P., GUERRAT, T.M., ROGER,
D.(1988) : Analyse
des ques- tionnaires energonomie : l’appréciation
desréglages
d’unposte
de travail[ERGO. REGLAGES],
C.A.D. Vol XIII n°2,
pp. 175-196.[13]
MC GIBBONTAYLOR, B., LEDUC, P., TIBEIRO,
J.S.(1989) : Analyse
desréponses
des étudiants à unquestionnaire
relatif au mémoire de recherche de la maitrise en administration des affaires[QUEST.
MEM.RECH.], C.A.D.,
Vol XIV n°
3,
pp. 337-346.[14] SKALLI,
A.(1986):
Etude despropriétés
olfactives des deuxenanthiomorphes
de l’03B1 -