R EVUE DE STATISTIQUE APPLIQUÉE
H. B ENHADDA
F. M ARCOTORCHINO
Introduction à la similarité régularisée en analyse relationnelle
Revue de statistique appliquée, tome 46, n
o1 (1998), p. 45-69
<http://www.numdam.org/item?id=RSA_1998__46_1_45_0>
© Société française de statistique, 1998, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les condi- tions générales d’utilisation (http://www.numdam.org/conditions). Toute uti- lisation commerciale ou impression systématique est constitutive d’une in- fraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
INTRODUCTION À LA SIMILARITÉ RÉGULARISÉE
EN ANALYSE RELATIONNELLE
H.
Benhadda,
F. MarcotorchinoCentre
européen
deMathématiques Appliquées,
ECAM-IBM, 68-76 Quai de laRapée,
75592Paris cedex 12
RÉSUMÉ
Cet article, dans la droite
ligne
des travaux faits surl’analyse
relationnelledepuis
cesquinze
dernières années,présente
une nouvelleapproche,
diterégularisée,
dans lafaçon
deconsidérer la similarité (ou mesure
d’affinité)
entre les individus d’unepopulation
à classifier.Le
principe
de cetterégularisation
estgénéral,
carapplicable
à des données dont les variablesdescriptives
sont de typequelconque.
Nous nous restreindrons ici à
l’application
de ceprincipe
dans le cas où les variablesdescriptives
sont de typequalitatif.
Mots-clés :
Classification, analyse
relationnelle, similaritérégularisée,
variablesqualitatives.
AB STRACT
In this paper, we present a new
approach
called"regularised similarity",
related to theworks done on relational
analysis
within the last fifteen years.This
approach
amounts to consider asimilarity
(or measure of association) between individuals of apopulation
to be clustered in a different flexible way thanusually
done.The
principle
of thisregularisation
isgeneral
and suitable to fit data derived from any type of variables.We limit our paper to the
application
of theregularised similarity
in the case where thevariables are of
categorical
type.Keywords : Clustering,
relationalanalysis, regularised similarity, categorical
variables.1. Introduction
Classifierl
un ensemble 2’ de n individus décrits par un ensemble V de mvariables,
revient àpartager
cet ensemble en groupeshomogènes,
où à l’intérieur dechaque
groupe les individus sontplus « similaires »
entre eux,qu’ils
ne le sont auxéléments des autres groupes.
1 Dans le sens d’un partitionnement de cet ensemble.
Cette
similarité,
entre deux individus donnés deZ,
seprésente
leplus
souventsous la forme d’un «indice de similarité»
global2 prenant
ses valeurs dans l’inter- valle[0,1],
mais il est rarement fait référence defaçon explicite
à leur similarité«unitaire» 3
Or,
quesignifie
«être similaire»lorsqu’on
s’intéresse à une seule variable?Cette
approche, jouant
sur la similaritéunitaire,
a été entrevue et étudiée parun certain nombre d’auteurs dont
Anderberg [1],
Goodall[9],
etplus
récemmentMilioli
[22].
Goodall,
faisantl’hypothèse
restrictived’indépendance
desvariables, après
avoir défini la similarité entre deux modalités d’une même variable
Vk,
a défini lasimilarité entre deux individus i
et i’ par rapport
à cette variable comme lecomplément
à 1 de la
probabilité
que deux individuspris
au hasardaient,
pour cettevariable,
deux modalités dont la similarité estplus grande
ouégale
à celle de lapaire
observée.Anderberg quant
àlui, partant
de l’idée que des modalités rares d’une variable doivent avoir despoids plus importants
que ceux des modalitésplus
courantes a définideux indices de similarité comme fonctions inverses de la
probabilité
de concordance parrapport
à une modalité donnée.Milioli,
dans l’article citéci-dessus,
traitant le casparticulier
où l’ensemble des variables est unquestionnaire,
aproposé
depondérer
laconcordance par
rapport
à unequestion
par le nombre de modalités de cettequestion
divisé par le nombre total de modalités de toutes les variables.
Partant de l’idée intuitive que
plus
le nombre de modalités d’une variable estgrand,
moins il estprobable
que deux individuspris
au hasard dans lpossèdent
lamême modalité de cette
variable,
etaprès
avoir défini une similarité unitaireappelée
«similarité unitaire
logique»,
nous définirons deux nouveauxtypes
de similarité dites«similarités
régularisées».
Ces nouvelles similarités seront déduites de la similarité
logique
parpondération
de cette dernière par des coefficients
adéquats,
dans le but deprendre
encompte
lesdisparités
entre les nombres de modalités des variables d’unepart
et des effectifs deces modalités d’autre part.
Nous noterons de
façon générique sk
la similarité unitaire parrapport
à une variableVk
et nous donnerons danschaque
cas sonexpression
relationnelle et,quand
cela est
nécessaire,
sonexpression vectorielle4 .
La similarité
«globale»,
que l’on notera s, sera définie comme la somme des similarités «unitaires» parrapport
àchaque
variable :Cette similarité s définie sur l’ensemble Z x T et à valeurs dans l’ensemble des réels
positifs R+
doit vérifier lespropriétés
suivantes :2 C’est-à-dire tenant compte des
profils
des deux individus par rapport à l’ensemble des variables.3 C’est-à-dire par rapport à une seule variable.
4 Expression liée à la forme disjonctive complète de la variable
Vk.
i) (La symétrie)
ii) (L’auto-similarité maximale)
Une autre
façon d’exprimer
cettepropriété
est :A
chaque
mesure de similarité s sera associée une mesure de dissimilarité s,qui
sera définie comme suit :Définition 1 La dissimilarité
globale
sii’ entre deux individus i eti’,
estégale
aucomplément
de leur similarité sii’ à la moyennearithmétique
de leursimilarité propre
sii et si’i’.
L’affectation des individus aux classes de la
partition recherchée,
sera fondée sur la vérification d’une conditionsimple
etintuitive, qu’on appellera «règle
de similaritépositive»,
dont la définition est :Définition 2 On
appellera « règle
de similaritépositive »
entre deux individus i eti’,
la condition :
De
façon formelle,
on définira la similaritérégularisée
comme suit :Définition 3 Une similarité «unitaire»
s k
par rapport à une variable donnéeVk,
sera dite
«régularisée»
si elle est leproduit
d’une similarité initialesk
par uncoefficient 03B1k dépendant
de la structure de cette variable et permettant de «lisser»l’influence
de cette structure :2.
Rappels
Supposons
que nousdisposions
de données relatives à un ensemble 1 de n individus décrits par un ensemble V de m variableshomogènes
detype qualitatif
notées :
V1,..., Vk,..., V m
chacuneayant respectivement :
p1,...,pk,...,pm modalités. Notons p le nombre total de modalités toutes variables confondues :2.1. Le tableau
disjonctif complet
Il est
d’usage
de mettre ces données sous la forme d’un tableau K de dimensions(n x p), appelé
tableaudisjonctif complet,
de termegénéral kij
tel que :si l’individu i
possède
lamodalité j
sinon
(4)
Chaque
marge colonnek.j(j=1,2,...,p)
du tableau Kreprésente
le nombred’individus de l’ensemble l
possédant
lamodalité j :
Chaque
margeligne ki. (i
=1, 2,..., n)
de Kreprésente
le nombre de modalitéspossédées
par l’individu i. Le tableau K a lapropriété
intéressante que toutes ses margeslignes
sontégales5
à m.2.2. Les tableaux relationnels
Les tableaux relationnels sont basés sur le
principe
decomparaisons
parpaires.
Ils croisent l’ensemble Z avec lui même et sont donc de dimensions
(n x n).
2.2.1. Le tableau individuel de Condorcet
Le tableau relationnel noté
Ck,
que l’onappelle
«tableau de Condorcet» associé à la variablequalitative Vk,
est de termegénéral ckii’
tel que :si i et i’ ont la même modalité de
Vk
sinon
(6)
Sous forme vectorielle
ckii’
est donnée parl’équation :
5 En effet, si les variables descriptives sont de type qualitatif et qu’il n’y a pas de données manquantes (ce que nous supposons ici), chaque individu possède une et une seule des modalités de chaque variable.
D’où l’on déduit que la somme des
n2 éléments
du tableau relationnelOk
est :Remarque :
Comme
Vk
est une variablequalitative,
ellecorrespond
à une relationd’équi-
valence. La
propriété
de réflexivité se traduit pour le tableauOk
par la relation :Au tableau
Ck
est associé le tableaucomplémentaire C k
de termegénéral ckii’
tel que :
si i et i’ n’ont pas la même modalité de
Vk
sinon
(11) ( 11 )
S’il
n’y
a pas de donnéesmanquantes,
ce que nous supposerons dans la suite del’exposé,
on a lapropriété
relationnelle suivante :2.2.2. Le tableau
collectif de
CondorcetLe tableau relationnel
collectif6 noté C,
que l’onappelle simplement
«tableaude Condorcet» a pour terme
général
cii’ tel que :cii’ est donc
égal
au nombre de variables pourlesquelles
i et i’partagent
les mêmes modalités.La somme des
n2
éléments du tableau relationnel collectif C est :6 C’est-à-dire relatif à l’ensemble V de toutes les variables
Le tableau relationnel
complémentaire C,
associé au tableauC,
a pour termegénéral
cii’ tel que :cii’ est
égal
au nombre de variables pourlesquelles
i et i’ nepartagent
pas les mêmes modalités.on a donc la
propriété
relationnelleglobale :
Remarque :
De
l’égalité (10)
ondéduit,
par sommation sur les mvariables,
que :3. La similarité
logique
3.1. Similarité unitaire
La similarité unitaire
logique
entre les deux individus i et i’ parrapport
à la variableVk correspondra,
pardéfinition,
aucodage
relationnelCk
de cettevariable,
soit :En utilisant la relation
(7),
l’écriture vectorielle de cette similarité est :Des définitions
(2)
et(17),
on déduit directement lesexpressions 7
relationnelles et vectorielles de la dissimilarité%il
soit :(expression relationnelle) (expression vectorielle)
7
cf.
Marcotorchino [16].3.2. Similarité
globale
La similarité
globale logique
sii’ entre i eti’,
parrapport
à l’ensemble desm
variables,
est par définitionégale
au nombre de variables pourlesquelles
i et i’partagent
les mêmes modalités(cf.
eq.(1)) :
Cette similarité est
nulle, lorsque
lesprofils
des deux individus sont totalementdistincts;
elle estmaximum,
de valeur m(nombre
total devariables), lorsque
lesprofils
des deux individus sontidentiques.
De la même
façon,
la dissimilaritéglobale
est :3.3.
Règle d’affectation
La
règle
de similaritépositive,
dans ce cas, revient à :Ce
qui correspond, d’après l’égalité ( 14),
à larègle
à la« maj orité »
de Condorcet(cf.
Michaud[21]) :
Interprétation :
Deux individus i et i’ seront a
priori8
affectés à la même classe de lapartition
recherchée dès lors que le nombre de variables
qu’ils partagent
estsupérieur
ouégal
à la moitié du nombre total des variables de
départ.
En
conclusion,
la similaritéglobale
associée à la similarité unitairelogique,
estégale
au nombre de concordances entre les deuxprofils
relatifs à i et i’.On retrouve
donc,
sansmodification, l’approche
traditionnelle ducomptage
desoccurrences de concordance de
l’approche
Condorcet.8 En effet, il ne faut pas oublier que le problème général de classification se heurte à la non transitivité par paires (ou effet Condorcet) des similarités.
4. La similarité
statistique
Cette
similarité, qu’on peut qualifier
de«présence-rareté»,
tientcompte
non seulement de la modalitépartagée
par les deuxindividus,
mais aussi du nombre d’individuspossédant
cette modalité dans 1.Plus ces deux individus sont «rares» à
partager
la même modalité deVk, plus
ils sont semblables et vice-versa.
4.1. Similarité unitaire
Si
cki.
est le nombre d’individusayant
la même modalité que l’individu i pour la variableVk :
alors,
la similaritéstatistique
entre les deux individus i eti’,
est telle que : si i et i’ ont la même modalité deVk
sinon
elle s’écrit
aussi,
defaçon plus synthétique,
sous la forme :Une autre écriture relationnelle
plus symétrique
deskii’
est donnée parl’expres-
sion suivante :
Remarque :
D’une
part,
cettesimilarité,
defaçon implicite, fait jouer
un rôle au nombre demodalités9
de la variableVk
à travers la valeur decki. ;
et d’autrepart,
la similarité d’un individu avec lui même n’estplus
une valeur constanteégale
à 1 comme dansle cas
précédent.
En
conclusion, skii’
dans ce cas est bien un indice de«présence-rareté»,
tenantcompte
par son numérateur de laprésence logique
d’une modalité commune à i et i’et par son dénominateur de la rareté de cette modalité.
9 En effet, plus le nombre de modalités de
Vk
est grand, moins les effectifs des modalités ont la chance d’être forts.Il est facile de montrer, dans ce cas, que la
propriété
d’auto-similarité maximale est bien vérifiée. Eneffet,
En utilisant la définition
(2),
on montre que :4.2. Similarité
globale
Dans ce cas, la similarité
globale
entre i et i’ n’est autre que le coefficient de Condorcetpondéré (cf.
Marcotorchino[ 16]) :
Qui peut
s’écrire aussi sous une formeplus symétrique :
La dissimilarité
globale
entre i et i’ est,quant
àelle,
donnée par :Si l’on pose :
,4ii,
= l’ensemble des variables parrapport auxquelles
i et i’ sont en concor-dance :
Aii’
= l’ensemble des variables parrapport auxquelles
i et i’ ne sont pas enconcordance :
hkii’
= la moyenneharmonique
de l’effectif de la modalitépossédée
par i et de l’effectif de la modalitépossédée par i’
par rapport à la variableVk :
hii,
= la moyenneharmonique
des effectifs des modalitéspartagées
par iet i’
sur l’ensemble des variables :
en
particulier,
on a :hii’
= la moyenneharmonique
des effectifs des modalités nonpartagées
par i et i’ sur l’ensemble des variables :hii, ==
la moyenneharmonique
des moyennesharmoniques
des effectifs des modalitéspossédées
par i et des effectifs des modalitéspossédées par i’
sur l’ensembledes variables :
En utilisant la formule
(24)
et la définition(2),
il est facile de montrer que :Des relations
(25), (26)
et de lapropriété
relationnelle(12)
on déduit :et
d’après
leséquations (28)
et(29),
on obtient la relation :Cette formule est à comparer à la formule
(14) correspondant
au cas d’unesimilarité
logique.
Remarque :
Des relations
(15)
et(28),
on déduit que la similaritéstatistique globale
d’unindividu avec lui même est :
La
propriété
d’auto-similarité maximaleimplique
donc :soit
ou ce
qui
estéquivalent :
4.3.
Règle d’affectation
La
règle
de similaritépositive
s’écrit sous la forme :Soit dans ce cas :
d’où :
De ce
fait,
suivant la valeur durapport hii’ ,
cetterègle
seraplus
ou moinshii,
généreuse10
que larègle
à lamajorité
de Condorcet.En
effet,
w si
ii’
>hii’,
larègle
estplus généreuse
que celle de Condorcet.2022 si
ii’ hii’,
larègle
est moinsgénéreuse
que celle de Condorcet.5. La similarité
probabiliste
Cette
similarité,
que l’onpourrait qualifier
de«présence-difficulté»,
tientcompte
de laprobabilité
pour deuxobjets pris
au hasard departager
une variable donnée.Contrairement à la similarité
logique
où «être similaire» pour deuxobjets
parrapport
à une variablequalitative Vk
revient pour eux àpartager
la même modalité de cettevariable, indépendamment
du nombre de modalitésqu’elle possède
et des ef-fectifs de ces
dernières,
cette nouvellesimilarité,
fait intervenir unaspect probabiliste qui
tiendracompte
de la difficultéintrinsèque
pour deuxobjets quelconques, pris
auhasard dans la
population d’origine,
d’être en concordance parrapport
àVk.
En
effet,
il semble intuitif de considérerqu’il
est d’autantplus
difficile à deuxobjets
d’être similaires parrapport
à unevariable 11
que le nombre de modalités de celle-ci estgrand.
Le
principe
de la «similarité unitaire» est alors de tenircompte
par unepondération
dite«régularisée»
de la difficultérelative,
à deux individus d’êtresimilaires,
parrapport
à une variable donnée.En d’autres termes, cette
pondération
cherchera àéquilibrer
le rôle du nombre de modalités dans l’occurrence d’une « concordance » pour ne pas favoriser les variables à peu de modalités parrapport
aux variables àbeaucoup
de modalités.10 Le terme « généreux » ici veut dire que le seuil de comparaison de la similarité régularisée est plus faible
11 que celui de la similarité logique.
11 C’est-à-dire partager la même modalité.
5.1. Similarité unitaire
Si l’on note
8 j
laprobabilité
pour un individu donné i deposséder
lamodalité j
de la variable
Vk alors,
du fait del’indépendance12
desindividus,
laprobabilité
que deux individus i et i’possèdent
unemodalité j
estégale
auproduit
desprobabilités qu’a chaque
individu deposséder
cette modalité.Comme par définition les modalités sont
exclusives,
la concordance de i et i’par
rapport
àVk
nepouvant
se réaliser que sur une et une seule des Pk modalités deVk,
on en déduit que laprobabilité
de concordance 1rk entre i et i’ parrapport
àVk
est :
On définira donc la similarité unitaire
probabiliste (ou
dedifficulté)
entre i et i’ parrapport
à la variableVk
par :5.1.1. Probabilité
théorique
Si l’on considère que les Pk modalités de la variable
Vk
sontéquiprobables,
alors :
d’où, d’après (37) :
5.1.2. Probabilité
empirique
On estime ici la
probabilité
deprésence 03B4j
de lamodalité j
par laproportion
d’individus
possédant
cette modalité :12 En effet, la possession d’une modalité par un individu i n’ influe en rien la possession ou la non possession
de cette modalité par un individu i’.
d’où :
5.2. Similarité
globale probabiliste
La similarité
globale probabiliste
entre deux individus i et il est :En utilisant la définition
(2),
on trouve que la dissimilaritéglobale,
entre i et i’est donnée par la formule suivante :
En utilisant la
propriété
relationnelle(12),
on déduit que :5.2.1. Similarité
globale probabiliste (Cas théorique)
Dans ce cas :
En utilisant les définitions des ensembles
Aii’
etAii’
données en[4.2.]
onobtient :
Si l’on pose :
pii, = la moyenne
harmonique
du nombre de modalités des variablespartagées pari
eti’ :pii’
= la moyenneharmonique
du nombre de modalités des variables nonpartagées
par i et i’ :P = la moyenne
harmonique
des nombres de modalités de toutes les variables :Comme un individu est en concordance avec lui même sur l’ensemble des
variables,
on a enparticulier l’égalité :
L’équation
de la similaritéglobale probabiliste (49)
devient donc :Des relations
(15)
et(50),
on déduit que la similaritéglobale probabiliste
d’unindividu i avec lui même est une constante :
Remarque :
On posera par convention :
Comme
|Aii’| + IAii,1 =
m, on a :Soit :
Remarque :
Cette formule est à
rapprocher
des formules(14)
et(33).
En utilisant la définition
(2)
etd’après
les relations(51)
et(52),
on déduit que la dissimilaritéglobale probabiliste
entre i et i’ est donnée par :Soit :
5.2.2.
Règle d’affectation
La
règle
de la similaritépositive
se traduitalors,
dans le cas de laprobabilité
de concordance
théorique,
par :ou bien par :
Remarque :
Si la
règle
de similaritépositive
est vérifiée pour deux individus i eti’,
onpeut
facilement montrer que la relation
(55) implique
lesinégalités
suivantes :En
résumé,
dans le cas d’uneprobabilité
de concordancethéorique,
larègle
desimilarité
positive,
a)
seraplus généreuse
que larègle
de Condorcet si :soit
b)
seraéquivalente
à larègle
de Condorcet si :c)
sera moinsgénéreuse
que larègle
de Condorcet si :5.2.3. Similarité
globale (Cas empirique)
Dans ce cas, la similarité
globale
est :et la dissimilarité
globale
est :5.2.4.
Règle d’affectation
La
règle
de similaritépositive
sii’ sii’ donne ici :et comme :
La relation
(57) devient,
en utilisant lapropriété
relationnelle(14) :
soit :
En
résumé,
dans le cas d’uneprobabilité
de concordanceempirique,
larègle
desimilarité
positive
sera :a) plus généreuse
que larègle
de Condorcet si :b) équivalente
à larègle
de Condorcet si :c)
moinsgénéreuse
que larègle
de Condorcet si :6. Conclusion
Le
problème (P)
de la classification de lapopulation
T des n individusdans
l’approche
relationnelle consiste à chercher unepartition
deT,
que nousreprésenterons
par une matrice booléenne X de dimensions(n
xn)
et de termegénéral
xii’ tel que :
si i
et i’
sont dans la même classe de X sinonque nous
appellerons
aussiX,
par abus delangage,
etqui
maximisera le critèreC (X)
suivant :
Les indices a et
{3 représentent
letype
de similarité choisi pour la matrice« données » et pour la matrice « solution ».
Ces indices
peuvent
être : l pour la similaritélogique.
r pour la similarité de rareté
(statistique).
p pour la similarité
probabiliste.
En
résumé,
on raisonnera désormais en termes de choix de similarité entre individu et nonplus
en termes de critère declassification,
même si tout critère estimplicitement
relié à untype
de similarité.Grâce à la notion de
régularisation,
ildépendra
désormais de l’utilisateur de fixerl’approche
similaritéqu’il
veut introduire dans le critèrequ’il utilise, compte
tenu du but
qu’il poursuit.
Une fois la similarité par
rapport
aux variablesdescriptives choisie,
il pourra lui associer différentstypes
desimilarité13
pour lapartition
inconnue X.A titre
d’exemple (cf.
Marcotorchino et Benhadda[17]) :
e Si 03B1 =
{3
=l,
c’est-à-direqu’on
cherche à associer une similaritélogique
pour les données avec une similarité
logique
pour lapartition inconnue,
onretrouve le critère de Condorcet
(cf.
Michaud[21]).
e Si a = r et
/3
=l,
c’est-à-direqu’on
cherche à associer une similaritéstatistique
pour les données avec une similaritélogique
pour lapartition inconnue,
on retrouve le critère de Condorcetpondéré (cf.
Marcotorchino[16]).
13 Logique, Statistique ou Probabiliste.
Sous forme
plus synthétique,
leproblème (P)
de la classification relationnelle est :(réflexivité) (symétrie) (transitivité) (binarité)
Remarques :
e Il est à noter que dans
l’approche relationnelle,
iln’y
a pas de fixation apriori
du nombre de classes de la
partition
solution. Ce nombre est donné defaçon automatique
par la méthode.e Pour une étude de la similarité
régularisée
dans le cas où les variables sont detype continu,
sereporter
à[17].
e L’étude de la similarité
régularisée
dans le cas où les variables sont detype fréquentiel
et binaire«présence-absence»
sera traitée dans la thèse de H. Benhadda[4].
En
conclusion, l’approche
«similaritérégularisée»,
outre le faitqu’elle permet
de«corriger»
l’influence de ladisparité
de la structure modalitaire desvariables, permet également
de raisonner nonplus
en termes de critère declassification,
maisen termes «d’association» de
types
de similarité(similarité type
des données versussimilarité
type
de lasolution).
7.
Exemple d’application
Nous donnons ici un
exemple d’application
de la similaritérégularisée
sur desdonnées concernant un ensemble I de
vingt
félins décrits par onze variables. Cetexemple
est extrait de l’article de Marcotorchino et Michaud[19].
Les félins sont
répartis
comme suit :Félins
d’Afrique :
Lion, Léopard, Guépard, Serval, Caracal,
Chat Cafer et Chat Dore.Félins d’Eurasie :
Tigre, Once, Léopard,
PanthèreNébuleuse, Lynx,
Chat deBomeo,
ChatMalais,
Chat duBengale
et Chat de Chine.Félins
d’Amérique :
Jaguar, Puma,
ChatTigrin,
Chat des Andes et Chat Marbré.Ces félins sont décrits par les onze variables
qualitatives
suivantes :V 1= «Grimpe
aux arbres »(1 Oui, 0 : :Non)
V2=
«Chasse à courre ou à l’affût»(1 :Oui, 0 :Non)
V3= «Comportement prédateur» (1 Diurne,
2 :Diume ou nocturne, 3Nocturne) V4=
«Caninesdéveloppées» (1 :Oui,
0:Non)
V5=
«Fourrure»(1
:Poilslongs,
0 :Poilsras)
V6= «Longueur
du corps»(1 :Petite, 2 :Moyenne,
3:Grande) V7=
«Oreilles»(1
:Rondes ouarrondies,
2 :Enpointe) V8=
«Poids»(1 :faible,
2:Moyen,
3:Fort)
V9= «Queue» (1 :Petite,
2:Moyenne,
3:Longue)
VIO=
«Taille augarot» (1 :Petite,
2:Moyenne,
3:Grande)
V11= «Aspect
dupelage» (1
:Sanstaches,
2:Tacheté,
3:Rayé,
4:Marbré)
Les données sont résumées dans la tableau suivant :
7.1. Les
différentes partitions
obtenuesCes
partitions
sont touteslegèrement
différentes les unes des autres, cequi
montre l’influence des coefficients de
régularisation.
Partition
logique
L’utilisation de la similaritélogique
nous donne unepartition
enquatre
classes :Classe 1 :
Bomeo, Dore , Malais, Bengale, Tigrin, Cafer, Marbré, Chine,
Andes.Classe 2 :
Lynx, Once, Puma, Jaguar, Nébul, Léopard.
Classe 3 :
Serval, Guépard,
Caracal.Classe 4 :
Lion, Tigre.
Partition
probabiliste (cas théorique)
L’utilisation de la similaritéprobabiliste théorique
nous donne unepartition
encinq
classes :Classe 1 :
Bomeo, Dore , Malais, Bengale, Tigrin, Cafer, Marbré, Chine,
Andes.Classe 2 :
Lynx, Once, Puma, Jaguar, Nébul, Léopard.
Classe 3 :
Serval,
Caracal.Classe 4 :
Lion, Tigre.
Classe 5 :
Guépard.
Partition
probabiliste (cas empirique)
L’utilisation de la similaritéprobabiliste empirique
nous donne unepartition
encinq
classes :Classe 1 :
Borneo, Dore , Malais, Bengale, Tigrin, Cafer, Marbré, Chine,
Andes.Classe 2 :
Lion, Tigre, Jaguar, Léopard.
Classe 3 :
Lynx, Once, Puma,
Nébul.Classe 4 :
Serval,
Caracal.Classe 5 :
Guépard.
Partition
statistique
L’utilisation de la similaritéstatistique
nous donne unepartition
en six classes : Classe 1 :
Bomeo, Dore , Malais, Bengale, Tigrin, Cafer, Marbré,
Andes.Classe 2 :
Serval, Caracal, Lynx,
Chine.Classe 3 :
Jaguar, Puma, Léopard.
Classe 4 :
Lion, Tigre.
Classe 5 :
Once,
Nébul.Classe 6 :
Guépard.
7.2. Essai
d’interprétation
Nous remarquons
qu’il
existe dans l’ensemble2’,
relativement aux variables retenues,cinq
classes stables de félins :CI
={Bomeo, Dore , Malais, Bengale, Tigrin, Cafer, Marbré, Andes}.
C2
={Serval, Caracal}.
C3
={Lion, Tigre}.
C4
={Jaguar, Léopard}.
C5 = {Once, Nébul}.
Partition
logique :
Cettepartition
étant obtenue par unsimple comptage
du nombre de variablespartagées
par lesindividus,
a attiré leGuépard
vers la classe stableC2.
C’est le Serval
qui
a été àl’origine
de cette affectation car ilpartage sept
variablessur onze avec le
Guépard.
Cettepartition
est la seule à ne pas isoler leGuépard.
Partition Probabiliste
(cas théorique) :
Cettepartition
aséparé
leGuépard
de laclasse stable
C2
car leGuépard
et le Caracal nepartagent
passept
variables sur onze dont lesplus significatives,
en termes depoids
dans le calcul dessimilarités,
sont les variablesV3, V6, V9, VIO
à trois modalités chacune et la variableV11
àquatre
modalités.Partition Probabiliste
(cas empirique) :
Cettepartition
a réuni les classes stablesC3
etC4
car leTigre
et leLéopard partagent sept
variables sur onze dont lesplus significatives,
en termes depoids
dans le calcul dessimilarités,
sont les variablesVB V2
etV3.
C’est d’ailleurs d’un
point
de vue de la taxinomiezoologique,
cellequi
est laplus significative (cf.
Dorst et Dandelot[8]).
Partition
statistique :
Cettepartition pondérant
fortement les concordances sur des modalités à faibleeffectif,
a attiré le Puma vers la classe stableC4
car le Pumapartage
huit modalités avec leJaguar
dont les modalités deux deV3
et trois deV8 qui
ne sontpossédées
que parcinq
individus chacune dans 2’.Elle a de même réuni le Chine et le
Lynx
car ilspartagent
les modalités deux deV3,
deux deV7
et une deV9.
Ces deux individus ont été attirés vers la classe stableC2
car le Chine et le caracalpartagent
huit modalités dont lesplus significatives,
entermes de
poids
dans le calcul dessimilarités,
sont la modalité deux deV3,
la modalité deux deV7
et la modalité une deV9.
Références
bibliographiques
[1] ANDERBERG M.R.,
Clusteranalysis for application,
AcademicPress,
NewYork,
1973.[2]
BAULIEUF.B.,
A classification ofpresence/absence
baseddissimilarity
coeffi-cients,
Journalof Classification,
vol.6, 1989,
pp. 233-246.[3]
BEDECARRAXC.,
Classification enanalyse
relationnelle : Laquadri-décompo-
sition et ses
application,
Thèse de l’Université ParisVI,
1989.[4]
BENHADDAH.,
La similaritérégularisée
et sesapplications
en classificationautomatique,
Thèse de l’Université de ParisVI,
1998.[5]
BURNABYT.P.,
On a method for characterweighting similarly coefficient, employing
theconcept
ofinformation,
Math.Geol.,
vol.2,
n°1, 1970,
pp. 25-38.[6]
CAILLIEZF.,
PAGESJ.-P.,
Introduction àl’analyse
desdonnées, Paris, Smash,
1976.[7]
DECAESTECKERC., Apprentissage
en classificationconceptuelle incrémentale,
Thèse de l’Université Libre de Bruxelles(Faculté
desSciences),
1992.[8]
DORSTJ.,
DANDELOTP.,
Guide desgrands mammifère d’Afrique, Neuchâtel,
Delachaux et
Niestlé,
1972.[9]
GOODALLD.W.,
A newsimilarity
index based onprobability, Biometrics,
n°22, 1966,
pp. 882-907.[10]
GORDONA.D., Constructing dissimilarity
measures, Journalof Classification,
vol.
7, 1990,
pp. 257-269.[11] GOWER J.-C.,
A note onBurnaby’s
characterweighted similarity coefficient,
Math.Geol.,
vol.2,
n°1, 1970,
pp. 39-45.[12]
GOWERJ.-C.,
Ageneral
coefficient ofsimilarity
and some of itsproperties, Biometrics,
vol.27, 1971,
pp. 857-872.[13]
JOLYS.,
et LECALVÉ G., Similarity functions,
Lecture Notes inStatistics, (In
Van
Cutsem,
B.ed) Springer-Verlag,
vol.93, 1994,
pp. 67-86.[14]
LERMANI.C.,
Construction d’un indice de similarité entreobjets
décrits par des variables d’untype quelconque, application
auproblème
du consensus enclassification
(1),
Revue deStatistique Appliquée,
vol.35,
n°2, 1987,
pp. 39-60.[15]
MARCOTORCHINOF.,
La classificationautomatique aujourd’hui :
bref aperçuhistorique applicatif
etcalculatoire,
PublicationsScientifiques
etTechniques
d’IBM
France,
n°2,
Novembre1991,
pp. 35-93.[16]
MARCOTORCHINOF., L’analyse
factorielle-relationnelle :parties
I etII,
Etudedu
CEMAP,
IBMFrance,
vol. EtudeMAP-03,
décembre 1991.[17]
MARCOTORCHINOF.,
BENHADDAH.,
Introduction à la théoriegénérale
dela similarité
régularisée,
Etude duCEMAP,
IBMFrance,
vol. EtudeMAP-0 11,
Juillet 1996.[18]
MARCOTORCHINOF.,
EL AYOUBIN., Paradigme logique
des écritures re-lationnelles de
quelques
critères fondamentauxd’association,
Revue de Statis-tique Appliquée,
vol.39,
n°2, 1991,
pp. 25-46.[19]
MARCOTORCHINOF.,
MICHAUDP., Agrégation
de similarités en classifica- tionautomatique,
Revue deStatistique Appliquée,
vol.30,
n°2,
1982.[20]
MICHAUDP., Agrégation
à lamajorité
I :hommage
àCondorcet,
Etude du CentreScientifique
IBMFrance,
vol.F051,
1982.[21] MICHAUD P., Hommage
à Condorcet(version intégrale
pour le bicentenaire de l’essai deCondorcet);
Etude du CentreScientifique
IBMFrance,
vol.F.094,
1985.
[22]
MILIOLIM.A.,
Asimilarity
index betweenmultiple
choicecategorical
answersin surveys, In :