R EVUE DE STATISTIQUE APPLIQUÉE
I SRAËL -C ÉSAR L ERMAN P HILIPPE P ETER
Indice probabiliste de vraisemblance du lien entre objets quelconques. Analyse comparative entre deux approches
Revue de statistique appliquée, tome 51, n
o1 (2003), p. 5-35
<http://www.numdam.org/item?id=RSA_2003__51_1_5_0>
© Société française de statistique, 2003, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les condi- tions générales d’utilisation (http://www.numdam.org/conditions). Toute uti- lisation commerciale ou impression systématique est constitutive d’une in- fraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
INDICE PROBABILISTE DE VRAISEMBLANCE
DU LIEN ENTRE OBJETS QUELCONQUES
ANALYSE COMPARATIVE ENTRE DEUX APPROCHES
Israël-César
LERMAN(1), Philippe PETER(2)
(1) Irisa -
Université de Rennes 1,Campus
de Beaulieu, 35042 Rennes Cédex, lerman@irisa . f r(2)
École Polytechnique
de l’Université de Nantes, Site de la Chantrerie, Rue Christian Pauc- B.P. 50609, 44306 Nantes Cédex 3,
ppeter@ireste .
f r StatistiqueAppliquée,
2003,RÉSUMÉ
La méthode AVL
(Analyse
de la Vraisemblance des Liens) estdavantage
connue pour la classification de l’ensemble V des variablesdescriptives
que pour celle d’un ensemble 0d’objets
ou C decatégories
décrits au moyen de V.Cependant
cette méthode permetavec la même
rigueur conceptuelle
d’élaborer une classification ascendantehiérarchique
sur0
(respectivement
sur C) et de fournir des coefficientsd’ « explication »
compte tenu del’organisation
de V. Leproblème
que nous reprenons ici est celui de la construction d’un indice de similaritéprobabiliste
entreobjets
décrits par des variables de typesquelconques.
Plus
précisément,
ils’agit d’analyser
uneapproche
dûe à W.D. Goodall que nousignorions
lors de la
conception
de nos indices et de la situer par rapport à notre méthode d’élaboration.Cette dernière s’avère essentiellement distincte :
plus souple,
trèsgénérale
et tenant compte de lasémantique
des variables. Des résultatsexpérimentaux étayeront
lacomparaison théorique.
Enfin, nous proposerons un
logiciel
HETAVLqui
permet l’établissement d’une matrice d’indicesprobabilistes
entreobjets
décrits par un ensemble de variables de typeshétérogènes
etquelconques.
Mots-clés : Similarité
probabiliste, Classification,
Donnéeshétérogènes
ABSTRACTThe LLA (Likelihood
Linkage Analysis)
(AVL(Analyse
de la Vraisemblance des Liens)) classification method is more known to adress the classificationproblem
of a set V ofdescriptive
variables than that of a set 0 of
elementary objects
or a set C ofcategories
describedby
V. In fact, thisapproach
enables to elaborate an ascendant hierarchical classification on the set 0,respectively
C, with the sameconceptual rigour.
On the other hand, itprovides « explanation »
coefficients
associating
both classifications ondescriptive
variables and on describedobject
set
(respectively,
category set). Theproblem
that we revisit here concems the construction ofa
probabilistic similarity
index betweenobjects
describedby heteregenous
variables. Moreprecisely,
we compare theapproach proposed by
W.D. Goodall with that we consider. Ourapproach
isessentially
different. Itsflexibility,
its extremegenerality
and itsability
tointegrate
the variable structure are
clearly
showed.Experimental
results will assess the theoreticalcomparison. Finally,
we propose a software HETAVL which enables the establishment ofa table of
probabilistic similarity
indices betweenobjects
describedby
a set ofheteregenous
variables.
Keywords :
Probabilisticsimilarity, Classification,
Heteregenous data1. Introduction
La donnée est définie par un ensemble
d’objets
0 décrit par un ensemble V de variables(on
dit encore attributs oucaractères,...)
oùchaque
variableprend
surchaque objet
une valeur. Leproblème général,
considéréici,
est celui de l’élaboration d’un indice de similarité entreobjets.
C’est l’un desproblèmes
lesplus
fondamentauxen classification et
analyse
des données. Laconception
d’un indice de similarité entreobjets dépend
de différents facteursqui
sont liés. Citons :(i)
La nature desvariables; c’est-à-dire,
les structures des échellesdescriptives
sous
jacentes (quantitative-numérique, qualitative-catégorielle
où l’ensemble descatégories
est ou non muni d’une relation d’un typedonné)
(ii)
Lareprésentation mathématique
des variablescompte
tenu de leur nature. Il ya à cet
égard
deuxtypes
dereprésentation :
lareprésentation géométrique qui
est
particulièrement adaptée
au cas où onpeut
« naturellement » se ramener à des variablesnumériques
et lareprésentation
ensembliste et relationnellequi
est la
plus générale
etpermet
dereprésenter
fidèlement les attributsqualitatifs.
(iii)
Laméthodologie
concernée de classification oud’analyse
des données.Pour ce
qui
concerne le troisièmepoint
et relativement à deuxméthodologies
A et
B,
onpeut
chercher à« transporter »
dansB,
un indice de similarité conçu au coeur de A. Cetype
de recherche esttoujours
riched’enseignement. Cependant
il fautnoter que ce
« transport »
est d’autantplus
aisé quel’algorithmique
que suppose B estsimple
dans sonprincipe.
Maisalors,
si tel est le cas, uneconception
au sein de Bpeut
s’avérerplus
libre et doncplus
riche.L’algorithmique
parlaquelle
nous sommesconcernés est celle de la Classification Ascendante
Hiérarchique (CAH).
Elle est dansson
principe
de baseparticulièrement simple.
Cettealgorithmique
sera «habillée»avec la méthode AVL
(Analyse
de la Vraisemblance duLien) qui permettra d’intégrer
et de comparer les indices que nous voulons étudier ici.
En
effet,
lepremier objet
essentiel de cet article est lacomparaison
de deuxindices de similarité
probabiliste
entreobjets
décrits par des variables. Lepremier
estdû à W.D. Goodall
[5]
et lesecond,
conçu tout à faitindépendamment, correspond
àcelui
proposé
dans[15]
et[19].
La structure des données où lepremier type
d’indicepeut
le mieux sejustifier
et secomprendre
est celui où les attributs sontcatégoriels, qualitatifs
nominaux. Ils’agit
d’ailleurs du cas où lacomparaison méthodologique peut
la mieux être mise en évidence.Signalons
que cette structure de la donnée estégalement
considérée dans[2]
où - comme c’est le cas pour notreapproche [ 15-17] -
c’est la
représentation
relationnelle des variablesdescriptives qui
estadoptée
et c’estégalement
ladécomposition
additive de la similaritéglobale
parrapport
aux similaritésunitaires,
variable par variablequi
estprise
encompte. Toutefois,
les indicesproposés
QUELCONQUES dans
[2] appelés
de « Similaritéprobabiliste »
ne sont pas desprobabilités.
Ils restentliés à la manière de calculer une
partition
au moyen d’un programme linéaire souscontrainte en
10 1 11 -
Lorsque
le nombre de variablesaugmente
etlorsque
les structures des échellesdescriptives
deviennent deplus
enplus riches,
l’indice deGoodall,
surtoutexprimé
dans toute sa
rigueur,
montre vite ses limites en termes decomplexité
etd’interpréta-
tion. Notre
approche
s’avèreplus souple,
trèsgénérale
enpermettant
de tenir compte finement de lasémantique
des variables.Au
paragraphe
II nousrappellerons
leprincipe général
de l’AVL. Auparagraphe
III nous montrerons comment AVL traite la classification des
objets
dans le cas deréférence où les variables sont toutes
numériques.
C’est auparagraphe
IV que le casqualitatif
est étudié. Pour bien cerner leproblème
on commence par considérer le cas d’une seule variable avantd’envisager
le casgénéral
deplusieurs
variables. D’autrepart,
nous commencerons parexpliciter l’approche
de Goodall avant derappeler
lanôtre. Enfin nous
préciserons
desaspects applicatifs
liés àl’AVL. Unexemple
illustratif de traitement dedonnées,
par chacun des deuxindices,
via la méthode AVL, estprésenté
auparagraphe
V. Laprise
encompte
des autrestypes
devariables,
en mêmetemps qu’un
programme de calcul d’indices de similaritéprobabiliste
entreobjets
décrits par un
mélange
de variables detypes quelconques (programme HETAVL),
sont
exprimés
auparagraphe
VI. Nous yévoquerons également
la dualité entre la classification desobjets
et celle des variables.2.
Principe
de l’AVLLa méthode AVL
(Analyse
de la Vraisemblance desLiens)
constitue uneapproche
trèsgénérale
dans lareprésentation
des données ou connaissances et l’évaluationnumérique
des ressemblances mutuelles entre variablesdescriptives
et entre
objets, respectivement catégories (concepts),
décrits.L’algorithmique qui
a le
plus supporté
cetteapproche
est celle de la CAH(Classification
AscendanteHiérarchique).
Mais d’autresalgorithmiques
telles que celle de la classification nonhiérarchique [27]
ou celle dupositionnement
multidimensionnel(« multidimensional scaling») [4, 24, 25]
ont pu êtreexpérimentées
avecbeaucoup
d’intérêt.Deux
caractéristiques
fondamentalesdistinguent
l’AVL. D’unepart,
les varia- bles(attributs)
dedescription
sontinterprétées
en termes de relations sur l’ensemble 0 desobjets
et d’autrepart,
les indices de similarité et les critères d’association seréfèrent à une échelle de
probabilité.
Ils reflètent lesdegrés
d’invraisemblance(ou d’étonnement)
de lagrandeur
d’indices formellement « bien » conçus etpouvant
avoirune nature combinatoire ou
métrique.
La méthode AVL est
davantage
connue pour la classification de l’ensemble V des variablesdescriptives (Daudé [3],
Lerman[10,9,11,17,18],
Nicolaü et Bacelar- Nicolaü[1, 26, 28],
Ouali-Allah[29])
que pour la classification de l’ensemble 0 desobjets (Lerman [15],
Lerman et Peter[19, 20]). Cependant,
cette méthodepermet
avec la mêmerigueur conceptuelle
d’élaborer une classification ascendantehiérarchique
sur l’ensemble 0 des
objets (cf.
les dernières référencesci-dessus). S’agissant
icid’un
développement
de ce dernieraspect,
nous allons illustrer leprincipe
de l’AVLdans un cas
simple
et intuitif où il y a une seule variablenumérique
et où donc ils’agit
d’un nuage depoints rectiligne
etdonc,
unidimensionnel.Il
importe
d’avoirpleinement
conscience quel’exigence première
d’une CAHest de nature ordinale. Partant de la
partition
discrète oùchaque
classecomprend
unseul élément de 0 il
s’agit
d’établir un ordre desagrégations qui
faitapparaître
desclasses et des sous classes
composantes qui
sont cohérentes etqui
définissent différents niveaux degénéralisation.
Pour établir un ordrequ’on
souhaiterait leplus judicieux,
des
agrégations,
un critèrenumérique
est nécessaire pour sélectionner àchaque
pas la « meilleure »
agrégation
ou,plus généralement,
leségalement
« meilleures »agrégations.
Ce critère est défini àpartir
d’une notion de dissimilarité entreparties disjointes
de l’ensemble à classifier. Il y a à cetégard
différentstypes
d’indicesdépendant
de lareprésentation mathématique
des unités de données. Tous cesindices
dépendent,
chacun d’une certaine manière de la définition d’un indice de dissimilarité entre éléments de l’ensemble à classifier. Considérons dans le cadre de notreillustration,
l’indice icinaturel,
défini par la distance euclidienne ordinaire etqu’on
notera d. Considérons d’autrepart,
entre deux classes(ou parties disjointes)
CL 1 et Cl2 un des indices de dissimilarité les
plus classiques appelé
le « liensimple » (« single linkage »)
que nous notons03B4(Cl1, Cl2) :
Considérons alors la situation illustrative
annoncée,
matérialisée par lafigure
suivante :
FIGURE 1
Relativement à la
problématique
de la CAH, laquestion posée
est le choix de lapremière
àretenir, parmi
les deux fusions : C ~ C1 V C2 ou D ~ D2 ou D2.Il y a à cet
égard
lieu de tenircompte
de(ii)
les densités des
points
dans D 1 et D2 sont notablementsupérieures
à cellesdans Cl et C2.
Si on
adopte
le critère du « liensimple »
dit encore de la « distance minimale »on sélectionnera d’abord la fusion D ~ Dl V D2. Au
contraire,
le critère de9 QUELCONQUES
l’AVL,
ici de la vraisemblance du lienmaximal,
choisira d’abord la fusion entre CI et C2. Eneffet,
iljugera
parrapport
audegré
d’invraisemblance oud’exceptionnalité
de la
petitesse
de8( CI, C2)
relativement à celle de8(DI, D2),
euégard
à lacomparaison
entre leproduit
des densités despoints
dans(CI, C2)
d’une part, et dans(Dl, D2)
d’autrepart.
Plusformellement,
on associera dans le cadre d’un modèle aléatoired’indépendance respectant
les densités despoints
dans lesclasses,
aucouple (CI, C2), respectivement (Dl, D2),
uncouple (Cl*, C2*), respectivement (Dl*, D2*).
La fusion de Cl et C2précèdera
celle de Dl et D2 si03B4(C1, C2)
estplus
invraisemblablementpetit;
c’est à dire siNous pouvons sans difficulté
majeure préciser
un tel modèle et allerjusqu’au
calcul effectif.
Cependant,
cela nouséloignerait trop
de notre propos. Cequ’il
estimportant
de retenir c’est que notreapproche rejoint
laphilosophie
de la théorie del’information;
mais relativement à l’évaluation des liaisons observées.L’analyse
del’exemple
ci-dessuspermet
dedistinguer
lesétapes
suivantes :(i)
Définition d’un indice de dissimilarité entreobjets
décrits tenantcompte
de lasémantique
de l’échelledescriptive qui
est la droite réelle.(ii)
Définition d’un indice brut de dissimilarité entre classescorrespondant
à ladistance minimale
(« single linkage » ).
(ni)
Introduction d’un modèleprobabiliste
d’absence deliaison,
tenantcompte
des tailles des classes.(iv) Comparaison
desdegrés
d’invraisemblance despetitesses
de03B4(C1, C2)
et8(D1, D2) :
Comp{Prob[03B4(C*1, C*2) 03B4(C1,C2)], Prob[03B4(D*1,D*2) 03B4(D1,D2)]}
(v) Adoption
de larègle
de la fusion de lapaire
de classes pourlaquelle
laprobabilité
est la
plus petite.
Dans la situation ci-dessus -
qui peut
d’ailleurs êtrelargement généralisée - l’approche
« vraisemblance du lien » intervientaprès l’étape (ii).
Nous la faisons en fait intervenir dèsl’étape (i)
en définissant un indiceprobabiliste
de la vraisemblance dulien;
ou, cequi
estéquivalent,
un indice de «dissimilarité informationnelle»qui
consiste à
prendre
lafonction - £092
de l’indiceprobabiliste.
Avant d’aborder le cas
qui
nous intéresse ici où les attributs sontcatégoriels,
ilest instructif de se rendre
compte
comment AVL traite le cas leplus classique
et deréférence où les variables sont
numériques.
3. AVL dans le cas de la classification
d’objets
décrits par des variables
numériques
La
description
de l’ensembleO={oi|1
i7z}
desobjets
par l’ensemblev={vj|1 j p}
des variablesdescriptives numériques
est matérialisée par letableau suivant T des
données. xi
=vi (oi)
est la mesure dela j-ème
variable sur lei-ème
objet, 1
zn, 1 j
p.Dans la
représentation
relationnelle des attributs dedescription,
la variablenumérique
estinterprétée
comme une relation unaire valuée. Tout engardant
cetteinterprétation,
onpeut
ici l’enrichir par lareprésentation
«naturelle» de cetype
de variable par une forme linéaire coordonnée del’espace géométrique
RP où l’ensemble desobjets
estreprésenté
par un nuage depoints.
Eneffet,
notreperception
del’espace géométrique
nouspermet
dans ce cas de mieux asseoir notre intuition dans la construction d’un indice de similarité entreobjets.
On suppose et c’estimportant
pour la suite de la démarche que les domaines de valeurs des différentes variables sont
homogènes
et de même ordre degrandeur.
Dans ces
conditions,
AVL étant une méthode centrée sur la notion de simi- larité desformes,
lepoint
dedépart
que nousadoptons
est l’indice cosinus. Plusprécisément,
en substituant au tableauT,
le tableauon définit alors l’indice de similarité
On considère alors les
étapes
suivantes :-
Décomposition
additive des(i, i’) :
Avec une telle définition on a les
propriétés
suivantes :(b) sj (i, i)
est maximal etégal
à1/p
si oi et oi, sonthomothétiques
parrapport
àl’origine
0.Introduisons à
présent
l’ensembleI = {1, 2,...,i,...,n} qui
indexe l’ensem- ble (9 desobjets.
QUELCONQUES
- Normalisation
statistique
de sj(i, i’) / l
x Ioù
- Indice S : somme des contributions normalisées.
Nous considérons à
présent
l’ensembleP2 (I )
despaires
ouparties
à deuxéléments de I. La taille de cet ensemble est
n (n - 1 ) / 2.
- Normalisation
statistique
de S au niveau de l’ensembleP2 (I )
despaires
d’éléments de I
où
- Indice
probabiliste
de la vraisemblance du lienoù cp
est la fonction derépartition
de la loi normale centrée réduiteN(0, 1 ) .
- Indice de dissimilarité
informationnelle
Ce sont des raisons de cohérence
logique qui
nous conduisent à normalisersj(i,i’)
au niveau de l’ensembleI x I;
alors que S est normalisé au niveau del’ensemble
P2 (I )
despaires.
On pourra enparticulier
remarquerqu’en prenant
la forme suivante pours (i, i’ ) :
où Xi
est la moyenne de laj-ème
variablevj ; alors,
la somme S des contributions normalisées n’est autre que leproduit
scalaire entre les deux vecteursreprésentant
oi et oi, dansl’espace
del’Analyse
enComposantes Principales
normée.Certes,
d’autres choix de la contribution brute de laj-ème
variablevj
à lacomparaison
des deuxobjets
oi et °i’peuvent
êtreenvisagés.
Onpeut
parexemple
considérer :
où
Un dernier
point.
La référence à loi normale centrée réduitepour juger
dudegré
d’invraisemblance de la
grandeur
deS,
et donc deQ
sejustifie
d’autant mieux dans le cadre du théorème central limite que le nombre p de variables n’est pas troppetit.
On remarquera que le modèle
probabiliste
d’absence de liaison n’utilise des distributionsempiriques
observées des indices de similarité locauxsj(1 j p)
etglobal
S(cf ci-dessus),
que descaractéristiques globales
de tendance centrale et dedispersion.
4. AVL dans le cas de la classification
d’objets
décrits par des variablesqualitatives (catégorielles)
nominales4.1. Cas d’une seule variable
CI
4. 1. 1. Introduction
cl
est uneapplication
de l’ensemble 0 desobjets
dans un ensembleCl
de klcatégories (on
dit encoremodalités),
associant àchaque objet
o, lacatégorie qu’il possède :
Nous
désignons
parle tableau des données
qui
se réduit à un vecteur colonne.VRAISEMBLANCE QUELCONQUES Si oi et oi, sont deux
objets
de l’ensemble 0 et si1[
et-y2
sont lescatégories respectivement possédées
par oi et oi’:comparer les
objets
oi et oi’ revient à comparer lescatégories 03B31i
et-y2 .
Oncomprend
aisément
qu’il s’agit
d’une situation essentiellement distincte de celle où on auraitune variable
quantitative numérique v 1.
On aurait en effet dans ce cas à comparer deux nombres réelsxi 1 = vl (oi)
etxi,
=vl (oi’);
ce quepermet
lasémantique
ducorps des nombres réels.
Il y a donc pour notre
problème
la nécessité absolue d’une table d’indicesnumériques
d’association sur leproduit
cartésienCl
xel,
définissant ainsi unevaluation que nous noterons À sur
Cl
xCl.
On considère en
général
la valuation suivante :En d’autres termes
03B3(c1h, c1j)
n’est autre que lesymbole bhj
de Kronecker.Cependant,
on peutégalement
considérer toutcouple (a, (3)
de nombres réelspour
lesquels
ce >(3
et considérer le tableau suivant définissant lavaluation -y associée,
où -à titre d’illustration- kl a été
pris égal
à 6.Compte
tenu de lasymétrie,
seule lamoitié au dessus de la
diagonale
de ce tableau estspécifiée.
FIGURE 2
Introduisons ici la
partition 7r1
induite par l’attributcl, qu’on
notera comme suit :est l’ensemble des
objets possédant
la modalitéc1j.
L’ensemble des
paires d’objets
réunis par7r ,
est défini par :où
P2( (]})
est l’ensemble desparties
à deux éléments deO1j.
L’ensemble des
paires d’objets séparés
par7r1 :
où
O1h* OJ
est l’ensemble desparties
à deux éléments dont l’une descomposantes appartient
à0 ae
et l’autre à0 J .
En
désignant
par nj la cardinalité deO1j, 1 j k1,
on a :4.1.2. L’indice à
prendre
en compte dans le cas de l’AVLIci,
où on n’aqu’une
seulevariable,
on se base sur la distributionempirique
de l’indice
brut,
défini àpartir
de la valuation 1, sur l’ensembleP2 (0)
despaires d’objets.
On considère le modèle aléatoire consistant à choisir unepaire {oi*, oi’*}
uniformément au hasard dans
P2 (0).
Si oi et oi’ sont deuxobjets donnés,
ledegré
d’invraisemblance de la force de la liaison est défini par la
petitesse
de :L’indice de vraisemblance du lien est alors défini par
Maintenant,
si on considère la normalisationstatistique
de l’indice brut pourune
variable,
parrapport
à I xI,
tellequ’envisagée
dans le casnumérique (cf § III),
on obtient le résultat suivant :
QUELCONQUES
Propriété.
-Quel
que soit lesystème
de valeurs cl et3 (/3 03B1),
lanormalisation
statistique (centrage
etréduction)
de l’indice par rapport à I xI,
conduit aux valeurs suivantes :est la
proportion
decouples d’objets
réunis(resp. séparés)
par1[1.
Ce résultat ne devient intéressant que dans le cas de
plusieurs variables,
dansl’optique
« somme des contributions normalisées ».4.1.3. L’indice de W.D. Goodall
L’indice de W.D. Goodall
[5] correspond
bien à une valuationparticulière
surCl
xel qui -
comme c’est le cas de l’AVL ci-dessus - a une natureprobabiliste
etse trouve fondée sur la distribution
empirique
de la variable. Nous noteronsÀc
cettevaluation. Elle se
présente,
dans le cas illustratif oùk1 = 6,
sous la formesuivante,
dont les cases videspeuvent
êtrecomplétées
parsymétrie
avec des zéros :FIGURE 3
Par différence avec le tableau de la
figure 2,
on se rendcompte
que l’association entre unecatégorie
et elle même n’est pas constante. On la pose d’autantplus
forteque la
fréquence
relative d’observation de lacatégorie
estpetite.
Trèsprécisément
est la
proportion
decouples d’objets
distinctspossédant la j-ème modalité, 1
kl.
Ce choix
qui
conduit à considérer que deuxobjets possédant
une mêmecatégorie
se ressemblent d’autant
plus
que lacatégorie
a été rarement observée au niveau del’échantillon,
n’est pas sansprêter
à discussion. Onpeut
en effet se poser laquestion
de savoir dans
quelle
mesure la STATISTIQUE informationnellerejoint
laSÉMANTIQUE
résultant de la connaissance de
l’expert.
A cetégard
Sneath et Sokal[31] écrivent :
« Goodall claims that the
working
taxonomistprefers
to enhance theweights
ofrarer
characteristics,
but this does not seem to us to be agenerally accepted
dictumof taxonomic
practice ».
Le reste de la construction est conforme à AVL.
Désignons
ici parPc
l’indiceprobabiliste
et par sG l’indice brutqui prend
ses valeurs dans la table de lafigure
3.On a
4.1.4. Enrichissement de l’échelle
descriptive
et indice AVL associéC’est à
partir
de considérationspurement sémantiques
faisantappel
à laconnaissance de
l’expert
que nous proposons d’enrichir l’échelledescriptive
sous-tendant l’ensemble des valeurs de l’attribut
qualitatif.
Ils’agit
d’enrichir la valuation À où seules deux valeursnumériques
exet 03B2
sontprévues (cf. Figure 2)
par une valuationÀL pouvant comprendre jusqu’à k1(k1
+1)/2 valeurs,
comme c’est le casde la
Figure
4 suivante où kl = 6.FIGURE 4
QUELCONQUES c
représente
l’évaluationnumérique
de la similarité entre lacatégorie c1j
et ellemême, 1 j kl;
alors que03B2hj représente celle,
entre lescatégories eh
etc1j, 1 h j k1.
Onpeut
clairement demanderDe toute
façon,
une manière réaliste d’obtenir une telle valuationÀL
est ordinale.Introduisons l’ensemble D suivant des
couples
decatégories
Partant de
D,
on demandera àl’expert
de sélectionner àchaque
pas, dans l’ensemble descouples
restants, l’ensemble descouples
decatégories également
lesplus
similaires. Plusformellement,
ils’agit
del’algorithmique
suivante :Initialisation E ~
D;
l ~ 1jqa E = ~
fairesélectionner dans E l’ensemble PP des
couples
decatégories
lesplus proches;
E(l) ~ PP; l ~ l + 1;
E ~ E - PP finfaire
On définit ainsi un
préordre
total surD,
conforme à laperception
de laressemblance entre
catégories
quepossède l’expert
du domaine.Ainsi,
la variablequalitative
nominale est transformée en variablequalitative préordonnance.
On coderanumériquement
cepréordre
total au moyen de la fonction « rang moyen » .Ainsi,
la valuation03BBL, permettant
decharger
un tableau tel que celui de lafigure 4,
pourra êtrespécifiée.
Maintenant, précisons
l’indiceprobabiliste
de la vraisemblance du lienqui
sefonde sur la distribution
empirique
de l’indicesur l’ensemble
P2(I)
despaires
d’éléments de I= {1, 2,..., i,..., n} qui
codel’ensemble 0 des
objets.
Relativement à unepaire d’objets {i1, i2},
cet indice s’écritoù
{i*, i’*}
est unepaire
aléatoireprise
uniformément au hasard dansP2(I).
L’indice
PL(i1, i2) représente
laproportion
decouples d’objets
distincts pourlesquels
la valeur de sL est strictement inférieure à cellesL(i1, i2).
4.1.5. Arbre de
classification
associé à l’indiceIl
peut paraître
curieux de vouloir associer à une seule variablecatégorielle Cl qui
définit unepartition 03C01 = {O1, O2,
...,0 j, ... , Ok1} (cf. § 4.1.1),
un arbre de classification obtenu au moyen d’une CAH. La construction d’un tel arbre neprend
sonsens que si on considère une
description
parplus
d’une seule variable.Néanmoins,
une telle
construction,
associée aux diverses valuationsA, Àc
ouAL
va permettre dese rendre
compte
comment les classes de lapartition
ci-dessus se situent dans l’arbre de classification.(i)
valuationEn considérant la similarité sur l’ensemble des
objets
induite parA,
on se rendcompte
que l’arbre de classification sur 0 issu d’une CAH,comprend
trois niveaux. Lepremier
est celui des feuilles dont chacunereprésente
une classesingleton comprenant
un seul
objet.
Le second est celuicomprenant
kl noeuds dont chacun sous-tend l’une des classesOj.
Le troisièmecomprend
le seul noeud racinequi
fusionne les kil noeuds.(ii) valuation 03BBG
Ici le nombre de niveaux
dépend
du nombre de valeurs distinctes ajj,1 k1.
Si h 1 est le nombre de valeurs distinctes(h1 A-l),
alors le nombre de niveauxest 2 + hl. Comme
ci-dessus,
lepremier
niveau est celui des feuilles dont chacunereprésente
une classesingleton.
Ensuiteapparaissent,
dans l’ordre décroissant des valeurs de 03B1jj, hl niveaux. Pour un niveaudonné,
lesnoeuds,
soustendent chacun l’une des classes0 j,
où les différentes classescorrespondent
à une même valeur de 03B1jj. Plusprécisément,
relativement auxcatégories
concernées par cesclasses,
l’autosimilarité d’unecatégorie
est constante. Le dernier niveaucomprend
la racinede l’arbre où les différents noeuds
(correspondant
chacun à l’une des classes0 j)
serejoignent.
(iii) valuation AL
La forme de la section
commençante
de l’arbrejusqu’à l’apparition
des noeudsdont chacun recouvre une classe
Oj(1 j k 1),
est la même que dans le cas(ii).
Cependant,
l’ordred’apparition
des classes n’est pas le même. Eneffet,
les valeurs 03B1jj de la valuationAL (voir Figure 4)
ne sont pas les mêmes que celles de la valuationAG (voir Figure 3) (cf.§
4.1.3 et4.1.4).
D’autrepart,
il y a un ordre desagrégations
des différents noeuds formés
qui dépend
de la valuationAL (voir
le dessus de ladiagonale principale
dans le tableau de lafigure 4)
ainsi que du critère de fusion des classesadapté.
A cetégard,
un critère de la vraisemblance du lien maximal[8, 11, 26]
s’avérerait -compte
tenu de sasouplesse - particulièrement adpaté.
Nous allons à
présent
considérer le casgénéral
d’unedescription
parplusieurs
variables
qualitatives (catégorielles).
4.2. Cas de
plusieurs
variablesOn
désigne
par V l’ensemble des p variablesqualitatives.
19
VRAISEMBLANCE QUELCONQUES
L’application
que définitla j-ème
variablequalitative cj
est notée comme suit :Dans ces
conditions,
on notera comme suit le tableau T des données :On considère une
Hypothèse
d’Absence de Liaison(HAL)
oud’indépendance
où à la suite des caractères observés on associe une suite de caractères aléatoires
indépendants :
Relativement à un même attribut aléatoire
cj*
le modèle estpermutationnel, 1 j p.
4.2.1. L’indice de W.D. Goodall
On commence à établir pour
chaque j,
une valuation03BBjG qui
est relative à la variablecj
et de même nature que celle ci-dessus03BBG,
illustrée par laFigure
3ci-dessus, 1 j
p.On considère
ensuite,
relativement au modèlealéatoire,
l’indice dudegré
d’invraisemblance de la
grandeur
de laquantité 03BBjG(cjg, cjh)
où lecouple
de valeurs(cjg, cjh)
a pu être observé chez uncouple d’objets (02, oi’) :
où
(oi*, oi’*)
est uncouple d’objets
distincts aléatoire et où1 g h kj; kj
étant le nombre de modalités de
ci, 1 j
p.On considère la distribution de la matrice
ÀG,
illustrée par laFigure
3 ci-dessussur l’ensemble des
couples d’objets
distincts. L’indicePgjh représente
très exactementla
proportion
decouples d’objets
distincts(oi, o’i’)
tels queIl
peut
y avoirpour j donné, jusqu’à kj
+ 1 valeurspossibles
dePjgh ;
eneffet,
il y a une seule valeur
pour g ~ h
et auplus kj
valeurs pour g = h(voir Figure 3).
On
peut
icirappeler
que s’iln’ y
avait que le seul attributcj,
l’indice de similaritéprobabiliste
deGoodall,
pour uncouple d’objets, (oi, oi’)
tel queci (oi) = cjg
etcj(oi’)
=cjh, s’exprime
parConsidérons à
présent
le cas de la suite des p attributs(cB c21... , cj, ..., cp).
Relativement à un
couple d’objets (oi, oi’), désignons
par(cjg |1 j p)
la suitedes valeurs des différents attributs sur
l’objet
oi et par(cjh|1 j p), celle, correspondante,
sur oi’. Considérons alors la fonctionLa suite
(ci 11 j p)
est d’autantplus
associée à la suite(clh) 11 p)
que le second membre
est petit.
Le second membre de
(49) représente
dansl’hypothèse d’indépendance
entreattributs et de
façon jointe,
ledegré
d’invraisemblance de valeurs aussigrandes
{03BBjG(cjg, cjh)|1 j p},
observées sur lecouple d’objets (oi, oi’).
Un indice desimilarité
probabiliste qu’on peut
proposerici,
en se situant parrapport
àl’ hypothèse d’indépendance,
estC’est cet indice que nous utiliserons pour comparer le
codage probabiliste
dela similarité dans
l’esprit
de Goodall à celui que nous proposons dans le cadre de la méthode AVL.L’approche précise
de Goodall s’avèrebeaucoup plus complexe.
Elle est fondéesur la distribution
empirique
de l’indicequi
fait le second membre de(50)
surl’ensemble des
couples d’objets
distincts.Compte
tenu de ce que nous venonsd’exprimer
ci-dessus il y a apriori
et au maximum03A0{ (kj
+1) |1 j p}
valeursdistinctes de cet
indice; qu’il
y a lieu de calculer et de trier. Il y a lieu ensuite de calculerquelle
est laproportion
decouples d’objets
distincts pourlesquels
chacunedes valeurs est atteinte.
Ceci,
afin de calculer l’indiceprobabiliste
suivant sur uncouple d’objets (oi, 01/) :
où
(oi , o*i’)
est uncouple
aléatoired’objets
distinctspris
uniformément au hasard.En d’autres termes, on commence par calculer un indice
probabiliste (celui (49)) ; mais,
dans le cadre d’unehypothèse d’indépendance
mutuelle entre attributs.C’est la fonction de
répartition empirique
de cet indicequi
donne lieu à l’indiceprobabiliste
final. Uneexpression plus explicite
peut être trouvée dans[5]. Certes,
lacomplexité
demeurepolynomiale. Mais,
elle esttrop élevée;
surtout àl’époque
actuelle du « Data
Mining »
où il y a lieu de brasser des masses énormes de données.4.2.2. L’indice
adopté
dans AVLPour
chaque
attributcj, 1 j
p, une valuationL
telle que celle de lafigure
4ci-dessus,
est établie àpartir
de la connaissance du domaine. Cette valuationnumérique (voir § 4.1.4) permet
lacomparaison
dechaque couple
decatégories
QUELCONQUES
(cjg, cjh), 1 g, h kj.
Dans cesconditions,
onpeut
définir la contribution de l’attributcj
à l’indice brut decomparaison
entre deuxobjets
oi et oi’ sous la forme :Le reste de la construction est alors en tout
point analogue
à cequi
a étéproposé
dans le cas
numérique (cf 3 3).
Onpeut
enrappeler
les différentesétapes.
Pour touti, il
deP2 (I)
-
Sj (i, i)
contributionstatistiquement
normalisée sur I x Ide sj (i, i’ ) ;
-
S(i, i)
somme des contributionsnormalisées;
-
Q(i, i’):
normalisation deS (i, i)
sur l’ensembleP2 (I)
desparties
à deux éléments deI ;
-
P (i, i’) = 03A6[Q(i, i’)] où 03A6
est la fonction derépartition
de la loi normale centréeet réduite.
- On
peut
associer à cet indiceprobabiliste,
l’indice de « dissimilarité information- nelle » :4.3.
Différences conceptuelles
entre les deux indices A - Indice de Goodall(i)
Lapréordonnance
valuée sur l’ensemble{cjg| 1 g kj}
descatégories
decj
est telle que deuxcatégories
distinctes ont une ressemblancenulle;
et, une mêmecatégorie
se trouve d’autantplus
associée à elle mêmequ’elle
est rare.(ii)
L’indiceprobabiliste
entreobjets
est fondé sur la distributionempirique
de la suite des variables
qualitatives (cB c2 , ... , cj, ..., cp).
Le calcul exact est partrop complexe.
Un indice de substitution peut être considéré. Il est calculé en tenantcompte
de la distributionempirique
de chacune des variablesprises séparément;
mais se trouve calculé dans
l’hypothèse d’indépendance
entre ces variables. Ils’agit
de l’indice
(50).
B - Indice
proposé
dans la méthode AVL(i)
Seules des considérationssémantiques
interviennent pour établir lapréor-
donnance.
Et, point
trèsimportant,
la ressemblance entre deuxcatégories
différentes n’est pas nulle et varie entre unepaire
decatégories
et une autre.(ii)
L’indiceprobabiliste
suit un indice défini par la normalisation d’une sommede contributions normalisées variable par variable.