R EVUE DE STATISTIQUE APPLIQUÉE
F. M ARCOTORCHINO
P. M ICHAUD
Agrégation de similarités en classification automatique
Revue de statistique appliquée, tome 30, n
o2 (1982), p. 21-44
<http://www.numdam.org/item?id=RSA_1982__30_2_21_0>
© Société française de statistique, 1982, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.
sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les conditions générales d’uti- lisation (http://www.numdam.org/conditions). Toute utilisation commerciale ou im- pression systématique est constitutive d’une infraction pénale. Toute copie ou im- pression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme
AGREGATION DE SIMILARITES EN CLASSIFICATION AUTOMATIQUE
F. MARCOTORCHINO
etP. MICHAUD
Centre Scientifique, IBM, France
1. INTRODUCTION
Cet article a pour but de
présenter,
par uneapproche
tout à fait différentede celles habituellement utilisées par les
spécialistes
del’Analyse
desDonnées,
uneméthodologie générale,
utilisablepratiquement
pour résoudre de nombreux pro- blèmesd’analyse
des données(en particulier
de classificationautomatique).
L’originalité
de cetteapproche
repose essentiellement sur l’utilisation de modèles linéairesgénéraux
unifiant desproblèmes
apriori
aussi différents que la recherche d’un "ordre" sur unepopulation
dans le cadre del’agrégation
despré-
férences ou que la recherche d’une
"partition"
de cette mêmepopulation
dans lecontexte de la classification
automatique.
La méthode
proposée
est une méthoded’Agrégation
de Données consistantà chercher une "relation collective" sur n
objets,
soit un ordre total(dans
le cas del’agrégation
despréférences),
soit unepartition (dans
les cas del’agrégation
desimilarités ou
agrégation classificatoire),
soit encore d’autres relationsplus
com-plexes, "approximant
au mieux" un ensemble de relations individuelles dedépart représentant
les données de m "critères" ou"juges"
relatives aux nobjets
à ana-lyser.
Cette
approche
a étéprésentée
lapremière
fois dans[ 12 ].
A titre
d’exemple
donnons iciquelques points qui
différencient cetteapproche
des méthodes existantes dans le domaine surlequel
nous avons choisi d’insister ici : c’est-à-dire la ClassificationAutomatique.
Rappelons qu’en
classificationautomatique,
les méthodes existantes sedivisent
approximativement
en deuxgrands types :
- les méthodes de classificationhiérarchique ascendante ;
- les méthodes de classification non
hiérarchique.
Pour les
premières,
le résultat est engénéral
un "arbre de classification"(représentant
une suite departitions emboitées),
obtenu pas à pas sur des critères de "distances" minimales entre classes paragglomération
successives des classes[5].
Pour les
secondes,
le résultat est une"partition"
de lapopulation
obtenue(après
fixation apriori
du nombre declasses)
par diminution d’un critère lié à desopérations
de"recentrage -
réaffectation"[8].
L’approche proposée
ici diffère des deuxprécédentes
tant dupoint
de vue du résultat obtenu que du critère retenu :- le résultat est certes une
"partition",
mais sans fixation apriori
du nombre declasses,
et avecpossibilité
de mesurer les liaisons entre les classes obtenues.- le critère repose sur l’utilisation d’une
règle majoritaire
anciennepuisqu’il s’agit
de la fameuse
"règle
de Condorcet".II.
HISTORIQUE
ET POSITION DU PROBLEMEDonnons tout d’abord la définition des termes de base de ce texte :
"Agré- gation
despréférences"
et"Agrégation
des similarités". Onappellera
par la suite dans le texte :Problème
d’Agrégation
desPréférences
par unordre):
unproblème
où lesdonnées seront la
représentation
depréférences
sur lesobjets (ordres, préordres, comparaisons préférentielles
parpaires, etc...)
et où le résultatcherché,
sera unOrdre Total.
De même on
appellera :
Problème
d’Agrégation
de Similarités(par
unepartition):
unproblème
où lesdonnées seront la
représentation
de similarités sur desobjets (partitions,
similarités parpaires etc...)
et où surtout le résultat cherché sera une Partition.L’approche
que nous allons proposer, dont le but est la résolution des deuxproblèmes précédents,
bien que récente de par lestechniques employées
est fondéesur des
concepts
anciens introduits par A. de CONDORCET dès 1785(recherche
d’une relation d’ordre collectif à
partir
decomparaisons
parpaires).
Ce dernier avaitdéjà
mis en évidence àl’époque l’aspect paradoxal
de la recherche d’un ordre collec- tif àpartir d’opinions
individuelles(Effet Condorcet).
Cet
aspect paradoxal
se retrouveégalement
dans le cas del’agrégation
de simi-larités,
où leproblème
consiste alors à trouver une "relationd’équivalence
collec-tive"
(partition
des nobjets)
laplus "proche possible"
de mpartitions
ou relationsde similarités individuelles données au
départ
par m"juges"
ou "critères" sur les nobjets
àanalyser.
Leparadoxe
nes’appelle plus
dans ce cas "EffetCondorcet",
mais"Effet Poincaré".
Comme nous venons de le dire les méthodes que nous allons
présenter
per- mettent de résoudre aussi bien lesproblèmes d’agrégation
despréférences
que d’a-grégation
des similarités. Orsi,
comme nous le montreronsplus
loin les modèles associés à ces deuxproblèmes
de nature apriori distincte,
ne diffèrent que trèslégèrement,
il semble curieux de constaterqu’historiquement
cesproblèmes
ont étéétudiés de
façon
tout à faitséparée
et sans aucune connexionapparente.
En
effet,
alors que l’onpeut
faire remonter lespremières
idées de base sur"l’agrégation
despréférences"
à A. de CONDORCET(1785),
leproblème
de larecherche de
"partitions
dites centrales"(cas particulier
del’agrégation
de simila-rités)
n’a étéposé
pour lapremière
fois par S.Regnier qu’en
1965[ 17 ].
Quant
audéveloppement
des connaissances sur ces deuxproblèmes,
tant auniveau
théorique
etaxiomatique qu’au
niveau desalgorithmes
derésolution,
l’état d’avancement était loin d’êtreidentique jusqu’à aujourd’hui.
A l’étude du
problème
de"l’agrégation
despréférences"
outre Condorcetdéjà cité,
onpeut
associer les noms de M.G. KENDALL[11] ] et
G. KEMENY[ 10 1 qui
ont étudié au niveauthéorique
leproblème
sous forme"métrique"
dans le casle
plus simple
del’agrégation
d’ordres totaux sans pour cela proposer de méthodes de résolution. K. ARROW[ 1 ] et
D. BLACK en ontpoursuivi
l’étudeaxiomatique.
M.
BARBUT,
dès 1966[2],
avaitégalement souligné l’aspect métrique
duproblème d’agrégation.
En ce
qui
concerne"l’agrégation
des similarités" dont la recherche d’une"partition
centrale" n’estqu’un
casparticulier (consistant
à chercher lapartition agrégeant
des données elles-mêmes sous forme departitions),
à S. REGNIERdéjà cité,
onpeut
associerégalement
le nom de B. MIRKIN[16].
Sous sa forme ini-tiale le
problème
de la recherche d’unepartition
centrale n’avait pas été rattaché àl’approche générale.
Ce n’est que récemment que J.P. BARTHELEMY et B. MONJARDET
[3]
[4]
ont attiré l’attention sur le fait que ces deuxproblèmes
avaient une mêmerepré-
sentation
métrique,
sans toutefois proposer de méthodes de résolutions.En ce
qui
concerne les méthodes derésolution,
la distinction à faire entre"agrégation
despréférences"
et"agrégation
des similarités" était encoreplus
nette.Les méthodes de résolution exactes associées à ce
type "d’agrégation
despréférences"
étaient toutesfondées, jusqu’à présent,
sur leprincipe
d’énumérationimplicite
"branch andbound", (nous
avons donné en[13] une
liste de certains deces
algorithmes);
mais enpratique
il étaitimpossible
de les utiliser pour un nombred’objets
à classersupérieur
à 20.Seul J. de CANI
[6]
avait vu l’intérêt de l’utilisation de laprogrammation
linéaire pour résoudre un
problème
voisin de celui dont nous traitonsici; après quelques
essais infructueux limités àl’agrégation
d’ordres totaux de taille très faible n =4,
il a de lui même renoncé à cetteapproche
et aproposé
à son tourultérieurement
[7] un algorithme
d’énumérationimplicite.
En ce
qui
concerne les méthodes de résolution associées à"l’agrégation
dessimilarités", exceptée l’heuristique
de S. REGNIER[17] pour
les"partitions
cen-trales" aucun
algorithme
a fortiori exact n’avait étéproposé jusqu’à
cejour (tout
au moins à notre
connaissance).
Aucun des auteurs
précités n’avait,
tout au moins à notreconnaissance,
fait le lien entrel’agrégation
despréférences
etl’agrégation
des similarités au niveau des méthodes derésolution,
etproposé
un modèlegénéral.
A ce niveau notre contribution a
permis
desynthétiser
et d’améliorer cette situation enproposant l’approche méthodologique
suivante :i)
Sur leplan théorique agrégation
de relations arbitraires par une relationparti-
culière.
ü)
Construction d’un modèle linéairegénéral
del’agrégation
de relations de toustypes.
ii)
Création de méthodes de résolution exactes etapprochées adaptées
aux deuxtypes
deproblèmes d’agrégation
considérés ici.Adjonction
deprocédures
deEn effet nous avons modélisé pour la
première
fois[12] ces
diversproblèmes
de recherche de relations centrales sous une forme linéaire
générale permettant
ainsi dedévelopper
des méthodes exactes de résolution en destemps
de calcul raison-nables,
même pour des tailles de n relativementimportantes (n 80).
Enfin,
nous avons montré que l’ensemble de cesproblèmes pouvait
être consi- déré comme l’utilisation de larègle
de lamajorité
de Condorcet(fonction
critèrelinéaire),
sous des contraintes linéairesdépendant
de la nature de la relation cher- chée[12], [15].
En
résumé,
leproblème général
que nous allons traiter consiste à rechercherune relation collective
(ordre
total oupartition
entreautre) "approximant
aumieux" un ensemble de relations individuelles de
départ.
La modélisation et la résolution du
problème
repose sur les 6concepts
fonda-mentaux suivants :
1)
Présentation des données sous forme relationnelle.(On
montrera que bon nom- bre de données usuelles seprésentent
sous forme derelations).
2)
Utilisation d’un critère linéaired’agrégation qui
n’est autre que larègle majori-
taire de
Condorcet,
dont on montreraqu’elle
estéquivalente
à uneapproche métrique ;
3)
Linéarisation des contraintesportant
sur la relation cherchée(la
relation cher- chée que nousappelerons
Y par la suite vérifiera un certain nombre de con-traintes
linéaires) ;
4)
Utilisation de laProgrammation
Linéaire pour la résolution desproblèmes
ainsiposés (en particulier
utilisation dusystème MPSX/370);
5)
Utilisation d’indices de validation duproblème,
tant au niveau des données que desrésultats;
ceci afin derépondre
auxquestions
fondamentales suivantes:- est-il raisonnable de vouloir classer ou classifier les données de
départ ?
- le résultat obtenu est-il
significatif ?
6)
Visualisation des résultats en tenantcompte
des niveaux de validation.III. DEFINITION DU PROBLEME GENERAL DE L’AGREGATION RELATIONNELLE
3.1. Présentation
générale
des donnéesAfin de définir la méthode
proposée,
nous supposons ici que les donnéesse
présentent déjà
sous forme relationnelle. Nous verrons dans unparagraphe
ulté-rieur comment la
prise
encompte
des données usuelles lesplus
variéespeut
se fairesous cette forme.
On a donc au
départ
m relations individuellescorrespondant
soit auxopinions
de m
juges
soit auxcaractéristiques
des nobjets
parrapport
à m"critères".
a)
Tableaux de données individuelsChaque
relationinitiale, correspondant
aux données individuelles du"juge"
ou "critère" numéro k sera
représentée
par un tableau de"comparaisons
parpaires"
noté
Ck.
Ce tableau decomparaisons
est un tableau carré(nXn)
à valeurs(0
ou1)
défini comme suit :
’est en relation
avec" j
pour le"juge"
k, ·Sinon.
Par convention les valeurs
ckii
du tableau ne seront pas considérées.Compte
tenu duproblème
à traiter et de la nature desdonnées,
lasignifi-
cation des valeurs c sera différente. Par
exemple :
- i "est en relation
avec" j signifie:
i "estpréféré à" j
siCk
est un tableau de don- nées depréférences.
- i "est en relation
avec" j signifie :
i "est semblableà" j
siCk
est un tableau de similarités.Chaque
tableauCk peut
doncreprésenter n’importe quelle
relation binaire.A
chaque
relation binairereprésentée
par un tableauCk,
onpeut
associer unautre tableau de
comparaisons,
notéC’k,
ce nouveau tableau est un tableau carré(nXn)
à valeurs(- 1 , + 1 ),
défini par :c’kij
= 1 Si i "est en relationavec" j
pour le"juge"
ou "critère" kc’kij
= - 1 Sinon.Les valeurs
ce peuvent
etreexprimées
au moyen desckij
par :Remarque :
Dans le cas ducodage C’
on a lapossibilité
d’introduire la valeurcl
= 0qui signifie
une"non-réponse"
dujuge
k.(Voir
lasignification
de cecodage dans
lathèse d’Etat
de
P. MICHAUD[ 14]).
Comme nous le verrons
au §
VI les tableauxC’k
étCk peuvent
être obtenus directement ou indirectement par l’intermédiaire de tableaux annexes(tableaux
derangs de notes, de distances
etc...).
b)
Tableauxcollectifs
En sommant tous les tableaux de
comparaisons
individuelsCk
etC’k,
onobtient des tableaux de données collectifs notés :
où U est la matrice
(n
xn)
dont tous les éléments sontégaux
à 1. Le terme(i j)
du tableau C est donné par :
Le terme
(i , j)
du tableauC’ est
donné par :cl.
= Nombre de"juges"
ou "critères" pourlesquels
i "est en relationavec" j
moins
Nombre
de"juges"
ou "critères" pourlesquels
i "n’est pas en relationavec" j.
De ce fait
cri.
~ 0signifie qu’une majorité
de"juges"
ou "critères" consi- dèrent que i "esten relation avec" j.
Remarque :
Onpeut généraliser l’approche précédente
au cas où les critères oujuges Ck
sontpondérés
par un coefficientpk ~
0. On a alors :La relation liant
C’ à
C est alors donnée par :3.2. Définition de la relation collective cherchée Y.
Pour les deux
problèmes (Agrégation
des Préférences et deSimilarités)
nousrecherchons une relation collective transitive
(soit
un ordretotal,
soit une relationd’équivalence "partition") approximant
de la meilleurefaçon possible
les m rela-tions binaires individuelles de
départ.
Cetteprocédure
de recherche d’une relation dite"centrale",
conduira à l’obtention d’une relation Y.Cette relation collective cherchée sera l’inconnue de notre modèle et sera
représentée
elle aussi par un tableau binaire carré(n
xn)
défini par :y..
= 1 Si i est "en relationavec" j
dans le résultatfinal ; yu
= 0 Sinon.Comme pour les données le terme "est en relation avec"
dépend
du contextede
l’agrégation
que l’on désire effectuer et de la nature du résultat attendu.Exemples :
y.. =
1signifie :
i est classéavant j
si Yreprésente
un ordretotal ;
y..
= 1signifie:
i est dans la même classeque j
si Y est unepartition.
En
règle générale
Ypeut représenter n’importe quel
autretype
de relation binaire :quasi-ordre, semi-ordre, préordre total,
etc...[14] et [15].
Généralisation à d’autres
types
de solutions YIl est bien évident que
l’Agrégation
Relationnelle Généralepermet
d’autres combinaisons entretype
de résultat cherché ettype
de données àagréger
que celles rencontrées en"agrégation
despréférences"
et en"agrégation
des similarités".Exemple: agréger
un ensemble depréordres
totaux par unepartition.
3.3. Définition d’un "critère"
d’agrégation
Nous avons maintenant à définir ce que nous entendons par :
"approximer
de la meilleurefaçon possible".
Pour cela considérons la fonction de Y suivante :
où
C.1
comme nous l’avonsdéjà
vu,représente
le nombre de"juges"
ou "critères"mettant
i "en relationavec" j
moins le nombre de"juges"
ou "critères" ne mettant pas i "en relationavec" j.
La fonction
F (Y)
est alors évidemment maximum pourY‘’’
définie par:Comme nous l’avons
déjà
vuc’ij
> 0implique qu’une majorité
de"juges"
amis i "en relation
avec" j ;
enconséquence
yC n’est rien d’autre que le résultat del’application
directe d’unerègle majoritaire
au tableau collectif decomparaisons C’ ;
c’estjustement
cetterègle qu’avait proposée
Condorcet dès 1785 pourl’agré- gation
d’ordres totaux.Cependant
ce critèrepeut également s’interpréter
defaçon "métrique".
3.4.
Interprétation métrique
de la fonction F(Y)
La
règle
deCordorcet, peut s’interpréter également
comme une fonctiond’éloignement,
àpartir
du moment où l’on définit la distanced (Ck , Y)
entre larelation cherchée Y et un tableau relationnel et individuel de données
Ck
par:On a montré en
[12] et [15] l’équivalence
entre la minimisation de la fonc- tion de Y :et la
règle
de lamajorité
de Condorcet.Minimiser en Y cette fonction
F’(Y)
reviendra à chercher la relation Y laplus "proche possible"
de l’ensemble des m relations binaires dedépart.
Dès
lors,
ilapparaît
la relation évidente entre les fonctions deY, F (Y)
etF’(Y) :
Et l’on obtient les deux résultats fondamentaux suivants :
i)
Les fonctionsobjectifs F (Y)
etF’ (Y)
sont linéaires enyij;
ii)
Lesproblèmes :
Min
F’ (Y) (présentation métrique)
y
et Max
F(Y) (présentation
au moyen de larègle
deCondorcet)
y
sont deux
problèmes équivalents.
Comme nous l’avons
déjà
vu ces deuxproblèmes
MinF’ (Y)
et max F(Y)
sonttrivialement résolus en
appliquant
larègle majoritaire
de Condorcet.Remarque:
Ilfaut
noterqu’ici
Y est solution d’unefonction économique
sanscontraintes et peut donc
représenter n’importe quelle
relation binaire. Bien entendusauf
si le tableauC’a
une structureparticulière,
la solution Y ne sera pas engénéral
transitive. Or nous cherchons une relation
qui
devra être soit une relation d’ordre total soit une relationd’équivalence,
c’est-à-diretransitive ;
la seule utilisation de larègle majoritaire
de Condorcet ne nousgarantit
donc pas contre une solution dénuée defondement (vis-à-vis
duproblème posé).
Ce
fait
est du enparticulier
à l’existence de"paradoxes"
inhérents à ce type de situations.L’un de ces
paradoxes
est lefameux "paradoxe
de Condorcet ". Leprincipe
de ces
paradoxes
repose sur lefait
suivant:l’agrégation
de données individuelles"transitives" peut donner un résultat Y
"intransitif ’
si onapplique
larègle
de lamajorité.
En supposant que des
"juges"
ou "critères" aient donné desopinions
indi- viduelles transitives(ordres
totaux oupartitions)
sur 3objets
x, y et z, alors il yaura
(vis-à-vis
de larègle
deCondorcet) : Effet
CondorcetSi,
unemajorité
de"juges "
ayantpréféré
collectivement x à y :(x ~ y);
une
majorité
de"juges"
ayantégalement préféré
collectivement y à z(y > z),
ona une
majorité
de"juges " qui préfère
collectivement z à x(z ~ x),
au lieu de latransitivité attendue
(x ~ z),
xpréféré
à z par unemajorité
dejuges).
De même il y aura :
Effet
PoincaréSi,
sachant que pourmajorité
de "critères " x est considéré comme simi- laire à y(x ~ Y)
y comme similaire à z(y ~ z),
mais que x n’est pas considérécomme similaire à z par une
majorité
de "critères"(x ~ z);
au lieu de la transi- tivité attendue(x ~ z)
x considéré comme similaire à z par unemajorité
de "cri- tères ".Comme
l’application
directe(fort simple)
de larègle
de Condorcet ne nouspermet
pas d’obtenir un résultat transitif à coupsûr,
la relation Y cherchée doit donc vérifier un certain nombre de contraintes pour nousgarantir
l’obtention soit d’un ordretotal,
soit d’une"partition",
relationsauxquelles
nous nous sommesvolontairement limités dans cet article. La vérification de ces contraintes sur Y va
rendre les
problèmes précédents "combinatoires",
c’est-à-dire aboutir à des calculs inextricables si l’on nepossède
pasd’algorithmes performants.
- En
effet,
dans le cas del’agrégation
despréférences
il faudrait choisirparmi
lesn! ordres totaux Y celui ou ceux
qui
maximisentF (Y).
- Dans le cas de
l’agrégation
des similarités c’estparmi
lesB(n) partitions
de nobjets (nombre
deBell) qu’il
faudrait choisir la ou lespartitions
Y maximisantF (Y).
A titre d’illustration disons que
(17)!
=3,5
x1014
et(70)!
>10100
et queB(71) = 4,7 1014.
Mais là encore, nous allons le voir
au § suivant,
ces contraintess’exprimeront
linéairement en fonction des valeurs
y..,
et unalgorithme approprié
nouspermettra
d’éviter l’énumération de toutes lessolutions
Ypossibles (procédé impraticable
pour n >
15).
Cependant
bienqu’exceptionnels,
il existe des cas où de par la structure par- ticulière desdonnées,
lasimple application
de larègle
de lamajorité
parpaires
de Condorcet donnera soit un ordretotal,
soit une relationd’équivalence ;
c’est-à-dire la solution
optimale
duproblème posé. (Voir
dans[13] la description
de cer-taines de ces
configurations exceptionnelles).
IV. LES MODELES LINEAIRES ASSOCIES
4.1. Les contraintes linéaires sur la relation cherchée Y
- Si la relation cherchée Y est un ordre
total,
Y doit être(Transitive, Antisymé- trique, Totale);
- Si la relation cherchée Y est une
partition (relation d’équivalence),
Y doit être :(Transitive, Symétrique).
Nous avons alors le résultat suivant :
Toutes ces
propriétés peuvent
être formulées comme desexpressions
linéaires des valeursy.. (voir [12]
et[15] pour plus
dedétails).
1)
Transitivité: Elles’exprime
par les contraintes suivantes:yu
+Yjk - yik
~ 1 ’br(i, j, k)
tous différents.Ces
inégalités expriment
que siiRj et jRk
alors iRk pour la relation Y.2) Symétrie :
Elles’exprime
par les contraintes suivantes :Cette contrainte
signifie simplement
que pour unproblème
de classificationautomatique
si i est dans la même classe quej, alors j
est dans la même classe que i.3) Antisymétrie :
Elles’exprime
par les contraintes suivantes :Ces
inégalités signifient qu’au plus iRj
oujRi
est vraie pour la relation Y.4)
Totalité : Elles’exprime
par les contraintes suivantes :Ces
inégalités signifiant qu’au
moinsiRj
oujRi
est vraie pour la relation Y.Remarque :
Si Y est un ordre total(antisymétrique
ettotal),
Y doit vérifier simul-tanément les contraintes
3)
et4)
cequi
conduit aux nouvelles relations linéairesen yij:
Ces relations
signifient
que soit i est classéavant j, soit j
est classé avant i dansla relation cherchée Y.
De ce fait nous pouvons donner une
interprétation générale
desproblèmes d’agrégation
despréférences
oud’agrégation
de similarités :Ces deux
problèmes peuvent
être considérés commel’application
de larègle majoritaire
sous contraintes :- contraintes
1)
et5)
pour la recherche d’un ordretotal;
- contraintes
1)
et2)
pour la recherche d’unepartition
Y.4.2. Les modèles bivalents
Il découle des résultats
précédents
que lesproblèmes d’agrégation
despréfé-
rences et
d’agrégation
des similaritéspeuvent
être formulés comme desproblèmes
de
programmation
linéaire en nombres entiers en variables bivalents(0-1).
Les variables
(0-1)
sont les valeursy..
de la relation collective cherchée Y.La fonction
objectif
à maximiser est la fonctionF(Y)
que nous avonsdéjà
définie comme la formulation de la
règle majoritaire
deCondorcet ;
les contraintes sont les différentespropriétés
que la relationY
doit vérifier.Selon le
type
de relation Y cherchée nous obtenons donc les modèles linéaires suivants :a)
Modèle pour une relation d’ordre totalb)
Modèle pour une relationd’équivalence
Il est tout à fait
remarquable
que desproblèmes primitivement
très différentsquant
aux résultats cherchés: Recherche d’uneagrégation
despréférences (classe- ment)
et recherche d’uneagrégation
de similarités(classification),
ne diffèrent dupoint
de vue de la modélisation que par leséquations :
On trouvera dans
[13] et plus spécialement
dans[15] un
certain nombre de modèles linéaires associés à des relations Yplus complexes.
Le nombre de contraintes de ces
problèmes
est de l’ordreO(n3),
tandis que le nombre de variables est de l’ordreO(n2).
D’autre
part,
on trouvera dans[13]
et[15]
lasignification
dequelques
variantes de
l’expression
de la fonctionéconomique F (Y), qui
lui sontéquivalentes (c’est-à-dire
donne des résultats collectifsidentiques).
V. LA METHODE DE RESOLUTION DU MODELE PROPOSE
5.1.
Quelques
méthodes existantes de résolution exactea)
Cas del’agrégation
despréférences
Dans le cas de
l’agrégation
d’ordres il existe un certain nombre de méthodesexactes; elles sont toutes fondées sur le
principe
d’énumérationimplicite
des n! per- mutations(Branch
andBound).
Laplupart
de ces méthodes sont détaillées ou citées dans[16].
Malheureusement onpeut
considérer que ces méthodes ne sontappli-
calbes que pour des tailles de n
(nombre d’objets)
inférieures à 20.b)
Cas del’agrégation
de similaritésPour ce
problème
il n’existait pas(à
notreconnaissance)
de méthodes exactes de résolutionjusqu’à aujourd’hui.
5.2. La méthode exacte
proposée
Les deux modèles
a)
etb) du §
V sont des modèles deprogrammation
biva-lente,
c’est-à-dire en variable(0 -1 )
et de ce fait sont apriori
desproblèmes
excessi-vement
compliqués
vus leur tailles.Cependant
nous avons pu obtenir des solutionsoptimales
en destemps
de calculraisonnables,
même pour des tailles de n relati- vementimportantes.
Le
principe
del’algorithme
de résolution exacte que nous avonsproposé
l’utilisation de la linéaire continue de
de programmes linéaires continus associés aux modèles
a)
oub),
c’est-à-dire où l’on anégligé
aupréalable
les contraintesd’intégrité y.. =
0 ou1,
transformées en0
y..
1 et où l’on aajouté
àchaque étape
les contraintes définissant les coupessuccessives.
C’est un résultat bien connu deprogrammation
linéairequ’une
telleméthode est une méthode
finie - chaque
PL nécessite un nombre fini d’itérationset le nombre de programmes linéaires est fini-
Pourtant,
à ce niveau deuxquestions
se
posent :
i)
Combien de programmes linéaires faudra-t-il résoudre pour aboutir à une solu- tionoptimale
bivalente ?ii)
La résolution d’un seul de ces programmes linéaires ainsigénérés
est-ellepossible, compte
tenu des tailles mises en oeuvre ?Contrairement à l’habitude pour ce
type
deproblème,
ce n’est pas le nombre de programmes linéaires successifs à résoudrequi
sera laprincipale
difficulté(puis- qu’en
fait leplus
souvent on n’aura à traiterqu’un
seul programmelinéaire),
maisbien
plutôt
la résolution d’un seul de ces programmes linéaires continus.En effet la résolution des modèles
a)
etb)
rendus continus en transformant la contraintey
0 ou 1 par 0 ~yij ~
1 est apriori impossible
si on essayede traiter
directement ces programmes, car le programme sera
automatiquement
mis sousforme standard par
adjonction
de variables d’écart. Le nombre des contraintes étant alors de l’ordre den3 oblige
agénérer
des matrices de bases de taillesO(n3)
x0(n3),
cequi bloque rapidement
laplace
mémoiredisponible,
même pour n faibleet rend
impossible
les calculs effectifs.A ce niveau l’intérêt et
l’originalité
de la méthode que nous proposons est depouvoir
traiter le programme linéaire continuprécédent
avec des bases de tailles0(n 2)
x0(n 2)
seulement. Dans[12] nous
avons détaillé le processusqui
nous a conduit à ce résultat. C’est laprocédure
"duale" du dualqui
a étéutilisée,
avec lecode
produit-programme
IBMMPSX/370
dont lesavantages
sontégalement
détail-lés
dans [15].
Ceci nous a
permis
de résoudre defaçon
exacte desproblèmes
de tailles rela-tivement
grandes (jusqu’à
n = 80 pourl’instant).
Cependant,
et ceci est unpoint fondamental,
pour tous lesexemples
pra-tiques
que nous avons traités(plus
de 200 à l’heureactuelle,
tantd’agrégation
despréférences
qued’agrégation
dessimilarités),
les solutionsoptimales
despremiers
programmes continus
(c’est-à-dire
sansadjonction
decoupes)
étaienttoujours
àvaleurs
(0-1),
c’est-à-diretoujours
solutions des modèles linéaires bivalentsa)
oub).
Le fait de n’avoir à résoudre laplupart
dutemps qu’un
seul programme linéaire continu est un résultatempirique
tout à faitremarquable, qui justifie amplement
à lui tout seul
l’approche "optimisation"
que nous avons choisie.En effet le nombre de programmes linéaires continus successifs que nous aurons à résoudre étant extrêmement
faible,
sauf casexceptionnels, l’algorithme
exact que nous proposons
permettra
destemps
de calculs très raisonnables.5.3.
Temps
de calculNous donnons ici
quelques temps
de résolution(avec MPSX/370
sur370/168
IBM incluant :
Génération-Résolution-Edition).
(Dans la colonne NATURE "P" signifie que le résultat obtenu est une "partition",
"C" que le résultat obtenu est un "classement").
Temps Heuristiques:
Ilsproviennent
de l’utilisation de deuxheuristiques
différentes. La
première
relative àl’Agrégation
des Préférences est donnée dans le livre[12],
la deuxième relative àl’Agrégation
des Similarités(amélioration
de cellede S.
Régnier)
est détaillée dans la thèse d’Etat de F. MARCOTORCHINO[13].
Remarque :
Les méthodesd’Agrégation
des donnéesprésentées
dans cet articlevérifient
un certain nombre depropriétés
de structure que nous nefaisons
que citer ici etqui
sont détaillées dans la thèse[13].
1.
Propriété
de consistance additive 2.Propriété
de neutralité totale3.
Propriété
de nonfixation
àpriori
du nombre de classes(pour
lesproblèmes d’agrégation de
similaritésseulement)
VI. PRISE EN COMPTE DES DONNEES
La
présentation relationnelle,
sous forme de tableaux decomparaisons
parpaires
Cpermet
unegrande souplesse
dans laprise
encompte
des données sans arbi- traire dans lecodage
et surtout sansperte
d’information.Dans la mesure où nous avons
présenté
dans d’autres articles(voir [12]
et[15]
parexemple)
comment transformer en données relationnelles des données depréférences,
nous allons insister presque exclusivement dans cet article sur les don- nées de similarités.En fait les données sur
lesquelles
nous allons travailler se divisent en deux- les données sont
déjà
directement sous forme de tableaux decomparaisons
parpaires;
- elles ne sont pas initialement sous forme de tableaux de
comparaisons
parpaires
et il
s’agit
alors de les mettre sous forme de tableaux C(binaires)
ou dutableau C.
6.1. Données directement sous forme de tableaux de
comparaisons a)
Cas del’agrégation
despréférences
Se
présentent
directement sous forme de tableaux decomparaisons
parpaires
les
types
de données suivants :1 - les tableaux de tournois
(football, escrime, rugby,...) ;
2 - les
graphes
de "dominations" ou de hiérarchies dans lespopulations
animales ouhumaines
(voir exemple
sur leschimpanzés
dans[ 12 ] ;
3 - les
graphes
de relationshiérarchiques
dans lesentreprises (la
distribution des 1 et des 0 dans de tels tableauxpeut
êtrequelconque);
4 - les
graphes représentation
de"systèmes";
5 - les données de
préférences
parpaires (enquêtes psychosociologiques, enquêtes d’opinions, etc...).
b)
Cas del’agrégation
de similaritésSe
présentent
directement sous forme de tableaux decomparaisons
parpaires.
1 - Les tableaux individuels de similarités
Chaque "juge"
définit directement ses "similarités" sur unepopulation
de nobjets
enposant :
soit :
ckij
= 1 Si pour lui iet j
sont "similaires" ou"semblables" ;
ckij
= 0 Sinon.ou si l’on admet la
possibilité
denon-réponses (voir [14]):
ckij
= 1 Sipour
lui lesobjets
iet j
sont "similaires" :ckij
=1/2
S’il nerépond
pas;ckij
= 0 Dans les autres cas.(Voir
dans[13] un exemple
de tels tableaux de similarités relatifs àl’opinion
de 51personnes sur les ressemblances entre 12 machines à
écrire).
Remarque :
Engénéral
ces tableaux sontsymétriques
mais rarementtransitifs,
c’est- à-dire nereprésentent
pas forcément unepartition.
Cecicorrespond
à laprise
encompte
de l’EFFET POINCARE individuel: où un"juge"
k trouve que X et Y sontsimilaires,
Y et Z similaires mais pas forcément X et Z.2 - Les tableaux carrés
(n
xn)
dedistances, d’éloignements,
desimilarités,
ou denoircissement du
type
BERTIN-CZEKANOWSKY.Ce sont en
général
des tableaux résultats de calculspréalables
pourlesquels
nous ne connaissons pas "a
priori"
le tableau de donnéesbrutes,
croisant les nobjets
avec eux-mêmes. Le terme(i , j)
de ce tableau c’est-à-dires.. représente :
- soit une mesure de distance ou
d’éloignement
entre iet j (non
nécessairementsymétrique) ;
- soit une mesure de similarité entre i
et j ;
- soit une valeur de
"grisé"
caractérisation visuelle d’une liaison entre i etj.
i)
Cas d’un tableau de distance oud’éloignement
S. Onpeut
définir un tableau de similarité individuel C enposant :
c..
= 1 Sis..
s(s
étant un seuildonné);
c..
= 0 Sinon.C
peut
très bien ne pasreprésenter
unepartition
ou n’être passymétrique
si S nel’est pas lui-même.
ü)
Soit S un tableau de similarités(construit
àpartir
d’unindice)
tel que 0s ij
~1,
alors onfabriquera
directement le tableauC’
enposant :
et l’on maximisera la fonction
économique
suivante :mais cette fonction n’est pas le résultat de
l’application
d’unerègle
demajorité
collective et ne vérifiera pas sauf
exception
lespropriétés déjà présentées
aupara- vant[13].
iii)
Dans le cas des tableaux de BERTIN-CZEKANOWSKY c’est le noircis- sement des casesqui
fait office de tableaux desimilarités,
on posera parexemple
pour un tableau
C’ :
c’ij = 1
Si la case(i , j)
estnoire ; c’ij
= 0 Si elle estgrise ;
c.’.
= - 1 Si elle est blanche.Plus
généralement
s’ily a k
niveaux degris
on construira directement le tableau collectif C enposant :
c..
= k Si la case(i , j)
est totalementnoire ;
c..
= k - 1 Si la case estgris foncé ;
...
c..
= 0 Si elle estcomplètement
blanche.L’idée
sous-jacente
ici étant que la valeur d’ungrisé
est additive etcorrespond
à l’addition de
plusieurs
critères(virtuels) jouant
sur du noir et blanc. Ainsi ungris
de valeur
(k - 2)
parexemple
pour la case(i, j) correspond
au fait que k - 2"critères" ont