A. G UENOCHE B. M ONJARDET
Méthodes ordinales et combinatoires en analyse des données
Mathématiques et sciences humaines, tome 100 (1987), p. 5-47
<http://www.numdam.org/item?id=MSH_1987__100__5_0>
© Centre d’analyse et de mathématiques sociales de l’EHESS, 1987, tous droits réservés.
L’accès aux archives de la revue « Mathématiques et sciences humaines » (http://
msh.revues.org/) implique l’accord avec les conditions générales d’utilisation (http://www.
numdam.org/conditions). Toute utilisation commerciale ou impression systématique est consti- tutive d’une infraction pénale. Toute copie ou impression de ce fichier doit conte- nir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
METHODES ORDINALES ET COMBINATOIRES EN ANALYSE DES DONNEES
A. GUENOCHE * et B. MONJARDET **
In the foreseable
future,
discrete mathematics will be anincreasingly
useful tool in the attempt to understand the world.P.R.
Halmos,
1981.(Applied
Mathematics is bad Mathematics, Mathematics Tomorrow,Springer Verlag)
Quite probably,
with thedevelopment
of the moderncomputing technique,
it will be clear that in very many cases it is reasonable to conduct thestudy
of realphenomena avoiding
the
intermediary
stage ofstylising
them in thespirit
of ideas of mathematics of the infinite and thecontinuous,
andpassing directly
to discrete models.A.N.
Kolmogorov, 1970.
(International Congress
of Mathematicians inNice)
RésuméAprès quelques
considérationsgénérales
sur les relations entre lesmathématiques discrètes, l’informatique
etl’analyse
desdonnées,
ce texteprésente
un ensemble de méthodes utilisant destechniques
ordinales ou(et)
combinatoires. A unedescription
succinte de
chaque
méthode sontjointes quelques
références relatives à sesaspects théoriques
ainsiqu’à
sesimplémentations
accessibles aux utilisateurs. Pourprésenter
ces méthodes nous les avons classées suivant la nature des tableaux de données
qu’elles permettent
de traiter.Abstract
In this paper first we formulate some remarks on relations between discrete
mathematics, computer
sciences and dataanalysis.
Then wepresent
a set of methodsusing
ordinal or combinatorialtechniques.
Booleananalysis
andgraph theory approach
forbinary data,
treerepresentations (additive
trees,n-trees),
seriationmethods for
symmetric
or notsymmetric dissimilarity
arrays,preferences aggregation procedures
and consensusproblems
are studied. For each method wegive
a briefdescription
and somebibliographic
referencesconcerning
theoreticalaspects
anddescription
ofalgorithms.
Methods are classifiedaccording
to the structures of the dataprocessed:
one or several arrays oftype I
x J or K xK,
withbinary,
ordinal orquantitative
values.* G.R.T.C. -
C.N.R.S.,
31 Ch. J.Aiguier,
13402 Marseille Cedex 9** Université Paris V et
C.A.M.S.,
54 Bd.Raspail,
75270 Paris Cedex 6Sommaire
1
Mathématiques discrètes, Informatique
etAnalyse
des données2 Introduction aux méthodes ordinales et combinatoires 3 Méthodes traitant un tableau 1 x J
(Individus
xVariables)
3.1 Variables binaires
(tableau 0-1)
3.2 Variables ordinales ou
quantitatives
4 Méthodes traitant un tableau K x K 4.1 Valeurs binaires
4.1.1 Tableau
symétrique (graphe
nonorienté)
4.1.2 Tableau non
symétrique (graphe orienté)
4.2 Valeurs ordinales ou
quantitatives
4.2.1 Tableau
symétrique (dissimilarités)
4.2.2 Tableau non
symétrique
5 Méthodes traitant
plusieurs
tableaux 1 x J ou K x K6 Conclusions
7 Références
bibliographiques
Annexe : A.B.C.D:
Logiciel d’analyses
booléennes et combinatoires de données1 MATHEMATIQUES
DISCRETES,
INFORMATIQUE ET ANALYSE DES DONNEES En sedémarquant
des modèlesprobabilistes
et de lastatistique
inférentielleclassique, l’analyse
des données a d’abord faitappel
àl’algèbre
linéaire et à lagéométrie (euclidienne
ouultramétrique)
pourdévelopper
ses formalismes et ses méthodes.Parallèlement
depuis quelques
annéesapparaissent
de nombreuses méthodesqui
relèvent des
mathématiques
des structuresfinies, qu’il s’agisse
de structuresalgébriques (treillis, monoïdes,..)
ou combinatoires(ordres, graphes, hypergraphes,..),
méthodes constituant ce
qui
a étéappelé
par Arabie(1982)
la "combinatorial dataanalysis".
A cette double
approche méthodologique
onpeut
fairecorrespondre
unebi-partition
des méthodes un peu
arbitraire;
en effet ces deux classes ne sont pas sans intersection(méthodes d’optimisation, plans d’expériences,
valuation des arbrestaxonomiques,..).
Elle a néanmoinsl’avantage
desouligner
le rôle desmathématiques
discrètes en
analyse
desdonnées,
donc l’un de sesrapports
essentiels avec la recherche eninformatique:
la définitiond’algorithmes performants
sur des structuresfinies et donc l’étude de leurs
propriétés.
Si l’on
s’interroge
sur les raisons de cetteévolution,
onpeut
d’abord remarquer que des structures discrètes et/ou desproblèmes
combinatoires découlent naturellement de certains modèles ou méthodesd’analyse
desdonnées,
notamment dans:. La formalisation de données obtenues ou de modèles cherchés
(comparaisons
par
paires, questionnaires,
réseauxsociaux, n-uplets
de variablesordinales,
modèlestypologiques
ou ordinaux tels leshiérarchies,
les échelles de Guttman ou les modèles desériation),
ainsi que la construction deplans d’expériences
pour le recueil de certaines données.. Les
traitements, qu’il s’agisse d’opérer
sur des données ou avec des modèles combinatoires dutype ci-dessus,
ou d’utiliser des méthodes combinatoires enanalyse
des
données,
parexemple lorsque
des donnéesquantitatives
sont discrétisées(graphes seuils, préordres
de relèvement sur les marges d’untableau),
ouqu’une
structure discrète est recherchée par
optimisation
d’un critère(problème d’ajustement
et de
résumé)
ou par des"manipulations"
combinatoires(permutation
delignes
et/oucolonnes,
chemins dans desgraphes..).
De tels traitements ont été
développés
au niveau international par divers chercheurs dans des domaines variés(biologie, écologie, psychométrie, économétrie, sociométrie, archéologie, anthropologie, histoire, géographie).
Souvent ils’agit
de rester"proche"
des données
recueillies,
en évitant descodages numériques
ramenant à destechniques statistiques usuelles,
auprix
d’un arbitraireparfois
difficilementjustifiable,
ou
simplement
de remarquer que certainsproblèmes classiques (recherche
d’unetypologie
ou d’unesériation), typiquement discrets, peuvent
être étudiés par des méthodespurement
combinatoires.Si actuellement les domaines
d’application
relèventplus fréquement
des sciences humaines ou sociales que des sciences de la nature ou de lavie,
il faut sans douteattribuer ce fait aux difficultés
plus grandes
que cesdisciplines
ont à décrirenumériquement
leursproblèmes (par exemple,
iln’y
a pas dequantification
"naturelle"d’un
problème
d’évolution des formesd’objets),
et aux réticencesqu’elles
ont à lesplonger
dans un espace euclidien.Sans vouloir faire un bilan au niveau international des
apports
del’Analyse
Combinatoire des
Données,
onpeut signaler quelques
unes de seslignes
directrices : .Méthodesspécifiques :
Parexemple
lesanalyses
booléennes ougaloisiennes
d’une
correspondance,
les méthodes basées sur la théorie desgraphes
en taxonomieou en sériation.
.Comparaisons
de structures : Un certain nombre de travaux concourent à unethéorie de la construction d’indicateurs de ressemblance entre données de nature combinatoire. La
définition,
la caractérisationaxiomatique
et la construction effective demétriques
sur des ensembles ordonnés(ou
desgraphes)
étant au coeur dusujet.
.Ajustements
de structures discrètes(les
"discrete models" des ouvrages deHarary
et
al., Roberts,..)
à un certaintype
dedonnées;
comme castypique,
citonsl’ajustement
d’un ordre total à une relation de
tournoi,
valué ou non..Résumés de structures : Là
aussi,
on progresse vers une "théorie del’agrégation"
qui
a notamment pour intérêt d’étudier lesrapports
entre les différentes méthodes d’obtention de consensus : constructionalgébrico-combinatoire (opérations généralisées
de moyenne et demédiane), optimisation
de critères(résumé
à distanceminimum), approche axiomatique.
.Représentations
de structures : Lesdéveloppements technologiques
del’informatique (écrans graphiques
de meilleuredéfinition)
ont rendu réalisables lesreprésentations graphiques
des structures modélisatrices de données(arbres, treillis,
graphes, hypergraphes..).
On terminera ce
rapide
tour d’horizon ensignalant
quel’Analyse
Combinatoire des Données suscite des recherches nombreuses conduisant à des travaux de troistypes
difficilement dissociables:
.Mathématiques,
parce que la formalisation deproblèmes
et de données conduit à des situationsnouvelles, points
dedépart
de recherchesspécifiques (structure
desultramétriques
ou deshiérarchies, propriétés
des relationsmédianes,
énumération de fonctionslogiques
ou deconfigurations particulières,..).
.Informatiques,
parce que la nécessité dedisposer
pour ces méthodesd’implémentations utilisables,
pour traiter des données souvent en nombreimportant,
conduit à définir des
algorithmes originaux
et des programmes efficaces. Deplus
l’étude de la
complexité
de cesalgorithmes joue
un rôleimportant, qu’il s’agisse
d’énumérer certaines structures
discrètes,
de construire le treillis de Galois d’unecorrespondance
ou de chercher des relations à distance minimum de relations données. Bon nombre de cesproblèmes
sont reconnus comme NP-difficiles(au
sensde la théorie de la
complexité algorithmique),
et dans lalignée
de recherches récentesen théorie des
graphes,
il s’avèreparticulièrement
intéressant d’étudier et de caractériser les casparticuliers
danslesquels
cettecomplexité
devientpolynomiale.
.Méthodologiques,
parce que la définition d’une méthoded’analyse
dedonnées,
souvent issue d’un
problème
concret, nepeut
éluder lesquestions
del’applicabilité,
dela
pertinence
et de lagénéralisabilité
de cette méthode pour traiter une classespécifique
deproblèmes.
Onpeut
remarquer à ce propos que dupoint
de vueméthodologique,
les méthodesprésentées
ci-dessouspeuvent
être classées en troisgrandes catégories :
Celles
qui opèrent
une transformation "réversible" sur lesdonnées,
en ce sens que celles-cipeuvent
être totalement reconstituées(par exemple,
réordonnancement deslignes
et des colonnes d’untableau,
hiérarchie desgraphes
seuils d’unedissimilarité,
treillis de Galois
étiqueté
d’unecorrespondance binaire).
Celles
qui
réduisent les données à un modèle facilementinterprétable
par desprocédures
de résumés oud’ajustements (par exemple,
ordre médian de relations depréférence, partition
centrale deplusieurs partitions).
Les méthodes mixtes combinant les deux démarches
(par exemple,
échelle deGuttman associée à une chaîne maximale du treillis de
Galois,
hiérarchie depréordres d’implications
entre variablesbooléennes).
2 INTRODUCTION AUX METHODES ORDINALES ET COMBINATOIRES
Rappelons
que nous entendons par méthodes ordinales et combinatoires les méthodesqui
mettent enjeu
des structures "essentiellement" nonnumériques
que l’onpeut
définir sur un ensemblefini,
àl’opposé
desméthodes,
souventqualifiées
delinéaires, qui s’appuient
sur la structure linéaire d’un espace euclidien.Ces méthodes se
présentent
à des niveaux variables allant d’une définitionpurement
théorique
dans unarticle,
à uneimplémentation
effective sur ordinateur. Dans l’inventaire nullement exhaustif que l’on trouveraci-dessous,
on aprivilégié
lesméthodes dont on est sûr
qu’il
existe au moins uneimplémentation.
Cette dernière assertion recouvre toutefois des réalités trèsvariées,
allant de méthodeslargement répandues
à celles oùpratiquement
l’auteur seuldispose
du programmecorrespondant
à la mise aupoint
de sonalgorithme.
Font
partie
dupremier
casquelques
méthodesclassiques
enanalyse
desdonnées,
mais
présentes
iciparcequ’elles
relèvent d’uneapproche
combinatoire(par exemple,
la méthode du lien
simple
enclassification);
on les trouve donc dans bon nombre delogiciels d’analyse
de données. Un cas voisin est celui des méthodesqui
utilisentessentiellement des notions
classiques
de théorie desgraphes,
telles que la recherche descliques
maximales. Il faut toutefois noterqu’il
n’existepratiquement
pas, du moins enFrance, l’équivalent
pour le traitement desgraphes
ouplus généralement
des
problèmes
combinatoires de ce que sont les nombreuxlogiciels disponibles
enstatistique
ou enanalyse
de données.Signalons
toutefois deuxexceptions :
leprojet
L.E.G. à l’université de Bordeaux 1
(orienté
vers laconception
d’unlangage spécifique),
et les diversprojets
CABRI au L.S.D. - C.N.R.S deGrenoble,
à l’Ecole des Mines de Saint Etienne et l’E.N.S.T. de Brest(projets
orientés vers l’aide à larecherche et à
l’enseignement). Signalons
aussi àl’étranger
lelogiciel
GRADAP auTechnisch Centrum de l’Université
d’Amsterdam, qui comprend
de nombreusesprocédures d’analyse
d’ungraphe
ou d’un réseau. Quant àl’implémentation
desméthodes ordinales et
combinatoires,
nous ne connaissonsqu’un logiciel
consacré àces méthodes : A.B.C.D.
(Analyses
Booléennes et Combinatoires deDonnées) développé
par l’un des auteurs. On trouvera en annexe un résumédescriptif
desprogrammes
disponibles.
Chaque
méthodeprésentée
ci-dessous estrépertoriée
par un titre suivi d’un bref texteexplicatif
et de références. On aprivilégié
cellesqui,
outrel’exposé
de laméthode,
contiennent la
description précise
d’uneprocédure
pour la mettre en oeuvre, voire ladescription
d’uneimplémentation.
On a toutefoissignalé, lorsqu’ils existent,
desarticles ou ouvrages de référence ou de
synthèse permettant
d’avoir une vueplus générale
sur une méthode ou un ensemble de méthodes et enparticulier
d’enconnaitre les auteurs initiaux.
Pour faciliter le
repérage
des méthodes on les a classées suivant la structure des donnéesqu’elles peuvent
traiter. On adistingué
troiscatégories principales :
-Le tableau de données est de la forme 1 x
J , où 111 ]
"individus" sont "décrits"par ~ 1 J 1
"variables".
-Le tableau de données est de la forme K x K c’est à dire
correspond
à une relationbinaire
(valuée
ounon)
sur un ensemble Kd’objets.
-On a
plusieurs
tableaux de données de la forme I x J ou K x K.Les cases des tableaux contiennent
toujours
des nombres et en ce sens ces tableaux sont tousnumériques.
Mais ces nombrespeuvent
avoir dessignifications
différentes. Ilpeuvent
être desimples
codesdésignant
diverses modalités d’une variablequalitative;
enparticulier
si la variable a deux modalités -on dit aussi une variable binaire- on utilise très souvent uncodage
en0-1;
le tableau de donnéescorrespondant
sera alorsappelé
tableau 0-1. Ces derniers seprésentent
aussi biensous la forme I x J
(description
d’individus par des attributsdichotomiques, réponses
vraies ou fausses de
sujets
à desquestions),
que sous forme K x K(présence
ouabsence d’un
couple (i,j)).
Dans d’autres cas les valeursnumériques
du tableaucorrespondent
à des rangsqu’un
individupeut
occuper sur une échelleordinale;
ondira alors
qu’on
a une variable ordinale. Enfin les valeursnumériques peuvent correspondre
à des mesures sur une échelled’intervalles;
nous dironsqu’il s’agit
d’une variable
quantitative.
Ces distinctions
permettent
de raffiner la taxonomieprécédente
des tableaux de données et d’obtenir ainsi une classification commode pour laprésentation
desméthodes. Pour des classifications
plus élaborées,
on sereportera
notamment àCoombs
(1964), Shepard (1972)
ou à Caroll et Arabie(1981).
3 METHODES TRAITANT UN TABLEAU I x J
Pour un tel
tableau,
noté aussiT,
onappelle
individu tout élément de 1 et variable tout élément de J. Ondistingue
le cas où toutes les variables sontbinaires,
de celui oùelles sont toutes ordinales ou
quantitatives.
3.1 Variables binaires
(tableau 0-1)
Par variable binaire
rappelons qu’on
entend toute variable à deux modalités. On notera J ={A, B, C, .. }
l’ensemble desvariables,
chacune(par exemple A) pouvant prendre
les valeurs a(codée 1)
et a’(codée 0).
Le tableau de données est donc untableau 0-1. Pour décrire et traiter un tel tableau nous utiliserons une
terminologie
etdes notions
empruntées
soit àl’analyse
desquestionnaires (en sociologie)
soit àl’algèbre
de Boole. Nous commençons donc parprésenter
ces deuxterminologies
ainsi que leurs relations.
Dans la
terminologie
del’analyse
desquestionnaires,
où T contient lesréponses
d’individus à des variables binaires
(questions dichotomiques),
laréponse
del’individu
i,
c’est à dire la i-èmeligne
du tableau notéeti,
estappelée
lepatron (de réponse)
de i. Plusgénéralement,
unpatron ti
est une suitetij
indexée parJ,
determes
égaux
à 0 ou à1;
ilcorrespond
à uneligne
-réelle ou virtuelle- du tableau de données. L’ensemble detous
lespatrons possibles
est noté2J.
Unsous-patron
d’unpatron
est une sous-suite de celui-ci. Deuxpatrons ti
ettk peuvent
être ordonnés par lepréordre
de dominance(des lignes) : ti
stk
ssitij
stkj
pour toutj.
L’intersection de deuxpatrons ti
ettk
est lepatron
défini par la suite(min ( tij, tkj), j
EJ);
l’union de ces deuxpatrons
est défini par la suite(max ( tij, tkj), j
EJ).
On définit de même unpréordre
dedominance et des
opérations
d’intersection et d’union pour les colonnes du tableau T.Un tableau est dit réduit si on ne considère que le sous-tableau de ses
patrons distincts;
en conservant l’effectif despatrons identiques
on obtient un tableaupondéré.
Dans la suite nous supposerons
toujours
le tableau réduit(pondéré
ounon);
dans cecas, l’ensemble des
patrons
du tableaupouvant
être identifié à l’ensemble 1 desindividus,
nous ledésignerons également
par 1.Dans la
terminologie
del’algèbre
deBoole,
on pose J ={a, b, ..j, .. },
J’ ={a’, b’, ..j’, .. },
*
et
J
= J u J’est l’ensemble des2.~ ~ ~ 1
"attributs" associésaux 1 J ] variables.
Onappelle
monôme de
longueur
k tout sous-ensemble à k éléments de J oùchaque
variableapparaît
auplus
une fois(sous
forme nonaccentuée,
dite formedirecte,
ou sous formeaccentuée,
dite formecomplémentée);
un tel monôme est noté par la concaténation des élémentsqui
le constituent. Parexemple p
= ab’d est un monôme delongueur
3.Un monôme est
complet
s’il utilise toutes lesvariables,
donc s’il est delongueur ~ 1
J1.
On remarque que l’ensemble des
2 I J ~ 1
monômescomplets correspond
à l’ensemble des atomes de"l’algèbre
de Boole libre"engendrée
par lesvariables;
celles-ci sont lesgénérateurs
de cettealgèbre (cf.
parexemple
les ouvrages de Birkhoff etBartee,
Flegg,
ou Kuntzmann cités dans labibliographie).
La relation entre
patrons
et monômes est la suivante : A tout monômecomplet, correspond
lepatron
obtenu en donnant la valeur 1(resp. 0)
à toute variableapparaissant
sous forme directe(resp. complémentée).
A un monôme noncomplet
onfait
correspondre
lesous-patron
obtenu comme ci-dessus mais en ne considérant que les variablesprésentes
dans le monôme. Inversement à toutpatron
ousous-patron
onfait
correspondre
le monôme dont les variables accentuées(resp.
nonaccentuées) correspondent
aux 1(resp. 0).
Si dans unpatron ti
ona tij
= 1(resp. 0)
on dit aussi quele
patron possède l’attribut j (resp. j’).
Soit T un tableau
et g
un monôme. On noteT(g)
l’ensemble despatrons
de Tadmettant comme
sous-patron
lesous-patron correspondant
à p,; parexemple T(a’c)
est l’ensemble des
patrons
de Tayant
0 enpremière
et 1 en troisièmeposition.
Onnote
nT(Jl)
ouplus simplement n(~},
lenombre ~ 1 T(Jl) 1
de telspatrons.
On dit que lemonôme g implique
le monôme v siT(g)
çT(v)
et dans ce cas on note J.1~v.. Enumération des monômes vides
Un
monôme p
est ditT-vide,
ousimplement vide,
siT(Jl)
est vide. Si J.1 est delongueur
2 on
parle
aussi de case vide. L’existence d’un monôme videpeut s’interpréter
dedifférentes
manières, équivalentes,
sous formed’implications
entre les monômesqu’il
contient. Par
exemple
ab’ vide(qui signifie
que pour aucuneligne
du tableau on ne trouve la valeur 1 pour A et 0 pourB) peut s’interpréter
comme a -~ b(en
effetlorsqu’un
patron de Tpossède
l’attribut a, ilpossède également b, puisque
l’on n’ajamais ab’),
ou comme b’ -~ a’. De même ab’c videpeut s’interpréter
comme ac - bou b’c -~ a’ ou encore a -~ b v c’
(a implique
b ouc’)
etc ..Considérons l’ensemble des monômes vides de
longueur
2 detype
ab’(ou a’b),
c’està dire avec une seule forme
complémentée.
En associant à ces monômes lesimplications
a - b(ou
b -a),
on obtient une relation depréordre
sur J. Cepréordre d’implications
entre variables est le dual de leurpréordre
de dominance.Plusieurs
algorithmes
ont étéproposés
pour l’énumération des monômes vides d’un tableauT;
certains sont décrits parFlegg
ou Flament. Le meilleur(car
il seprête
à denombreuses
adaptations)
reste celui de Kuntzmann.Une méthode de construction de familles minimales
d’implications
entre monômes, dans le cas oùon ne s’intéresse
qu’aux
formes directes desvariables,
fortementdépendante
du treillis de Galois~cf. infra) correspondant
à T, sera décriteplus
loin.FLAMENT
Cl., L’analyse
booléenne dequestionnaire, Mouton, Paris, 1976.
FLEGG H.G.,
L’algèbre
de Boole et son utilisation, Dunod,Paris, 1967.
KUNTZMANN J., NASLIN P.,
Algèbre
de Boole et MachinesLogiques,
Dunod, Paris, 1967..
Graphes d’implications
A deux variables A et
B,
on associe lesquatre
monômes delongueur
2 :ab, ab’, a’b,
a’b’. Les effectifsnT(Jl)
de cesquatre
monômes forment le tableau croiséclassiquement
associé aux deux colonnes A et B du tableau T. Pour chacun de cesmonômes,
parexemple g
=ab,
on calcule lesquotients nT(ab)
/nT(a~
etnT(ab)
/nT(b).
Ils
représentent
lepourcentage
de cas où dans T on observe lesimplications
au b etb -~ a. A un seuil s fixé de ce
pourcentage,
on faitcorrespondre
l’ensemble desimplications pour lesquelles
leurquotient
estsupérieur
à ce seuil. On définit ainsi surl’ensemble
J
de sommets, ungraphe d’implications
au seuil s, dont on extrait ungraphe
transitif maximal. En faisant varier le seuil s, on obtient une famille depréordres
emboîtés.GUENOCHE A., Fonctions booléennes sur un tableau en
0/1,
DataAnalysis
andInformatics
4, DIDAY E. et al. Eds., NorthHolland, Amsterdam, 1986,
p. 443-451.. Couvertures
minimales
Etant donné un tableau
T, appelons
T’ le tableau formé de tous lespatrons qui n’apparaissent
pas dans T. Si unmonôme 1.1
estT’-vide, T(J.1)
est non vide et définit unepartie
de 1 que l’on dit couverte par 1.1. Un ensemble{~1,
..J.1k}
de monômes tels que :est une couverture de 1. Il existe différents critères
permettant
de direqu’un
telensemble est
minimal;
deplus
pour le même critère ilpeut
existerplusieurs
ensembles minimaux couvrant 1. La recherche de tels
ensembles,
pourl’expression
booléenne obtenue en considérant tous les monômes
T’-vides, correspond
à cequi
est
appelé
enalgèbre
de Boole la recherche de formes normalesdisjonctives
minimales
(par rapport
au critèrechoisi)
d’uneexpression
booléenne. Construire une couverture minimale est unproblème
NP-difficile.Les méthodes de minimisation d’une
expression (ou fonction)
booléenne sont utiliséesdans le cadre de
l’analyse
booléenne dequestionnaire présentée ci-dessous,
ainsique dans les méthodes
développées
parLedley.
Un cas
particulier
intéressant est celui où l’on cherche une couverture minimale d’un sous-tableau de T(par exemple T(a)).
Si l’on choisit des monômesT(a’)-vides
pour réaliser cette couverture, leur réunion constitue une fonction discriminante entreT(a)
etT(a’),
c’est à dire que cette fonctionprend
la valeur 1(resp. 0)
ssi un patronappartient
àT(a) (resp. T(a’)).
BIRKHOFF
G.,
BARTEET.,
ModernApplied Algebra,
Mc.Graw-Hill,
NewYork, 1967.
GUENOCHE
A., Propriétés caractéristiques
d’une classe relativement à un contexte, Actes des Journées"Symbolique numérique", Paris,
Décembre 1987.KAUFMANN
A., PICHAT E.,
Méthodesmathématiques
nonnumériques
et leursalgorithmes,
2tomes,
Masson, Paris, 1977.
KUNTZMANN
J., Algèbre
deBoole, Dunod, Paris, 1968.
LEDLEY R.,
Digital
electronic computers in biomedicalsciences, Science, 130, 1959,
p.1225-1234.
.
Analyse
booléenne dequestionnaire
Elle a été définie dans un contexte où J
représente
un ensemble dequestions
àréponses dichotomiques.
On construit àpartir
de T et d’une valeur as1,
le tableau réduitTa
=la
x J formé de tous lespatrons présents
au moins a fois dans T. On cherche ensuite un ensemble minimal de monômesT’a-vides,
couvrant1,,,
le critèreretenu
pouvant
être de minimiser lalongueur
de ces monômes. Un tel ensemble minimal estappelé
ensemble deprojections canoniques
ultimes(p.c.u.)
etpeut
s’interpréter (de
différentesfaçons)
comme un ensembled’implications
entre desréponses
à desquestions
ou groupes dequestions.
Le choix de a, laissé àl’utilisateur, peut
êtreguidé
par la facilitéd’interpréter
les p.c.u, facilitédépendant
deleur
longueur.
Enparticulier
si toutes les p.c.u. sont delongueur :9 2,
elless’interprètent
comme unpréordre d’implications
entre lesréponses (a
oua’)
auxquestions.
Dans son article VanBuggenhaut
cherche le seuil minimal pourlequel
onse trouve dans cette situation.
DEGENNE
A., Techniques
ordinales enanalyse
des données:Statistique, Hachette, Paris, 1972.
FLAMENT Cl., L’analyse
booléenne dequestionnaire,
Mouton,Paris,1976.
VAN BUGGENHAUT
J., Questionnaires
booléens : schémad’implications
etdegré
de cohésion,Math. Sci.
hum., 98, 1987,
p. 9-20..
Graphe
médianSoit T un tableau ne contenant pas deux colonnes
complémentées
i.e. où les 1(resp.
0)
d’une colonnecorrespondent
aux 0(resp. 1 )
de l’autre. On lui associe ungraphe
non orienté
appelé graphe
médian deT;
ses sommets sont les monômescomplets qui
ne contiennent aucun monôme T-vide de
longueur 2;
deux sommets sont reliés parune arête s’ils ne diffèrent que par une variable
(par exemple si ~ 1 J 1
=4,
ab’c’d etab’cd sont
liés).
Les sommets de cegraphe correspondent
auxpatrons
"réels"présents
dans T ainsiqu’à
despatrons latents, rajoutés
dans la mesure où ilsn’introduisent pas de combinaisons nouvelles des valeurs de deux variables. On montre que ces
patrons
latents sont ceuxengendrés
par itération del’opération
"médiane"
(opération qui
à 3patrons
associe l’union de leurs intersections deux àdeux)
sur lespatrons réels,
et que legraphe
obtenu est connexe et médian. Deplus,
par
construction,
la distancegéodésique (nombre
d’arêtes d’uneplus
courtechaîne)
entre deux sommets de ce
graphe
estégale
à la distance de la différencesymétrique
entre les deux
patrons correspondants.
BARTHELEMY J.P., From
copair hypergraphs
to mediangraphs
with latentvertices, Annals of
discrete
maths., 1988.
BARTHELEMY J.P., GUENOCHE A., Les arbres et les
représentations
desproximités,
Masson,Paris,
1988..
Graphe
distributifOn associe au tableau T un
graphe
non orientéappelé graphe
distributif de T.L’ensemble des sommets de ce
graphe
est l’ensemble des monômescomplets
necontenant aucun monôme T-vide de la forme ab’
(ou a’b);
c’est un sur-ensemble des sommets dugraphe
médian. De même que dans cedernier,
deux sommets sont reliés par une arête s’ils ne diffèrent que sur une variable. Les sommets de cegraphe correspondent
donc auxpatrons
effectivementprésents
dans T ainsiqu’à
tous lespatrons rajoutés
dans la mesure où ils n’introduisent pas de combinaisons nouvelles de valeurs de variables dutype
10(ou 01).
On montre que cespatrons rajoutés
sontceux obtenus à
partir
despatrons présents
par itération de deuxopérations
union etintersection de
patrons.
Legraphe
obtenu est connexe, contient comme sousgraphe
le
graphe
médianprécédent (lorsque
celui-ci estdéfini),
etpeut
être orienté pour constituer lediagramme
d’un treillis distributif.Ce treillis distributif
correspond
au treillis distributif des"parties
finissantes" de l’ensemble J ordonné par l’ordre de dominance entre variables; dans le contexte del’analyse
dequestionnaire,
ilest aussi
appelé
tresse de Guttman.MONJARDET B., Tresses, fuseaux,
préordre
ettopologies,
Math. Sci. hum.,30,1970, p.11-22.
.
Graphe
de BunemanAu tableau T = 1 x
J,
on associe ungraphe
dit bunemanien de T. Les sommets sont les éléments de J et deux colonnes sont reliées par une arête si le tableau croisécorrespondant
contient au moins une case vide. Si le bunemanien de T est ungraphe complet,
alors legraphe
médian de T est un arbre et tous ses sommets sont des sommets réels.Sinon,
soit C ç J uneclique
maximale de cegraphe (cf. § 4.1.1.);
onlui associe un arbre dont les sommets sont les ensembles de
patrons
du sous-tableau 1 xC;
les arêtescorrespondent
aux variablesprésentes
dans C et sont définies commepour le
graphe
médian. Cet arbre est tel que lasuppression
d’une arêteproduit
unebipartition
desindividus, bipartition
associée à la variablecorrespondante (individus ayant
la valeur 0 dans uneclasse,
ceuxayant
la valeur 1 pour cette variable dansl’autre).
Le recouvrement de J par une famille decliques
constitue unedécomposition
arborée de T.
BARTHELEMY J.P., GUENOCHE A., Les arbres et les
représentations
desproximités,
Masson,Paris,
1988.BUNEMAN
P.,The
recovery of trees from measures ofdissimilarity,
Mathematics inArchaeological
and HistoricalSciences,
Hodson F.R. et al.Eds, Edinburgh University
Press, 1971, p. 387-395..
Seamentation dichotomique
Le choix d’une variable A
permet
de subdiviser le tableau en deux sous-tableaux formés des monômescomplets (patrons)
contenant soit a soit a’.L’application
récursive de cette subdivision
permet
de construire un arbre binaire declassification,
donc une classification
hiérarchique
sur l’ensemble despatrons.
Les critères de choixdes variables sont fondés sur un calcul de distance entre les classes résultantes. La distance du
2
est lap lus
utilisée.Quand
on cherche à construire une fonction discriminante entre classes d’individus décrits par des variablesbinaires,
on peutégalement
construire un tel arbre desubdivision, jusqu’à
ce quechaque
feuille de l’arbre soit incluse dans une des classes de la
partition
initiale. C’est un desproblèmes classiques
del’apprentissage
àpartir d’exemples.
GUENOCHE
A., Propriétés caractéristiques
d’une classe relativement à un contexte, Actes des Journées"Symbolique numérique", Paris,
Décembre 1987.WHALLON R., A new
approach
to potterytypology,
AmericanAntiquity, 37, 1, 1972, p.13-33.
. Fonctions dilemmes
A trois variables
A,B,C
on associe les huit monômes delongueur
3 :abc, a’bc, ab’c,
..a’b’c’,
ainsi que lapartition correspondante
despatrons : T(abc), T(a’bc),
..T(a’b’c’).
Siau moins deux de ces huit classes sont
vides,
onpeut
trouver unedisjonction
exclusive de monômes
(dite
fonctiondilemme) équivalente
à ladisjonction
desmonômes de
longueur
3 non vides. A cettedisjonction
exclusive est associée unepartition
despatrons.
Parexemple
siab’c, a’bc,
a’bc’ et a’b’c’ sont non vides on obtient ladisjonction équivalente
a v b vb’c’,
et lapartition T(a), T(b)
etT(b’c’)
despatrons.
Le choix de trois variables du tableau
permet
d’obtenir une(ou plusieurs) fonction(s)
dilemme(s)
et la(les) partitior(s) correspondante(s)
despatrons.
Pourchaque
classeobtenue on
peut
réitérer laprocédure
en choisissant trois autres variables. Ces choix successifs sont faits par l’utilisateur(en
fonction des cardinaux des classes résultantesou des
possibilités d’interprétation
des résultatsobtenus).
On construit encore un arbre de subdivisionqui
n’estplus
nécessairement binaire.GUENOCHE A., Classification
using
dilemmafunctions, Computational
StatisticsQuarterly,
2, 1,1985, p. 103-108.
. Blocs
réguliers
et/ouhomogène
Un sous-tableau l’ x J’de 1 x J est dit
régulier
si chacune de seslignes
contient aumoins un
1;
il est dithomogène
s’il ne contient que des 0 ou des 1. Si de tels sous-tableaux sontengendrés
par le croisement de deuxpartitions,
l’une sur 1 l’autresur
J,
on ditqu’on
a unepartition
du tableau en blocsréguliers
et(ou) homogènes.
Dans
l’algorithme développé
par Arabie etal.,
on cherche de tellespartitions
"signifiantes"
dont les blocshomogènes
sont des blocs de 0. On notera que latechnique adoptée
utilise uneanalyse
factorielle d’une matrice decorrélation,
cequi
fournit un
exemple
de méthode où un modèle combinatoire est recherché par unetechnique d’algèbre
linéaire. De même unalgorithme itératif,
dû àGovaert,
basé surles classifications simultanées de 1 et
J,
converge vers unepartition
localementoptimale
du tableau initial en blocs presque"homogènes"
de 0 et de 1. Ces méthodes ontété
développées
dans le contexte del’analyse
de réseaux sociaux.ARABIE
Ph.,
BOORMANA.,
LEVITT P.,Constructing
block models : how andwhy, Journal of Mathematical Psychology, 17, 1978,
p. 21-63.DEGENNE
A.,
FLAMENTCl.,
La notion derégularité
dansl’analyse
des réseauxsociaux,
Bull.de
Méthodologie Sociologique, 2, 1984,
p. 3-16.GOVAERT
G.,
Classification simultanée de tableauxbinaires,
DataAnalysis
andInformatics
3,Diday
E. et al. Eds.,North-Holland, Amsterdam, 1984,
p. 223-236.. Treillis de Galois
Un sous-tableau de T ne contenant que des 1 est aussi
appelé rectangle
de T et notéA x B
(A
c1,
B cJ).
Lesrectangles
maximaux(i.e. qui
nepeuvent
êtreagrandis
ni enligne
ni encolonne)
constituent les éléments du treillis de Galois de T. L’ordre de cetreillis est donné par la relation suivante entre deux
rectangles
maximaux :A x B ~ C x D si et seulement si A ç C et
(ou)
B 2 D.Si le treillis de Galois de T est un
préordre
total(i.e.
se réduit à unechaîne),
onpeut
donner à T une forme d’échelle de
Guttman,
où tous les 1 du tableau sontséparés
detous ses 0 par une frontière en escalier. Une relation entre 1 et J
qui possède
cettepropriété s’appelle
aussi une relation de Ferrers ou un biordre.D’un
point
de vuepratique,
si l’on est seulement intéressé par la liste desrectangles maximaux,
on utilisera soitl’algorithme
de Ganter si leur nombre esttrop important
pour
qu’ils
soientmémorisés,
ou que l’on ne cherche que ceux d’une certainetaille,
soitl’algorithme
deNorris, plus rapide
maisqui
nécessite degarder
en mémoire laliste de tous les
rectangles
maximaux. Si l’on veutégalement
les relations d’inclusion entrerectangles,
on utiliseral’algorithme
de Bordat.Le treillis de Galois est
isomorphe
etanti-isomorphe
aux deux treillis departies
de 1 et de J obtenusen prenant les intersections soit des colonnes soit des
lignes
de T(en rajoutant
éventuellement unecolonne ou une