R ÉGIS G IRARD
H ENRI R ALAMBONDRAINY
Recherche de concepts à partir de données arborescentes et imprécises
Mathématiques et sciences humaines, tome 147 (1999), p. 87-111
<http://www.numdam.org/item?id=MSH_1999__147__87_0>
© Centre d’analyse et de mathématiques sociales de l’EHESS, 1999, tous droits réservés.
L’accès aux archives de la revue « Mathématiques et sciences humaines » (http://
msh.revues.org/) implique l’accord avec les conditions générales d’utilisation (http://www.
numdam.org/conditions). Toute utilisation commerciale ou impression systématique est consti- tutive d’une infraction pénale. Toute copie ou impression de ce fichier doit conte- nir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
RECHERCHE
DECONCEPTS À PARTIR DE DONNÉES
ARBORESCENTES ET IMPRÉCISES Régis GIRARD1, Henri RALAMBONDRAINY1
RÉSUMÉ -
Dans cet article, nous proposons unformalisme
dereprésentation
de donnéesstructurées et
imprécises,
les ArborescencesSymboliques
Nuancées(ASN), qui
estfondé
sur la notiond’attribut-valeur. Les ASN nous permettent de
représenter
des entitéscomposées
departies
etsous-parties
dont les
caractéristiques
peuvent êtreimprécises,
inconnues ou bieninapplicables
et prenant en compte les liens pouvant exister entre les valeurs desdifférentes caractéristiques.
Nous nous intéressons à la recherche de concepts à
partir
d’un ensemble d’entités décrites par les ASN. Ladéfinition
des concepts repose sur une extension des treillis de Galois au cas de données arborescentes et nuancées. Pour rechercher les concepts, nousprésentons
unalgorithme
incrémental permettant de calculer un treillis extrait du treillis de Galois enélagant
les concepts tropgénéraux.
MOTS-CLÉS -
Données arborescentes, nuances, concepts, treillis de Galois.SUMMARY -
Finding
concepts fromfuzzy symbolic
rooted tree dataIn this article, we propose
a formalism (ASN)
to deal withimprecise
and structured data described with attributes andimprecise
values. The ASN allow us to represente entities that arecomposed
with parts andsub-parts ;
values may beimprecise,
unknown and the attributes may be notapplicable.
We can also takeinto account constraints that exist between the values
of
the attributes.We aim to
find
conceptsfrom
a setof
entities described with ASN.Concepts
aredefined from
anextension
of
the Galois latticetheory
to deal withimprecise
and structured data. Tofind
concepts, we propose an incrementalalgorithm
that compute a lattice conceptsextracted from
the Galois lattice where the toogeneral
concepts - inregard
to agiven
criteria - are notcomputed.
KEYWORDS - Structured data,
imprecision,
concepts, Galois Lattice.1 INTRODUCTION
Classer des
objets ayant
despropriétés
communes est une nécessité dans bien des disci-plines scientifiques.
Avant depouvoir
automatiser un processus declassification,
uneétape
incontournable est celle du transfert de la connaissance par un
expert
du domaine.Or,
dans
beaucoup
dedisciplines,
et enparticulier
dans les domaines des Sciences de la Na-ture, lorsqu’on
demande à unexpert
de décrire unobjet
ou la connaissancequ’il
a de sondomaine,
on constate que l’informationqu’il
transmet est d’unepart,
structurée et d’autrepart,
entachéed’imprécision
et de nuancesqu’il exprime
par des termeslinguistiques.
La modélisation de donnés et
concepts
structuraux enApprentissage
a été abordéesous différents
angles.
Onpeut
citer à titred’exemple
lesreprésentations qui
utilisent’ IREMIA, Université de La Réunion, 15 avenue Renée Cassin, BP 7151, 97715 Saint-Denis
Messag.
Cedex 9, e-mail :
rrgirard @uni v-reunion. tr,
ralambon@univ-reunion.frdes réseaux
sémantiques [24],
le formalisme desgraphes [5]
et les ensembles des termes[8, 9, 17].
Cessystèmes
dereprésentation
sontplus puissants
que lareprésentation
par attribut-valeur maissupposent toujours qu’une propriété
est soit vraie soit fausse. Cela pose unproblème
pour le traitement de données issues parexemple
des Sciences de la Nature. Eneffet,
lesexperts
utilisent très souvent des termesimprécis exprimant
desfréquences,
des intensités pourqualifier
les valeursqu’ils
accordent auxpropriétés
leurpermettant
de décrire desespèces
ou des genres ; leursdescriptions
sont ainsi nuancées. Ilest aussi courant que des
propriétés
soientapplicables
dans certains cas etinapplicables
dans d’autres.
Mais comment
manipuler
des données structurées etimprécises?
D’un
côté,
les méthodes usuelles del’analyse
de données et de la classification automa-tique supposent
que les observations sont décrites de manièreprécise
et nemanipulent
pas de données structurées. Certainsalgorithmes d’apprentissage [18, 20] prennent
encompte
les valeurs inconnues ouimpossibles,
mais de manière adhoc, l’intégration
de ces valeursdans le
langage
dereprésentation
n’est pastoujours
claire.D’un autre
côté,
laplupart
des travaux en classification floue concernentl’adaptation d’algorithmes
de classificationautomatique manipulant
des données décrites par des vec-teurs de IRP. En
particulier, beaucoup
d’auteurs ont travaillé sur lagénéralisation
desalgorithmes
detype
« c-means » en introduisant leconcept
departition
floue[3, 4]. À
partir
de l’ensemble desobservations,
on calcule despartitions
floues. Les classes ainsitrouvées sont décrites de manière extensive : à
chaque
classe est associé un ensemble d’ob-jets
luiappartenant
avec undegré plus
ou moins élevé. Il s’ensuitqu’il
n’est pas aiséd’interpréter
ces classes et d’en extraire desconcepts.
2
REPRÉSENTATION
DESDONNÉES
ET DESPROPRIÉTÉS
Il existe différentes manières de
représenter
des données sous forme d’arborescences. Nous décrivons le modèle des termes avant d’aborder notre formalisme.2.1 LE
MODÈLE
DES TERMESLe
langage
des termes est trés utilisé dans de nombreux domaines del’informatique (calcul formel, logique,
théorie deslangages,...).
Ilsert,
enparticulier,
pour laspécification
deprogrammes. Daniel-Vatonne
[8, 9]
propose dereprésenter
à l’aide d’un tel modèle unensemble
d’objets
pourl’apprentissage
de connaissances. Les termes sont définis àpartir
d’une
signature, qui permet
leur construction :DÉFINITION
2.1 Unesignature
est unquintuple (S, F,
a, a,base)
où :- S est un ensemble
fini
detypes
- F est un ensemble
fini
desymboles
- a est une
application surjective
de F dans S. Pourf
eF, désigne
letype
def
- a est une
application
de F dans S*(l’ensemble
des motsf ormés
àpartir
des éléments deS).
Pourf
EF, a(f) fixe
l’ordre et letype
desarguments
def.
Sif
n’a pasd’argument, a( f )
est le mot vide noté é.- base est une élément de S
appelé type
de baseCette
signature permet
degénérer
pourchaque type
un ensemble de termesparticulier.
Afin de
pouvoir manipuler
desdescriptions partielles,
pourchaque type s
onajoute
àla
signature
unsymbole spécial Qs interprétable
par « il existe une information detype
s mais on ne connaît pas ou ne s’intéresse pas à sa valeur ». Les termes contenant au moins un
symbole Os
sont desdescriptions partielles
relativement aux termes entièrementFIG. 1 -
Représentations
arborescences de termesspécifiés.
Ilspermettent
dereprésenter
des classes et des données sontreprésentées
dansun même formalisme.
Exemple
2. 1 Soient S =fp, f, cl
et F =fpile, f inpile, boule, cube, jaune,
et
l’application a dé finie
comme suit :pile : fcp -
p;f inpile :
p - E; boule:-+E; cube :
f -
E;jaune :
c -~ E; vert :- E;. Une boulejaune : pile(boule, jaune, fcnpile),
un cube vert :pile(cube, vert, finpile)
et une boule dont on ne s’intéresse pas à lacouleur :
pile(boule,Oe,finpile)
sontreprésentés
dans lafigure
1.L’ensemble des termes est muni d’une structure de treillis et une
correspondance
de Galoisest définie entre un ensemble
d’objets
et le treillis des termes. Parrapport
aux méthodesclassiques
de classificationconceptuelle [13, 23],
le formalisme des termesprésente
l’avan-tage
depouvoir
traiter des donnéesplus
riches car arborescentes.Cependant
lasémantique
de la
description partielle
neprend
pas encompte
de manière satisfaisante l’informationpertinente qu’est
l’absence d’uncomposant (branche, sous-arbre)
pour des données struc- turées. D’autrepart
ce modèlen’intègre
pas la notion de domaine(ensemble
de valeurspossibles)
d’un attribut. Ceci nepermet
pasl’exploitation
despropriétés (structure
hié-rarchique)
ou contraintespouvant
exister sur les valeurs des attributs pour la création deconcepts. Enfin,
le modèle suppose les donnéesparfaitement
définies.2.2 LES ARBORESCENCES
SYMBOLIQUES NUANCÉES
En
analyse conceptuelle,
l’extraction deconcepts
àpartir
de donnéestabulaires,
à valeursbinaires ou ordinales en utilisant les treillis de Galois a été
largement
étudiée[12, 13,
23].
Nous proposons dans cet article de traiter des données nonplus tabulaires,
maisarborescentes et dont les valeurs sont structurées sous forme de treillis.
Le formalisme des Arborescences
Symboliques
Nuancées est fondé sur les travaux deRalambondrainy [21].
Celui-ci repose sur unedescription
àpartir
d’attributs et de valeursauxquelles
on associe des ensembles de nuances structurés sous forme de treillis. Ces treillis de nuancespermettent
de modéliserl’imprécision
relative aux valeurs descaractéristiques
d’une observation donnée et offre la
possibilités
d’avoir des valeurs noncomparables.
Re-marquons que l’utilisation de treillis est
prévue
dans les théories de lalogique
et desensembles flous pour évaluer le
degré
de véracité d’un énoncé mais peu utilisée dans lapratique.
Citons les travaux deGinsberg qui s’appuie
sur un bitreillis de « croyances »[14].
pourgérer
lamise-à-jour
d’un énoncé dans les bases deconnaissance,
les travaux de Sallantin[22]
enapprentissage symbolique.
Les attributs dans notre modèlepeuvent
être detype simple
ou structuré offrant ainsi lapossibilité
demanipuler
des données de naturearborescente. Enfin la définition de contraintes entre les valeurs des attributs
permet
dereprésenter
des connaissances sur le domained’application.
2.2.1
Représentation
del’imprécision
Pour
prendre
encompte l’imprécision,
nousqualifions
les valeurs d’un attribut par desnuances. Le terme de nuance que nous
employons
est un termegénérique regroupant
les différentes manières dequalifier
la valeur d’un attribut. Les nuances nouspermettent
deFIG. 2 - Treillis de nuances d’accord et d’intensité
FIG. 3 -
Exemple
de taxonomie pour la couleur desprendre
encompte l’imprécision, l’intensité,
la croyance ou lasubjectivité
relative à lavaleur observée d’un attribut par
rapport
à sa valeur réelle. D’une manièregénérale,
onreprésentera
une nuance par un ensemble desymboles
muni d’une structure de treillis dont la relation d’ordres’interprète
en terme deprécision.
Par convention les extremum d’un treillis de nuances sonttoujours désignés
par les mêmessymboles
etreprésenteront toujours
la même information. L’élément maximal est noté 1 etreprésente l’impossibilité
ou l’absurdité de donner une valeur
particulière
de son domaine à un attribut. L’élément minimal est noté * etreprésente
l’indétermination totale concernant la nuance que l’on associe à une valeurparticulière
d’un attribut.La
figure
2 montre des treillisreprésentant
différentes nuances que l’on utilisera dans lesexemples qui
suivront. Pourreprésenter
les donnéesprécises usuelles,
on utilise la chaînede nuances
VÕ ==
Afin de facilementpouvoir interpréter sémantiquement
les treillis de nuances, nous limitons ces derniers à des treillis unions
disjointes
de chaînes.DÉFINITION
2.2 Un treillis de nuances est un ensemble V desymboles
ordonnéayant
un
plus grand
élément1,
unplus petit élément *,
tel queV v ~ ~,1 ~
est uniondisjointe
de une ou
plusieurs
chaînesCi :
où ED désigne
la somme linéaire etU
l’uniondisjointe.
2.2.2 Domaine des attributs
Nous ne considérons que des attributs
simples
dont l’ensemble des valeurspossibles D,
oudomaine,
est un ensemblediscret,
éventuellement muni d’une structure d’arbre.Par
exemple,
pourreprésenter
la couleur des yeux d’une personne, on pourra utiliserun attribut
symbolique
Couleur- Yeux dedomaine (bleu, vert, gris,
marron,noirl.
Maissi l’on veut
pouvoir
décrire une personne ou untype
de personnequi
a les yeux clairs oubien dont la couleur des yeux est
indéterminée,
onpréférera
utiliser une taxinomie tellecelle de la
figure
3.Il est
toujours possible
de munir un domaine d’une structure desup-demi
treillis enprenant
comme relation d’ordre l’inclusion et commeopérateur
sup l’union. Pourrepré-
senter dans un même cadre des domaines structuré ou non, on définit sur
chaque domaine,
FIG. 4 -
Exemple
de valeurqualifiée
une structure de treillis où la relation d’ordre est
interprétée
comme une relation degéné- ralisation/spécialisation.
DÉFINITION
2.3 On munitchaque
domaine discretD,
d’urce relation d’ordre et d’une structure de treillis(D, ,
V,A, *, 0)
ert luiadjoignant
un maximum et minimum. La rela- tiond’ordre,
notée~,
est obtenue erc inversant l’ordre induit parl’opérateur
d’inclusion :la valeur x est dite
plus générale
que y.Notons que le choix de choisir comme relation d’ordre la relation inverse de d’inclusion est motivé par le fait que
plus
une valeur estgénérale,
moins on a d’information sur cette valeur.2.2.3 Attributs
simples
DÉFINITION
2.4 Un attributA,
ditsimple,
est untriplet (D, V, [A])
où :D E D est son
domaine,
c’est à dire un ensemble de valeurs élémentairesayant
unestructure de treillis
V E v est un treillis de nuances
QA~ Ç VD
est son treillis devaleurs,
valeursqui
sont ditesqualifiées
DÉFINITION
2.5 Une valeurqualifiée
pour un attribut A est uneapplication M
de sondomaine D dans le treillis de nuances V
qui
lui est associé.La valeur
qualifiée M peut
être vue comme une fonctiond’appartenance
de la valeur de l’attribut A à l’ensemble Dqui prend
ses valeurs dans le treillisV,
c’est donc un sous-ensemble flou de
D,
au senslarge,
que l’onappellera
ensemble T-flou(le
Tindiquant
lastructure de treillis de l’ensemble de
nuances).
La
représentation classique
dudegré d’appartenance
dans la théorie des sous-ensembles flous est une valeur réelle dans l’intervalle[0, 1].
Laplupart
dutemps
lesdescriptions
d’observations du monde réel sont faites de manière discrète et les termes
linguistiques
que l’on utilise pourexprimer
diverses nuances sur cesdescriptions
sont par essencediscrets,
c’est
pourquoi
dans notre cadre les ensembles T-flous sontplus appropriés
que les ensemblesflous
classiques.
Exemple
2.2 Considérons un attribut Couleur dont le domaine D est le treillis degauche
de la
ligure 4,
construit àpartir
d’une taxinomie etauquel
on associe le treillis de nuancesLa valeur
précise jaune
pour cet attribut estreprésentée
par lemorphisme
J1jaune tel que :J-ljaune(*)
’J1jaune(clair)
= 1 etJ-ljaune(blanc) == J1jaune(orange) ==
J-ljaune(marron) == J1jaune(fonce)
=0,
c’est l’ensembleT-flou
représenté
par le treillis de droite de lafigure 4.
FIG. 5 -
Représentation graphique
d’un attribut structuréL’ensemble des valeurs
qualifiées
d’un attribut(D, V, [A])
est muni d’une structure detreillis induite par celle existant sur V telle que :
Le
plus petit
élément du treillisVD
est la valeurqualifiée
* : D - V telle que b’~ ED, *(d) =
* c’est à dire la fonctionqui,
àchaque
élément dudomaine,
associe lanuance indéterminé. Le
plus grand
élément est la valeurqualifiée
1 : : D - V telle que dd ED, -1(d) ==
1 c’est à dire la fonctionqui,
àchaque
élément dudomaine,
associe lanuance
impossible
ouinapplicable.
La relationd’ordre
est une relation degénéralisation ;
on dira que la valeur
qualifiée
Il estplus générale
que v, et onappelle
J-l V v legénéralisé
de fi et v, c’est à dire la
plus spécifiques
des valeursplus générales
que p et v.L’ensemble des valeurs
[A]
d’un attributsimple
A n’est pas forcémentégal
à l’ensemblede ses valeurs
qualifiées,
en revanche c’esttoujours
un sous-treillis deVD
dont le maximum est1;
lr minimum est * etqui
est ordonné par la relation degénéralisation
induite decelle existant sur
V D. [A]
est l’ensemble des valeursqualifiées permises
pour l’attribut A.2.2.4
Attributs structurésPour
représenter
descomposants
d’une entitéstructurée,
on considère la notion suivante :DÉFINITION
2.6 Un attribut A est dit detype
structuré s’il regroupe un ensemble d’attri- butsAi,
où lesAi
pour i = 1... p sont des attributs distincts detype simple
oustructuré,
on note : A =
(A l , ... , Ap) .
Exemple
2.3 Onpourrait,
parexemple,
décrire uneplante
en utilisant les attributssimples
suÍvants:
(DC, V4, TC),
oùDc
est un ensemble desymboles désignant
descouleurs,
Forme =
(DF, v4, TF),
oùDF
=(ovale, pointue, largel désigne
lesformes possible
des
feuilles,
Inflorescence
=(DI, v2, TI),
oùDI en épi,
en grappe,isoléel désigne
letype d’inflorescence,
Localisation =
(DL, Va, TL),
oùDL
est un ensemble desymboles désignant
les loca-lisations
possibles
de laplante,
et à
partir
de cesattributs,
ondéfinit
les attributs structurés Feuilles =(Forme, Couleur),
Fleurs =
(Couleur, In f lorescence)
etfinalement
Plante =(Feuilles, Fleurs, Localisation)
La
figure
5 montre lareprésentation graphique
de l’attribut structurée Plante.PROPOSITION 2.1 L’ensemble
[A]
des valeurs de A :QA~ _
E E~A2~ ~
a une structure de treillis.L’ensemble des valeurs
~A~
est définirécursivement,
siAj
est un attributsimple [Aj]
estle treillis de ses valeurs
qualifiées permises,
siAj = (A~ 1, ... ,
alorsQA~ ~ =
x... X c’est un treillis comme
produit
de treillis. Pour ces mêmeraisons,
l’ensembleFIG. 6 -
[4]
est un treillis. La relation d’ordre sur[A]
est induite de celles existant sur les l’on a :Cet ordre est une relation de
généralisation
et on dira que la valeur /1 estplus générale
que la valeur
y.
2.2.5 Contraintes entre les attributs.
Les valeurs des attributs
peuvent
être liées entre elles par descontraintes,
comme le montrel’exemple
suivant. Ces contraintespeuvent,
apriori,
aussi bienporter
sur des valeurs d’attributssimples
que structurés.On note
nA (/1)
laprojection
sur l’attributAj
telle que pour l’attribut structuré A =Exemple 2.4
On veut décrire des personnes àpartir
d’un attribut structuré Personne =(Sexe, Age, ServiceNational), définit
àpartir
des attributssimples
Sexe -(Ds,Ys,Ts), Age = (DA, VA, TA),
et ServiceNational =(DsN, VSN, TSN)
tels que :Ds ! f ~, Vs
=V2
et l’ensemble des valeurspossibles
de l’attribut Sexe est réduitau treillis
Ts~
dela figure
6.VA
=Va
etDA
est le domainehiérarchique
de lafigure
6.DSN =(trop jeune, sursitaire, exempté, réformé, accomplil, VSN
=V2
et l’ensembledes valeurs
TSN
est réduit au sous-treillis dev2DsN
que montre lafigure
6 où on apar
exemple, >trop_jeune=((trop jeune, 1) (sursitaire, 0) (exempté, 0) (réformé, 0) (ac- compli, 0) ) .
La
description
d’une personne estreprésentée
par une valeur de Apriori,
pour une
description,
les attributs Sexe et ServiceNationalpeuvent prendre n’importe quelle valeur,
maispuisqu’une
personne de sexef éminin
nefait
pas de service national l’attribut ServiceNational devient nonpertinent
dans ce cas. Cequ’on exprime
par la contraïnte : « Si dans unedescription
l’attribut Sexe a la valeurféminin,
alors l’attribut ServiceNationalne
peut
avoir que la valeurinapplicable »,
que l’onpeut
écrire :nSexe(J-l) == J-ljeminin n Service National (Y)
J..est
l’opérateur
deprojection.
La contrainte
suivante, quant à elle, exprirae
lefait
que, pour toutedescription
d’unepersonne mineure par une
valeur,4
E[Personne],
l’attribut ServiceNational estapplicable,
mais sa valeur est
f orcément trop jeune :
Mmineur 20132013
nServiceN ational (J-l)
= J-ltrop_jeuneoù
1) (adolescent, 1) (mineur,1) (jeune, 0) (mur, 0) (âgé, 0) (majeur,O) (*, 1) (0, 0)) représente l’âge
d’une personnemineure, qui peut
être un adolescent ou unenfant.
Étant
donné un ensemble de contraintes rportant
sur les attributs constituant un attribut structuréA,
tous les éléments de~AD
ne vérifient pas forcément ces contraintes. On définit la validité d’une valeur de A enregard
des contraintesportant
sur les attributsAtt(A)
dela manière suivante.
DÉFINITION
2.7 halidité de la valeur d’un attribut.Soient A =
(~4.1,..., Ap)
un attribut structuré etP (A) = f Ci, ... Ckl
un ensemble decontraintes,
ondzt qu’une description
M E est valide si et seulement si :ou J-l == 1-
soit Il
=(~C1, ... , pp)
et l’ensemble des valeurslpl,. tcp} satisfait
l’ensemble des contraintes r.On trouvera dans
[15]
une étude détaillée de la structure des ensembles de valeurs validesen fonction des différentes formes de contraintes. On y montre que les seules contraintes pour
lesquelles
l’ensemble des valeurs valides d’un attribut est stable pourl’opérateur
degénéralisation 1B
utilisé pour la classification sont les suivantes :La forme de ces contraintes traduit le fait que la valeur d’un attribut
Aj
nepeut
avoird’effet sur la valeur d’un autre attribut
Ak
que si elle est suffisamentprécise
ou connue.2.2.6 Le treillis des Arborescences
Symboliques
NuancéesSoient un ensemble de p attributs
(Dj, Vj, ~A~~)
et un ensemble de contraintesr(A).
DÉFINITION
2.8 Onappelle
ArborescenceSymbolique
Nuancées un élément valide dutreillis
[A] défini
àpartir
de l’attribut structuré A =(A1, ... , Ap).
2.3 LA
REPRÉSENTATION
DES OBSERVATIONSOn suppose donnés :
- un ensemble de n
observations E
- un ensemble de p attributs
(Dj, Vj,
- un ensemble de contraintes
T(A)
Chaque
observation e est décrite à l’aide des attributsAj.
Un attributA~ peut-être
vucomme une fonction attribuant à une observation e une valeur
qualifiée:
avecI1j E ~A -7
En considérant l’attribut structuré A ==(Ai , ... , Ap).
Ladescription complète
de l’observation E est alors une ASN valide 11 =
(111, ... ,
du treillis[A] .
3
CLASSIFICATION
CONCEPTUELLENous définissons les
concepts
àpartir
d’unecorrespondance
de Galois entre les observations et l’ensemble de leursdescriptions qui
sont des arborescencessymboliques
nuancées du treillis[A].
Lorsque
le treillis est trèsgrand
oulorsque E
contientbeaucoup d’entités,
le treillis de Galoisengendré
est constitué d’un nombre considérable deconcepts,
le maximum étantmin(2£, card([A])).
Deplus, beaucoup
de cesconcepts
ont desdescriptions
contenantbeaucoup
de valeursinconnues,
c’estpourquoi
nous proposons une méthodepermettant
de construire incrémentalement un treillis deconcepts qui
est unepartie
finissante du treillis de Galois. Ce treillis est obtenu enélaguant
lesconcepts
dont le niveau degénéralité
estsupérieur
à un seuil fixé(si
le seuil degénéralité
est fixé à1,
ongénére
le treillis de Galoisen
entier).
Nous calculons le niveau degénéralité
d’unconcept
à l’aide d’un indice de distance défini sur les ASN.3.1
DÉFINITION
DES CONCEPTSLes treillis de Galois sont utilisés en
analyse conceptuelle [2, 12, 23]
pourgénérer
tous lesconcepts
d’un ensembled’objets
décrits par des vecteurs d’attributs dont les valeurs sontprécises.
Nous étendons cette méthode au cas d’entités structurées dont lescaractéristiques
sont
imprécises.
L’ensembleayant
une structure detreillis,
nous pouvons mettre encorrespondance
le treillis desparties S
etj]~4.].
Soit
l’application p :
? 2013~qui
associe àchaque
entité e e S sadescription
parune ASN de A. Le
triplet (E,
forme alors un contexte àpartir duquel
on définit lacorrespondance
de Galois constituée des deuxapplications :
int ext :
où le
symbole désigne
la relation d’ordre existant sur l’ensemble des valeurs structu- rées de l’attributA,
et où Adésigne l’opération
degénéralisation
entre valeurs structurées.Le
couple d’applications (int, ext)
forme unecorrespondance
de Galois entre les treilliset
~AD.
Un
concept
est alors défini comme dansl’Analyse Conceptuelle [13]
par son intensionI et son extension
E,
où I E~A~
et E E sont tels que I =int(E)
et E =ext(I).
Rappelons
quel’opération
degénéralisation
est stable pour les contraintes que l’on autorise sur l’attributA ,
cela nous assure que si les entités sont décrites par des arbores-cences
symboliques nuancées,
c’est à dire des éléments de~A~ qui
satisfont l’ensemble des contraintesT(A),
alors les intensions desconcepts
calculés satisfont aussi ces contraintes.3.2 CONSTRUCTION D’UN TREILLIS DE CONCEPTS
3.2.1 Indice de distance
Nous construisons un indice de distance sur les ASN
qui permet
d’évaluer ledegré
degénéralité
d’une ASN encomparant
celle-ci avec l’ASN laplus générale,
c’est à dire celle pourlaquelle chaque
attribut à la valeur *.Le but est d’utiliser ce
degré
degénéralité
lors de la construction du treillis afin dene pas
générer
lesconcepts
dont l’intension esttrop générale,
i.e. donttrop
d’attributsont une valeur indéterminée. Si l’on veut que le sous-ensemble de
concepts
ainsi calculé soit unepartie
finissante du treillis deGalois,
l’indice de distance doit vérifier lapropriété
suivante :
PROPRIÉTÉ
3.1Soit 9 le
treillis de Galois entre un ensemble d’entités S et l’ensemble des ASN d’un attributstructuré
A. L’indice de distance Ddéfinit
sur[A]
doitvéri fcer :
Cette
propriété
nous assure que si unconcept
n’est pasgénéré
alors aucun autreconcept plus général
ne l’est.3.2.2 Indice de distance sur les treillis de nuances
L’indice de distance suivant sur les treillis de nuances tient
compte
de la formeparticulière
de ces treillis et de leur
sémantique.
Enparticulier
si deux nuances sontincomparables,
lavaleur de l’indice est maximum et si deux nuances sont
comparables,
la valeur de l’indice est enrapport
avec lalongueur
de la chaîne reliant ces deux éléments.PROPOSITION 3.1 Soit V un treillis de nuances, la
fonction
ôdéfinie
par :où
l (x, y)
est lalongueur
de laplus
courte chaîne reliant x à y, est un indice de distance.Preuve :
La fonction ô vérifie les
propriétés
d’un indice de distance :Vx,
y G V :6(x, y) >,
0 car lalongueur
d’une chaîne estpositive
ou nulle6 est
symétrique
Vx e T :
l(xV
= 0Vx,y
ET :8(x, y)
== 00
PROPOSITION 3.2 Soit V un treillis de nuances, alors l’indzce de distance J est tel que :
Preuve :
Étant
donné la définition des treillis de nuances, si x y alors : soit x = *et y = 1,
et on a bien8(*,*) ~
08(1-,*) ~ 1,
soit x
appartiennent
à la mêmechaîne,
et dans ce casl(x, *) l(y, *)
donc8 (x, *)
n
3.2.3 Indice de distance sur les ASN
La structure arborescente d’une ASN nous
permet
dereprésenter
une entité structurée entenant
compte
desdépendances
structurelles existant entre lesparties
et lessous-parties
de cette
entité,
ainsi que des liens existant entre les valeurs des attributs. Dans une telledescription,
les valeurs décrivant lespropriétés
élémentaires d’une entité sontuniquement représentées
par les valeurs des attributssimples composant A,
c’est à dire les feuilles de l’ASN.Intuitivement,
une ASN donnée est d’autantplus générale qu’elle
est constituée d’attri- butssimples
dont les valeurs sontproches
de la valeur inconnue. L’indice de distance quenous définissions sur les ASN découle directement de cette vision
intuitive,
il estunique-
ment fonction des valeurs des attributs
simples
que nous considérons tousd’importance égale.
DÉFINITION
3.1Étant
donné un ensemble d’attributs,A.,
ondéfinit
unefonction
p :,A. -~
IN
qui affecte
àchaque
attribut A E A unpoids égal
au nombre defeuilles
de l’arborescence parlaquelle
onpeut représenter graphiquement
A.- si A est un attribut
simple
alorsp(A)
= 1- si A =
(Al, ... Ak)
est un attributs structuré alorsPROPOSITION 3.3
attribut, la fonction
D :[A]
x[A]] -~ [0,1] définie
par :1)
si A =(D, V,T)
est un attributsimple,
on a ~cA =((~1,~1)...
2)
si A =(Ai,... Ak)
est un attributstructuré,
on all3 ~ 11~Â1, ... , ~CÂ~ ~
etest un indice de distance sur les valeurs de A.
L’indice de distance D ainsi défini vérifie la
propriété : BI/-L, /1/
e~.4~ :
MM’
===*D (,4, *)
*) ;
il tientcompte
de lasémantique
accordée aux treillis de nuances et nous l’utilisons pour évaluer ledegré
degénéralité
des ASN etgénérer
un treillis deconcepts,
forméuniquement
desconcepts
du treillis de Galois dont l’intension nedépasse
pas un seuil donné degénéralité.
DÉFINITION
3.2 Soient A un attributstructuré,
D l’indice de distancedéfini
sur[4]
et,u e
[~4]]~
onappelle degré
degénéralité
le réelcompris
dans l’intervalle[0, 1].
Si ledegré
degénéralité de M
vaut 1 alors M = *. S’il vaut 0 alorsM - 1
.3. 2.,4 Définition
du treillisengendré
Étant
donné un contexte(E, [A] , p), soit 9
le treillis desconcepts
de cecontexte,
onnote 9
le treillis
composé uniquement
desconcepts de 9
dont l’intension a undegré
degénéralité
inférieur à un seuil donné :
PROPOSITION 3.4 muni de la relation d’ordre induite par celle existant
sur le treillis
(9,
,A, v)
et des deuxopérations 7B et V définies
par :1)
si(I, E) A (I’, E’)
alors(I, E)Î1 (I‘, E’) = (I, E) 1B (I’, E’) (*, S)
est un treillis dont les
opérations
de borneinférieure
et de bornesupérieure
sontrespecti-
vement
7B
etV.
Preuve :
Soient
(I, E)
et(7~,~)
deux élémentsde g,
il faut montrer que(7,E)A(7~E~)
est leplus grand
des minorants de(I, E)
et(I’, E’)
dans~.
Notons Min l’ensemble des minorants de
(I, E)
et(7~ E’) dans
et l’ensembledes minorants de
(I, E)
et(I’, E’)
dans~,
on a = Min nÇ.
Si
(7, E) A (7’, E’) 6 j
alors(I, E’)
E et c’est bien leplus grand
élémentde
Min.
Si
(I, E)
A(7’, E’) ~ par
définitionde ~
celasignifie
que 1 -D(I
AI’, seuil,
donc
d’après
laproposition
3.1 :l’ensemble
Min
est donc réduit ausingleton ~(~, E)~. (*, S)
est donc le seul minorant de(I, E)
et(I’, E’) dans 9
et donc la borne inférieure.Soient
(I, E)
et(I’, E’)
deux éléments deMontrons
que(I, E’)
est leplus petit
des
majorants
de(I, E)
et(I’, E’)
dansQ.
- Notons
Ma j
l’ensemble desmajorants
de(I, E)
et(l’, E’) dans 9
etMa j
l’ensembledes
majorants
de(I, E)
et(I’, E’)
dans~.
Soit
(J, F)
eMaj.
Si(J, F) n’appartenait
pas àl’ensemble ~ alors,
par définitionon aurait 1-
D(J, ~) > seuil,
et parconséquent
aucun élément(J’, F’) de 9
tel que(J’, F’) (J, F)
ne serait dans~.
Enparticulier, (J, F)
étant unmajorant
de(I, E)
et
(l’, E’)
dansg, (I, E)
et(I’, E’)
ne seraient pas dansQ.
On a donc
Maj
=Ma j
et parconséquent (I, E)
V(I’, E’ )
=(I, E)V (I’, E’)
est laborne
supérieure
de(I, E)
et(I’, E’)
dansQ.
Tout
couple
d’élémentsde 9
a donc une borne inférieure et une bornesupérieure.
Fi
3.2.5
Principe
degénération du treillis 9
Pour construire le treillis de
concepts
àpartir
desentités,
nous nous fondons sur larelation d’ordre existant sur
~.
Nousprocédons
par une mise àjour
incrémentale du treillis selon unprincipe inspiré
del’algorithme
de construction incrémentale du treillis de Galois décrit par Godin et al.[16].
Les
concepts constituant ~
sont ceux du treillis de Galoisentier 9 qui
ont undegré
de
généralité
inférieur au seuilfixé. Un
nouveauconcept dans ~
est obtenu àpartir
d’unconcept (I, E) déjà présent dans ~
et tel que lagénéralisation
I Ap(e) n’apparaît
pascomme intension d’un
concept déjà
dans~.
Ilpeut
y avoirplusieurs couples (I, E)
différentsgénérant
cette nouvelle intension mais un seul est legénérateur
du nouveauconcept.
DÉFINITION
3.3 Soitp(e) la description
d’une nouvelles entité. Leconcept (Il, E’)
Eç
est
générateur
d’un nouveauconcept (I, E)
si et seulement si :l’intension I n’est
présente
dans aucunconcept de 9
et si
(I’, E’)
est leplus petit
élément de l’ensembte{(7", E") e Ç 1
I =I" A p{e)~
et si le
degré
degénéralité
1-D(I’ A p(e), *)
de(I, E)
estinf érieur
au seuilfixé.
Remarque:
Si le /Vgénérateur (l’, E’)
d’un nouveau Nconcept (I, E)
dans letreillis 9 n’ap- partient
pasà , E 9 1
1 =I" A p(e)}
n’est pas forcémentvide, cependant
aucun de ces éléments n’estgénérateur
duconcept (I, E) .
Eneffet,
un nouveauconcept
étantplus général
que songénérateur,
si(l’, E’)
n’est pasdans ~
car d’undegré
de
généralité supérieur
au seuilfixé,
alors leconcept (I, E)
lui aussin’appartient
pas à~.
Entrées : Le
treillis
pour un ensemble d’entitésS,
et e une nouvelle entité dedescription
p(e) ~
--Sortie : Mise à
jour de 9 après
avoirpris
encompte
e.1. Si 1 -
D(p(e), *)
>seuil,
alors la mise àjour de 9
consisteuniquement
àajouter
l’entité e dans l’extension du
concept (*, S).
2. Les sommets
(I, E) de ~
tels queI p(e)
sont mis àjour
enajoutant
l’entité e dansleur extension E.
3. Si
(I, E) E 9
est ungénérateur
et si 1-D(I
Ap(e), *) seuil,
alors ongénère
lenouveau
concept (I A p ( e ) ,
EU {e})
et on metà jour
les arcs.L’idée pour créer les nouveaux
concepts
et mettre àjour
les arcs dutreillis
estd’utiliser la définition
précédente
afin de trouver lesgénérateurs.
Eneffet,
legénérateur
d’un nouveau
concept
étant le sommet leplus général qui produit
une nouvelle intension pargénéralisation
avecp(e),
nous sommes certainqu’il
existe un arc -qui
n’est pas unarc de transitivité - entre le
générateur
et le nouveauconcept.
Dans le cas
classique [16]
où l’on calcule un treillis de Galois entre un ensemble d’entitéset un ensemble d’attributs
binaires, l’algorithme produit
les nouveaux sommetsconcept
enessayant systématiquement
degénérer
une nouvelle intersection àpartir
dechaque concept
(I, E) déjà présent
dans le treillis en calculant l’intersection des ensembles d’attributs I etp(e).
Pour cefaire,
les sommets sont d’abord classés par cardinalité croissante de leur intension. Celapermet
de s’assurer que lepremier
sommet rencontréproduisant
unenouvelle intersection est un
générateur.
Dans notre cas, l’intension d’un
concept
n’est pas un ensemble d’attributs mais la borne inférieure des valeursreprésentant
lesentités
de son extension. Afin de trouver lesgénérateurs,
nous classons les sommets dutreillis ~
par niveau croissant despécificité
etnous parcourons le treillis
depuis
lesconcepts
lesplus généraux
vers lesconcepts
lesplus spécifiques.
La définition suivantes des niveaux despécificité
nous assure que lesconcepts appartenant
à un niveau donné forment uneanti-chaîne,
ainsi enparcourant
letreillis,
lepremier
sommet rencontréqui produit
une nouvelle intension -dont ledegré
degénéralité
est inférieur au seuil fixé- est le
plus général possible,
c’est bien legénérateur.
DÉFINITION
3.4 Dans letreillis ~,
un sommetappartient
à un niveau despécificité
nsi et seulement si la chaîne la
plus longue
entre leplus petit
élément du treillis(*, S) et
lesommet C est de