• Aucun résultat trouvé

Chapitre 2 Analyse formelle de concepts 17

2.4 Extensions de l'AFC

10 10 < d ≤ 20 20 < d ≤ 50 d ≥ 50 ds ≥ 10 ds ≥ 100 ds ≥ 500 ds ≥ 1000 s ≤ 5 5 < s ≤ 10 s ≥ 10 Mercure × × × Venus × × × × Terre × × × × Mars × × × × Jupiter × × × × × Saturne × × × × × × Uranus × × × × × × Neptune × × × × × × Pluton × × × × × ×

2.4 Extensions de l'AFC

Le choix d'un échelonnage particulier est un compromis entre perte d'information, explosion du nombre de concepts et calculabilité du treillis. Ces problèmes sont souvent aggravés par la complexité des données et leur grande quantité dans le cadre des applications réelles. Pour pallier ces limites, plusieurs travaux de recherche ont été menés dans le but d'étendre les dénitions de l'AFC pour couvrir les données complexes. Cependant, la diversité des données étudiées et les caractéristiques particulières de chaque domaine d'application étudié dans le cadre de ces travaux ont abouti à la dénition de diérentes extensions. Chacune de ces extensions est adaptée à un format particulier de données et à une interprétation particulière des attributs complexes multivalués et de leurs valeurs dans les contextes "hétérogènes". Le point commun de

2.4. Extensions de l'AFC

Figure 2.2 Le treillis de concepts correspondant au contexte formel donné dans le tableau 2.6. ces approches est qu'elles redénissent la connexion de Galois entre les objets et les attributs en vue de l'adapter à la particularité du domaine étudié.

2.4.1 Les structures de patrons

Les structures de patrons ont été introduite par Ganter et Kuznetsov [94] pour construire un treillis de concepts à partir de données complexes sans les avoir transformées sous forme binaire et sans perte d'information. La connexion de Galois classique met en évidence une relation entre les éléments du treillis de(2G,⊆)et les éléments du treillis d'attributs(2M,⊆)et vice versa. Ces treillis sont partiellement ordonnés. Pour construire un treillis à partir d'un contexte hétérogène5, il faut donc trouver un ordre partiel sur les descriptions des objets dans le contexte hétérogène. Pour cela, Ganter et Kuznetsov ont introduit les structures de patrons en formalisant l'ensemble des objets de G et les descriptions (appelées patrons) d de l'inf-demi-treillis des descriptions ordonnées. Revenons au cas classique de l'AFC, en considérant le treillis des attributs(2M,⊆). Soient P et Q deux sous-ensembles d'attributs, on a P ⊆ Q ⇔ P ∩Q = P, par exemple avec P = {a} et Q ={a, b}, {a} ⊆ {a, b} ⇔ {a} ∩ {a, b} = {a}. L'intersection ensembliste possède les propriétés d'un inmum dans un demi-treillis, d'où l'idée d'ordonner les patrons suivant la relation :

cvd⇔cud=c (2.1) Formellement, on considère le triplet (G,(D,u), δ) où G est l'ensemble des objets, (D,u) est l'inf-demi-treillis des descriptions, et δ est la fonction qui associe à chaque objet sa description

5. Un contexte est dit hétérogène ou complexe s'il n'est pas binaire. Il est appelé aussi "contexte multiva-lué" [96].

dansD. Le triplet(G,(D,u), δ)est appelé structure de patrons et la construction du treillis suit l'AFC classique. Pour établir la connexion de Galois entre (2G,⊆) et (D,v), les opérateurs de dérivation sont les suivants : PourA⊆G

A = dgAδ(g) (2.2) Pour d⊆(D,u)

d={g∈G|dvδ(g)} (2.3) Le premier opérateur retourne pour un sous-ensemble A d'objets de G l'inmum de leurs des-criptions. De manière duale, le second opérateur retourne pour toute description d dans l'inf-demi-treillis le sous-ensemble d'objets ayant une description qui subsume la description d.

Les concepts de (G,(D,u), δ) sont des couples (A, d) tels que A = d et d = A. Ils sont ordonnées par (A1, d1) ≤(A2, d2) ⇔ (A1 ⊆ A2)(⇔ d2 vd1) pour former le treillis de concepts de (G,(D,u), δ).

Dans d'autres travaux comme [120, 121, 117, 118], les auteurs appellent uopérateur de "si-milarité" dans le cadre des données numériques. Le premier opérateur(.) retourne la similarité entre les objets. De manière duale, le second opérateur (.) donne pour une description le plus grand ensemble d'objets dont la similarité est représentée par cette description. Considérons l'exemple du contexte numérique représentant les mesures réelles des caractéristiques des pla-nètes du système solaire de la table 2.7 et l'inmum considéré dans [120, 121, 117, 118] pour les données numériques. Ces travaux dénissent l'inmum de deux intervalles est le plus petit intervalle contenant les deux intervalles (voir l'équation 2.4. La relation d'ordre représente la relation d'inclusion des intervalles (voir l'équation 2.5).

[a, b]u[c, d] = [min(a, c),max(b, d)] (2.4) [a, b]v[c, d]⇔[a, b]⊇[c, d] (2.5)

Table 2.7 Mesures réelles des caractéristiques des planètes du système solaire Diamètre Distance au Soleil Masse Satellite

(km) (106km) (1023kg) Mercure 4 879 58 3.30 Vénus 12 104 108 48.69 Terre 12 756 150 59.74 1 Mars 6 794 228 6.42 2 Jupiter 142 984 778 18 988 16 Saturn 120 536 1 427 5 685 19 Uranus 51 118 2 870 866.25 5 Neptune 49 528 4 500 1027.8 8 Pluton 2 302 5 950 0.13 1

Si on considère la variable "Distance au Soleil" (notée DS) et le sous-ensemble de planètes

2.4. Extensions de l'AFC Le premier retourne la similarité d'un ensemble d'objets, i.e. l'inmum de leurs descriptions :

{M ercure, V´enus} = l g∈{M ercure,Venus´ } δ(g) = δ(M ercure)uδ(Venus´ ) = [58,58]u[108,108] = [58,108]

Le second retourne l'ensemble maximal d'objets dont la similarité est représentée par une des-cription en argument :

[58,108] = {g∈G|[58,108]vδ(g)}

= {g∈G|[58,108]⊇δ(g)}

= {M ercure, V´enus}

Ainsi le couple ({M ercure, V´enus},[58,108]) est tel que A = d et d = A. Par conséquent c'est un concept pour la structure de patrons représentée par le contexte numérique des mesures réelles des données de planètes du système solaire.

Traitement de plusieurs variables

Dans de nombreuses applications, les descriptions d'objets ne sont pas aussi simples et s'ap-puient plutôt sur des vecteurs de nombres (ou vecteur d'intervalles). Par exemple, dans la table 2.7, l'objet Mercure est décrit par le vecteur h[4879,4879],[58,58],[3.3,3.3],[0,0]i. D'où la dénition d'un nouveau type de patrons : les vecteurs d'intervalles [121].

Dénition 5 (Vecteur d'intervalles) [121]. Un vecteur d'intervalles est un vecteur à p di-mensions, composé uniquement dep intervalles.

L'inmum d'un vecteur d'intervalles est déni comme le vecteur d'intervalles des inma des intervalles pour chacune des dimensions. Chaque variable est considérée comme une dimension, l'inmum est appliqué sur chacune des variables. Les variables sont supposées indépendantes et le test de la relation de subsomption se fait par dimension [121].

Pour e et f deux vecteurs d'intervalles, avec e = h[ai, bi]ii∈[1,p] et f = h[ci, di]ii∈[1,p], leur inmum est déni comme suit :

euf = h[ai, bi]ii∈[1,p]u h[ci, di]ii∈[1,p]

= h[ai, bi]u[ci, di]ii∈[1,p] (2.6) Les vecteurs d'intervalles sont aussi partiellement ordonnés au sein d'un demi-treillis par :

evf ⇔ h[ai, bi]ii∈[1,p]v h[ci, di]ii∈[1,p] ⇔ h[ai, bi]v[ci, di]ii∈[1,p] (2.7) Considérons la table 2.7, on a : {M ercure, Venus´ } = l g∈{M ercure,V´enus} δ(g) = δ(M ercure)uδ(Venus´ ) = h[4879,12104],[58,108],[3.3,48.69],[0,0]i

h[4879,12104],[58,108],[3.3,48.69],[0,0]i = {g∈G | h[4879,12104],[58,108],[3.3,48.69],[0,0]i ⊇δ(g)}

= {M ercure, Venus´ }

Algorithmes de construction de treillis

Les algorithmes classiques de l'AFC sont adaptés pour construire le treillis résultant des structures de patrons [94]. Pour calculer les concepts formels d'une structure de patrons, les auteurs utilisent plusieurs algorithmes classiques de l'AFC Norris, CloseByOne et NextClosure légèrement modiés pour les besoins [121].

2.4.2 Analyse de concepts logiques

L'Analyse de Concepts Logiques (ACL) [87] consiste à étendre les résultats de l'AFC aux contextes logiques. Un contexte logique est un contexte multivalué dans lequel les attributs sont des descriptions qui prennent comme valeurs des formules logiques décrivant les objets du contexte.

Dénition 6 (Contexte logique) Un contexte logique est un triplet (G,L, δ) où G est un ensemble ni d'objets, L est un langage, etδ est une fonction de Gdans L qui associe à chaque objet une formule décrivant les propriétés de l'objet (ou une description logique).

Un exemple de contexte logique est donné dans la table 2.8 (gauche) [87]. Les opérateurs de dérivation entre 2G etL sont dénis comme suit.

σ : 2G→ L, σ(A)=tg∈Aδ(g)

τ :L →2G, τ(f) ={g∈G|δ(g)vf}

t est l'opérateur de disjonction (correspond à l'union (∩) en AFC et à l'opérateur inmum en structure de patrons).vest la relation de subsomption sur les formules logiques (correspond à l'inclusion en AFC et àven structure de patrons).σ(A)est l'expression par une formule logique des propriétés communes à tous les objets dansA etτ(f)est l'ensemble de tous les objets deG dont la description est subsumée par la formule f. Les deux opérateurs forment une connexion de Galois entre 2G et L. Ils sont à l'origine de la dénition de concept logique et du treillis de concepts logiques correspondant à un contexte logique donné. Un concept logique est une paire(A, f)telle queσ(A) =f etτ(f) =A.Aetf sont respectivement l'extension et l'intension du concept. Les concepts logiques peuvent être ordonnés selon l'inclusion entre leurs extensions ou de manière équivalente selon la subsomption entre leurs intensions. L'ensemble des concepts logiques d'un contexte logique ordonnés de cette façon forme un treillis de concepts logiques. Le treillis de concepts logiques correspondant au contexte logique donné dans la table 2.8 (gauche) est donné dans la même gure à droite. Les n÷uds du diagramme de Hasse de ce treillis sont étiquetés selon l'étiquetage réduit des concepts logiques [87].

2.4.3 Analyse Formelle Généralisée

Parallèlement à l'approche de Ferré [87], Chaudron et Maille [44] proposent l'Analyse Formelle Généralisée (Generalized Formal Concept Analysis), une extension pour les contextes formels dans le cas de données symboliques.

Dénition 7 (Contexte généralisé) Un contexte généralisé est un triplet(G,(L,≤,u,t), δ) oùGest un ensemble ni d'objets, (L,≤,u,t)est un treillis, etdest une fonction deGdans L.

2.5. Diérentes extensions oues de l'AFC

Documents relatifs