L'eet du bruit sur l'analyse de concepts formels (ACF)

3.3 Résumé et conclusion : des expressions d'ARNm et de microARN qui

4.1.1 L'eet du bruit sur l'analyse de concepts formels (ACF)

L'ACF est une puissante méthode d'analyse pour des données binaires. Elle permet d'extraire l'ensemble des groupes d'objets et d'attributs en relation complète. Néan-moins, cet avantage peut devenir un inconvénient dans le cas de données bruitées dû à sa sensibilité à l'absence ou à la présence ne serait-ce que d'une relation entre un objet et un attribut lors de l'inférence des concepts.

Des études ont déjà été menées sur l'analyse de concepts formels tolérante aux erreurs ou sur l'étude de concepts formels approchés [144, 145, 85]. Elles consistent principalement à retrouver dans une matrice binaire des rectangles denses de relations, c'est-à-dire autoriser certains objets à ne pas être en relation avec certains attributs à l'intérieur des rectangles. La contrainte consistant à avoir un ensemble complet de rela-tions peut être relâchée en cherchant à maximiser le nombre de relarela-tions. Peu de travaux cherchent à récupérer des concepts formels d'origine, c'est-à-dire établis sur des don-nées non bruitées, à partir de concepts formels obtenus sur des dondon-nées d'observations bruitées.

L'une des études les plus avancées est due à Klimushkin et al. [146]. Ils cherchent, dans un treillis issu d'un contexte formel bruité, à retrouver les concepts d'origines. Pour cela, ils utilisent trois indices de sélection sur les concepts : la stabilité de l'extension du concept qui représente à quel point l'extension d'un concept dépend de son intension et réciproquement pour la stabilité de son intension ; la probabilité de l'intension d'un concept qui représente la probabilité que l'intension d'un concept soit clos et réciproque-ment pour la stabilité de son extension ; l'indice de séparation d'un concept qui indique si le concept permet de bien séparer les objets de son extension du reste des objets et de même pour son intension. Ils bruitent des contextes de deux façons diérentes, soit en modiant la valeur des cases dans le contexte avec une certaine probabilité, soit en ajoutant des objets ou des attributs au contexte. Ils montrent qu'ils peuvent récupé-rer une partie des concepts d'origine en utilisant l'indice de stabilité de l'intension des concepts comme ltre.

Nous commencerons en introduisant un exemple de contexte formel bruité an d'illustrer l'eet du bruit sur l'ensemble des concepts et le treillis associé. Une ana-lyse plus générale est développée par la suite.

Exemple de l'eet de données bruitées en analyse de concept formel

Dans le contexte K_bruité (Figure 4.1), une fausse relation (o5, a2) a été rajoutée au contexte Kex (voir partie 1.4.1 et Tableau 1.1) et un score de dissimilarité a été ajouté pour l'ensemble des paires en relation qui représente l'observation de données brutes avant la transformation en tableau binaire. En ne gardant que les relations ayant un score inférieur à un seuil de −0.2, la relation d'origine (o3, a2) est rejetée alors que la fausse relation (o5, a2) est gardée. Comparé au treillis Figure 1.9, il y a maintenant 7 concepts, 3 de plus que pour le contexte K_ex (voir Figure 4.1). La suppression de la relation (o3, a2) a coupé le concept C1 en deux concepts C0

1 et C00

1. Le concept C2 existe toujours dans K_bruit, renommé C0

2. Deux nouveaux concepts, C3 et C4 ont été créés en conséquence de l'addition de la fausse relation (o5, a2).

Méthode de réparation de contexte formel bruité 91 a1 a2 a3 a4 o1 -0.3 -0.25 o2 -0.5 -0.45 o3 -0.6 -0.1 o4 -0.4 -0.2 o5 -0.3 -0.28 -0.41

Tableau 4.1 Contexte formel bruité Kbruit avec des scores de dissimilarité (la fausse relation est en rouge et la relation au dessus du seuil en bleu).

> = {o1, o2, o3, o4, o5} × ∅ C1 = {o1, o2, o3} × {a1, a2} C2= {o4, o5} × {a3, a4} ⊥ = ∅ × {a1, a2, a3, a4} B(K_ex) > = {o1, o2, o3, o4, o5} × ∅ C0 1= {o1, o2, o3} × {a1} C00 1 = {o1, o2} × {a1, a2} C3 = {o1, o2, o5} × {a2} C0 2 = {o4, o5} × {a3, a4} C4 = {o5} × {a2, a3, a4} ⊥ = ∅ × {a1, a2, a3, a4} B(K_bruité)

Fig. 4.1 Le treillis de concepts B(K_ex) et le treillis B(K_bruité) associé au contexte formel bruité Kbruit en ne considérant que les relations qui possèdent un score de dis-similarité inférieur au seuil de −0.2. En bleu les concepts issus de la suppression de la relation (o3, a2) et en rouge les concepts issus de l'ajout de la relation (o5, a2).

Description du bruit : les fausses relations

An de mieux comprendre l'eet local de l'ajout de fausses relations sur un concept, il faut diérencier deux types de relations :

Les relations d'origine Io⊆ G × M ;

Les fausses relations If ⊆ G × M avec Io∩ If = ∅.

Ces deux types de relations impliquent trois types de contextes qui dénissent trois types de concepts :

Le contexte d'origine sans fausses relations Ko = (G, M, Io) et l'ensemble des concepts d'origine Co;

Le contexte contenant uniquement les fausses relations Kf = (G, M, If) et l'en-semble des faux concepts Cf;

Le contexte avec l'ensemble des relations Kos= (G, M, (I ∪ Is)) et l'ensemble des concepts observé Cof.

La construction de Cof à partir de Co et Cf dépend de la contribution de chaque paire de concepts dans Co× Cs.

Considérons deux concepts Co = (Ao, Bo) ∈ Co et Cf = (Af, Bf) ∈ Cf. Comme Io et If sont exclusifs, les concepts dans Co et Cf sont disjoints. Cela implique que Ao∩ Af = ∅ ou Bo∩ Bf = ∅. Supposons que Ao∩ Af 6= ∅ et Bo∩ Bf = ∅. Alors un nouveau concept Cof = (Aof, Bof) peut être créé avec Aof = Ao∩Af et Bof = Bo∪Bf. Notons que si Af ⊆ Ao (respectivement Ao ⊆ Af), alors Cf (respectivement Co) n'est pas maximal dans Kof puisque il est inclus dans Cof.

Formellement, la contribution de deux concepts disjoints à l'ensemble des concepts Cof peut être déni comme l'application d'un opérateur de fusion :

Dénition 4.1 L'opérateur de fusion f(., .) est déni pour une paire de concepts dis-joints (Ci, Cj) = ((Ai, Bi), (Aj, Bj)) comme f(Ci, Cj) = Ci∪j où Ci∪j est l'ensemble des concepts obtenus sur les relations {(Ai× Bi) ∪ (Aj × Bj)}.

Les diérents résultats obtenus par l'application de l'opérateur f dépendent des intersections entre les ensembles des objets et des attributs et sont énumérés ci-dessous :

f(Ci, Cj) = {Ci, Cj} si Ai∩ Aj = Bi∩ Bj = ∅; (4.1)

= {(Ai∪ Aj, Bi∪ Bj)} si Ai = Aj ou Bi = Bj; (4.2) = {Cj, (Ai∪ Aj, Bi∪ Bj)} si Ai ⊂ Aj ou Bi ⊂ Bj; (4.3) = {Ci, Cj, (Ai∩ Aj, Bi∪ Bj)} si Ai∩ Aj 6⊆ {∅, Ai, Aj}; (4.4) = {Ci, Cj, (Ai∪ Aj, Bi∩ Bj)} si Bi∩ Bj 6⊆ {∅, Bi, Bj}. (4.5) L'ensemble des concepts Cof peut être déni comme un point xe : Cof est le plus petit ensemble de concepts qui couvre les concepts de Cf et Co et qui est clos par f. Les concepts de Cf et Co et les concepts générés par l'opérateur f appartiennent à Cof s'ils ne sont pas couverts par d'autres concepts de Cof comme décrit plus haut.

Description du bruit : les relations manquantes

De la même façon que pour les fausses relations, deux types de relations peuvent être distingués :

Méthode de réparation de contexte formel bruité 93 Les relations d'origine Io⊆ G × M ;

Les relations manquantes Im ⊆ Io.

Elles impliquent trois types de contextes qui dénissent trois types de concepts : Le contexte d'origine sans relations manquantes Ko = (G, M, Io) et l'ensemble

des concepts originaux Co;

Le contexte contenant seulement les relations manquantes Km = (G, M, Im) et l'ensemble des concepts manquants Cm;

Le contexte avec l'ensemble des relations d'origine excepté les relations man-quantes Kom= (G, M, (Io\ Im)) et l'ensemble des concepts Com.

Comme pour les fausses relations, il faut décrire comment les ensembles Co et Cm sont combinés dans Com.

Soit deux concepts Co = (Ao, Bo) ∈ Co et Cm = (Am, Bm) ∈ Cm, si Ao∩ Am 6= ∅ et Bo∩ Bm 6= ∅, alors le concept Co ne peut être dans Com étant donné qu'il inclut les relations manquantes Am × Bm. À la place, deux nouveaux concepts sont créés dans Com, Com

1 = (Ao, Bo\ Bm) et Com

2 = (Ao \ Am, Bo). À noter que si Ao ⊆ Am (respectivement Bo ⊆ Bm), alors seul le concept Com

1 sera créé (respectivement Com 2 ). Formellement, on peut dénir la contribution de deux concepts chevauchants à l'en-semble de concepts Com par l'application d'un opérateur d'exclusion :

Dénition 4.2 L'opérateur d'exclusion e(., .) est déni pour une paire de concepts che-vauchants (Ci, Cj) = ((Ai, Bi), (Aj, Bj)) comme e(Ci, Cj) = Cj\ioù Cj\iest l'ensemble des concepts obtenu sur les relations {(Aj× Bj) \ (Ai× Bi)}.

Les résultats obtenus par l'application de l'opérateur e, qui dépendent des intersec-tions des objets et des attributs, sont énumérés ci-dessous :

e(Ci, Cj) = Cj si Aj∩ Ai ou Bj ∩ Bi = ∅; (4.6)

= {(Aj, Bj\ Bi), (Aj\ Ai, Bj)} si Aj∩ Ai 6= ∅, Bj∩ Bi6= ∅; (4.7)

= {(Aj, Bj\ Bi)} si Aj ⊆ Ai, Bj 6⊆ Bi; (4.8)

= {(Aj\ Ai, Bj)} si Aj 6⊆ Ai, Bj ⊆ Bi; (4.9)

= ∅ si Aj ⊆ Ai, Bj ⊆ Bi. (4.10)

L'ensemble des concepts Com peut être déni comme un point xe : Com est le plus grand ensemble de concepts qui sont inclus dans les concepts de Co et qui est clos par e. Les concepts de Coet les concepts générés par l'opérateur e appartiennent à Com s'ils ne contiennent aucune relation de Im comme décrit plus haut.

Description du bruit : eet global sur le treillis de concepts

L'étude précédente met en évidence que l'augmentation du nombre de concepts dépend du type de bruit (relation fausse ou manquante) et du nombre de concepts composés uniquement de ces relations bruitées, excepté pour les équations (4.1) et (4.6) où aucun nouveau concept n'est créé.

Pour les fausses relations, le nombre de nouveaux concepts dans Cof dépend du nombre nf de concepts disjoints Cf ∈ Cf avec uniquement un ensemble qui est chevauchant avec un concept Co∈ Co et est limité par nf;

Pour les relations manquantes, le nombre de nouveaux concepts Com ∈ Com lo-calement créé à partir d'un concept Co ∈ Co dépend du nombre nm de concepts Cm ∈ Cm qui est chevauchant avec un concept Co et est borné par 2nm.

Globalement, le nombre de nouveaux concepts augmente linéairement avec le nombre de faux concepts et exponentiellement avec le nombre de concepts manquants.

Pour réparer un contexte Kof m= Iof m= (G, M, ((Io∪ If) \ Im)) an de retrouver Ko, il faut dénir de nouvelles opérations qui inversent l'eet des opérateurs f et e. Ces opérations peuvent tirer parti du fait que dans la plupart des cas, les concepts qui résultent de l'application de f ou e sont reliés dans le treillis par une relation directe ou une relation jumelle.

Pour l'opérateur f, dans l'équation (4.3) les deux concepts résultants sont ordonnés dans le treillis par la relation ≺. Pour les équations (4.4) et (4.5), le nouveau concept est le précurseur direct ou le successeur direct de Ci et Cj dans le treillis. Pour l'opérateur e dans l'équation (4.7), les deux nouveaux concepts sont ordonnés par la relation ≺. Les deux ensembles Aj et Bj du concept original peuvent être retrouvés par croisement des concepts bruités.

Dans le document Modélisation d'un réseau de régulation d'ARN pour prédire des fonctions de gènes impliqués dans le mode de reproduction du puceron du pois (Page 97-101)

L'eet du bruit sur l'analyse de concepts formels (ACF)

3.3 Résumé et conclusion : des expressions d'ARNm et de microARN qui

4.1.1 L'eet du bruit sur l'analyse de concepts formels (ACF)

L'eet du bruit sur l'analyse de concepts formels (ACF)

4.1.1 L'eet du bruit sur l'analyse de concepts formels (ACF)