Concepts formels et formalisation du principe de substituabilité

2.2 Inférence de grammaires régulières

3.1.3 Concepts formels et formalisation du principe de substituabilité

Cla10a]

Analyse de concepts formels : quelques dénitions Un contexte formel est un triplet (O,A ,I), où O est un ensemble ni d'objets, A un ensemble ni d'attributs et I est une relation entre les objets et les attributs. Il peut être représenté sous forme de table, un exemple est donné ci-après :

A1 A2 A3

O₁ X X X

O2 X X X

O3 X

Sur cet exemple, les objets sont dénotés Oiet les attributs Ai, la case hOi×Aiicontient "x" s'il existe une relation I entre Oi et Ai.

L'analyse de concepts formels [Wil82] dénit intuitivement un concept comme corres- pondant à un rectangle maximal de la table formée par la relation binaire du contexte. On

dénit les opérations suivantes : O0= {a ∈A | (o,a) ∈ I, ∀o ∈ O}, A0= {o ∈O | (o,a) ∈ I, ∀a ∈ A }.

Intuitivement, O0 _{est l'ensemble des attributs communs à tous les objets de A et A}0 _est l'ensemble des objets possédant tous les attributs de O.

Soit un contexte formel (O,A ,I), un concept formel C est un couple hO,Ai où O est un sous-ensemble de O, A un sous-ensemble de A tel que O0_{= A} _{et A}0_{= O}_{. O est alors} nommé l'extension (extent) de C et A son intension (intent). On remarque qu'il s'agit d'une opération fermée : tout objet de l'extension a tous les attributs de l'intension.

Il est possible de dénir un ordre partiel sur ces concepts de la façon suivante : hO1, A1i ≤ hO2, A2i ⇔ (O1⊆ O2⇔ A2⊆ A1).

Autrement dit, un concept C1 est dit inférieur à un concept C2 lorsque l'extension de C₁est un sous-ensemble strict de l'extension de C₂. L'ensemble des concepts muni de cet ordre partiel forme un treillis.

Dans ses articles, Clark dénit un contexte formel (C) = (S,C,I) dont les objets et attributs sont respectivement les facteurs (S) et contextes (C) présents dans l'échantillon d'apprentissage. Un couple hSi× Cii appartient à la relation binaire I si Ci◦ Si⊆ L. On peut alors dénir un ensemble de concepts formels grâce à ce contexte formel. Tous les facteurs d'un même concept sont considérés comme substituables dans les contextes du concept.

On note alors B(L) l'ensemble des concepts du langage L. L'ordre partiel associé est tel que hS1,C1i ≤ hS2,C2i si S1 ⊆ S2.

De plus, dans [CE07], la concaténation de deux concepts est dénie de la façon suivante : h O1, A1 i • h O2, A2 i = h (A1.A2)00, (A1.A2)0i.

Un exemple d'identication de concepts et du treillis associé à partir de mots d'un langage est donné en gure3.3.

Génération d'une grammaire hors-contexte sous forme normale de Chomsky à partir du treillis de concepts A partir de ce treillis, il est possible de construire une grammaire G= hΣ, N, R, Si telle que :

l'alphabet Σ est égal à l'ensemble des facteurs ;

l'ensemble des non-terminaux N représente l'ensemble des concepts dénis sur l'échantillon d'apprentissage ;

l'axiome de départ S est l'ensemble des non-terminaux dénis par des concepts hSi,Cii tel que (λ,λ) ∈ Ci;

l'ensemble des règles de production R est déni par : des règles terminales hSi,Cii → wsi w ∈ S

des règles de branchement hS,Ci → hS1,C1ihS2,C2i si hS,Ci ≥ hS1,C1i • hS2,C2i Cette dénition permet d'éviter une phase d'alignement des exemples et ainsi de ré- cupérer l'ensemble des classes substituables présentes dans les exemples sans faire de sélection. La dénition des règles préserve également toutes les ambiguïtés du langage puisque qu'elles correspondent à toutes les décompositions en non-terminaux d'un non- terminal donné. Cependant, cette simplicité formelle cache plusieurs contreparties : en

3.1. Apprentissage de grammaires algébriques 53 (λ,λ) (a,λ) (λ,b) λ X ab X a X b X < {λ, a, b, ab}, ∅ > < ∅, {(λ, λ), (λ, b), (a, λ)} >

< {a}, {(λ, b)} > < {λ, ab}, {(λ, λ)} > < {b}, {(a, λ)} >

Fig. 3.3 Identication des concepts et du treillis associés au langage {λ,ab}, les concepts formels sont indiqués en couleur

agissant ainsi, on obtient énormément de règles dont certaines seront redondantes. De plus, la forme normale de Chomsky nécessaire pour le calcul des règles n'est pas très explicite. Elle impose une structure très particulière aux règles qui peut être éloignée des structures originellement présentes dans les séquences. Enn, il semble que certains concepts pourraient être dérivés à partir d'une concaténation de concepts et mériteraient un traitement particulier an de réduire le nombre de constituants intéressants, et donc le nombre de non-terminaux, du langage appris.

3.1.4 Discussion

D'après cet état de l'art, le procédé de substituabilité semble être un bon moyen de généralisation des grammaires algébriques permettant de conserver leur expressivité ainsi que leur compacité.

Nous avons vu qu'il existe plusieurs algorithmes qui semblent ecaces an d'inférer une grammaire à partir d'un jeu de séquences appartenant au langage voulu.

l'algorithme ABL propose un apprentissage par alignement des séquences ce qui est en parfait accord avec les méthodes d'alignements de protéines vues au premier chapitre. L'utilisation de certaines heuristiques pour choisir les alignements à conserver détermine la compacité de la grammaire apprise. Adios procède de façon plus locale. Il apprend d'abord les sous-langages les plus fréquents par extraction de motifs et génère la grammaire autour de ceux-ci, ce qui permet d'obtenir une grammaire facilement compréhensible et analy- sable. Cependant, les phases de sélection proposées par ces algorithmes ne permettent

pas de conserver les ambiguïtés de structure ni d'assurer l'identication à la limite du langage appris.

L'approche proposée par Clark est intéressante au niveau de la découverte et de la formalisation des classes substituables, ainsi qu'au niveau de l'apprentissage de la grammaire. Elle permet à la fois de conserver les ambiguïtés du langage et l'identication de celui-ci en tant que langage algébrique substituable, ce que nous détaillons en section suivante. Cependant la création des règles de production selon la forme normale de Chomsky rend la représentation obtenue moins lisible et très redondante. De plus, le critère utilisé pour créer des classes de facteurs substituables utilise un contexte global qui est peu adapté aux séquences protéiques, de grande taille et fortement dissimilaires sur les parties non fonctionnelles et en particulier à leurs extrémités.

Dans le document Classification et caractérisation de familles enzymatiques à l'aide de méthodes formelles (Page 52-55)