Apprentissage disjonctif d’un concept - Extension du syst`eme RuLe-Clust `a la logique du premi

4.4 Extension du syst`eme RuLe-Clust `a la logique du premier ordre

4.4.1 Apprentissage disjonctif d’un concept

Apprentissage disjonctif par

d´ecomposition de concepts

Sommaire

4.1 Introduction . . . 104 4.2 Bases de la logique du premier ordre . . . 104 4.3 Apprentissage disjonctif . . . 105 4.3.1 Le syst`eme FOIL . . . 106 4.3.2 Le syst`eme GOLEM . . . 107

4.4 Extension du syst`eme RuLe-Clust `a la logique du premier ordre108

4.4.1 Apprentissage disjonctif d’un concept . . . 108 4.4.2 L’approche par décomposition . . . 109 4.4.3 Exemple 1 : sous-concepts non-disjoints I . . . 110 4.4.4 Exemple 2 : description numérique . . . 111 4.5 Mesure de similarité . . . 113 4.5.1 Langage infini . . . 114 4.5.2 Expérimentations . . . 117 4.6 Vue générale de la méthode . . . 122 4.6.1 Apprentissage d’une clause . . . 123 4.6.2 Complexité de la méthode globale . . . 123 4.6.3 Expérimentations . . . 124 4.7 Conclusion . . . 126

4.1 Introduction

Dans ce quatrième chapitre, nous proposons d’étendre le principe général illustré par le système RuLe-Clust, à l’apprentissage de règles en logique du premier ordre (avec va-riables). Comme nous allons le voir, ce formalisme est plus expressif et permet de traiter des problèmes difficiles voire impossibles à représenter dans le formalisme propositionnel, utilisé jusqu’ici. Cependant, cette transition n’est pas sans poser des problèmes, récurrents en Programmation Logique Inductive (ILP), comme par exemple, la difficulté à tester la couverture d’un exemple par une règle ou la construction même de cette règle. L’approche par décomposition, que nous avons étudié dans le chapitre précédent, implique également la définition d’une mesure de similarité, qui semble moins évidente en premier ordre.

Après quelques rappels importants concernant la théorie de la logique du premier ordre, le problème général de l’apprentissage disjonctif dans ce formalisme est énoncé. Nous présentons alors deux stratégies de base pour la construction d’une disjonction de règles logiques, illustrées par les systèmes FOIL [150] et GOLEM [132]. Le principe d’ap-prentissage disjonctif par décomposition de concepts est ensuite introduit, et complété par la proposition d’une mesure de similarité sur des objets décrits dans ce formalisme. Des exemples adaptés, permettent tout au long de cette étude d’illustrer et d’évaluer les deux principaux choix opérés pour cette approche : la mesure de similarité et l’algorithme de classification non-supervisée PoBOC.

4.2 Bases de la logique du premier ordre

Nous considèrons le problème qui consiste à apprendre le concept grand-père, à partir de la base de connaissances suivante :

mère(fran¸cois, marie), père(marie, jean), père(paul, pierre), père(pierre, jean), père(jeanne, pierre)

Dans cette base de connaissance (BK1), l’élément mère(fran¸cois, marie) doit être in-terprété de la manière suivante : “fran¸cois a pour mère marie”. Ce concept peut être défini par les deux règles

grand-père(X,Y)←père(X,Z),père(Z,Y), grand-père(X,Y)←mère(X,Z),père(Z,Y).

Dans cet exemple, grand-père, mère et père sont les symboles de prédicat (tous d’arité 2), marie, fran¸cois, pierre, jean, paul et jeanne les constantes, X, Y et Z sont des va-riables.

– Un littéral est un atome (ou la négation d’un atome), de la forme p(t₁, . . . , t_n) où p est un prédicat et où les t_i représentent des variables ou constantes².

– Les deux règles, présentées ci-dessus, sont appelées des clauses (ou règles logiques), telles que la partie gauche désigne la tête (ou le conséquent) tandis que la partie droite désigne le corps de la clause (ou les antécédents). Le corps d’une clause est constitué par la conjonction de littéraux (positifs) et la tête d’un unique littéral.

1Background Knowledge.

2Précisons que l’on se restreint, dans cette étude, à des langages en logique du premier ordre, ne contenant pas de symboles de fonction.

– Un atome clos est un atome ne contenant aucune variable (e.g. père(pierre, jean)). Définition 4.1. Soient deux ensembles d’atomes clos E+ et E⁻ et une base de connais-sances BK. Un exemple e est couvert par une clause C : p(X)← l1, . . . l_n relativement à BK si et seulement si il existe une instanciation σ des variables de C telle que l₁σ, . . . l_nσ est vrai dans BK∪ E+ et p(X)σ = e.

Dans notre exemple, les atomes clos grand-père(fran¸cois, jean), grand-père(paul, jean) et grand-père(jeanne, jean) correspondent aux exemples positifs (E⁺) du concept cible grand-père. L’exemple grand-père(fran¸cois, jean) est couvert par la première clause via l’instanciation σ₁ ={X/fran¸cois, Z/marie, Y/jean} ; les exemples grand-père(paul, jean) et grand-père(jeanne, jean) sont couverts par la seconde clause via les instanciations res-pectives suivantes : σ₂ ={X/paul, Z/pierre, Y/jean} et σ3 ={X/jeanne, Z/pierre, Y/jean}. Le formalisme logique présenté ci-dessus, permet une représentation plus riche, que le formalisme propositionnel. Les clauses logiques permettent également une définition récursive d’un concept, ce qui est impossible dans le formalisme propositionnel. Par exemple, si on souhaite apprendre le concept ancêtre, une définition récursive naturelle est :

ancêtre(X,Y)←père(X,Y) ancêtre(X,Y)←mère(X,Y)

ancêtre(X,Y)←père(X,Z),ancêtre(Z,Y) ancêtre(X,Y)←mère(X,Z),ancêtre(Z,Y).

Dans une telle définition récursive, le prédicat de tête est utilisé également dans le corps de la clause.

4.3 Apprentissage disjonctif

Un concept est généralement appris par construction d’un ensemble de clauses, dont la disjonction permet de couvrir l’ensemble des instances positives pour ce concept cible. Il existe une définition triviale de ce concept, permettant de couvrir tous les exemples positifs et de rejeter tous les exemples négatifs (excepté lorsqu’un exemple possède à la fois les deux étiquettes positif et négatif), cette définition correspond à la disjonction des exemples positifs. Or, comme nous l’avons déjà évoqué dans le cadre propositionnel, ce résultat n’est pas (ou peu) réutilisable pour le traitement d’une nouvelle instance. De plus, l’espace des hypothèses est très important si l’on considère les disjonctions. Il devient alors impossible de l’explorer totalement.

Les systèmes proposés pour apprendre un ensemble de clauses caractéristiques3 d’un concept cible, doivent tenir compte de cet aspect. Ils s’accompagnent donc généralement d’une limitation de l’espace des hypothèses par un biais syntaxique sur les clauses (taille et forme des clauses). Ces systèmes peuvent être vus, pour les plus connus, comme des exten-sions des systèmes d’apprentissage de règles propositionnelles (chapitre 3). Par exemple, le système FOIL [150] constitue une extension des systèmes utilisant un algorithme de couverture séquentielle, tels que CN2 ou pFOIL.

3Dans la suite, nous parlerons d’une clause “caractéristique” d’un ensemble d’exemples ou d’un concept, si cette clause couvre l’ensemble de ces exemples et rejette tous les exemples négatifs de ce concept. Il ne s’agit en aucun cas d’une “règle de caractérisation”, utilisées dans d’autres perspectives en Fouille De Données.

4.3.1 Le syst`eme FOIL

FOIL [150] recherche une définition disjonctive d’un concept par construction itérative d’une description conjonctive qui couvre des exemples positifs et rejette les exemples négatifs. Nous présentons l’algorithme général en figure 4.1.

Algorithme FOIL :

Soit P os l’ensemble des exemples pour lesquels le prédicat cible est V rai, Soit N eg l’ensemble des exemples pour lesquels le prédicat cible est F aux, Soit R, l’ensemble des règles apprises, initialisé à vide.

Tant que P os n’est pas vide : (Apprendre une r`egle)

r est une règle contenant le prédicat cible en tête et de corps vide Soit N eg⁰= N eg

Tant que N eg⁰ n’est pas vide : (Spécialiser r par ajout d’un littéral) Soit C l’ensemble des littéraux candidats pour la règle r Sélectionner l∈ C tel que l maximise une mesure de gain Ajouter l au corps de r

Supprimer de N eg⁰, l’ensemble des exemples rejetés par r Ajouter r à l’ensemble des règles apprises R

Supprimer de P os, l’ensemble des exemples couverts par r Retourner R.

Fig. 4.1 – L’algorithme d’apprentissage de r`egles logiques FOIL.

Chaque clause dans FOIL est générée par une approche du plus général au plus spécifique. Partant de la clause la plus générale (e.g. ancêtre(X,Y)← ), FOIL spécialise la clause par construction de l’ensemble des littéraux candidats, puis sélection du “meilleur” littéral parmi cet ensemble.

L’ensemble des littéraux candidats est défini par tous les littéraux qui vérifient l’une des formes suivantes :

– p(V₁, . . . , V_n) ou ¬p(V1, . . . , V_n), où p est un symbole de prédicat et l’une au moins des variables V₁, . . . , V_n apparaˆıt déjà dans la règle en cours de construction4, – egal(V_i, V_j) ou¬egal(Vi, V_j), où V_i et V_j apparaissent déjà dans la règle en cours de

construction.

Parmi les symboles de prédicats p, le prédicat associé au concept cible (prédicat de la tête) peut être considéré, de fa¸con à générer une définition récursive (pour définir ancêtre(X,Y) par exemple), avec certaines restrictions sur les variables.

La sélection du meilleur littéral parmi l’ensemble des littéraux candidats est effectuée

4Le symbole “¬” correspond à la négation. FOIL propose en effet un langage plus expressif que les clauses de Horn, en autorisant les littéraux négatifs.

au moyen d’une mesure de gain. Cette mesure évalue les proportions d’exemples positifs et négatifs couverts par la clause, avant et après l’ajout du littéral évalué.

Il est très fréquent que l’heuristique “gloutonne” utilisée dans FOIL n’aboutisse pas à la construction d’une clause (de complexité raisonnable) rejetant tous les exemples négatifs du concept cible. Ainsi, un processus de retour arrière (backtracking) est généralement envisagé, pour reconsidérer le dernier littéral ajouté en le rempla¸cant par un autre littéral un peu moins discriminant. Dans FOIL, l’espace de recherche est alors borné, d’une part en limitant la complexité des clauses possibles à générer, d’autre part en ne considérant à chaque ajout, que les littéraux les plus discriminants.

4.3.2 Le syst`eme GOLEM

Contrairement à FOIL, le système GOLEM [132] utilise une stratégie de construction de règle du plus spécifique vers le plus général. Cet algorithme est présenté dans la figure 4.2

Algorithme GOLEM :

Soit P os l’ensemble des exemples positifs non couverts, Soit N eg l’ensemble des exemples n´egatifs,

Soit E un ensemble de k paires d’exemples < e_i, e_j > de P os (choisies al´eatoirement)

Soit C, l’ensemble de tous les PPGâ : C ={P P G(ei, ej)| < ei, ej >∈ E}, Supprimer de C les hypothèses qui couvrent des exemples négatifs Sélectionner dans C l’hypothèse g qui couvre le plus d’exemples de P os Supprimer de P os les exemples couverts par g

Tant que g augmente sa couverture sur P os :

Soit E⁰ un ensemble de k exemples de P os (choisis aléatoirement), Soit C, l’ensemble de tous les PPG : C ={P P G(g, e0)|e0 ∈ E0}, Supprimer de C les hypothèses qui couvrent des exemples négatifs, Sélectionner dans C l’hypothèse g qui couvre le plus d’exemples positifs, Supprimer de P os les exemples couverts par g,

Retourner : l’hypoth`ese g.

aPlus Petit Généralisé.

Fig. 4.2 – Algorithme de construction d’une règle par généralisation : GOLEM.

Chaque clause générée par GOLEM est construite à partir d’un tirage de k paires d’exemples positifs (généralement k = 2), et pour chaque paire, une hypothèse spécifique pertinente est recherchée, puis généralisée. La construction d’une clause basée sur le tirage d’un ou plusieurs exemples se retrouve dans les systèmes INDUCE [84] ou encore PROGOL [131] - ce dernier utilisant une approche de construction par spécialisation. Le problème du choix des exemples est récurrent pour ce type d’approche. Dans GOLEM, ce problème est

en partie résolu, par le tirage de plusieurs exemples, donnant lieu à différentes hypothèses parmi lesquelles seulement la meilleure est retenue pour être généralisée.

Notons que le système GOLEM utilise la notion de Plus Petit Généralisé (PPG) [144]. On peut parler du PPG de termes, de littéraux ou de clauses. Étant données des des-criptions spécifiques d’un concept, il s’agit de construire une définition de ce concept, plus générale que les descriptions des exemples, et la moins générale possible parmi celles généralisant les exemples.

Enfin, la meilleure hypoth`ese correspond `a celle qui couvre le plus d’exemples positifs, parmi ceux non-encore couverts.

Nous avons présenté deux systèmes d’apprentissage d’une disjonction de clauses per-mettant de caractériser un concept. Ces deux systèmes sont représentatifs des deux ap-proches de construction de clauses : du plus général au plus spécifique (FOIL) et du plus spécifique au plus général (GOLEM). Nous choisissons, dans la suite, de conserver la stratégie utilisée dans le système RuLe-Clust (cf. chapitre 3), à savoir la couverture d’un ensemble d’exemples par spécialisation.

4.4 Extension du syst`eme RuLe-Clust `a la logique du

pre-mier ordre

4.4.1 Apprentissage disjonctif d’un concept

L’introduction de la disjonction dans l’espace des hypothèses est importante parce que beaucoup de concepts peuvent être vus de fa¸con disjonctive et leur définition nécessite alors plusieurs règles. Par exemple, le concept grand-père, étant donné le langage que nous avons défini, se compose en fait de deux sous-concepts : père paternel” et “grand-père maternel”. Ce concept peut donc être défini par deux clauses :

grand-père(X,Y)←père(X,Z),père(Z,Y). grand-père(X,Y)←mère(X,Z),père(Z,Y).

chaque règle définissant un sous-concept du concept initial. Ainsi, les instances sont di-visées naturellement en deux sous-ensembles d’exemples (ou groupes), satisfaisant à l’une ou l’autre des deux règles. Le principe du système d’apprentissage que nous proposons ici, consiste à rechercher d’abord des groupes d’exemples, afin de guider, ensuite, la génération des clauses.

Nous motivons cette approche par le fait que les systèmes tels que FOIL, utilisant une approche gloutonne pour construire les clauses, dépendent essentiellement de fonctions heuristiques qui induisent un biais très important dans la recherche des littéraux à ajouter. Les fonctions heuristiques utilisées, comme par exemple la mesure d’Utilité (utilisée pour FOIL) permettent de mesurer le pouvoir discriminant (noté Γ(l, C)) d’un littéral l par rapport à une clause C. Soient E⁺ (resp. E⁻) l’ensemble des exemples positifs (resp. négatifs) et cov(E, C) le nombre d’exemples5de E couverts par la clause C, Γ(l, C) dépend au minimum des deux valeurs suivantes : cov(E⁺, C∪ l) et cov(E−, C∪ l) où C ∪ l désigne la clause obtenue par l’ajout du littéral l dans le corps de C. La définition de Γ(l, C) joue un rôle central dans le processus, et donc sur l’ensemble des sous-concepts induits. De plus,

5En Programmation Logique Inductive, le nombre d’instanciations de C couvrant un élément de E peut également être utilisé pour définir le pouvoir discriminant.

Γ(l, C) est fortement dépendant des ensembles E⁺ et E⁻: quelques changements dans ces ensembles peuvent conduire à des solutions très différentes, et donc à des sous-concepts différents.

Enfin, si h← p, q est une clause couvrant certains exemples positifs et aucun exemple négatif, les valeurs Γ(p, h←) et Γ(q, h ←) ne sont pas nécessairement élevées. Par conséquent, il peut être impossible, pour une méthode gloutonne, d’apprendre la clause h← p, q parce que, partant de la clause générale h ←, ni p, ni q ne semblent être discriminants. Ce problème est plus général que celui des littéraux déterminés, étudié dans [150, 163].

Dans le document Une méthode de classification non-supervisée pour l'apprentissage de règles et la recherche d'information (Page 116-122)