Algorithmes - ICL : apprentissage par interpr´etations

2.3 Le syst`eme Kardio

3.1.8 ICL : apprentissage par interpr´etations

3.1.8.1 Algorithmes

L’objectif d’ICL est de concilier l’efficacité de l’apprentissage attribut-valeur avec l’expressivité de la logique du premier ordre. Les systèmes d’apprentissage attribut-valeur apprennent des théories sous forme normale disjonctive (DNF) alors que les systèmes d’apprentissage par PLI cherchent classiquement à apprendre des pro-grammes logiques sous forme normale conjonctive (CNF). Les auteurs ont tout d’abord cherché à créer un nouveau système de PLI apprenant des CNF en adaptant un algorithme d’apprentissage attribut-valeur nommé CN2 [Clark et Niblett, 1989, Clark et Boswell, 1991].

CN2, un algorithme propositionnel Dans CN2, les exemples sont décrits par un nombre d’attributs fixe ayant chacun une valeur donnée. Chaque exemple possède un attribut particulier qui détermine sa classe. Les hypothèses apprises sont de la forme classe = Class if Conditionoù Condition est une disjonction de conjonctions de paires attribut-valeur (forme DNF). Dans ce formalisme, une règle couvre un exemple si la condition de la règle vérifie l’exemple. Pour une classe Class donnée, les exemples positifs sont ceux pour lesquels la valeur Class est associée à l’attribut classe et les exemples négatifs sont tous les autres exemples. Dans la condition de la règle, chaque

conjonction de paires attribut-valeur couvre tous les exemples positifs et aucun exemple n´egatif.

L’algorithme de couverture de CN2 est l’algorithme de couverture séquentielle sur les exemples positifs présenté en section 3.1.6.1. L’apprentissage séquentiel des règles pour chaque classe c se fait par un parcours de l’espace de recherche en faisceau (beam) (cf. Algorithme 4).

Algorithme 4 (CN2 : Algorithme de recherche en faisceau d’une r`egle)

Trouver-une-r`egle{Pos, Neg,c}; 1. rpg := classe=c si vrai; 2. Beam := {rpg};

3. MeilleureR`egle := {}

4. tant que Beam est non vide faire (a) NewBeam := {}

(b) Pour chaque r`egle r dans Beam faire Pour tout raffinement Ref de r faire i. Si Ref est meilleur que MeilleureR`egle

et Ref est statistiquement significative alors - MeilleureRegle := Ref;

ii. Si Ref ne doit pas être élagué alors - ajouter Ref à NewBeam;

- si la taille de NewBeam > MaxBeamSize alors enlever la plus mauvaise r`egle de NewBeam; (c) Beam := NewBeam;

5. retourner MeilleureR`egle;

Dans l’algorithme 4, la recherche commence avec la règle la plus générale (rpg) de l’espace de recherche (classe=c si vrai) qui couvre tous les exemples. Durant la recherche, CN2 conserve un faisceau des règles candidates et la meilleure règle trouvée jusqu’à présent (MeilleureRègle). À chaque étape dans la recherche par faisceau, tous les raffinements Ref des règles dans Beam sont considérés et évalués. Puis, selon le résultat de l’évaluation, la règle issue de Ref devient la M eilleureRegle et/ou Ref est ajoutée à N ewBeam (seules les MaxBeamSize meilleures candidates restent dans le faisceau).

CN2 utilise une fonction heuristique d’évaluation de la qualité de la meilleure règle basée sur un estimateur de Laplace (cf. Section 3.1.5 sur les biais de préférence). Cette mesure est utilisée pour diriger la recherche (comme seules les MaxBeamSize règles sont présentes dans le faisceau) et pour déterminer la meilleure des règles trouvées dans le faisceau. L’espace de recherche peut être également réduit par élagage. En effet, la règle r peut être élaguée s’il n’y a aucun raffinement de r qui puisse donner un meilleur ré-sultat que la meilleure règle du moment (cf. l’introduction de la Section 3.1.5). On peut arrêter le raffinement d’une règle lorsqu’il n’est plus possible qu’elle soit statistiquement significative, c’est-à-dire, lorsqu’elle ne couvre plus assez d’exemples positifs. S’il existe

Généralités sur la PLI 69

encore des exemples positifs possiblement couverts par les raffinements d’une règle non statistiquement significative, il sont considérés, pour cette règle, comme du bruit.

L’algorithme d’ICL L’algorithme d’ICL est dérivé de celui de CN2 de manière à être adapté à la logique du premier ordre [Van Laer, 2002]. Le pouvoir d’expression de la logique du premier ordre étant beaucoup plus important que celui du langage attribut-valeur utilisé dans CN2, Van Laer [Van Laer et De Raedt, 2001] a inclus un biais déclaratif permettant de restreindre l’espace de recherche. Le langage de biais uti-lisé est le même que celui de Claudien [De Raedt et Bruynooghe, 1993]. La stratégie de recherche est descendante en faisceau. L’opérateur de raffinement est celui défini en Section 3.1.6.1. Les exemples sont des ensembles de faits clos (vu comme des interpré-tations de Herbrand de la théorie cible puisque les faits représentent tous les atomes qui sont vrais pour un exemple donné, les faits non exprimés dans l’exemple sont considérés faux) et non pas des faits ou clauses comme pour la sémantique normale.

ICL permet d’apprendre des théories sous forme CNF ou sous forme DNF. L’algo-rithme DNF est l’adaptation directe de l’algoL’algo-rithme de CN2 en prenant en compte la théorie du domaine T . Pour obtenir un algorithme qui apprend directement une théorie sous forme CNF, il faut inverser le rôle des exemples positifs et des exemples négatifs dans l’algorithme de CN2 notamment lors de l’algorithme de couverture séquentielle permettant de trouver une règle discriminante (cf. Algorithme 5) : la couverture se fait donc sur les exemples négatifs. Van Laer montre dans [Van Laer, 2002] que les règles obtenues en CNF pour une classe donnée sont les mêmes (sous certaines conditions cf. Section 2.4.4 de [Van Laer, 2002]) que celles obtenues en prenant la négation du résultat obtenu avec un algorithme construisant des DNF sur la classe complémentaire (¬∃(A ∨ B) ⇔ ∀(¬A ∧ ¬B)). Dans l’algorithme CNF présenté ci dessous, chaque clause appartenant à la théorie cible doit couvrir tous les exemples positifs et exclure cer-tains exemples négatifs. L’ensemble des clauses apprises permet d’exclure la totalité des exemples négatifs.

Algorithme 5 (Algorithme CNF de couverture d’ICL) Inductive-Contraint-Logic(Pos,Neg,T,c);

1. Initialiser H := {}

2. répéter tantque (la meilleure clause h n’est pas trouvée) ou (Neg non vide)

(a) h := Trouver-une-clause(Pos,Neg,T,c) (b) si la meilleure clause h est trouv´ee alors

i. ajouter h `a H

ii. enlever de Neg toutes les interpr´etations qui sont fausses pour h

3. retourner H

L’algorithme de recherche s´equentielle des clauses

Trouver-une-clause(Pos,Neg,T,c) est adapté de l’algorithme de recherche Trouver-une-règle(Pos,Neg,c) de CN2 de manière à prendre en compte les

connaissances du domaine T . La recherche commence à partir de la clause la plus générale du treillis de raffinement (f alse ← true) qui ne couvre aucun exemple (la relation de couverture est définie en section 3.5). ICL utilise deux fonctions heuristiques d’évaluation : à l’estimateur de Laplace est ajouté le m estimateur (cf. Section 3.1.5 sur les biais de préférences).

Notons qu’ICL, comme CN2 n’apprend que des concepts binaires, des classifieurs. Un exemple est soit accepté par une règle soit rejeté. Ce résultat est moins général que celui des systèmes de PLI classiques, qui apprennent des théories clausales, mais l’apprentissage est plus efficace.

Dans le document Apprentissage multisource par programmation logique inductive : application à la caractérisation d'arythmies cardiaques (Page 80-83)