• Aucun résultat trouvé

Apprentissage symbolique

1.7 Panorama de méthodes d’apprentissage dans les SMAs

1.7.10 Apprentissage symbolique

Dans l’apprentissage symbolique (AS), le système apprend en construisant une représentation symbolique d’un ensemble de concepts à partir d’exemples et de contre-exemples de ces

60

derniers. L’AS est généralement représenté sous la forme d’expressions logiques, d’arbres de décision, de règles de production ou de réseaux sémantiques. Exemples de tels systèmes : 1. Le programme ARCH (Winston, 1975), qui représente les exemples et les concepts sous

la forme de réseaux sémantiques.

2. Le programme AQVAL (Michalski, 1973), utilisé dans le cadre des problématiques de reconnaissance de patterns, et qui travaille à partir de l’expression de règles logiques sur des valeurs de variables.

3. Le programme ID3 (Quinlan, 1986), pour « Iterative Dichotomiser 3 », génère des arbres de décision.

L’AS vise à élaborer des méthodes optimales dont l’objectif est d'extraire des connaissances structurelles ou décisionnelles à partir d'un ensemble d'information qui ne l’est pas. Deux exemples de mise en œuvre :

1. Le « Data Mining » dont l’objectif vise à rapprocher (au sens sémantique) des informations pouvant être dispersées dans un très grand volume de données.

2. La reconnaissance de manuscrits par rapport à un corpus de mots stockés. Si, pour un programme informatique donné, on considère que :

1. T est la tâche à effectuer.

2. E est une expérience, i.e. une occurrence de l’exécution de T dans le temps.

3. P est la mesure de performance de l’exécution de T pour E.

On dira alors que le programme informatique apprend si P augmente au travers des différentes expériences réalisées. Juger l’accroissement de la valeur de P revient à optimiser la fonction f permettant de la calculer. Cette fonction est apprise à partir de l’ensemble des expériences, chacune d’elles pouvant être représentée par un couple (b,f(b)), où b représente l’ensemble des données de l’expérience et f(b) est la valeur de la fonction cible, donc celle de

P, sur cet ensemble de données.

Les principales techniques d’AS sont les arbres de décision (Quinlan, 1994), la Programmation Logique Inductive (PLI) (Cornuéjols, 2002) et l’Inférence Grammaticale (IG) (De La Higuera, 2002). Ces 3 techniques sont abordées de manière très synthétique dans ce qui suit.

1.7.10.2 Apprentissage

1.7.10.2.1 Arbres de décision

Classiquement, un tel arbre est un outil d'aide à la décision dont l’objectif est de faire apparaître à l'extrémité de chaque branche (appelée feuille) les différents résultats possibles en fonction des décisions prises à chaque étape. L’utilisation de ce type d’arbres est avérée dans de nombreux domaines professionnels. Par exemple, en informatique, certains algorithmes produisent des arbres de décision dans le but de regrouper (classer) des clients dans des groupes communs. Ce classement s’effectue en fonction d’un ensemble de critères définis à l’avance (âge, sexe, etc.) et d'un objectif fixé (chiffres d'affaires, réponse à un mailing, …). En

61

utilisant de tels arbres, on cherche à prédire avec le plus de précision possible les valeurs prises par la variable à prédire (objectif, variable cible, valeur d’une variable de sortie, …) à partir d’un ensemble de descripteurs (variables prédictives, variables discriminantes, variables d'entrées, …).

Synthétiquement, l'apprentissage par arbre de décision vise à construire un modèle prédictif permettant d'évaluer une valeur de sortie à partir de l’observation des valeurs d'autres éléments du même système. Ici, les feuilles représentent les valeurs de la variable à atteindre. Les embranchements, quand à eux, décrivent les combinaisons de variables d'entrée qui mènent à ces valeurs. Si nous prenons l’exemple de la « fouille de données », il existe deux principaux types d'arbre de décision:

1. Ceux de classification (Clustering Tree) : prédiction de la classe d’appartenance de la

variable-cible. Ici, la prédiction est une étiquette de classe.

2. Ceux de régression (Regression Tree) : prédiction d’une quantité de type nombre réel (e.g.

le prix d'une automobile) où la prédiction est une valeur numérique.

1.7.10.2.2 Programmation Logique Inductive

La programmation logique inductive (PLI) est tout particulièrement utilisée dans le cadre du traitement des problématiques linguistiques. Elle s’appuie sur une base de faits et vise à générer des règles sous la forme de formules mathématiques issues de la logique des prédicats. A partir d’un ensemble d’exemples et de contre-exemples, la PLI permet de générer des expressions logiques qui établissent des liens entre des variables. Pour illustrer le fonctionnement d’un programme de PLI, considérons les trois faits suivants :

1. Jean est le père de Pierre. 2. Paul est le père de Jean.

3. Paul est le grand-père de Pierre.

Un programme de PLI doit être capable de trouver une formule du type « Pour tous les x et z tels que z est le grand-père de y, il existe x tel que x est le père de y et y est le père de z ». En PLI, il s’agit finalement d’expliquer au mieux les observations positives, et à contrario de rejeter autant que possible les observations négatives. Deux caractéristiques fortes se dégagent pour la PLI : le formalisme d’expression des règles (logique des prédicats) est très bien connu, la notion de généralisation peut être introduite en cohérence avec les règles logiques générées.

1.7.10.2.3 Inférence Grammaticale

L’inférence grammaticale (IG) trouve ses applications dans les domaines de traitement du langage, la génétique, l’étude de la structuration des documents, etc. Elle consiste en l’apprentissage de grammaires à partir de séquences, d’exemples et de contre-exemples. Exemple : l’apprentissage de la grammaire d’une langue à partir d’un ensemble d’exemple contenant au moins un exemple positif (i.e. un sous-ensemble fini d’un langage) et un

62

exemple (un ensemble fini de chaînes n’appartenant pas au langage). La spécification d’un problème d’inférence grammaticale repose sur la spécification de 5 points :

1. La classe de grammaires, comme par exemple celle des grammaires régulières selon la

classification de Chomsky (Chomsky, 1956) ou l’une de ses sous-classes.

2. L’espace d’hypothèses, c’est-à-dire l’ensemble des descriptions dans lequel chaque

grammaire de la classe considérée possède au moins une description. Exemples pour les grammaires régulières : espace des automates, des expressions régulières ou des ensembles réguliers.

3. Un ensemble d’exemples, pour chaque grammaire à inférer et un protocole de présentation

de ces exemples.

4. La classe des méthodes d’inférence en considération. Il s’agit en particulier des méthodes

constructives ou heuristiques.

5. Les critères d’une inférence réussie, tels que l’identification à la limite (Gold, 1967) par

exemple.

Finalement, l’IG est un processus qui a pour objectif de lire des exemples (ayant une représentation admissible) et de proposer une(des) solution(s) prise(s) dans l’espace des hypothèses.

1.7.10.3 Algorithmes

L’objectif des algorithmes d’AS est de vérifier l’appartenance ou non d’un exemple donné à un concept déterminé, en s’appuyant sur un ensemble (espace des hypothèses) contenant des exemples que l’on sait positifs et/ou négatifs. Citons quelques exemples illustrations :

Find-S (Mitchell, 1997) : trouve l’hypothèse la plus spécifique qui satisfasse tous les

exemples positifs dans l’ensemble d’apprentissage.

Candidate-Elimination (Genesereth, 1987) : génère un ensemble d’hypothèses

plausibles, mais prises dans l’espace de versions qui est un sous-ensemble de celui des hypothèses.

ID 3 (Quinlan, 1986) : algorithme de classification supervisé, permettant de classer les

nouveaux exemples dans un ensemble de classes. Il est basé sur un arbre de décision.

C4.5 (Quinlan, 1986) : amélioration d'ID3.

List-Then-Eliminate : cité uniquement pour mémoire car relativement peu efficace. Il

possède une limite importante puisque toutes les hypothèses doivent être connues au départ.

63

1.7.11Apprentissage incrémental