• Aucun résultat trouvé

CASE-BASED REASONING

N/A
N/A
Protected

Academic year: 2022

Partager "CASE-BASED REASONING"

Copied!
34
0
0

Texte intégral

(1)

14-16 rue Voltaire 94270 Kremlin Bicˆetre

PROMOTION 2005 SCIA

CASE-BASED REASONING

Juin 2004

Responsable de sp´ecialit´e SCIA : M. Akli Adjaoute

(2)

Table des mati`eres

1 Introduction 1

2 ´Etat de l’art 2

2.1 Commentaires liminaires . . . 3

2.2 Bref historique . . . 3

2.3 Les diff´erents modes de raisonnement . . . 4

2.3.1 Raisonnement `a partir d’exemples . . . 4

2.3.2 Raisonnement `a partir de la m´emoire . . . 4

2.3.3 Raisonnement `a partir de cas . . . 4

2.3.4 Raisonnement par analogie . . . 4

2.4 Description g´en´erale d’un CBR . . . 5

2.4.1 Principes g´en´eraux . . . 5

2.4.2 Avantages . . . 5

2.4.3 Composantes d’un syst`eme `a base de cas . . . 6

2.5 Connaissances . . . 9

2.6 Repr´esentation des cas . . . 9

2.6.1 Le mod`ele `a m´emoire dynamique . . . 9

2.6.2 Le mod`ele de cat´egories et exemples . . . 11

2.7 Construction . . . 12

2.8 Recherche de cas . . . 12

2.8.1 Identification de caract´eristiques . . . 12

2.8.2 Recherche initiale . . . 12

2.8.3 S´election . . . 13

2.9 R´eutilisation de cas (Adaptation) . . . 13

2.9.1 Copie . . . 14

2.9.2 Adaptation . . . 14

2.10 Maintenance . . . 14

2.11 R´evision de cas . . . 14

2.11.1 ´Evaluation des solutions . . . 14

2.11.2 R´eparation des erreurs . . . 15

2.12 Apprentissage . . . 15

2.12.1 Extraction . . . 15

2.12.2 Indexation . . . 15

2.12.3 Int´egration . . . 16

2.13 Mod`eles CBR . . . 16

2.13.1 Mod`ele structurel . . . 16

2.13.2 Mod`ele conversationnel . . . 17

2.13.3 Mod`ele textuel . . . 18

2.14 Couplage d’autres technologies et du CBR . . . 19

2.15 Perspectives . . . 19

3 Solutions industrielles existantes et applications 20

(3)

4 Apports du datamining au CBR 21

4.1 Nettoyage des donn´ees . . . 21

4.2 Int´egration du contexte . . . 21

4.3 Recherche des ´el´ements importants . . . 22

4.4 Maintenance et am´elioration du choix des classes . . . 22

5 Adaptation et g´en´eralisation 23 6 La similarit´e, la dissimilarit´e 25 6.1 Abolute Similarity . . . 25

6.2 Relative Similarity . . . 25

6.3 Metric Similarity . . . 25

7 M´ethode de calcul de similarit´e floue 27

8 Cr´eation de cas g´en´eriques par type de classe 28

9 Conclusion 29

Bibliographie 30

(4)

Table des figures

2.1 Mod`ele g´en´erique d’un syst`eme CBR . . . 6

2.2 Cycle du CBR . . . 7

2.3 D´ecomposition du CBR par hi´erarchie de tˆaches . . . 8

2.4 Structure des cas et des GE . . . 10

2.5 Structure du mod`ele de cat´egories . . . 11

2.6 Exemple de structuration d’un cas en CBR structurel . . . 16

2.7 Exemple de cas pour le mod`ele conversationnel . . . 17

7.1 Illustration du principe . . . 27

(5)

Chapitre 1

Introduction

Le raisonnement `a base de cas (que, par un petit abus de langage, nous abr`egerons CBR1 durant la suite du rapport) diff`ere `a bien des ´egards des autres approches de l’intelligence artificielle. Au lieu d’exploiter la connaissance g´en´erale d’un domaine, le CBR vise `a utiliser la connaissance sp´ecifique et pragmatique des probl`emes pr´ec´edemment exp´eriment´es (les cas). Un nouveau probl`eme est r´esolu en trouvant un cas pass´e semblable et en le r´eutilisant dans la nouvelle situation. Le CBR est, de plus, une approche progressive, ´evolutive puisqu’une nouvelle exp´erience est conserv´ee chaque fois qu’un probl`eme a ´et´e r´esolu, la rendant imm´ediatement disponible pour des probl`emes futurs.

Le raisonnement `a partir de cas est un processus qui semble tr`es naturel et il est bien ´evidemment souvent employ´e pour r´esoudre des probl`emes de la vie courante. On peut ici faire deux observations qui, bien qu’´evidentes, l´egitiment l’utilisation du CBR :

- Les probl`emes similaires ont des solutions similaires

- On se retrouve souvent face `a un probl`eme que l’on `a d´ej`a rencontr´e.

L’´etude de CBR est conduite par deux motivations principales : la premi`ere, venant des sciences cognitives, trouve sa source dans le d´esir de copier le raisonnement humain et la deuxi`eme, venant de l’intelligence artificielle, vise `a d´evelopper des techniques d’IA et de raisonnement plus efficaces.

Durant ces derni`eres ann´ees, le CBR a pris beaucoup d’importance passant de domaine de re- cherche sp´ecifique et isol´e, `a un secteur d’int´erˆet de tout premier plan. Cette activit´e croissante autour du CBR et des domaines s’y rattachant se traduit par un nombre important d’articles et de conf´erences sur le sujet, par des d´eveloppements d’outils commerciaux prometteurs ainsi que par un usage quo- tidien de telles applications.

Nous dresserons un ´etat de l’art relativement pr´ecis du domaine. Cela nous conduira `a ´evoquer l’histoire du CBR, ses grands principes, ses domaines d’applications, les solutions industrielles exis- tantes, l’´etat actuel des connaissances, les grands probl`emes qui se posent, les recherches en cours et enfin les grandes perspectives d’´evolution. Nous verrons ensuite ce que peuvent apporter au CBR d’autres technologies classiques de l’informatique avanc´ee (Datamining, Syst`emes Experts...). Nous traiterons ´egalement de sujets aussi divers que la g´en´eralisation, la similarit´e, la diff´erenciation entre tendance et bruit, la cr´eation de cas g´en´erique... Ces th`emes se trouvent en effet au centre de tout syst`eme de CBR se voulant utilisable et performant dans le monde industriel.

Nous tenterons d’agr´ementer le plus possible ce rapport d’observations et de r´eflexions person- nelles pertinentes...

1Case-Based Reasoning

(6)

Chapitre 2

´Etat de l’art

Sommaire

2.1 Commentaires liminaires . . . . 3

2.2 Bref historique . . . . 3

2.3 Les diff´erents modes de raisonnement . . . . 4

2.3.1 Raisonnement `a partir d’exemples . . . . 4

2.3.2 Raisonnement `a partir de la m´emoire . . . . 4

2.3.3 Raisonnement `a partir de cas . . . . 4

2.3.4 Raisonnement par analogie . . . . 4

2.4 Description g´en´erale d’un CBR . . . . 5

2.4.1 Principes g´en´eraux . . . . 5

2.4.2 Avantages . . . . 5

2.4.3 Composantes d’un syst`eme `a base de cas . . . . 6

2.5 Connaissances . . . . 9

2.6 Repr´esentation des cas . . . . 9

2.6.1 Le mod`ele `a m´emoire dynamique . . . . 9

2.6.2 Le mod`ele de cat´egories et exemples . . . 11

2.7 Construction . . . 12

2.8 Recherche de cas . . . 12

2.8.1 Identification de caract´eristiques . . . 12

2.8.2 Recherche initiale . . . 12

2.8.3 S´election . . . 13

2.9 R´eutilisation de cas (Adaptation) . . . 13

2.9.1 Copie . . . 14

2.9.2 Adaptation . . . 14

2.10 Maintenance . . . 14

2.11 R´evision de cas . . . 14

2.11.1 ´Evaluation des solutions . . . 14

2.11.2 R´eparation des erreurs . . . 15

2.12 Apprentissage . . . 15

2.12.1 Extraction . . . 15

2.12.2 Indexation . . . 15

2.12.3 Int´egration . . . 16

2.13 Mod`eles CBR . . . 16

2.13.1 Mod`ele structurel . . . 16

2.13.2 Mod`ele conversationnel . . . 17

2.13.3 Mod`ele textuel . . . 18

2.14 Couplage d’autres technologies et du CBR . . . 19

2.15 Perspectives . . . 19

(7)

2.1 Commentaires liminaires

Cette partie a pour objectif de faire comprendre l’utilit´e et le fonctionnement g´en´eral des syst`emes de raisonnement `a base de cas.

Apr`es un bref historique, nous aborderons les grands principes des syst`emes de CBR, ce qui nous permettra d’appr´ehender les grands probl`emes qui se posent dans le domaine et les techniques actuelles cherchant `a y r´epondre. Il faudra ici s’attarder sur ce qui fait tout le coeur du CBR `a savoir les modes de repr´esentation de la connaissance, l’indexation, le stockage, la recherche de cas simi- laires `a un probl`eme donn´e, la r´eutilisation de cas, la r´evision de cas, les modes d’apprentissage...

Dans notre voyage dans le monde du CBR, nous ferons ´egalement un petit d´etour pour exposer les avantages que l’on peut avoir `a coupler certaines technologies de l’IA avec les syst`emes `a base de CBR.

Forts de ces connaissances, nous pourrons extrapoler sur les perspectives possibles de la recherche et les ´evolutions attendus des syst`emes `a base de CBR.

2.2 Bref historique

Les origines du CBR en IA se situent dans les travaux de Roger Schank1. Ces travaux ont men´e

`a la th´eorie de la m´emoire dynamique selon laquelle les processus cognitifs de compr´ehension, de m´emorisation et d’apprentissage utilisent une mˆeme structure de m´emoire. Cette structure, lesmemory organization packets(MOP), est repr´esent´ee `a l’aide de sch´emas de repr´esentation de connaissance tels que des graphes conceptuels et des scripts. D’autres avanc´ees dans le domaine du CBR sont venues des ´etudes de Gentner2portant sur le raisonnement par analogies, ainsi que plus t ˆot, des ´etudes sur la formation des concepts, sur la r´esolution de probl`emes ou encore sur l’apprentissage par l’exp´erience de Wittgenstein (1953), Tulving (1972), Smith (1981). Par exemple, Wittgenstein a observ´e que les concepts naturels3 comme un oiseau, une chaise, une orange, une voiture, etc. sont polymorphes.

C’est `a dire que leurs instances peuvent ˆetre classifi´ees de diff´erentes fac¸ons, et qu’il n’est pas pos- sible d’en donner une d´efinition classique, en terme d’un ensemble de caract´eristiques n´ecessaires et suffisantes. Une r´eponse `a ce probl`eme est de repr´esenter un concept de mani`ere extensive, en le d´efinissant par l’ensemble de ses instances, ou cas.

L’un des premiers syst`emes, pouvant prendre l’appellation de CBR, pourrait ˆetre CYRUS. CYRUS a ´et´e d´evelopp´e par Janet Kolodner (1983), `a l’universit´e de Yale. CYRUS ´etait bas´e sur le mod`ele de m´emoire dynamique de Schank et sur sa th´eorie de r´esolution de probl`emes et d’apprentissage.

Il s’agissait d’un syst`eme de question-r´eponses dot´e de connaissances sur les diff´erents voyages et rendez-vous d’un ancien secr´etaire d’´etat am´ericain Cyrus Vance. Le mod`ele de m´emoire qui fut d´evelopp´e pour ce syst`eme a servi de base pour un certain nombre d’autres syst`emes de CBR4.

Une autre base pour le CBR, et un autre ensemble de mod`eles, fut d´evelopp´e par Bruce Porter et son groupe `a l’universit´e du Texas. Ils se sont d’abord attaqu´es au probl`eme d’apprentissage de concepts par la machine pour des tˆaches de classification. Cela mena au d´eveloppement de PRO- TOS (1989), qui vise `a proposer une structure de repr´esentation unifi´ee int´egrant des connaissances g´en´erales d’un domaine et des cas sp´ecifiques. Cette combinaison fut pouss´ee plus loin par GREBE (1991), une application pour le domaine juridique. Une autre contribution significative au CBR se trouve dans le travail de Edwina Rissland et son groupe du MIT. Avec quelques juristes, ils se sont en effet int´eress´e au r ˆole des pr´ec´edents dans le raisonnement juridique. Les cas ne sont pas utilis´es ici pour produire une simple r´eponse, mais pour interpr´eter une situation et proposer des arguments

1Vers 1982

21983

3les concepts qui font parti du monde de la nature

4MEDIATOR (1985), PERSUADER (1988), CHEF (1989), JULIA (1992), CASEY (1989)

(8)

pour chacun des parties. Cela aboutit `a la cr´eation du syst`eme HYPO (1990) et CABARET (1992).

Phyllis Koton (MIT) ´etudia l’utilit´e du CBR dans l’optimisation des performances d’un syst`eme `a base de connaissances existant portant sur un domaine d´ecrit par un vaste mod`ele causal. Ces re- cherches se concr´etis`erent dans le syst`eme CASEY (1989).

En Europe, la recherche sur le CBR commenc¸a un peu plus tard qu’aux USA. Cependant le travail sur le CBR semble y avoir ´et´e plus fortement combin´e avec les recherches portant sur les syst`emes experts ou encore sur l’acquisition de connaissances. Parmi les premiers r´esultats, on trouve le travail de Michael Richter et Klaus Dieter Althoffportant sur un CBR pour les diagnostics techniques com- plexes qui se concr´etisa dans le syst`eme MOLTKE (1989). Cela mena au syst`eme PATDEX (Richter 1991). En 1990 Enric Plaza et Ramon Lopez de Mantaras d´evelopp`erent un CBR pour les diagnostics m´edicaux. Agnar Aamodt et ses coll`egues s’int´eress`erent `a l’aspect apprentissage du CBR dans le contexte de l’acquisition de connaissances en g´en´eral et de la maintenance du savoir en g´en´eral. Du c ˆot´e des sciences cognitives, Mark Keane travailla sur le raisonnement par analogies.

Les activit´es autour du CBR se d´eveloppent que ce soit en Europe ou aux USA. L’Allemagne joue d’ailleurs un r ˆole de premier plan dans le domaine, ainsi que l’Asie. Au d´ebut de la derni`ere d´ecennie, on a assist´e `a un regain de popularit´e du domaine et de nouvelles tendances qui misent sur la simplification de la repr´esentation des cas et sur des applications `a plus grande ´echelle. Le CBR se r´ev`ele alors une pr´eciseuse technique pour la mise en oeuvre d’applications commerciales pour diff´erentes tˆaches telles que la r´esolution de probl`emes (ex : diagnotic, planification, design), les syst`emes d’aide `a la d´ecision, les help desk et la gestion de connaissances. Ceci en fait l’une des techniques de l’intelligence artificielle les plus largement r´epandues actuellement.

2.3 Les di ff ´erents modes de raisonnement

Le CBR fait parti d’un ensemble de processus de r´esolution qu’il est important de diff´erencier. Il faut ´egalement constater que, loin d’ˆetre cloisonn´es, ces modes de raisonnement se chevauchent, on trouve ainsi par exemple des raisonnements `a partir de cas qui utilisent une structure d’exemples...

2.3.1 Raisonnement `a partir d’exemples

Les concepts y sont d´efinis comme une classe d’exemples. La r´esolution d’un probl`eme (donc d’un exemple non classifi´e) se r´esume donc `a la recherche de la classe qui correspond le mieux `a l’exemple. L’ensemble des solutions contenues dans cette classe repr´esente la solution pour l’exemple donn´e. Dans cette repr´esentation, les solutions ne sont pas modifi’´ees en fonction des donn´ees.

2.3.2 Raisonnement `a partir de la m´emoire

Les cas sont stock´ees sous forme de m´emoire et les m´ethodes de recherche et d’acc`es lui sont propre.

La parall´elisation de ces processus est la caract´eristique principale de ce type de raisonnement. L’acc`es aux donn´ees peut ˆetre fait de mani`ere syntaxique ou par des raisonnements plus complexes.

2.3.3 Raisonnement `a partir de cas

Il diff`ere tout d’abord des autres types de raisonnement de part la nature des informations stock´ees.

Celles-ci se doivent d’ˆetre suffisamment riches et complexes tout en ´etant en accord avec l’organisation interne des cas. Ensuite, les solutions propos´ees peuvent ˆetre modifi´ees et adapt´ees au probl`eme donn´e. Bon nombre de ces syst`emes utilisent des donn´ees de la psychologie cognitive.

2.3.4 Raisonnement par analogie

Il est tr`es proche du CBR, mais il est caract´eris´e par la volont´e de faire des analogies entre les diff´erents cas. Il permet par exemple de ne pas tenir compte du domaine auquel appartient le

(9)

probl`eme. Il est donc orient´e vers le probl`eme de la repr´esentation des cas et les moyens de faire ces analogies (corr´elations et transferts).

2.4 Description g´en´erale d’un CBR

2.4.1 Principes g´en´eraux

Le raisonnement `a base de cas est une approche de r´esolution de probl`emes qui utilise des exp´eriences pass´ees pour r´esoudre de nouveaux probl`emes. L’ensemble des exp´eriences forme une base de cas. Typiquement un cas contient au moins deux parties : une description de situation repr´esentant un probl`eme et une solution utilis´ee pour rem´edier `a cette situation. Parfois, le cas d´ecrit

´egalement les cons´equences r´esultant de l’application de la solution (ex : succ`es ou ´echec). Les tech- niques CBR permettent de produire de nouvelles solutions en extrapolant sur les situations similaires au probl`eme `a r´esoudre. Cette approche est ad´equate pour les domaines o `u la similarit´e entre les descriptions de probl`emes nous donne une indication de l’utilit´e des solutions ant´ec´edentes.

Comme nous l’avons dit le CBR est un mode de r´esolution de probl`emes qui est relativement diff´erent des autres approches d’IA. Au lieu de se reposer seulement sur des connaissances g´en´erales d’un domaine, ou de faire des associations g´en´erales entre descriptions du probl`eme et conclusions, le CBR est capable d’utiliser les connaissances sp´ecifiques d’exp´eriences pr´ec´edentes, les cas.

Illustrons ces principes g´en´eraux par quelques exemples :

– Un m´edecin apr`es avoir examin´e un patient se souvient d’un autre patient qu’il a trait´e deux semaines plus t ˆot. Ce souvenir est caus´e par une similarit´e importante entre les sympt ˆomes des deux patients, le m´edecin utilise le diagnotic et le traitement du patient pr´ec ´dent pour d´eterminer le cas du nouveau patient.

– Un chimiste, qui a ´et´e confront´e `a deux explosions dramatiques, se rappelle soudain de l’une de ces situations lorsque les conditions d’une exp´erience sont semblables `a celles qui avaient provoqu´e les explosions. Il utilise alors son exp´erience d’un cas pass´e pour ´eviter de provoquer un nouvel incident.

– etc.

Comme en t´emoigne ces exemples, raisonner en r´eutilisant des cas pass´es est un moyen puissant utilis´e fr´equemment pour r´esoudre des probl`emes. Ceci est confirm´e par des exp´eriences de psy- chologie et de sciences cognitives. Il est ´egalement av´er´e que les experts proc`edent de mˆeme. Des

´etudes sur le raisonnement par analogie montrent ´egalement l’utilisation fr´equente des exp´eriences pass´ees pour la r´esolution de probl`emes nouveaux et diff´erents. Ceci offre une assise th´eorique au CBR.

Comme nous l’avons d´ej`a ´evoqu´e, dans la terminologie du CBR un cas d´enote un probl`eme.

Une situation pr´ec´edemment exp´eriment´e, qui a ´et´e enregistr´ee, apprise de fac¸on `a ˆetre r´eutilis´ee pour r´esoudre un probl`eme futur, est un cas pass´e. Un nouveau cas ou cas non r´esolu consiste en la description d’un nouveau probl`eme `a r´esoudre.

Notons que le terme r´esolution de probl`eme est utilis´e ici dans une acception large. Il ne s’agit pas n´ecessairement de trouver la solution concr`ete d’un probl`eme. Il peut ´egalement s’agir de critiquer, justifier une solution propos´ee , d’interpr´eter une situation, de g´en´erer un ensemble de solutions possibles...

2.4.2 Avantages

L’approche CBR offre de nombreux avantages. Pour certaines applications, la d´emarche CBR est plus simple `a mettre en oeuvre que celles bas´ees sur un mod`ele du domaine (ex : base de r`egles) ; elle permet d’´eviter les probl`emes d’acquisition de connaissance (knowledge bottleneck) qui rendent difficile la conception de bases de connaissances de taille importante. Le CBR est particuli`erement bien adapt´e aux applications dont la tˆache est accomplie par des humains exp´eriment´es dans leur

(10)

domaine et dont les exp´eriences sont disponibles dans une base de donn´ees, dans des documents ou chez un expert humain. On l’utilise pour les domaines n’exigeant pas de solution optimale et dont les principes sont mal formalis´es ou peu ´eprouv´es.

2.4.3 Composantes d’un syst`eme `a base de cas

Un syst`eme CBR est une combinaison de processus et de connaissances (knowledge containers) qui permettent de pr´eserver et d’exploiter les exp´eriences pass´ees. Pour simplifier notre pr´esentation, nous nous appuyons sur le mod`ele g´en´erique pr´esent´e ci-apr`es :

F. 2.1 – Mod`ele g´en´erique d’un syst`eme CBR

On y note comme principaux processus la recherche (retrieval), l’adaptation (reuse), la maintenance (retain) et la construction (authoring) et comme structures de connaissances le vocabulaire d’indexation, la base de cas, les m´etriques de similarit´e et les connaissances d’adaptation.

Nous pouvons ´egalement illustrer nos propos par un mod`ele sous forme de cycle :

(11)

F. 2.2 – Cycle du CBR

Nous ne commenterons pas plus la figure ci-dessus car elle est proche de ce qui a d´ej`a ´et´e dit. Tou- tefois remarquons que la connaissance g´en´erale joue un r ˆole dans le cycle. Ce r ˆole est plus ou moins important selon le domaine. Cette connaissance g´en´erale doit ˆetre entendue par une connaissance d´ependante du domaine et s’oppose `a la connaissance sp´ecifique qui se retrouvre dans les cas.

Il est possible d’offrir une vue g´en´erale du CBR en pr´esentant une hi´erarchie des tˆaches du CBR comme suit :

(12)

F. 2.3 – D´ecomposition du CBR par hi´erarchie de tˆaches

Nous verrons donc successivement les diff´erentes tˆaches centrales qui doivent ˆetre effectu´ees par un CBR. Il existe diff´erents types de CBR et nous ne pouvons pr´etendre `a l’exhaustivit´e. Malgr´e des tentatives d’unification des mod`eles, les m´ethodes restent vari´ees et propres aux diff´erents domaines trait´es. Toutefois un CBR doit suivre un certain nombre d’´etapes incontournables que nous traiterons successivement. Nous verrons ´egalement les grands probl`emes qui se posent et les solutions qui peuvent ˆetre avanc´ees.

(13)

Les ´etapes incontournables sont les suivantes : – Identifier le probl`eme courant

– Trouver le cas pass´e le plus similaire au probl`eme courant – Utiliser ce cas pour sugg´erer une solution nouvelle – ´Evaluer cette solution

– Mettre `a jour le syst`eme avec ce nouveau cas

Les grandes difficult´es qui se posent sont donc les suivantes : – Repr´esentation de la connaissance

– R´ecup´eration de cas similaires – R´eutilisation de ces cas

– Modification de la solution (adaptation)

– stockage des informations relatives au probl`eme

Notons qu’il n’existe pas de solutions miracles et qu’un grand travail reste `a faire dans le do- maine. Il suffit qu’un de ces points soit mal trait´e pour que le syst`eme complet soit bancal. Il faut imp´erativement adapt´e chaque syst`eme au domaine trait´e.

2.5 Connaissances

Les diff´erentes connaissances utilis´ees par un syst`eme CBR sont regroup´ees en quatre cat´egories (knowledge containers) :

vocabulaire d’indexation : un ensemble d’attributs ou de traits (features) qui caract´erisent la description de probl`emes et de solutions du domaine. Ces attributs sont utilis´es pour construire la base de cas et jouent un r ˆole important lors de la phase de recherche.

base de cas : l’ensemble des exp´eriences structur´ees qui seront exploit´ees par les phases de recherche, d’adaptation et de maintenance.

mesures de similarit´e: des fonctions pour ´evaluer la similarit´e entre deux ou plusieurs cas. Ces mesures sont d´efinies en fonction des traits et sont utilis´ees pour la recherche dans la base de cas.

connaissances d’adaptation : des heuristiques du domaine, habituellement sous forme de r`egles, permettant de modifier les solutions et d’´evaluer leur applicabilit´e `a de nouvelles situa- tions.

2.6 Repr´esentation des cas

Un syst`eme `a base de CBR est tr`es d´ependant de la structure et du contenu de ses cas. Comme un probl`eme est r´esolu en faisant appel `a une exp´erience pass´e convenant au nouveau probl`eme, la recherche de cas et les processus de matching doivent ˆetre efficaces et rapides. De plus, comme l’exp´erience d’un probl`eme qui vient d’ˆetre r´esolu doit ˆetre retenue d’une fac¸on ou d’une autre, ces exigences doivent aussi ˆetre respect´ees pour l’int´egration d’un nouveau cas dans la m´emoire. Le probl`eme de repr´esentation consiste d’abord `a d´eterminer ce qui doit ˆetre stock´e dans un cas, il faut aussi trouver une structure d´ecrivant bien le contenu d’un cas, d´ecider comment organiser et indexer les cas pour une recherche et une r´eutilisation efficace. Nous allons d´ecrire bri`evement le mod`ele `a m´emoire dynamique et le mod`ele de cat´egories et exemples.

2.6.1 Le mod`ele `a m´emoire dynamique

Comme il a ´et´e dit, le premier syst`eme qui peut ˆetre consid´er´e comme du CBR est CYRUS qui se base sur le mod`ele de m´emoire dynamique de Schank. La m´emoire de cas dans ce mod`ele est une structure hi´erarchique de ce qu’on appelle episodic memory organization packets (E-MOPS).

Ce mod`ele a ´et´e d´evelopp´e `a partir de la th´eorie plus g´en´eral de Schank. L’id´ee est d’organiser les

(14)

cas sp´ecifiques qui partagent des propri´et´es similaires dans une structure plus g´en´erale, un GE5. Un GE contient trois diff´erents types d’objets : des Normes, des Cas et des Index. Les Normes sont des caract´eristiques communes `a tous les cas index´es dans un GE. Les index sont les diff´erences, les points discriminants entre les cas d’un GE. Un index peut pointer vers un GE plus sp´ecifique ou directement vers un cas. Un index est compos´e de deux termes : le nom de l’index et sa valeur. La figure qui suit illustre cette structure.

F. 2.4 – Structure des cas et des GE

Ce sch´ema montre un GE g´en´eral, avec ses cas et un GE plus sp´ecifique. La m´emoire enti`ere forme un r´eseau de discrimination o `u un noeud est un GE, un nom d’index, une valeur d’index ou un cas.

Chaque index relie un GE `a un autre GE ou `a un cas. Une valeur d’index ne peut pointer que vers un cas ou un GE. L’indexage est redondant, il y a plusieurs chemins vers un cas particulier ou un GE (cf cas 1 dans le sch´ema).

Quand une nouvelle description de cas est donn´e et que l’on recherche le cas le plus proche, le nouveau cas est introduit `a la racine du r´eseau. La proc´edure de recherche est semblable pour retrouver des cas et pour les stocker. Quand une ou plusieurs caract´eristiques concordent une ou plusieurs caract´eristiques d’un GE, on discrimine le cas en se basant sur ses traits restants. On trouve alors ´eventuellement le cas qui a le plus en commun avec le nouveau cas6. Lors du stockage d’un nouveau cas, lorsqu’un caract`ere du nouveau cas correspond `a une donn´ee d’un cas existant, un GE est cr´e´e. Les deux cas sont alors discrimin´es `a partir de leurs diff´erences en les indexant diff´eremment sous ce GE. Si, lors de la phase de stockage, deux cas (ou deux GE) terminent sous le mˆeme index, un nouveau GE est automatiquement cr´e´e. Ce type de m´emoire est dynamique, dans le sense o `u les parties similaires de deux cas sont dynamiquement g´en´eralis´ees dans un GE et que les cas sont ensuite index´es sous un GE par leurs diff´erences.

Un cas est retenu en retrouvant le GE qui a le plus de Normes en commun avec la description du probl`eme. Les index sous ce GE sont ensuite parcours afin de trouver le cas qui contient le plus de

5Generalized Episode

6Ce n’est pas forc´ement le crit`ere de similarit´e le plus pertinent, le crit`ere de similarit´e peut en effet favoriser certaines caract´eristiques particuli`eres...

(15)

caract`eres en commun avec le probl`eme. Le stockage d’un nouveau cas se fait de la mˆeme fac¸on, avec en plus la cr´eation dynamique de GE lorsqu’il y a lieu. Comme le syst`eme d’indexation est un r´eseau de discrimination, un cas est stock´e sous chaque index qui le diff´erencie des autres cas. Cela peut conduire `a une explosion du nombre d’index. Ainsi la plupart des syst`emes qui utilisent ce syst`eme d’indexation mettent des limites dans le choix des index pour les cas.

Les propri´et´es dynamiques de cette organisation peuvent ˆetre vues comme une tentative de construction d’une m´emoire qui int`egre la connaissance de cas sp´ecifiques et la g´en´eralise. Cette organisation permet l’apprentissage de connaissance g´en´eralis´ee ainsi que de cas sp´ecifiques. C’est un mod`ele plausible bien que simplifi´e de l’apprentissage et du raisonnement humain.

2.6.2 Le mod`ele de cat´egories et exemples

Le syst`eme PROTOS (1989) propose une m´ethode alternative pour organiser les cas dans la m´emoire. Les cas sont appel´es exemples. Le fondement psychologiques et philosophiques de cette m´ethode est l’id´ee selon laquelle le monde r´eel, les concepts naturels doivent ˆetre d´efinis de mani`ere extensive. Les caract´eristiques sont affect´ees avec une importance plus ou moins grande et permettent de caract´eriser l’appartenance d’un cas `a une cat´egorie.

L’ensemble des cas est stock´e sous forme d’un graphe comprenant descat´egories,des caset des index. Chaque cas est associ´e `a une cat´egorie. Un index peut pointer sur un cas ou une cat´egorie. Une caract´eristique est, g´en´eralement, d´ecrites par un nom et une valeur. Les index sont de trois types :

– liens de rappel qui relient une description de probl`eme `a des cas ou des cat´egories – liens d’exemple qui relient les cat´egories aux cas associ´es

– liens de diff´erence qui relient des cas avec des cas voisins ne diff´erant que par un nombre r´eduit de caract´eristiques.

La figure suivante illustre cette structure, les liens reliant caract´eristiques et cas aux cat´egories.

Les exemples sont class´es du plus prototypique d’une cat´egorie au moins prototypique.

F. 2.5 – Structure du mod`ele de cat´egories

Trouver le cas qui correspond le mieux `a un probl`eme donn´e se fait par la recherche de la cat´egorie dont les caract´eristiques sont les plus similaires `a ce probl`eme. L’exemple le plus prototypique ap- partenant `a cette cat´egorie est retourn´e. L’ajout d’un nouvel exemple se fait de mani`ere similaire `a la recherche, mais cette phase est suivie par l’ajout de diff´erents liens que le syst`eme impose.

(16)

2.7 Construction

Ce processus, en amont des activit´es de r´esolution de probl`emes du syst`eme CBR, soutend la structuration initiale de la base de cas et des autres connaissances du syst`eme `a partir de diff´erentes ressources tels des documents, bases de donn´ees ou transcriptions d’interviews avec des praticiens du domaine. Ce processus, souvent effectu´e manuellement par le concepteur du syst`eme, se prˆete moins bien `a l’automatisation car il n´ecessite une connaissance du cadre applicatif pour guider, entre autre, la s´election du vocabulaire d’indexation et la d´efinition des m´etriques de similarit´es.

2.8 Recherche de cas

Cette phase permet de d´eterminer les cas de la base qui sont les plus similaires au probl`eme

`a r´esoudre. La proc´edure de recherche est habituellement impl´ement´ee par une s´election des plus proches voisins (k-nearest-neighbors) ou par la construction d’une structure de partitionnement obtenue par induction. L’approche des plus proches voisins utilise des m´etriques de similarit´e pour mesure la correspondance entre chaque cas et le nouveau probl`eme `a r´esoudre. L’approche par induction g´en`ere un arbre qui r´epartit les cas selon diff´erents attributs et qui permet de guider le processus de recherche.

La tˆache commence avec une description partielle d’un probl`eme et s’ach`eve quand un cas pass´e proche a ´et´e trouv´e. Elle se d´ecompose en trois sous tˆaches `a savoir :

– Identification de caract´eristiques – Recherche initiale

– S´election

La tˆache d’identification met `a jour un ensemble de probl`emes, le but de la phase de recherche est de retourner un ensemble de cas qui sont suffisamment proches du cas courant, la phase de s´election travaille sur cet ensemble et choisi le meilleur cas.

Certains syst`emes de CBR se basent surtout sur des similarit´es superficielles d’ordre syntaxique, d’autres approches privil´egient les correspondances plus profondes d’ordre s´emantique. Afin de d´evelopper des syst`emes de mise en corr´elation bas´es sur des similarit´es s´emantiques et d’impor- tances relatives selon les caract´eristiques consid´er´ees, une connaissance importante du domaine est n´ecessaire. Les similarit´es d’ordre syntaxique ont l’avantage dans des domaines o `u des connaissances g´en´erales sont difficiles `a acqu´erir. D’un autre c ˆot´e les approches orient´ees s´emantiques sont capables d’utiliser le sens contextuel de la description d’un probl`eme pour effectuer le matching dans des do- maines o `u une connaissance g´en´erale est possible. Il faut ´egalement adapter la strat´egie de recherche au but que l’on se fixe.

2.8.1 Identification de caract´eristiques

Identifier un probl`eme peut simplement consister `a stocker ses descriptions, mais bien souvent une approche plus ´elabor´ee est n´ecessaire, il s’agit alors de tenter de faire comprendre le probl`eme et d’analyser le contexte. Dans certains syst`emes lorsque des donn´ees sont insuffisantes ou inconnues, le CBR demande des informations compl´ementaires `a l’utilisateur. Comprendre un probl`eme implique de filtrer les entr´ees bruit´ees, de s’assurer de la coh´erence des donn´ees dans le contexte, de faire ressortir les caract´eristiques les plus pertinentes. Les descriptions manquantes peuvent ´egalement ˆetre g´en´er´ees par un mod`ele de connaissance pour ˆetre ensuite valid´e par ce mod`ele ou par l’utilisateur.

2.8.2 Recherche initiale

Cette tˆache est g´en´eralement s´epar´ee en deux ´etapes :

– Une recherche initiale qui retourne un ensemble de candidats plausibles

(17)

– une recherche plus ´elabor´e qui s´electionne le meilleur de ces candidats (Voir la partie suivante pour cette ´etape)

D´egager un ensemble de candidats plausibles se fait en utilisant les donn´ees du probl`eme. Il s’agit soit de suivre directement les index `a partir des entr´ees du probl`eme soit de chercher dans un mod`ele g´en´eral de connaissance du domaine. Des m´etriques de similarit´e globales peuvent ˆetre utilis´ees. Ces m´ethodes peuvent ˆetre combin´ees pour s’assurer une pertinence et une coh´erence maximale.

Les cas peuvent ˆetre retrouv´es `a partir des seules donn´ees mais aussi `a partir de caract´eristiques d´egag´ees `a partir de cas donn´ees. Les cas qui coincident parfaitement avec les entr´ees sont, bien

´evidemment, de bons candidats, mais, selon la strat´egie, les cas qui ne correspondent que pour une partie des caract´eristiques du probl`eme peuvent aussi ressortir. Des tests de coh´erence sont souvent effectu´es, particuli`erement si les cas retrouv´es n’ont en commun qu’une sous-partie des donn´ees du cas `a traiter. Il peut ˆetre utile de prond´erer chaque caract`ere en fonction de son importance pour la r´esolution du probl`eme dans un contexte donn´e.

2.8.3 S´election

A partir de l’ensemble des candidats plausibles, le meilleur doit ˆetre choisi. Cela peut avoir ´et´e fait d`es la phase de recherche mais le plus souvent elle retourne un ensemble de cas. Le meilleur cas est souvent d´etermin´e en ´evaluant le degr´e de similitude de fac¸on plus pr´ecise. Cela est fait en tentant de g´en´erer des explications tendant `a justifier des dissimilarit´es entre le candidat et le probl`eme `a traiter. Si les candidats trouv´es s’av`erent peu pertinents, une nouvelle tentative de recherche peut ˆetre d´eclench´ee `a partir de nouveaux crit`eres. Le processus de s´election g´en`ere souvent des cons´equences et des attentes `a partir de chaque cas retrouv´e, et tentent de les justifier. Cela peut se faire en uti- lisant les connaissances g´en´erales du domaine, ou en demandant `a l’utilisateur des confirmations ou des informations suppl´ementaires. Les candidats sont ´eventuellement class´es `a partir de d’autres crit`eres suppl´ementaires ou de m´etriques de similarit´e alternatives. D’autres caract´eristiques telles que l’importance relative de donn´ees ou des calculs portant sur le degr´e de discrimination peuvent ˆetre employ´es.

2.9 R´eutilisation de cas (Adaptation)

Suite `a la s´election de cas lors de la phase de recherche, le syst`eme CBR aide l’usager `a modifier et

`a r´eutiliser les solutions de ces cas pour r´esoudre son probl`eme courant. En g´en´eral, on retrouve deux approches pour l’adaptation de cas. Par l’approche transformationnelle (ou structurelle), on obtient une nouvelle solution en modifiant des solutions ant´ec´edentes et en les r´eorientant afin de satisfaire le nouveau probl`eme. Par l’approche g´en´erative (ou d´erivationnelle), on garde, pour chaque cas pass´e, une trace des ´etapes qui ont permis de g´en´erer la solution. Pour un nouveau probl`eme, une nouvelle solution est g´en´er´ee en appliquant l’une de ces suites d’´etapes. Certains travaux visent ´egalement `a unifier ces diff´erentes approches d’adaptation pour une proposition de mod`ele g´en´eral. Nous allons d´etailler ci-apr`es ces m´ethodes.

Peu de syst`emes CBR font de l’adaptation compl`etement automatique. Pour la plupart des syt`emes, une intervention humaine est n´ecessaire pour g´en´erer partiellement ou compl`etement une solution `a partir d’exemples. Le degr´e d’intervention humaine d´epend des b´en´efices en terme de qualit´e de solution que peut apporter l’automatisation de la phase d’adaptation.

La r´eutilisation des solutions de cas pass´e dans le contexte de nouveaux cas se concentre sur deux aspects : quelles sont les diff´erences entre le cas pass´e et le cas pr´esent, qu’elle partie du cas retrouv´e peut ˆetre transf´er´e au nouveau cas.

(18)

2.9.1 Copie

Dans les tˆaches de classification simples les diff´erences sont ignor´ees, elles sont consid´er´ees comme non pertinentes par rapport aux similarit´es, et la solution du cas retrouv´e est transf´er´e au nouveau cas.

C’est une m´ethode triviale de r´eutilisation. Toutefois, d’autres syst`emes doivent prendre en compte ces diff´erences et le transfert d’un cas pass´e au nouveau cas n´ecessite une adaptation tenant compte de ces dissemblances.

2.9.2 Adaptation

Dans l’approche transformationnelle, la solution du cas pass´e n’est pas directement la solution du cas nouveau mais il existe des connaissances, sous la forme d’op´erateurs transformationnels qui s’applique `a la solution ancienne pour la modifier en une solution pour le cas courant. Une fac¸on d’or- ganiser ces op´erateurs est de les indexer autour des diff´erences d´etect´ees entre le cas courant et pass´e retrouv´e. Cet approche ne s’int´eresse pas `a la fac¸on dont le probl`eme est r´esolu mais se concentre sur l’´equivalence des solutions propos´ees. Cela n´ecessite cependant une connaissance solide du domaine pour produire les op´erateurs transformationnels et cela n’est bien ´evidemment pas toujours possible.

L’approche d´erivationnelle s’int´eresse `a la fac¸on dont a ´et´e r´esolu le cas retrouv´e. Ce cas contient des informations sur la m´ethode qui a ´et´e utilis´e pour r´esoudre le probl`eme associ´e, ce qui inclut une justification des op´erateurs utilis´es, des sous-buts, des alternatives, des chemins erron´es qui ont ´et´e suivis, etc. La m´ethode d´erivationnelle r´einstancie la m´ethode retrouv´ee au nouveau cas et rejoue le plan pass´e dans le nouveau contexte. Durant cette ´etape, les alternatives et chemin `a succ`es sont explor´es en priorit´e, alors que les ´echecs seront ´evit´es. De nouveaux buts seront poursuivis sur la base des anciens.

2.10 Maintenance

Durant le cycle de vie d’un syst`eme CBR, les concepteurs doivent pr´econiser certaines strat´egies pour int´egrer de nouvelles solutions dans la base de cas et pour modifier les structures du syst`eme CBR pour en optimiser les performances. Une strat´egie simple est d’ins´erer tout nouveau cas dans la base. Mais d’autres strat´egies visent `a apporter des modifications `a la structuration de la base de cas (ex : indexation) pour en faciliter l’exploitation. On peut ´egalement alt´erer les cas en modifant leurs attributs et leur importance relative. Cet aspect de recherche est actuellement l’undes plus actifs du domaine CBR.

2.11 R´evision de cas

Quand une solution g´en´er´e par la phase de r´eutilisation n’est pas correcte, l’opportunit´e d’ap- prendre de ses ´echecs s’offre au syst`eme de CBR. Cette phase s’intitule r´evision et consiste en deux tˆaches : ´evaluer la solution g´en´er´ee par la r´eutilisation. Si elle est r´eussie, le syst`eme apprend de ce succ`es (voir partie suivante), sinon le syst`eme r´epare la solution en utilisant des informations sp´ecifiques du domaine.

2.11.1 ´Evaluation des solutions

La tˆache d’´evaluation consid`ere le r´esultat de l’application de la solution propos´e dans l’envi- ronnement r´eel, en faisant appel `a un utilisateur ou en effectuant la tˆache dans le monde r´eel. Ces r´esultats peuvent prendre beaucoup de temps `a apparaˆıtre selon le type d’application. Dans le do- maine m´edical, par exemple, la d´eterminatin du succ`es ou de l’´echec d’un traitement peut prendre plusieurs mois. Le cas peut toujours ˆetre appris et servir pendant une p´eriode transitoire, mais il doit ˆetre marqu´e comme non ´evalu´e. Une solution peut ´egalement ˆetre appliqu´ee `a un programme de simulation capable de g´en´erer une ´evaluation correcte.

(19)

2.11.2 R´eparation des erreurs

La r´eparation de cas implique la d´etection des erreurs de la solution courante et la mise `a disposi- tion des explications associ´ees. Le syst`eme CHEF, par exemple, permet de trouver pourquoi certains buts n’ont pas ´et´e r´ealis´es. Il permet ´egalement de modifier la solution afin d’´eviter l´ecueil des erreurs pr´ec´edentes.

2.12 Apprentissage

Le CBR est fortement coupl´e `a la notion d’apprentissage. L’une des forces motrices du CBR pro- vient d’ailleurs de la communaut´e travaillant sur l’apprentissage par les machines (dont le CBR peut ˆetre consid´er´e comme un sous domaine). La notion de CBR ne se r´eduit pas simplement `a une m´ethode particuli`ere de r´esolution de probl`emes qui ne se soucierait pas de comment les cas sont acquis. Le CBR comprend un apprentissage de la machine qui permet notamment de mettre `a jour les cas, d’apprendre de nouveaux cas et de s’assurer de leur coh´erence. Lorsqu’un probl`eme est r´esolu avec succ`es, l’exp´erience est retenu afin de traiter de nouveaux probl`emes du mˆeme type. Quand une tentative de r´esolution ´echoue, les raisons de l’´echec sont identifi´ees et stock´ees afin d’´eviter de commettre `a nouveau la mˆeme erreur `a l’avenir (voir r´eparation des erreurs).

Le CBR favorise donc l’apprentissage par l’exp´erience, c’est d’ailleurs souvent plus facile de rete- nir des cas concrets que de g´en´eraliser `a partir de ces cas. Bien ´evidemment, comme nous l’avons d´ej`a

´evoqu´e, un apprentissage efficace n´ecessite un ensemble de m´ethodes afin notamment d’extraire les connaissances pertinentes de l’exp´erience, d’int´egrer un cas dans une connaissance existante, d’in- dexer les cas pour pouvoir d´etecter facilement les cas les plus similaires...

Ce processus permet d’incorporer dans syst`eme tout ce qu’il est utile de retenir de la r´esolution du probl`eme courant. L’apprentissage des succ`es et des ´echecs des solutions propos´es est possible grˆace `a l’´evaluation et `a la r´eparation possible de ces solutions. Cela implique de s´electionner les informations pertinentes du cas qu’il faut conserver, de d´eterminer la meilleure fac¸on de les stocker, la meilleure fac¸on de les indexer afin de facilement les retrouver pour des probl`emes similaires et

´egalement de trouver comment les int´egrer dans la structure de m´emoire choisie.

2.12.1 Extraction

Dans le CBR, la base de cas est mise `a jour quelque soit la fac¸on dont le probl`eme a ´et´e r´esolu. Si il a ´et´e r´esolu en utilisant un cas pass´e, un nouveau cas peut ˆetre construit ou le cas pass´e peut ˆetre g´en´eralis´e pour traiter ´egalement le nouveau cas. Si le probl`eme a ´et´e r´esolu par d’autres m´ethodes, un nouveau cas devra ˆetre construit. Dans tous les cas, une d´ecision doit ˆetre prise sur ce qui doit ˆetre utilis´e comme source d’apprentissage. Les caract´eristiques pertinentes du probl`emes et de la so- lution sont des candidats ´evidents. Mais une explication ou une autre forme de justification r´ev´elant pourquoi une solution est bonne peuvent ˆetre ´egalement ajout´ees dans le nouveau cas. Dans le cadre de l’approche d´erivationnelle, il faut extraire les ´etapes cl´es du raisonnement qui a ´et´e adopt´e.

Les ´echecs, i.e. les informations issues des tˆaches de r´evision, peuvent aussi ˆetre extraits et stock´es dans le syst`eme. Quand un ´echec est rencontr´e, le syst`eme peut alors r´ecup´erer des cas d’´echecs similaires, et utiliser ces informations pour am´eliorer sa compr´ehension de l’´echec courant.

2.12.2 Indexation

Le probl`eme d’indexation est une difficult´ee centrale et incontournable des CBR. Il implique de d´ecider quel type d’index utiliser pour des recherches futures, et comment structure l’espace de recherche. Une solution triviale du probl`eme consiste `a utiliser toutes les caract´eristiques d’un probl`eme comme index. C’est un probl`eme d’acquisition de connaissance, et il doit ˆetre analys´e comme faisant parti de l’analyse du domaine et de la phase de mod´elisation. Certains syst`emes, comme

(20)

CBR-Talk, d´eterminent les caract´eristiques pertinentes pouvant faire office d’index, en parcourant en parall`ele tous les cas de la base et en ´eliminant les caract`eres communs les plus courants du cas `a traiter.

2.12.3 Int´egration

Il s’agit de l´etape finale de la mise `a jour. Si aucun nouveau cas a ´et´e construit, en modifiant l’indexation de cas existant, les CBR apprennent `a am´eliorer l’acc`es `a des cas similaires. L’importance des index pour un cas particulier est ajust´e en fonction des succ`es et des ´echecs rencontr´es en utilisant ce cas. Pour les caract´eristiques qui ont ´et´e jug´ees pertinentes `a la mise `a jour d’une solution r´eussie, l’association est renforc´ee, dans le cas contraire sa force est diminu´ee. De cette fac¸on, la structure d’indexation a un r ˆole central d’adaptation et d’optimisation de la m´emoire des cas.

2.13 Mod`eles CBR

2.13.1 Mod`ele structurel

Le mod`ele structurel a ´emerg´e des premi`eres vagues applicatives de syst`emes CBR. Dans ce mod`ele, toutes les caract´eristiques importantes pour d´ecrire un cas sont d´etermin´ees `a l’avance par le concepteur du syst`eme. Ainsi, le concepteur ´elabore un mod`ele de donn´ees du domaine applicatif.

Tel qu’illustr´e `a la figure suivante, les cas sont compl`etement structur´es et sont repr´esent´es par des paires<attribut, valeur>(similaire `a un frame ou `a un objet). D’un point de vue applicatif, un attribut repr´esente une caract´eristique importante du domaine d’application. Les ´echelles de valeurs les plus fr´equemment utilis´ees pour structurer les attributs sont les entiers/r´eels, les bool´eens et les symboles.

La repr´esentation des cas peut ˆetre sur un seul niveau ou sur plusieurs niveaux (hi´erarchie d’attributs).

F. 2.6 – Exemple de structuration d’un cas en CBR structurel

La similarit´e entre deux cas est mesur´ee en fonction de la distance entre les valeurs de mˆemes attributs. Cette distance est fr´equemment estim´ee par les mesures euclidiennes et de Hamming. La similarit´e globale entre deux cas est habituellement ´evalu´ee par une somme pond´er´ee de la similarit´e de chacun des attributs. Comme les attributs d’un cas n’ont pas tous la mˆeme importance et que cette importance varie d’une situation `a l’autre, un poids est attribu´e `a chaque attribut de chaque cas.

Ces poids permettent de pond´erer la similarit´e globale entre deux cas en accordant un cr´edit plus important aux attributs les plus m´eritants.

Tous les travaux sur l’adaptation de cas sont men´es dans le cadre du mod`ele structurel. L’adap- tation peut varier d’une simple substitution de la valeur d’un attribut jusqu’`a la restructuration compl`ete d’une solution. Leake identifie environ dix techniques permettant de g´en´erer des solutions par substitution, transformation partielle ou d´erivation compl`ete. Ces techniques sont habituellement mises en oeuvre par des syst`emes `a base de r`egles, ce qui nous ram`ene aux probl`emes d’acquisition de connaissance et d’absence de principes g´en´eraux pour certains domaines. Pour en limiter les dif- ficult´es, certaines approches ´evitent l’adaptation en s´electionnant, durant la phase de recherche, des cas qui n´ecessiteront peu d’adaptation.

(21)

2.13.2 Mod`ele conversationnel

Dans l’approche traditionnellle (le mod`ele structurel), un probl`eme doit ˆetre compl`etement d´ecrit avant que ne d´ebute la recherche dans la base de cas. Cette exigence pr´esuppose une expertise du domaine d’application permettant de bien caract´eriser une situation `a l’aide de valeurs num´eriques ou symboliques de s´electionner les principaux facteurs pouvant influencer la r´esolution de son probl`eme. Toutefois pour certains domaines comme le service `a la client`ele, ces aspects sont difficiles

`a d´eterminer `a l’avance, surtout pour les usagers novices de syst`emes CBR. Le mod`ele conversation- nel a donc ´et´e propos´e par Inference Corporation pour surmonter ces difficult´es. Il est actuellement le mod`ele le plus r´epandu parmi les applications commerciales du CBR.

Comme son nom l’indique, le mod`ele CBR conversationnel mise sur l’interaction entre l’usager et le syst`eme (d’o `u la notion de conversation) pour d´efinir progressivement le probl`eme `a r´esoudre et pour s´electionner les solutions les plus appropri´ees. Un cas conversationnel consiste en trois parties (voir figure qui suit) :

– un probl`eme P : une br`eve description textuelle, habituellement de quelques lignes, de la nature du probl`eme exprim´ee.

– une s´erie de questions et de r´eponses Q A : des index, exprim´es sous forme de questions, permettant d’obtenir plus d’information sur la description du probl`eme. Chaque question a un poids repr´esentant son importance par rapport au cas.

– une action A : une description textuelle de la solution `a mettre en oeuvre pour ce probl`eme.

Cette description n’est pas structur´ee.

F. 2.7 – Exemple de cas pour le mod`ele conversationnel

Cette repr´esentation de cas est donc une extension du mod`ele structurel avec des attributs de trois types bien pr´ecis : description, questions, actions. La notion de trait est ´etendue `a la notion de question afin de pouvoir interroger l’usager.

Dans le sch´ema de r´esolution du CBR conversationnel, l’int´eraction entre le syst`eme et l’usager se fait comme suit :

– L’usager fournit au syst`eme une br`eve description textuelle du probl`eme `a r´esoudre et le syst`eme calcule la similarit´e entre cette description et la section probl`eme des cas. Le syst`eme propose alors `a l’usager une s´erie de questions.

– L’usager choisit les questions auxquelles il souhaite r´epondre. Pour chaque r´eponse fournie par l’usager, le syst`eme r´e´evalue la similarit´e de chacun des cas. Les questions n’ayant pas rec¸u de r´eponse sont pr´esent´ees par ordre d´ecroissant de priori´te.

– Lorsqu’un des cas atteint un niveau de similarit´e suffisamment ´elev´e (i.e. qu’il franchit un seuil), le syst`eme propose ce cas comme solution. Si aucun cas n’atteint un degr´e de similarit´e suffisant et que le syst`eme n’a plus de questions `a poser `a l’usager, le probl`eme est stock´e comme ´etant non-r´esolu.

Les syst`emes CBR conversationnels n’effectuent pas d’adaptation des solutions pass´ees. Une des raisons est que la portion solutions des cas n’est pas structur´ee, ce qui rend difficile la formulation de connaissances d’adaptation. ´Egalement, il semble que, pour les applications de type help-desk,

(22)

les solutions sont relativement faciles `a modifier, mˆeme par un pr´epos´e inexp´eriment´e. De plus, l’investissement en temps et en efforts consacr´es `a d´evelopper un syst`eme d’inf´erence qui modifie les solutions est difficile `a justifier dans ce contexte op´erationnel.

2.13.3 Mod`ele textuel

Les travaux sur le raisonnement `a base de cas textuels portent sur la r´esolution de probl`eme `a par- tir d’exp´eriences dont la description est contenue dans des documents textuels. Dans cette approche, les cas textuels sont soit non-structur´es ou semi-structur´es. Ils sont non-structur´es si leur description est compl`etement en free-text. Ils sont semi-structur´es lorsque le texte est d´ecoup´e en plusieurs por- tions ´etiquet´ees par des descripteurs tels que probl`eme, solution, etc. Un cas textuel non-structur´e est un cas dont le seul attribut est textuel tandis qu’un cas textuel semi-structur´e est un cas dont un sous-ensemble de ses attributs est textuel.

Pour ce mod`ele, la repr´esentation textuelle des cas joue habituellement un r ˆole important dans la r´esolution du probl`eme. Elle peut ˆetre une finalit´e en soi : par exemple, obtenir le texte d’un jugement l´egal servant de jurisprudence `a une nouvelle cause. Elle peut aussi d´ecrire une situation et une solution qui ne peuvent ˆetre facilement codifi´ees selon un sch´ema de repr´esentation de connaissance.

Cette voie de recherche est relativement r´ecente car les premiers travaux datent du milieu des ann´ees 90. A ce jour, aucune repr´esentation standard ne s’est d´egag´ee pour le mod`ele textuel. Les approches actuelles misent leurs efforts principalement sur la phase de recherche sur la base de cas et ne proposent pas de voies pour l’adaptation de solutions textuelles.

Nous pouvons identifier deux p ˆoles importants dans les diff´erents travaux en CBR textuel : – structuration de cas textuels : on repr´esente les textes selon un nombre limit´e de traits bas´es

sur des caract´eristiques du domaine (concepts, cat´egories, sujets, mots-cl´e, etc.). Pour ce p ˆole de recherche, on vise `a structurer le mieux possible les cas textuels afin de tirer profit de tech- niques d´evelopp´ees pour les syst`emes CBR structurel. Les efforts sont d´eploy´es pour enrichir l’indexation des textes `a l’aide de traitements relativement ´elabor´es comme la cat´egorisation de texte. Cette approche est int´eressante pour les applications dont le domaine est restreint. Le projet SMILE en est un exemple.

– extension du mod`ele de recherche d’information : dans ce p ˆole de recherche, on ´elabore des m´ecanismes de recherche plus sophistiqu´es tout en gardant le processus d’indexation le plus simple possible. Dans ce cadre, le choix des traits de cas est d´etermin´e `a partir de la fr´equence de mots-cl´es ou de syntagmes de r´ef´erence (keyphrases). Les particularit´es de l’application se refl`etent au niveau de la recherche, soit par la d´efinition de mesures de similarit´e s´emantique ou par des extensions au mod`ele vectoriel de recherche d’information. Cette approche semble plut ˆot valide pour les applications g´en´eriques qui veulent conserver une ind´ependance par rapport au domaine d’application. Le projet FAQFinder en est un exemple.

Le CBR textuel diff`ere de l’approche structurelle dans laquelle les textes sont tout simplement des chaˆınes de caract`eres sans syntaxe ni s´emantique. De plus, cette derni`ere impose une structuration compl`ete des attributs d’un cas. Nous consid´erons ´egalement que le mod`ele conversationnel, pr´esent´e

`a la section pr´ec´edente, ne fait pas partie des approches textuelles. La phase pr´eliminaire du CBR conversationnel se limite `a une comparaison, par mots-cl´e ou n-grammes7de caract`eres, de courtes descriptions textuelles de probl`emes. Durant la phase suivante, l’interaction avec l’usager est guid´ee par une suite de questions et de r´eponses. Les ´echanges lors de l’interaction ne font l’objet d’aucun traitement textuel. La langue y est utilis´ee uniquement dans le but de rendre les questions plus intelligibles `a l’usager du syst`eme.

7Une repr´esentation de type n-gramme consiste `a d´ecouper un texte en s´equences de n caract`eres.

(23)

2.14 Couplage d’autres technologies et du CBR

Le datamining peut jouer un r ˆole tout `a fait central dans le domaine du CBR comme en t´emoigne la partie ult´erieure du rapport qui y est consacr´ee.

Les algorithmes g´en´etiques peuvent ˆetre utilis´es notamment pour optimiser la phase de recherche de cas similaires.

L’un des th`emes majeur de recherche vise `a combiner les autres syst`emes `a base de connaissance avec le CBR et notamment les syst`emes experts afin de concevoir des syst`emes de connaissance homog`enes, unifi´es et performants. Des propositions ont ´et´e faites d’architectures combinant les syst`emes `a base de r`egles et le CBR. Il s’agit de traiter des domaines qui sont compris de mani`ere a peu pr`es correcte, mais encore imparfaitement. Ces architectures utilisent un ensemble de r`egles, que l’on consid`ere comme approximativement valides, afin d’obtenir une r´eponse pr´eliminaire `a un probl`eme donn´e, il se sert ensuite d’analogies `a partir de cas connus pour g´erer les exceptions aux r`egles ainsi que pour confirmer les conclusions de ces r`egles. Cela permet ´egalement de concevoir des CBR innovants, les mˆemes r`egles peuvent ˆetre utilis´ees pour g´erer des composants du CBR comme par exemple des r`egles d’indexation ou d’adaptation de cas. Ces architectures ont d´ej`a ´et´e utilis´e en pratique pour cr´eer des syst`emes de prononciation de nom et fonctionnent d´ej`a aussi bien que les meilleurs applications commerciales. Il existe d’autres possibilit´ees que le lecteur avis´e pourra approfondir en lisant le papier [4].

2.15 Perspectives

Des am´eliorations restent `a faire dans toutes les phases cl´ees des CBR. Une partie importante r´eside dans l’am´elioration des CBR textuels qui pourraient `a terme se r´ev´eler des outils tr`es puis- sants. Une partie du travail doit aussi se focaliser sur la collaboration des diff´erentes technologies et algorithmes de l’informatique et des sciences cognitives, leur association dans un syst`eme coh´erent pourrait en effet pallier les points faibles de chacune prise s´epar´ement et mettre en avant leurs atouts respectifs.

L’avenir sera donc sans doute dans l’incorporation des diff´erentes m´ethodes de l’IA dans des syst`emes de calcul unifi´es et massivement parall`eles qui seront `a mˆeme de r´epondre `a de nombreux probl`emes industriels encore non r´esolus.

L’importance croissante donn´ee `a l’int´eraction entre la machine et l’utilisateur humain pourrait donner lieu `a des avanc´ees majeures dans les domaines d’aides `a la d´ecision, d’apprentissage assist´e par ordinateur...

(24)

Chapitre 3

Solutions industrielles existantes et applications

Dressons rapidement un petit listing de quelques solutions industrielles existantes, afin de mon- trer l’importance quantitative des projets mettant en oeuvre le CBR ainsi que la diversit´e des domaines concern´es :

Support technique(KATE, ESTEEM, k-commerce, CBR-Works, HELPDESK, RapidReasoner...) – E-Commerce(KATE, CBR-Works)

Diagnotics simples(RapidReasoner)

Diagnostics complexes(SpotLight, ReMind, KnowMan...) – Traitement des pannes(ReMind, TechMate, Case Advisor...) – DataMining(ReMind, Easy Reasoner...)

Assistance client`ele(ESTEEM, k-commerce...) – S´election de produits et de services (Case Advisor)

M´edecine, diagnostics de patient dans diff´erents domainesDomaine juridique (HYPO...)

Aviation, a´erospatialeEnseignement

Chimie, industrie pharmaceutiquePlanification

ClassificationRobotique

Conception ´electriqueEt bien d’autres...

Ces solutions pr´esentent bien ´evidemment des particularit´es, elles sont plus ou moins souples, plus ou moins performantes et plus ou moins sp´ecifiques. Il est int´eressant de constater que les techniques de CBR peuvent ˆetre exploit´ees `a peu pr`es partout et qu’elles ont d´ej`a fait leurs preuves dans l’industrie.

(25)

Chapitre 4

Apports du datamining au CBR

Si la principale utilisation du datamining est sans nul doute d’am´eliorer l’indexation des donn´ees, cette technologie poss`ede des applications dans de nombreuses phases de la conception d’un CBR.

Avant de pr´esenter l’ensemble de l’apport du datamining dans les performances d’un CBR, pr´ecisons que son int´egration peut se r´ev´eler plus co ˆuteuse pour les entreprises pour plusieurs raison. Tout d’abord cela n´ecessite un d´eveloppement plus important puisqu’il s’agit de choisir les meilleurs algorithmes, voire les classes les plus int´eressantes dans le contexte s´electionn´e. De plus, cela pose aussi des contraintes quant `a l’´evolution du syst`eme `a base de cas. Une fois l’index cr´e´e `a l’aide des algorithmes de datamining, il devient n´ecessaire pour chaque modification de relancer cet algorithme sur la base de donn´ee. C’est pourquoi, le choix de l’int´egration ou non du datamining dans le d´eveloppement d’un syst`eme de raisonnement `a base de cas doit vraiment se d´ecider en fonction de l’int´erˆet qu’il peut repr´esenter (taille des donn´ees, difficult´e `a d´eterminer les classes de cas etc...). Nous allons maintenant pr´esenter l’apport du datamining dans les principales ´etapes de la conception d’un CBR.

4.1 Nettoyage des donn´ees

Il est tr`es important de s’assurer de la justesse des informations que l’on fournit au CBR car les informations fausses peuvent entraˆıner la cr´eation de cas r´eellement dommageables `a la pertinence des solutions propos´ees par la suite. Mˆeme si le data cleaning n’est pas un domaine tr`es abouti aujourd’hui, les techniques actuelles vont sans nul doute permettre d’am´eliorer le nettoyage des donn´ees que l’on fournit au syst`eme. Ainsi les bases de cas seront construites `a partir d’informations les plus justes possibles.

4.2 Int´egration du contexte

La principale application du datamining dans la r´ecup´eration des donn´ees est de prendre en compte pleinement le contexte dans un cas. Le datamining donne la possibilit´e d’´etablir quels sont les ´el´ements les plus significatifs puis d’identifier quels sont les ´el´ements importants constituant alors un contexte. Dans ce type de traitement l’avantage du datamining est d’ˆetre rapide, ne n´ecessitant pas de parcourir les donn´ees de multiples fois, ce qui constitue un atout certain pour les bases de donn´ees tr`es importantes.

Si par exemple on se place dans le domaine m´edical, un syst`eme `a base de cas ne sera abso- lument pas performant s’il n’est pas capable de consid´erer le contexte d’un cas. Pour chaque cas ainsi, les donn´ees disponibles sont diff´erentes et dans certains cas `a partir d’un grand nombre de donn´ees communes, deux cas pourront aboutir `a des solutions extrˆemement diff´erentes en fonction du contexte.

(26)

4.3 Recherche des ´el´ements importants

Grˆace `a l’int´egration des techniques de datamining, il est possible de r´ealiser en une seule fois ce qui est fait dans les ´etapes de collecte et d’indexation. Comme nous allons le pr´esenter dans la section suivante, il est possible d’utiliser un algorithme tel que C4.5 afin d’am´eliorer grandement l’indexation des donn´ees et l’inf´erence des cas, particuli`erement lorsque le syst`eme va int´egrer de nouveaux cas.

Cette m´ethode consiste `a trouver avant tout les ´el´ements les plus significatifs qui permettent de d´ecrire un cas, puis de les hi´erarchiser par ordre d’importance sous la forme d’un arbre (comme les arbres de d´ecision que l’on retrouve en datamining). Il n’y a plus ensuite qu’`a parcourir l’arbre pour retrouver rapidement un cas et sa solution associ´ee.

4.4 Maintenance et am´elioration du choix des classes

Dans tout syst`eme de raisonnement `a base de cas industriel fonctionnant sur de larges bases de donn´ees, des tests sont utilis´es afin d’´evaluer les performances d’un syst`eme, rep´erer les ´eventuels probl`emes afin de leur trouver une solution. Le r ˆole du datamining va ˆetre de faciliter grandement cette tˆache de fac¸on `a obtenir une maintenance du syst`eme plus efficace. Lorsque le syst`eme est trop lent, cela vient souvent d’un mauvais choix des classes. La solution est tout simplement de revoir la base de donn´ees de cas qui a ´et´e utilis´ees en utilisant la nouvelle connaissance sur les d´efauts qui se sont produit les fois pr´ec´edentes. Il sera utile cette fois ci d’utiliser les comp´etences d’un expert afin d’´eviter aux algorithmes de datamining de r´ep´eter les mˆeme erreurs. Ainsi un algorithme supervis´e pourra s’av´erer extrˆemement utile dans la r´esolution de ces probl`emes.

(27)

Chapitre 5

Adaptation et g´en´eralisation

Il existe plusieurs d´efinition de la g´en´eralisation. La premi`ere consiste en un proc´ed´e de formula- tion de concepts faisant abstraction de certaines propri´et´es. La seconde est l’utilisation d’une aptitude apprise mais dans une situation diff´erente. Pour utiliser la notion de g´en´eralisation dans le CBR nous nous int´eresserons davantage `a la seconde d´efinition qui correspond davantage `a ce que l’on cherche

`a faire.

En g´en´eral, il y a deux genres d’adaptation dans le CBR :

L’adaptation structurelle dans laquelle l’adaptation est appliqu´ee directement `a la solution stock´ee dans les cas. Ce type d’adaptation a par exemple ´et´e utilis´e dans JUDGE et CHEF.

L’adaptation d´erivationnellequi r´eutilise les algorithmes, m´ethodes et r`egles qui ont g´en´er´e la solution originale pour produire une nouvelle solution au probl`eme courant. Dans cette m´ethode la s´equence planifi´ee qui constitue la solution originale doit ˆetre stock´ee en m´emoire avec la solution comme dans MEDIATOR. L’adaptation d´erivationnelle se r´ef`ere parfois `a la r´einstanciation et peut seulement ˆetre utilis´ee pour les cas qui sont bien compris.

Plusieurs techniques, allant de la plus simple `a des m´ethodes plus complexes, ont ´et´e utilis´es dans le CBR pour r´epondre `a cette n´ecessit´e.

Adaptation nulle: L’adaptation nulle est une m´ethode simple et directe qui applique toutes les solutions retrouv´ees au probl`eme courant sans l’adapter. L’adaptation nulle est utile pour les probl`emes concernant des raisonnements complexes mais des solutions simples. Par exemple, quand on utilise un CBR pour un prˆet bancaire, l’ensemble des donn´ees qui correspondent aux cas, aboutissent au final `a une r´eponse tr`es simple : accorder le prˆet, refuser le prˆet, ou

´eventuellement soumettre la demande.

Ajustement de param`etres: Cette technique d’adaptation structurelle compare les param`etres sp´ecifi´es des cas retrouv´es et courant afin de modifier la solution dans une direction appropri´ee.

La technique est utilis´ee dans JUDGE.

Abstraction et resp´ecialisation : Cette technique g´en´erale et structurelle peut ˆetre utilis´ee comme une fac¸on basique de r´ealiser de simples adaptations et de fac¸on plus complexe, pour g´en´erer de nouvelles solutions cr´eatives. Le syst`eme de planification PLEXUS par exemple utilise cette technique.

Adaptation bas´ee sur la critique : Cette m´ethode se base sur des combinaisons d’´el´ements qui peuvent causer probl`eme `a une solution. Ce qu’il est important de noter, c’est que qu’une critique est li´ee `a des corrections `a effectuer pour chacun de ces probl`emes. PERSUADER est un syst`eme qui utilise toutes les techniques d’adaptation pr´esent´ee jusqu’`a pr´esent.

R´einstanciation: Cette technique est utilis´ee pour instancier les caract´eristiques d’une ancienne solution. CHEF par exemple utilise la r´einstanciation.

Le rejouer d´erivationnel: Cela consiste en une proc´edure permettant de d´eriver une ancienne solution ou une partie de solution pour l’appliquer dans une nouvelle situation. Par exemple BO- GART utilise cette m´ethode en utilisant les plans stock´es pour r´esoudre les nouveaux probl`emes.

La r´eparation par mod`ele: Cette technique utilise un mod`ele causal pour guider l’adaptation

(28)

comme dans CELIA qui est utilis´e pour le diagnostique et l’apprentissage en m´ecanique auto, ainsi que dans KRITIK, utilis´e pour la r´ealisation de dispositifs physiques.

Substitution sur les cas: Cette m´ethode est utilis´ee pour sugg´erer une adaptation de solution comme dans ACBARR, un syst`eme pour la reconnaissance robotique.

Références

Documents relatifs

On peut donc consid´erer indiff´eremment une mesure de Radon comme une forme lin´eaire continue T sur un espace de fonctions continues et comme une mesure ensembliste sign´ee µ,

[r]

(59%) of these studies combined RDS samples with sam- ples collected using other sampling techniques; five (16%) failed to generate a minimum of three referral waves, four (13%)

Cette ´ equation signifie que pour que la convection transporte de la chaleur il faut que les variation lat´ erales de v z et de δT soient corr´ el´ ees et, pour le flux soit vers

Dans chacune des deux situations donn´ ees plus bas, comment placer 20 boules dont 10 sont noires et 10 sont blanches dans deux urnes de mani` ere ` a maximiser la probabilit´ e

Universit´ e Paris Dauphine Syst` emes diff´ erentiels L3 math´ ematiques, 2012-2013 Devoir : analyse qualitative de la comp´ etition entre deux herbivores.. Traiter les parties I,

Puis on r´ eit` ere l’exp´ erience : on croise la derni` ere drosophile s´ electionn´ ee avec un individu h´ et´ erozygote, on choisit au hasard un individu de la descendance

— Il s’agit essentiellement d’une ´evidence, on se permettra ne pas aller jusqu’au plus profond d’une preuve impitoyablement rigoureuse.. Les intervalles J k qui sont vides