• Aucun résultat trouvé

Un système interactif de classification automatique sous contraintes symboliques

Définition d’un système de classification automatique interactif

IV.1 Un système interactif de classification automatique sous contraintes symboliques

Comme nous l’avons montré dans le chapitre précédent, l’utilisation des outils de construction automatique de classification pour l’extraction de connaissances à partir de données sur les domaines complexes et peu formalisés, implique l’existence d’un cycle de classification. Ce cycle permet d’adapter la méthode au contexte et à l’objectif de la classification. Une solution pour réduire la durée de cette phase de « réglage » consiste à prendre en charge l’aspect cyclique du processus et à élaborer des outils qui améliorent le dialogue entre les experts et le spécialiste. C’est le principe des approches interactives.

Le cycle de classification est la conséquence de deux processus distincts : la structuration des connaissances des experts et l’intégration des biais de classification de l’outil utilisé. Les approches interactives existantes de type boîte noire et boîte en verre, améliorent essentiellement le processus d’intégration des biais en aidant l’utilisateur à comprendre comment le système utilise les données. Pour modifier une classification, l’utilisateur devra modifier les données ou les paramètres de l’outil.

Exemple IV. 1 Les approches interactives qui corrigent les données

Imaginons que pour un projet de formation d’îlots, les experts du domaine évaluent que deux machines X et Y séparées par le système de classification utilisé, devraient appartenir à la même classe. Les approches de type boîte noire ou boîte en verre vont permettre d’expliquer à l’expert pourquoi les objets sont rassemblés et ce qu’il faut faire pour les séparer. Dans l’hypothèse d’un système très simple qui rassemble les objets s’ils possèdent un nombre minimum S de ressemblances, le dialogue entre les utilisateurs et le système devrait ressembler à ceci :

utilisateur : pourquoi les système rassemble-t-il les objets X et Y

système : parce que l’objet X et l’objet Y présente plus de S ressemblances utilisateur : comment faire pour séparer l’objet X et l’objet Y

système : il faut soit :

- modifier les modalités des attributs de l’objet X ou de l’objet Y

- définir de nouveaux attributs qui permettent de mieux différencier X de Y - éliminer des attributs qui prennent la même valeur pour X et Y

- augmenter le seuil S d’agrégation des objets à la valeur S’

Dans le cadre des problèmes d’implantation de la TG, la majeure partie des connaissances supplémentaires est difficile à formuler en terme d’attributs descriptifs ou en terme de modification des paramètres de l’outil de classification (cf. chapitre I.3). Par contre, nous constatons une certaine régularité dans la structure de ces connaissances (cf. chapitre I.3.1). C’est pourquoi, afin d'accélérer le cycle de classification en TG, nous proposons non pas d’apprendre à l’expert comment modifier ses données en fonction du système, mais de systématiser l’étape n°6 d’interprétation des connaissances supplémentaires. Sur la base d’un

corpus de règles de classification représentatif des connaissances supplémentaires formulées par les experts du domaine dans le cadre de la TG, nous avons développé un langage formel de représentation des connaissances. Ce langage très proche de la formulation spontanément utilisée par les experts nécessite un effort d’apprentissage minimum. Il est à l’origine du protocole d’interaction ci-après (fig. IV.1). Tout d’abord, une phase d’initialisation détermine une partition initiale de l’ensemble des données (1), (2), (2.5), (3), (4) et (8). Les étapes sont numérotés de façon à pouvoir faire le rapprochement avec les étapes du cycle de classification présenté dans la figure III.2. Les experts examinent les familles (4) et formulent un ensemble de règles de classification sur la façon de regrouper les objets. Ils les transcrivent dans le langage proposé, définissant ainsi une base de règle (5). La base de règles est analysée par un programme spécialisé (6). Les éventuelles incohérences sont levées par recours direct aux experts. Les règles sont interprétées (7) en terme de modification du tableau de données (étape 2.5) et / ou des paramètres du logiciel d’Analyse Typologique (étape 3). L’algorithme de classification construit de nouvelles familles, en cohérence avec les connaissances expertes de la base (5). Les familles sont à nouveau soumises aux experts pour en apprécier le sens. Ils peuvent modifier les règles existantes ou bien en ajouter de nouvelles. Le cycle (5), (6), (7), (2), (2.5), (3) et (4) se poursuit jusqu'à ce que les experts soient satisfaits des familles obtenues. Il faut généralement plusieurs cycles pour obtenir une partition pertinente. La base de connaissance s’enrichit et l’étape de validation garantit la cohérence de l’ensemble des connaissances supplémentaires recueillies. En pratique, le processus converge généralement vers une partition pertinente au bout de quelques cycles.

Par rapports aux méthodes existantes, cette approche présente les avantages suivants :

- La majeure partie des règles de classification s’interprètent non pas en terme de modifications des attributs descriptifs, mais décrivent comment utiliser les attributs pour comparer les objets (cf. chapitre III.2.1.2.3). Notre approche respecte la façon dont les experts utilisent spontanément les attributs initiaux pour regrouper ou séparer les objets, elle permet à l’expert de formuler ses connaissances dans un cadre qui lui est familier, sans devoir modifier les attributs descriptifs et intégrer l’hypothèse de similarité.

- Les experts comprennent de mieux en mieux la façon dont le système classe les objets puisque le système fait en partie ce que les experts lui disent. Les classes obtenues ont plus de chance d’être pertinentes car elles sont construites selon les principes utilisés par les experts.

- Au fur et à mesure des cycles de classification, la base de règles permet de capitaliser les connaissances supplémentaires qui s’enrichissent tout en restant cohérentes. On obtient, au final, une partie du mode d’emploi des attributs, complémentaire de l’hypothèse de similarité. Nous verrons par la suite que la base de règle finale définit en complément de l’outil de classification une mesure de similarité adaptée au problème considéré.

- Le spécialiste en Analyse Typologique est libéré d’une grande partie de travail d’interprétation et d’analyse des connaissances supplémentaires. Il peut se consacrer à superviser le cycle de classification. A terme, il est même envisageable de rendre les utilisateurs complètements autonomes. L’étape d’analyse et d’interprétation est sensiblement accélérée. Les experts peuvent tester et corriger rapidement leurs connaissances.

Une fois les classes formées et validées par les experts, il est possible d’entamer un travail d’analyse pour déterminer l’intension des classes. En collaboration avec les experts, il s’agit d’expliciter les connaissances sous-jacentes aux classes, en terme d’attributs communs aux objets qui les constituent.

2 Concertation des experts du domaine et du spécialiste de la méthode pour sélectionner les objets et les décrire

1 Définition de l’objectif de la classification

5 Ecriture des règles de classification dans un langage formel de représentation des connaissances

4 Interprétation et validation des classes

6 Analyse systématique et automatique de la base de règles par un programme spécialisé

7 Intégration systématique et automatique de l’information apportée par les règles dans l’algorithme d’Analyse Typologique

8 Classification des objets

2.5 Tableau de données

3 Catégorisation des exemple par un Outil d’Analyse Typologique