• Aucun résultat trouvé

Les problèmes de validation des classifications

III.4 Les approches interactives

Les termes « interactif » et « interactivité » sont apparus dans les années 80 (Dictionnaire 1986). Ces concepts ont principalement été utilisés dans le contexte de la communication homme-machine. De ce point de vue et dans le domaine de l’aide à la décision, Lévine et Pomerol (Lévine 1989) en proposent la définition suivante : Considérant « un système de résolution de problème pratiquant la recherche heuristique » au sein d’un espace d’états, le système « est interactif si tout ou une partie du contrôle de la recherche est laissé à l’opérateur ». Le recours à l’interactivité dans une procédure peut se justifier par une déficience des procédures classiques existantes ou un apport spécifique lié à l’intervention humaine. Une procédure interactive se présente comme une procédure itérative fondée sur l’alternance (Vanderpooten 1990) d’une phase de calcul ayant pour but de construire des propositions avec une phase de dialogue visant à faire réagir le décideur relativement à la proposition courante et à obtenir ainsi de l’information pour orienter la construction d’une nouvelle proposition. Pour réaliser une procédure interactive, il ne suffit pas de mettre des outils d’investigation à la disposition du décideur. Il faut également aider l’utilisateur à s’en servir en organisant et guidant l’interaction. Il s’agit de définir un protocole d’interaction qui régit les phases de dialogue et la manière dont elles s’enchaînent avec les phases de calcul.

Construction de la proposition Ph Evaluation de la proposition Ph Recueil d’informations supplémentaires Validation de Ph h = h + 1 h = 0 NON FIN OUI Phase de calcul Phase de dialogue

Dans le contexte de la classification, la phase de calcul correspond à la construction d’une classification à partir des informations recueillies. La phase de dialogue comprend la validation et la critique de la classification obtenue par les experts du domaine. Définir un protocole d’interaction, c’est proposer un environnement qui enchaîne les phases de calcul et de dialogue et guide les experts du domaine pour corriger la classification obtenue. Nous distinguerons les méthodes selon la stratégie employée pour aider l’utilisateur à corriger la classification.

Corriger directement le résultat. C’est la méthode la plus simple. Il faut d’abord classifier les éléments, corriger la classification jusqu’à ce les classes soient validées, puis déterminer une description des classes. Cette méthode devient extrêmement laborieuse voir impossible à appliquer dès que le nombre d’objets dépasse quelques centaines. Elle n’offre aucun cadre de référence aux experts pour structurer leurs connaissances, si ce n’est la structure recherchée.

Les méthodes de type boîte noire, consistent à disposer d’une expérience qui permet en fonction des erreurs constatées dans la classification d’en diagnostiquer les origines au niveau des paramètres de l’Outil de Construction Automatique de classification ou bien au niveau des données. Des tentatives dans le sens d’une meilleure formalisation des « recettes » de mise au point ont été faites dans le cadre du projet Machine Learning Toolbox (Craw 1992). Le système MLT possède un système expert en apprentissage qui conseille des modifications possibles des paramètres d’apprentissage en fonction des erreurs observées par les utilisateurs. Ce système fonctionne dans un contexte supervisé et ne traite pas la sélection et la représentation des données.

Les méthodes de type boîte en verre (Bisson 1993; Nedellec 1995 ; Bisson 1997; Gabriel 1999) vont guider la démarche de correction des erreurs constatées par les experts. Le système doit pouvoir expliquer ce qui justifie dans les données et le fonctionnement du système le résultat obtenu. Il s’agit de montrer comment le système a trouvé un résultat, de façon à ce que les liens entre les entrées et les sorties du système soient les plus claires possibles. Si l’expert comprend comment le système utilise les données initiales, il prendra plus facilement conscience de l’absence de descripteurs importants ou de la présence de descripteurs non pertinents. On obtient ainsi la base d’un dialogue qui va aider à la définition des attributs descriptifs des objets.

III.5 Conclusion

Dans le but de résoudre un problème d’Affinement de Connaissance par Classification Interactive, nous essayons d’employer un Outil de Classification Automatique.

Ces outils structurent les données sur la base de l’hypothèse de similarité. En l’absence d’informations complémentaires cette hypothèse reste somme toute la plus raisonnable. Si dans les domaines simples il est concevable que les données initialement fournies à l’outil de catégorisation soient suffisamment complètes et justes pour que celui-ci découvre par ses « propre facultés d’analyse » une solution satisfaisante, ce présupposé ne tient plus dès lors que l’on travaille dans des domaines peu formalisés où l’essentiel de la connaissance disponible se présente sous la forme de savoir-faire. Après l’analyse des problèmes de validation rencontrés en Analyse Typologique et en Classification Conceptuelle, pour ce type de contexte, il apparaît que les données initiales respectent rarement l’hypothèse de similarité. Les causes majeures de ce constat sont :

1 l’incomplétude des données initiales due à la nature procédurale des savoir-faire ;

2 les biais de classification qui déforment la sémantique du domaine.

Les données sont incomplètes, car par définition les experts ont du mal à énoncer les connaissances relatives à leur domaine d’activité. Les attributs ne reflètent pas nécessairement d’une manière directe les concepts manipulés par les experts ou bien des concepts pertinents par rapport à l’objectif de la classification.

Les Outils de Classification Automatique traitent le processus de catégorisation comme un problème d’optimisation. Ils reposent sur un ou plusieurs langages de représentation des connaissances disponibles sur le domaine, un critère d’évaluation de la qualité d’une classification et des heuristiques d’exploration de l’espace de recherche. Les langages de représentation des connaissances nécessitent un effort de codification plus ou moins important de la part des utilisateurs et ne lui permettent pas forcément d’exprimer ses connaissances. Le critère mesure l’adéquation entre les classes et les ressemblances observées dans la description des objets. Le concept de ressemblance est extrêmement vague et difficile à opérationaliser. Il n’existe pas de critère universel d’évaluation de la qualité d’une classification et les critères varient d’une méthode à l’autre. D’un point de vue algorithme, la taille des espaces de recherche nécessite d’utiliser des heuristiques et de se contenter d’un optimum local. Le résultat est purement syntaxique. La classification obtenue est le reflet de l’information initiale et des biais de classifications employés.

Généralement, la classification obtenue avec les données initiales sert de point de départ à un cycle de classification (cf. III.3). Si les experts du domaine ne valident pas la classification lors de l’étape (4), l’interaction entre le spécialiste et les experts du domaine prend la forme d’un dialogue. Le spécialiste de la méthode est nécessaire, car les Outils de Classification

Automatique sont généralement complexes et nécessitent une expertise particulière pour être utilisés. Lors de l’étape (5) les experts formulent des connaissances supplémentaires destinées à corriger le résultat obtenu. En tenant compte de ces remarques, le spécialiste et les experts progressent par essais erreurs, jusqu’à ce qu’émerge une solution satisfaisante. Le cycle d’élaboration de classes significatives repose sur deux processus distincts :

1 La structuration des connaissances du domaine pour les experts, au niveau individuel et collectif ;

2 L’apprentissage ou l’intégration des biais du système par les experts du domaine et l’apprentissage par le spécialiste d’une partie de connaissances du domaine.

Ces deux processus permettent de raffiner les données afin qu’elles respectent l’hypothèse de similarité au sens de l’outil de classification utilisé. La durée du cycle de classification est directement dépendante de ces deux processus. La structuration des connaissances est un processus inhérent à la nature experte des connaissances. A chaque étape, les modifications proposées sont plus une tentative que l’expression d’une certitude. C’est une démarche d’exploration nécessairement itérative.

Les Outils de Classification Automatique sont par définition indépendants d’un domaine d’application particulier. Mais leur caractère général fait qu’il est souvent difficile de les exploiter directement et ce particulièrement sur un domaine complexe et peu formalisé. Pour obtenir des résultats, il est nécessaire de déterminer les attributs pertinents et les paramètres de l’OCA. C’est en quelque sorte une étape de réglage. Une fois « réglés », les Outils de Classification Automatique s’avèrent rapides et particulièrement efficace pour des traitements répétitifs et une application précise. Par contre l’étape de « réglage » s’avère souvent difficile. Dans le cadre de la TG elle est aussi longue voir plus longue que les méthodes de classification « manuelles ».

Le processus de « réglage » est par nature itératif et définit le problème d’Affinement de Connaissances par Classification Interactive. Au cours du cycle de classification, ce sont les étapes (6) et (7) d’analyse et d’interprétation des connaissances supplémentaires qui sont les plus délicates. Le dialogue est difficile car il met en jeu des experts de domaine différents. D’un côté, les experts du domaine essayent de formuler leur savoir-faire pour résoudre un problème de classification déjà difficile, mais, de plus, ils doivent tenir compte des contraintes liées à un outil de classification qu’ils ne maîtrisent pas. De l’autre côté, le spécialiste de l’outil, doit exploiter des connaissances sur un domaine qui lui est étranger, pour adapter son outil au problème considéré. Ce travail est généralement long et entièrement à la charge du spécialiste de l’outil utilisé. Une solution pour réduire la durée de la phase de « réglage » consiste à prendre en charge l’aspect cyclique du processus de classification et à élaborer des outils qui améliorent le dialogue entre les experts et le spécialiste. C’est le principe des approches interactives.

Les approches interactives prennent en charge le cycle de classification et proposent des protocoles d’interaction pour faciliter le dialogue entre les experts du domaine et le système. La présence du spécialiste de l’outil de catégorisation est toujours nécessaire, mais cette voie de recherche contribue à rendre les experts autonomes avec leurs données. On peut imaginer qu’à long terme, il ne faudra plus être un spécialiste de la classification pour classifier.

Il n’existe pas, à notre connaissance, de contribution spécifique dans la catégorie des méthodes qui corrigent le résultat. Les contributions existantes font partie des méthodes boîte noire ou boîte en verre. Ces méthodes consistent à permettre à l’expert de reformuler ses connaissances et ses données en fonction de l’outil de classification. D’une manière générale, il s’agit de formuler les données de façon à ce qu’elles respectent l’hypothèse de similarité au sens du système utilisé. L’approche oblige les experts à reformuler leurs connaissances sur le domaine essentiellement sous formes d’attributs descriptifs des objets tels qu’il devient possible d’en déduire les classes par des opérations de comparaison simple. Ces méthodes présentent l’intérêt de fournir un cadre cohérent pour aider l’expert à structurer ses connaissances. Les approches de type boîtes en verre tentent de minimiser la charge de travail liée à l’acquisition des principes de l’outil par les experts. Cependant, l’approche reste orienté processus. Ce sont les hommes qui doivent s’adapter à l’outil. Nous présentons au chapitre suivant les bases théoriques d’une approche qui a pour vocation de s’adapter aux experts en intégrant dans le processus de classification les connaissances supplémentaires qu’ils sont à même de formuler pour critiquer une partition.

Chapitre IV

Définition d’un système de classification