• Aucun résultat trouvé

Les problèmes de validation des classifications

III.3 Analyse des problèmes de validation

III.3.2 Les biais de classification

III.3.2.4 Hypothèses de formation des groupes

L’étape de formation des groupes peut être vue comme un problème d’optimisation. Chaque méthode d’Analyse Typologique utilise un critère particulier qui est une interprétation des notions d’homogénéité et d’isolation. La taille de l’espace de recherche interdit toute exploration exhaustive. Les heuristiques utilisées nécessitent souvent l’utilisation d’hypothèses supplémentaires (nombre de classes, définition d’une distance entre deux groupes). Elles peuvent favoriser l’homogénéité ou l’isolation. Elles peuvent encore déterminer la forme des groupes que la méthode peut reconnaître dans l’espace de

représentation des données. Par exemple, l’utilisation du concept de distance à un centre de classe, fait l’hypothèse de nuages hyper-sphériques ou hyper-elliptiques. La recherche de groupes isolés et homogènes n’admet pas forcément de solution satisfaisante. Si les groupes ne sont pas clairement définis par la notion de ressemblance, il ne sera pas possible de satisfaire ces deux conditions. Les méthodes d’Analyse Typologique, sont capables de trouver une structure dans les données alors qu’il n’existe pas réellement de classes « naturelles ». La structure trouvée est la meilleure au sens du critère employé et les classes n’admettent pas forcément d’interprétation. Les hypothèses utilisées pour former les groupes biaisent le résultat. Elles ont tendance à modifier la sémantique du domaine par l’utilisation de facteurs symboliques implicites (Kodratoff 1986).

Exemple III. 5 Dualité homogénéité et isolation

Dans l’exemple ci-dessous, les objets sont représentés par des points. Deux objets sont considérés comme similaires si et seulement si ils sont reliés par un arc. Les frontières des classes sont en traits pointillés.

Partition P2.1 classe isolées mais pas homogènes

Partition P2.2 classe homogènes

mais pas isolées Partition P1

classe homogènes et isolées

Cas idéal Cas difficiles

Dans le cas idéal, les groupes sont clairement définis. La partition P1 remplit les conditions d’homogénéité et d’isolation. Dans les cas difficiles, la ressemblance entre objet ne permet pas forcément de trouver une partition satisfaisant ces deux conditions. Dans la partition P2.1, les classes sont isolées, car les objets de classes différentes ne se ressemblent pas. En revanche, les classes ne sont pas homogènes, car elles contiennent des objets qui ne se ressemblent pas. inversement, les classes de la partition P2.2, sont homogènes mais pas isolées.

En Classification Conceptuelle, le processus de catégorisation est aussi traité comme un problème d’optimisation. On retrouve donc les biais liés au choix d’un critère à optimiser et aux heuristiques employés pour explorer l’espace de recherche.

Par exemple, les critères qui optimisent la capacité de prédiction, peuvent conduire à des hiérarchies qui ne reflètent pas la structure sous-jacente des données (MacKusick 1991). A ce propos, Fischer insiste sur le fait que la majorité des systèmes de Regroupement Conceptuel « ne répondent finalement pas à la problématique générale du Regroupement Conceptuel qui

est de trouver des regroupements pour structurer les données » (Fischer 1996).

Les heuristiques utilisées posent le problème des minima locaux ainsi que celui de leur interprétation en termes de conséquence sur le résultat de la classification. Ce problème est résolu de façon élégante dans le système KBG (Bisson 1993). Le programme utilise un paramètre de contrôle de l’apprentissage qui présente la double qualité d’être explicite et d’avoir une sémantique claire. Il s’agit de la distance maximale entre deux exemples regroupés. Plus elle est courte, plus les concepts sont spécifiques.

En théorie, « les méthodes de Classification Conceptuelle regroupent des objets, non seulement parce qu’ils sont proches au sens d’une certaine distance, mais aussi parce que considérés en groupe ils matérialisent l’extension d’un concept » (Haton 1986). Plus concrètement, il apparaît que la description recherchée pour les classes influe sur le processus de catégorisation. Fixer a priori la description des classes recherchées est un biais de classification. De plus, il ne suffit pas de rechercher des classes que l’on puisse décrire pour trouver des classes significatives. Encore faut-il que les propriétés utilisées soient suffisamment pertinentes pour permettre de décrire des classes intéressantes (cf. problème n°4 chapitre II.2.2.1) .

III.3.2.5 Conclusion

Sur un domaine complexe et peu formalisé, les données initiales respectent rarement l’hypothèse de similarité au sens de l’outil considéré. Plus précisément, les problèmes de validation des classes ont donc deux origines :

1 Une partie importante des connaissances qui servent à définir les classes n’est pas dans les

données. Les experts ne sont pas toujours capables de formaliser a priori leurs connaissances en termes d’attributs pertinents par rapport à l’objectif de la classification.

2 Les classes obtenues sont le reflet de l’information contenue dans les données et des biais

de classification propres à chaque OCA.

D’une manière générale, les outils d’Analyse Typologiques sont des systèmes formels à sémantique numérique. On code les objets par des vecteurs et on définit les opérations de comparaison par une formule mathématique globale. La méthode est efficace, mais en contrepartie il apparaît d’une part que la codification des données a tendance à appauvrir la sémantique du domaine (Kodratoff 1991) et à la modifier par l’utilisation de facteurs symboliques implicites (Kodratoff 1986) liés aux biais de classification. D’autre part, le système de classification et les experts n’utilisent pas les attributs de la même façon. En Classification Conceptuelle, la volonté de rester proche du langage de l’utilisateur tant dans la description des données que dans celle des classes, réduit les efforts de formalisation de la part des utilisateurs, diminue les risques de déformation de la sémantique du domaine et contribue à résoudre les problèmes de validation. Cependant, les biais sont rarement explicites et décrire les biais de chaque programme d’apprentissage est une partie intégrante du programme de recherche en Apprentissage Symbolique Automatique (Kodratoff 1997). C’est une première étape car il nous semble que l’objectif à terme sera d’interpréter les biais en terme de conséquence sur la classification obtenue, et de développer une expertise qui permette de diagnostiquer et de corriger les problèmes d’interprétation des classes en fonction des biais utilisés