• Aucun résultat trouvé

La reconnaissance des formes est un domaine de recherche qui, aujourd'hui, donne lieu à de nombreuses études et à des approches très diverses. Dans cette problématique, nous nous sommes plus particulièrement intéressés à l'approche statistique et aux mé-thodes paramétriques de la classication automatique. Le premier constat ayant motivé cette étude est l'échec de la plupart des méthodes de classication en présence de don-nées aberrantes. La justication de ce phénomène réside dans le fait que l'inuence des données aberrantes n'est pas bornée. Au cours de l'estimation des paramètres des classes, ce type de données biaise les estimateurs non robustes, ce qui rend certains algorithmes de classication impropres à l'utilisation en leur présence. Par exemple, nous avons vu que l'algorithme des C-moyennes oues est mis en défaut par la recherche d'un maximum de séparabilité entre les classes. De même et pour un algorithme comme EM, le principe du maximum de la vraisemblance conduit à rechercher un modèle paramétrique rendant plausible les données aberrantes.

Le première partie de cette thèse a concerné l'étude d'approches robustes de la clas-sication. Pour borner l'inuence des points aberrants, nous avons distingué et présenté trois méthodes possibles :

 L'utilisation d'estimateurs robustes des paramètres des classes qui utilisent des fonc-tions d'inuence (M-estimateurs),

 La création d'une classe supplémentaire de bruit,

 L'inclusion d'un modèle de contamination dans le modèle théorique de la classe. Nous avons proposé une méthode originale de classication automatique basée sur une modélisation théorique particulière des classes. L'idée fondamentale de cette méthode est d'estimer de manière diérenciée (robuste et classique) les mêmes variables aléatoires pour former les deux sous-composantes du mélange modélisant une classe. Les paramètres de la première sous-composante, associée aux données "propres" de la classe (noyau), sont estimés par une procédure itérative robuste. Cette dernière est fondée sur une repondé-ration des erreurs à chaque itérepondé-ration permettant de limiter l'inuence des points aber-rants. A l'opposé, nous utilisons une estimation classique non robuste des paramètres du second mode. En présence de données aberrantes, seuls les paramètres de seconde sous-composante seront perturbés. Ainsi, notre méthode combine à la fois des estimateurs

robustes et l'utilisation d'un modèle de contamination des données. Des expérimentations menées sur des données articielles ont permis de montrer que même lorsque les données bruitées sont distribuées diéremment du modèle de contamination, l'estimation des pa-ramètres des classes est très satisfaisante. Le choix des divers papa-ramètres du modèle reste un problème ouvert, dont la solution est non traviale et pourtant au combien utile pour les praticiens. C'est une des pistes qu'il convient maintenant d'explorer pour améliorer la méthode proposée. On peut fort bien imaginer une procédure auto-adaptative permettant d'estimer conjointement le paramètre de proportion entre les deux sous-composantes par classe et le paramètre d'étalement. Nous allons nous pencher sur ce sujet.

Nous avons ensuite proposé une interprétation du modèle théorique d'une classe per-mettant d'introduire le rejet en distance. Celui-ci est fondé sur la création d'une classe supplémentaire regroupant l'ensemble des données contaminées de chacune des classes. Ainsi, alors que les deux sous-composantes formant le modèle d'une classe sont estimées conjointement, celles-ci sont séparées lors de la phase d'aectation. Les expérimentations que nous avons menées sur divers jeux de données réels et articiels ont montré que nous améliorons, dans la majeure partie des cas, les résultats obtenus par EM et ses variantes, et par FCM, deux algorithmes couramment utilisés en classication. Le taux de rejet est contrôlé indirectement par le choix des paramètres du modèle. Dans le cas où l'on dispose d'un étiquetage des données, nous proposons de choisir a posteriori le modèle adéquat par une règle eectuant un compromis entre l'erreur et le rejet. Nous avons observé une robustesse certaine aussi bien vis-à-vis des données aberrantes qu'à l'initialisation des pa-ramètres.

La seconde partie de ce travail a concerné l'étude des méthodes de classication semi-supervisée. La semi-supervision peut se dénir de manière duale comme l'utilisation des données étiquetées pour un algorithme de classication automatique ou l'utilisation d'un ensemble de données non supervisées pour l'amélioration d'une méthode supervisée. Nous avons ainsi dressé un état de l'art des algorithmes de classication semi-supervisée. Nous avons vu que la supervision partielle revient essentiellement à contraindre le processus d'estimation en accordant une importance supérieure aux données étiquetées. Cela peut être eectué en modiant la fonctionnelle réalisant la classication (Ex. : FCM) ou par un critère local (Ex. : Machines à Vecteurs de Support). Nous avons étendu notre méthode de classication robuste à la semi-supervision. Il s'agit en fait de xer les probabilités a posteriori des points supervisés, que l'on ne réestime plus, en fonction de l'expertise. Nous avons également proposé une méthode de sélection du seuil d'un M-estimateur utilisant des données supervisées. Diverses expériences ont montré une substantielle amélioration dès qu'un faible nombre de points étiquetés sont disponibles. L'apport de la semi-supervision est supérieur pour des problèmes plus diciles où les classes se chevauchent. A l'inverse, le bénéce est moindre lorsque les classes sont séparées.

gorithme) induit un eet inverse de celui recherché. Cela peut être le cas lorsque des points supervisés imposent une contrainte géométrique non conforme au modèle recherché par un algorithme. Nous pensons qu'il faut se donner les moyens de maximiser l'apport de l'expertise, soit en sélectionnant de manière automatique une partie seulement des points supervisés, soit en proposant à un éventuel expert de superviser des points d'intérêt. La stratégie de sélection des points supervisés est dans les deux cas un problème lui aussi ouvert, le second apportant une dimension interactive au procédé de semi-supervision. Les questions auxquelles il convient de répondre sont : faut-il mieux superviser des points dans les zones de recouvrement des classes, proches des noyaux, ou alors dans les zones extérieures moins denses ? C'est également sur cet aspect de la problématique de la clas-sication en mode partiellement supervisé que vont porter nos recherches futures.

Enn, nous souhaitons vivement valider la méthode par une application réelle. Nous avons d'ores et déjà entrepris de le faire dans le cadre du projet Aqu@thèque pour lequel il s'agit de reconnaître des poissons évoluants dans un aquarium.

Annexe A

Interprétation de la matrice de