• Aucun résultat trouvé

2.3 Les principales architectures pour les options de rejet

2.3.4 Notre formalisation des quatre architectures

Comme nous l’avons vu, quatre architectures principales pour systèmes de

recon-naissance avec les options de rejet peuvent être distinguées. Elles sont illustrées par la

figure 2.3. Elles ont toutes le même fonctionnement et objectif final : le système prend

en entrée les caractéristiques de la forme à reconnaître et rend en sortie soit la décision

de rejet, soit la classe reconnue. Cette section a pour but de formaliser et comparer ces

architectures de manière à bien en voir les différences.

2.3.4.1 Classe de rejet

Dans cette architecture notée RC (décrite par la figure 2.3(a)) une classe de rejet est

ajoutée au problème de reconnaissance. Cette classe de rejet est considérée de la même

manière que les autres classes. Il y a donc rejet si le score obtenu par la classe de rejet

est supérieur aux scores obtenus par les autres classes. Dans certaines applications, le

classifieur principal existe déjà, il faudra donc le réapprendre pour intégrer la classe de

rejet, ce qui peut-être un inconvénient de cette architecture.

Pour le rejet de distance, les contre-exemples forment une classe comme les autres.

Donc les bases d’apprentissage D

E

et D

A

sont fusionnées en D

E+A

. Cette base sert

ensuite pour l’apprentissage du nouveau classifieur avec classe de rejet. Cette solution

a besoin d’avoir des contre-exemples pour l’apprentissage de la classe de rejet. Donc si

D

A

est vide dans le problème A→B (problème ∅ →B), cette architecture RC n’est pas

possible.

Pour le rejet d’ambiguïté, la difficulté est de créer une base d’apprentissage des

erreurs que va commettre le futur classifieur. Pour cela il faut d’abord apprendre un

classifieur normal sur D

E

s’il n’existe pas déjà. Ensuite il faut ré-étiqueter les erreurs

comme des contre-exemples de type A pour constituer une base d’apprentissageD

E0+A

Les principales architectures pour les options de rejet 37

RC Classe ou rejet Classifieur Principal / de Rejet Caractéristiques

(a)

Classe ou rejet SC Caractéristiques

Classifieur Principal Classifieur de Rejet Décision Classe Rejet

(b)

Classifieur Principal Décision SCRF Classe ou rejet Classifieur de Rejet Caractéristiques Classe Rejet −

i

}

(c)

Décision TRF

Classifieur Principal Seuils de Rejet

Caractéristiques

Classe ou rejet

Classe Rejet

i

}

(d)

Fig.2.3 – Les quatre architectures de systèmes avec option de rejet : utilisant (a) une

classe de rejet dans le classifieur principal (RC) ; (b) un classifieur spécialisé dans

l’es-pace des caractéristiques (SC) ; (c) un classifieur spécialisé dans l’esl’es-pace des fonctions

de confiance {ψ

i

} (SCRF) ; (d) des seuils sur les fonctions de confiance{ψ

i

} (TRF).

pour apprendre le classifieur avec la classe de rejet. Le problème est que même si les

erreurs commises par le premier classifieur sont bien rejetées, de nouvelles erreurs vont

apparaître à cause des confusions entre les classes principales et la classe de rejet. De

plus, les erreurs de classification sont éparpillées dans tout l’espace des caractéristiques

le long des frontières de décision, ce qui rend la définition d’une classe de rejet difficile.

Dans cette architecture, les classifieurs avec de bonnes capacités de discrimination

seront préférés. En effet l’efficacité du rejet repose entièrement sur les capacités du

classifieur à distinguer les classes entre elles, surtout que l’insertion de la classe de rejet

rend le problème de classification plus compliqué. De plus les performances du système

peuvent diminuer notablement par rapport à celles du classifieur sans rejet, puisque

les formes bien reconnues par le système sans rejet peuvent être mal reconnues par le

système avec rejet.

2.3.4.2 Classifieur spécialisé

Dans cette architecture appelée architecture avec un classifieur spécialisé (SC), un

classifieur indépendant à deux classes est chargé de la décision de rejet (Figure 2.3(b)).

Ce classifieur utilise le même espace de caractéristiques que le classifieur principal. Il

y a rejet si le classifieur de rejet classe la forme dans la classe rejet. Si la forme est

acceptée, alors c’est le classifieur principal qui décide de la classe d’appartenance.

Séparer la décision de rejet du classifieur principal en utilisant un classifieur de rejet

présente quelques avantages. D’abord, le classifieur principal n’est pas modifié s’il existe

déjà et la complexité du problème de reconnaissance n’est pas augmentée par l’ajout

d’une nouvelle classe. De plus les deux classifieurs peuvent tirer avantage de familles

de classifieurs différentes. Par exemple dans [115], un MLP est utilisé comme

classi-fieur principal pour ses capacités discriminantes et un OGMM (Orthogonnal Gaussian

Mixture Model) est utilisé comme classifieur de rejet de distance pour ses capacités de

description intrinsèque.

Pour le rejet de distance, cette architecture a les mêmes inconvénients que

l’archi-tecture RC. En effet, siD

A

est vide, le classifieur de rejet ne pourra pas être appris. La

seule solution dans ce cas est d’utiliser un classifieur qui n’a pas besoin des deux classes

pour être appris (comme les OGMM dans [115]). De plus pour le problème A→B, le

classifieur de rejet doit avoir une bonne capacité de généralisation pour pouvoir rejeter

efficacement des formes non rencontrées pendant l’apprentissage. Il donc faudra

préfé-rer un classifieur très discriminant comme classifieur principal et un classifieur avec une

modélisation intrinsèque et de bonnes capacités de généralisation pour le classifieur de

rejet.

Pour le rejet d’ambiguïté, l’élaboration de la base de contre-exemplesD

A

n’est pas

compliquée à obtenir : il suffit de classer les exemples deD

E

et de séparer les formes bien

reconnues des formes mal reconnues. Le premier problème est que les formes à rejeter

sont éparpillées dans tout l’espace des caractéristiques, juste à côté des formes à accepter

puisque par définition les erreurs sont proches des frontières de décision. La séparation

des deux classes va donc être difficile. De plus il y a un problème de représentativité

des données. En effet, un classifieur principal performant n’aura que peu de choses

à rejeter, et la quantité de données à accepter sera beaucoup plus importante que la

quantité de donnée à rejeter. Il faudra donc utiliser un classifieur de rejet capable de

gérer ce déséquilibre ou bien ré-équilibrer les bases avant apprentissage.

2.3.4.3 Classifieur spécialisé utilisant les fonctions de confiance

Les fonctions de confiance notées {ψ

i

} peuvent être utilisées directement comme

caractéristiques d’un classifieur de rejet. Cette architecture utilisant un classifieur

spé-cialisé sur les fonctions de confiance est notée SCRF (Speciallized Classifier on

Relia-bility Functions) et décrite par la figure 2.3(c). Dans cet espace de caractéristiques,

les données à rejeter et les données à accepter sont normalement plus facilement

sépa-rables. De plus il est possible d’utiliser un classifieur de rejet avec de bonne capacités

discriminantes (comme dans [87]) puisque les fonctions de confiance ont déjà intégré

les informations intrinsèques ou d’ambiguïté.

Cette architecture peut à première vue avoir les mêmes inconvénients que

l’archi-tecture SC puisqu’un classifieur de rejet est utilisé.

L’importance des classifieurs utilisés 39

le problème A→A mais peut avoir des difficultés de généralisation dans le problème

A→B.

Pour le rejet d’ambiguïté, on retrouvera la difficulté liée au déséquilibre des deux

classes acceptation/rejet.

Néanmoins, ces différents problèmes de généralisation peuvent être réduit par la

généralisation apportée par les fonctions de confiance, par exemple en réduisant l’espace

des caractéristiques ou en regroupant les formes à rejeter plutôt qu’elles soient dispersées

dans l’espace des caractéristiques.

2.3.4.4 Seuils sur les fonctions de confiance

Une autre possibilité pour utiliser les fonctions de confiance est d’utiliser

directe-ment leur interprétabilité. Plus bas est la confiance, plus il faut rejeter la forme. Une

approche simple consiste à utiliser des seuils pour décider du rejet. Ces seuils

repré-sentent les bornes inférieures de la confiance que l’on peut accorder. Cette architecture

notée TRF (pourThreshold on Reliability Functions) est décrite par la figure 2.3(d).

Cette architecture simple a plusieurs avantages. D’abord elle est facilement

inter-prétable et possède une bonne capacité de généralisation. En effet ces seuils de rejet

peuvent être vus comme un classifieur simple avec très peu de paramètres, ce qui permet

une bonne généralisation. De ce point de vue et aussi grâce à l’abstraction des fonctions

de confiance, cette architecture devrait avoir de bons résultats sur le problème A→A

et le problème A→B. De plus elle est très légère puisqu’il n’y a que les fonctions de

confiance à évaluer puis à comparer aux seuils, donc pas de classifieur de rejet complexe

à utiliser comme dans les architectures SC et SCRF. Enfin le classifieur principal n’est

pas modifié comme dans l’architecture RC, donc la difficulté du problème n’est pas

augmentée. Ce sont pour ces raisons que nous avons choisi d’étendre cette architecture

comme nous le verrons dans le chapitre 3.

Pour cette architecture TRF, la difficulté est d’apprendre automatiquement les

seuils de l’option de rejet. C’est pourquoi nous présentons dans la section 3.2 des

algo-rithmes d’apprentissage automatique des seuils.