• Aucun résultat trouvé

Les tests consistent à comparer les quatre architectures apprises avec les différents

algorithmes pour les mêmes problèmes de rejet (rejet d’ambiguïté et les trois problèmes

du rejet de distance). Pour comparer les options de rejet obtenues, nous utilisons les

mesures présentées dans la section 2.6. Nous présentons maintenant les bases que nous

avons utilisées pour ces tests puis la façon d’obtenir les différents points opérationnels.

4.1.1 Les bases utilisées

Comme expliqué dans la sections 2.6, il nous faut définir quatre types de bases pour

réaliser nos tests. Une base d’exemples D

E

pour le rejet d’ambiguïté. Pour le rejet de

distance, il faut en plus les bases de contre-exemples connusD

A

, inconnus D

B

et mal

connusD

AB

correspondant à chacun des trois problèmes. Nous avons définis ces bases

autour de deux contextes très différents destinés à tester et expliquer nos approches :

un contexte artificiel pédagogique et un contexte réel d’utilisation.

La première base utilisée est générée artificiellement dans le but d’illustrer cette

étude. Elle se place dans un espace à deux dimensions ce qui permettra de

visuali-ser les données et les zones de rejet. La base d’exemples D

E

est composée de trois

classes (notées 1, 2 et 3) chacune générées à partir d’une distribution gaussienne. Il y

a volontairement un léger recouvrement entre ces trois classes. Chacune des bases de

contre-exemplesD

A

etD

B

est aussi générée à partir d’une gaussienne. Les gaussiennes

sont toutes différentes les unes des autres. Il y a aussi un recouvrement partiel avec les

trois classes principales. La figure 4.1 présente la localisation des trois classes deD

E

et

les deux distributions de D

A

etD

B

. La base D

AB

sera constituée de l’union des deux

bases de contre-exemples.

Classe 1 Classe 2 Classe 3

(a)

Contre−exemples A Contre−exemples B

(b)

Fig.4.1 – Les données artificielles en deux dimensions D

E

(a), D

A

etD

B

(b).

La seconde base utilisée correspond à des problèmes réels de rejet rencontrés dans

notre contexte applicatif : la reconnaissance de chiffres pour le rejet d’ambiguïté et la

reconnaissance de chiffres avec rejet des lettres minuscules pour le rejet de distance.

Les classes de D

E

sont les chiffres isolés manuscrits en-ligne de la base UNIPEN [46]

Protocoles de tests 77

D

A

sont les lettres minuscules isolées manuscrites en-ligne de UNIPEN (soit 61017

lettres). La base de contre-exemples D

B

est composée d’un sous-ensemble des lettres

majuscules isolées de UNIPEN choisies pour être très différentes des chiffres et des

lettres minuscules. Les lettres pour D

B

choisis sont B, H, K, P, Q, R, X, Y et Z (soit

1789 lettres tirées au hasard parmi toutes les majuscules correspondantes de UNIPEN).

Ce choix s’est fait en considérant la nature des caractéristiques utilisées par la suite.

Enfin la base D

AB

est composée de toutes les lettres majuscules de UNIPEN donc

certaines ressembleront aux chiffres, d’autres aux lettres minuscules et d’autres à aucun

des deux (soit 6000 lettres tirées au hasard parmi toutes les majuscules de UNIPEN).

Les caractéristiques utilisées pour cette bases sont celles décrites dans la section 1.1.1.2.

Ce problème beaucoup plus compliqué que celui avec les données artificielles permet

de tester les options de rejet dans un contexte réel avec plus de classes (les 10 chiffres),

plus de dimensions (21 caractéristiques) et plus de variabilité (caractères manuscrits).

Comme nous l’avons vu dans la section 2.6 nous utilisons pour nos tests une

vali-dation croisée. Nous avons donc séparéD

E

etD

A

en quatre parties : un quart sert au

test de l’option de rejet, la moitié sert de base d’apprentissage avec le dernier quart

utilisé comme base de validation (pour les apprentissage nécessitant une base de

valida-tion, comme l’apprentissage des classifieurs ). Les expérimentations sont donc répétées

quatre fois en faisant une rotation des quatre bases. La séparation entre base

d’appren-tissage, base de validation et base de test a été fait de manière aléatoire sans considérer

les scripteurs, c’est donc un test multi-scripteurs c’est à dire que les scripteurs présents

dans la base d’apprentissage peuvent être dans la base de test.

La table 4.1 résume le contenu de chaque base et présente la taille de chacune d’elles

pour le test, pour l’apprentissage et pour la validation.

Tab. 4.1 – Taille et nature des bases de données utilisées.

Bases Taille Classes

Apprentissage Validation Test

Données D

E

3000 1500 1500 1 à 3

artificielles D

A

1000 500 500 contre-exemples A

D

B

- - 1000 contre-exemples B

D

AB

- - 2000 contre-exemples A et B

Caractères D

T

≈7900 ≈3950 ≈3950 10 chiffres

manuscrits D

A

≈30500 ≈15254 ≈15254 26 lettres minuscules

D

B

- - 1789 9 lettres majuscules

4.1.2 Génération des points de fonctionnement

Nous expliquons dans cette section comment générer une diversité de points de

fonc-tionnement pour chaque architecture avec leurs algorithmes d’apprentissage respectifs.

En effet pour obtenir les courbes ER et ROC utilisées pour les résultats il faut pouvoir

générer des points de fonctionnement explorant tous les compromis.

Pour les architectures RC, SC et SCRF nous avons modifié les tailles respectives des

bases d’exemples et de contre-exemples. Faire varier la taille des bases permet de donner

plus ou moins d’importance à chacune des deux classes. Nous avons donc diminué la

taille de la base des exemples pour mieux rejeter les contre-exemples, puis diminué

celle des contre-exemples pour mieux accepter les exemples. La variation du rapport

entre exemples et contre-exemples a été faite de façon logarithmique : le rapport des

contre-exemples par rapport aux exemples est donné par log

2

(k), k variant de -5 à 5.

Suivant la complexité de l’apprentissage, cette variation se fait en 101 ou 51 pas.

Pour l’architecture TRF, chaque algorithme a un paramètre qui fait varier le

com-promis appris : θ pour AMTL1 et AMTL2 ; α pour PSO et TGD ; F RR

M AX

pour

CMP. Nous avons donc fait varier θ de 0 à 1 avec un pas de 0.01 (101 valeurs), pour

le paramètreα de PSO seulement 41 valeurs sont utilisées à cause de la complexité de

l’algorithme (les bornes dépendent des expérimentations) et pour le paramètre α de

TGD 51 valeurs sont utilisées. Nous avons aussi ajouté les deux points de

fonctionne-ment extrêmes : 100% de rejet et 0% de rejet (classifieur principal sans option de rejet),

points qui ne sont pas forcément atteignables par les algorithmes d’apprentissage.

Le nombre de points de fonctionnement est noté NOP (pour Number of Operating

Résultats sur la base artificielle 79