Classification des composantes - Localisation des champs

4.2 Localisation des champs

4.2.1 Classification des composantes

Nous proposons dans cette partie une m´ethode de classification permettant de discriminer les composantes du document. Rappelons qu’il ne s’agit pas ici de

re-4.2 Localisation des champs 119

connaˆıtre des chiffres, mais de classer les composantes selon les quatre classes syn-taxiques : Digit, Séparateur, Double Digit et Rejet (((D)), ((S)), ((DD)) et ((R))). Bien que ne comportant que quatre classes, cette tâche est relativement difficile puisqu’il s’agit d’un problème de classification où les classes possèdent d’une part une grande variabilité intra-classe, et d’autre part un variabilité inter-classe parfois relativement faible (voir figure 4.5).

Fig. 4.5 – Les quatre classes syntaxiques : Rejet, Digit, S´eparateur, Double Digit.

Remarquons l’hétérogénéité des classes Rejet, Digit et Séparateur.

Concernant la variabilité intra-classe, elle esta priori importante pour trois des quatres classes du problème. En effet, la classe ((Digit)) est composée des 10 sous-classes de chiffres qui, comme nous l’avons montré dans la section 1.4, possèdent déjà une certaine variabilité. La classe ((double digit)) contient théoriquement les

100 doublons que l’on peut former avec les 10 chiffres¹, et ces chiffres sont liés de différentes manières (liaison haute, basse, double, etc.), ce qui augmente encore les combinaisons et donc la variabilité. La classe ((rejet)) est certainement la classe la plus éclatée puisque par définition ses éléments ne respectent pas une forme ou une structure particulière. On y retrouve donc des éléments dont la forme est très variable : mots entiers, fragments de mot, lettres isolées, bruit, etc.

La variabilité inter-classe n’est en revanche pas toujours très importante puisque certains élément appartenant à deux classes distinctes peuvent avoir une forme proche. Par exemple, il peut être difficile de discriminer certains fragments de mots des chiffres ou des chiffres liés. Les séparateurs peuvent également être facilement confondus avec du bruit.

Nous constatons donc que notre problème de classification est particulièrement délicat. Pour y remédier, nous avons choisi d’utiliser plusieurs vecteurs de ca-ractéristiques, associés à une combinaison de classifieurs, afin de caractériser au mieux ces classes.

4.2.1.1 Classification

Pour discriminer au mieux ces quatre classes, nous avons choisi de reprendre le schéma du moteur de reconnaissance chiffre de la première approche, décrit dans la section 3.4. Rappelons qu’il s’agit d’une combinaison de classifieurs MLP alimentés par deux vecteurs de caractéristiques conséquents : un vecteur à 117 caractéristiques de 6 familles statistique/structurelle [Heutte 98], et un vecteur à 128 caractéristiques issues du chaincode [Kimura 94].

Afin de constituer la base d’apprentissage nécessaire à l’entrainement des MLP, nous disposons d’une base de courriers entrants étiquetée au niveau champ (voir sec-tion 2.2.3). La posisec-tion et la valeur de chaque champ numérique sont donc étiquetées, mais les composantes connexes ne le sont pas. Les composantes rejets étant par définition toutes celles qui n’appartiennent pas à un champ numérique, il nous faut donc étiqueter les composantes Digits, Séparateurs et Double Digits des champs numériques. Plutôt que d’effectuer un étiquetage manuel long et fastidieux, nous avons préféré procéder à un étiquetage semi-automatique. À l’aide d’un filtrage sur les dimensions des composantes, la majorité des séparateurs sont identifiés. Pour identifier les chiffres, nous avons appliqué le classifieur chiffre de la section 3.4 et seuillé la sortie possédant la plus grande confiance. Au dessus du seuil, la composante est considérée comme chiffre. Enfin le((sac))de composantes restantes comprend une majorité de chiffres liés. Les quatre classes de composantes ainsi étiquetées sont enfin vérifiées manuellement pour corriger ces erreurs restantes. Au final, on otient une base d’apprentissage et une base de test dont les effectifs sont rapportés dans le tableau 4.1.

A l’issue de l’entraˆınement des deux classifieurs, les taux de reconnaissance` moyens sur la base de test sont présentés dans la table 4.2, où MLP117 désigne

1On observe toutefois dans la pratique que certains chiffres li´es sont plus fr´equents :((00))et((06)) principalement.

4.2 Localisation des champs 121

effectifs R D S DD Total

Base d’apprentissage 7008 4968 522 334 12832

Base de test 3609 2559 268 171 6607

Tab.4.1 – Effectifs des classes pour la base d’apprentissage et la base de test.

le MLP entraˆıné sur le vecteur statistique/structurel, et MLP128 désigne le MLP entrainé sur le vecteur du chaincode. Il semble que MLP128 donne les meilleures performances ; cependant il convient d’observer le comportement des classifieurs sur chaque classe.

taux de reconnaissance Rang 1 Rang2

MLP128 0,69 0,92

MLP117 0,63 0,86

Tab.4.2 – Taux de reconnaissance moyens en rang 1 et 2 pour les deux classifieurs Les matrices de confusion des deux classifieurs sur la base de test sont présentées dans les tables 4.3 et 4.4, où les valeurs en ((rang N)) représentent la proportion d’éléments classés dans les N premières propositions du classifieur. On constate que chaque classifieur possède un comportement spécifique : le MLP128 présente les meilleurs résultats en rang 1 sur la classe Rejet, alors que MLP117 possède un meilleur taux de reconnaissance sur les trois autres classes. En revanche, MLP128 génère globalement moins de confusions. On retrouve des résultats similaires en rang 2. Il est raisonnable de penser que ces deux classifieurs sont complémentaires pour la discrimination des quatre classes : nous avons donc combiné leurs sorties afin d’obtenir la meilleure classification possible.

Tab.4.3 – Matrices de confusion MLP128.

Plusieurs règles de combinaison peuvent être utilisées pour fournir la sortie de la combinaison [Rahman 03] : le maximum, le minimum, la médiane, le produit, la combinaison linéaire sont les plus couramment utilisés. Nous avons essayé deux méthodes de fusion : le produit et la moyenne (resp.((prod))et ((mean))). Le tableau 4.5 donne les taux de reconnaissance (TR) en rang 1, 2 et 3 sur la base de test.

Ces résultats montrent la nette supériorité des combinaisons de classifieurs sur les classifieurs simples. L’opérateur produit semble donner les meilleurs résultats ;

Rang 1 R D S DD

Tab.4.4 – Matrices de confusion MLP117.

Classifieur TR1 TR2 TR3

MLP117 0,63 0,86 0,96

MLP128 0,69 0,92 0,99

prod(MLP117, MLP128) 0.76 0.95 0.99 mean(MLP117, MLP128) 0.74 0.92 0.99

Tab. 4.5 – Taux de reconnaissance (rangs 1, 2 et 3) pour les deux classifieurs et leur combinaison selon les op´erateurs ((prod)) (produit) et ((mean)) (moyenne arithm´etique).

nous conservons donc ce type de combinaison.

A l’issue de cette étape, nous disposons d’un système capable de discriminer` les quatre classes. Pour chaque composante, le classifieur fournit une liste ordonnée des hypothèses de classification associées chacune à une mesure de confiance. La figure 4.6 montre un exemple de classification des composantes d’une ligne de texte par notre système. Remarquons la fréquence des erreurs de classification : les deux chiffres 0 et les composantes à rejeter SA et E sont classés en double digits, les lettres DetSsont reconnues comme des chiffres, et le tiret entreSAINTetDENISest reconnu comme un séparateur. Ces erreurs montrent la difficulté de ce problème de classification. On peut en effet se demander comment le classifieur peut différencier le tiret d’un séparateur, ou le Sd’un chiffre 5. Selon nous, la seule manière de lever les ambigu¨ıtés est de prendre en compte le contexte, c’est-à-dire les observations voisines. C’est le rôle de l’étape suivante qui consiste à corriger les confusions du système de classification en alignant la séquence d’observations sur un modèle de syntaxe valide.

Dans le document Extraction de s´ equences num´ eriques dans des documents manuscrits quelconques (Page 118-122)