• Aucun résultat trouvé

Chapitre 5 : Reconnaissance de chiffres arabes manuscrits

6 Résultats des tests

La base de données D se compose de 360 chiffres. Chaque chiffre entre 0 et 9 a été écrit par 36 scripteurs différents (voir un échantillon dans la figure 5.5).

Figure 5-5 : Exemples de chiffres arabes manuscrits de la base BD

Une partie de la base BD, notée App_BD, a été utilisée dans la phase d’apprentissage et le reste, noté Tes_BD, a été réservée pour évaluer le système. Les phases d’apprentissage et de reconnaissance sont identiques à celle utilisées dans le chapitre précédent.

Nous avons cherché à identifier le meilleur choix de l'ensemble App_BD donnant le taux de reconnaissance le plus élevé dans la phase de test. Pour cela, nous notons Sr le rème scripteur et TR le taux de reconnaissance. Étant donné un entier k ≥ 1, et pour toute combinaison de k scripteurs parmi les 36 scripteurs, nous avons utilisé d'abord ces k scripteurs dans la phase d’apprentissage (c.à.d. les chiffres écrits par ces k scripteurs constituent l’ensemble d’apprentissage App_BD), et nous avons calculé le taux de reconnaissance TR correspondant.

117

Enfin, nous avons identifié pour chaque k, les k scripteurs réalisant le meilleur taux de reconnaissance TR.

Les résultats obtenus pour k < 3 et k > 8 ne sont pas intéressants. Donc, nous ne donnons dans Tableau 5.1 que les résultats pour 3 ≤ k ≤ 8.

k les k scripteurs utilisés dans la phase d’apprentissage qui

permettent d’avoir le meilleur taux de reconnaissance TR TR (%)

3 S8 ;S3 ;S16 91.94

4 S8 ;S3 ;S16 ;S22 94.44

5 S8 ;S3 ;S16 ;S22 ;S26 96.39

6 S8 ;S3 ;S16 ;S22 ;S26 ;S14 96.94

7 S8 ;S3 ;S16 ;S22 ;S26 ;S14 ;S25 90.00

8 S8 ;S3 ;S16 ;S22 ;S26 ;S14 ;S25 ;S18 86.67

Tableau 5-1 :Ensemble d’apprentissage App_BD des k scripteurs qui est donne le meilleur taux reconnaissance TR

La meilleure performance a été obtenue lorsque nous avions utilisé dans la phase d’apprentissage les six scripteurs S8, S3, S16, S22, S26 et S14.

L'explication que nous pouvons avancer sur la haute performance obtenue avec cette combinaison, est que les styles d'écriture de ces scripteurs couvrent les différents styles d'écriture de tous les autres scripteurs.

Les erreurs de reconnaissance sont dues principalement au style d’écriture de certains scripteurs. En effet, les chiffres 1, 4, 7 et 9 sont dans certains cas très confus et même à l’œil nous avons des difficultés à les identifier (voir la figure 5.5). Pour plus de détails, nous donnons dans le Tableau 5.2, la matrice de confusion relative au taux de reconnaissance de chaque chiffre. Ces résultats sont les résultats de l'utilisation de la combinaison optimale (S8, S3, S16, S22, S26, S14) dans la phase d'apprentissage.

118

0 1 2 3 4 5 6 7 8 9 TR(%) 0 36 0 0 0 0 0 0 0 0 0 100 1 0 34 0 0 0 0 0 2 0 0 94.44 2 0 0 36 0 0 0 0 0 0 0 100 3 0 0 0 36 0 0 0 0 0 0 100 4 0 4 0 0 30 0 0 0 0 2 83.33 5 0 0 0 0 0 36 0 0 0 0 100 6 0 0 0 0 0 0 36 0 0 0 100 7 0 0 0 0 0 0 0 36 0 0 100 8 0 0 0 0 0 0 0 0 36 0 100 9 0 0 0 0 3 0 0 0 0 33 91.66

Tableau 5-2 : Matrice de confusion pour le taux de reconnaissance (TR) pour chaque chiffre

Conclusion

Nous avons présenté dans ce travail une nouvelle approche de reconnaissance des chiffres arabes. Elle est basée sur la théorie des courbes de Bèzier qui permet de récupérer la forme de certaines courbes à partir d’un nombre limité de points accompagnés de leurs tangentes.

Les résultats obtenus sont très encourageants et renforce l’intuition selon laquelle l’utilisation des modèles de Bézier pour caractériser les chiffres arabes permet d’obtenir de très bons résultats de reconnaissance.

Nous avons l'intention d’améliorer les performances de cette approche en utilisant lors de la phase d’apprentissage et dans la phase de test d'autres classificateurs (tels que les réseaux de neurones artificiels, les modèles de Markov cachés et les SVM). De même, nous allons enrichir notre base de données afin d'effectuer des tests sur une base de données plus consistante.

Enfin, nous prévoyons appliquer la même démarche pour reconnaître les chiffres farisis.

119

Le formalisme des courbes de Bézier semble être bien adapté à la modélisation de l’écriture arabe, que ce soit pour définir un mécanisme de reconnaissance des chiffres et des graphèmes des pseudo-mots, ou encore pour modéliser des contraintes morphologiques inhérentes à l’écriture arabe (concaténation des caractères pour obtenir des pseudo-mots).

Ceci pourra être utilisé pour développer des approches permettant dans un premier temps de segmenter des pseudo-mots en graphèmes pour chercher dans un deuxième temps à les reconnaitre. Cette piste sera explorée dans la deuxième partie de cette thèse.

120

Chapitre 6

Reconnaissance des Mots

1 Reconnaissance de mots

L’emploi ou non de la phase de segmentation en caractères ou en graphèmes permet la distinction entre deux stratégies possibles de reconnaissance des mots qu’ils soient manuscrits où imprimées : les approches globales qui considèrent le mot dans son ensemble sans chercher à identifier chacune des lettres qui le composent, qu'on oppose aux approches analytiques qui cherchent dans un premier temps à découper le mot en lettres puis chercher à reconnaître ces derniers. Il est à signaler l’existence d’un autre mode de reconnaissance appelée approche pseudo analytique, conséquence de la segmentation du mot arabe en pseudo mots et cela est inhérent à l’écriture arabe.

1.1 Approche Globale

L’approche globale considère le mot comme une entité indivisible et repose sur une description globale du mot indépendante des lettres qui le constitue. Cela permet une modélisation efficace du mot, en particulier lorsque les lettres sont déformées et ambiguës.

Les caractéristiques sont extraites sur le mot entier afin de calculer une distance à des modèles de mots [139¸ 93]. Ces approches présentent l'inconvénient de subir la variabilité des mots qui est plus importante que celle observée sur les lettres. L’apprentissage nécessite un corpus très large ce qui rend en pratique cette approche inutilisable. Ainsi, elles requièrent des bases de mots conséquentes. En plus, elles sont peu discriminantes pour des mots différents dont la forme est proche, ce qui les limite à des applications à lexique réduit (cas des montants

121

numériques de chèques [77, 91,101], ou à des étapes de pré ou post-traitement visant soit à filtrer une partie du lexique [8, 112], soit à vérifier les solutions d'une approche analytique [139].

1.2 Approche Analytique

Contrairement à l’approche globale, l’approche analytique nécessite la segmentation du mot en ces éléments constitutifs par identification des lettres. La reconnaissance du mot consiste alors à reconnaître ces entités segmentées. Une étape de segmentation est donc nécessaire afin de déterminer les limites entre les lettres. Cette tâche est particulièrement délicate du fait de l'absence de segmentation idéale : les limites entre caractères sont parfois difficiles à déterminer même pour un être humain (voir figure 6.1). Cette approche est la seule envisageable pour une reconnaissance à vocabulaire ouvert. La difficulté de cette approche a été explicitée par K.M. SAYRE [1549] :

″pour reconnaître les lettres, il faut segmenter le tracé et pour segmenter le tracé, il faut reconnaître les lettres″.

La complexité de cette approche est directement liée à la segmentation. Il existe deux types d'approches analytiques suivant que l'on effectue une segmentation explicite ou implicite.

Figure 6-1 : Reconnaissance analytique de mots basée sur la reconnaissance de lettres ([113]).

2. Segmentation

122

Dans cette partie nous allons présenter la segmentation de mots en caractères. Les autres modes de segmentation tels que la segmentation de documents en lignes et la segmentation de lignes en mots seront discutés dans la section implémentation ci-dessous.

D’une manière générale, il existe deux approches de segmentation : l’approche explicite et l’approche implicite.

2.1 Segmentation explicite

Le principe de cette approche (appelée aussi dissection) est illustré dans la figure 1.2.

Un algorithme permet d’isoler des fragments de mots appelés graphèmes (parties de caractères ou caractères entiers) à partir de points particuliers du contour.

Les graphèmes sont des images extraites de l’image à segmenter. Passer d’une seule image à une séquence de graphèmes pose le problème de la taille de ces éléments. Ils ne doivent pas être trop petits afin d’être statistiquement significatifs, et pas trop gros afin de ne pas dépasser la taille d’une lettre. Il est en effet important qu’un graphème donné soit une sous-partie d’une seule lettre : cette condition est nécessaire pour construire un modèle de mot comme étant la concaténation de modèles de lettres.

Dans [90,61,91,92], les auteurs utilisent des algorithmes de segmentation généralement basés sur les contours ou les profils pour proposer des hypothèses de points de segmentation. Les différentes hypothèses sont généralement organisées en treillis à plusieurs niveaux (voir figure 6.2) et évaluées par le moteur de reconnaissance de caractères. On parle alors de stratégie de segmentation-reconnaissance.

Figure 6-2 : Représentation des hypothèses de segmentation par un treillis à 4 niveaux de regroupement.

2.2 Segmentation implicite

123

Les approches de segmentation implicite (ou continues) considèrent tous les points du tracé comme points de segmentation potentiels. Dans ces approches, la segmentation et la reconnaissance sont réalisées conjointement. En réalité, il n’y a pas de pré-segmentation ou dissection du mot, bien qu’un découpage a priori de l’image en intervalle de grandeur régulière est effectué classiquement. Le découpage peut être réalisé de deux manières, soit par fenêtrage, soit par recherche de primitives [168].

2.3 Segmentation de l’écriture cursive

Dans le cas de l’écriture cursive, le problème est encore plus complexe. Dans la communauté de la reconnaissance de l’écriture imprimée, il est admis qu’il est impossible de segmenter directement un mot cursif en lettres. Pour segmenter en caractères, il faut qu’ils aient préalablement été identifiés ; et pour reconnaître un caractère, il faut qu’il soit préalablement correctement segmenté. C’est le paradoxe de K.M. Sayre [154]. Pour sortir de ce dilemme, il est nécessaire de découper le mot en sous-parties de lettres.

Pour plus d’information sur la segmentation de l’écriture cursive, le travail de synthèse de X. Dupré [46]. Généralement on utilise deux approches : la segmentation en graphèmes (segmentation explicite) [99] qui consiste à segmenter le mot en sous-parties qui sont presque des lettres. Et l’analyse par fenêtres glissantes (segmentation implicite) où le mot est découpé en bandes verticales.

Plusieurs techniques de segmentation sont présentées dans la littérature. Un tour d’horizon est exposé dans [117] dans lequel l’auteur expose les techniques de segmentation suivantes :

‒ segmentation à partir du contour,

‒ segmentation à partir du squelette,

‒ segmentation à partir des histogrammes,

‒ segmentation basée sur des réservoirs,

‒ fenêtres glissantes.

2.3.1 Fenêtres glissantes

124

L’utilisation d’une fenêtre glissante [96] revient à découper l’image en bandes verticales. Ce découpage peut être régulier ou non, éventuellement avec recouvrement partiel des bandes successives (voir figure 6.3).

Cette technique présente l’avantage d’être simple, robuste au bruit et est indépendante de la connexité. Le défaut de cette méthode est que la séquence générée contient beaucoup de bruit (recouvrement de deux lettres successives). C’est également vrai dans le cas des lettres superposées verticalement, mais qui ne se touchent pas nécessairement : une barre de ’t’ avec la lettre suivante, ou les descendants comme ’ ﺮ ’ ou ’ ﻮ ’ en arabe.

Figure 6-3 : Segmentation à base de fenêtre glissante : découpage du mot en bandes verticales.

2.3.2 Segmentation à partir des histogrammes

Cette méthode simple est proposée par B. Yanikoglu et P. Sandon [197]. Elle consiste à calculer des histogrammes de projection dans plusieurs directions proches de la verticale.

Les droites choisies sont celles qui interceptent le moins de pixels noirs, avec une contrainte d’espacement régulier dans l’image (voir figure 6.4). Cette méthode montre néanmoins ses limites lorsque les lettres sont très proches ou enchevêtrées.

Figure 6-4 : Segmentation à partir d’histogrammes de projection selon plusieurs directions proches de la verticale.

2.3.3 Segmentation à partir du contour

S. Madhvanath et al. proposent une méthode de segmentation appliquée aux contours [170]. Ils déterminent les meilleurs points candidats de coupure entre graphèmes, en s’appuyant sur les extrema locaux du contour, qui sont associés selon un critère de proximité (voir figure 6.5).

Comme le précise X. Dupré [46], la segmentation en graphèmes à partir du contour nécessite de nombreux ajustements avant de trouver les critères de décision. Cette mise au point par tâtonnements est le point commun de nombreux traitements d’images liés à la

125

reconnaissance de l’écriture manuscrite. Faciles à ajuster lorsque la qualité de l’écriture est bonne, ces prétraitements peuvent avoir des comportements tout à fait erratiques lorsque l’écriture est de mauvaise qualité.

Figure 6-5 : Extrema du contour supérieur et inférieur sont associés, et reliés par une corde (figure extraite de [113]).

2.3.4 Segmentation à partir du squelette

A partir du squelette, on cherche à repérer certains motifs pour en déduire les candidats de points de coupures (voir figure 1.6). La détection de ces motifs introduit des calculs de courbures et d’angles, qui sont comparés à des seuils ajustés de manière à obtenir le résultat désiré.

X. Dupré [46] souligne que cette approche est erronée dans environ 10% des cas. Les configurations difficiles à segmenter sont celles pour lesquelles les lettres sont souvent enchevêtrées, comme les ”tt”, ou les lettres `a liaison haute (’b’, ’o’, ’v’, ’w’) avec leur successeur.

Figure 6-6 : Segmentation à base de squelette : basée sur des motifs (figure extraite de [44]).

2.3.5 Systèmes basés sur la lecture humaine

Les systèmes basés sur la lecture humaine reposent sur le principe de la supériorité du mot (word superiority effect) [146]. Ce principe veut qu’une lettre soit plus facile à

126

reconnaître dans un mot que seule. Un effet secondaire de ce principe que l’on a tous expérimenté, est la capacité humaine de reconnaître un mot alors même que quelques-unes de ses lettres sont inversées. Il apparaît donc que la perception de formes particulières dans un mot suffit à sa lecture. La figure 6.7 donne un exemple de description simple, basée sur les boucles, les hampes et les jambages.

Figure 6-7 : Exemple de reconnaissance basée sur la lecture humaine ([191]).

3 Problématique de segmentation-reconnaissance

Une fois les points de segmentation potentiels sont identifiés, il existe deux méthodes permettant de choisir la segmentation finale du tracé : les méthodes dites de segmentation puis reconnaissance (segmentation-based) et les méthodes de segmentation-reconnaissance (segmentation-free ou recognition-based) [35]. La différence entre ces deux méthodes réside dans la dépendance ou non entre l’étape de segmentation et celle de reconnaissance [32].

La méthode de segmentation puis reconnaissance vise à choisir les meilleurs points de segmentation sans l’aide de la reconnaissance. La segmentation est donc antérieure à la reconnaissance et n’est pas remise en cause par son résultat. Cette méthode nécessite la disponibilité d’un algorithme de segmentation fiable car la moindre erreur au niveau de la segmentation remet en cause la totalité des traitements ultérieurs.

La méthode de segmentation-reconnaissance consiste à alterner les phases de segmentation et de reconnaissance de manière à valider les hypothèses de segmentation par la reconnaissance. Dans ce cas, la segmentation est le résultat de la reconnaissance, c’est-à-dire la décision finale du module de segmentation doit exprimer le meilleur score de segmentation-reconnaissance. Bien que cette méthode offre une segmentation beaucoup plus fiable que la précédente, elle souffre d’un inconvénient principal en temps de calcul lors de la comparaison de l’ensemble des hypothèses [127].

127

3.1 Le Dilemme de segmentation-reconnaissance

Malgré la littérature très fournie des algorithmes de segmentation, les performances obtenues restent loin d’être acceptées. Dans [32,15,12], les auteurs soulignent qu’une segmentation exacte en lettres est impossible sans reconnaissance. En effet, il n’est pas possible de segmenter exactement en lettres sans reconnaître ces mêmes lettres, de même qu’il faut avoir segmenté pour pouvoir procéder à leur reconnaissance, c’est le dilemme de segmentation-reconnaissance. Pour sortir de ce dilemme, il est possible de découper le mot en graphèmes, de faire coopérer l’étape de segmentation avec celle de reconnaissance (segmentation-reconnaissance) ou d’éviter la segmentation et tenter la reconnaissance globale du mot. Le recours vers une des solutions précédentes dépend de l’application traitée.

L’approche globale de reconnaissance n’est applicable que sur de petits vocabulaires, car la capacité discriminante des primitives extraites globalement diminue avec l’augmentation de la taille du vocabulaire. De même, la gestion des hypothèses issues du processus segmentation-reconnaissance devient problématique.

Figure 6-8 : Le dilemme de segmentation et de reconnaissance

3.2 Combinaison des segmentations implicite et explicite

Afin de bénéficier des avantages des méthodes implicites et explicites, il est possible d'effectuer une combinaison des deux approches. Dans les combinaisons parallèles, les deux approches sont effectuées simultanément afin de stabiliser la reconnaissance [67]. Dans [27], une combinaison séquentielle des approches est proposée. La reconnaissance débute avec une

128

approche à segmentation implicite qui sélectionne un certain nombre d'hypothèses de reconnaissance. Une méthode de segmentation-reconnaissance est ensuite appliquée pour lever les ambiguïtés.

4. Extraction de caractéristiques

Quelle que soit la manière de segmenter les images, des propriétés des fragments d’image sont ensuite évaluées et représentées numériquement dans un vecteur de taille n. On dit alors que le nombre de caractéristiques extraites est n. L’ensemble des vecteurs extraits d’une image est appelé la séquence de vecteurs de caractéristiques de l’image. Il existe plusieurs façons d’extraire des caractéristiques d’une image de mot. Les caractéristiques extraites peuvent être de bas niveau : certains systèmes utilisent directement les pixels de la fenêtre comme caractéristiques, d’autres utilisent la distribution des pixels dans la boîte ou la fenêtre et analysent la géométrie qu’ils forment. Elles peuvent être aussi de haut niveau, c’est à dire qu’elles rendent compte globalement de la forme des pixels dans la boîte d’extraction, comme par exemple la présence de jambages et d’ascendants ou le nombre de caractères dans la fenêtre.

4.1 Profils et contours

Dans [128], J. J. Oliveira et al. présentent un certain nombre de primitives couramment utilisées en reconnaissance de l’écriture. Ils distinguent trois catégories :

a) Les primitives perceptuelles : la position des ascendants et descendants, leurs hauteurs, la position et la taille des boucles, des primitives extraites sur l’enveloppe convexe du mot, le nombre de transitions noir/blanc dans la zone centrale, ...

b) Les primitives directionnelles : sont généralement basées sur le squelette. Ces types de primitives donnent la direction générale du tracé, les longueurs et les angles.

En 1999 puis en 2004, Lowe [111] présente l’algorithme SIFT pour la détection d’invariants entre deux images. Brevetée depuis, l’idée de descripteurs robustes à diverses variations subies par une image a été utilisée dans de nombreux domaines du traitement d’image, dont la détection d’objets ou encore la recherche d’image par contenu.

129

Récemment, Rodriguez et Perronnin [149] ont proposé des caractéristiques d’histogramme de gradient poursuivant cette idée de descripteurs invariants pour la détection de mots dans une image. L’extraction de ces caractéristiques est schématisée dans la figure 6.9 et est expliquée brièvement ici. Une fenêtre glissante de largeur w = 16 pixels et de hauteur fixe (la hauteur de l’image) traverse l’image de gauche à droite.

Cette fenêtre est divisée en 4*4 cellules de taille identique et de chacune de ces cellules sont extraites 8 valeurs décrites ci-dessous, donnant un total de 4*4*8 = 128 caractéristiques.

Figure 6-9 : Extraction des extraction des gradients des pixels présentées dans [144]

Pour un pixel donné, la magnitude et l’angle du gradient sont calculés :

))

L’espace des angles [−π, π[ étant discrétisé dans 8 valeurs comme illustré sur la figure 6.10, θ(x, y) est forcément compris entre deux de ces valeurs (ou égal à une). L’apport du pixel (x,y) à l’histogramme de ces 8 directions est alors de valeur m(x,y), distribué proportionnellement sur les deux valeurs entourant θ comme schématisé sur la figure 6.10. Pour chaque cellule de la fenêtre glissante, la somme des contributions des pixels sur les 8 directions est calculée. Une fois les 128 caractéristiques calculées, elles sont normalisées pour chaque fenêtre d’extraction afin d’avoir une somme égale à 1.

130

Figure 6-10 : Extraction des caractéristiques d’histogramme de gradient présentées dans [149]

c) Les primitives topologiques : elles sont basées sur des densités de pixels. On peut par exemple projeter des images de tailles différentes (les graphèmes) dans une matrice de taille fixe. Les caractéristiques extraites sont les valeurs des cellules de cette matrice.

En conclusion, les auteurs indiquent que les primitives perceptuelles sont celles qui permettent d’obtenir les meilleurs résultats, et leur combinaison avec les autres est utile pour améliorer la reconnaissance. La bande de base est utile pour extraire et pour normaliser ces primitives. Dans ce type de primitives, on compte également les profils et les histogrammes.

Pour maintenir un vecteur de taille fixe, on divise l’image en un nombre fixe de bandes horizontales et verticales. Les caractéristiques sont les moyennes des valeurs sur ces bandes.

4.2 Caractéristiques géométriques et statistiques

Ces caractéristiques dépendent directement de la distribution des pixels dans la fenêtre glissante. Par exemple, Dreuw et al. et Keysers et al. appliquent des filtre dérivatifs de Sobel horizontal et vertical à une image préalablement forcée à une hauteur de 16 pixels et font

Ces caractéristiques dépendent directement de la distribution des pixels dans la fenêtre glissante. Par exemple, Dreuw et al. et Keysers et al. appliquent des filtre dérivatifs de Sobel horizontal et vertical à une image préalablement forcée à une hauteur de 16 pixels et font