• Aucun résultat trouvé

Chapitre 6 : Reconnaissance des Mots

2. Segmentation

122

Dans cette partie nous allons présenter la segmentation de mots en caractères. Les autres modes de segmentation tels que la segmentation de documents en lignes et la segmentation de lignes en mots seront discutés dans la section implémentation ci-dessous.

D’une manière générale, il existe deux approches de segmentation : l’approche explicite et l’approche implicite.

2.1 Segmentation explicite

Le principe de cette approche (appelée aussi dissection) est illustré dans la figure 1.2.

Un algorithme permet d’isoler des fragments de mots appelés graphèmes (parties de caractères ou caractères entiers) à partir de points particuliers du contour.

Les graphèmes sont des images extraites de l’image à segmenter. Passer d’une seule image à une séquence de graphèmes pose le problème de la taille de ces éléments. Ils ne doivent pas être trop petits afin d’être statistiquement significatifs, et pas trop gros afin de ne pas dépasser la taille d’une lettre. Il est en effet important qu’un graphème donné soit une sous-partie d’une seule lettre : cette condition est nécessaire pour construire un modèle de mot comme étant la concaténation de modèles de lettres.

Dans [90,61,91,92], les auteurs utilisent des algorithmes de segmentation généralement basés sur les contours ou les profils pour proposer des hypothèses de points de segmentation. Les différentes hypothèses sont généralement organisées en treillis à plusieurs niveaux (voir figure 6.2) et évaluées par le moteur de reconnaissance de caractères. On parle alors de stratégie de segmentation-reconnaissance.

Figure 6-2 : Représentation des hypothèses de segmentation par un treillis à 4 niveaux de regroupement.

2.2 Segmentation implicite

123

Les approches de segmentation implicite (ou continues) considèrent tous les points du tracé comme points de segmentation potentiels. Dans ces approches, la segmentation et la reconnaissance sont réalisées conjointement. En réalité, il n’y a pas de pré-segmentation ou dissection du mot, bien qu’un découpage a priori de l’image en intervalle de grandeur régulière est effectué classiquement. Le découpage peut être réalisé de deux manières, soit par fenêtrage, soit par recherche de primitives [168].

2.3 Segmentation de l’écriture cursive

Dans le cas de l’écriture cursive, le problème est encore plus complexe. Dans la communauté de la reconnaissance de l’écriture imprimée, il est admis qu’il est impossible de segmenter directement un mot cursif en lettres. Pour segmenter en caractères, il faut qu’ils aient préalablement été identifiés ; et pour reconnaître un caractère, il faut qu’il soit préalablement correctement segmenté. C’est le paradoxe de K.M. Sayre [154]. Pour sortir de ce dilemme, il est nécessaire de découper le mot en sous-parties de lettres.

Pour plus d’information sur la segmentation de l’écriture cursive, le travail de synthèse de X. Dupré [46]. Généralement on utilise deux approches : la segmentation en graphèmes (segmentation explicite) [99] qui consiste à segmenter le mot en sous-parties qui sont presque des lettres. Et l’analyse par fenêtres glissantes (segmentation implicite) où le mot est découpé en bandes verticales.

Plusieurs techniques de segmentation sont présentées dans la littérature. Un tour d’horizon est exposé dans [117] dans lequel l’auteur expose les techniques de segmentation suivantes :

‒ segmentation à partir du contour,

‒ segmentation à partir du squelette,

‒ segmentation à partir des histogrammes,

‒ segmentation basée sur des réservoirs,

‒ fenêtres glissantes.

2.3.1 Fenêtres glissantes

124

L’utilisation d’une fenêtre glissante [96] revient à découper l’image en bandes verticales. Ce découpage peut être régulier ou non, éventuellement avec recouvrement partiel des bandes successives (voir figure 6.3).

Cette technique présente l’avantage d’être simple, robuste au bruit et est indépendante de la connexité. Le défaut de cette méthode est que la séquence générée contient beaucoup de bruit (recouvrement de deux lettres successives). C’est également vrai dans le cas des lettres superposées verticalement, mais qui ne se touchent pas nécessairement : une barre de ’t’ avec la lettre suivante, ou les descendants comme ’ ﺮ ’ ou ’ ﻮ ’ en arabe.

Figure 6-3 : Segmentation à base de fenêtre glissante : découpage du mot en bandes verticales.

2.3.2 Segmentation à partir des histogrammes

Cette méthode simple est proposée par B. Yanikoglu et P. Sandon [197]. Elle consiste à calculer des histogrammes de projection dans plusieurs directions proches de la verticale.

Les droites choisies sont celles qui interceptent le moins de pixels noirs, avec une contrainte d’espacement régulier dans l’image (voir figure 6.4). Cette méthode montre néanmoins ses limites lorsque les lettres sont très proches ou enchevêtrées.

Figure 6-4 : Segmentation à partir d’histogrammes de projection selon plusieurs directions proches de la verticale.

2.3.3 Segmentation à partir du contour

S. Madhvanath et al. proposent une méthode de segmentation appliquée aux contours [170]. Ils déterminent les meilleurs points candidats de coupure entre graphèmes, en s’appuyant sur les extrema locaux du contour, qui sont associés selon un critère de proximité (voir figure 6.5).

Comme le précise X. Dupré [46], la segmentation en graphèmes à partir du contour nécessite de nombreux ajustements avant de trouver les critères de décision. Cette mise au point par tâtonnements est le point commun de nombreux traitements d’images liés à la

125

reconnaissance de l’écriture manuscrite. Faciles à ajuster lorsque la qualité de l’écriture est bonne, ces prétraitements peuvent avoir des comportements tout à fait erratiques lorsque l’écriture est de mauvaise qualité.

Figure 6-5 : Extrema du contour supérieur et inférieur sont associés, et reliés par une corde (figure extraite de [113]).

2.3.4 Segmentation à partir du squelette

A partir du squelette, on cherche à repérer certains motifs pour en déduire les candidats de points de coupures (voir figure 1.6). La détection de ces motifs introduit des calculs de courbures et d’angles, qui sont comparés à des seuils ajustés de manière à obtenir le résultat désiré.

X. Dupré [46] souligne que cette approche est erronée dans environ 10% des cas. Les configurations difficiles à segmenter sont celles pour lesquelles les lettres sont souvent enchevêtrées, comme les ”tt”, ou les lettres `a liaison haute (’b’, ’o’, ’v’, ’w’) avec leur successeur.

Figure 6-6 : Segmentation à base de squelette : basée sur des motifs (figure extraite de [44]).

2.3.5 Systèmes basés sur la lecture humaine

Les systèmes basés sur la lecture humaine reposent sur le principe de la supériorité du mot (word superiority effect) [146]. Ce principe veut qu’une lettre soit plus facile à

126

reconnaître dans un mot que seule. Un effet secondaire de ce principe que l’on a tous expérimenté, est la capacité humaine de reconnaître un mot alors même que quelques-unes de ses lettres sont inversées. Il apparaît donc que la perception de formes particulières dans un mot suffit à sa lecture. La figure 6.7 donne un exemple de description simple, basée sur les boucles, les hampes et les jambages.

Figure 6-7 : Exemple de reconnaissance basée sur la lecture humaine ([191]).