• Aucun résultat trouvé

voit donc attribuer un poids d'autant plus fort qu'il apparaît souvent dans un bloc de

type considéré et rarement dans les autres blocs.

3.4 Méthode de détection de mots clés

Notons que notre étude porte sur l'analyse de structures de documents manuscrits.

Pour ne pas complexier le modèle CAC existant, nous ne cherchons donc pas ici à

re-connaître les mots (ce qui peut être coûteux et non able par l'utilisation d'un module de

reconnaissance de mots) mais à détecter leur présence. La détection de ces mots peut se

faire par la caractérisation de leur forme globale à partir de caractéristiques holistiques. Ce

type de méthode est emprunté du word spotting [Lavrenko 04]. Nous présentons sur

la gure 3.3, le processus de détection de mots clés retenus. Pour réaliser cette détection,

nous commençons par segmenter l'image de documents en pseudo-mots assimilables à des

mots. Les imagettes de mots obtenues sont normalisées pour uniformiser et redresser les

diérents styles d'écriture. Puis, des caractéristiques holistiques sur la forme des mots sont

extraites. Celles-ci sont ensuite utilisées par une combinaison de classieurs pour savoir

si ces caractéristiques sont spéciques d'un des mot clés. Nous présentons dans les sous

sections suivantes, ces diérentes étapes permettant la détection des mots clés.

Segmentation

en mots

Image de

document

Normalisation

des mots

Extraction de

caractéristiques

sur les mots

Classieur

mot 1

Classieur

mot 2

...

Classieur

mot n

Mots clés

C

O

M

B

I

N

A

I

S

O

N

Fig. 3.3: Module de détection de mots clés

3.4.1 Segmentation en pseudo-mots

La détection de la présence de mots clés suppose de segmenter le document en mots.

Pour limiter la complexité des calculs de segmentation en mots, nous nous proposons de

détecter leur présence à partir d'une segmentation grossière. Notre choix s'est porté sur

l'algorithme RLSA (Run Length Smearing Algorithm) [Shafait 06]. Cet algorithme de

segmentation essentiellement ascendant permet de regrouper les composantes connexes

éloignées d'une distance inférieure à un seuil. Les nouvelles composantes connexes ainsi

formées correspondent aux mots. Cet algorithme possède l'avantage d'être facile à mettre

en oeuvre et celui d'être très rapide à l'exécution. De plus, l'approche ascendante, en ne

faisant pas d'a priori sur la structure des documents, permet de mieux s'aranchir de la

variabilité. Cependant, ses performances sont très dépendantes du choix du seuil qui est

censé être une mesure estimative de l'espacement inter-mots. Dans le cas où les

espace-ments sont variables comme c'est le cas dans les docuespace-ments manuscrits, les performances

de cet algorithme peuvent être uctuantes. Nous présentons en section 3.5.3 une analyse

de l'inuence du choix de ce seuil pour l'étiquetage logique par le modèle CAC.

3.4.2 Normalisation

L'un des dés majeurs de l'étude de l'écriture manuscrite est de prendre en compte sa

variabilité. Pour compenser une partie de ces variations, chaque segment (obtenu en sortie

de l'algorithme de segmentation RLSA) est standardisé en redressant l'inclinaison et le

biais de l'écriture. De plus, chaque segment est binarisé puis squelettisé pour ne garder

que l'information de tracé essentielle. Nous détectons ensuite les lignes de base, hautes et

basses permettant de diviser le segment en 3 parties : la partie supérieure caractéristique

des hampes, la partie centrale et la partie basse caractéristique des jambages.

a) b) c) d)

Fig. 3.4: Normalisation des segments pseudo-mots : a) Segment. b) Inclinaison et biais de

l'écri-ture redressée. c) Image squeletisée. d) Détection des lignes hautes et basses.

3.4.3 Extraction de caractéristiques

Les segments peuvent se distinguer aisément par la recherche de simples

ca-ractéristiques holistiques telles que la largeur en pixels, l'orientation des traits, ...

[Madhvanath 01]. Toutefois, certains segments avec les mêmes traits grossiers exigent une

description plus détaillée an d'être diérenciés. Les travaux présentés dans [Lavrenko 04]

ont montré que la valeur des caractéristiques basées sur le prol (par exemple des prols

de projection) apporte une information supplémentaire. Nous nous proposons d'utiliser

un vecteur de caractéristiques constitué de 59 caractéristiques :

Caractéristiques scalaires :

rapport largeur sur hauteur (1)

largeur (1)

3.4. Méthode de détection de mots clés 99

zoning : densités de niveau de gris de 15 zones : 5 en largeur et 3 en hauteur (15)

nombre de hampes (1)

nombre de jambages (1)

nombre de boucles (1)

histogramme des directions du codage de freeman du squelette (8)

nombre de ns de trait (1)

nombre de jonctions Y (1)

longueur maximum d'une orientation du code de freeman (4)

nombre d'intersections noir/blanc sur la partie supérieure, inférieure et centrale(3)

Les caractéristiques basées sur les prols permettent de capturer la forme d'un segment

dans le détail. Cependant, nous avons besoin de valeurs xes et les prols ayant

des longueurs variables ne peuvent donc pas être utilisés dans notre cas. Nous nous

aranchissons de la longueur variable des prols en calculant les premiers coecients

de la TFD. Nous extrayons de la TFD les quatre premiers coecients réels et les trois

premiers coecients imaginaires [Lavrenko 04].

Caractéristiques de prols : Nous calculons sept coecients de la Transformée de

Fourier Discrète (TFD) :

prol supérieur : distance au premier pixel noir en partant du haut (7)

prol inférieur : distance au premier pixel noir en partant du bas (7)

projection verticale des niveaux de gris : chaque valeur du prol est la somme des

niveaux de gris de l'image par colonne (7)

3.4.4 Classication de mots clés

Pour détecter la présence de mots clés, notre choix s'oriente vers la combinaison des

classieurs. Cette approche a montré son aptitude à concevoir des systèmes puissants

et performants dans les domaines de : la reconnaissance d'images médicales [Chou 00],

la reconnaissance de chires [Suang 95], de caractères et de mots manuscrits [Ho 00], la

reconnaissance de visages [Bruneli 95], la vérication de signatures [Sabourin 94], la

recon-naissance de la parole [Chibelushi 93], . . . La description d'un système multi-classieurs

peut se décomposer en deux phases. La première phase consiste à générer un ensemble de

classieurs spécialisés dans la discrimination d'une classe. Ces classieurs sont donc des

experts que nous allons entraîner pour reconnaître un mot. La deuxième phase consiste à

combiner l'ensemble de ces classieurs pour obtenir une décision nale. Utiliser une telle

méthode a l'avantage de nous apprendre à rejeter les propositions et ainsi de diminuer

les fausses alarmes. La détection de la présence de N mots clés se fait en utilisant N

classieurs binaires. Chacun est spécialisé dans la reconnaissance d'un des N mots clés,

N étant la taille du lexique des mots clés retenus. Nous avons utilisé des classieurs SVM

binaires entrainés pour détecter un mot clé contre tous. Les sorties des classieurs sont

normalisées pour pouvoir les comparer. Pour le segment, nous prenons comme décision le

mot-clé qui correspond au classieur SVM dont la sortie est maximum. Cette information

va ensuite être utilisée comme une caractéristique pour l'analyse de structures de

docu-ments. Pour ce faire, nous construisons un vecteur binaire d'une taille correspondant au

nombre de mots clés pertinents retenus. Ce vecteur est ensuite placé comme des

carac-téristiques supplémentaires qui s'ajoutent aux précédentes caraccarac-téristiques graphiques et

spatiales utilisées. Le vecteur de caractéristiques placé en entrée du classieur de clique

unaire est alors constitué des trois sources d'informations.

3.5 Expérimentations sur une base de courriers