voit donc attribuer un poids d'autant plus fort qu'il apparaît souvent dans un bloc de
type considéré et rarement dans les autres blocs.
3.4 Méthode de détection de mots clés
Notons que notre étude porte sur l'analyse de structures de documents manuscrits.
Pour ne pas complexier le modèle CAC existant, nous ne cherchons donc pas ici à
re-connaître les mots (ce qui peut être coûteux et non able par l'utilisation d'un module de
reconnaissance de mots) mais à détecter leur présence. La détection de ces mots peut se
faire par la caractérisation de leur forme globale à partir de caractéristiques holistiques. Ce
type de méthode est emprunté du word spotting [Lavrenko 04]. Nous présentons sur
la gure 3.3, le processus de détection de mots clés retenus. Pour réaliser cette détection,
nous commençons par segmenter l'image de documents en pseudo-mots assimilables à des
mots. Les imagettes de mots obtenues sont normalisées pour uniformiser et redresser les
diérents styles d'écriture. Puis, des caractéristiques holistiques sur la forme des mots sont
extraites. Celles-ci sont ensuite utilisées par une combinaison de classieurs pour savoir
si ces caractéristiques sont spéciques d'un des mot clés. Nous présentons dans les sous
sections suivantes, ces diérentes étapes permettant la détection des mots clés.
Segmentation
en mots
Image de
document
Normalisation
des mots
Extraction de
caractéristiques
sur les mots
Classieur
mot 1
Classieur
mot 2
...
Classieur
mot n
Mots clés
C
O
M
B
I
N
A
I
S
O
N
Fig. 3.3: Module de détection de mots clés
3.4.1 Segmentation en pseudo-mots
La détection de la présence de mots clés suppose de segmenter le document en mots.
Pour limiter la complexité des calculs de segmentation en mots, nous nous proposons de
détecter leur présence à partir d'une segmentation grossière. Notre choix s'est porté sur
l'algorithme RLSA (Run Length Smearing Algorithm) [Shafait 06]. Cet algorithme de
segmentation essentiellement ascendant permet de regrouper les composantes connexes
éloignées d'une distance inférieure à un seuil. Les nouvelles composantes connexes ainsi
formées correspondent aux mots. Cet algorithme possède l'avantage d'être facile à mettre
en oeuvre et celui d'être très rapide à l'exécution. De plus, l'approche ascendante, en ne
faisant pas d'a priori sur la structure des documents, permet de mieux s'aranchir de la
variabilité. Cependant, ses performances sont très dépendantes du choix du seuil qui est
censé être une mesure estimative de l'espacement inter-mots. Dans le cas où les
espace-ments sont variables comme c'est le cas dans les docuespace-ments manuscrits, les performances
de cet algorithme peuvent être uctuantes. Nous présentons en section 3.5.3 une analyse
de l'inuence du choix de ce seuil pour l'étiquetage logique par le modèle CAC.
3.4.2 Normalisation
L'un des dés majeurs de l'étude de l'écriture manuscrite est de prendre en compte sa
variabilité. Pour compenser une partie de ces variations, chaque segment (obtenu en sortie
de l'algorithme de segmentation RLSA) est standardisé en redressant l'inclinaison et le
biais de l'écriture. De plus, chaque segment est binarisé puis squelettisé pour ne garder
que l'information de tracé essentielle. Nous détectons ensuite les lignes de base, hautes et
basses permettant de diviser le segment en 3 parties : la partie supérieure caractéristique
des hampes, la partie centrale et la partie basse caractéristique des jambages.
a) b) c) d)
Fig. 3.4: Normalisation des segments pseudo-mots : a) Segment. b) Inclinaison et biais de
l'écri-ture redressée. c) Image squeletisée. d) Détection des lignes hautes et basses.
3.4.3 Extraction de caractéristiques
Les segments peuvent se distinguer aisément par la recherche de simples
ca-ractéristiques holistiques telles que la largeur en pixels, l'orientation des traits, ...
[Madhvanath 01]. Toutefois, certains segments avec les mêmes traits grossiers exigent une
description plus détaillée an d'être diérenciés. Les travaux présentés dans [Lavrenko 04]
ont montré que la valeur des caractéristiques basées sur le prol (par exemple des prols
de projection) apporte une information supplémentaire. Nous nous proposons d'utiliser
un vecteur de caractéristiques constitué de 59 caractéristiques :
Caractéristiques scalaires :
rapport largeur sur hauteur (1)
largeur (1)
3.4. Méthode de détection de mots clés 99
zoning : densités de niveau de gris de 15 zones : 5 en largeur et 3 en hauteur (15)
nombre de hampes (1)
nombre de jambages (1)
nombre de boucles (1)
histogramme des directions du codage de freeman du squelette (8)
nombre de ns de trait (1)
nombre de jonctions Y (1)
longueur maximum d'une orientation du code de freeman (4)
nombre d'intersections noir/blanc sur la partie supérieure, inférieure et centrale(3)
Les caractéristiques basées sur les prols permettent de capturer la forme d'un segment
dans le détail. Cependant, nous avons besoin de valeurs xes et les prols ayant
des longueurs variables ne peuvent donc pas être utilisés dans notre cas. Nous nous
aranchissons de la longueur variable des prols en calculant les premiers coecients
de la TFD. Nous extrayons de la TFD les quatre premiers coecients réels et les trois
premiers coecients imaginaires [Lavrenko 04].
Caractéristiques de prols : Nous calculons sept coecients de la Transformée de
Fourier Discrète (TFD) :
prol supérieur : distance au premier pixel noir en partant du haut (7)
prol inférieur : distance au premier pixel noir en partant du bas (7)
projection verticale des niveaux de gris : chaque valeur du prol est la somme des
niveaux de gris de l'image par colonne (7)
3.4.4 Classication de mots clés
Pour détecter la présence de mots clés, notre choix s'oriente vers la combinaison des
classieurs. Cette approche a montré son aptitude à concevoir des systèmes puissants
et performants dans les domaines de : la reconnaissance d'images médicales [Chou 00],
la reconnaissance de chires [Suang 95], de caractères et de mots manuscrits [Ho 00], la
reconnaissance de visages [Bruneli 95], la vérication de signatures [Sabourin 94], la
recon-naissance de la parole [Chibelushi 93], . . . La description d'un système multi-classieurs
peut se décomposer en deux phases. La première phase consiste à générer un ensemble de
classieurs spécialisés dans la discrimination d'une classe. Ces classieurs sont donc des
experts que nous allons entraîner pour reconnaître un mot. La deuxième phase consiste à
combiner l'ensemble de ces classieurs pour obtenir une décision nale. Utiliser une telle
méthode a l'avantage de nous apprendre à rejeter les propositions et ainsi de diminuer
les fausses alarmes. La détection de la présence de N mots clés se fait en utilisant N
classieurs binaires. Chacun est spécialisé dans la reconnaissance d'un des N mots clés,
N étant la taille du lexique des mots clés retenus. Nous avons utilisé des classieurs SVM
binaires entrainés pour détecter un mot clé contre tous. Les sorties des classieurs sont
normalisées pour pouvoir les comparer. Pour le segment, nous prenons comme décision le
mot-clé qui correspond au classieur SVM dont la sortie est maximum. Cette information
va ensuite être utilisée comme une caractéristique pour l'analyse de structures de
docu-ments. Pour ce faire, nous construisons un vecteur binaire d'une taille correspondant au
nombre de mots clés pertinents retenus. Ce vecteur est ensuite placé comme des
carac-téristiques supplémentaires qui s'ajoutent aux précédentes caraccarac-téristiques graphiques et
spatiales utilisées. Le vecteur de caractéristiques placé en entrée du classieur de clique
unaire est alors constitué des trois sources d'informations.
3.5 Expérimentations sur une base de courriers
Dans le document
Extraction de structures de documents par champs aléatoires conditionnels : application aux traitements des courriers manuscrits
(Page 116-119)