• Aucun résultat trouvé

effet, les HMM proposent une capacit´e de mod´elisation sup´erieure aux m´ethodes `a segmentation explicite, mais leur capacit´e de dicrimination est inf´erieure. D’o`u l’id´ee de coupler la mod´elisation efficace des HMM avec un classifieur discriminant : les r´eseaux de neurones.

L’id´ee est d’utiliser les sorties d’un classifieur neuronal comme observations conti-nues d’un mod`ele de Markov cach´e. Dans ce cas, les probabilit´es a posteriori four-nies en sortie du r´eseau P(qj|Ot) sont transform´ees par la r`egle de Bayes en vrai-semblances normalis´eesP(Ot|qj)/P(Ot). Une proc´edure d’apprentissage it´erative du syst`eme hybride est g´en´eralement mise en œuvre, o`u les sorties d´esir´ees du r´eseau de neurones sont fournies par le HMM. La r´etropropagation du gradient est alors appliqu´ee pour la mise `a jour des poids du r´eseau.

Ces m´ethodes ont rencontr´e un franc succ`es pour la reconnaissance de mots [Morgan 93, Bengio 95, Gilloux 95, Knerr 98], mais aussi pour la reconnaissance de s´equence num´eriques avec un MLP dans [Morita 06], avec un SDNN dans [Matan 92].

Ce type d’approche reste `a ce jour un des moyens les plus efficaces d’allier le pouvoir discriminant des r´eseaux de neurones et la capacit´e de mod´elisation des s´equences des mod`eles de Markov cach´es.

Combinaison de segmentation implicite et explicite

Afin de b´en´eficier des avantages des m´ethodes implicites et explicites, il est pos-sible d’effectuer une combinaison des deux approches. Dans les combinaisons pa-rall`eles, les deux approches sont effectu´ees simultan´ement afin de fiabiliser la re-connaissance [Ha 98]. Dans [Britto 03], une combinaison s´equentielle des approches est propos´ee. La reconnaissance d´ebute avec une approche `a segmentation implicite qui s´electionne un certain nombre d’hypoth`eses de reconnaissance. Une m´ethode de segmentation-reconnaissance est ensuite appliqu´ee pour lever les ambigu¨ıt´es.

1.6 Conclusion

Nous avons dress´e dans cette ´etude bibliographique un panorama des syst`emes de reconnaissance d’entit´es manuscrites isol´ees. Nous avons pu constater que grˆace aux progr`es dans le domaine de la classification statistique et la mod´elisation de s´equences, les syst`emes actuels offrent d´esormais des performances int´eressantes pour la reconnaissance de caract`eres, de chiffres li´es ou de s´equences num´eriques.

Concernant la reconnaissance de mots, les performances varient beaucoup suivant la taille du lexique, et les performances sont acceptables pour les lexiques de taille raisonnable.

Si la reconnaissance ((hors contexte)) d’entit´es manuscrites propose d´esormais des performances acceptables, la localisation des entit´es ont moins ´et´e trait´ees dans la litt´erature. Le chapitre suivant est ainsi consacr´e `a la localisation des entit´es manuscrites dans les documents.

Chapitre 2

Syst` emes de lecture de documents et extraction d’information

2.1 Introduction

Nous avons vu dans le chapitre pr´ec´edent que les progr`es faits dans le domaine de la classification statistique et la mod´elisation de l’´ecriture permettent d´esormais de reconnaˆıtre correctement des entit´es d´ej`a localis´ees. Une probl´ematique moins trait´ee dans la litt´erature est la localisation des informations manuscrites dans les documents. Pourtant, tout syst`eme r´eel de lecture de documents suppose une lo-calisation de l’information `a reconnaˆıtre. La lolo-calisation consiste `a isoler toutes les composantes et seulement les composantes d’une entit´e que l’on cherche `a identi-fier dans le cas d’un mot, d’une s´equence de mots, d’une phrase ; ou la valeur dans le cas d’une s´equence de chiffres ou d’un champ num´erique particulier (num´ero de t´el´ephone, date, etc). La localisation se traduit donc par une ´etape de segmentation du document en entit´es distinctes.

La localisation des informations manuscrites dans les documents est un probl`eme difficile dans la mesure o`u il est directement confront´e au paradoxe de Sayre qui stipule que dans un probl`eme de reconnaissance de formes, la localisation et la reconnaissance des entit´es ne peuvent ˆetre dissoci´ees pour ˆetre men´ees correctement [Sayre 73]. Il existe plusieurs mani`eres de contourner ce probl`eme, en fonction des connaissancesa priori que poss`ede le syst`eme au sujet des documents trait´es. Dans le cas de documents contraints (ch`eques, formulaires, etc.), la connaissance d’un certain nombre d’informationsa priori sur la structure du document permet de consid´erer un mod`ele de document suffisamment contraint pour effectuer une localisation des informations sans reconnaissance. Dans ce cas, la localisation et la reconnaissance des entit´es sont dissoci´ees. En revanche, dans le cas de documents moins contraints (textes libres), les connaissances a priori disponibles sont trop faibles pour obtenir un mod`ele de document suffisamment contraint. La localisation et la reconnaissance

doivent alors ˆetre men´ees conjointement.

Ce second cas de figure, plus complexe, suppose la mise en place de strat´egies de localisation/reconnaissance appliqu´ees `a l’ensemble du document. Il a cependant ´et´e montr´e que de telles strat´egies posaient encore de s´erieux probl`emes puisqu’en l’´etat actuel des recherches, la lecture int´egrale d’un document ne peut ˆetre effectu´ee de mani`ere fiable sans connaissances a priori [Plamondon 00, Lorette 99]. `A partir de ce constat, une strat´egie alternative visant `a extraire l’information des documents commence `a ´emerger. Il ne s’agit plus de consid´erer une lecture int´egrale du docu-ment mais plutˆot d’effectuer une reconnaissance partielle visant `a extraire l’informa-tion pertinente. Dans le cadre de cette th`ese qui vise `a localiser et reconnaˆıtre des ((champs num´eriques))dans des documents non contraints (les((courriers entrants))), nous nous situons pleinement dans cette probl´ematique d’extraction d’information dans des documents manuscrits non contraints.

Dans ce chapitre, nous consid´erons donc le probl`eme g´en´eral de la localisation des informations manuscrites dans les documents, et nous nous focalisons plus par-ticuli`erement sur le probl`eme de la localisation et de la reconnaissance de champs num´eriques dans des documents manuscrits de type courrier entrant. Dans une premi`ere partie, nous d´efinissons ce probl`eme pr´ecis en ´evoquant la nature du cour-rier entrant et l’enjeu du traitement automatique de tels documents dans l’industrie, ainsi que la nature de l’information recherch´ee : les champs num´eriques. Afin de po-sitionner notre probl`eme, nous ´etudierons dans une seconde partie la localisation des informations manuscrites dans les syst`emes existants de lecture de documents plus ou moins contraints. Lorsque les documents sont tr`es peu contraints (cas des textes libres), nous montrerons qu’il s’agit d’un r´eel probl`eme d’extraction d’information.

Nous explorerons ainsi dans une troisi`eme partie les id´ees g´en´erales et les m´ethodes de ce domaine de recherche, puis nous envisagerons la possibilit´e d’une adaptation des m´ethodes d’extraction d’information `a notre probl`eme. `A partir de ces enseigne-ments, nous envisagerons plusieurs strat´egies pour le probl`eme de localisation et de reconnaissance de champs num´eriques dans des documents manuscrits.