• Aucun résultat trouvé

Documents non contraints : vers des syst`emes d’extraction

2.3 Localisation de l’information manuscrite dans les syst`emes de lecture

2.3.5 Documents non contraints : vers des syst`emes d’extraction

Nous avons pu constater que les strat´egies employ´ees pour la localisation d’information manuscrite dans les documents contraints et faiblement contraints d´ependaient fortement du contexte de l’application. Lorsque le mod`ele de docu-ment est suffisamdocu-ment contraint (ch`eques, formulaires, adresses postales), la locali-sation est enti`erement bas´ee sur des connaissances a priori sur la structure du do-cument. Lorsque cette structure est inconnue (cas des textes faiblement contraints), on cherche `a localiser tous les mots du texte, soit par des approches utilisant des connaissances a priori sur les espacements inter-mots et inter-lettres, soit en faisant

2.3 Localisation de l’information manuscrite dans les syst`emes de

lecture de documents 65

intervenir la reconnaissance. Ces derni`eres m´ethodes bas´ees sur une localisation et une reconnaissance conjointes des entit´es manuscrites sont toutefois possibles dans les travaux pr´esent´es pr´ec´edemment car les textes trait´es sont relativement propres et ne contiennent que des mots appartenant `a un lexique connu.

Le probl`eme de lecture int´egrale de texte devient plus d´elicat dans le cas de documents non contraints ((r´eels)) tels que les courrier entrants (voir figure 2.10), pour plusieurs raisons. Premi`erement, le lexique des documents ne contient pas uni-quement des mots d’un lexique connu, mais tous les mots d’une langue, ainsi que des s´equences num´eriques, des noms propres, ratures, signature, symboles divers etc. Imaginons la mise en place d’une strat´egie de localisation/reconnaissance sem-blable `a celles propos´ees dans [Marti 01b] et [Vinciarelli 04]. Les mod`eles de lignes doivent pouvoir int´egrer toutes ces informations n’appartenant pas au lexique sous peine de ne pouvoir r´ealiser un alignement correct des mod`eles. Le processus de reconnaissance doit ´egalement ˆetre capable de reconnaˆıtre des classes autres que lettres : chiffres, symbole, bruit, etc. Deuxi`emement, la structure en lignes des docu-ments r´eels est parfois hasardeuse, et l’on rencontre fr´equemment des lignes dont les composantes sont li´ees avec une autre ligne, ou se chevauchant. Cette remarque est

´egalement valable pour les mots qui peuvent se chevaucher ou comporter des espaces inter-lettres plus importants que certains espaces inter-mots. Enfin les images de do-cuments r´eels num´eris´es peuvent contenir des d´efauts de num´erisation engendrant du bruit.

En l’´etat actuel des recherches, la lecture int´egrale de documents r´eels sans connaissance a priori semble donc extrˆemement d´elicate, et la difficult´e d’une telle tˆache ne peut pas conduire `a des r´esultats fiables. Dans le cas des courriers entrants, on peut d’ailleurs s’interroger sur l’int´erˆet d’une lecture int´egrale du document, puisque seules certaines informations nous int´eressent : identit´e et coordonn´ees de l’exp´editeur, objet du courrier, etc.

A partir de ce double constat d’impuissance et d’int´erˆet limit´e, une solution al-ternative `a la lecture int´egrale des documents est la lecture partielle visant `a extraire l’information d’int´erˆet : nom de l’exp´editeur, num´ero de client, objet du courrier, etc. Contrairement `a la localisation de montants dans les ch`eques ou de champs dans les formulaires, on souhaite localiser des champs manuscrits particuliers dans un environnement de texte manuscrit, sans pour autant localiser toutes les entit´es d’un texte comme dans la lecture int´egrale de document. On se situe donc dans une probl´ematique d’extraction d’information dans des documents manuscrits.

Peu de travaux ont abord´e cette probl´ematique. Selon nous, seuls les travaux de Koch [Koch 06], r´ealis´es en parall`ele des travaux pr´esent´es dans cette th`ese, traitent de l’extraction d’information dans des documents manuscrits non contraints r´eels.

Les travaux pr´esent´es concernent l’extraction de mots clefs appartenant `a un lexique dans les courriers entrants pr´esent´es dans la section 2.2.1 en vue d’effectuer une cat´egorisation des documents. Bien que n’´etant pas appliqu´ee sur des textes libres, l’approche d´evelopp´ee dans [El-Yacoubi 02] visant `a localiser et reconnaˆıtre simul-tan´ement des noms de rue dans des lignes d’adresses postales m´erite ´egalement d’ˆetre mentionn´ee car elle permet d’effectuer une r´eelle op´eration d’extraction

d’informa-Fig. 2.10 – Courrier entrant et difficult´es rencontr´ees par rapport `a un texte libre propre dont le lexique est connu.

tion. Nous d´ecrivons maintenant ces deux approches.

Extraction de mots clefs dans des courriers entrants

Dans [Koch 06], un syst`eme de cat´egorisation de courriers entrants bas´e sur l’extraction de mots clefs appartenant `a un lexique (jusqu’`a 1000 mots) est pr´esent´e.

Il s’agit de d´eterminer l’objet d’un courrier en d´etectant la pr´esence d’un certain nombre de mots dans le texte.

La strat´egie utilis´ee pour l’extraction des mots clefs repose sur une analyse glo-bale des lignes de texte. Un mod`ele de ligne comprenant `a la fois les mots apparte-nant au lexique, les mots hors lexique et les espaces est propos´e (voir figure 2.11).

Une strat´egie de segmentation/reconnaissance appliqu´ee sur l’ensemble de la ligne produit un treillis d’observations qui, align´e sur le mod`ele de ligne, propose des hypoth`eses de localisation et de reconnaissance des mots appartenant au lexique.

La mod´elisation des ´el´ements hors lexique est effectu´ee par un mod`ele dique permettant toutes les transitions possibles entre lettres. Ce mod`ele ergo-dique est mis en concurrence dans le mod`ele de ligne avec les mod`eles de mots

2.3 Localisation de l’information manuscrite dans les syst`emes de

lecture de documents 67

Fig. 2.11 – Mod`ele de ligne utilis´e par Koch [Koch 06]. EI et EF d´esignent l’´etat initial et l’´etat final du mod`ele, et (( )) d´esigne les espaces inter-mots

du lexique. La strat´egie de segmentation/reconnaissance met en œuvre une ´etape de sur-segmentation des composantes par une analyse des contours et un classifieur neuronal. Une m´ethode de r´eduction de lexique est mise en œuvre afin de limiter la combinatoire des hypoth`eses de segmentation/reconnaissance.

L’extraction des mots clefs repose donc sur une mod´elisation partielle des lignes de texte permettant `a la fois de localiser et reconnaˆıtre les mots appartenant `a un lexique, et d’absorber les mots hors lexique sans toutefois les reconnaˆıtre.

Extraction du nom de rue dans des adresses postales

Dans [El-Yacoubi 02], une approche similaire bas´ee sur la mod´elisation d’une ligne de texte est appliqu´ee `a l’extraction de nom de rue dans des adresses postales.

La mod´elisation des lignes est r´ealis´ee par des mod`eles de Markov cach´es. Le mod`ele de ligne est constitu´e du mod`ele de nom de rue recherch´e, auquel on concat´ene un mod`ele g´en´erique `a gauche et un mod`ele g´en´erique `a droite permettant d’absorber les informations non pertinentes (num´ero de rue, nature de la voie, etc.). Signalons que la taille du lexique atteint plusieurs milliers de mots, mais que le syst`eme inclut des m´ethodes efficaces de r´eduction de lexique. Comme dans [Koch 06], l’absorption des ´el´ements hors lexique est r´ealis´ee par un mod`ele ergodique permettant toutes les transitions possibles entre lettres.

Les travaux pr´esent´es dans [Koch 06] et [El-Yacoubi 02] r´ealisent ainsi une ex-traction d’information dans les documents manuscrits. Les strat´egies reposent sur une mod´elisation permettant une reconnaissance partielle des lignes de texte par l’interm´ediaire de mod`eles ergodiques qui mod´elisent l’information hors lexique.

L’extraction d’information est toutefois un vaste domaine qui, s’il a peu ´et´e

´etudi´e sur des documents manuscrits, a connu de nombreux travaux sur les docu-ments ´electroniques. Nous pr´esentons maintenant ce domaine de recherche et ses applications.

Fig. 2.12 – Mod`ele de ligne utilis´e par El Yacoubi [El-Yacoubi 02], obtenu par concat´enation des mod`eles de nom de rue recherch´es et des mod`eles ergodiques

`a gauche et `a droite permettant d’absorber les ´el´ements hors lexique.

2.4 Extraction d’information dans les documents