• Aucun résultat trouvé

Chaˆıne de traitement des deux strat´egies

2.5 Strat´egies pour l’extraction de champs num´eriques dans des courriers

2.5.4 Chaˆıne de traitement des deux strat´egies

Dans la section pr´ec´edente, nous avons pr´esent´e les diff´erentes strat´egies envisa-geables pour l’extraction des champs num´eriques dans les courriers manuscrits. Nous avons d´egag´e deux strat´egies que nous proposons de mettre en œuvre dans les cha-pitres suivants. On peut repr´esenter sch´ematiquement l’enchaˆınement des diff´erentes

´etapes de traitement pour les deux strat´egies par la figure 2.20.

Fig. 2.20 – Enchaˆınement des modules de traitement pour les deux strat´egies.

Les deux strat´egies ´etant fond´ees sur une mod´elisation des lignes de texte, la premi`ere ´etape des deux chaˆınes de traitement est une segmentation du document en lignes de texte. Dans les deux cas, nous souhaitons ´eviter au maximum la

re-2.6 Conclusion 85

connaissance int´egrale du document et par cons´equent d´evelopper une mod´elisation la plus grossi`ere possible pour les entit´es non pertinentes. Nous avons ainsi choisi de mod´eliser les information non num´eriques par une classe ((Rejet)) unique. En revanche, la mod´elisation des champs num´eriques doit ˆetre plus pr´ecise afin d’incor-porer dans les mod`eles de ligne la connaissance a priori sur leur syntaxe.

La m´ethode de segmentation/reconnaissance/rejet applique une m´ethode de lo-calisation/reconnaissance sur l’ensemble du document, alors que la m´ethodedirig´ee par la syntaxe s´epare les phases de localisation et de reconnaissance. La premi`ere approche peut ˆetre vue comme une extension des strat´egies de segmentation-reconnaissance appliqu´ee aux s´equences num´eriques isol´ees, et constitue l’approche la plus ((´evidente)) qu’on puisse mettre en place. La deuxi`eme approche, plus origi-nale, localise les champs recherch´es sans segmentation ni reconnaissance chiffre. Elle a plutˆot pour origine les strat´egies d’extraction d’information utilis´ee sur les textes en langue naturelle.

2.6 Conclusion

Dans ce chapitre, nous avons commenc´e par d´ecrire le contexte de notre

´etude : l’extraction de champs num´eriques dans les courriers entrants. Ces champs num´eriques constituent une information pertinente dans la mesure o`u leur extraction permet un tri automatique des courriers entrants. Il s’agit d’un probl`eme complexe o`u les documents trait´es sont faiblement contraints, et o`u l’information recherch´ee n’est pas r´egie par un lexique.

Afin de positionner le probl`eme, nous avons ´etudi´e les diff´erents syst`emes exis-tants de lecture automatique de documents et en particulier l’´etape de localisation des informations. Nous avons constat´e que moins les documents ´etaient contraints, plus la reconnaissance des entit´es ´etait utilis´ee afin de fiabiliser leur localisation.

Dans le cas de document tr`es faiblement contraints (textes libres), le paradoxe de Sayre devient incontournable puisque la localisation des entit´es sans reconnaissance devient impossible, et inversement.

Afin d’´eviter le difficile probl`eme de localisation/reconnaissance de la totalit´e des entit´es des documents manuscrits, nous nous sommes donc tourn´es vers les m´ethodes d’extraction d’information largement employ´ees dans les documents ´electroniques.

Apr`es en avoir d´ecrit le fonctionnement, nous avons ainsi cherch´e `a adapter ces m´ethodes afin de les rendre applicables aux images de document. Cela ne peut se faire qu’en faisant intervenir des ´etapes de distinction entre information per-tinente/information non pertinente, et de reconnaissance des entit´es manuscrites.

Dans le cadre de notre probl`eme d’extraction de champs num´eriques, des ´etapes de localisation et de reconnaissance des composantes num´eriques sont donc requises.

Apr`es avoir envisag´e les diff´erentes strat´egies possibles pour notre probl`eme, nous en avons d´egag´e deux que nous souhaitons mettre en œuvre afin de les compa-rer. La premi`ere est bas´ee sur une strat´egie de segmentation/reconnaissance/rejet fournissant des hypoth`eses de localisation/reconnaissance de chiffres qui permet

l’ex-traction des champs. La seconde proc`ede `a une localisation et une reconnaissance des champs disjointes. La phase de reconnaissance n’est ainsi appliqu´ee que sur les s´equences localis´ees, ce qui nous ram`ene aux m´ethodes classiques de reconnaissance d’entit´es isol´ees.

Nous d´ecrivons dans les deux chapitres suivants la r´ealisation d’une chaˆıne de traitement compl`ete permettant la mise en place de ces deux strat´egies, et nous montrons que la deuxi`eme approche se r´ev`ele plus pertinente pour la probl´ematique pos´ee dans le cadre de cette th`ese.

Chapitre 3

Localisation et reconnaissance de champs num´ eriques par une strat´ egie de segmentation

-reconnaissance - rejet

Nous pr´esentons dans ce chapitre la r´ealisation d’une premi`ere chaˆıne de trai-tement compl`ete pour la localisation et la reconnaissance de champs num´eriques dans des documents manuscrits quelconques. Comme discut´e dans le chapitre 2, cette chaˆıne de traitement est fond´ee sur la strat´egie la plus ´evidente qui consiste

`a effectuer une localisation et une reconnaissance des chiffres dans le document, pour ensuite localiser les champs recherch´es `a l’aide des r`egles syntaxiques connues qui r´egissent ces champs. La contribution majeure de ce chapitre se situe dans la mise en place d’une strat´egie de segmentation/reconnaissance/rejet capable de simultan´ement localiser et reconnaˆıtre les champs num´eriques dans les textes.

Cette strat´egie peut ˆetre vue comme une extension des m´ethodes de segmentation-reconnaissance destin´ee `a la segmentation-reconnaissance de s´equences num´eriques isol´ees aux s´equences num´eriques entour´ees de formes `a rejeter. Dans la premi`ere section de ce chapitre, nous montrons comment l’int´egration d’une ´etape de rejet dans les strat´egies classiques de segmentation-reconnaissance nous permet de g´enerer les hy-poth`eses de localisation et de reconnaissance de chiffres. Nous d´etaillons et justifions ensuite nos choix pour la r´ealisation de chaque ´etape de la chaˆıne de traitement : segmentation du document en lignes, mise en place d’une strat´egie de segmentation-reconnaissance, conception d’un classifieur chiffre, r´ealisation et int´egration d’une m´ethode de rejet efficace pour l’identification des formes non num´eriques, et filtrage des hypoth`eses de segmentation-reconnaissance-rejet valides.

3.1 Une strat´ egie de segmentation reconnaissance -rejet

3.1.1 Int´egration du rejet dans une strat´egie de segmentation -