• Aucun résultat trouvé

2.2.1 Les courriers entrants manuscrits

Les documents trait´es dans cette ´etude sont lescourriers entrantsmanuscrits. Le courrier entrant d´esigne les documents re¸cus quotidiennement en grand nombre par les entreprises. Aujourd’hui, la gestion du courrier entrant dans les entreprises pose de nombreux probl`emes : r´eception du courrier, ouverture des enveloppes, recon-naissance du type de document (formulaire ou manuscrit), identification de l’objet du courrier (changement d’adresse, r´eclamation, r´esiliation, etc.), acheminement de l’envoi vers le service comp´etent et enfin, prise en compte du courrier. Tout ceci repr´esente bien ´evidemment un coˆut, tant du point de vue financier que du point de vue du temps de traitement. Dans certains cas, le nombre de documents trait´es d´epasse le million par jour. Pour traiter cette masse de courriers, les entreprises

2.2 Contexte de l’´etude 51

cherchent `a automatiser le plus possible les diff´erentes ´etapes du traitement : la r´eception et l’ouverture des enveloppes peuvent se faire de fa¸con enti`erement auto-matis´ee grˆace `a du mat´eriel sp´ecialis´e ; pour ´eviter le flux physique des documents, tout le courrier est num´eris´e, facilitant ainsi l’acheminement et le traitement. Mais la derni`ere ´etape de lecture automatique du document se limite actuellement `a certains types de courrier : essentiellement les formulaires, ch`eques, factures, etc. Les cour-riers manuscrits dits libres (voir figure 2.1) restent `a ce jour extrˆemement difficiles

`a traiter.

Par d´efinition, il n’existe pas de mod`ele de document fixe pour ces courriers : le contenu, la mise en page et la localisation des informations sont inconnus du syst`eme de traitement automatique. Remarquons sur la figure 2.1 la diversit´e des mises en page et l’instabilit´e de la structure des courriers. Par exemple, les en-tˆetes des courriers peuvent ˆetre plac´es dans la partie haute, basse, `a gauche ou `a droite du document, ou mˆeme ˆetre absents. L’information qui y figure fluctue : nom, pr´enom, adresse, num´ero de client, date, num´ero de t´el´ephone. En ce qui concerne les styles d’´ecriture, ils diff`erent ´egalement en fonction des scripteurs : ´ecriture cursive, scripte ou mixte ; espacement des mots plus ou moins important. Enfin les contenus des courriers varient : communication d’une pi`ece administrative, arrˆet d’un service, r´esiliation de contrat, etc.

Les seules connaissancesa priori disponibles sur ces documents sont le fait qu’ils sont ´ecrits en langue fran¸caise, et l’orientation approximativement horizontale des lignes du document. Remarquons toutefois que les lignes de texte ne sont pas par-faitement horizontales ni parall`eles, et qu’elles peuvent se chevaucher.

2.2.2 Les champs num´eriques

Dans le cadre du traitement automatique du courrier entrant, nous proposons d’extraire un certain nombre d’informations des documents manuscrits afin d’effec-tuer un ´eventuel tri et d’automatiser au maximum leur prise en charge. Le contenu des documents ´etant tr`es variable, on peut se demander quelles sont les informa-tions utiles, susceptibles d’ˆetre extraites des courriers. Une premi`ere tˆache possible est l’extraction de l’objet du courrier. En effet, les courriers poss`edent toujours un objet qui, s’il n’est pas toujours clairement identifi´e par le mot ((objet :)), peut tou-tefois se d´eduire de la pr´esence d’un certain nombre de mots clefs (“r´esiliation”,

“contrat”, “changement”, “adresse”, etc.). Nous renvoyons `a la th`ese de Guillaume Koch [Koch 06] pour les travaux concernant la cat´egorisation des courriers entrants manuscrits `a partir de l’extraction de mots clefs. L’autre type d’information per-tinente pr´esente dans les courriers manuscrits est l’information contenue dans les ((champs num´eriques)) : num´ero de t´el´ephone, code postal, num´ero de fichier, code client, etc. (voir figure 2.2).

On peut d´efinir les champs num´eriques comme une sous-cat´egorie plus contrainte des s´equences num´eriques. Si toutes les s´equences num´eriques poss`edent une syn-taxe particuli`ere (nombre de chiffres, pr´esence et position des s´eparateurs), certaines sont plus contraintes que d’autres. Par exemple, la syntaxe r´egissant un num´ero de

Fig. 2.1 – Exemples de courriers entrants manuscrits.

t´el´ephone est beaucoup plus contrainte que celle d’un montant num´erique. Dans le cas du num´ero de t´el´ephone, la s´equence comporte 10 chiffres et des s´eparateurs (tiret, point) peuvent s´eparer chaque paire de chiffres. Dans le cas du montant

2.2 Contexte de l’´etude 53

Fig. 2.2 – Exemples de champs num´eriques : codes postaux, num´eros de client, num´eros de t´el´ephones.

num´erique, le nombre de chiffres est quelconque et la position du s´eparateur (virgule, point) peut varier. Si les s´equences num´eriques d´esignent n’importe quelle succession de chiffres (nombre, montant, etc.), on appelle un champ num´erique les s´equences num´eriques qui respectent une syntaxe particuli`ere et suffisamment contraignante : le nombre de chiffres et la pr´esence de s´eparateurs doivent ˆetre connus. Les montants (voir figure 2.3) ne sont donc pas consid´er´es comme des champs num´eriques. On peut constater sur la figure 2.2 que les champs num´eriques respectent une syntaxe, mˆeme si elle n’est pas fixe : les num´eros de t´el´ephone contiennent toujours 10 chiffres, et la position des s´eparateurs est fixe mˆeme si leur pr´esence n’est pas syst´ematique.

Fig.2.3 – Exemples de montants num´eriques.

Signalons ´egalement le cas particulier des dates qui, si elles repectent une syn-taxe particuli`ere et contraignante, peuvent ˆetre ´ecrites soit dans une repr´esentation strictement num´erique, soit dans une repr´esentation mixte num´erique/textuelle avec le mois mentionn´e en toutes lettres (voir figure 2.4). Du fait de ces informations tex-tuelles, les dates ne seront pas consid´er´ees comme champs num´eriques dans cette

´etude.

Fig. 2.4 – Les dates respectent une syntaxe particuli`ere, mais contiennent souvent des informations textuelles (mois ´ecrit en toutes lettres).

Ces champs num´eriques constituent une information pertinente dans la

me-sure o`u ils contiennent g´en´eralement des informations sur le client permettant de d´eterminer via une base de donn´ees clients son identification (num´ero de t´el´ephone ou code client), son type de contrat (code client) ou sa localisation g´eographique (code postal). La localisation et la reconnaissance de ces champs dans les courriers entrants constituent donc un r´eel besoin pour les entreprises recevant ce type de courrier.

2.2.3 Base de courriers annot´es

Nous disposons pour nos exp´erimentations d’une base de courriers entrants conte-nant 293 courriers en apprentissage et autant en test. Les bases sont annot´ees au niveau champs, c’est-`a-dire qu’on dispose de la position et de la valeur num´erique de chaque champ, mais pas de l’´etiquetage au niveau composante. Trois types de champs d’int´erˆet sont annot´es : codes postaux, num´eros de t´el´ephone et codes client.

Les effectifs des deux bases sont rapport´es dans le tableau 2.1

Nombre de champs codes postaux t´el´ephones codes clients total

Apprentissage 313 241 123 677

Test 328 250 150 718

Tab.2.1 – Types de champs et effectifs dans les bases de courriers annot´es.

2.3 Localisation de l’information manuscrite dans les