• Aucun résultat trouvé

Les avanc´ees dans le domaine la reconnaissance de documents sont certes effectives mais les m´ethodes utilis´ees ont encore en charge un certain nombre de difficult´es lorsque l’extraction des

indices physiques n’est pas de bonne qualit´e. Les plus cit´ees utilisent des approches bas´ees sur

le mod`ele et entreprennent, pour couvrir la forte variabilit´e des documents, multiplier le nombre

de r`egles pour les syst`emes les plus simples ou multiplier le nombre de r`egles de productions

pour les syst`emes `a base de grammaires.

Les m´ethodes dirig´ees par le mod`ele sont d´ependantes d’un expert qui a l’obligation de

formaliser les relations entre les observations physiques et les interpr´etations logiques

correspon-dantes. Elles sont aussi sensibles `a la qualit´e des observations mais ´egalement au changement de

classe de document ; une modification mˆeme mineure au niveau de la classe de document peut

entraˆıner une baisse des r´esultats de reconnaissance pour les moins flexibles d’entre elles. Elles

ne proposent d’ailleurs pas toujours un score de confiance sur les r´esultats et un traitement du

rejet est donc plus difficile `a entreprendre.

Pour pallier les probl`emes d’adaptabilit´e entre d’une part un mod`ele g´en´erique de document

et d’autre part les donn´ees bruit´ees provenant de l’analyse physique, certains auteurs utilisent

un apprentissage au sein de la m´ethode. Les moins avanc´ees se limitent `a une interactivit´e

lors de la cr´eation de fonds de v´erit´e ou lors de la correction apr`es la reconnaissance. Celles

utilisant r´eellement un apprentissage le font bien souvent indirectement sur le document car

l’apprentissage sert `a trouver les r`egles ou fixer les param`etres d’un syst`eme de type dirig´e par

le mod`ele. D’apr`es notre connaissance, aucun syst`eme exclusivement dirig´e par les donn´ees ne

semble s’ˆetre impos´e pour l’analyse de la structure logique alors que ce type d’approche est

largement employ´e lors de l’analyse de la structure physique.

Nous avons aussi remarqu´e une tr`es faible utilisation des m´ethodes neuronales qui sont

pourtant capables d’apprentissage et tr`es pr´esentes dans les ´etapes pr´ec´edant l’analyse logique.

Leur absence doit s’expliquer en partie par le fait qu’elles se prˆetent mieux `a des probl`emes

provenant du traitement du signal et que les m´ethodes classiquement employ´ees ne sont pas

sp´ecialement con¸cues pour traiter des donn´ees structur´ees [Marinai et coll., 2005]. La

construc-tion de documents de v´erit´e est une tˆache longue et fastidieuse et doit se faire au moins en

partie manuellement. Il est donc compr´ehensible que les solutions dirig´ees par le mod`ele soient

privil´egi´ees car il semble plus naturel de vouloir utiliser un processus inverse `a celui qui a permis

la synth`ese du document et qu’il est d’autant plus simple d’´ecrire dans ces formalismes des

connaissances a priori.

Le but que nous nous sommes fix´es pour la th`ese est l’´elaboration d’une m´ethode autonome

capable d’´etablir seule les relations entre les observations de la structure physique et les ´el´ements

de la structure logique. Au vu des travaux d´ej`a men´es, il ne nous paraˆıt pas pertinent d’utiliser

une m´ethode reposant exclusivement sur une approche dirig´ee par le mod`ele. Il est cependant

1.7. Conclusion

utile et certainement n´ecessaire de conserver les atouts de cette derni`ere comme l’int´egration de

connaissances a priori. Il ne sera donc pas possible d’utiliser une m´ethode neuronale classique

pour r´esoudre le probl`eme.

Avant de d´etailler les fondements de notre m´ethode, nous allons montrer au cours du chapitre

suivant l’int´erˆet et les capacit´es des m´ethodes neuronales en nous int´eressant particuli`erement au

syst`eme `a repr´esentation locale de [Cˆot´e, 1997] qui permet l’int´egration de concepts et effectue

une reconnaissance perceptive des formes ainsi qu’au Perceptron multicouche qui nous permettra

d’´etendre le r´eseau des pr´ec´edents auteurs `a un fonctionnement plus dirig´e par les donn´ees.

Chapitre 2

R´eseaux de neurones `a

repr´esentation locale et utilisation

du contexte

L

es syst`emes de reconnaissance de structures logiques de documents propos´es par la litt´erature

sont principalement dirig´es par un mod`ele et ne sont pas suffisamment flexibles et

g´en´e-riques pour traiter des images de documents complexes. Bien qu’ils tentent de reproduire

une activit´e mentale de lecture, aucun n’utilise une v´eritable mod´elisation cognitive. En partant

de constatations de psychologues sur les mod`eles de lecture [McClelland et Rumelhart, 1981] et

d’une impl´ementation par [Cˆot´e, 1997], nous verrons comment ´etendre un mod`ele cognitif de

lecture de mots `a la reconnaissance de structures logiques de documents.

Sommaire

2.1 Introduction . . . . 31

2.2 Mod`eles cognitifs de lecture . . . . 32

2.3 Syst`emes de lecture bas´es sur des principes cognitifs . . . . 33

2.3.1 Le syst`eme Perceptro . . . 34

2.3.2 R´eseau de neurones transparent . . . 42

2.4 Le Perceptron multicouche . . . . 43

2.4.1 Le neurone . . . 43

2.4.2 Topologie en couches . . . 44

2.4.3 Apprentissage . . . 46

2.4.4 Applications . . . 49

2.5 Conclusion . . . . 50

2.1 Introduction

Les approches de reconnaissance de structures logiques de documents vues jusqu’`a pr´esent

sont g´en´eralement fond´ees sur des syst`emes fig´es, `a base de r`egles ou de grammaires. De la

connaissance est introduite par un expert et l’´etape d’analyse repose directement sur ces

in-formations. Bien qu’ils tentent de reproduire une activit´e mentale humaine, aucun n’emploie

une v´eritable mod´elisation cognitive ni une approche perceptive lors de la reconnaissance qui

apporterait un meilleur jugement sur la reconnaissance.

Chapitre 2. R´eseaux de neurones `a repr´esentation locale et utilisation du contexte

Cette orientation a pourtant d´ej`a ´et´e exp´eriment´ee dans le cas de l’´ecriture manuscrite. Notre

motivation `a vouloir employer une approche cognitive nous permettra d’acqu´erir d’une part des

moyens capables de surmonter les limitations des syst`emes conventionnels et d’autre part, de les

faire ´evoluer vers de v´eritables outils de reconnaissance s’adaptant aux diverses variations des

documents.

Le syst`eme que nous proposons s’inspire d’approches bas´ees sur des principes cognitifs

em-prunt´es aux travaux de [McClelland et Rumelhart, 1981] dans lesquels les auteurs cherchent

essentiellement `a imiter le comportement humain, `a mod´eliser des strat´egies adapt´ees qu’ils

em-ploient pour faire coop´erer diff´erents niveaux d’interpr´etation, afin d’am´eliorer les performances

de reconnaissance. Bien que nous nous soyons essentiellement inspir´es des publications de [Cˆot´e

et coll., 1998 ; Cˆot´e, 1997], d’autres r´ef´erences ont travaill´e sur des principes cognitifs similaires

et l’utilisation du contexte.

2.2 Mod`eles cognitifs de lecture

L’´etude de mod`eles cognitifs nous a permis d’acqu´erir les explications sur la fa¸con dont un

lecteur humain fait coop´erer ses connaissances afin d’adapter sa reconnaissance aux diff´erentes

variations que peut prendre une forme.

Classiquement, les travaux en psycholinguistique consid`erent trois niveaux de traitement de

l’information linguistique : le mot, la phrase et le texte. Les contributions sont largement plus

nombreuses pour le plus bas niveau. En effet, l’identification des mots constitue une phase cl´e

des processus impliqu´es dans la lecture ; elle est souvent l’´etape pr´ealable et indispensable aux

syst`emes traitant les informations `a des niveaux plus ´elev´es. Le mot repr´esente l’unit´e de base du

langage ´ecrit, une ´etape charni`ere entre les processus de perception de bas niveau et les processus

cognitifs de haut niveau.

La lecture est une activit´e qui met en jeu de nombreux niveaux de traitement de l’information,

allant de la perception du mot jusqu’aux ph´enom`enes complexes engag´es dans la compr´ehension.

Chaque niveau n´ecessite des investigations pr´ecises. Les processus entrant en jeu sont

g´en´erale-ment si rapides et si automatiques que nous ne sommes pas conscients des ´etapes interm´ediaires

entre le moment o`u les mots sont projet´es sur notre r´etine et le moment o`u nous en comprenons

le sens [Segui, 1991]. Cela dissimule une complexit´e et rend d’autant plus difficile leur abord

exp´erimental.

Il existe cependant une chronologie d’´ev´enements dans le processus qui commence par

l’ex-traction des informations dans la page et qui se termine par la compr´ehension du document.

Entre ces deux ´ev´enements on peut distinguer, suivant les auteurs, trois grandes ´etapes pour

la lecture : l’identification lexicale, l’analyse syntaxique et le calcul s´emantique. Dans [Baccino

et Col´e, 1995] le ph´enom`ene est apparent´e dans sa globalit´e `a un syst`eme de traitement de

l’information (Fig. 2.1).

Diff´erentsprocesseurs sont impliqu´es dans cette chaˆıne comme ceux permettant la

reconnais-sance des formes qui d´etaillent les diff´erentes ´etapes de transformation de l’information. Le rˆole

des diverses m´emoires (diff´erenci´ees par leur dur´ee de persistance et par le type d’information

conserv´ee) est de faciliter le traitement en cours et de conserver `a un moment donn´e le r´esultat

des traitements.

Le mot constitue le point de convergence entre les diff´erents niveaux de repr´esentation tels que

les niveaux visuels, orthographiques, lexicaux, syntaxiques et s´emantiques suppos´es intervenir

dans le traitement du langage ´ecrit. En effet, la lecture d’un mot est une ´etape cl´e qui prend son

importance du fait qu’elle permet l’acc`es au lexique mental [Taft, 1991].

2.3. Syst`emes de lecture bas´es sur des principes cognitifs

Informations sensorielles (stimuli, son, lumière, etc.) Processus spécialisés:

- reconnaissance des formes - information lexicale - traitement syntaxique, sémantique, référentiel Mémoire: - sémantique - sensorielle - de travail Compréhension

Figure 2.1 – Repr´esentation d’un syst`eme humain de traitement de l’information

appli-qu´e au processus de lecture selon [Baccino et Col´e, 1995]

De l’ensemble de ces consid´erations, ressort un point tr`es important, largement d´evelopp´e

par Cˆot´e, qui est la prise en compte du«contexte»que nous retiendrons pour notre syst`eme. Il

est en effet difficile de parler des mod`eles cognitifs sans ´evoquer l’importance du contexte et des

effets contextuels observ´es chez l’homme dans la reconnaissance des formes. La pertinence d’un

mod`ele cognitif est d’ailleurs justement ´evalu´ee en fonction de son aptitude `a rendre compte des

diff´erents effets contextuels observ´es chez l’homme. Dans le cadre de la reconnaissance des mots,

les travaux dont nous nous sommes inspir´es d´eveloppent plus pr´ecis´ement l’effet de la sup´eriorit´e

du mot qui joue dans ce domaine le rˆole de contexte lexical [Reicher, 1969].

2.3 Syst`emes de lecture bas´es sur des principes cognitifs

L’originalit´e des travaux de Cˆot´e vient de l’utilisation d’un mod`ele neuronal, d’autres mises

en œuvre sont possibles partageant les mˆemes id´ees cl´es. [Bramall et Higgins, 1995] proposent

par exemple une approche de reconnaissance des mots inspir´ee du mod`ele des logog`enes propos´e

par [Morton, 1969] et impl´ement´ee par une architecture de type tableau noir. Les donn´ees

sont organis´ees de fa¸con hi´erarchique partant des informations bas niveau qui d´ecrivent les

mouvements du stylo jusqu’aux plus hautes d´esignant des connaissances lexicales. Les sources

de connaissance sont organis´ees ´egalement de fa¸con hi´erarchique et correspondent `a une

ca-ract´eristique particuli`ere. Pour reconnaˆıtre un mot, trois op´erations de filtrage du lexique se

succ`edent : une g´en´eration des mots hypoth´etiques, une r´eduction d’ambigu¨ıt´e g´en´erale entre les

mots candidats et une phase d’´elimination d’ambigu¨ıt´es sp´ecifiques travaillant sur un nombre

limit´e de mots partageant des caract´eristiques similaires. Le r´esultat final de cette phase est une

liste de solutions mots. [Pasquer et coll., 2000] s’inspirent d’un mod`ele d’interpr´etation

multi-contextuelle pour la reconnaissance de l’´ecriture en ligne. Il est emprunt´e `a [Anquetil, 1997] qui

utilisait le mod`ele dans le cadre de la reconnaissance de mots par logique floue, lui-mˆeme inspir´e

du mod`ele d’activation interactive de McClelland et Rumelhart. Les auteurs proposent aussi

une organisation hi´erarchique des niveaux de traitement des informations extraites de l’image du

mot. Deux principes sont mis en œuvre : une organisation hi´erarchique des informations extraites

sur l’image et un processus interactif de circulation des informations entre quatre niveaux (les

mod`eles de lettres hors contexte, les bigrammes de mod`eles de lettres, les bigrammes de lettres

et enfin les mots).

Chapitre 2. R´eseaux de neurones `a repr´esentation locale et utilisation du contexte

2.3.1 Le syst`eme Perceptro

Le travail de th`ese de Cˆot´e se concentre sur une r´eponse g´en´erale au probl`eme de la lecture

au-tomatique de l’´ecriture cursive ; les id´ees cl´es d´evelopp´ees ´etant l’adoption de mod`eles de lecture

et l’exploitation d’informations contextuelles afin d’imiter au mieux l’habilit´e humaine `a lire.