indices physiques n’est pas de bonne qualit´e. Les plus cit´ees utilisent des approches bas´ees sur
le mod`ele et entreprennent, pour couvrir la forte variabilit´e des documents, multiplier le nombre
de r`egles pour les syst`emes les plus simples ou multiplier le nombre de r`egles de productions
pour les syst`emes `a base de grammaires.
Les m´ethodes dirig´ees par le mod`ele sont d´ependantes d’un expert qui a l’obligation de
formaliser les relations entre les observations physiques et les interpr´etations logiques
correspon-dantes. Elles sont aussi sensibles `a la qualit´e des observations mais ´egalement au changement de
classe de document ; une modification mˆeme mineure au niveau de la classe de document peut
entraˆıner une baisse des r´esultats de reconnaissance pour les moins flexibles d’entre elles. Elles
ne proposent d’ailleurs pas toujours un score de confiance sur les r´esultats et un traitement du
rejet est donc plus difficile `a entreprendre.
Pour pallier les probl`emes d’adaptabilit´e entre d’une part un mod`ele g´en´erique de document
et d’autre part les donn´ees bruit´ees provenant de l’analyse physique, certains auteurs utilisent
un apprentissage au sein de la m´ethode. Les moins avanc´ees se limitent `a une interactivit´e
lors de la cr´eation de fonds de v´erit´e ou lors de la correction apr`es la reconnaissance. Celles
utilisant r´eellement un apprentissage le font bien souvent indirectement sur le document car
l’apprentissage sert `a trouver les r`egles ou fixer les param`etres d’un syst`eme de type dirig´e par
le mod`ele. D’apr`es notre connaissance, aucun syst`eme exclusivement dirig´e par les donn´ees ne
semble s’ˆetre impos´e pour l’analyse de la structure logique alors que ce type d’approche est
largement employ´e lors de l’analyse de la structure physique.
Nous avons aussi remarqu´e une tr`es faible utilisation des m´ethodes neuronales qui sont
pourtant capables d’apprentissage et tr`es pr´esentes dans les ´etapes pr´ec´edant l’analyse logique.
Leur absence doit s’expliquer en partie par le fait qu’elles se prˆetent mieux `a des probl`emes
provenant du traitement du signal et que les m´ethodes classiquement employ´ees ne sont pas
sp´ecialement con¸cues pour traiter des donn´ees structur´ees [Marinai et coll., 2005]. La
construc-tion de documents de v´erit´e est une tˆache longue et fastidieuse et doit se faire au moins en
partie manuellement. Il est donc compr´ehensible que les solutions dirig´ees par le mod`ele soient
privil´egi´ees car il semble plus naturel de vouloir utiliser un processus inverse `a celui qui a permis
la synth`ese du document et qu’il est d’autant plus simple d’´ecrire dans ces formalismes des
connaissances a priori.
Le but que nous nous sommes fix´es pour la th`ese est l’´elaboration d’une m´ethode autonome
capable d’´etablir seule les relations entre les observations de la structure physique et les ´el´ements
de la structure logique. Au vu des travaux d´ej`a men´es, il ne nous paraˆıt pas pertinent d’utiliser
une m´ethode reposant exclusivement sur une approche dirig´ee par le mod`ele. Il est cependant
1.7. Conclusion
utile et certainement n´ecessaire de conserver les atouts de cette derni`ere comme l’int´egration de
connaissances a priori. Il ne sera donc pas possible d’utiliser une m´ethode neuronale classique
pour r´esoudre le probl`eme.
Avant de d´etailler les fondements de notre m´ethode, nous allons montrer au cours du chapitre
suivant l’int´erˆet et les capacit´es des m´ethodes neuronales en nous int´eressant particuli`erement au
syst`eme `a repr´esentation locale de [Cˆot´e, 1997] qui permet l’int´egration de concepts et effectue
une reconnaissance perceptive des formes ainsi qu’au Perceptron multicouche qui nous permettra
d’´etendre le r´eseau des pr´ec´edents auteurs `a un fonctionnement plus dirig´e par les donn´ees.
Chapitre 2
R´eseaux de neurones `a
repr´esentation locale et utilisation
du contexte
L
es syst`emes de reconnaissance de structures logiques de documents propos´es par la litt´erature
sont principalement dirig´es par un mod`ele et ne sont pas suffisamment flexibles et
g´en´e-riques pour traiter des images de documents complexes. Bien qu’ils tentent de reproduire
une activit´e mentale de lecture, aucun n’utilise une v´eritable mod´elisation cognitive. En partant
de constatations de psychologues sur les mod`eles de lecture [McClelland et Rumelhart, 1981] et
d’une impl´ementation par [Cˆot´e, 1997], nous verrons comment ´etendre un mod`ele cognitif de
lecture de mots `a la reconnaissance de structures logiques de documents.
Sommaire
2.1 Introduction . . . . 31
2.2 Mod`eles cognitifs de lecture . . . . 32
2.3 Syst`emes de lecture bas´es sur des principes cognitifs . . . . 33
2.3.1 Le syst`eme Perceptro . . . 34
2.3.2 R´eseau de neurones transparent . . . 42
2.4 Le Perceptron multicouche . . . . 43
2.4.1 Le neurone . . . 43
2.4.2 Topologie en couches . . . 44
2.4.3 Apprentissage . . . 46
2.4.4 Applications . . . 49
2.5 Conclusion . . . . 50
2.1 Introduction
Les approches de reconnaissance de structures logiques de documents vues jusqu’`a pr´esent
sont g´en´eralement fond´ees sur des syst`emes fig´es, `a base de r`egles ou de grammaires. De la
connaissance est introduite par un expert et l’´etape d’analyse repose directement sur ces
in-formations. Bien qu’ils tentent de reproduire une activit´e mentale humaine, aucun n’emploie
une v´eritable mod´elisation cognitive ni une approche perceptive lors de la reconnaissance qui
apporterait un meilleur jugement sur la reconnaissance.
Chapitre 2. R´eseaux de neurones `a repr´esentation locale et utilisation du contexte
Cette orientation a pourtant d´ej`a ´et´e exp´eriment´ee dans le cas de l’´ecriture manuscrite. Notre
motivation `a vouloir employer une approche cognitive nous permettra d’acqu´erir d’une part des
moyens capables de surmonter les limitations des syst`emes conventionnels et d’autre part, de les
faire ´evoluer vers de v´eritables outils de reconnaissance s’adaptant aux diverses variations des
documents.
Le syst`eme que nous proposons s’inspire d’approches bas´ees sur des principes cognitifs
em-prunt´es aux travaux de [McClelland et Rumelhart, 1981] dans lesquels les auteurs cherchent
essentiellement `a imiter le comportement humain, `a mod´eliser des strat´egies adapt´ees qu’ils
em-ploient pour faire coop´erer diff´erents niveaux d’interpr´etation, afin d’am´eliorer les performances
de reconnaissance. Bien que nous nous soyons essentiellement inspir´es des publications de [Cˆot´e
et coll., 1998 ; Cˆot´e, 1997], d’autres r´ef´erences ont travaill´e sur des principes cognitifs similaires
et l’utilisation du contexte.
2.2 Mod`eles cognitifs de lecture
L’´etude de mod`eles cognitifs nous a permis d’acqu´erir les explications sur la fa¸con dont un
lecteur humain fait coop´erer ses connaissances afin d’adapter sa reconnaissance aux diff´erentes
variations que peut prendre une forme.
Classiquement, les travaux en psycholinguistique consid`erent trois niveaux de traitement de
l’information linguistique : le mot, la phrase et le texte. Les contributions sont largement plus
nombreuses pour le plus bas niveau. En effet, l’identification des mots constitue une phase cl´e
des processus impliqu´es dans la lecture ; elle est souvent l’´etape pr´ealable et indispensable aux
syst`emes traitant les informations `a des niveaux plus ´elev´es. Le mot repr´esente l’unit´e de base du
langage ´ecrit, une ´etape charni`ere entre les processus de perception de bas niveau et les processus
cognitifs de haut niveau.
La lecture est une activit´e qui met en jeu de nombreux niveaux de traitement de l’information,
allant de la perception du mot jusqu’aux ph´enom`enes complexes engag´es dans la compr´ehension.
Chaque niveau n´ecessite des investigations pr´ecises. Les processus entrant en jeu sont
g´en´erale-ment si rapides et si automatiques que nous ne sommes pas conscients des ´etapes interm´ediaires
entre le moment o`u les mots sont projet´es sur notre r´etine et le moment o`u nous en comprenons
le sens [Segui, 1991]. Cela dissimule une complexit´e et rend d’autant plus difficile leur abord
exp´erimental.
Il existe cependant une chronologie d’´ev´enements dans le processus qui commence par
l’ex-traction des informations dans la page et qui se termine par la compr´ehension du document.
Entre ces deux ´ev´enements on peut distinguer, suivant les auteurs, trois grandes ´etapes pour
la lecture : l’identification lexicale, l’analyse syntaxique et le calcul s´emantique. Dans [Baccino
et Col´e, 1995] le ph´enom`ene est apparent´e dans sa globalit´e `a un syst`eme de traitement de
l’information (Fig. 2.1).
Diff´erentsprocesseurs sont impliqu´es dans cette chaˆıne comme ceux permettant la
reconnais-sance des formes qui d´etaillent les diff´erentes ´etapes de transformation de l’information. Le rˆole
des diverses m´emoires (diff´erenci´ees par leur dur´ee de persistance et par le type d’information
conserv´ee) est de faciliter le traitement en cours et de conserver `a un moment donn´e le r´esultat
des traitements.
Le mot constitue le point de convergence entre les diff´erents niveaux de repr´esentation tels que
les niveaux visuels, orthographiques, lexicaux, syntaxiques et s´emantiques suppos´es intervenir
dans le traitement du langage ´ecrit. En effet, la lecture d’un mot est une ´etape cl´e qui prend son
importance du fait qu’elle permet l’acc`es au lexique mental [Taft, 1991].
2.3. Syst`emes de lecture bas´es sur des principes cognitifs
Informations sensorielles (stimuli, son, lumière, etc.) Processus spécialisés:- reconnaissance des formes - information lexicale - traitement syntaxique, sémantique, référentiel Mémoire: - sémantique - sensorielle - de travail Compréhension
Figure 2.1 – Repr´esentation d’un syst`eme humain de traitement de l’information
appli-qu´e au processus de lecture selon [Baccino et Col´e, 1995]
De l’ensemble de ces consid´erations, ressort un point tr`es important, largement d´evelopp´e
par Cˆot´e, qui est la prise en compte du«contexte»que nous retiendrons pour notre syst`eme. Il
est en effet difficile de parler des mod`eles cognitifs sans ´evoquer l’importance du contexte et des
effets contextuels observ´es chez l’homme dans la reconnaissance des formes. La pertinence d’un
mod`ele cognitif est d’ailleurs justement ´evalu´ee en fonction de son aptitude `a rendre compte des
diff´erents effets contextuels observ´es chez l’homme. Dans le cadre de la reconnaissance des mots,
les travaux dont nous nous sommes inspir´es d´eveloppent plus pr´ecis´ement l’effet de la sup´eriorit´e
du mot qui joue dans ce domaine le rˆole de contexte lexical [Reicher, 1969].
2.3 Syst`emes de lecture bas´es sur des principes cognitifs
L’originalit´e des travaux de Cˆot´e vient de l’utilisation d’un mod`ele neuronal, d’autres mises
en œuvre sont possibles partageant les mˆemes id´ees cl´es. [Bramall et Higgins, 1995] proposent
par exemple une approche de reconnaissance des mots inspir´ee du mod`ele des logog`enes propos´e
par [Morton, 1969] et impl´ement´ee par une architecture de type tableau noir. Les donn´ees
sont organis´ees de fa¸con hi´erarchique partant des informations bas niveau qui d´ecrivent les
mouvements du stylo jusqu’aux plus hautes d´esignant des connaissances lexicales. Les sources
de connaissance sont organis´ees ´egalement de fa¸con hi´erarchique et correspondent `a une
ca-ract´eristique particuli`ere. Pour reconnaˆıtre un mot, trois op´erations de filtrage du lexique se
succ`edent : une g´en´eration des mots hypoth´etiques, une r´eduction d’ambigu¨ıt´e g´en´erale entre les
mots candidats et une phase d’´elimination d’ambigu¨ıt´es sp´ecifiques travaillant sur un nombre
limit´e de mots partageant des caract´eristiques similaires. Le r´esultat final de cette phase est une
liste de solutions mots. [Pasquer et coll., 2000] s’inspirent d’un mod`ele d’interpr´etation
multi-contextuelle pour la reconnaissance de l’´ecriture en ligne. Il est emprunt´e `a [Anquetil, 1997] qui
utilisait le mod`ele dans le cadre de la reconnaissance de mots par logique floue, lui-mˆeme inspir´e
du mod`ele d’activation interactive de McClelland et Rumelhart. Les auteurs proposent aussi
une organisation hi´erarchique des niveaux de traitement des informations extraites de l’image du
mot. Deux principes sont mis en œuvre : une organisation hi´erarchique des informations extraites
sur l’image et un processus interactif de circulation des informations entre quatre niveaux (les
mod`eles de lettres hors contexte, les bigrammes de mod`eles de lettres, les bigrammes de lettres
et enfin les mots).
Chapitre 2. R´eseaux de neurones `a repr´esentation locale et utilisation du contexte
2.3.1 Le syst`eme Perceptro
Le travail de th`ese de Cˆot´e se concentre sur une r´eponse g´en´erale au probl`eme de la lecture
au-tomatique de l’´ecriture cursive ; les id´ees cl´es d´evelopp´ees ´etant l’adoption de mod`eles de lecture
et l’exploitation d’informations contextuelles afin d’imiter au mieux l’habilit´e humaine `a lire.
Dans le document
Réseau de neurones dynamique perceptif - Application à la reconnaissance de structures logiques de documents
(Page 49-55)