A partir de travaux men´es sur la perception humaine lors de la reconnaissance de l’´ecriture,
nous avons utilis´e le mod`ele d’activation interactive de [McClelland et Rumelhart, 1981] pour
construire notre propre r´eseau de neurones. L’architecture et le fonctionnement de ce dernier
sont similaires `a ceux du syst`eme Perceptro de [Cˆot´e, 1997], repris par [Snoussi Maddouri, 2003]
plus tard. Des changements n´ecessaires ont ´et´e effectu´es pour adapter l’existant au probl`eme
de reconnaissance de structures logiques de documents, notamment le choix de primitives ainsi
que l’organisation et la s´emantique des neurones dans le r´eseau. L’analyse contextuelle utilise
d´esormais la nature hi´erarchique de la structure logique pour organiser les couches composant
le contexte. Le principe des cycles perceptifs a aussi ´et´e conserv´e et nous avons choisi de nous
concentrer sur la correction de la segmentation qui s’av`ere ˆetre la source majeure des probl`emes
rencontr´es.
Partant de donn´ees bruit´ees, nous n’avons ni gard´e la fonction d’activation `a saturation, ni la
mani`ere de fixer les poids des pr´ec´edents auteurs ; nous avons propos´e un apprentissage, proche
de celui du Perceptron multicouche, permettant au r´eseau de d´eterminer lui-mˆeme les relations
entre les observations physiques et les interpr´etations logiques. Le r´eseau modifi´e, que nous avons
nomm´e r´eseau de neurones perceptif, est plus apte `a traiter des donn´ees d’entr´ee imparfaites.
Il conserve une architecture `a repr´esentation locale avec int´egration de connaissances dans les
neurones tout en ayant une forte pr´edominance data-driven. La d´etection d’ambigu¨ıt´e et la
correction de la segmentation ont aussi ´et´e revues pour ˆetre en ad´equation avec le nouveau
fonctionnement du r´eseau.
Les am´eliorations apport´ees au r´eseau de neurones perceptif font de lui une solution hybride
entre une m´ethodedata-drivenetmodel-driven avec une architecture `a mi-chemin entre
repr´esen-tation locale et repr´esenrepr´esen-tation distribu´ee. Les r´esultats obtenus sur notre base de test confortent
le fait que le choix d’une approche perceptive pour notre probl`eme est tout aussi profitable que
dans le cas de la reconnaissance du manuscrit. Si l’on compare les r´esultats obtenus `a ceux
d’exp´erimentations similaires pr´esent´ees au chapitre 1 on s’approche de r´esultats comme ceux
Chapitre 3. R´eseau de neurones perceptif
de [Ishitani, 1999] ou de [Kim et coll., 2001] en notant toutefois que la majorit´e n’utilise pas
autant de structures que nous (en moyenne 7 contre 21 chez nous) et qu’elles consid`erent aussi
que les donn´ees sont parfaites. Nous n’utilisons d’ailleurs que tr`es peu d’informations concernant
la microstructure contrairement `a ce que la litt´erature propose, et nous avons insist´e sur le fait
que tous nos indices d´ependent principalement d’un seul et mˆeme OCR commercial. Le but de la
comparaison que nous avons faite avec le PMC est de montrer le gain potentiel de reconnaissance
que le r´eseau de neurones perceptif peut apporter `a une approche tr`es peu employ´ee dans la
litt´erature.
Le gain de reconnaissance que nous obtenons se fait au d´etriment d’un allongement du
temps de reconnaissance. La correction des entr´ees ou la validation d’hypoth`eses peut n´ecessiter
plusieurs extractions des indices physiques. De plus, l’allongement peut en th´eorie ˆetre multipli´e
par le nombre de cycles perceptifs utilis´e si tous les blocs, `a chaque passage, ont besoin d’une
nouvelle extraction. Nous estimons que pour notre base de documents scientifiques, le nombre
d’extractions suppl´ementaires est multipli´e par deux pour le troisi`eme cycle perceptif pour
lequel on obtient d´ej`a de meilleurs r´esultats qu’avec un Perceptron multicouche. Nous allons
montrer au prochain chapitre comment diminuer ce temps de reconnaissance en limitant les
extractions physiques inutiles. L’id´ee d´evelopp´ee consistera `a cr´eer une partition des entr´ees
servant `a alimenter progressivement le r´eseau par des groupes de variables, et `a n’utiliser les
extractions lourdes que si la forme est difficile `a reconnaˆıtre.
Chapitre 4
M´ethode de partitionnement
A
u cours du pr´ec´edent chapitre, nous avons expos´e le fonctionnement du r´eseau de neurones
perceptif en nous focalisant sur sa topologie, son apprentissage et sa reconnaissance
sin-guli`ere par correction des entr´ees et validation des sorties. Nous allons montrer dans ce
chapitre comment les cycles perceptifs, qui sont l’atout majeur du r´eseau, peuvent ˆetre effectu´es
plus rapidement et rendre le syst`eme encore plus proche de la vision humaine. Le partitionnement
des variables d’entr´ee que nous proposons, issu d’approches de s´election et de r´eduction de
donn´ees, permettra de conserver tous les concepts et les propri´et´es vues jusqu’`a pr´esent tout en
r´eduisant la charge de travail au niveau de l’extraction des indices physiques.
Sommaire
4.1 R´eseau de neurones perceptif et temps de reconnaissance . . . 73
4.2 Acc´el´eration de la reconnaissance . . . . 74
4.3 M´ethodes diminuant la taille de l’entr´ee . . . . 76
4.3.1 La s´election de variables . . . 76
4.3.2 Classement de variables . . . 76
4.3.3 S´election de sous-ensembles de variables . . . 78
4.3.4 R´eduction de donn´ees . . . 80
4.4 Partitionnement de l’espace d’entr´ee . . . . 83
4.4.1 Contraintes sur le choix de la m´ethode `a proposer . . . 83
4.4.2 Justification de la m´ethode . . . 85
4.4.3 Algorithme de la m´ethode . . . 87
4.4.4 Choix de la dimension du sous-espace . . . 91
4.5 Exp´erimentations . . . . 93
4.6 Conclusion . . . 100
4.1 R´eseau de neurones perceptif et temps de reconnaissance
Il est de plus en plus fr´equent que des travaux manipulant `a la fois un grand nombre de
donn´ees et de variables aient recours `a des techniques de r´eduction de l’espace d’entr´ee. Les
syst`emes sont alors aliment´es par des ensembles de taille beaucoup moins importante mais tout
aussi informatifs et peuvent ensuite traiter avec plus de facilit´e le flot de donn´ees.
Chapitre 4. M´ethode de partitionnement
Les syst`emes de reconnaissance d´ependent g´en´eralement, en complexit´e, de la taille des
entr´ees `a traiter. Que ce soit au niveau de la complexit´e temporelle ou spatiale, ils sont rarement
lin´eaires et toute r´eduction de l’espace d’entr´ee, mˆeme minime, peut entraˆıner des gains non
n´egligeables en termes de temps ou de place m´emoire. Ces gains sont d’autant plus appr´eciables
pour des syst`emes polynomiaux ou exponentiels.
Dans notre syst`eme de reconnaissance de structures logiques de documents, nous avons port´e
notre choix sur une solution `a base de Perceptron multicouche. L’une des contraintes majeures
de ce type de classifieur vient du fait que plus l’entr´ee d’un r´eseau est grande, plus le temps de
reconnaissance et surtout d’apprentissage est long.
La complexit´e d’un PMC est polynomiale en son nombre de poids n. Elle d´epend aussi du
nombre de neurones k pr´esents dans le r´eseau, ce qui au final donne une complexit´e moyenne
en O(kn
3). Il faut aussi noter que le nombre de neuronesk peut lui aussi ˆetre grand. En effet,
comme ´evoqu´e en sous-section 2.4 p. 43, certains probl`emes n´ecessitent un nombre exponentiel
de neurones pour ˆetre r´esolus avec une seule couche cach´ee. Mˆeme s’il est toujours possible
de transformer ce type de r´eseau sur plusieurs couches, le nombre de neurones sera quand
mˆeme polynomial en son nombre d’entr´ees. Selon la nature du probl`eme `a r´esoudre, derri`ere la
constantekse trouvant dans la complexit´e du PMC, se cache un nombre qui peut aussi croˆıtre
fortement quand la taille de l’entr´ee et la complexit´e du probl`eme augmentent. Ces consid´erations
sont `a envisager dans le pire des cas ; il n’en reste pas moins que la reconnaissance et surtout
l’apprentissage d’un PMC requi`erent un temps de calcul extrˆemement long bien que chaque
traitement au niveau du neurone soit ´el´ementaire.
4.2 Acc´el´eration de la reconnaissance
Les seuls moyens permettant de r´eduire de mani`ere significative ce temps polynomial sont
Dans le document
Réseau de neurones dynamique perceptif - Application à la reconnaissance de structures logiques de documents
(Page 92-95)