• Aucun résultat trouvé

1.5 Reconnaissance de s´equences num´eriques

1.5.2 Approches `a segmentation implicite

Pour contourner le difficile probl`eme du choix des points de segmentation, les approches `a segmentation implicite (ou continues) consid`erent tous les points du trac´e comme points de segmentation potentiels. La segmentation et la reconnais-sance sont r´ealis´ees conjointement, d’o`u le nom parfois employ´e de (( segmentation-reconnaissance int´egr´ee)). Il s’agit de m´ethodes `a fenˆetres glissantes qui parcourent la s´equence de chiffres `a l’aide d’une fenˆetre de taille fixe, en extrayant des ca-ract´eristiques de bas niveau. L’analyse des fenˆetres est effectu´ee soit par un classifieur classique, soit par des mod`eles dynamiques tels que les mod`eles de Markov cach´es ou les r´eseaux de neurones `a convolution, qui d´eterminent la classe d’appartenance de chaque fenˆetre en fonction des fenˆetres voisines.

M´ethodes `a fenˆetre glissante

Les m´ethodes `a fenˆetre glissante utilisent un classifieur((classique))qui se d´eplace sur la s´equence et prend en entr´ee une fenˆetre d’observation centr´ee pour classer l’´el´ement courant. Pour une fenˆetre de largeur w = 2d+ 1 (d ´el´ements pr´ec´edents, 1 ´el´ement courant etd´el´ements suivants), il s’agit de d´eterminer yi,t avec la fenˆetre

< xi,t−d, . . . , xi,t, . . . , xi,t+d >. Les m´ethodes `a fenˆetre glissante permettent ainsi de prendre en compte le contexte au niveau des observations.

Si ces m´ethodes prennent en compte le contexte au niveau des observations, elles ne permettent pas de prendre en compte les corr´elations entre les ´etiquettes. D’o`u l’introduction des m´ethodes `a fenˆetre glissante r´ecurrente.

Les m´ethodes `a fenˆetre glissante r´ecurrente sont bas´ees sur le mˆeme principe que les m´ethodes `a fenˆetre glissante simple, mais les sorties pr´ec´edentes yi,td. . . yi,t1

sont utilis´ees par le classifieur en plus de la fenˆetre < xi,td, . . . , xi,t, . . . , xi,t+d >

pour d´eterminer yi,t. La r´ecurrence permet de prendre en compte le contexte au niveau des ´etiquettes.

Ces m´ethodes `a fenˆetre glissante r´ecurrente ont le plus souvent ´et´e mises en oeuvre en utilisant des r´eseaux de neurones, en connectant les sorties du r´eseau aux entr´ees de la couche cach´ee (recurrent neural network)

Ce type de r´eseau a ´et´e utilis´e dans de nombreux domaines tels que la recon-naissance de codes postaux manuscrits [LeCun 89], la reconrecon-naissance de la parole

[P´erez-Ortiz 01] ou la cat´egorisation de textes [Wermter 99].

Approches bas´ees sur les mod`eles de Markov cach´es

Depuis les ann´ees 70, les mod`eles de Markov cach´es (Hidden Markov Model : HMM) ont ´et´e utilis´es avec succ`es, en particulier en reconnaissance de la parole [Rabiner 90, Morgan 93] et en reconnaissance de l’´ecriture pour la reconnaissance de mots [El-Yacoubi 02], mais aussi de s´equences num´eriques [Britto 03, Cai 99, Procter 98, Ha 98, Cavalin 06]. Ils permettent une mod´elisation probabiliste effi-cace et poss`edent des algorithmes d’apprentissage automatique performants. ´Etant pr´evus pour la mod´elisation de signaux `a une dimension, ils peuvent ˆetre appliqu´es

`a l’´ecriture manuscrite (signal `a deux dimensions) par le biais d’une fenˆetre glissante d´ecal´ee horizontalement sur la s´equence `a reconnaˆıtre.

Un mod`ele de Markov cach´e est un processus doublement stochastique, constitu´e d’un processus sous-jacent non observable, qui peut ˆetre d´eduit au travers d’un second processus stochastique qui produit des s´equences d’observations. Dans les m´ethodes de reconnaissance de s´equences num´eriques par HMM, on cherche `a mod´eliser la s´equence num´erique par des mod`eles de Markov cach´es. La couche cach´ee du mod`ele est illustr´ee par la s´equence d’´etiquettes de chiffres constituant la s´equence, et la couche observable correspond `a une s´equence d’observations que l’extraction de caract´eristiques fournira `a partir de la fenˆetre glissante.

Dans la mod´elisation par HMM, le processus cach´e est constitu´e d’un jeu d’´etats interconnect´es par des transitions dot´ees chacune d’une distribution de probabilit´e.

Le processus observable consiste en un jeu de sorties (observations), qui peuvent ˆetre

´emises par chaque ´etat selon une fonction de densit´e de probabilit´e. On d´efinit donc deux matrices pour d´ecrire le mod`ele : une matrice de probabilit´es de transitions entre les ´etats et une matrice des probabilit´es d’observation des symboles.

Les mod`eles de Markov cach´es peuvent ˆetre discrets si les observations appar-tiennent `a un alphabet fini de symboles, ou continus si les observations sont conti-nues. En reprenant le formalisme de Rabiner [Rabiner 90], un mod`ele de Markov cach´e discret se d´efinit donc par les ´el´ements suivants :

– Un ensemble deN ´etats S1, S2, . . . , SN.

– M, le nombre de symboles distincts par ´etat. Soit V l’ensemble de ces sym-boles : V ={v1, . . . , vM}

– La matrice des probabilit´es de transition entre les ´etatsA={aij}. Siqt d´esigne l’´etat courant au temps t, on a :

aij =P(qt+1=Sj |qt =Si), 1≤i, j ≤N

– La distribution de probabilit´e d’observation des symboles `a l’´etat j, bj(k) = P(Ot |qj), o`u

bj(k) =P[vk en t|qt =Sj],1≤j ≤N,1≤k ≤M – La matrice des distributions des ´etats initiauxπ :

1.5 Reconnaissance de s´equences num´eriques 45

πi =P(q1=Si), 1≤i≤N

On d´efinit donc compl`etement un HMM en sp´ecifiant les deux param`etres du mod`ele :N et M, ainsi que les trois matrices de probabilit´eA, B et π. On note ce mod`ele Λ = (A, B, π)

Pour les mod`eles de Markov continus, les probabilit´es d’´emission des symboles bj(k) sont mod´elis´ees soit par des m´elanges de gaussiennes dont les param`etres sont estim´es lors de l’apprentissage du mod`ele [Vinciarelli 04], soit obtenues `a partir des probabilit´es a posteriori P(qj | Ot) fournies par un classifieur. C’est le cas des approches neuro-markoviennes (voir section 1.5.3).

Phase de d´ecision : En d´ecision, le probl`eme est le suivant : ´etant donn´e la s´equence d’observationO =O1, . . . , OT et le mod`eleλ, quelle est la s´equence d’´etats Q=q1, . . . , qT la plus probable ? Le premier probl`eme consiste donc `a d´ecouvrir la partie cach´ee du mod`ele. La recherche de la meilleure s´equence d’´etiquettes au sens d’une s´equence d’observations et d’un mod`ele est particuli`erement gourmande en calculs. On utilise donc un algorithme d’optimisation appel´e algorithme de Viterbi [Forney 73]. Cet algorithme, issu de la programmation dynamique, repose sur le principe d’optimalit´e suivant : le meilleur chemin pour aller de t = 0 `a t = N est compos´e du meilleur chemin pour aller de t= 0 `a t=N −1 et du meilleur chemin pour aller de t= N −1 `a t =N. L’algorithme de Viterbi consiste ainsi `a calculer pour toutes les ´etiquettes et pour tous les instantstla probabilit´e du meilleur chemin amenant `a l’´etat courant, compte tenu des premi`eres observations.

Phase d’apprentissage : Lors de l’apprentissage du mod`ele, le probl`eme est le suivant : comment ajuster les param`etres du mod`ele Λ = (A, B, π) pour maximiser P(O|Λ) ? Il n’existe pas de m´ethode analytique pour r´esoudre ce probl`eme. En effet, pour un ensemble de s´equences d’observations Ω constituant l’ensemble d’apprentis-sage, il n’existe pas de m´ethode optimale pour estimer directement les param`etres du mod`ele. On dispose cependant de m´ethodes it´eratives telles que la m´ethode de Baum-Welch [Rabiner 90] qui permettent d’affiner le mod`ele par r´eestimations successives jusqu’`a obtention d’un mod`ele localement optimal. Celle-ci permet de d´eterminer un mod`ele Λ = (A, B, π) qui maximise localementP(Ω|Λ).

Signalons que des pseudo HMM `a deux dimensions pour la reconnaissance de montants num´erique ont ´et´e propos´es dans [Bippus 97]. Afin d’am´eliorer la mod´elisation des s´equences num´eriques, des dur´ees d’´etat diff´erentes sont utilis´ees dans [Cai 99].

Grˆace au cadre probabiliste qu’ils offrent ainsi qu’`a l’existence d’un algorithme d’apprentissage efficace, les HMM sont un outil de mod´elisation de s´equence perfor-mant pour la reconnaissance d’´ecriture. S’ils solutionnent en partie le probl`eme de la segmentation des caract`eres, les HMM souffrent toutefois d’une capacit´e de discri-mination plus faible que les m´ethodes de segmentation explicite mettant en œuvre un classifieur. Partant de ce constat, la combinaison des approches `a segmentation explicite avec des HMM ont ´et´e explor´e, soit par des approches neuro-markovienne, soit par une combinaison s´equentielle des deux approches (voir section 1.5.3).

Approches bas´ees sur les r´eseaux de neurones `a convolution

Certaines architectures connexionnistes dites((`a convolution)) permettent l’ana-lyse de s´equences. Dans les r´eseaux de neurones multicouches ((classiques)) (MLP, RBF, voir section 1.2.3.3), chaque neurone est connect´e `a tous les neurones de la couche pr´ec´edente. Dans les r´eseaux `a convolution, un neurone est seulement connect´e `a un sous-ensemble de neurones de la couche pr´ec´edente [Poisson 05]. Ainsi, selon Bengio [Bengio 95], on peut voir chaque neurone comme un ((d´etecteur de ca-ract´eristique local dont la fonction est determin´ee par le processus d’apprentissage)). Selon [Poisson 05], il existe deux types de r´eseaux `a convolutions : les TDNN (Time Delay Neural Network), et les SDNN (Space Displacement Neural Network).

Le TDNN est un r´eseau `a d´elai utilis´e pour les donn´ees de nature s´equentielle (une dimension), alors que l’architecture des SDNN est adapt´ee `a des donn´ees `a deux dimensions. Le SDNN est une g´en´eralisation du TDNN `a une topologie 2D. Dans le cadre de la reconnaissance de l’´ecriture, le TDNN permet donc un d´ecalage horizontal d’une fenˆetre de hauteur la taille de la s´equence, dont les pixels sont les entr´ees du r´eseau. Le SDNN permet un d´ecalage horizontal et vertical de la fenˆetre sur les caract`eres `a reconnaˆıtre. L’apprentissage de ces r´eseaux `a convolution est r´ealis´e par une g´en´eralisation de l’algorithme de r´etropropagation du gradient `a des r´eseaux aux connexions locales.

Un classifieur de type TDNN est utilis´e pour la reconnaissance de s´equences dans [Martin 93]. Un r´eseau de neurones `a 2 couches cach´ees et poids partag´es est entrain´e sur 11 classes (10 chiffres + non chiffre). En phase de d´ecision, la fenˆetre est d´eplac´ee exhaustivement sur l’image et une des sorties chiffre s’active lorsqu’un caract`ere centr´e lui est pr´esent´e.

Dans [Matan 92], un classifieur chiffre SDNN est utilis´e pour la reconnaissance de s´equences num´eriques. L’algorithme de Viterbi est coupl´e `a la derni`ere couche du r´eseau pour d´ecider de la meilleure interpr´etation des entr´ees. La segmentation est effectu´ee dans les couches de caract´eristiques (((features maps))). Un SDNN est

´egalement utilis´e par Lecun [LeCun 98] pour la reconnaissance de codes postaux. Le SDNN est compos´e de 5 couches dont la premi`ere extrait 20 primitives diff´erentes `a plusieurs localisations diff´erentes sur l’image d’entr´ee.

Les r´eseaux de neurones `a convolution semblent tr`es s´eduisants : apprentissage automatique des extracteurs de caract´eristiques, abstraction de la position des ca-ract`eres, r´esistance aux rejets. Ils restent cependant peu utilis´es en reconnaissance de l’´ecriture manuscrite, certainement `a cause de la difficult´e `a param´etrer de tels classifieurs. En effet, un certain nombre de param`etres doivent ˆetre r´egl´es en plus des traditionnels param`etres des r´eseaux de neurones (voir section 1.2.3.3) : dimen-sionnement de la fenˆetre et des couches de convolutions, d´elai.

1.5.3 Combinaison des approches