Approches à segmentation implicite - Reconnaissance de séquences numériques

1.5 Reconnaissance de s´equences num´eriques

1.5.2 Approches `a segmentation implicite

Pour contourner le difficile problème du choix des points de segmentation, les approches à segmentation implicite (ou continues) considèrent tous les points du tracé comme points de segmentation potentiels. La segmentation et la reconnais-sance sont réalisées conjointement, d’où le nom parfois employé de (( segmentation-reconnaissance intégrée)). Il s’agit de méthodes à fenêtres glissantes qui parcourent la séquence de chiffres à l’aide d’une fenêtre de taille fixe, en extrayant des ca-ractéristiques de bas niveau. L’analyse des fenêtres est effectuée soit par un classifieur classique, soit par des modèles dynamiques tels que les modèles de Markov cachés ou les réseaux de neurones à convolution, qui déterminent la classe d’appartenance de chaque fenêtre en fonction des fenêtres voisines.

Méthodes à fenêtre glissante

Les méthodes à fenêtre glissante utilisent un classifieur((classique))qui se déplace sur la séquence et prend en entrée une fenêtre d’observation centrée pour classer l’élément courant. Pour une fenêtre de largeur w = 2d+ 1 (d éléments précédents, 1 élément courant etdéléments suivants), il s’agit de déterminer yi,t avec la fenêtre

< x_i,t−d, . . . , xi,t, . . . , x_i,t+d >. Les méthodes à fenêtre glissante permettent ainsi de prendre en compte le contexte au niveau des observations.

Si ces méthodes prennent en compte le contexte au niveau des observations, elles ne permettent pas de prendre en compte les corrélations entre les étiquettes. D’où l’introduction des méthodes à fenêtre glissante récurrente.

Les méthodes à fenêtre glissante récurrente sont basées sur le même principe que les méthodes à fenêtre glissante simple, mais les sorties précédentes yi,t−d. . . yi,t−1

sont utilis´ees par le classifieur en plus de la fenˆetre < x_i,t₋_d, . . . , x_i,t, . . . , x_i,t+d >

pour déterminer yi,t. La récurrence permet de prendre en compte le contexte au niveau des étiquettes.

Ces méthodes à fenêtre glissante récurrente ont le plus souvent été mises en oeuvre en utilisant des réseaux de neurones, en connectant les sorties du réseau aux entrées de la couche cachée (recurrent neural network)

Ce type de réseau a été utilisé dans de nombreux domaines tels que la recon-naissance de codes postaux manuscrits [LeCun 89], la reconrecon-naissance de la parole

[P´erez-Ortiz 01] ou la cat´egorisation de textes [Wermter 99].

Approches basées sur les modèles de Markov cachés

Depuis les années 70, les modèles de Markov cachés (Hidden Markov Model : HMM) ont été utilisés avec succès, en particulier en reconnaissance de la parole [Rabiner 90, Morgan 93] et en reconnaissance de l’écriture pour la reconnaissance de mots [El-Yacoubi 02], mais aussi de séquences numériques [Britto 03, Cai 99, Procter 98, Ha 98, Cavalin 06]. Ils permettent une modélisation probabiliste effi-cace et possèdent des algorithmes d’apprentissage automatique performants. Étant prévus pour la modélisation de signaux à une dimension, ils peuvent être appliqués

à l’écriture manuscrite (signal à deux dimensions) par le biais d’une fenêtre glissante décalée horizontalement sur la séquence à reconnaˆıtre.

Un modèle de Markov caché est un processus doublement stochastique, constitué d’un processus sous-jacent non observable, qui peut être déduit au travers d’un second processus stochastique qui produit des séquences d’observations. Dans les méthodes de reconnaissance de séquences numériques par HMM, on cherche à modéliser la séquence numérique par des modèles de Markov cachés. La couche cachée du modèle est illustrée par la séquence d’étiquettes de chiffres constituant la séquence, et la couche observable correspond à une séquence d’observations que l’extraction de caractéristiques fournira à partir de la fenêtre glissante.

Dans la modélisation par HMM, le processus caché est constitué d’un jeu d’états interconnectés par des transitions dotées chacune d’une distribution de probabilité.

Le processus observable consiste en un jeu de sorties (observations), qui peuvent ˆetre

émises par chaque état selon une fonction de densité de probabilité. On définit donc deux matrices pour décrire le modèle : une matrice de probabilités de transitions entre les états et une matrice des probabilités d’observation des symboles.

Les modèles de Markov cachés peuvent être discrets si les observations appar-tiennent à un alphabet fini de symboles, ou continus si les observations sont conti-nues. En reprenant le formalisme de Rabiner [Rabiner 90], un modèle de Markov caché discret se définit donc par les éléments suivants :

– Un ensemble deN ´etats S1, S2, . . . , SN.

– M, le nombre de symboles distincts par ´etat. Soit V l’ensemble de ces sym-boles : V ={v1, . . . , v_M}

– La matrice des probabilités de transition entre les étatsA={aij}. Siqt désigne l’état courant au temps t, on a :

a_ij =P(q_t+1=S_j |q_t =S_i), 1≤i, j ≤N

– La distribution de probabilité d’observation des symboles à l’état j, bj(k) = P(Ot |qj), où

bj(k) =P[v_k en t|qt =Sj],1≤j ≤N,1≤k ≤M – La matrice des distributions des ´etats initiauxπ :

1.5 Reconnaissance de s´equences num´eriques 45

πi =P(q1=Si), 1≤i≤N

On définit donc complètement un HMM en spécifiant les deux paramètres du modèle :N et M, ainsi que les trois matrices de probabilitéA, B et π. On note ce modèle Λ = (A, B, π)

Pour les modèles de Markov continus, les probabilités d’émission des symboles b_j(k) sont modélisées soit par des mélanges de gaussiennes dont les paramètres sont estimés lors de l’apprentissage du modèle [Vinciarelli 04], soit obtenues à partir des probabilités a posteriori P(qj | Ot) fournies par un classifieur. C’est le cas des approches neuro-markoviennes (voir section 1.5.3).

Phase de décision : En décision, le problème est le suivant : étant donné la séquence d’observationO =O1, . . . , O_T et le modèleλ, quelle est la séquence d’états Q=q1, . . . , qT la plus probable ? Le premier problème consiste donc à découvrir la partie cachée du modèle. La recherche de la meilleure séquence d’étiquettes au sens d’une séquence d’observations et d’un modèle est particulièrement gourmande en calculs. On utilise donc un algorithme d’optimisation appelé algorithme de Viterbi [Forney 73]. Cet algorithme, issu de la programmation dynamique, repose sur le principe d’optimalité suivant : le meilleur chemin pour aller de t = 0 à t = N est composé du meilleur chemin pour aller de t= 0 à t=N −1 et du meilleur chemin pour aller de t= N −1 à t =N. L’algorithme de Viterbi consiste ainsi à calculer pour toutes les étiquettes et pour tous les instantstla probabilité du meilleur chemin amenant à l’état courant, compte tenu des premières observations.

Phase d’apprentissage : Lors de l’apprentissage du modèle, le problème est le suivant : comment ajuster les paramètres du modèle Λ = (A, B, π) pour maximiser P(O|Λ) ? Il n’existe pas de méthode analytique pour résoudre ce problème. En effet, pour un ensemble de séquences d’observations Ω constituant l’ensemble d’apprentis-sage, il n’existe pas de méthode optimale pour estimer directement les paramètres du modèle. On dispose cependant de méthodes itératives telles que la méthode de Baum-Welch [Rabiner 90] qui permettent d’affiner le modèle par réestimations successives jusqu’à obtention d’un modèle localement optimal. Celle-ci permet de déterminer un modèle Λ = (A, B, π) qui maximise localementP(Ω|Λ).

Signalons que des pseudo HMM à deux dimensions pour la reconnaissance de montants numérique ont été proposés dans [Bippus 97]. Afin d’améliorer la modélisation des séquences numériques, des durées d’état différentes sont utilisées dans [Cai 99].

Grâce au cadre probabiliste qu’ils offrent ainsi qu’à l’existence d’un algorithme d’apprentissage efficace, les HMM sont un outil de modélisation de séquence perfor-mant pour la reconnaissance d’écriture. S’ils solutionnent en partie le problème de la segmentation des caractères, les HMM souffrent toutefois d’une capacité de discri-mination plus faible que les méthodes de segmentation explicite mettant en œuvre un classifieur. Partant de ce constat, la combinaison des approches à segmentation explicite avec des HMM ont été exploré, soit par des approches neuro-markovienne, soit par une combinaison séquentielle des deux approches (voir section 1.5.3).

Approches basées sur les réseaux de neurones à convolution

Certaines architectures connexionnistes dites((à convolution)) permettent l’ana-lyse de séquences. Dans les réseaux de neurones multicouches ((classiques)) (MLP, RBF, voir section 1.2.3.3), chaque neurone est connecté à tous les neurones de la couche précédente. Dans les réseaux à convolution, un neurone est seulement connecté à un sous-ensemble de neurones de la couche précédente [Poisson 05]. Ainsi, selon Bengio [Bengio 95], on peut voir chaque neurone comme un ((détecteur de ca-ractéristique local dont la fonction est determinée par le processus d’apprentissage)). Selon [Poisson 05], il existe deux types de réseaux à convolutions : les TDNN (Time Delay Neural Network), et les SDNN (Space Displacement Neural Network).

Le TDNN est un réseau à délai utilisé pour les données de nature séquentielle (une dimension), alors que l’architecture des SDNN est adaptée à des données à deux dimensions. Le SDNN est une généralisation du TDNN à une topologie 2D. Dans le cadre de la reconnaissance de l’écriture, le TDNN permet donc un décalage horizontal d’une fenêtre de hauteur la taille de la séquence, dont les pixels sont les entrées du réseau. Le SDNN permet un décalage horizontal et vertical de la fenêtre sur les caractères à reconnaˆıtre. L’apprentissage de ces réseaux à convolution est réalisé par une généralisation de l’algorithme de rétropropagation du gradient à des réseaux aux connexions locales.

Un classifieur de type TDNN est utilisé pour la reconnaissance de séquences dans [Martin 93]. Un réseau de neurones à 2 couches cachées et poids partagés est entrainé sur 11 classes (10 chiffres + non chiffre). En phase de décision, la fenêtre est déplacée exhaustivement sur l’image et une des sorties chiffre s’active lorsqu’un caractère centré lui est présenté.

Dans [Matan 92], un classifieur chiffre SDNN est utilisé pour la reconnaissance de séquences numériques. L’algorithme de Viterbi est couplé à la dernière couche du réseau pour décider de la meilleure interprétation des entrées. La segmentation est effectuée dans les couches de caractéristiques (((features maps))). Un SDNN est

également utilisé par Lecun [LeCun 98] pour la reconnaissance de codes postaux. Le SDNN est composé de 5 couches dont la première extrait 20 primitives différentes à plusieurs localisations différentes sur l’image d’entrée.

Les réseaux de neurones à convolution semblent très séduisants : apprentissage automatique des extracteurs de caractéristiques, abstraction de la position des ca-ractères, résistance aux rejets. Ils restent cependant peu utilisés en reconnaissance de l’écriture manuscrite, certainement à cause de la difficulté à paramétrer de tels classifieurs. En effet, un certain nombre de paramètres doivent être réglés en plus des traditionnels paramètres des réseaux de neurones (voir section 1.2.3.3) : dimen-sionnement de la fenêtre et des couches de convolutions, délai.

1.5.3 Combinaison des approches

Dans le document Extraction de s´ equences num´ eriques dans des documents manuscrits quelconques (Page 43-46)