• Aucun résultat trouvé

Reconnaissance de l’´ecriture : Entraˆınement et alignement dynamique

Dans le document The DART-Europe E-theses Portal (Page 40-43)

Ces r´eseaux de neurones utilis´es pour la reconnaissance de lignes de texte sont entraˆın´es par descente de gradients stochastique (SGD). La fonction de coˆut est d´efinie dans la section 3.3.1 et du Dropout est appliqu´e sur chacune des couches de 2D-LSTMs avec une probabilit´e de 0,5. La technique duDropout [Hinton et al., 2012] consiste `a mettre al´eatoirement, durant l’apprentissage, la moiti´e des neurones `a z´ero et sert `a ´eviter la co-adaptation entre les neurones. Cela a pour effet de limiter le sur-apprentissage et d’aider le syst`eme `a mieux g´en´eraliser.

3.3.1 Description de l’alignement avec la Connectionist Temporal Classification (CTC)

Pour entraˆıner ce r´eseau, un alignement est n´ecessaire puisque la s´equence de sorties y = {y1,...,yT} du r´eseau est d’une taille T diff´erente (plus grande) de la taille K de la s´equence de v´erit´es terrains l = {l1,...,lK}, c’est `a dire de la s´equence de lettres `a reconnaitre. Pour cela, la technique de Connectionist Temporal Classification (CTC) [Graves et al., 2006] est utilis´ee.

On rappelle que chaque ´el´ement yi de la s´equence de pr´ediction est compos´e de N valeurs (yi = {yi(1),...,yi(N)}). Ces valeurs peuvent ˆetre assimil´ees `a des probabilit´es puisqu’elles sont situ´ees apr`es une couche deSoftmax et sont associ´ees aux N ´el´ements de l’alphabet utilis´es. Les

´el´ements de la s´equence l sont choisis dans cet alphabet.

On peut d´efinir l’ensemble des trajets π ={π1,...,πK} qui permettent d’associer les ´el´ements del aux ´el´ements de y.πi ´etant l’index du label associ´e `a la positioni du chemin. Ces diff´erents chemins π possibles sont illustr´es par le graphe pr´esent´e en Figure 3.4.

La CTC va associer une probabilit´ePπ `a chaque cheminπ en multipliant les probabilit´es des labels associ´ees `a chaque position du chemin, comme indiqu´e dans l’´equation3.1.

Pπ = YT t=1

ytt) (3.1)

La probabilit´e Pl totale de la s´equence l est ensuite obtenue en sommant les probabilit´es Pπ

de tous les chemins possibles :

Fig. 3.4 – Illustration des trajets possibles lors de l’alignement CTC, dans le cadre de la d´etection de lignes. En bleu les points de d´epart et d’arriv´ee du graphe, en vert les ´etats par lesquels le passage est autoris´e et en rouge, les ´etats interdits. L’axe horizontal est relatif `a la s´equence des diff´erentesframes de l’image.

Pendant l’entraˆınement, on a un ensemble de couples {y,l} et on va va chercher `a modifier y pour maximiser la vraisemblance de l sachant y. On peut donc minimiser la fonction de coˆut C(y,l) de l’Equation3.3. Comme tout est d´erivable, cela peut se faire avec les techniques classiques d’optimisation par descente de gradient.

3.3.2 Ajout de ”blancs” dans les s´ equences de labels pour la recon-naissance

Durant la phase d’inf´erence, pour chaque position t, seule la pr´ediction la plus forte va ˆetre conserv´ee. Pour la segmentation de lignes de texte, toutes ces pr´edictions sont utiles puisqu’elles permettent de d´efinir la position de la ligne ; plus de d´etails seront donn´es en section 3.4.3. Mais pour la tache de la reconnaissance de l’´ecriture, la s´equence de texte est ce qui nous int´eresse.

CommeT K, plusieurs pr´edictions successives vont correspondre au mˆeme label. On agglutine donc les pr´edictions successives similaires pour retrouver la s´equence voulue. Dans l’exemple suivant, aveca etb nos deux labels, on a :

aabbab→abab

T

Fig. 3.5 – Illustration des trajets possibles lors de l’alignement CTC lorsque l’on ajoute des blancs.

Cependant, un probl`eme survient lorsque la s´equence voulue contient deux labels similaires cons´ecutifs. En effet, un seul label pourra ˆetre produit `a cause de l’agglutination. La solution traditionnelle `a ce probl`eme [Graves et al., 2006] est d’ajouter un label suppl´ementaire appel´e

”blanc” utilis´e pour marquer les fronti`eres entre les lettres. Une sortie est ajout´ee au r´eseau et correspond `a ce label. Lors de l’alignement, pour une v´erit´e terrain l donn´ee, les chemins π pourront optionnellement passer par des pr´edictions de ”blanc” entre les labels de la s´equence l.

Ceci est illustr´e en figure 3.5 ou le label ”blanc” est d´enot´e par ∅.

Lorsque des caract`eres similaires sont pr´esents, comme illustr´e figure 3.6, ce passage par le label ”blanc” devient obligatoire entre les labels cons´ecutifs identiques lors de la construction des diff´erents chemins π possibles.

Au d´ecodage, ces labels ”blanc” sont supprim´es apr`es l’agglutination et permettent donc au syst`eme de reconnaissance de pr´edire des labels cons´ecutifs similaires. Toujours en notant a et b nos deux labels et∅ le label ”blanc”, on a :

aa∅∅bb∅ba→abba

On notera que la pr´esence de ces caract`eres ”blanc” se traduit par la pr´ediction de pics tr`es localis´es pour la pr´ediction des autres labels (le label ”blanc” est de tr`es loin le caract`ere le plus pr´edit) et que, appliqu´e `a une tˆache de reconnaissance de l’´ecriture avec des r´eseaux r´ecurrents, il permet de faciliter grandement la convergence des r´eseaux [Hannun et al., 2014] puisque il permet de faciliter l’alignement au d´ebut de l’entraˆınement [Bluche et al., 2016a]. Les auteurs

T

Fig. 3.6 –Illustration des trajets possibles lors de l’alignement CTC lorsque l’on ajoute des blancs, en pr´esence de caract`eres cons´ecutifs similaires.

[Graves et al., 2006] sugg`erent aussi que ce caract`ere ”blanc” pourrait permettre de repr´esenter les espace sans caract`eres ou entre les caract`eres, formes de bruits qui ne correspondent `a aucune classe.

Dans le document The DART-Europe E-theses Portal (Page 40-43)