Reconnaissance de l’´ecriture : Entraˆınement et alignement dynamique

Ces réseaux de neurones utilisés pour la reconnaissance de lignes de texte sont entraˆınés par descente de gradients stochastique (SGD). La fonction de coût est définie dans la section 3.3.1 et du Dropout est appliqué sur chacune des couches de 2D-LSTMs avec une probabilité de 0,5. La technique duDropout [Hinton et al., 2012] consiste à mettre aléatoirement, durant l’apprentissage, la moitié des neurones à zéro et sert à éviter la co-adaptation entre les neurones. Cela a pour effet de limiter le sur-apprentissage et d’aider le système à mieux généraliser.

3.3.1 Description de l’alignement avec la Connectionist Temporal Classification (CTC)

Pour entraˆıner ce réseau, un alignement est nécessaire puisque la séquence de sorties y = {y1,...,yT} du réseau est d’une taille T différente (plus grande) de la taille K de la séquence de vérités terrains l = {l1,...,lK}, c’est à dire de la séquence de lettres à reconnaitre. Pour cela, la technique de Connectionist Temporal Classification (CTC) [Graves et al., 2006] est utilisée.

On rappelle que chaque élément yi de la séquence de prédiction est composé de N valeurs (y_i = {y_i(1),...,y_i(N)}). Ces valeurs peuvent être assimilées à des probabilités puisqu’elles sont situées après une couche deSoftmax et sont associées aux N éléments de l’alphabet utilisés. Les

éléments de la séquence l sont choisis dans cet alphabet.

On peut définir l’ensemble des trajets π ={π1,...,πK} qui permettent d’associer les éléments del aux éléments de y.πi étant l’index du label associé à la positioni du chemin. Ces différents chemins π possibles sont illustrés par le graphe présenté en Figure 3.4.

La CTC va associer une probabilitéPπ à chaque cheminπ en multipliant les probabilités des labels associées à chaque position du chemin, comme indiqué dans l’équation3.1.

P_π = YT t=1

y_t(π_t) (3.1)

La probabilité Pl totale de la séquence l est ensuite obtenue en sommant les probabilités Pπ

de tous les chemins possibles :

Fig. 3.4 – Illustration des trajets possibles lors de l’alignement CTC, dans le cadre de la détection de lignes. En bleu les points de départ et d’arrivée du graphe, en vert les états par lesquels le passage est autorisé et en rouge, les états interdits. L’axe horizontal est relatif à la séquence des différentesframes de l’image.

Pendant l’entraˆınement, on a un ensemble de couples {y,l} et on va va chercher à modifier y pour maximiser la vraisemblance de l sachant y. On peut donc minimiser la fonction de coût C(y,l) de l’Equation3.3. Comme tout est dérivable, cela peut se faire avec les techniques classiques d’optimisation par descente de gradient.

3.3.2 Ajout de ”blancs” dans les s´ equences de labels pour la recon-naissance

Durant la phase d’inférence, pour chaque position t, seule la prédiction la plus forte va être conservée. Pour la segmentation de lignes de texte, toutes ces prédictions sont utiles puisqu’elles permettent de définir la position de la ligne ; plus de détails seront donnés en section 3.4.3. Mais pour la tache de la reconnaissance de l’écriture, la séquence de texte est ce qui nous intéresse.

CommeT K, plusieurs prédictions successives vont correspondre au même label. On agglutine donc les prédictions successives similaires pour retrouver la séquence voulue. Dans l’exemple suivant, aveca etb nos deux labels, on a :

aabbab→abab

Fig. 3.5 – Illustration des trajets possibles lors de l’alignement CTC lorsque l’on ajoute des blancs.

Cependant, un problème survient lorsque la séquence voulue contient deux labels similaires consécutifs. En effet, un seul label pourra être produit à cause de l’agglutination. La solution traditionnelle à ce problème [Graves et al., 2006] est d’ajouter un label supplémentaire appelé

”blanc” utilisé pour marquer les frontières entre les lettres. Une sortie est ajoutée au réseau et correspond à ce label. Lors de l’alignement, pour une vérité terrain l donnée, les chemins π pourront optionnellement passer par des prédictions de ”blanc” entre les labels de la séquence l.

Ceci est illustré en figure 3.5 ou le label ”blanc” est dénoté par ∅.

Lorsque des caractères similaires sont présents, comme illustré figure 3.6, ce passage par le label ”blanc” devient obligatoire entre les labels consécutifs identiques lors de la construction des différents chemins π possibles.

Au décodage, ces labels ”blanc” sont supprimés après l’agglutination et permettent donc au système de reconnaissance de prédire des labels consécutifs similaires. Toujours en notant a et b nos deux labels et∅ le label ”blanc”, on a :

aa∅∅bb∅ba→abba

On notera que la présence de ces caractères ”blanc” se traduit par la prédiction de pics très localisés pour la prédiction des autres labels (le label ”blanc” est de très loin le caractère le plus prédit) et que, appliqué à une tâche de reconnaissance de l’écriture avec des réseaux récurrents, il permet de faciliter grandement la convergence des réseaux [Hannun et al., 2014] puisque il permet de faciliter l’alignement au début de l’entraˆınement [Bluche et al., 2016a]. Les auteurs

Fig. 3.6 –Illustration des trajets possibles lors de l’alignement CTC lorsque l’on ajoute des blancs, en présence de caractères consécutifs similaires.

[Graves et al., 2006] suggèrent aussi que ce caractère ”blanc” pourrait permettre de représenter les espace sans caractères ou entre les caractères, formes de bruits qui ne correspondent à aucune classe.

Dans le document The DART-Europe E-theses Portal (Page 40-43)