Chapitre 6 : Reconnaissance multilingue de l’écriture manuscrite
2 Reconnaissance de l’écriture manuscrite du français
2.2 Reconnaissance automatique de mots et de phrases
2.2.5 Apprentissage et reconnaissance
Pour la reconnaissance de mots, nous utilisons principalement dans notre système le
réseau de neurones à convolution, essentiellement le TDNN.
Après la phase de la segmentation et de l’extraction des caractéristiques, on obtient un
treillis dans la sortie du TDNN. Puis, à partir de cette sortie, nous calculons la vraisemblance
de chaque mot du dictionnaire. Pour cela, nous avons appliqué le même algorithme
d’apprentissage utilisé précédemment pour l’apprentissage des caractères.
Apprentissage
Figure 26 : apprentissage du réseau de neurones sur les mots
Dans un TDNN, les mots sont représentés comme une séquence de caractères ou
chaque caractère est modélisé par un ou plusieurs états. Par conséquent, le TDNN peut être
considéré comme un dispositif de reconnaissance hybride qui combine les caractéristiques des
réseaux de neurones. Chaque neurone dans la couche d’entrée représente un état d'un
caractère (au début, au milieu, à la fin ou isolé). Généralement, le score d'un caractère est
calculé en trouvant un chemin d'alignement optimal grâce à ses états et en additionnant les
activations dans cette voie. De même, le score d'un mot est calculé en trouvant un chemin
Apprentissage à
l’état initial
Apprentissage au
niveau caractère
Apprentissage au
niveau mot
92
d'alignement optimal à travers les états de caractères composant le mot. Par conséquent, le
score final est à nouveau obtenu en additionnant toutes les activations dans cette voie.
a. Apprentissage
Un TDNN est formé en trois étapes avec le principe de rétro-propagation. La première
et la seconde étape d’apprentissage fonctionnent dans un mode d'alignement forcé, pendant
laquelle le TDNN est entraînée avec des données d'entraînement segmentées à la main,
c’est-à-dire, les limites de caractères sont connues pour ces mots. Dans la première étape (la
formation au niveau du neurone), on suppose que le chemin de reconnaissance correcte dans
le réseau reste la même durée dans chaque état du mot. Les états, le long de ce chemin,
constituent les données d’apprentissage pour la procédure de rétro-propagation à partir de la
couche d’entrée de TDNN. Après quelques itérations, notre supposition (le chemin de la
reconnaissance reste pour la même durée dans chaque état) est abandonnée, car maintenant,
on doit calculer le chemin de la reconnaissance réelle à travers un modèle de caractère, qui
marque le début de l'étape 2 (apprentissage au niveau du caractère). Puis, après quelques
itérations, la troisième étape commence par le remplacement de l'alignement forcé dans les
étapes 1 et 2 avec l'alignement libre qui lance l’apprentissage au niveau du mot. Cela présente
l'avantage que l’apprentissage peut maintenant être effectué sur les données non segmentées.
Ainsi, seule une petite partie des données d’apprentissage doit être segmentée manuellement
au niveau caractère. Lorsque le réseau a appris avec succès les limites des caractères sur la
base d’apprentissage segmentée, l'alignement forcé est remplacé par un alignement libre et
l’apprentissage peut être effectué sur de grandes bases de données contenant des données
d’apprentissage non segmenté.
b. Utilisation de dictionnaire pour la reconnaissance des mots et des phrases
Notre système de reconnaissance d'écriture en ligne est basé sur un dictionnaire des
mots. En général, la taille des dictionnaires influence la performance et le temps de réponse
du système.
Pour la recherche des mots dans le dictionnaire, nous utilisons une approche basée sur
les arbres (Manke et al, 1996). Elle combine une représentation arborescente du dictionnaire
avec des techniques de recherche efficaces pour réduire le temps de recherche en gardant la
même performance de système de la reconnaissance. Pratiquement, le principe est simple,
d’abord, nous construisons un arbre de recherche pour chaque caractère, ce dernier représente
tous les mots commençant par ce caractère spécifique. Puis, lors de la recherche d’un mot,
nous n’activons que les racines des arbres, alors que tous les autres nœuds sont inactifs. Enfin,
Chapitre 6 : Reconnaissance multilingue de l’écriture manuscrite
93
nous construisons deux listes dont les éléments pointent vers les nœuds actifs : les points de la
première liste pointent sur les nœuds actifs dans la phase actuelle et la deuxième liste contient
des points qui pointent vers les nœuds qui devraient être actifs dans la phase suivante. Enfin,
en continuant la dernière étape itérativement, nous arrivons assez rapidement au mot
recherché.
L’approche de l’arbre est facilement applicable pour la recherche des mots afin de
reconnaître des phrases entières. En premier lieu, nous insérons un nœud supplémentaire qui
représente l'espace blanc entre deux mots dans une phrase. L'extrémité de chaque nœud de
l'arbre est reliée à ce nœud (qui représente l'espace blanc), qui à son tour est connecté à
chaque nœud racine. En second lieu, nous avons identifié que le passage par le nœud d’espace
doit marquer le début d'un nouveau mot. Enfin, nous appliquons le même principe de liste qui
est utilisé pour les mots, nous obtenons le bon chemin de notre phrase.
Le dictionnaire utilisé par notre système de reconnaissance contient environ 700 000
mots français qui sont suffisants pour le développement du système (les détails de la
construction de ce dictionnaire sont présentés dans le chapitre suivant).
Figure 27 : Architecture d’un dictionnaire en arbre
c. Apprentissage de phrases
Le même mécanisme appliqué pour l’apprentissage de mots fonctionne également
pour le niveau suivant, les phrases entières. Nous avons entraîné avec un TDNN des phrases
non segmentées, sachant que le TDNN a été déjà entraîné avec des mots; L’ algorithme trouve
94
la meilleure segmentation de toutes les phrases non segmentées en fonction des informations
du réseau neuronal déjà appris au niveau du mot, par conséquent la reconnaissance
automatique en ligne des phrases ne nécessite que de petites modifications de l'algorithme de
recherche et de l’apprentissage du TDNN. En particulier, il faut ajouter un nouvel état qui
représente le nouveau nœud dans l'arbre de recherche à la couche d’entrée de TDNN.
Figure 28 : Processus de la reconnaissance d’une phrase.
d. Calcul de la probabilité
Parmi les étapes, la plus difficile dans la phase d’entraînement ou de reconnaissance
concerne le calcul de la probabilité de la vraisemblance du mot. Étant donné l’encre d’un mot
à reconnaître ou l'observation de mot O, et un lexique des mots, le mot qui est considéré
comme le mot reconnu, W est celui qui a le score le plus élevé parmi tous les mots.
La figure ci-contre montre la complémentarité entre le calcul statistique (calcule de la
probabilité) et l’utilisation de dictionnaire.
Reconnaissance
des phrases
Dictionnair
e
Modèles
des mots
Chapitre 6 : Reconnaissance multilingue de l’écriture manuscrite
95
Figure 29 : Rôle de dictionnaire dans le système de reconnaissance de l’écriture.
Nous remarquons que pour la quatrième lettre, le système propose, en première étape,
une probabilité de 0,23 pour le « s » et seulement « 0,09 » pour un « v » mais qu’après
utilisation du modèle de langage, il préférera la sélection de la lettre « v », on peut donc en
déduire que le v était “mal” écrit ou “ambigu”.
3 Reconnaissance de l’écriture manuscrite de l’arabe