Apprentissage et reconnaissance

Chapitre 6 : Reconnaissance multilingue de l’écriture manuscrite

Apprentissage à l’état initial Apprentissage au niveau caractère Apprentissage au niveau mot

Chapitre 6 : Reconnaissance multilingue de l’écriture manuscrite

2 Reconnaissance de l’écriture manuscrite du français

2.2 Reconnaissance automatique de mots et de phrases

2.2.5 Apprentissage et reconnaissance

Pour la reconnaissance de mots, nous utilisons principalement dans notre système le

réseau de neurones à convolution, essentiellement le TDNN.

Après la phase de la segmentation et de l’extraction des caractéristiques, on obtient un

treillis dans la sortie du TDNN. Puis, à partir de cette sortie, nous calculons la vraisemblance

de chaque mot du dictionnaire. Pour cela, nous avons appliqué le même algorithme

d’apprentissage utilisé précédemment pour l’apprentissage des caractères.

Apprentissage

Figure 26 : apprentissage du réseau de neurones sur les mots

Dans un TDNN, les mots sont représentés comme une séquence de caractères ou

chaque caractère est modélisé par un ou plusieurs états. Par conséquent, le TDNN peut être

considéré comme un dispositif de reconnaissance hybride qui combine les caractéristiques des

réseaux de neurones. Chaque neurone dans la couche d’entrée représente un état d'un

caractère (au début, au milieu, à la fin ou isolé). Généralement, le score d'un caractère est

calculé en trouvant un chemin d'alignement optimal grâce à ses états et en additionnant les

activations dans cette voie. De même, le score d'un mot est calculé en trouvant un chemin

92

d'alignement optimal à travers les états de caractères composant le mot. Par conséquent, le

score final est à nouveau obtenu en additionnant toutes les activations dans cette voie.

a. Apprentissage

Un TDNN est formé en trois étapes avec le principe de rétro-propagation. La première

et la seconde étape d’apprentissage fonctionnent dans un mode d'alignement forcé, pendant

laquelle le TDNN est entraînée avec des données d'entraînement segmentées à la main,

c’est-à-dire, les limites de caractères sont connues pour ces mots. Dans la première étape (la

formation au niveau du neurone), on suppose que le chemin de reconnaissance correcte dans

le réseau reste la même durée dans chaque état du mot. Les états, le long de ce chemin,

constituent les données d’apprentissage pour la procédure de rétro-propagation à partir de la

couche d’entrée de TDNN. Après quelques itérations, notre supposition (le chemin de la

reconnaissance reste pour la même durée dans chaque état) est abandonnée, car maintenant,

on doit calculer le chemin de la reconnaissance réelle à travers un modèle de caractère, qui

marque le début de l'étape 2 (apprentissage au niveau du caractère). Puis, après quelques

itérations, la troisième étape commence par le remplacement de l'alignement forcé dans les

étapes 1 et 2 avec l'alignement libre qui lance l’apprentissage au niveau du mot. Cela présente

l'avantage que l’apprentissage peut maintenant être effectué sur les données non segmentées.

Ainsi, seule une petite partie des données d’apprentissage doit être segmentée manuellement

au niveau caractère. Lorsque le réseau a appris avec succès les limites des caractères sur la

base d’apprentissage segmentée, l'alignement forcé est remplacé par un alignement libre et

l’apprentissage peut être effectué sur de grandes bases de données contenant des données

d’apprentissage non segmenté.

b. Utilisation de dictionnaire pour la reconnaissance des mots et des phrases

Notre système de reconnaissance d'écriture en ligne est basé sur un dictionnaire des

mots. En général, la taille des dictionnaires influence la performance et le temps de réponse

du système.

Pour la recherche des mots dans le dictionnaire, nous utilisons une approche basée sur

les arbres (Manke et al, 1996). Elle combine une représentation arborescente du dictionnaire

avec des techniques de recherche efficaces pour réduire le temps de recherche en gardant la

même performance de système de la reconnaissance. Pratiquement, le principe est simple,

d’abord, nous construisons un arbre de recherche pour chaque caractère, ce dernier représente

tous les mots commençant par ce caractère spécifique. Puis, lors de la recherche d’un mot,

nous n’activons que les racines des arbres, alors que tous les autres nœuds sont inactifs. Enfin,

Chapitre 6 : Reconnaissance multilingue de l’écriture manuscrite

93

nous construisons deux listes dont les éléments pointent vers les nœuds actifs : les points de la

première liste pointent sur les nœuds actifs dans la phase actuelle et la deuxième liste contient

des points qui pointent vers les nœuds qui devraient être actifs dans la phase suivante. Enfin,

en continuant la dernière étape itérativement, nous arrivons assez rapidement au mot

recherché.

L’approche de l’arbre est facilement applicable pour la recherche des mots afin de

reconnaître des phrases entières. En premier lieu, nous insérons un nœud supplémentaire qui

représente l'espace blanc entre deux mots dans une phrase. L'extrémité de chaque nœud de

l'arbre est reliée à ce nœud (qui représente l'espace blanc), qui à son tour est connecté à

chaque nœud racine. En second lieu, nous avons identifié que le passage par le nœud d’espace

doit marquer le début d'un nouveau mot. Enfin, nous appliquons le même principe de liste qui

est utilisé pour les mots, nous obtenons le bon chemin de notre phrase.

Le dictionnaire utilisé par notre système de reconnaissance contient environ 700 000

mots français qui sont suffisants pour le développement du système (les détails de la

construction de ce dictionnaire sont présentés dans le chapitre suivant).

Figure 27 : Architecture d’un dictionnaire en arbre

c. Apprentissage de phrases

Le même mécanisme appliqué pour l’apprentissage de mots fonctionne également

pour le niveau suivant, les phrases entières. Nous avons entraîné avec un TDNN des phrases

non segmentées, sachant que le TDNN a été déjà entraîné avec des mots; L’ algorithme trouve

94

la meilleure segmentation de toutes les phrases non segmentées en fonction des informations

du réseau neuronal déjà appris au niveau du mot, par conséquent la reconnaissance

automatique en ligne des phrases ne nécessite que de petites modifications de l'algorithme de