Modélisation markovienne - :Reconnaissance de caractères arabes et amazighes manuscrits isolés

Chapitre 4 :Reconnaissance de caractères arabes et amazighes manuscrits isolés par

9. Modélisation markovienne

Grâce à plusieurs avantages au niveau de la modélisation, les modèles de Markov cachés connaissent un grand succès dans la reconnaissance automatique des textes manuscrits. Ils permettent essentiellement d’éviter les problèmes qui sont liés au processus de la segmentation directe des textes en unités plus petites en intégrant la segmentation et la reconnaissance dans un seul module. Ils offrent aussi plusieurs types d’apprentissage, en particulier l'entraînement automatique sans segmentation des caractères à partir des images de mots (apprentissage croisé, en anglais « embedded training ») ([Dupr03], [Beno07]). Dans notre système, nous avons utilisé une modélisation des caractères par les modèles de Markov cachés de type modèle discriminant. Elle consiste à associer un ou plusieurs modèles par classe. De ce fait, nous obtenons autant de modèles que de classes traitées et La forme à reconnaître est affectée à la classe correspondant au modèle qui maximise la probabilité d’engendrer sa séquence d’observations.

Nous présentons dans ce qui suit, les principales étapes constituant la modélisation markovienne que nous avons développée, qui comprend principalement : le choix des modèles des caractères, leur entrainement, et leur classification.

9.1.Choix de modèle

A l’issue de la phase précédente, les images des caractères sont traduites en séquences d’observations pour alimenter les Modèles de Markov cachés modélisant les données d’apprentissage. Or cette modélisation n’est pas toujours une tâche évidente. Elle requiert des connaissances préalables du problème donné. Dans ce sens, on se focalise sur les moyens théoriques permettant de chercher et de sélectionner la topologie des HMMs utilisés afin de modéliser les caractères étudiés. Cette topologie est généralement dépendante de plusieurs aspects à savoir :

− La nature et la taille de l’unité de base. Dans ce cas, nous avons la possibilité de considérer les caractères globalement ou bien d’opérer localement en d’autres unités plus fines C.-à-d., au niveau des bandes ou des graphèmes. Le choix entre l’une ou l’autre est souvent imposé par la taille de vocabulaire de l’application considérée. Or puisque on a affaire à des alphabets de 28 caractères arabes et 33 caractères amazighes, alors cette taille est limitée. De ce fait, il est plus évident d’effectuer une modélisation au niveau lettre, laquelle est relativement plus robuste à la variabilité, et ne requiert pas une segmentation préalable du caractère, qui est souvent très complexe à réaliser.

− Choix des paramètres de modèle HMM : nombre d’états, type de topologie des états et type de fonctions de densités de probabilités. Il n’existe pas une théorie pour les déterminer. La solution est alors empirique ([Kalt93], [Mahj99], [Augu01]). Souvent, le nombre de paramètres dans un HMM doit correspondre aux données d’apprentissage. Ce nombre doit être suffisamment grand pour modéliser la variabilité dans la bas. Mais en revanche, il ne doit pas excéder une limite au delà de laquelle les modèles ne sont plus convenablement appris.

De nombreuses considérations ont donc été prises en compte pour fixer ces paramètres et en particulier, la technique utilisée dans la génération des séquences d’observations. Nous voulons adapter le maximum possible l’architecture des modèles établis au partitionnement adopté pendant cette démarche. Par conséquent, Nous avons opté pour une topologie de type linéaire orientée dans le sens de l’écriture étudiée, n’autorisant que les transitions bouclantes et vers l’état suivant. Le nombre d’états dans le modèle est le même pour chaque caractère et il est inférieur ou égale aux nombres de bandes horizontales constituants l’image de caractère sans l’égaler (fixé à 14 états). En effet certaines bandes surtout celles des extrémités ne fournissent aucune observation.

La Figure 4-27 ci-dessous montre la topologie de type gauche droite dans le cas des caractères arabes.

Figure 4-27 : la topologie droite gauche de modèle de caractère arabe

La Figure 4-28 ci-dessous présente la topologie de type gauche droite dans le cas des caractères amazighes.

Figure 4-28 :la topologie gauche droite de modèle de caractère amazighe 9.2.Le modèle de caractère

L’approche proposée est basée sur la modélisation des caractères par les modèles de Markov cachés(HMMs). Les paramètres décrivant le modèle du caractère λc sont: le

nombre d’états cachés N, la matrice des probabilités de transitions entre états A, la matrice des probabilités d’observations B. Le modèle de chaque caractère est un HMM discret de 14 états avec une topologie de type linéaire (cf. les Figure 4-27 et Figure 4-28 ci-dessus). Chaque état est associé à une notion logique qui est la bande verticale de l’image. En outre, dans les premières expériences, nous avons utilisé les densités de probabilité des observations discrètes dans chaque état. Cependant, elles sont modélisées par un mélange

114

8. Architecture du système proposé

de composantes gaussiennes dans les secondes. En utilisant ces paramètres, nous avons déterminé le modèle adéquat du caractère qui a été déterminé par la procédure de Baum- welsh (section suivante).

Au total, pour modéliser l’alphabet arabe, 16 modèles différents ont été construits correspondant aux caractères isolés sans signe diacritique. Dans le cas du script Amazighe, nous avons construit un nombre de modèles qui s’élève à 33 modèles convenant aux lettres de son alphabet.

9.3.

Apprentissage

des modèles HMMs

La problématique majeure d’un système de reconnaissance des caractères manuscrits réside dans l’apprentissage qui consiste à ré-estimer les paramètres des modèles de lettres de l’alphabet utilisé. Cette ré-estimation est réalisée dans le but de capter le maximum possible d’informations relevées de la variabilité des formes représentant chaque classe du caractère manuscrit.

Dans notre système de reconnaissance de caractères manuscrits isolés, tout d’abord, nous avons crée un modèle séparé pour chaque caractère. En suite, les images des caractères de la base d’apprentissage considérée sont traduites en séquences d’observations à l’aide de la phase d’extraction de caractéristiques. De ce fait, nous disposons d’un ensemble de séquences d’observations discrètes O = (O1_{, O}2_{, …, O}y_{) correspondantes aux caractères des}

alphabets de reconnaissance (16 classes dans le cas de l’arabe et 33 classes dans le cas de l’amazighe). Le défi relevé à ce niveau, est de déduire les modèles HMMs générant ces séquences d’observations. Une fois la topologie du modèle initial de caractère est choisie, on a recourt à l’apprentissage qui permet l’entrainement de ces modèles initiaux choisis par les séquences O précédentes afin d’ajuster leurs paramètres. Le modèle de chaque caractère utilise uniquement les échantillons étiquetés de sa classe. Les modèles finaux construits sont associés à l’ensemble des séquences O.

En pratique, nous avons estimé les probabilités d’entrées, de transitions, d’émissions de chaque modèle de caractère pour modéliser au mieux la base d’échantillons d’apprentissage. Cela, peut se traduire formellement par la recherche des paramètres de chaque modèle λc={π,A,B} qui maximisent la probabilité p(O/λc) de la séquence

d’observations donnée O={o1, o2,…on}. Pour se faire, nous avons appliqué l’algorithme de

Baum-welch (cf.section 3.3.3 du chapitre 2) qui se base sur le principe donné ci-dessous ([Rabi89], [Rabi93]):

• Choisir un ensemble initial de paramètres λ0.

• Calculer λ1 à partir de λ0.

• Répéter ce processus jusqu’à un critère de fin.

• Partant de λn, λn+1 doit vérifier :

(

| 1

)

(

)

r r

n n

r r

p o λ₊ ≥ p o λ

∏

L’algorithme va donc ré-estimer les paramètres de modèle HMM de chaque caractère, jusqu'à ce que la probabilité p(O/λc) de générer la séquence d'observations O soit maximale.

En fin, le meilleur modèle HMM trouvé est enregistré pour former une base de modèles de référence (cf. Figure 4-29 ci-dessous).

Figure 4-29 : schéma d’apprentissage

A l’aide de la procédure itérative de Baum-welsh, nous avons effectué un apprentissage global, qui est facile à mettre en œuvre. Cette méthode permet de garantir une monotonie croissante de la vraisemblance au cours des itérations, et de ce fait sa convergence vers un point optimal local est évidente. La qualité de la convergence est étroitement liée à l’ensemble initial de paramètres. Nous avons effectué une initialisation uniforme des paramètres de modèles.

9.4.

Classification

Dans cette section, la reconnaissance se fait en utilisant l’ensemble des données d’apprentissage. La séquence d’observations décrivant l’image de caractère à reconnaitre est alignée sur chaque modèle de la base de référence (résultat de la phase précédente). En effet, nous avons construit durant l'apprentissage autant de modèle HMMs qu'il y avait d'images de caractères dans la base d’apprentissage. Étant donné une séquence d’observations de caractère à tester. Alors la classification se fait par recherche du meilleur modèle engendrant cette séquence parmi tous les modèles HMMs enregistrés dans la base de référence. Pour se faire, nous avons utilisé l’algorithme de Forward pour calculer la vraisemblance de la séquence d'observations de caractère à reconnaître par rapport à chaque modèle de la base [Rabi89]. De ce fait, nous disposons d'un ensemble des scores qui correspondent aux probabilités (séquence/modèle de classe). Le modèle élu est celui possédant le plus grand score, c.-à-d., le modèle donnant la vraisemblance maximale identifie le caractère reconnu (cf. Figure 4-30 ci-dessous).

116

Dans le document Reconnaissance de caractères imprimés et manuscrits,textes et documents basée sur les modèles de Markov cachés (Page 132-136)