Modèles de Markov cachés

Chapitre 3 : Reconnaissance de formes

3 Méthode de classification

3.10 Modèles de Markov cachés

Des études détaillées sur les modèles de Markov cachés (HMM : Hidden Markov Model) ont été réalisées dans [14,117]. La description présentée ici en est une version récapitulée.

Les HMMs ont connu un grand succès lors de leurs utilisations dans le domaine de la reconnaissance de la parole. Leurs utilisations en reconnaissance de l’écriture sont motivées par les considérations suivantes :

– La nature stochastique des HMMs leur permet de bien modéliser l’aspect variable des formes et la présence du bruit qui peut générer un impact négatif durant la phase de reconnaissance de l’écriture.

– Comme la longueur des mots dans l’écriture manuscrite varie considérablement selon les scripteurs, l’utilisation des HMMs est recommandée étant donné que ces derniers prennent en compte l’aspect variable des longueurs des variables.

– Ces modèles permettent de faire de la reconnaissance des mots sans nécessairement passer par une phase antérieure de segmentation des mots en caractères. En effet, l’approche segmentation-reconnaissance simultanée (par le biais d’une fenêtre glissante) a permis d’obtenir des taux de reconnaissance élevé [51, 136,20].

– Les HMMs s’appuient sur un ensemble d’algorithmes standard et éprouvés dont l’implémentation fait appel à des techniques bien maîtrisées de programmation dynamique. Il existe un certain nombre de librairies et de modules publics relatifs à l’apprentissage et au décodage des HMMs.

3.10.1 Modèles de Markov cachés à unidimensionnels (HMMs 1D)

Pour modéliser des données séquentielles, les HMMs 1D représentent un bon choix de modèles statistiques. Ils sont constitués de deux processus stochastiques à valeurs respectivement sur un ensemble d’états N et un ensemble M de symboles d’observations émis par ces états, et de trois matrices de probabilités (voir figure 2.10).

Figure 3-10 : Définition des paramètres d’un Modèle de Markov Caché (figure extraite de [12]).

Les états des HMMs ne sont pas directement observables, d’où le nom d’états cachés.

Si les observations appartiennent à un ensemble discret, les HMMs sont appelés modèles discrets et sont appelés continus dans les autres cas. Un HMM se définit donc par les éléments suivants:

A est la matrice des probabilités de transition entre états.



bj k



_j _N _k _M

B est la matrice des probabilités d’émission.

 

_i __i__N

 

₁



, où _i P(q₁s_i).

π est le vecteur des probabilités initiales des états.

Par simplification, on désigne un HMM par le triplet ^



A,B,^



et son apprentissage

(  , où lesO^ksont les séquences d’observations des n échantillons de la base d’apprentissage. A cet effet, l’algorithme de Baum-Welch est la technique la plus utilisée. Les détails relatifs à cet algorithme sont présentés dans [21].

Selon le mode de modélisation adopté pour la représentation des classes à reconnaître, la phase de décision de HMM peut être effectuée de deux façons différentes :

 Cas d’un model par classe : la recherche du modèle discriminant sera utilisée pour réaliser la reconnaissance. Nous calculons pour chaque modèle la probabilité d’émission de la forme à reconnaitre, puis nous affectons la forme à la classe dont le modèle fournit la probabilité la plus élevée.

 Cas d’un seul modèle pour toutes les classes : dans ce cas, la reconnaissance est équivalente à la détermination du chemin optimal qui fournit la classe (c.à.d. à trouver la meilleure suite d’états) qui maximise la quantitéP(QO,). Ceci revient à trouver le

meilleur chemin dans un graphe. Pour se faire, l’algorithme de Viterbi est souvent utilisé.

3.10.2 Modèles de Markov cachés planaires (PHMM)

L’utilisation des HMMs en reconnaissance de l’écriture a connu beaucoup de succès.

Les HMMs classiques traitent le signal comme une suite unidimensionnelle. Cependant, la nature 2D de l’écriture a suggéré des modifications consistant à étendre les HMMs à deux dimensions. Cela a donné naissance aux modèles de Markov cachés planaires. Ce sont des HMMs où la probabilité d’observation dans chaque état est décrite par un HMM secondaire.

L’architecture générale d’un PHMM inclut un modèle principal composé de super-états auxquels sont associés des modèles secondaires (voir figure 3..11). Pour l’écriture, généralement le HMM principal décrit l’image verticalement ligne par ligne, tandis que les HMMs secondaires décrivent une ligne site par site. Ces sites sont un voisinage de pixels qui doivent être à la fois suffisamment grands pour permettre des mesures, et suffisamment petits pour s’attacher à extraire une caractéristique locale.

Figure 33-11 : Exemple d’architecture d’un PHMM

Chapitre 4 _.

Reconnaissance des caractères arabes imprimés multifontes

1 Introduction

Notre approche de reconnaissances des caractères arabes s’appuie sur une idée développée dans [68] et qui stipule qu’une forme géométrique simple permet une interprétation visuelle. Partant de l’idée que toute forme est appréhendée par la perception visuelle humaine, non pas dans sa globalité, mais par parties et que l’organisation et les positions spatiales relatives de ces parties jouent un rôle important dans l’apprentissage et la reconnaissance, nous pouvons avancer qu’une décomposition des formes en éléments simples permet de déterminer plus facilement les primitives structurelles.

En reconnaissance de caractères, la notion d’éléments simples est décisive. En effet, un caractère peut se décomposer en graphèmes ou en segments primitifs qui jouent le rôle de composantes connexes du caractère, les segments primitifs sont les éléments les plus simples possible d’un point de vue géométrique constituant un graphème.

La recherche d’une entité géométrique simple peut être perçue comme étant la volonté de ne pas faire entrer dans les structures utilisées des attributs géométriques trop complexes (comme les attributs statistiques par exemple). Cette démarche relative au choix des primitives structurelles est justifiée par la faculté que nous possédons d’interpréter les éléments simples. Appliquée à la reconnaissance de caractères, la recherche d'une entité géométrique simple comme les courbes de Bézier, va donner un nouveau descripteur simple.

Or, pour décomposer un caractère en éléments simples de complexité comparable, il convient de simplifier la forme. C’est la squelettisation que nous aborderons dans le premier

paragraphe de ce chapitre. La décomposition du squelette en segments primitifs fera l’objet du second paragraphe. Enfin nous terminerons par une présentation des structures (illustration de quelques caractères par le modèle de Bézier) utilisées en reconnaissance de forme.

Dans ce chapitre nous donnons une présentation de notre système de reconnaissance des caractères arabes imprimés. L’évaluation de notre système se fera sur la base de 23 fontes de complexité différente.

Dans la section 2, nous rappelons les concepts liés à la représentation des formes et les principales approches utilisées dans la littérature relatives à ces concepts. La section 3 est réservée à la définition et aux propriétés de la topologie discrète et son utilisation dans le domaine de représentation des images. La quatrième section est consacrée à la squelettisation.

Nous commençons par rappeler le principe général de la squelettisation, puis nous détaillons l’algorithme de squelettisation que nous avons adopté. Nous expliquons dans la section 5 comment nous avons exploité les propriétés des courbes de Bézier pour extraire les points caractéristiques des caractères arabes. La cinquième section est réservée à l’implémentation de notre approche. Elle est réalisée en plusieurs étapes : l’étape de prétraitement, celle de l’extraction des primitives, puis l’étape d’apprentissage et enfin celle de reconnaissance. Dans la dernière section nous présentons une évaluation des performances de notre approche.

2 Représentation de forme

2.1 Analyse de forme

Afin d'identifier les objets qui nous entourent, l’utilisation de la notion de forme est fondamentale puisqu’elle nous permet d’interpréter le monde qui nous entoure. Les objets peuvent avoir une représentation géométrique basée sur les changements de couleur et de densité. Cependant, il n'existe pas de concept universel permettant de caractériser les objets.

Dans le cadre de cette thèse nous nous sommes intéressés à la manière dont une forme peut être représentée par des descriptions structurelles. Ainsi ces descripteurs reposent sur une décomposition des formes en données symboliques. Ils cherchent à identifier les éléments signifiants de la forme ainsi que les relations les liants. Autrement dit, ils cherchent à interpréter la forme en fonction d’un ensemble de primitives prédéterminées et liées par des relations d’adjacence et de topologie.

73 2.2 Apprendre une forme

De nombreux auteurs ont proposé d’utiliser des descripteurs structurels, car l’apprentissage d’une forme peut être efficace par une bonne représentation d’un point de vue algorithmique. En fait, une telle représentation permet ainsi de modéliser correctement la variabilité des formes dans une image. Plusieurs travaux ont proposé d’approximer le contour d’une forme par une courbe polygonale (B-polygone) assimilée à une configuration de points les caractérisant. Une telle représentation est cependant sujette à de nombreux problèmes comme la sensibilité des représentations au bruit. Les modèles doivent aussi souvent essayer de traduire la non rigidité des formes. Cette dernière correspond à de petites variations d’un même objet. Par exemple, l’apparence d’un objet change lorsque ses propriétés géométriques se voient modifiées.

En général, les travaux traitant du problème d’automatisation du repérage d’un ensemble de points caractéristiques se focalisent sur la représentation des objets par un ensemble de points, à partir desquels le modèle devra traduire de manière optimale la variabilité de ces objets. Les travaux décrits ci-dessous sont représentatifs du domaine.

 Les moments de Zernike ont été utilisés par plusieurs auteurs dans le domaine de la reconnaissance des caractères [179,85, 86]. Ils sont dérivés des polynômes de Zernike qui ont été développés en 1934 pour être utilisés dans la théorie de la diffraction optique [200]. Plusieurs études ont montré que l’utilisation de ces descriptions permet d’avoir des performances meilleures que celles obtenues avec d’autres approches [180,88].

 Sclaroff et Pentland [157,159] proposent de représenter une forme par un ensemble de transformations canoniques. Les primitives des formes sont les caractéristiques saillantes de l’image, telles que la courbure par exemple. La correspondance entre deux points est obtenue en comparant les modes des deux formes.

 Hill et Taylor [73] proposent une méthode de génération automatique de points caractéristiques à partir d’une population de formes. Un point caractéristique est à nouveau un point saillant, qui caractérise l’objet auquel il appartient. Ce point existe aussi dans tous les objets d’une même population. La première étape de cette méthode consiste à extraire un ensemble de points caractéristiques de la forme sur tout l’ensemble d’apprentissage. Cet ensemble de points sert d’approximation à l’ensemble final.

 Bookstein [25] décrit un algorithme permettant d’extraire des points caractéristiques à partir d’une forme dont les contours sont continus. À cet effet il utilise l’interpolation d’un ensemble de points par les thin-plate splines.

 Younes [198,199] modélise les contours des formes par des courbes paramétriques planes, qui peuvent être assimilées à des fonctions de type :

m : s ϵ I → m(s) ϵ IR²

où I est un intervalle borné. Il propose par exemple d’utiliser une représentation de la forme par des courbes splines cubiques.

Une revue plus complète des méthodes existantes dans la littérature et concernant la représentation des formes et leur mise en correspondance a été proposée par Cootes et Taylor [40]. Les différentes représentations de formes ont ensuite été utilisées pour construire différents types de modèles. Parmi ces modèles nous distinguons les modèles génériques de la modélisation des formes dans le plan [98,47,64], les modèles basés sur les contours actifs [39, 41,102], les modèles de distribution de points [169] et divers autres [145,172,189].

4 Notion de la topologie discrète

En général, une image est traitée entant qu’un tableau à deux dimensions. Un élément de l’image est appelé pixel (picture element). Chaque pixel d’une image est associé à une valeur dans le cas des images en niveaux de gris et à un vecteur de valeurs dans le cas des images couleurs. Une image peut être constituée d’une collection de tableaux connectés spatialement mais de sens variés, appelés composantes.

Dans ce paragraphe, nous présentons les notions de base de la topologie digitale des images binaires bidimensionnelles. Nous introduisons les notions d’image, de pixel, d’adjacence, de voisin, de connexité et de composante connexe. Puis nous définissons la notion de squelettisation et nous terminons par la notion de trou.

3.1 Image discrète binaire

En reconnaissance de caractères, il est préférable de travailler sur des images discrètes binaires (voir [34] pour la discrétisation d’une image réelle). Une telle image peut être vue comme un ensemble fini de carrés appelés des tesselles (voir figure 4.1).

Figure 4-1 : Un pavage (en trait continu) et le maillage associé (en trait discontinu).

Un pixel est repéré par ses coordonnées (i, j), i indiquant la ligne et j indiquant la colonne à l’intersection desquelles se situe le pixel. Ce maillage peut être stocké dans une structure de données de type matricielle (mij). Une image binaire peut être vue comme l’union de deux ensembles : l’ensemble constitué par les pixels blancs (ou pixels objets) et l’ensemble constitué des pixels noires (ou pixels du fond, c.à.d. l’ensemble des pixels du complémentaire de l’objet).

Nous pouvons alors associer à chaque pixel Tij de l’image discrète, un pixel Pij de coordonnées (i, j) dans le maillage. Par convention, la présence d’un disque de couleur noire (ou point noir), dont le centre est de coordonnées (i, j) dans le maillage, signifiera que la tesselle Tij correspondante est de couleur blanche (tesselle-objet), et dans ce cas mij vaudra 1 (voir figure 4.2).

(a) (b) (c)

Figure 4-2 : (a) Image discret, (b) sa représentation dans le maillage carré, (c) sa matrice de stockage

3.2 Voisinage

Dans le cas d'un maillage carré (le plus utilisé en pratique), nous pouvons définir deux types de voisinages :

- deux pixels sont dits 4-adjacent (ou 4-voisins) s'ils se touchent par une arête verticale ou horizontale (voir figure 4.3 (a)).

- Deux pixels sont dits 8-adjacents (ou 8-voisins) s'ils se touchent par une arête (voir figure 4.3 (b)).

(a) (b)

Figure 4-3 : (a) 4-voisin du pixel P ; (b) 8-voisin du pixel P

3.3 Chemin connexe

- Une suite de pixels P₁,P₂,,P_n constitue un 4-chemin si chaque paire de pixels (P_i, P_i_₁) sont 4-voisins (voir figure 4.4 (a)).

- Une suite de pixels P₁,P₂,,P_n constitue un 8-chemin si chaque paire de pixels (P_i, P_i_₁) sont 8-voisins (voir figure 4.4 (b)).

(a) ( b) Figure 4-4 : (a) 4-chemin ;(b) 8-chemin

3.4 Composante connexe

‒ Un ensemble S de pixels est une composante 4-connexe si et seulement si pour toute paire de pixels _P_,_P_'__S, il existe un 4-chemin P₁,P₂,,P_n tel queP₁P,

' P

P_n  et tous les P_iS(voir figure 4.5 (a)).

‒ Un ensemble S de pixels est une composante 8-connexe si et seulement si pour toute paire de pixels

P , P '  S

, il existe un 8-chemin P₁,P₂,,P_ntel que P₁P,

' P

P_n  et tous les P_iS(voir figure 4.5 (b)).

(a) (b)

Figure 4-5 : (a) 5 composantes 4-connexes ; (a) 2 composantes 8-connexes.

4 Squelettisation

4.1 Introduction

H. Blum a introduit la notion de squelette durant les années soixante [24], dans le but de constituer un nouveau descripteur de formes. Cet outil a été développé afin de décrire les objets rencontrés en biologie et en biomédecine (chromosomes, os, etc.). Plusieurs techniques de squelettisation ont été utilisées dans la segmentation des formes et la détermination de leurs caractéristiques.

La squelettisation est une étape essentielle de la reconnaissance de forme. Son objectif est la description de chaque objet par un ensemble de lignes très fines, réduisant ainsi fortement le volume d'information à manipuler. Le squelette est généralement défini comme étant l'ensemble des lignes médianes constituées des points équidistants de deux points de la frontière. Cette notion de représentation d'une forme est très utilisée en reconnaissance de forme, car elle conserve les propriétés topologiques de la forme qu'elle représente. En effet, pour de telles formes, il est certain que c'est l'allure d'une représentation filiforme qui est importante. La reconnaissance des caractères en constitue un exemple typique.

Un des problèmes fondamentaux en reconnaissance de formes est la représentation synthétique de celle-ci par un squelette. Plusieurs travaux avancent que le travail sur la forme brute est laborieux et plus couteux comparativement à celui réalisé sur les formes squelettisées. Il est donc beaucoup plus avantageux en terme de temps et de qualité de travailler sur une forme épurée. Malheureusement, la construction d’un squelette est très délicate et est très sensible au bruit (petite déformation du contour, présence d'un trou, ...).

Cela peut induire l’obtention d’un squelette qui n’est pas totalement fidèle à la topologie initiale de la forme.

78 4.2 Squelettisation

La squelettisation est le processus permettant de transformer une forme en un squelette conservant la topologie de la forme. Il consiste à convertir une forme en un ensemble de courbes intérieures au contour extérieur de la forme [57]. Les squelettes sont aussi connus sous le nom d'axe médian.

Dans l'espace continu, il existe plusieurs définitions équivalentes du squelette. La définition suivante, connue sous le nom d'analogie du feu de prairie, offre une définition intuitive des squelettes tels que H. Blum les a conçus [24, 130, 148].

Soit W un ensemble de points formant un plan couvert de manière homogène par de l'herbe sèche. A l'instant initial t0, tous les points du contour de W sont enflammés simultanément. Nous supposons que le feu se propage sur W de manière homogène et s'étend à travers l'herbe à une vitesse constante. Le squelette de W est défini comme l’ensemble des points représentant le lieu de rencontre des fronts enflammés. Cette définition présente l’avantage de pouvoir être modélisée physiquement par une équation de diffusion du type :

∂C/∂t= βN

où C est la courbe paramétrée du contour, N la normale intérieure en chaque point et β la vitesse de diffusion.

La figure 4.6 montre les différentes étapes du processus du feu de pairie pour un rectangle.

Figure 4-6 : Squelettisation d'un rectangle selon l'analogie du feu de prairie :

(a) la forme contient de l'herbe sèche sur sa surface et le feu est allumé sur tout le contour.

(b) Le feu se propage vers l'intérieur de la forme. A certains endroits, deux fronts se rencontrent et s'éteignent en laissant une trace.

(c) A la fin du processus le feu s'éteint et il ne reste plus que les traces des fronts qui se sont rencontrés, formant ainsi le squelette.

Sur le plan formel, la notion de squelette est souvent définie en termes de boules maximales [173,156,183]. La preuve de l'équivalence entre cette définition et celle de H.

Blum a été donnée par Calabi et Hartnet [29].

Définition : soient p un point de IR² et r un réel positif. Une boule Bd(p;r) est dite inscrite dans une forme S de IR² si et seulement si elle est entièrement contenue dans S. La boule Bd(p;r) est dite maximale dans S (ou inscrite et maximale) si elle est inscrite dans S et si elle n'est pas entièrement contenue dans une autre boule inscrite dans S.

Définition : le squelette ou l’axe médian MA(S) d'une forme S de IR² est le lieu des centres des boules maximales de S. Autrement dit, un point p de S appartient à MA(S) si et seulement si p est le centre d'une boule maximale de S.

Figure 4-7 : Quelques exemples de squelettes (figure extraite de [14])

4.3 Les approches d’amincissement

Les algorithmes d’amincissement examinent les pixels de l’image binaire et éliminent itérativement tous les pixels n’appartenant pas au squelette final. Ce procédé peut être réalisé soit d’une manière séquentielle soit d’une manière parallèle. L’approche séquentielle consiste à examiner les pixels selon un ordre préétabli et fixe à chaque itération (ligne par ligne de gauche à droite par exemple). La suppression d’un pixel P à la n^ème itération dépend d’une part des opérations antérieures, c’est à dire les opérations de la (n−1)^ème itération et d’autre part des pixels déjà traités à la n^ème itération. Dans le cas de l’approche parallèle, à chaque itération les pixels sont examinés indépendamment les uns des autres. A la n^ieme itération, la suppression d’un pixel P est fonction seulement des opérations réalisées jusqu’à l’itération précédente. Les approches séquentielles traitent plus de pixels par itération. Et comme la suppression d’un pixel modifie le voisinage du suivant, ceci a un impact négatif sur la stabilité de la méthode et la qualité du squelette. C’est pourquoi nous avons opté pour une approche parallèle. Les algorithmes parallèles, à l’inverse des algorithmes séquentiels, sont plus stables et préservent mieux les propriétés topologiques de la forme.

80 4.4 Construction du squelette

De nombreux algorithmes ont été proposés pour construire un squelette à partir d'une forme quelconque [11, 57,163]. Il existe actuellement un grand nombre de références sur les méthodes de squelettisation [109, 137] et des études de comparaisons entre elles [11,181,89].

Dans la plupart des publications scientifiques, les algorithmes de squelettisation sont réparties en quatre classes [182] :

a) Amincissement topologique : il consiste à utiliser l’outil mathématique appelé

« érosion » et qui représente (avec la « dilatation ») l’un des outils de base de la morphologie mathématique. L'érosion consiste à éroder une forme à partir de son contour. Après plusieurs itérations, la forme se stabilise et le résultat obtenu n’est autre que le squelette de la forme. Toutefois, l'opération d'érosion ne permet pas de

Dans le document مركز دراسات الدكتوراه علوم و تقنيات Centre d Etudes Doctorales Sciences et Techniques THÈSE. Pour obtenir le grade de : DOCTEUR EN SCIENCES (Page 67-0)