مركز دراسات الدكتوراه علوم و تقنيات Centre d Etudes Doctorales Sciences et Techniques THÈSE. Pour obtenir le grade de : DOCTEUR EN SCIENCES

(1)

Université Mohammed Premier

لولأا دمــحم ةعماـــج

Faculté des Sciences Oujda ةدجو موـــلعلا ةيــلك

تاـــينقت و موـــلع هاروـتكدلا تاــسارد زكرـــم

Centre d’Etudes Doctorales Sciences et Techniques

N° d’ordre : 289 /14

THÈSE

Pour obtenir le grade de :

DOCTEUR EN SCIENCES

UFR : Analyse Numérique, Informatique et Traitement du signal Spécialité : Informatique

Présentée et soutenue publiquement par

: Aissa KERKOUR EL MIAD

Développement d’un système de reconnaissance optique de l’écriture arabe basé sur les courbes de Bézier

Soutenue le 24 juin 2014, devant le jury :

Président M. El Mostafa DAOUDI PES, FSO, (Oujda)

Rapporteur M. Youssef JABRI PH, ENSAO, (Oujda)

Rapporteur M. Abdelhak LAKHOUAJA PES, FSO, (Oujda)

Examinateur M. Abdelouafi MEZIANE PES, FSO, (Oujda)

Examinateur M. El Miloud JAARA PH, FSO, (Oujda)

Directeur de thèse M. Azzeddine MAZROUI PES, FSO, (Oujda)

(2)

2

(3)

3

Résumé

Le travail présenté dans cette thèse a pour objectif principal de proposer un système de segmentation et de reconnaissances des textes imprimées arabes par l’utilisation d’une méthode de segmentation efficace et d’un ensemble de descripteurs performants et pertinents.

La nature cursive de l’écriture arabe pose le dilemme entre un système qui commence par segmenter le mot en caractères puis les reconnaître et celui qui néglige la phase de segmentation et cherche à reconnaître les mots dans leur globalité.

En général, les méthodes développées dans la littérature sont soit des méthodes statistiques soit des méthodes structurelles. Nous avons opté dans cette thèse pour une approche structurelle basée sur la segmentation puis la reconnaissance.

Dans un premier temps, nous présentons une approche de reconnaissance de caractères arabes imprimés et de chiffres arabes manuscrits basée sur les courbes de Bézier. L’originalité de cette approche réside dans la possibilité qui offre la théorie des courbes de Bézier de réaliser des approximations rapides et optimales des formes curvilignes à partir d’un nombre limité de points de ces formes. Cela a permis de développer une représentation structurelle performante et robuste des caractères arabes.

Cette approche a été testée et validée d’une part sur les caractères arabes imprimés multi-fontes, et d’autre part sur les chiffres arabes manuscrits. Les résultats obtenus sont très encourageants.

La deuxième partie de cette thèse est consacrée à la reconnaissance des textes arabes.

Nous proposons une nouvelle approche de segmentation basée sur la localisation des points de coupures permettant d’identifier les différents caractères et ligatures composants le mot. Elle consiste à détecter les zones de transition entre les graphèmes dans un pseudo-mot.

Les résultats de test obtenus ont montré la puissance de cette approche. Elle ouvre en outre la voie à de très nombreuses applications concernant la tâche de traitement de l’écriture manuscrite et des améliorations significatives pourraient encore être apportées.

Mots clés

: Reconnaissance automatique de l’écriture, Approches structurelles, Courbes de Bézier, Segmentation, Reconnaissance, Pseudo-mot, Ligature, Graphème, Prétraitements, Squelettisation, Apprentissage, Test.

(4)

4

Abstract

The work presented in this thesis has for main objective to propose a system of segmentation and recognitions of texts printed in Arabic through the use of a method of effective segmentation and of a set of successful and relevant descriptors.

The cursive nature of the Arabic writing creates a dilemma between a system which begins by segmenting the word in characters then recognizing these characters and the one that neglects the phase of segmentation and tries to recognize the words in their global nature.

In this thesis we’ve opted for a structural approach based on segmentation and then recognition.

At first, we present an approach for recognizing printed Arabic characters and Arabic numerals manuscripts based on Bezier curves. The originality of this approach lies in the possibility offered by the theory of Bezier curves to make rapid and optimal approximations curvilinear shapes from a limited number of points of these forms. This helped develop an efficient and robust structural representation of the Arabic characters.

This approach has been tested and validated firstly on printed Arabic multi-font characters, then on other hand-written Arabic numerals, and the results are very encouraging.

The second part of this thesis is dedicated to the recognition of the Arabic texts. We propose a new approach of segmentation based on the localization of the points of cuts allowing the identification of the various characters and the component ligatures forming the word. She consists in detecting the zones of transition between the graphemes in a pseudo- word.

The test results obtained showed the efficiency of this approach. It paves the way to very numerous applications concerning the task of processing handwriting Arabic texts.

Keywords

: Automatic recognition of writing, Structural approaches, Bézier Curves, Segmentation, Recognition, Ligature, Grapheme, Preprocessing, Skeletonization, Learning, Test.

(5)

5

Remerciements

Remercier est une tâche ingrate puisqu’elle conduit inévitablement à des oublis.

Je tiens à exprimer ma profonde gratitude à mon directeur de thèse le professeur M.

Azzeddine MAZROUI, de m'avoir permis de réaliser ce modeste travail au sein du laboratoire de la recherche en informatique (LaRI). Il a su me faire bénéficier de son expérience et de sa compétence au sein du Laboratoire. Je tiens à le remercier pour la confiance qu'il m'a toujours témoignée, en m'accordant à la fois une large autonomie et un soutien permanent.

J'exprime ma reconnaissance à M. le professeur EL Mostafa DAOUDI qui m'a fait l'honneur de présider les jurés.

Je remercie :

– M. Youssef JABRI et M. Abdelhak LAKHOUAJA pour avoir accepté le difficile rôle de rapporteur de ces travaux, et pour avoir accepté de prendre part à ce jury.

– M. Azzeddine LAZREK pour avoir accepté de rapporter sur ce travail de thèse.

– M. Abdelouafi MEZIANE et M. El Miloud JAARA, pour avoir accepté d’examiner mon travail.

Un grand merci à l'ensemble des membres du département Mathématiques &

Informatique avec qui j’ai partagé, pendant plusieurs années, de bons moments.

J’adresse enfin mes profonds remerciements à toute ma famille, plus particulièrement

mes parents pour leur soutien au quotidien, ma clé de voûte.

(6)

6

(7)

7

Table des matières

Introduction Générale ... 16

Chapitre 1 : Reconnaissance des Caractères ... 21

1 Généralités ... 21

1.1 Reconnaissance de formes ... 22

1.2 Reconnaissance de l’écriture ... 23

1.3 Complexité d’un système de reconnaissance automatique pour les textes arabes ... 23

2 Aspects méthodologiques de la reconnaissance de l’écriture arabe ... 24

3 Marché de l'OCR arabe ... 25

4 Genèse et caractéristiques de l'écriture arabe ... 27

Chapitre 2 : Extraction de primitives ... 29

1 Introduction ... 29

2 Phase d’extraction de primitives ... 29

2.1 Approches statistiques ... 30

2.2 Approches structurelles ... 30

3 Extraction de primitives graphiques par approche structurelle ... 30

3.1 Méthodes basées sur la détection de contour ... 32

3.2 Méthodes basées sur la squelettisation ... 33

3.3 Méthodes basées sur les parcours de forme ... 34

3.4 Méthodes basées sur la décomposition en plages ... 35

3.5 Méthodes basées sur la segmentation en régions ... 36

3.6 Méthodes basées sur le sous-échantillonnage ... 37

3.7 Méthodes basées sur les composantes connexes ... 38

3.8 Méthodes basées sur les Transformées de Hough/Radon ... 39

3.9 Synthèse ... 41

4. Courbes de Bézier ... 42

4.1 Polynômes de Bernstein ... 43

4.2 Théorème d’approximation de Weierstrass ... 44

Chapitre 3 : Reconnaissance de formes ... 48

1 Apprentissage ... 48

(8)

8

2.1 Apprentissage supervisé ... 49

2.2 Apprentissage non supervisé ... 49

2 Classification ... 51

3 Méthode de classification ... 51

3.1 Classificateurs paramétriques ... 53

3.2 Classification basée sur le concept de similarité ... 54

3.4 Méthode des k plus proches voisins ... 57

3.5 Comparaison dynamique ... 59

3.6 Distance d'édition ... 60

3.7 Machines à vecteurs de support (SVM) ... 61

3.8 Méthodes statistiques bayésiennes ... 63

3.9 Réseaux de neurones ... 64

3.10 Modèles de Markov cachés ... 67

Chapitre 4 :Reconnaissance des caractères arabes imprimés multifontes ... 71

2 Représentation de forme ... 72

2.1 Analyse de forme ... 72

2.2 Apprendre une forme ... 73

4 Notion de la topologie discrète ... 74

3.1 Image discrète binaire ... 74

3.2 Voisinage ... 75

3.3 Chemin connexe ... 76

3.4 Composante connexe ... 76

4 Squelettisation ... 77

4.1 Introduction ... 77

4.2 Squelettisation ... 78

4.3 Les approches d’amincissement ... 79

4.4 Construction du squelette ... 80

4.5 L’algorithme de Zhang et Wang ... 81

5 Modèle de Bézier ... 86

5.1 Idée générale ... 86

6 Approche développée pour la reconnaissance des caractères arabes ... 88

6.1 Prétraitement ... 89

6.2 Approximation d’un caractère par des courbes de Bézier ... 94

6.3 Extraction des primitives ... 95

6.4 Apprentissage ... 101

6.5 Reconnaissance ... 102

(9)

9

7 Évaluation du système ... 104

Conclusions ... 108

Chapitre 5 :Reconnaissance de chiffres arabes manuscrits ... 110

2 État de l'art ... 111

3 Prétraitements ... 112

3.1 Élimination des bruits ... 113

3.3 Lissage des formes... 113

3.4 Normalisation ... 114

4. Approximation d’un caractère par des courbes de Bézier ... 114

5 Extraction des caractéristiques et reconnaissance ... 115

5.1 Classes de chiffres ... 115

5.2 Reconnaissance ... 116

6 Résultats des tests ... 116

Conclusion ... 118

Chapitre 6 : Reconnaissance des Mots ... 120

1 Reconnaissance de mots ... 120

1.1 Approche Globale ... 120

1.2 Approche Analytique ... 121

2. Segmentation ... 121

2.1 Segmentation explicite ... 122

2.2 Segmentation implicite ... 122

2.3 Segmentation de l’écriture cursive ... 123

3 Problématique de segmentation-reconnaissance ... 126

3.1 Le Dilemme de segmentation-reconnaissance ... 127

3.2 Combinaison des segmentations implicite et explicite ... 127

4. Extraction de caractéristiques ... 128

4.1 Profils et contours ... 128

4.2 Caractéristiques géométriques et statistiques ... 130

5. Complexité inhérentes à la reconnaissance de l’écriture arabe ... 133

Chapitre 7 : Reconnaissance des textes arabes imprimés... 137

1 Principe général ... 137

1.1 Définition du pseudo mot ... 138

2 Description générale du système proposé ... 139

3 Prétraitements ... 142

(10)

10

3.2 Détection des signes diacritiques ... 144

3.3 Segmentation en ligne ... 145

3.4 Segmentation en mot ... 147

3.5 Localisation des pseudo-mots ... 149

4. Segmentation d’un pseudo-mot en graphèmes ... 151

4.1 Point de départ du parcours du tracé du pseudo-mot ... 153

4.2 Recherche du premier point de coupure ... 155

4.3 Segmentation des pseudo-mots en graphème ... 158

4.4 Identification des caractères du pseudo-mot ... 159

4.5 Segmentation des ligatures ... 162

2.5 Évaluation du système ... 162

Conclusion générale et perspectives ... 165

Bibliographie ... 168

(11)

11

Table des Figures

Figure 1-1 : Exemple d’image de mot arabe généré en 4 fontes différentes ... 24

Figure 1-2 : L’alphabet arabe ... 27

Figure 1-3 : (a) Caractère Dale (د) généré par la fonte AlMasse ; (b) Caractère lam (ل) généré par la fonte Rokaa ... 28

Figure 2-1 : Étape de chaînage de contour par code de Freeman ... 32

Figure 2-2 : Squelettisation par amincissements successifs ... 33

Figure 2-3 : Squelettisation par transformée de distances ... 33

Figure 2-4 : Suivi de traits surfacique utilisant le plus grand cercle inscrit (figure extraite de [202]) ... 34

Figure 2-5 : Graphes de plages (figure extraite de [27]). ... 35

Figure 2-6 : Courbes des distances d’orientation de deux pixels du caractère K (figure extraite de [36]). ... 37

Figure 2-7 : Mailles carrés, losanges et en lignes (figure extraite de [167]) ... 38

Figure 2-8 : Projection de l’espace 2D de l’image vers l’espace 2D des paramètres dans le cas de détection de droites ... 40

Figure 2-9 Base de polynômes de Bernstein de degré 3 ... 44

Figure 2-10 : Exemple de deux courbes de Bézier de degré 3 relatives à 4 points de contrôle 45 Figure 2-11 : Réversibilité de la courbe de Bézier ... 46

Figure 2-12 : Invariance par translation ... 46

Figure 2-13 : Invariance par rotation ... 47

Figure 2-14 : Invariance par homothétie ... 47

Figure 2-15 : Invariance par symétrie axiale ... 47

Figure 3-1 : Schéma global d’un processus de reconnaissance de caractère ... 48

Figure 3-2 : Une ligature de vertical de deux lettres : ﻞ et ﺤ ... 49

Figure 3-3 : Exemple pour un problème à trois classes dans l’espace. ... 51

Figure 3-4 : Deux types d’approches de classification : (a) par séparation, (b) par modélisation. ... 52

Figure 3-5: Exemples de classification bi-classes avec un k-PPV : (a) k= 1, (b) k=3 ... 58

Figure 3-6 : Hyperplan avec 3 vecteurs de support. La position de la frontière maximise la distance entre ces points et leurs projections sur l'hyperplan. ... 62

Figure 3-7 : Le modèle de neurone formel. ... 65

Figure 3-8 : Différentes topologies de réseau de neurones. ... 66

Figure 3-9 : PMC avec une seule couche cachée. ... 66

(12)

12

Figure 3-10 : Définition des paramètres d’un Modèle de Markov Caché (figure extraite de

[12]). ... 68

Figure 3-11 : Exemple d’architecture d’un PHMM ... 70

Figure 4-1 : Un pavage (en trait continu) et le maillage associé (en trait discontinu). ... 75

Figure 4-2 : (a) Image discret, (b) sa représentation dans le maillage carré, (c) sa matrice de stockage ... 75

Figure 4-3 : (a) 4-voisin du pixel P ; (b) 8-voisin du pixel P ... 76

Figure 4-4 : (a) 4-chemin ;(b) 8-chemin ... 76

Figure 4-5 : (a) 5 composantes 4-connexes ; (a) 2 composantes 8-connexes. ... 77

Figure 4-6 : Squelettisation d'un rectangle selon l'analogie du feu de prairie : ... 78

Figure 4-7 : Quelques exemples de squelettes (figure extraite de [14]) ... 79

Figure 4-8 : Squelettisation par amincissements successifs ... 80

Figure 4-9 : Squelettisation par transformation de distance ... 81

Figure 4-10 : Pixels de N(P) ... 81

Figure 4-11 : Exemple de collision : si on supprime x1, P n’est plus simple. ... 83

Figure 4-12 : Squelettes obtenus à partir du mot arabe بتك (a), en utilisant l’algorithme de : . 85 Figure 4-13 : Recherche de l’équation d’une courbe à partir d’un ensemble de données ... 87

Figure 4-14 : Courbe de Bézier définie par 4 points Pi ; diverses formes sont obtenues selon la position des quatre points ... 87

Figure 4-15 : Approximations des squelettes du caractère ﻦ à l’aide de : ... 88

Figure 4-16 : Description générale de notre système de reconnaissance ... 88

Figure 4-17 : Squelettisation du caractère " ق " ... 89

Figure 4-18 : Binarisation d’une image en niveaux de gris ... 91

Figure 4-19 : Classes de lettres ayant la même forme sans les points diacritiques ... 91

Figure 4-20 : (a)-(b) Le caractère ﺵ (Sheen) avant et après séparation. ... 92

Figure 4-21 : (a) Le caractère ﻞ (Lam) avant squelettisation ; (b) Squelette du caractère ﻞ (Lam) ... 93

Figure 4-22 : (a) Le caractère ﻞ (Lam) avant filtrage ... 93

Figure 4-23 : (a) Le caractère ﻄ (Thaa) initial ; ... 94

Figure 4-24 : (a) Encadrement du caractère ; ... 94

Figure 4-25 : Le squelette du caractère ﻜ ... 95

Figure 4-26 : Masques relatifs aux points extrémités... 96

Figure 4-27 : Exemples de points multiples (un cercle sur le pixel) ... 97

Figure 4-28 : Les 8 directions possibles des dérivées du pixel P ... 97

Figure 4-29 : (a) et (b) Des points singuliers ;( c) Un point non singulier ... 98

Figure 4-30 : Uniformisation des dimensions appliquée au caractère د ... 102

(13)

13

Figure 4-31 : Exemples de confusion de caractères ... 108

Figure 5-1 : (a) le chiffre 4 avant filtrage ; (b) le chiffre 4 après filtrage... 113

Figure 5-2 : (a) Image initiale du chiffre 2 ; (b) Le chiffre 2 après squelettisation ;... 114

Figure 5-3 : Squelette du chiffre 2... 114

Figure 5-4 : (a) Classe CB ; (b) Classe CSB ... 115

Figure 5-5 : Exemples de caractères arabes manuscrits de la base BD ... 116

Figure 1-1 : Reconnaissance analytique de mots basée sur la reconnaissance de lettres ([113]). ... 121

Figure 1-2 : Représentation des hypothèses de segmentation par un treillis à 4 niveaux de regroupement. ... 122

Figure 1-3 : Segmentation à base de fenêtre glissante : découpage du mot en bandes verticales. ... 124

Figure 1-4 : Segmentation à partir d’histogrammes de projection selon plusieurs directions proches de la verticale. ... 124

Figure 1-5 : Extrema du contour supérieur et inférieur sont associés, et reliés par une corde (figure extraite de [113]). ... 125

Figure 1-6 : Segmentation à base de squelette : basée sur des motifs (figure extraite de [44]). ... 125

Figure 1-7 : Exemple de reconnaissance basée sur la lecture humaine ([191]). ... 126

Figure 1-8 : Le dilemme de segmentation et de reconnaissance ... 127

Figure 1-9 : Extraction des extraction des gradients des pixels présentées dans [144] ... 129

Figure 1-10 : Extraction des caractéristiques d’histogramme de gradient présentées dans [149] ... 130

Figure 1-11 : Segmentation implicite par fenêtres glissantes de taille variable ([192])... 131

Figure 1-12 : Configurations de pixels comptées dans les caractéristiques géométriques de El- Hajj et al. [69] ... 132

Figure 1-13 : Les 28 lettres arabes avec leurs différentes formes d’apparition dans un mot. 133 Figure 1-14 : Exemples de fontes à reconnaitre ... 134

Figure 2-1 : Un mot arabe peut être composé de plusieurs composantes connexes (pseudo- mots) : ... 139

Figure 2-2 : Schéma général du Système ... 140

Figure 2-3 : Texte originale écrite par plusieurs fontes ... 143

Figure 2-4 : Squelettisation du texte par l’algorithme de Zhang-Wang modifié ... 143

Figure 2-5 : Algorithme de Mensari [117] pour la détection des signes diacritiques ... 145

Figure 2-6 : Histogramme de projection horizontale. Les lignes sont les seuils de segmentation. ... 145 Figure 2-7 : Exemples de chevauchement de deux lignes consécutives écrites avec la fonte 147 Figure 2-8 : Changement d’espace entre les mots dans les textes pour les fontes suivantes : 147

(14)

14

Figure 2-9 : Exemples de phrases mal segmentées en mots ... 149

Figure 2-10 : Exemples de mots mal segmentés en pseudo-mots ... 151

Figure 2-11 : Points extrémités du pseudo-mot املعل ... 151

Figure 2-12 : Nœuds simples et multiples du pseudo-mot املعل ... 152

Figure 2-13 : Points simples du pseudo-mot هط ... 152

Figure 2-14 : (a) Directions (ti) 1≤i≤3 du nœud simple N1 ; (b) Ordre de priorité des directions ... 153

Figure 2-15 : Exemple de pseudo-mot sans point extrémités ... 153

Figure 2-16 : Pseudo-mot avec un seul point extrémité E1 ... 154

Figure 2-17 : (a) Les deux extrémités E1 et E2 appartiennent au même caractère ″ع″ ... 155

Figure 2-18 : Exemples de graphèmes sans nœuds ... 155

Figure 2-19 : Exemple où le nœud N1 n’appartient pas à une boucle ... 157

Figure 2-20 : Exemple où le nœud N1 n’appartient pas à une boucle ... 157

Figure 2-21 : Exemple où les nœuds N1 et N2 appartiennent à la même boucle ... 157

Figure 2-22 : Exemple où le nœud N1 n’appartient pas à une boucle, le nœud N2 appartient à une boucle et le point M est un nœud N3 ... 158

Figure 2-23 : Exemple où le nœud N1 n’appartient pas à une boucle, le nœud N2 appartient à une boucle et le point M est un point extrémité E2 ... 158

Figure 2-24 : Les différentes étapes de la segmentation du mot ″عمتسم″ en graphèmes ... 159

Figure 2-25 : Organigramme de concaténation des graphèmes ... 161

Figure 2-26 : Exemple de segmentation du pseudo-mot ″عمتسم″ en caractères ... 161

Figure 2-27 : Exemples de ligatures verticales ... 162

Figure 2-28 : Alphabet de graphèmes ... 163

Figure 2-29 : Exemple d’un récit de mille et une nuits ... 164

(15)

15

Liste des tableaux

Tableau 3-1 : Quelques fonctions de transfert usuelles. x est le vecteur d’entrée. ... 65

Tableau 4-1 : Taux de reconnaissance en fonction du nombre de fontes k utilisées dans la phase d’apprentissage. ... 106

Tableau 4-2 : Taux de reconnaissance par caractère. ... 107

Tableau 5-1 : Ensemble d’apprentissage App_BD des k scripteurs qui est donne le meilleur taux reconnaissance TR ... 117

Tableau 5-2 : Matrice de confusion pour le taux de reconnaissance (TR) pour chaque chiffre ... 118

Tableau 2-1 : Performances de l’étape de segmentation des textes en lignes ... 146

Tableau 2-2 : Performances de l’étape de segmentation des textes en mots ... 148

Tableau 2-3 : Performances de l’étape de segmentation des textes en pseudo-mots ... 150

(16)

16

Introduction Générale

Le traitement informatique des données a connu durant ces dernières années une évolution importante. En effet, l’augmentation exponentielle des données numériques a suscité le développement d’outils permettant de traiter ces données d’une manière rapide et efficace. Ainsi, pour répondre à une demande de plus en plus forte en termes de traitement de données, plusieurs applications ont été développées. Parmi ces applications, la reconnaissance optique des caractères (OCR : Optical Character Recognition) occupe une place prépondérante. Elle consiste à transformer des textes sous forme d’images (imprimés ou manuscrits) en fichiers sous format texte.

Les champs d’application des OCR sont très diversifiés. Ils sont utilisés dans les postes pour faire le tri du courrier, dans les banques pour le traitement des chèques et pour aider les aveugles à lire des textes [3]. Récemment, certains systèmes ont intégré la technologie d’OCR aux nouveaux thèmes de recherche tels que la traduction automatique et la lecture des commandes vocales. Ces systèmes jouent un rôle très important dans le développement de ces nouveaux moyens d’interaction homme-machine [35].

Il n’existe pas d’OCR universel qui permet de lire n’importe quelle écriture, mais plutôt des voies d’approches dépendantes du type de données traitées et bien sûr de l’application visée. Bien que les investigations effectuées dans ce domaine soient nombreuses [140] et les résultats obtenus du point de vue méthodologique et théorique soient très encourageants pour certaines familles de caractères telles que les caractères latins [94, 37, 110], les OCR développés pour les caractères arabes restent limités. Ceci est dû principalement au manque d’intérêt et à l’absence de soutien en terme de moyens financiers et de bases de données de référence. La recherche dans ce domaine a donc besoin d’un grand souffle pour pouvoir limiter l’écart avec les autres familles de caractères [37].

(17)

17

La langue arabe est la quatrième langue la plus parlée dans le monde après le chinois, l’anglais et l’espagnol [49]. Elle représente la langue maternelle de 350 millions de locuteurs [171] et la langue officielle de 22 pays. Étant donné qu’elle est la langue du coran, 1,5 milliard de musulmans s’intéressent à cette langue et ce chiffre représente environ le quart de la population mondiale. De plus, plusieurs autres langues sont écrites avec les caractères arabes (le perse, le pachtoun). Enfin, elle fait partie des six langues principales de l'Organisation des Nations Unies (avec le chinois, l’anglais, le français, le russe et l’espagnol) et appartient au club des dix langues les plus utilisées sur le web [171].

L’écriture arabe est cursive et comporte, comme pour les hiéroglyphes, des idéogrammes, des phonogrammes et des déterminatifs [30,73]. Cela explique en partie la faible précision des méthodes de reconnaissance de l’écriture arabe comparativement à l’écriture latine [84].

Cet aspect cursif de l’écriture arabe impose la recherche d’une solution efficace au problème difficile et incontournable de la segmentation. Cette étape de segmentation fait partie du processus de prétraitement et d'extraction de l'information, qui est un préalable à toute reconnaissance.

A cet effet, quelques travaux de recherche ont été consacrés aux caractères isolés, alors que d’autres ont été orientés vers les textes, où la segmentation des mots en pseudo-mots puis en graphèmes et les variations des formes des caractères suivant leurs positions dans le mot sont analysées. D’autres recherches ont été consacrées spécifiquement à la reconnaissance des mots imprimées isolés à vocabulaire limité.

Selon la manière de percevoir un mot, nous distinguons en général deux approches communément utilisées pour la reconnaissance des mots imprimés ou manuscrits. La première approche est locale ou analytique et considère le mot comme une suite d’unités moins complexes que ce dernier (caractères ou graphèmes) ; la seconde approche est globale ou holistique et considère le mot comme une entité unique et indivisible.

L’approche locale permet théoriquement de reconnaître n’importe quel mot, puisque l’unité basique de la modélisation est le caractère ou le sous-caractère (graphème). Toutefois, elle est handicapée d’une part par la nécessité de procéder au préalable à une segmentation des mots en graphèmes qui est une tâche très délicate, et d’autre part par la grande variabilité inhérente à la forme des segments. Quant à l'approche globale, bien que recommandée pour la

(18)

18

reconnaissance de l’écriture imprimée dans un vocabulaire limité, elle souffre généralement d'un problème de manque d'informations suffisamment discriminantes pour les mots, ce qui peut accentuer le risque de confusion lorsque la taille du lexique devient importante.

Le but de la reconnaissance est de classer les informations extraites. Ces informations extraites appelées caractéristiques (elles sont aussi appelées primitives ou descripteurs), sont fondées sur des connaissances extraites des modèles connus. La reconnaissance d’une forme est basée sur une description de celle-ci. Cette description peut ainsi être perçue comme une modélisation mathématique de l’objet. Ces descripteurs sont soit de nature géométrique, structurale ou statistique. La classification de ces descripteurs est basée sur des algorithmes de classification qui permettent d’identifier l’objet à partir d’une base précédemment caractérisée et connue.

L’objectif de cette thèse est de proposer et d’implémenter une nouvelle approche de segmentation et de reconnaissance des textes arabes. La première partie de cette thèse est consacrée à la présentation de nos contributions relatives à la reconnaissance des caractères arabes imprimés et des chiffres arabes manuscrits. Nous présentons dans la deuxième partie de cette thèse une nouvelle approche de segmentation des textes arabes en caractères.

L’approche de reconnaissances des caractères arabes que nous avons adoptée et qui est développée dans la première partie de cette thèse s’appuie sur l’idée qui stipule qu’une forme géométrique simple permet d’avoir aisément une interprétation visuelle [70]. D’après cette idée, une forme est d’une part appréhendée par la perception visuelle humaine non pas dans sa globalité mais par parties, et d’autre part l’organisation et les positions spatiales relatives de ces parties jouent un rôle important dans l’apprentissage et la reconnaissance. Ainsi, une décomposition des formes en éléments simples permet de déterminer les primitives structurelles. Par suite, un caractère peut se décomposer en graphèmes ou en segments primitifs qui sont les éléments les plus simples possible d’un point de vue géométrique constituant un graphème. Cette démarche relative au choix des primitives structurelles est justifiée par la faculté que nous possédons d’interpréter les éléments simples. La représentation des formes des caractères par les courbes de Bézier a permis de définir un nouveau descripteur simple de ces caractères.

La première partie se compose de cinq chapitres. Dans le premier chapitre, nous donnons un aperçu sur les systèmes de reconnaissance optique des caractères, puis nous

(19)

19

donnons un état d’art relatif à ce domaine et nous terminons par rappeler les principales caractéristiques de l’écriture arabe.

Le deuxième chapitre est réservé à une présentation exhaustive des méthodes d’extraction des primitives. Ainsi, nous faisons un tour d’horizon sur les principales méthodes d’extractions de primitives utilisées dans la littérature. Nous mettons particulièrement l’accent sur leurs avantages et leurs inconvénients. Nous donnons en fin de chapitre la définition des courbes de Bézier et nous rappelons leurs principales propriétés.

Nous traitons dans le troisième chapitre le problème de la reconnaissance des formes.

Nous rappelons en particulier les principales approches de classification utilisées dans la reconnaissance des formes.

Le quatrième chapitre est réservé à la présentation de l’apprendre que nous avons adoptée pour la reconnaissance des caractères arabes imprimés multifontes. La première étape de notre approche consiste à faire un prétraitement sur l’image du caractère. Les opérations de ce prétraitement sont essentiellement la squelettisation de la forme du caractère et l’élimination des bruits de ce squelette. Nous expliquons dans la deuxième étape comment nous avons exploité les propriétés des courbes de Bézier pour identifier les primitives de chaque caractère. L’étape suivante de ce chapitre traite les techniques que nous avons adoptées pour les phases d’apprentissage et de reconnaissance. Enfin, nous terminons ce chapitre par la phase de test. Les résultats obtenus montrent la robustesse de cette approche.

Le dernier chapitre de cette partie concerne la reconnaissance des chiffres arabes manuscrits. L’approche adoptée est identique à quelques adaptations près à celle du chapitre précédent utilisée pour reconnaître des caractères arabes imprimés multifontes. Les résultats des tests réalisés sont performants et confirment la qualité de l’approche utilisée.

Dans la deuxième partie de cette thèse nous avons développé une nouvelle approche de segmentation des textes en caractères. Cette segmentation passe par plusieurs étapes. Le texte est tout d’abord segmenté en lignes, puis chaque ligne est segmentée en mots, en suite chaque mot est segmenté en pseudo-mots et enfin ces pseudo-mots sont segmentés en caractères. Cette partie est composée de deux chapitres.

Nous présentons dans le premier chapitre les travaux effectués dans le domaine de la reconnaissance et de la segmentation de l’écriture arabe. Nous avons insisté sur les approches

(20)

20

structurelles et nous avons présenté un état d’art sur l'emploi de ces différents types de méthodes. Nous avons terminé ce chapitre par rappeler les principales caractéristiques de l’écriture arabe et leurs impacts sur la segmentation.

Dans le deuxième chapitre, nous avons présenté notre approche de segmentation. La segmentation de l’image de texte en lignes est basée sur l’histogramme de projection horizontale alors que la segmentation des lignes en mots est basée sur l’histogramme de projection verticale. En utilisant la notion de composante connexe, nous nous sommes arrivés à segmenter les mots en pseudo-mots. Enfin, la segmentation des pseudo-mots en caractères consiste à parcourir le tracé du pseudo-mot pour identifier les points de coupures. Ces points ne sont autres que les points de concaténation entre caractères successifs dans un mot.

L’originalité de notre approche basée sur la segmentation en graphèmes, par rapport aux méthodes classiques, réside dans les points suivants :

 Une méthode de segmentation adaptée à la particularité de l’écriture arabe.

 Un alphabet réduit qui exploite un certain nombre de spécificités de l’écriture arabe.

 Le modèle structurel utilisé incorpore plus de contexte en exploitant les informations relatives aux signes diacritiques.

Les résultats des tests réalisés montrent la pertinence de l’approche adoptée.

(21)

21

Chapitre 1

Reconnaissance des Caractères

1 Généralités

La plupart des êtres humains apprennent à lire et à écrire au cours de leurs premières années d'apprentissage. Une fois grandi, ils acquièrent de bonnes compétences en lecture et en écriture, y compris la capacité de lire la plupart des textes manuscrits ou imprimés même si ces derniers sont dégradés ou entachés d’erreurs. Cependant, les systèmes de reconnaissance des caractères (OCR : Optical Character Recognition) trouvent encore des difficultés à reconnaître les textes dégradés ou entachés de bruit. De plus, les données numériques prennent une place de plus en plus importante. En effet, face à un accroissement exponentiel des volumes de ces données, l’accès à celles-ci est devenu un problème délicat. Pour être efficace et fiable, l’identification devra être réalisée par des personnes formées à cette tâche, mais cela rend prohibitif les coûts de réalisation de cette opération. Ainsi, l’identification automatique de celles-ci est devenue une urgence. Dans la suite, nous allons rappeler les développements réalisés dans le domaine des OCR, ainsi que les méthodes de reconnaissance et les technologies informatiques utilisées [1,23,37,59,81,123].

La Reconnaissance automatique des caractères vise à identifier les caractères dans une image de texte en extrayant leurs indices les plus pertinents. C’est une science qui a vu le jour avec l’apparition de l’ordinateur. Elle a connu un grand succès pendant les années 1960 et 1970 avec l’utilisation de cette technologie dans plusieurs domaines commerciaux tels que les bureaux de poste, le secteur bancaire, les assurances, les compagnies d'aviation, les éditeurs de journaux et de nombreux autres secteurs [123,81].

Au début, les scientifiques ont essayé de capter les images de caractères et de textes par des moyens mécaniques et optiques. L'opération de numérisation était dans un premier temps très lent et une ligne de caractères était numérisée par le déplacement du scanner ou du

(22)

22

support papier. Par la suite, l’invention des premiers scanners à tambour permettait de numériser des pages et des livres complets en un temps raisonnable. Les progrès réalisés récemment dans ce domaine ont permis l’augmentation de la vitesse de numérisation et de conversion numérique. Ces améliorations importantes ont permis le traitement d'une grande variété de formes et de documents tout en accélérant la vitesse de reconnaissance de caractères et en réduisant les coûts de ces opérations.

Cette discipline descend du domaine de la reconnaissance des formes. Ces deux sciences (la reconnaissance des formes et la reconnaissance de l’écriture) sont devenus des domaines de recherche très actifs depuis la fin des années soixante [152].

1.1 Reconnaissance de formes

Le rôle de la reconnaissance des formes consiste en la perception et l’interprétation de l’environnement. Plus précisément, étant donnée une information riche et non structurée (par exemple une image), le but de la reconnaissance des formes est de lui associer une signification symbolique (par exemple une étiquette). Ainsi, la reconnaissance des formes peut être définie comme étant un processus permettant de réduire l’information pour ne conserver que l’information pertinente. Selon SIMON [164], la reconnaissance des formes peut être modélisée par une application mathématique :

Soit X un espace de représentations (de préférence un bon espace topologique) et soit Ω un ensemble fini de noms (l’espace d’interprétation). Une reconnaissance (une identification) est une application E : X → Ω.

La définition de cette application a mené SIMON à formuler des questions qu’il a structurées en deux niveaux. Le premier concerne la complexité calculatoire du procédé. En effet, des questions liées au temps de calcul et à la mémoire de stockage se posent avec force au moment de la construction d’un espace de représentation pour une application relative à la reconnaissance des formes, et plus particulièrement dans le cas de la reconnaissance des caractères. Le deuxième niveau se trouve dans la sémantique même du problème et est lié aux deux questions suivantes :

 y’a-t-il une approche générale permettant de construire un opérateur de reconnaissance des formes ?

(23)

23

 est-il possible de développer un système capable de reconnaître n’importe quelle forme déjà apprise ?

Les champs d’application de la reconnaissance de formes sont multiples. En effet, la reconnaissance des formes est très utilisée dans le domaine médical (en radiologie), dans l'identification humaine (telle que la reconnaissance des visages ou des empreintes) et dans la reconnaissance de caractères.

1.2 Reconnaissance de l’écriture

Nous présentons dans ce paragraphe un état d’art relatif à la reconnaissance automatique de l’écriture arabe. Nous commençons par donner un aperçu sur la langue arabe écrite et discuter les problèmes liés au développement d'un système de reconnaissance automatique de l’écriture arabe.

Etant donné qu’un système de reconnaissance de l’écriture passe par de nombreuses phases, et chaque phase comprend différentes étapes et chaque étape peut en général utiliser un ou plusieurs algorithmes, nous détaillons par la suite les différentes étapes nécessaires pour le développement d'un tel système. Nous terminons par la présentation de quelques applications commerciales relatives à la reconnaissance automatique des textes arabes.

1.3 Complexité d’un système de reconnaissance automatique pour les textes arabes

La reconnaissance de l’écriture arabe est sensible à plusieurs facteurs tels que la diversité des formes, l’irrégularité des alignements, la non uniformité des dimensions et la présence de formes ambiguës. De plus, l’écriture arabe connait des variations importantes selon les thèmes et les régions. Elle peut être d’une simplicité extrême (par exemple, la fonte Simplified Arabic qui ne présente pas de ligatures) ou d’une complexité exhaustive de l’arabesque (les fontes fortement ligaturées comme la fonte DiwaniLetter).

Il existe plus de 450 fontes pour la langue dont seulement quelques-unes sont couramment utilisées dans le monde arabo-musulman [17]. La figure 1-1 présente un exemple d’un mot arabe généré en 4 fontes différentes. L’image du mot écrit avec la fonte Simplified Arabic ne présente ni ligature ni chevauchement entre les caractères alors que pour les 3 autres fontes, différents types de ligatures et de chevauchements apparaissent.

(24)

24

Figure 1-1 : Exemple d’image de mot arabe généré en 4 fontes différentes

La cursivité de l’écriture arabe représente un autre degré de difficulté comparativement aux textes imprimés des langues utilisant le caractère latin. Ainsi, la segmentation des mots arabes en graphèmes représente la première phase dans le processus de reconnaissance des mots arabes. Les performances limitées de plusieurs systèmes de reconnaissance des textes arabes sont en partie dues aux limites des approches utilisées dans le processus de segmentation des mots en graphèmes.

2 Aspects méthodologiques de la reconnaissance de l’écriture arabe

Les travaux de recherche liés aux OCR permettent de dégager des informations sur les approches et les techniques utilisées. Pour répondre à la demande très forte, ces techniques sont en progrès constant. Cependant, les attentes relatives aux performances des OCR dédiés aux caractères arabes sont largement supérieures à celles des OCR existants.

Il est d’usage de distinguer deux axes dans le domaine de la reconnaissance de l’écriture arabe : la reconnaissance des textes imprimés et celle des textes manuscrits avec leurs modes d’acquisitions en ligne et hors linge. La reconnaissance de l'écriture en ligne consiste à développer des applications permettant de reconnaître les caractères pendant la phase d’écriture. L'acquisition spatio-temporelle des caractères ou mots cursifs est réalisée en utilisant un stylo et une tablette électronique. Dans [182], les auteurs exposent plusieurs méthodes développées en reconnaissance de l’écriture en ligne. Les applications concernées par ces systèmes de reconnaissance sont principalement les interfaces orientées stylo qui cherchent à intégrer l'écriture manuscrite comme nouvelle modalité d'interaction entre homme et machine. A l'opposé de ce mode d'acquisition, la reconnaissance de l'écriture hors ligne est considérée comme le cas le plus général de la reconnaissance de l’écriture. Cette reconnaissance hors-ligne, privée de l’information spatio-temporelle, est plus délicate.

L’écriture manuscrite ou imprimée se présente sur un support classique tel que le papier.

Après numérisation, nous obtenons une image que nous cherchons à traiter de manière automatique. Cependant, les problèmes associés à la reconnaissance des formes manuscrites,

(25)

25

sont particulièrement complexes. Bien que les deux axes (reconnaissance en ligne et hors ligne) soient fortement liés, nous nous sommes limités dans cette thèse à la reconnaissance hors ligne de l’écriture arabe.

Etant donné que les textes imprimés sont caractérisés par une certaine régularité, les approches de reconnaissance relatives à ces textes sont moins complexes et plus rapides que celles développées pour les textes manuscrits dont la principale caractéristique est sa très forte variabilité. Les systèmes de reconnaissance que nous avons développés ont été testés d’une part sur les textes arabes imprimés et d’autre part sur les chiffres arabes manuscrits.

Enfin, il reste à signaler le manque de bases de données contenant un grand nombre de mots arabes hors ligne, comme la base UNIPEN pour le latin, rend la construction d’une telle base vitale pour le développement de systèmes robustes.

En conclusion, la reconnaissance des textes arabes imprimés demeure un domaine de recherche complexe et ouvert. A ce jour, un certain nombre de systèmes commerciaux plus ou moins adaptés à quelques conditions opérationnelles ont été développés. Les échecs commerciaux d'un certain nombre de produits sont conséquence de l’adaptation de certaines approches utilisées pour les caractères latins et de la mauvaise conception des formes arabes en tant que caractères. Dans la section suivante, nous faisons une brève revue de littérature sur quelques systèmes de reconnaissance de l’écriture arabe.

3 Marché de l'OCR arabe

Il existe sur le marché plusieurs OCR pour la langue arabe. Ils sont commercialisés et développés par des sociétés commerciales. La plus part de ces applications sont en version anglaise à des prix différents. Les principales caractéristiques qui les différencient sont [147] :

 la précision de la reconnaissance des caractères,

 la vitesse de traitement des fichiers,

 la reconstruction de la mise en page,

 les langues supportées,

 l'interface du capteur.

(26)

26

Parmi ces OCR développés nous citons les systèmes suivants :

 ABBYY est l'une des entreprises leader dans le domaine des OCR. La dernière version produite par la Société prend en charge 189 langues, y compris l'arabe [2].

 Professional 18 est la dernière application OCR produite par la société Nuance Communication Inc leader dans les technologies vocales, imageries et systèmes intelligents. La société présente sur le marché OmniPage 18 qui est une application rapide et précise et qui traite du papier, des fichiers PDF et des images d'appareils photo numériques. OmniPage 18 assure que le document converti ressemble à l'original au niveau du texte, des graphiques, des colonnes et des tableaux. Il offre de nombreuses fonctionnalités avancées, y compris la technologie 3DC relative aux appareils photo numérique qui corrigent automatiquement les distorsions d'images. Le système détecte automatiquement les langues asiatiques [155].

 Readiris Pro est développé par la grande entreprise mondiale IRIS qui est spécialisée dans les applications OCR. La société développe un certain nombre d'autres produits de reconnaissance optique de caractères tels que les scanners stylo, les lecteurs de cartes, les scanners mobiles et le stylo numérique [147]. La version Readiris Pro 12 est conçue spécialement pour les langues asiatiques y compris l'hébreu et la langue arabe [147].

 NovoDynamics avait été mis en place depuis deux décennies et est spécialisée dans les applications OCR. L’OCR NovoVerus soutient le latin, les caractères asiatiques, le cyrillique et les langues du Moyen-Orient [48].

 L’entreprise Sakhr Software Company est pionnière dans les applications qui traitent la langue arabe. Sakhr a été créé en 1982 pour soutenir la langue arabe dans le domaine des technologies de l'information. Elle a produit de nombreuses applications industrielles commerciales avec une précision et des performances de grande qualité. Elle a ainsi développé un OCR qui reconnaît des textes numérisés en arabe avec une bonne précision.

Il prend aussi en charge en plus de la langue arabe, le farsi, le pachto, le jawi et l'ourdou.

(27)

27

4 Genèse et caractéristiques de l'écriture arabe

Cette section donne un aperçu sur l’écriture arabe imprimée, et discute les problématiques relatives au développement d'un système de reconnaissance et de segmentation des mots arabes imprimés.

Les caractères arabes remontent à l’araméen, lui-même descendant du phénicien (alphabet qui donne naissance à l’alphabet hébreu, à l’alphabet grec, au cyrillique, aux lettres latines, etc.) [82]. Ce développement est influencé par plusieurs facteurs liés [104]

L’écriture arabe est à la fois riche et complexe. Nous présentons les principales caractéristiques structurelles et topologiques, les caractéristiques statistiques ainsi que les caractéristiques globales et locales [196,104,5,82] :

 L’écriture arabe imprimée est cursive,

 l’alphabet arabe (figure 1-3) comprend vingt-neuf lettres fondamentales (vingt-huit si l’on exclut la hamza, qui se comporte soit comme une lettre à part entière, soit comme un diacritique).

Figure 1-2 : L’alphabet arabe

 le sens d’écriture va de droite à gauche et il n’y a pas de différence entre les lettres manuscrites et les lettres imprimées. La notion de lettre majuscule et de lettre minuscule n’existe pas dans la langue arabe.

 la hauteur et la largeur des caractères sont variables (par exemple ا, س).

 certains caractères arabes se différencient par la présence ou non de points (diacritiques) et par leur nombre. Ces points peuvent être au-dessus ou au-dessous du caractère. Ainsi nous pouvons classer les caractères arabes en quatre classes : la classe des caractères n’ayant pas de points, celle des caractères ayant un point, celle des caractères ayant deux points et enfin la classe des caractères avec trois points.

 Les caractères se distinguent aussi par la longueur et l'épaisseur des traits, le nombre de trous, les surfaces et les périmètres.

(28)

28

 Les fontes jouent un rôle important pour la reconnaissance. En effet, le même caractère peut avoir des formes différentes selon la fonte utilisée. Par exemple, la forme du caractère Dale (د) généré par la fonte AlMasse ressemble à celle du caractère lam (ل) généré par la fonte Rokaa (voir la figure 1-4).

(a) (b)

Figure 1-3 : (a) Caractère Dale (د) généré par la fonte AlMasse ; (b) Caractère lam (ل) généré par la fonte Rokaa

 Un caractère est représenté par une séquence de bits. La langue arabe n'étant pas basée sur l'alphabet latin, on trouve parfois un codage différent pour le même caractère.

La langue arabe n'est pas une langue facile pour la reconnaissance automatique. Un système de reconnaissance doit gérer efficacement certaines difficultés particulières qui sont relevées lors de son développement [52].

(29)

29

Chapitre 2

Extraction de primitives

1 Introduction

L’étape d’extraction de primitives consiste à extraire l’information la plus discriminante pour la tâche de reconnaissance. Cette étape est critique et influe fortement sur la performance du système de reconnaissance. La difficulté de cette étape provient du fait que la qualité d’une représentation ne peut se juger que sur un problème particulier, et qu’il n’existe pas de méthodologie standard pour la sélection d’un ensemble de primitives le plus discriminant possible pour un problème donné.

De ce fait, il est nécessaire de réaliser une évaluation expérimentale des méthodes d’extraction de primitives les plus représentatives pour chaque problème de reconnaissance.

Ces expérimentations permettent de faire un choix judicieux des primitives à extraire, car souvent, l’utilisation d’une seule méthode d’extraction de primitives n’est pas suffisante pour obtenir une bonne discrimination du problème de classification ([77, 65,93]).

D’autre part, la sélection des primitives qui caractérisent le mieux les caractères pour un problème donné n’est pas aléatoire. Selon Trier et al [186], ce choix dépend de la nature de l’écriture traitée (imprimée/manuscrite, latine, arabe…), ainsi que de sa qualité (variation des styles, distorsion, …).

2 Phase d’extraction de primitives

La phase d’extraction de primitives consiste à transformer une image (caractère, graphème, bande verticale, ...) en un vecteur de primitives de taille fixe afin de l’utiliser comme entrée du classificateur. La reconnaissance est essentiellement basée sur cette

(30)

30

description des primitives. Il existe plusieurs approches possibles pour établir une description d’une forme. Nous pouvons distinguer deux grandes familles de ces descriptions : les descriptions vectorielles dites statistiques et les descriptions syntaxiques et/ou topologiques dites structurelles.

2.1 Approches statistiques

Les approches statistiques assimilent une description à une modélisation mathématique de l’objet. Elles se basent souvent sur des hypothèses relatives à la description statistique des classes d’objets analogues dans l’espace de représentation. Ces approches consistent à définir un modèle mathématique solide permettant d’effectuer des mesures statistiques sur l’objet. Ce sont ces mesures qui constitueront les éléments descriptifs d’une forme. La classification est basée sur une distance (norme euclidienne, arbres de décisions, k plus proches voisins...) [80] et peut être de nature probabiliste ou neuronale.

2.2 Approches structurelles

Les approches structurelles cherchent à décrire une image par une représentation de son contenu. Ainsi, c’est les informations sémantiques relatives à la topologie de la forme qui vont la représenter au lieu de mesures statistiques. Le principe de ces méthodes s’inspire de la perception humaine relative à la description et la reconnaissance d’une forme. En général, les formes sont segmentées en primitives simples qui peuvent être des graphèmes dans le cas des textes écrits.

Les travaux de ce type d’approches sont alors motivés par l’idée que les résultats du classificateur pourraient être meilleurs avec une description des symboles qui ne seraient plus statistiques mais essentiellement structurels.

3 Extraction de primitives graphiques par approche structurelle

La phase d’extraction de primitives ou caractéristiques est l’une des étapes clés dans un système de reconnaissance de l’écriture. L’objectif de cette phase est la sélection des informations les plus pertinentes pour une tâche de classification donnée. Cependant, le risque de perte d'informations significatives durant cette phase est un problème réel qu’il faudrait constamment évoquer. Dans le cadre de la reconnaissance de l’écriture, l’approche structurelle désigne les méthodes qui s’appuient sur l’interprétation et l’analyse de la forme,

(31)

31

non pas dans sa globalité, mais par parties élémentaires. Elle cherche à décrire de façon discriminante la forme du mot ou du caractère dans l’organisation spatiale de ces parties. Ces méthodes s’inspirent de la perception visuelle humaine pendant l’interprétation et l’analyse de la forme par l’œil [110].

La reconnaissance d’une forme est basée sur une description de celle-ci qui peut être vue comme une modélisation mathématique de l’objet. Cette Modélisation doit permette un calcul de distance entre deux ou plusieurs modèles [134]. Le choix des caractéristiques est critique et influence nettement sur le résultat de la reconnaissance. Ces caractéristiques doivent avoir deux propriétés :

– être discriminantes : permettre une bonne différentiation entre les classes de symboles à reconnaître,

– maintenir un nombre de dimensions limité, afin d’éviter le phénomène de fléau de la dimension.

Dans la littérature, il existe un très grand nombre de descriptions possibles pour une forme suivant l’information à modéliser [186] et les invariances à exprimer. Selon [109], on distingue trois classifications possibles pour les descripteurs de forme :

a. La première, la plus courante et est défini par PAVLIDIS [131], considère d’une part les descripteurs basés sur la frontière (descripteurs externes) et d’autre part ceux basés sur la forme elle-même (descripteurs globaux ou internes). Il cherche à représenter au mieux la forme générale d’un caractère par ces descripteurs qui sont calculés sur des images relativement grandes.

Citons comme exemples la transformée de Fourier et la transformée de Hough qui détectent les lignes dans les images [184].

b. La seconde classe consiste à différencier les descripteurs numériques (scalaires ou vectoriels), des descripteurs qui ne le sont pas. Elle est également désignée comme technique appartenant au domaine spatial.

c. Enfin la troisième classe classifie les descripteurs selon qu’ils préservent entièrement ou seulement partiellement l’information contenue dans la forme.

Autrement dit, est-il possible de reconstruire la forme initiale à partir des descripteurs.

(32)

32

Dans son étude bibliographique, M. Delalandre [42] divise les méthodes d'extraction des primitives graphiques en huit catégories.

 détection de contours,

 squelettisation,

 les parcours de forme

 décomposition en plages,

 segmentation en régions,

 sous-échantillonnage,

 composantes connexes,

 transformée de Hough.

3.1 Méthodes basées sur la détection de contour

Cette catégorie de méthodes a pour but la détection des points des contours puis le chainage des points de ces contours (codage de Freeman [222]). On distingue deux étapes dans le processus d’extraction de primitives basée sur la détection de contours, qui selon les méthodes sont soit distinctes, soit fusionnées [166]. Il s’agit dans un premier temps de détecter les contours à proprement parler, puis dans un second temps de procéder au chaînage (et/ou codage) de ces points contours [42,187].

Il existe plusieurs façons de procéder à la détection des contours : à l’aide d’opérateurs de morphologie mathématique par exemple ceux développés dans [151], mais également par des méthodes de suivi de contours [143], ou encore par des méthodes de décomposition en plages (voir section 2.1.4). Les processus de chaînage quant à eux sont souvent basés sur la méthode de codage de Freeman [58] (voir figure 2-1 [4]) appliquée à une chaîne de pixels représentant les contours d’une forme. Ce code est obtenu en étudiant localement la structure du contour.

Figure 2-1 : Étape de chaînage de contour par code de Freeman

(33)

33

Il en résulte alors une représentation exacte des symboles sous la forme d’une chaîne codée. Ces méthodes sont peu sensibles aux bruits et également invariantes aux changements d’échelles. Cependant elles ne permettent pas de décrire les structures des formes, telles que les jonctions, et sont faiblement informatives vis-à-vis de la topologie de l’image. Elles font partie, avec les méthodes basées sur la squelettisation, des catégories de méthodes les plus utilisées.

3.2 Méthodes basées sur la squelettisation

Il s'agit d'obtenir le squelette, c'est-à-dire les axes médians d'une forme par amincissements successifs des traits ou par transformée de distances (voir introduction à la squelettisation de [24]). L'objectif est également d'obtenir les axes médians de la forme par des techniques de suivi de traits, ou de détection de jonction. Cette dernière ne permet pas en elle-même d’obtenir des primitives significatives d’un symbole. Donc comme pour la détection de contours, il est nécessaire de compléter le processus par une seconde étape d’extraction ; il s’agit très souvent de construire un graphe de squelette [138].

Les méthodes à base de squelettisation permettent une bonne approximation des axes médians des figures (il s’agit en quelques sorte de déterminer l’approximation vectorielle de la forme). Elles sont de plus invariantes au changement d’orientation. Cependant, un des principaux inconvénients de ces méthodes est le problème de barbules (voire figures 2.2 et 2.3) et des distorsions de jonctions, qui rend le processus d’extraction de primitives plus complexe, car il est alors nécessaire, pour obtenir un squelette cohérent et pertinent, d’effectuer un certain nombre de traitements supplémentaires. Elles sont de plus peu adaptées à l’analyse de formes pleines et sensibles au bruit.

Figure 2-2 : Squelettisation par amincissements successifs

Figure 2-3 : Squelettisation par transformée de distances

(34)

34 3.3 Méthodes basées sur les parcours de forme

Ces méthodes permettent d’extraire les axes médians des composantes d’une image. Il s’agit en fait de parcourir les "traits" de la forme pour en détecter et/ou en dessiner la structure (voir [42, 194, 166]). On distingue pour ce type de méthodes deux étapes qui sont le suivi de traits et la détection de jonctions. Elles sont complémentaires l’une de l’autre et sont généralement lancées conjointement. La seconde est par ailleurs très souvent un critère d’arrêt pour la première. Une supervision de ces traitements permet alors d’organiser la détection de chaque trait de la forme et d’en établir les relations pour en construire le graphe de structure.

Le suivi de traits est réalisé en trois étapes :

 la localisation d’un trait,

 la recherche d’un point d’entrée dans la forme (dans le trait),

 le suivi du trait par pas successifs jusqu’à détection d’une extrémité ou d’une jonction.

Figure 2-4 : Suivi de traits surfacique utilisant le plus grand cercle inscrit (figure extraite de [202]) Ces méthodes exploitent des primitives à base de vecteurs qui sont des primitives de haut niveau et sémantiquement fortes. Elles permettent une bonne détection des jonctions.

Cependant, il est évident qu’elles impliquent que la forme ne soit pas pleine, et qu’elles sont basées sur une recherche a priori des lignes. De plus, bien qu’elles soient globalement peu sensibles aux bruits, certaines images trop fortement bruitées peuvent gêner la détection de jonctions en introduisant de fausses surépaisseurs de traits.

(35)

35

3.4 Méthodes basées sur la décomposition en plages

Le principe est de décomposer une forme en trois catégories de bandes verticales (ou horizontales) : plage "extrémité", plage "ligne" ou plage "jonction" afin de construire un graphe représentant l'organisation de ces plages au sein de la forme.

En fait, il s’agit pour ces méthodes de décomposer la forme en plages (ou bandes) de pixels verticales et/ou horizontales. Chaque ligne (ou colonne) de l’image est parcourue afin de détecter des séquences maximales de pixels "forme". Le but est alors pour chaque détection de plage d’étudier leurs relations d’adjacence et de les identifier ensuite en tant que plage "extrémité", plage "ligne" ou plage "jonction" (voir [42,194]). Dans [27], on trouve un formalisme de ce type de méthodes et les définitions de ces notions. A partir de cette décomposition en plages, de leurs relations d’adjacence et de leur classification, il est possible de construire différents types de graphes. Dans [27], l’auteur présente trois types décrits par la figure 2.5. Dans le LAG (Line Adjacency Graph) chaque nœud représente une plage et chaque arc représente les relations d’adjacence. Dans le VSG (Vertical Simple Graph) les nœuds sont uniquement les plages extrémités et jonctions, et les arcs représentent les plages lignes. Dans le MRG (Mixed Run Graph), un ensemble de règles est mis en œuvre pour fusionner des plages verticales et horizontales et fournir ainsi un autre graphe dont les nœuds sont également les jonctions et les extrémités.

A partir de ce dernier type de graphes, il est possible d’extraire les contours [55] et les squelettes des composantes connexes [103,202].

Figure 2-5 : Graphes de plages (figure extraite de [27]).

Cette catégorie de méthodes permet une bonne détection des jonctions et des lignes.

Elle fournit de plus une bonne représentation des formes y compris des formes pleines, et permet l’extraction d’une représentation topologiquement riche. Ces méthodes sont cependant

(36)

36

sensibles aux changements d’orientation mais surtout aux détériorations qui parsèment les formes de pixels de fond.

3.5 Méthodes basées sur la segmentation en régions

Il s'agit d'identifier et d'étiqueter chaque pixel d'une forme comme appartenant à une région "extrémité", "ligne" ou "jonction" (calcul de "distances d'orientation" dans toutes les directions pour former une courbe dont les pics permettent d'identifier le type de région).

Un problème se pose lors de la squelettisation. Il s’agit des distorsions de jonctions. Ce problème survient au niveau de la construction des jonctions d’un squelette de forme. Par exemple dans le cas d’une squelettisation d’une forme contenant une jonction dite en "X"

(avec quatre branches), on obtient dans la plupart des cas une double jonction en "Y" (avec trois branches). C’est pour pallier à ce problème qu’ont été introduites les méthodes de segmentation en régions. Il existe à ce jour peu de travaux sur ces méthodes. Nous n’en référençons que deux : [36,31]. Il s’agit ici d’identifier dans une forme, les régions

"jonctions", les régions "lignes" et les régions "extrémités". Cette identification se réalise pixel par pixel à l’aide de méthodes mathématiques. Pour chaque pixel de forme, un calcul de plusieurs distances dites "d’orientation" est réalisé selon toutes les directions autour du pixel.

Toutes ces distances, mises bout à bout sous forme de courbes, comme dans la figure 2-6 [36], permettent de faire apparaître des pics correspondant aux différents "traits" de la forme qui entourent le pixel. Le nombre de pics identifiés pour un pixel permet de déterminer s’il s’agit d’un pixel d’une jonction, d’une ligne ou d’une extrémité. Les jonctions d’une forme sont alors identifiées précisément, résolvant ainsi le problème des distorsions de jonctions rencontré dans la squelettisation. Il est évident que le principal inconvénient de ce type de méthodes est la complexité algorithmique : pour chaque pixel, un grand nombre de calculs est effectué. De plus, elles ne permettent pas la détection des axes médians et fournissent donc une représentation faiblement informative. Cependant, elles permettent une très bonne détection des jonctions, sont robustes aux bruits et sont invariantes aux changements d’échelle et d’orientation.