• Aucun résultat trouvé

Détection et localisation de texte dans les images de scènes naturelles : Application à la détection des plaques d'immatriculation marocaines

N/A
N/A
Protected

Academic year: 2021

Partager "Détection et localisation de texte dans les images de scènes naturelles : Application à la détection des plaques d'immatriculation marocaines"

Copied!
132
0
0

Texte intégral

(1)

Faculté des Sciences Rabat

UFR Informatique et Télécommunications THÈSE DE DOCTORAT

Présentée par : Hinde ANOUAL

Discipline : Sciences de l’ingénieur

Spécialité : Informatique et Télécommunications

Détection et Localisation de texte dans les images de scènes naturelles : Application à la détection des plaques d’immatriculation marocaines

Soutenue le : 14 Juillet 2012 Devant le jury

Président :

Driss ABOUTAJDINE, PES, Faculté des Sciences de Rabat, Maroc Examinateurs :

Ahmed HAMMOUCH, PES (ENSET, Rabat, Maroc) My Driss RAHMANI, PES (FSR, Rabat, Maroc) Abdelaziz BENSRHAIR, PES (INSA, Rouen, France) S. Ouatik El Alaoui, PH (FSDM, Fès, Maroc)

Mohamed EL HAZITI, PA (EST, Salé, Maroc) Mme Sanaa EL FKIHI, PA (ENSIAS, Rabat, Maroc

(2)
(3)

Les travaux présentés dans ce mémoire ont été effectués au Laboratoire de Recherche en In-formatique et Télécommunications (LRIT) à la Faculté des Sciences de Rabat, Université Moha-med V-Agdal, sous la direction du Professeur Driss ABOUTAJDINE, responsable du laboratoire LRIT, à qui je tiens à exprimer ma profonde gratitude pour m’avoir encadrée avec un grand inté-rêt ainsi que pour ses encouragements, son ouverture d’esprit et bien sûr ses qualités scientifiques exceptionnelles.

Je ne pourrais jamais assez remercier Mme Sanaa ELFKIHI, Professeur Assistant à l’Ecole Na-tionale Supérieure d’Informatique et d’Analyse des Systèmes et Mr Abdelilah JILBAB, Professeur Assistant à l’Ecole Normale Supérieure de l’Enseignement Technique Rabat, mes co-encadrants, pour le temps qu’ils m’ont consacré, leurs idées et leurs encouragements. Un grand merci à Mme ELFKIHI pour sa disponibilité, son enthousiasme, son écoute et les idées engendrées lors de nos discussions. Merci à Mr JILBAB pour ses conseils, qui m’ont été toujours précieux, sans oublier bien sûr le partage de ses connaissances sur le monde de la recherche. Merci également à tous les deux pour vos relectures et remarques éclairées concernant mes articles et présentations.

Je remercie les membres de mon jury de thèse pour l’intérêt qu’ils ont porté à mon travail. Merci au Professeur Driss ABOUTAJDINE d’avoir accepté de présider mon jury de thèse. Je tiens à remercier Mr My Driss RAHMANI, professeur à la faculté des sciences Rabat. Que Mr Ahmed HAMMOUCH, Professeur à l’Ecole Normale Supérieure de l’Enseignement Technique

(4)

gratitude pour le temps qu’ils ont bien voulu consacrer à la lecture approfondie de ce manuscrit en tant que rapporteurs. Je remercie également Mr Mohammed ELHAZITI, professeur Assistant à l’Ecole Supérieure de Technologie de Salé et Mr Said Ouatik EL ALAOUI, Professeur Habilité à la Faculté des Sciences Dhar el Mehraz de Fès. Je garde le meilleur pour la fin, ma famille qui a supporté toutes les difficultés morales et matérielles pour me soutenir tout au long de mes études, et à laquelle une très grande partie du travail que j’achève maintenant est due. A mes parents qui ont toujours eu une forte confiance en ma réussite, que Dieu les garde et les bénisse : ma très chère maman, qui je ne saurais jamais remercier assez, pour sa passion, de m’avoir supportée et être à mes coté dans les moments les plus difficiles de ma vie, qui a pris soin de mon fils sans que je ne me fasse des soucis lors de la période de rédaction, mille merci maman. Mon papa, qui n’as jamais hésité de me soutenir et qui été là à tous moments. Tous les mots ne suffisent pas pour exprimer le respect et l’amour que j’avoue pour eux. A mes très chers frères Abdelkrim et Tariq, qu’ils sachent combien ils comptent pour moi... Une pensée particulière à mon fils Yassine, à qui je demande pardon de ne pas être moralement à plein temps avec lui, et à ma nièce adorable Meryem. Finalement, je remercie chaleureusement une personne très particulière, qu’aucun mot ne saurait retranscrire ici sans l’affaiblir le bonheur qu’elle m’a toujours apporté depuis sa présence dans ma vie, ni l’ampleur de ce que je lui dois, je remercie infiniment mon mari pour l’aide qu’il m’a prodiguée, pour sa passion, d’avoir partagé mes moments de bonheur et de tristesse, mais aussi et surtout pour la formidable image de l’Humanité qu’il incarne à mes yeux. Merci pour tout.

Enfin, Merci à toutes les personnes que j’ai côtoyées durant mes études, plus particulièrement, Nawal, Najat, Meryem, Nabil, Ramon, pour leur aide et soutient.

Au cours de cette thèse, j’ai bénéficié d’une bourse d’excellence octroyée par le Centre Na-tional de Recherche Scientifique et Technique (CNRST) dans le cadre du programme des bourses de recherche initié par le ministère de l’éducation national de l’enseignement supérieur, de la formation des cadres et de la recherche scientifique.

(5)

La détection et localisation de texte constitue une étape principale dans les systèmes de recon-naissance de texte et dans plusieurs applications telles que la recherche sur le Web, l’indexation basée sur le contenu, la classification, et la récupération de données. Toutefois, c’est une tâche difficile à accomplir étant donnée les variations du texte dues aux différences de tailles, de styles, d’orientations et d’alignements, ainsi qu’à la complexité de l’arrière plan de l’image. Dans l’ob-jectif de surmonter ces contraintes, nos travaux de thèse ont pour fin de présenter une méthode robuste et efficace pour la détection et localisation de texte dans les images.

Dans la présente thèse, nous allons proposer deux méthodes de détection de texte dans les images, la première est basée sur la texture alors que la deuxième est basée sur la caractéristique du gradient du texte présent dans l’image. La validation de nos approches est établie par des expérimentations sur le corpus d’image ( International Conference on Document Analysis and Recognition (ICDAR)2003) afin d’évaluer leurs performances par rapport aux méthodes existantes dans la littérature. Ces expérimentations ont montré la robustesse et l’efficacité des méthodes proposées par rapport à l’existant.

Nous montrons l’utilisation de la détection de texte dans une application qui est la détection des plaques d’immatriculation de véhicules au Maroc. Les statistiques données par les résultats des expérimentations réalisées prouvent que les approches proposées dans cette thèse sont efficaces et faisables, et améliorent la qualité de la détection des plaques d’immatriculation de véhicules

(6)

Mots clefs : Détection de texte, reconnaissance de texte dans les images et vidéos, analyse

(7)

Text detection and localization represent an important step in recognition of systems and have several applications such as web search, content-based indexing, classification, and retrie-val. However, this is a difficult task due to many challenges which are the following : complex background, significant changes in character size, multiple color/font styles, and variety in text orientation and alignment. To face these challenges, extensive efforts have been made to extract text from images. This thesis presents a robust and efficient method for detecting and locating text in images.

In this thesis, two methods for detecting text in images are proposed. The first method is based on texture, and the second method is based on the gradient characteristic of the text in image. Experiments were carried out on a database consisting of 529 images. The database that was used was made available at the ICDAR 2003 Robust Reading Competition. The results of the experiments have shown the robustness and effectiveness of the proposed methods compared to existing ones.

There are many applications of text detection and localization ; in this thesis, it has been proposed to apply the advanced methods of text detection to identify Moroccan license plates. The statistics given by the experimental results carried out on our database show that the ap-proaches proposed in this thesis are effective, feasible, and improve the quality of vehicle license plate detection in color images.

(8)
(9)

Remerciement i

Résumé iii

Abstract v

Glossaire xi

Introduction générale 1

1 Détection de texte dans les images : revues des méthodes . . . 9

Détection de texte dans les images : revues des méthodes 9

1.1 Système de détection et de localisation de texte dans une image . . . 10 1.1.1 Extraction de l’information textuelle . . . 10 1.1.2 Qu’attend-on d’un système d’extraction de texte dans une image ? . . . . 11 1.2 Méthode existantes pour la détection et la localisation de texte . . . 12 1.2.1 Approches par segmentation et regroupement spatial . . . 12 1.2.2 Approches basées sur la texture et l’apprentissage des propriétés textuelles 15

(10)

1.4 Critères d’évaluation . . . 19

1.4.1 Rappel . . . 19

1.4.2 Précision . . . 19

1.4.3 Courbe Rappel/Précision . . . 20

1.4.4 Mesure de qualité F . . . 21

1.5 Le besoin - Applications de la détection de texte . . . 22

1.6 Discussion . . . 23

2 Détection et localisation de texte basées sur la texture . . . 27

2.1 Décomposition de l’image en multi-segment . . . 29

2.1.1 Définition de la texture . . . 29

2.1.2 Analyse de la texture d’image . . . 30

2.1.3 Segmentation des zones texturées . . . 34

2.1.4 Choix du masque . . . 39

2.2 Analyse des composantes connexes . . . 41

2.3 Expérimentations . . . 44 2.3.1 Corpus . . . 44 2.3.2 Comparaison . . . 45 2.3.3 Evaluation . . . 46 2.3.4 Résultats expérimentaux . . . 47 2.4 Discussion . . . 49

3 Détection et Localisation de texte basée sur le contour et le Gradient . . . . 51

3.1 Détection des régions candidates de texte . . . 53

3.1.1 Détection des contours . . . 53

3.1.2 Sélection des contours fermés . . . 57

3.2 Localisation de texte . . . 58

(11)

3.3 Expérimentations . . . 61

3.3.1 Comparaison . . . 62

3.3.2 Evaluation . . . 64

3.3.3 Résultats . . . 65

3.4 Discussion . . . 68

4 Application à la détection des plaques d’immatriculation Marocaines . . . 71

4.1 Motivation : Domaines d’utilisation de la détection des plaques d’immatriculation 74 4.2 Méthodes existantes pour la détection des plaques d’immatriculation . . . 75

4.3 Problèmes rencontrés dans le processus de PIV . . . 80

4.4 Caractéristiques des Plaques d’immatriculation de Véhicule (PIV) au Maroc . . . 80

4.4.1 Historique . . . 80

4.4.2 Caractéristiques des plaques marocaines . . . 81

4.5 Systèmes de détection et de localisation des plaques d’immatriculation de véhicules Marocaines . . . 83

4.5.1 Méthode basée sur la texture . . . 83

4.5.2 Méthode basée sur le contour et le gradient . . . 84

4.6 Evaluation . . . 85

4.6.1 Critères d’évaluation . . . 85

4.6.2 Corpus . . . 88

4.7 Bilan . . . 89

4.7.1 Résultats de la méthode basée sur la texture . . . 89

4.7.2 Résultats de la méthode basée sur le contour et le gradient . . . 91

4.8 Discussion . . . 95

(12)
(13)

ROC Reconnaissance Optique des Caractères OCR Optique Character Recognition

CCs Composantes Connexes

RVB (ou RGB) abréviations des 3 couleurs primaires additives (rouge, vert, bleu) utilisées pour coder les images couleur.

HSI Hue Saturation Intensity (nuance, saturation et intensité) TLS Teinte, Luminance, Saturation

MLP Multi-Layer Perceptron

SVM support Vector Machine

TVP Taux de Vrais Positifs

MB Macro Block

EM (Expectation Maximisation), algorithme de segmentation par espérance et maximisation

LPE Ligne de Partage des Eaux

SITs Systèmes Intelligents de Transport

(14)

SW Sliding Window

DTCNN Discrete Time Cellular Neural Networks PIV Plaque d’immatriculation de Véhicule ID Identificateur de Véhicule

VP Vrais Positifs

FP Faux Positifs

VN Vrais Négatifs

FN Faux Négatifs

ALPIVT Algorithme de Localisation des Plaques d’immatriculation de Véhicule basé sur la Texture

ALPIV Algorithme de Localisation des Plaques d’immatriculation de Véhicule RV Rapport de Vraisemblance

(15)

3.1 Notions utilisées pour la détection de contours. . . 54 3.2 Comparaison de performances des méthodes existantes et de la méthode proposée. 67

4.1 Tableau de confusion . . . 86 4.2 Tableau de confusion . . . 88 4.3 Les valeurs des critères obtenus par l’algorithme proposé ALPIVT . . . 91 4.4 Comparaison de quelques valeurs des critères obtenus par l’algorithme proposé

ALPIVT . . . 91 4.5 les valeurs des critères obtenus par l’algorithme proposé ALPIV . . . 94 4.6 les valeurs des critères obtenus par la méthode [Matas et al. , 2005] . . . 94 4.7 les valeurs du rapport de vraisemblance de l’algorithme proposé et la méthode

[Matas et al., 2005] . . . 94 4.8 Comparaison de quelques valeurs des critères obtenus par les algorithmes proposés

ALPIV et ALPIVT. . . 96 4.9 Les matrices de confusions des algorithmes proposés . . . 96 4.10 Tableau récapitulatif des résultats obtenus par les méthodes de détection des

(16)
(17)

1 Images avec textes incrustés. On note la variabilité des tailles des fontes, de styles

et de couleurs. . . 2

2 Quelques images de texte en scène : Images issues du corpus de la compétition de localisation de texte [ICDAR, 2003]. On note la présence des fonds complexes et de problèmes d’illumination. . . 2

1.1 Courbe appel-Précision . . . 21

2.1 Courbes Rappel/Précision des différentes tailles du Macro Block allant de 16 à 256.. 31

2.2 Courbes Rappel/Pécision des valeurs de : 0.65, 0.75, 0.8. . . 33

2.3 Quelques images (entrées et sorties) de l’étape d’analyse de texture. . . 34

2.4 Quelques images (entrées et sorties) de l’étape d’analyse de texture. . . 38

2.5 Quelques exemples de segmentation de texte dont la composante texte apparaît sur plusieurs masques (texte entouré par un cercle rouge sur le masque (f) et (h)). 39 2.6 Angle entre deux composantes représentant des caractères de texte. . . 40

2.7 image montrant la signification d’un trou. . . 42

2.8 Quelques images du corpus utilisé . . . 45

(18)

La première colonne présente les images couleurs correspondantes à l’entrée du système alors que La deuxième colonne correspond à la sortie du détecteur. . . . 48 3.1 Schéma du système proposé pour la détection et la localisation de texte dans les

images . . . 52 3.2 Détection de contours à l’aide des filtres classiques . . . 55 3.3 Résultats de l’étape de la détection de contour. A droite les images d’entrées (image

couleur) et à gauche les images de sorties issues du processus de la détection de contours. . . 56 3.4 Résultats de sélection des contours fermés ayant un nombre de trous inférieur à

3 : (a) Détection de contours, (b) sélection des contours fermés, (c) les contours fermés vérifiant la condition du nombre de trous. . . 58 3.5 Résultats du gradient magnitude. . . 60 3.6 Quelques images d’entrées et sorties de notre système de la détection et la

locali-sation de texte, les résultats sont représentés par des rectangles sur les caractères détectés. . . 61 3.7 Courbes Rappel/Précision de la méthode1 et de la méthode2 du gradient. . . 63 3.8 Courbes Rappel/Précision de notre méthode et celle de [Ezaki, 2004]. . . 65 3.9 Quelques entrées et sorties du détecteur et localisateur de texte basé sur le gradient

et les caractéristiques heuristiques du texte. La première colonne présente les images couleurs correspondants à l’entée du système. La deuxième colonne correspond à la sortie du détecteur. . . 66 3.10 Courbe Rappel/Précision de la méthode basée sur le contour et gradient et la

deuxième méthode basée sur la texture. . . 68 4.1 Quelques exemples de plaques d’immatriculation marocaines. . . 82 4.2 Exemples de plaques d’immatriculation marocaine binarisée. . . 84 4.3 Quelques exemples de la base de données utilisés pour tester les méthodes proposées. 89

(19)

d’immatriculation de véhicule, basé sur la texture. . . 89 4.5 La courbe Rappel/Précision de la méthode proposée. . . 90 4.6 Quelques exemples issus du système de la détection et la localisation de plaques

d’immatriculation de véhicule, basé sur le contour et gradient. . . 92 4.7 Les courbes Rappel/Précision des méthodes comparées. . . 93 4.8 Les courbes Rappel/Précision des méthodes proposées et la méthode de

(20)
(21)

Contexte g ´en ´erale et probl ´ematique

Vue l’influence remarquable de l’audio-visuel dans la vie moderne, on a accordé une primauté de l’image dans le domaine de la communication. En effet, l’image représente le moyen de commu-nication le plus efficace, le plus attirant et le plus approprié pour transmettre l’information entres différentes personnes. Le progrès scientifique et culturel ne serait pas possible sans les moyens permettant de préserver et de communiquer l’information. Aujourd’hui, des méthodes automa-tiques pour récupérer, répertorier et analyser les informations sont de plus en plus utilisées dans la vie quotidienne. L’accessibilité de l’information est donc un enjeu important.

Parmi toutes les informations, de nature très différentes, que l’on peut retirer des images, nous nous sommes plus particulièrement intéressés aux textes qu’elles contiennent. Parmi ces textes, on distingue généralement les " textes enfouis ", ajoutés a posteriori dans l’image, et les textes en scène qui correspondent á tous les textes que l’on trouve dans l’image. Quelques chercheurs donnent le nom de "Texte graphique" au texte en scène, et "Texte sur-imposé ", "Texte incrusté " ou "Texte artificiel" au texte enfoui dans l’image. Le "Texte incrusté " est un texte rajouté ou surimposé à l’image (Overlay Text, voir Figure1) lors de l’étape de son impression sur une image. Il est écrit de manière à ce qu’il soit visible pour le lecteur, et à garantir un meilleur contraste avec l’image.

(22)

Figure 1 – Images avec textes incrustés. On note la variabilité des tailles des fontes, de styles et de couleurs.

A la plupart du temps, le texte a un contraste plus élevé que l’arrière plan et généralement il est plus homogène dans ses caractéristiques. Citant quelques exemples de textes incrustés :

• Texte dans les logos ;

• Légende expliquant le contenue d’une image ; • Texte dans les images publicitaires.

La deuxième catégorie du texte est le "texte en scène" qui fait partie de l’image capturée par la caméra (Figure 2), il représente une partie inhérente de l’image et généralement sa présence dans celle-ci est involontaire. En outre, le texte en scène est difficile à détecter et peu de travaux on été réalisés dans ce sens.

Figure 2 – Quelques images de texte en scène : Images issues du corpus de la compétition de localisation de texte [ICDAR, 2003]. On note la présence des fonds complexes et de problèmes d’illumination.

(23)

Contrairement au texte artificiel, le texte en scène peut être petit, et des fois pas lisible puis-qu’il n’est pas destiné à l’être. On peut aussi le trouver en partie occulté ou fortement détruit par les conditions de capture de l’image, l’angle de prise de vue par rapport au texte, mais aussi à cause des caractéristiques de l’optique utilisée. Aussi les conditions d’éclairages intérieure/extérieure, jour/nuit, peuvent dégrader tant la couleur que le contraste du texte par rapport au fond. Ce-pendant, le texte présent dans l’image capturée peut bien être le fait d’un choix de mise en scène. C’est-à-dire, qu’on peut prendre les images de manière à ce que le texte soit lisible. Nous citons quelques exemples de texte en scène :

• Panneaux de signalisations ; • Noms de rues ;

• Noms de boutiques et de magasins ;

• Texte inscrit sur les T-shirts, sur les murs ; • Plaques d’immatriculation ;

• Publicités.

Le texte présent dans une image qu’il soit incrusté ou en scène est un exemple de descripteur de haut niveau de l’image. Ce descripteur est relié directement au contenu de l’image ; il décrit celle-ci dans le cas du texte incrusté, ou apporte des informations clés dans le cas du texte en scène (ex. : noms de boutiques, plaques de signalisation) ayant un sens au point de vue de l’utilisateur. Il possède des caractéristiques spécifiques qui le distinguent du reste du contenu de l’image.

L’oeil humaine peut facilement et rapidement identifier les régions du texte, chose qui s’avère très difficile pour un système de vision par ordinateur. Ainsi, il est impérativement nécessaire de connaître les propriétés du texte dans l’image afin de pouvoir implémenter un algorithme capable de détecter les différents types de texte avec différentes caractéristiques de ce dernier. Pour com-mencer, nous nous posons la question : comment peut-on définir un " Texte " ?

(24)

Définition 1 : Un texte est un ensemble de caractères alignés. Ces caractères peuvent êtres des lettres, ou des symboles d’un jeu de signes. Dans l’image un texte est une région de forme allongée, la taille, l’orientation, l’espacement de ses régions varient selon le type de texte.

Une bonne connaissance a priori des propriétés du texte, aidera à la conception d’un système robuste de détection de texte. Après une large étude du texte existant dans les images de la base ICDAR 2003 [ICDAR, 2003] qui est une base benchmark, nous avons pu déterminer les propriétés du texte suivantes :

Contour :

La plupart des textes en surimpression (texte incrusté) ou enfouis ont été défi-nis pour être facilement lisibles pour un observateur humain. On pourrait donc espérer un fort contraste du texte vis-à-vis du fond.

Géométrie :

Taille : Le texte apparaât avec des tailles différentes dans l’image. Il doit être lisible dans une distance spatiale.

Alignement : Les caractères en surimpression apparaissent en groupe. Ils sont le plus souvent alignés horizontalement. Ceci ne s’applique pas au texte enfoui : il peut être aligné dans n’importe quelle direction ou encore il peut comporter des effets typographiques de type "WordArt". Des déformations liées à la perspective peuvent également apparaître pour des textes non plans.

Distance inter-caractère : distance inter-caractère pour un même mot ou une ligne de texte est proche d’une constante.

Couleur :

Les caractères tendent à avoir une certaine unicité de teinte. Aussi beaucoup de recherches sont axées sur la caractérisation de lettres monochromes et contrastées. Les caractères

(25)

du texte peuvent être polychromes, et peuvent posséder des dégradés et/ou encore des couleurs différentes (ou une texture propre) pour un même caractère.

Le texte apparaissant dans une image peut fournir des informations très utiles et peut être un outil très important pour la description du contenu de celle-ci, ceci a fait naître un intérêt croissant de plusieurs chercheurs pour la récupération de l’information textuelle à partir des images. De ce fait, la détection de texte dans les images naturelles, par opposition à des scans de pages imprimées, des télécopies et cartes de visite, est une étape importante pour un certain nombre d’applications de Vision par ordinateur, telles que l’aide informatisée pour les mal voyants, l’indexation d’images basée sur le texte, le géocodage automatique des entreprises, l’analyse du contenu des vidéos, la navigation robotique en milieu urbain, la détection et la reconnaissance des plaques d’immatriculation et la détection automatique de panneaux pour l’aide à la circulation routière. La récupération des textes dans des endroits à la fois intérieure et extérieure fournit des indices contextuels pour une grande variété de tâches de vision. En outre, il a été démontré que la performance des algorithmes de recherche l’mages dépend de façon critique de la performance de leurs modules de détection de texte.

La détection et la localisation de texte ne sont pas aussi faciles que l’on imagine pour les raisons suivantes. Tout d’abord, la taille du texte peut changer de petite à grande, et les polices de texte peuvent varier dans un large éventail. Deuxièmement, les textes présents dans une image peuvent avoir plusieurs couleurs et apparaissent dans un contexte très encombré. De nombreux articles sur la détection et la localisation de textes à partir d’images statiques ont été publiés ces dernières années. Les méthodes proposées peuvent être classées en des méthodes basées sur la segmentation et regroupement spatial et d’autres basées sur la texture.

Le travail de recherche décrit dans cette thèse traite la nécessité d’extraire les informations textuelles à partir d’images. Dans notre travail, nous nous concentrons sur le développement d’un algorithme robuste de détection et localisation de texte en scène dans les images.

Nos objectifs sont : (1) l’efficacité, en particulier avoir un taux de détection élevé et un faible taux de faux positifs et (2) la performance dans la vitesse de détection ;

(26)

texte intégré a augmenté rapidement. Etre capable de détecter le texte intégré dans ces images sera un bon point de départ pour approfondir l’analyse des contenus reçus. La deuxième motivation de notre travail est d’améliorer la précision de la détection de texte au-delà des résultats des travaux précédents.

Contenu de m ´emoire

Nous avons présenté précédemment, le fort besoin de l’utilisation de la détection et la locali-sation de texte dans les images. La suite de ce mémoire est organisée comme suit :

Le chapitre 1 : Ce chapitre expose l’utilité d’un système d’extraction de l’information de texte dans les images. Il présente aussi un état de l’art de la détection et de la localisation de texte dans les images.

Le chapitre 2 : Il décrit la première technique de la détection et de la localisation de texte que nous proposons dans ce rapport. Cette méthode se base principalement sur la texture vu que le texte possède une texture unique qui montre une certaine régularité ; les régions de texte sont considérées comme des régions de texture à isoler du reste de l’image.

Le chapitre 3 : Il détaille notre deuxième approche proposée pour la détection et la localisation. Cette technique est constituée de deux étapes : dans la première étape les régions candidates de texte dans l’image sont détectées alors que la seconde étape nous nous basons sur les caractéristiques du gradient des régions détectées pour raffiner la détections. Or, l’existence parfois d’objets, ayant les mêmes caractéristiques de gradient que celles du texte, génère de fausses détections. Dans l’étape de vérification, ces fausses détections sont prises en compte et éliminées grâce à des caractéristiques heuristiques.

Le chapitre 4 : Ce chapitre a pour fin d’étudier les performances des méthodes proposées et étudiées dans les chapitres précédents, et cela dans le cas particulier de l’application de la détection des plaques d’immatriculation des véhicules au Maroc. Les méthodes de la

(27)

détection et de la localisation des plaques d’immatriculation dans la littérature sont d’abord présentées. Nous concluons ces travaux en mettant en perspective nos contributions et en présentant les différentes pistes de recherche qui en découlent.

Liste des publications

Journaux internationaux

– H. ANOUAL, S. EL FKIHI, A. JILBAB, D. ABOUTAJDINE, " Edge Features and Geo-metrical Properties based Approach for Vehicle License Plate Detection and Localization ",International Journal of Mobile Computing and Multimedia Communications, 4(2), 63-76, April-June 2012.

Conférences internationales

– H. ANOUAL, S. EL FKIHI, A. JILBAB, D. ABOUTAJDINE, "Localizing Text in natural scene images with complex background " International Conference on Multimedia Compu-ting and Systems (ICMCS) , Tangier , MOROCCO , 10-12 May, 2012.

– H. ANOUAL, S. EL FKIHI, A. JILBAB, D. ABOUTAJDINE, "Vehicle license plate detec-tion in images" Internadetec-tional Conference on Multimedia Computing and Systems (ICMCS) , Ouarzazate , MOROCCO , 7-9 April, 2011.

– H.ANOUAL, S.EL FKIHI, A. JILBAB , D. ABOUTAJDINE "New Approach Based on Tex-ture and Geometric FeaTex-tures for Text Detection", 4th International Conference on Image and Signal Processing 2010 (ICISP 2010) , Lecture Notes in Computer Science (LNCS), vol. 6134, pp. 157-164, Trois - Rivières, QC,Canada, June 30/July 1-2, 2010.

– H.ANOUAL, S.EL FKIHI, A. JILBAB, D. ABOUTAJDINE "Features Extraction for Text Detection and Localization", 5th International Symposium on I/V Communications and Mobile Networks (ISIVC10), Rabat, September 30, October 1-2, 2010.

(28)

– H.Anoual, "Détection de Visage dans une Image couleur simple", Workshop sur les Techno-logies de l’Information et de la Communication (WOTIC 2007), 5-6 Juillet 2007 à l’ENSIAS, Rabat, Maroc.

Conférences nationales

– H.ANOUAL, A.JILBAB, D. ABOUTAJDINE "Technique de Détection de texte dans les logos". JDTIC’08, ENSIAS- RABAT, 16-18 Juillet 2009. Maroc.

– H.Anoual, A.Jilbab, D.Aboutajdine " Détection de texte dans une image" , Journées Doc-torales du Laboratoire LRIT JDLRIT , Faculté des Sciences - Rabat, 25-26 Avril 2008.

– H.Anoual, A.Jilbab, D.Aboutajdine "Détection de texte dans les logos à fond complexe", 6ème Journées d’optique et de traitement de l’information (OPTIQUE08), 17-18 Avril 2008 à l’FST, Mohammedia , Maroc.

(29)

1

ETECTION DE TEXTE DANS LES IMAGES

:

REVUES DES M

´

ETHODES

Sommaire

1.1 Système de détection et de localisation de texte dans une image . . 10

1.1.1 Extraction de l’information textuelle . . . 10 1.1.2 Qu’attend-on d’un système d’extraction de texte dans une image ? . . . 11

1.2 Méthode existantes pour la détection et la localisation de texte . . 12

1.2.1 Approches par segmentation et regroupement spatial . . . 12 1.2.2 Approches basées sur la texture et l’apprentissage des propriétés textuelles 15

1.3 Bilan des problèmes . . . . 18 1.4 Critères d’évaluation . . . . 19

1.4.1 Rappel . . . 19 1.4.2 Précision . . . 19 1.4.3 Courbe Rappel/Précision . . . 20 1.4.4 Mesure de qualité F . . . . 21

1.5 Le besoin - Applications de la détection de texte . . . . 22 1.6 Discussion . . . . 23

(30)

Le texte présent dans les images et les vidéos contient des informations utiles pour l’anno-tation automatique, l’indexation et la structuration des images. L’extraction de ces informations implique la détection, la localisation, et l’extraction du texte dans une image donnée. Toutefois, les variations du texte dues aux différences de tailles, de styles, d’orientations et d’alignements, ainsi que la complexité de l’arrière plan de l’image rendent le problème de l’extraction automatique de texte extrêmement difficile. Dans ce chapitre nous allons définir l’utilité d’un système d’extraction de l’information de texte. Ainsi nous passerons en revue les méthodes et les approches existantes pour la détection et la localisation de texte dans les images. Nous allons présenter les résumés et les principales étapes de ces méthodes.

1.1 Syst `eme de d ´etection et de localisation de texte dans une image

1.1.1 Extraction de l’information textuelle

En général, l’accès à l’information textuelle dans l’image est difficile pour un système de vision par ordinateur. Cette information est généralement noyée dans le reste de l’image. Il est donc généralement impossible d’utiliser une reconnaissance optique de caractères ROC1 classique (en anglais Optical Character Recognition : OCR), qui désigne les procédés informatiques pour la traduction d’images de textes imprimés ou dactylographiés en fichiers de texte. Le ROC procède beaucoup moins que l’être humain qui, lui, exécute, en plus de la reconnaissance, la compréhen-sion du message, sa mémorisation, voire son analyse critique en même temps. Celui-ci n’étant pas en mesure de distinguer le texte du reste de l’image. Il est donc nécessaire de détecter spatiale-ment et d’isoler les zones contenant du texte pour ensuite les prétraiter avant de procéder à la reconnaissance du texte en tant que tel.

L’idée d’utiliser des informations de plus haut niveau (l’information textuelle par exemple) apparaît comme un moyen efficace pour comprendre le contenu des images. Plusieurs approches pour l’extraction des informations textuelles à partir d’images ont été proposées pour des appli-cations dont la segmentation de document, la localisation des blocks d’adresse,

1. Les étapes d’un système ROC sont les suivantes :(1) Pré- principales analyse de ”image, (2) Segmentation en lignes et en caractères, (3) Reconnaissance proprement dite des caractères, (Post-traitement utilisant des règles linguistiques et contextuelles pour réduire le nombre d’erreurs de reconnaissance).

(31)

la localisation des plaques d’immatriculation, et l’indexation d’image/vidéo basée sur le contenu. En dépit des travaux déjà réalisés dans ce sujet, il n’est toujours pas facile de concevoir un système d’extraction de l’information textuelle dans un usage général. C’est parce qu’il y a tant de sources possibles de variation lors de l’extraction du texte à partir d’un fond complexe et texturé, à partir d’images de faible contraste, ou à partir d’images ayant des variations dans la taille de la police, du style, de la couleur, de l’orientation, de l’alignement, etc. Ces variations rendent le problème de l’extraction de l’information de texte automatique extrêmement difficile.

1.1.2 Qu’attend-on d’un syst `eme d’extraction de texte dans une image ?

A fin d’extraire l’information textuelle d’une image il faut faire appel à un système d’extraction de texte qui prend en considération la typologie et les propriétés du texte définies dans les sections précédentes. Définissons maintenant ce que c’est un système d’extraction de texte. Un Système d’extraction de texte est un système qui reçoit une image pouvant être en niveaux de gris, couleur, compressée ou non compressée, et qui donne en sortie une image avec des rectangles qui englobent les textes présents dans l’image. Il est généralement décomposé en trois étapes, (1) détection, (2) localisation, (3) extraction. Dans la littérature, quelques unes de ces étapes sont souvent confondues. Pour cela, nous définissons ici le but de chaque étape :

Détection de texte : Détermine la présence potentielle de texte dans une image. Cette étape répond par ’oui’ ou ’non’ pour une image donnée.

Remarque 1. 1 : Beaucoup d’auteurs partent du principe que les images qu’ils ont à traiter contiennent du texte, ce qui rend cette phase dans ce cas là souvent absente.

Localisation des zones de texte : le but de la phase de Localisation des zones de texte dans l’image et de déterminer l’emplacement exacte du texte et créer enfin des boîtes entourant les régions texte.

Extraction : c’est l’étape d’extraction des caractères composant le texte afin de les faire passer une par une dans des systèmes de reconnaissance. Cette étape est surtout nécessaire si nous

(32)

avons besoin de reconnaître le texte détecté.

Dans les chapitres qui suivent nous utilisons le terme "Détection" dans le sens de la détection des régions potentielles de texte, et "Localisation" dans le sens de "localisation et extraction".

1.2 M ´ethode existantes pour la d ´etection et la localisation de texte

Nous avons classé les méthodes de la détection et la localisation de texte qui existent dans la littérature en deux catégories : les méthodes basées sur la segmentation et regroupement spatial, et les méthodes basées sur la texture et l’apprentissage des propriétés textuelles.

1.2.1 Approches par segmentation et regroupement spatial

Ce sont des méthodes qui segmentent directement les images en des régions et qui regroupent les régions de caractères en des mots. Elles sont connues sous le nom de méthodes "Bas vers haut" (Bottom-up) puisqu’elles partent du bas vers le haut pour identifier les petites structures et regrouper celles-ci afin de former des régions.

Ces méthodes se basent sur les caractéristiques de couleurs, les niveaux de gris des pixels des régions, ou encore sur la différence du contraste avec le fond [Lopresti & Zhou, 2000], [Jain & Yu, 1998]. Certains auteurs ont mis l’accent sur la localisation du texte [Epshtein et al., 2010], [Ezaki, 2004], ou à la lecture du texte à partir des zones segmentées des images [Weinman et al. , 2009]. Dans ce contexte, le travail de [Lim, Park, & Medioni, 2007] est centré autour de l’analyse en composantes connexes (CCs) - aussi dites composantes connectées- dans laquelle les pixels de couleurs similaires sont regroupés en régions homogènes, et ensuite en des régions de texte. Pour Zhou et al. [Zhou, Lopresti, & Lei, 1997], [Zhou, Lopresti & Tasdizen, 1998], ils utilisent une méthode basée sur composante connexes après quantification de couleur.

Dans [Zhong et el. , 1995] Zhong et al proposent une technique hybride pour l’extraction de texte dans des images en couleur complexes et en particulier dans les pages de couverture CD. La première méthode segmente l’image couleur en des composantes connexes ayant des couleurs uniformes, et utilise des contraintes de taille et d’alignement pour classer les composantes comme régions texte ou non-texte. Dans cette méthode, le processus de quantification des couleurs est

(33)

basé sur le lissage d’histogramme. La première méthode est précédée par une autre qui extrait les régions de texte en examinant la variation spatiale dans l’image aux niveaux de gris. La méthode est limétée aux textes horizontaux et échoue lorsque les régions de texte sont coupées par d’autres objets de l’image. Quant è la méthode de Hori [Hori, 1999], elle recherche les régions de texte en dilatant les contours de l’image ; la plus grande partie de son fonctionnement est consacrée à la binarisation et la suppression du fond complexe. [Hasan & Karam, 2000] proposent de convertir l’image de couleur en un canal d’intensité Y avec une proportion spécifique (Y = 0.299R + 0.587V + 0.114B) où R, V, B sont les valeurs des pixels dans les canaux Rouge, Vert et Bleu de l’espace RVB. Les contours sont ensuite identifiés par un opérateur morphologique de type gradient. En utilisant une dilatation, les contours sont groupés selon le critère de proximité pour former des régions. A la fin, un critère géométrique sur les régions elles-mêmes a été utilisé pour filtrer les régions non-textuelles. Pour Liu et al. [Liu, Wang, & Dai, 2005], leur méthode extrait les caractéristiques de contour en utilisant l’opérateur de Sobel. Cette méthode est capable de déterminer la limite exacte de chaque bloc de texte. Cependant, elle est sensible aux valeurs de seuil pour la détection de contours.

Le seuillage basé sur l’histogramme est l’une des techniques les plus utilisées pour la segmen-tation d’images monochromes. Les images sont composées de plusieurs régions homogènes avec des valeurs de pixel différentes ; le texte fait partie de ces régions. Un histogramme est utilisé pour compter le nombre de chaque valeur de pixel. Par la suite, les Pics dans l’histogramme (ce qui si-gnifie que plusieurs pixels ont cette même valeur) sont considérés comme des régions è segmenter. Le seuil utilisé pour la segmentation est choisi comme étant la valeur correspondante è la vallée entre deux pics. Les auteurs de [Thillou et al. , 2005] ont obtenu un seuil optimal pour la segmen-tation de texte pour les malvoyants. Par contre, leur méthode est très dépendante de la couleur du texte et du taux de détection se dégrade avec une faible chromaticité. Messelodi et Modène [Messelodi & Modena, 1999] ont choisi deux seuils pour isoler strictement le pic correspondant au texte. Ces méthodes fonctionnent bien avec de faibles ressources de calcul, mais surtout sur le niveau de gris des images ou de façon indépendante sur chaque canal de couleur. Par ailleurs, elles échouent pour des images sans aucun pic, ou avec de larges vallées qui apparaissent pour un arrière plan complexe, et lorsque les couleurs sont légèrement différentes.

(34)

Lienhart et al. [Lienhart & Stuber, 1996], [Lienhart, 1996] ont utilisé un algorithme de seg-mentation "split-merge" plus amélioré que le seuillage pour classifier les pixels dans l’image en deux classes : texte et non-texte. L’algorithme de segmentation est basé sur la décomposition hiérarchique de l’image. Le processus "split" commence avec l’image entière comme un segment initial, qui est ensuite divisé en quatre segments. La division continue pour chaque segment ob-tenu et s’arrête lorsque le critère d’homogénéité est satisfait. Dans l’étape de fusion ("merge"), deux segments adjacents sont fusionnés si les valeurs d’intensités moyenne des deux segments sont similaires. L’amélioration du résultat de segmentation est ensuite effectuée par l’analyse des contrastes pour l’image simple. A fin de filtrer les composantes non-textuelles une analyse géo-métrique est appliquée. La méthode n’est pas limitée aux textes horizontaux mais elle est très sensible aux seuils.

Pour Park et al. [Park, Yoo, & Lee, 2007], ils considèrent que les images d’entrées de leur méthode peuvent être présentées en tant que composantes chromatique, couleur pure (pas de niveaux de gris des régions), ou avec des composantes achromatiques. Les composantes chroma-tiques sont mieux décrites en utilisant les éléments de teinte des pixels, tandis que les composantes achromatiques sont distinguées à l’aide d’intensité. Chaque pixel est donc étiqueté comme étant soit chromatique ou achromatique, afin de déterminer une fonction appropriée (comme la teinte ou l’intensité dans l’espace HSI). ils considèrent que les textes sont à peu près homogènes dans l’espace, et utilisent un processus d’étiquetage qui divise approximativement l’image en plusieurs couches. Les Pixels de bruit sont ensuite éliminés par un filtre médian. Enfin, les composantes chromatiques et achromatiques sont séparées par la méthode de segmentation K-plus proches voisins (K-means) [MacQueen, 1967] basée sur l’histogramme.

Karatzas et Antonacopoulos [Karatzas & Antonacopoulos, 2006] ont exploité les caractéris-tiques de la perception humaine des différences de couleur, en se basant sur certaines observations sur le texte dans les images du Web. ils se sont basés sur le fait que le texte dans les images du Web est produit en utilisant un logiciel, et optimisé de façon qu’il soit bien visible sur l’écran. La méthode présentée par ces auteurs est basée sur une combinaison de Teinte, Luminance et Satu-ration (TLS). En général, la méthode fonctionne par "split-and-merge" pour identifier et analyser les régions qui sont différentes en couleurs.

(35)

L’image est d’abord (récursivement) "split", basée sur l’analyse de l’histogramme, et ensuite une arborescence de couches est créé. Les composantes connexes sont alors identifiées dans les couches de feuilles de l’arborescence, par la suite, un processus de fusion combine les composantes connexes de couleurs similaires.

Dans le travail de [Pratheeba et al., 2010 ] une carte binaire morphologique est générée en calculant la différence entre l’image de fermeture et l’image d’ouverture. Puis les régions candidates sont connectées en faisant appel à l’opération morphologique qui est la dilatation. A la fin, les régions de texte détectées sont localisées en utilisant la projection des pixels du texte dans la carte morphologique binaire.

1.2.2 Approches bas ´ees sur la texture et l’apprentissage des propri ´et ´es textuelles

Ces approches partent de l’observation que le texte est considéré comme une zone dense de caractéristiques, à laquelle on peut assimiler une texture comportant des motifs plus ou moins régulières et qui peut distinguer le texte du fond de l’image. Ces propriétés de textures sont carac-térisées par des techniques basées sur le filtre de Gabor [Jain & Bhattacharjee, 1992], la variance spatiale, les ondelettes, la transformé de Fourier, etc. Par exemple, [Mao et al. , 2002] ont proposé une approche qui est applicable dans le cas de texte latin et des idéogrammes. Cette méthode est réalisée à plusieurs échelles. A chaque échelle, ils calculent la variation d’énergie locale pour tout pixel. Cette variation est mesurée par une transformation d’ondelette (c.à.d. décomposition de Harr) et seuillée par la suite. L’image binaire obtenue passe ensuite à la phase d’analyse des composantes connexes. Ces composantes sont finalement raffinées par une projection profil. Un filtrage géométrique est utilisé pour classifier les régions de texte ou non-texte. Par ailleurs, la méthode est limitée aux textes horizontaux ou verticaux à cause de l’utilisation de projection profil dans l’étape d’analyse de composantes connexes. Cette approche peut être capable de dé-tecter des textes avec une variété forte de taille si elle est réalisée à toutes les échelles dans la décomposition de Haar.

Les auteurs de [Wu, Manmatha, & Riseman, 1997] ;[ Wu & Manmatha, 1998] proposent un algorithme basé sur le gradient de l’image produit par neuf dérivées de gaussiennes du second ordre. L’image est ensuite classifiée en texte, fond et autres. Ensuite, un processus en cinq étapes

(36)

permet de déterminer les régions de texte dans l’image à chaque échelle : (1) génération de traits, (2) filtrage des traits, (3) agrégation des traits, (4) filtrage des régions, (5) extension des régions. Une phase de fusion des régions de textes à différentes échelles est réalisée à la fin. Cette approche est multi-échelle mais le fait de détecter les textes à trois niveaux seulement semble insuffisant pour une forte variation de taille des caractères dans l’image. Quelques textes de petites tailles sont manqués. De plus, le calcul de neuf dérivées de gaussiennes et la segmentation par l’algorithme des K-plus proches voisins coûte cher et ne permet pas toujours de localiser les régions d’intérêt. Garcia et Apostolidis [Garcia & Apostolidis, 2000] ont proposé une méthode, appelée la variance de l’orientation du contour, basée sur le fait que le texte contient des contours dans des orientations différentes. La variation des orientations de contour a été calculée dans une zone locale de l’image du gradient, et combinée avec des caractéristiques du contour pour localiser les blocs de texte.

Le Travail de [LeBourgeois, 1997] est basé sur l’accumulation des gradients horizontaux sur une fenêtre glissante. L’image est ensuite découpée par suivi des profils de projections horizontaux et verticaux. Quant à Wong et Chen [Wong et al. , 2000] ils localisent le texte dans le plan de luminance d’une image. La méthode fait passer une fenêtre le long de l’image, en déterminant la différence entre le maximum et le minimum de gradient dans la fenêtre. Les passages par zéro du gradient, la moyenne ainsi que la variance entre les passages par zéro sont calculés. Les pixels sont marqués comme du texte si la différence de leur gradient dans la fenêtre est élevée, l’écart est faible, et la moyenne se situe dans une fourchette raisonnable.

Puisque l’utilisation de la texture est sensible au bruit, à la taille et aux styles des caractères, il s’avère difficile de générer manuellement des filtres de texture adaptés à toutes les situations. Les méthodes basées sur la texture sont capables de détecter les textes sur fond complexe. Pourtant, ces méthodes nécessitent un temps de calcul important. Par conséquent, des méthodes d’ap-prentissages ont été proposées pour permettre de créer les filtres de façon automatique [Jain & Bhattacharjee, 1992] ; [Jain & Karu, 1996] ; [Jung, 2001] ; [Jeong, Jung, & Kim, 1999]. Certains systèmes de détection de texte utilisent des détecteurs basés sur des méthodes d’apprentissage [Li & Doermann, 1999] ; [ Lienhart & Wernicke, 2002]. Les systèmes de détection et localisation de texte basés sur les ondelettes [Li & Doermann, 1999] ou encore sur les dérivées secondes [Lienhart

(37)

& Wernicke, 2002] proposent de fixer la taille des blocs de pixels et de classer les vecteurs caracté-ristiques en texte ou non texte en utilisant des réseaux neuronaux. Dans [Wolf, 2003] on propose un jeu de descripteurs comprenant la force des gradients accumulés et l’estimation de la hauteur de la ligne de base potentielle pour la détection de texte en surimpression et de publicités.

Li et al [Li, Doermann, & Kia, 2000] suggèrent d’appliquer les ondelettes et un réseau de neurones pour trouver le texte. Une fenêtre de 16x16 pixels est glissée sur l’image. La transformée en ondelettes des pixels dans la fenêtre est calculée, et leur moments sont utilisées comme entrée au réseau de neurones. Si le classificateur indique une zone de texte, tous les pixels dans la fenêtre sont marqués comme du texte. Une boîte englobante horizontale est déterminée pour chaque composante connexe de pixels du texte. Ce processus est répété sur des échelles différentes pour permettre la détection de texte de tailles différentes.

Les travaux de Chen [Chen, Odobez & Bourlard, 2004] ; [Chen, Odobez & Thiran, 2004] ; [Chen, 2003] sélectionnent tout d’abord des régions d’intérêt par un algorithme rapide du type "Approche dérivative". Ils calculent ensuite un certain nombre de descripteurs (Gradient, Carte des distances, Variance du gradient et coefficient DCT) sur des fenêtres glissantes, et propose à la fin l’utilisation d’un Perceptron Multi-Couche (MultiLayer Perceptron, MLP) [Rosenblatt, 1962] et des machines à support vecteurs (Support Vector Machine, SVM) [Vapnik, 1998].

Dans [Ye et al., 2003], on utilise d’abord la détection de contours pour localiser les régions candidates de textes puis on vérifie ces régions candidates par SVM. Pour [Kim, Jung & H. Kim, 2003] et [Wolf & Jolin, 2004] ils utilisent également SVM, avec le gradient de contour et la texture comme principales caractéristiques. Li et al. [Li et al. , 2008] utilisent aussi SVM pour identifier les régions de texte.

Dans la méthode de Ye et al [Ye et al. , 2005], les auteurs proposent une approche itérative : dans une première passe, ils procèdent à une décomposition en ondelettes de Daubechies pour n échelles de l’image, les pixels candidats pour chaque échelle sont classifiés (Texte/Non Texte). Un processus de croissance de régions basé sur la connexité et l’intensité des coefficients est réalisé pour créer les zones potentielles de texte. Ces zones pouvant être constituées de plusieurs lignes de texte, un algorithme de découpage basé sur les projections de profils est utilisé. La méthode fait ensuite une deuxième passe où pour chaque bloc retenu, on calcule un jeu de descripteurs

(38)

basé d’une part, sur des statistiques concernant les coefficients d’ondelette et d’autre part sur les passages par zéro du gradient le long du bloc. Ces descripteurs sont soumis à une SVM couplée à une méthode bootstrap. Il s’agit d’une méthode itérative de sélection recommandée par Saung et Poggio [Sung et al. , 1994]. Toutes les zones retenues pour chaque échelle sont ensuite rétro-projetées à l’échelle initiale.

1.3 Bilan des probl `emes

Nous avons présenté dans la section précédente quelques méthodes et approches de la détec-tion et la localisadétec-tion de texte existantes dans la littérature. Après études des différentes méthodes nous identifions les problèmes suivant :

• Taille du texte : l’existence des méthodes multi-échelle n’as toujours pas résolu le problème de différence de tailles des caractères de texte, bien que le nombre maximal de niveaux est égal à 3, ceci est insuffisant à cause de la forte variation de la taille de texte.

• Orientation du texte : La plupart des méthodes proposées supposent que l’orientation des textes est horizontale ou verticale, elles sont applicables aux textes incrustés et se prêtent mal à la détection de textes en scène.

• Complexité du fond : la complexité de l’arrière plan dans les images rend la tâche difficile pour les méthodes de segmentation, surtout pour les textes en scène.

• Le temps de calcul : les méthodes basées sur les outils d’apprentissage consomment un temps important de calcul. Ces méthodes s’appliquent sur la totalité de l’image. La phase d’apprentissage et de classification devient plus difficile lorsque la taille de l’image ainsi que celle des caractères est plus grande. Et donc la grande variation de tailles des caractères dans les images présente l’un des obstacles dans l’utilisation des outils d’apprentissage pour la détection de texte.

(39)

1.4 Crit `eres d’ ´evaluation

Différentes mesures pour évaluer les performances d’un système de détection de texte sont utilisées dans la littérature, ce qui rend les comparaisons souvent difficiles. Le but de cette section n’est pas de les présenter toutes, mais d’introduire uniquement les plus importantes d’entre elles. Jain et Yu [Jain et al. , 1998] donnent les résultats d’évaluation par un pourcentage appelé "accuracy". Dans le cas des systèmes de détection de texte ceci indique la somme des détections de texte correctes divisée par le nombre total de détections. On peut aussi le confondre avec le terme "précision" présenté ci dessous.

L’évaluation de la qualité d’un système passe par le calcul de critères statistiques sur des bases dont le contenu est maîtrisé. Les critères les plus communément utilisés sont les critères dis de Rappel et de Précision, il y a aussi un troisième critère qui rassemble les deux première et qui est la mesure F.

1.4.1 Rappel

Le rappel (ou sensibilité ou taux de vrais positifs - TVP) est défini par le nombre de d’objets pertinents retrouvés au regard du nombre d’objets pertinents que possède la base de données. Cela signifie que lorsque l’utilisateur interroge la base il souhaite voir apparaître tous les objets qui pourraient répondre à son besoin d’information. Si cette adéquation entre le questionnement de l’utilisateur et le nombre de d’objets présentés est importante alors le taux de rappel est élevé.

Rappel = N ombreObjetscorrectementattribuésàuneclasse

N ombreobjetsappartenantàuneclasse (1.1)

1.4.2 Pr ´ecision

La précision représente le nombre d’objets pertinents retrouvés rapporté au nombre d’objets total détecté par l’algorithme pour une requête donnée. Le principe est le suivant : quand un utilisateur interroge une base de données, il souhaite que les objets proposés en réponse à son interrogation correspondent à son attente. Tous les objets retournés superflus ou non pertinents

(40)

constituent du bruit. La précision s’oppose à ce bruit. Si elle est élevée, cela signifie que peu d’ob-jets inutiles sont proposés par le système et que ce dernier peut être considéré comme "précis". On calcule la précision avec la formule suivante :

P recision = N ombreObjetscorrectementattribuésàuneclasse

N ombreobjetsappartenantàuneclasse (1.2)

1.4.3 Courbe Rappel/Pr ´ecision

Elle oppose le rappel en abscisse et la précision en ordonnée. L’îdée est de décrire la perti-nence de l’ensemble d’objets obtenus à l’îssue d’une requête sur un système quelconque. La courbe est globalement décroissante de gauche à droite. Cette courbe montre qu’il est toujours possible d’obtenir une précision élevée au prix d’un rappel faible ou un rappel élevé au prix d’une précision faible. Dans la pratique, on essaye de choisir un compromis entre ces deux exigences. Plus que les documents pertinents sont récupéré plus le rappel est élevé, et si on a plus de documents non pertinents récupérés ceci se traduit par une précision élevés. La courbe rappel/précision est tracée en utilisant les valeurs du rappel et précision issu des résultats obtenus des expérimentations. La courbe rappel-précision a en générale la forme donnée par la Figure 1.1 :

(41)

Figure 1.1 – Courbe appel-Précision

Les performances d’un système sur un ensemble de thèmes peuvent donc être caractérisées par une seule courbe. Cette courbe est la plus utilisés pour comparer les systèmes. L’illustration des résultats de différentes expérimentations peuvent être superposées sur un même graphe afin de déterminer laquelle des courbes est supérieur. Les Courbes les plus proches de la partie su-périeure droite du graphique (où le rappel et la précision sont maximisés) indiquent la meilleure performance. Les Comparaisons sont faites dans trois différentes plages du rappel : 0 à 0,2, 0,2 à 0,8, et 0,8 à 1. Ces fourchettes caractérisent une grande précision, un rappel moyen, et une performance élevée du rappel, respectivement.

1.4.4 Mesure de qualit ´e F

Un système est caractérisé par une courbe ou par un couple (rappel, précision). On peut aussi ajouter un autre critère d’évaluation qui combine entre la précision et le rappel qui est la mesure F.

(42)

La mesure F de [van Rijsbergen, 1979] est un indicateur de synthèse communément utilisé pour évaluer les algorithmes de classification de données textuelles, à partir des deux mesures : précision et rappel. Elle est définie par :

F = 1

δ/P + (1 − δ)/R (1.3)

Avec : R : Rappel P : Précision

δ : Seuil de décision

La mesure F correspond à une moyenne harmonique de la précision et du rappel. Pour utiliser cette mesure, il est donc nécessaire de fixer préalablement un seuil de décision pour le classement, et de calculer la valeur de F par rapport à ce seuil. Le paramètre permet de pondérer la précision ou le rappel et de choisir l’importance relative que l’on souhaite donner à chaque quantité. On choisit en général de donner la même importance aux deux critères ; on utilise δ= 0.5. La mesure devient :

F = 2R × P

R + P (1.4)

1.5 Le besoin - Applications de la d ´etection de texte

Il existe de nombreuses applications des systèmes de détection et d’extraction de texte, telles que :

– Indexation d’images basées sur le texte : il s’agit des méthodes automatiques de structura-tion des documents et des vidéos basées sur le texte [Shahraray & Gibbon, 1995], [Sato et al., 1998].

– Analyse du contenu des vidéos : l’extraction des zones de texte ou le résultat obtenu par la reconnaissance des caractères peu être utile pour enrichir l’analyse [Kim et al. , 1996],

(43)

[Fisheret al . , 1995].

– Textes dans les images du web : L’extraction du texte à partir des images du web peut fournir des informations pertinentes sur le contenu d’un site web,Zhou et al. [Zhou, Lopresti, & Lei, 1997], [Zhou, Lopresti & Tasdizen, 1998]

– Détection et reconnaissance des plaques d’immatriculation : Il existe déjà des travaux dans le domaine. Bien que les plaques d’immatriculation des véhicules partagent de nombreuses caractéristiques avec le texte en scène, de nombreuses hypothèses ont été faites concernant le processus d’acquisition d’image (position de la caméra, du véhicule, la direction, l’éclairage, les types de caractères et la couleur) et les caractéristiques géométriques du texte, [Cui & Huang, 1997] ; [Park et al., 1999 ] ; [Jain & Karu, 1996] ; [Jung, 2001].

– La lecture des plaques de signalisation pour les personnes malvoyantes. – Détection de texte dans les sous titrage des films et des journaux télévisés. – Détection automatique de panneaux pour l’aide à la circulation routière. – Etc.

1.6 Discussion

Dans ce chapitre nous avons présenté des méthodes et des approches existantes de la détection et la localisation de texte dans les images. Le survol proposé des travaux a permis de mettre en lumière deux grandes catégories d’approches. La première et celles des approches par segmentation et regroupement spatial. Historiquement, ce sont les premières approches qui ont été proposées pour la détection de texte. Elles sont simples et pas très couteuses en terme du temps de calcul.

On peut résumer ce type d’approches en quatre grandes étapes : – Réduction des espaces de couleur ;

– Génération des composantes ;

– Elimination des composante non texte (souvent de manière heuristique) ; – Groupement des composantes.

(44)

le texte est intégré dans un fond complexe ou touche d’autres objets graphiques dans l’image. Aussi elles ne localisent pas correctement le texte en surimpression lorsqu’on a affaire à des images de qualité médiocre ou de faible résolution. Aujourd’hui, au travers des travaux de détection de texte dans les scènes, cette approche revient en compétition avec l’approche texture.

La deuxième catégorie décrit les approches dites de texture et d’apprentissage des propriétés textuelles. Certaines d’entre elles utilisent des descripteurs élémentaires, basés sur des statistiques du premier ordre tel que le gradient et le gradient cumulés, d’autres se sont tournés vers des des-cripteurs texturaux de haut niveau comme le filtre de Gabor [Gabor, 1946], la transformée de Fourier et les ondelettes [Mallat, 1989]. Des méthodes d’apprentissage ont été proposées pour raffiner les résultats. Le couplage des méthodes de texture avec les espaces d’échelles et les tech-niques d’apprentissage ont permis des avancées importantes. Cependant, ces méthodes nécessitent un temps de calcul important et la performance de la détection dépend strictement des exemples fournis sur les zones de texte (exp : longueurs minimales des chaînes de caractères et contrainte d’horizontalité) pour faire apprendre le système, ce qui réduit leur capacité de généralisation.

Nous avons aussi souligné dans ce chapitre la difficulté de fournir une méthode soulevant tous les problèmes rencontrés par la détection de texte tels que les variations énormes de types de textes rencontrés. De nombreux algorithmes font des hypothèses à priori sur le texte à extraire (par exemple, de fortes restrictions sur la couleur du texte, la taille, l’emplacement, etc.) ce qui les rend impropres à une utilisation à des fins générales. D’autres algorithmes fonctionnent bien sur des images avec des fonds relativement simples, mais donnent des taux élevés de fausses alarmes lorsqu’ils sont appliqués à des images complexes.

Dans notre travail de thèse, nous avons plutôt choisi de travailler avec les deux catégories d’approches et d’élaborer les méthodes proposées comme une combinaison de plusieurs descrip-teurs afin de prendre en compte les avantages de toutes les caractéristiques et d’éviter une étape de post-traitement. De plus nous sommes partis des caractéristiques des zones de texte incrusté pour déterminer les descripteurs de texte optimaux.

(45)

souvent utilisées : le rappel et la précision. Le Rappel mesure la capacité du système à retrouver tous les objets qui sont pertinents, alors que la précision mesure la capacité du système à retrouver seulement les objets qui sont pertinents. Ces deux critères sont calculés pour tous les rangs de la base d’image utilisée et sont affichés sous forme de courbe : la courbe de Rappel/Précision. Cette dernière est couramment utilisée car elle représente de façon visuelle les informations données par le Rappel et la Précision. Si la précision est faible, l’utilisateur sera insatisfait, car il devra perdre du temps à vérifier des informations qui ne l’intéressent pas. Si le rappel est faible, l’utilisateur n’aura pas accès à une information qu’il souhaitait avoir. Un bon détecteur doit avoir une préci-sion et un rappel de 100%, mais ces deux exigences sont souvent contradictoires et une très forte précision ne peut être obtenue qu’au prix d’un rappel faible et vice-versa.

Dans la suite de ce mémoire, nous utiliserons : – le calcul du Rappel et Précision ;

– la courbe rappel-précision, car elle apporte une information complète sur le comportement du détecteur.

(46)
(47)

2

ETECTION ET LOCALISATION DE TEXTE BAS

´

EES SUR LA TEXTURE

Sommaire

2.1 Décomposition de l’image en multi-segment . . . . 29

2.1.1 Définition de la texture . . . 29 2.1.2 Analyse de la texture d’image . . . 30 2.1.3 Segmentation des zones texturées . . . 34 2.1.4 Choix du masque . . . 39

2.2 Analyse des composantes connexes . . . . 41 2.3 Expérimentations . . . . 44 2.3.1 Corpus . . . 44 2.3.2 Comparaison . . . 45 2.3.3 Evaluation . . . 46 2.3.4 Résultats expérimentaux . . . 47 2.4 Discussion . . . . 49

(48)

Le texte inclus dans les images est devenu l’un des moyens les plus répandus pour trans-mettre des messages aux lecteurs. Par conséquent, la détection de texte dans les images de scène naturelles1, telles que les panneaux de signalisation sur les rues et les bâtiments, les publicités, représente une partie essentielle dans les applications de vision par ordinateur, dont la robotique, la reconnaissance de plaques d’immatriculation de véhicules, et le système de lecture de textes des programmes pour les personnes malvoyants. Cependant, la détection et la localisation de texte sont des tâches difficiles, vue que le fond, la couleur, et la taille des caractères de texte peuvent varier au niveau de la même image.

Plusieurs méthodes de détection de texte ont été présentées dans le chapitre précédent, y compris les méthodes basées sur la texture. Le texte possède une texture unique qui montre une certaine régularité, facile à distinguer du fond. Les êtres humains peuvent ainsi identifier un texte écrit en langue étrangère même s’ils ne comprennent pas cette dernière, et ce grâce à sa texture distincte. Nous avons exploité ce fait pour détecter le texte dans les images. Les caractéristiques de texture peuvent être directement extraites à partir des données brutes (pixels). Les régions de texte sont considérées comme des régions de texture à isoler du reste de l’image. Il existe plusieurs types de caractéristiques de texture du texte, tels que le contraste, qui est une propriété importante d’une image qui identifie et quantifie la différence entre la lumière et l’obscurité des images. Dans une image, un texte doit être lisible, il ne peut être flou ou obstrué, et c’est pourquoi le contraste de texte est important par rapport à d’autres objets dans l’image. Une autre caractéristique de texture est l’homogénéité de couleur, où les caractères du texte ont tendance à avoir des couleurs identiques ou similaires. Nous pouvons trouver des caractères monochromes et polychromes dans une image, mais presque tous sont des monochromes, les polychromes sont liés aux aspects artistiques plus qu’aux aspects informatifs, c’est pourquoi la plupart des auteurs tendent à écarter les caractères polychromes.

Dans une première section, le présent chapitre met l’accent sur la décomposition de l’image en des zones texturées et d’autres non texturées, tout en analysant l’image. Ensuite les zones

1. C’est une image réelle prise avec une caméra, et à laquelle nous n’avons ajouté aucune modification. Contrai-rement à l’image artificielle.

(49)

texturées sont segmentées afin de détecter les différentes composantes connexes dans l’image qui peuvent présenter des caractères du texte. La méthode de segmentation utilisée décompose l’image en k masque. Notre travail par la suite consiste à déterminer lequel des k masque contient le texte. La deuxième section décrit la vérification des composantes connexes du masque choisi afin de localiser définitivement les caractères du texte.

2.1 D ´ecomposition de l’image en multi-segment

Les régions de texte sont considérées comme des régions de texture à isoler. De ce fait, dans notre première technique, proposée pour la détection de texte, nous allons extraire les régions texturées et éliminer celles qui sont lisses.

Le texte peut être représenté par différentes texture au niveau de la même image, mais sa valeur de niveau de gris ne peut pas être connue à l’avance. Ce qui présente une difficulté dans la détection de texte, mais la représentation des caractères du texte par des composantes connexes peut palier à ce problème. Pour cela, nous proposons de séparer les régions correspondantes aux caractères du texte de l’arrière plan en faisant une segmentation au niveau des régions texturées de l’image.

2.1.1 D ´efinition de la texture

Il n’existe pas de définition universelle de ce que les chercheurs s’emploient à caractériser comme texture. Chacun propose sa propre explication de ce qui apparaît visuellement comme une évidence en termes de granularité, régularité ... en fonction de l’utilisation qu’il en fait (certains s’attachent à l’aspect perceptif, alors que d’autres la définissent par le domaine d’application).

D’un point de vue formel, on admet généralement que la texture est une fonction des varia-tions d’intensité observées dans l’image. Une définition générale de la texture [Jain, Duin, & Mao, 2000] la considère comme : Une mesure de la variation de l’intensité d’une surface, mesurant des propriétés telles que la douceur, la grossièreté et la régularité. Elle est utilisée souvent comme un descripteur de région dans le domaine de l’analyse des images et de la vision par ordinateur. Les trois principales approches utilisées pour décrire la texture sont : statistiques, structurales et

Figure

Figure 2 – Quelques images de texte en scène : Images issues du corpus de la compétition de localisation de texte [ICDAR, 2003]
Figure 1.1 – Courbe appel-Précision
Figure 2.1 – Courbes Rappel/Précision des différentes tailles du Macro Block allant de 16 à 256..
Figure 2.2 – Courbes Rappel/Pécision des valeurs de : 0.65, 0.75, 0.8.
+7

Références

Documents relatifs

Les méthodes de détection d’agrégats ont essentiellement été développées pour des maladies mesurées par des variables dichotomiques (cas/témoins). Or, dans le cas des infections

Plus précisément seront présentés les différents outils de traçage, les principaux problèmes dans les systèmes temps réel, les outils d’analyses de traces et les méthodes

Parmi les méthodes utilisées dans la détection d’explosifs [9], [10] (voir figure 1.1), nous pouvons citer la chemiluminescence [11] qui consiste en l’émission de lumière

On trouve cependant, plusieurs techniques de localisation proposées pour calculer la position des nœuds mobiles dans les réseaux Ad hoc [04], et les réseaux de capteurs [05] qui

Dans ce cadre là, deux méthodes statistiques peuvent être utilisées, la théorie des réponses aux items (TRI) et la théorie de la généralisabilité. Dans ce

La validation des méthodes de détection des agents pathogènes des plantes - Essai inter-laboratoires pour la détection de Phoma tracheiphila dans les rameaux de citronnier par

Ainsi, le recours aux méthodes de traitement d’image et de vision par ordinateur, notam- ment les méthodes de classification non-supervisée (chapitre 3) et les méthodes de

Au cours de cette thèse, nous avons proposé dans un premier temps deux solutions pour la détection et la localisation de la cible en exploitant les multi- trajets : l’algorithme FMU