• Aucun résultat trouvé

A.2 La base de mots arabes

A.2.1 Acquisition et prétraitements

A.3 La base de hiéroglyphes manuscrits : HrMan . . . 163

A.3.1 Acquisition et prétraitements . . . 163 A.3.1.1 Caractéristiques . . . 164

Les résultats présentés dans ce mémoire ont été obtenus à partir de six bases de caractères et de mots très différentes de par le type, la taille et la nature des informations qu’elles contiennent. L’objectif était de couvrir un large spectre de complexité (figure 1.3 page 4). Une grande partie des applications présen-tées en introduction de ce mémoire a été adressée. Malheureusement nous n’avons pas réussi à tester nos méthodes sur une base de caractères chinois, à notre grand regret.

A.1 Les bases de caractères

Trois bases de caractères ont été retenues pour les tests. Elles sont relativement différentes, tant par le contenu que par leurs caractéristiques.

A.1.1 Base grecque Coroc : GrCor

Cette base de caractères a été réalisée au sein de RC-Soft pour les tests internes.

A.1.1.1 Acquisition et prétraitements

Les caractères ont été écrits sur des pages blanches avec un feutre noir par quatre scripteurs diffé-rents. L’acquisition a été effectuée avec un scanner grand public à 300 dpi. Les images étant de bonne qualité, les prétraitements se sont résumés à une binarisation manuelle. La segmentation a été réalisée par une analyse en composantes connexes avec calcul de boîtes englobantes. Enfin, deux petits postrai-tements ont été effectués. Les boîtes englobantes ayant une intersection non nulle ont été fusionnées et un seuillage sur la taille des boîtes a été opéré. Les boîtes restantes composent les caractères de la base d’apprentissage. L’indexation est automatique puisque chaque page d’écriture correspond à un caractère donné.

A.1.1.2 Caractéristiques

La base possède 47 classes pour un total de 18 236 caractères. La table A.1 donne leur répartition. Lorsque le nom d’une classe se termine par « -M » c’est qu’il s’agit d’un caractère majuscule. Les ma-juscules n’ont été écrites que par un seul scripteur et sont donc en nombre inférieur. Nous les avons intégrées à la base car elles posent des problèmes de différenciation avec les minuscules.

Classe alp alp-M bet bet-M chi chi-M del del-M dze eps

Nombre 822 65 810 65 615 68 845 60 680 774

Classe eps-M eta eta-M gam gam-M iot iot-M kap kap-M lam

Nombre 54 812 46 846 58 1010 65 580 79 592

Classe lam-M mu mu-M nu nu-M ome ome-M omi omi-M phi

Nombre 52 583 45 609 84 572 74 671 56 547

Classe phi-M pi pi-M psi psi-M rho rho-M sig sig-M sig2

Nombre 51 563 53 549 58 621 74 666 45 590

Classe the to to-M ups ups-M xi zet-M

Nombre 902 572 56 590 44 518 45

TABLEA.1 – Contenu de la base GrCor

Les modèles, sélectionnés automatiquement comme étant les caractères dont le squelette possède le moins de points singuliers, sont présentés dans la table A.2 page ci-contre.

A.1.2 Base de caractères grecs anciens : GrAnc

C’est une base restreinte de caractères grecs issus de documents manuscrits anciens du Moyen-Age.

A.1.2.1 Acquisition et prétraitements

Les caractères sont issus de quatre pages de manuscrits grecs anciens différents et d’époques diffé-rentes (présentées dans la table A.1 page 158). L’acquisition a été effectuée avec un scanner grand public à 300 dpi. Les images ont été binarisées puis ont subi une fermeture morphologique pour supprimer les pixels isolés. La segmentation a été réalisée par une analyse en composantes connexes avec calcul de boîtes englobantes. Comme pour la base précédente, les boîtes englobantes ayant une intersection non nulle ont été fusionnées et un seuillage sur la taille des boîtes a été opéré. Les boîtes restantes ont été

alp-M bet bet-M chi chi-M

del del-M dze eps-M eta

eta-M gam gam-M iot iot-M

kap kap-M lam lam-M mu

mu-M nu nu-M ome ome-M

omi omi-M phi phi-M pi

pi-M psi rho rho-M sig

sig-M the to to-M ups

ups-M xi zet-M alp eps

psi-M sig2

FIGUREA.1 – Pages de grec ayant servi à la constitution de la base GrAnc.

triées et indexées à la main pour réaliser la base d’apprentissage. Avec ce procédé les caractères retenus ne sont pas accentués.

A.1.2.2 Caractéristiques

La base possède 38 classes pour un total de 1 445 caractères. La table A.3 donne leur répartition. Elle contient relativement peu d’éléments et la répartition suivant les classes est très hétérogène.

Classe am b c d epb eps f g h hm

Nombre 29 12 56 23 4 152 1 5 62 5

Classe i k kap l lam ldb m mm n nb

Nombre 76 3 84 12 138 2 21 29 127 27

Classe nu o ome p phi phm pi q r s

Nombre 54 71 22 36 6 1 49 14 41 13

Classe t tet to u x y z zet

Nombre 164 19 20 53 6 3 1 4

TABLEA.3 – Contenu de la base GrAnc

Les modèles, sélectionnés automatiquement comme étant les caractères dont le squelette possède le moins de points singuliers, sont présentés dans la table A.4 page suivante.

A.1.3 Base de chiffres manuscrits : MNIST

Nous avons également utilisé la base de chiffres manuscrits MNIST1, qui a servi à valider plusieurs travaux de reconnaissance [LBBH98], afin de comparer nos méthodes à l’existant.

A.1.3.1 Acquisition et prétraitements

Les caractères se présentent sous forme d’images en niveaux de gris de28× 28 pixels. Nous n’avons

utilisé que la base de test composée de 10 000 images provenant pour moitié d’employés de l’US Census

1

am b c d epb eps f g h hm i k kap l lam ldb m mm n nb nu o ome p phi phm pi q r s t tet to u x y z zet

TABLEA.4 – Modèles de la base GrAnc.

Classe 0 1 2 3 4

Nombre 980 1135 1032 1010 982

Classe 5 6 7 8 9

Nombre 892 958 1028 974 1009

TABLEA.5 – Contenu de la base MNIST

Bureau (Office américain chargé du recensement de la population) et pour moitié d’étudiants du supé-rieur. Ils ont été réalisés par environ 250 scripteurs différents. Aucun traitement supplémentaire n’a été réalisé sur ces images excepté une binarisation.

A.1.3.2 Caractéristiques

La base comporte 10 classes de chiffres (de0 à 9) dénombrés dans la table A.5. Chaque classe est

980 1009 1135 958 982

1032 892 1010 1028 974

TABLEA.6 – Modèles de la base MNIST avec le nombre d’éléments de la classe associée.

Les modèles sélectionnés sont présentés dans la table A.6 ainsi que le nombre d’éléments de la classe qu’ils représentent.

A.2 La base de mots arabes

Nous avons utilisé la base de noms de villes tunisiennes arabes de l’IFN/ENIT2pour les tests structu-rels à base de GAHF essentiellement. La version finale de la base retenue compte 9 534 images classées par le code postal de la ville.

A.2.1 Acquisition et prétraitements

Nous avons utilisé les images telles qu’elles sont fournies avec la base acquise à 300dpi. Un tri a été effectué sur la taille de l’image afin d’enlever un maximum de noms de ville mal segmentés. Ensuite pour pouvoir tester les méthodes par GAHF dans un temps raisonnable, nous n’avons gardé que les classes dont au moins un caractère, une fois squelettisé (voir figure 5.25 page 85), possédait moins de 15 points singuliers.