• Aucun résultat trouvé

A NALYSE AUTOMATIQUE DE L ' ECRITURE MANUSCRITE POUR LA DETERMINATION DU SEXE D ' UN INDIVIDU

4.3. Bases de données

4.4.3. Caractéristiques texturales

L'analyse de texture de l'écriture considère chaque écriture comme une texture visuelle distincte. La texture est liée à l'aspect général de l'écriture et peut être représentée de plusieurs façons. Parmi les méthodes d'analyse la texture de l'écriture les plus significatives, Said et al. [SAI 00] ont employé les filtres de Gabor multi-canaux et les matrices de co-occurrence (GLCM) pour proposer une solution basée sur l'analyse de la texture au problème d'identification du scripteur. Certaines études récentes aussi ont utilisé les caractéristiques basées sur l'analyse de la texture de l'écriture pour l'identification du scripteur [SID 08] et la vérification du scripteur [HAN 12]. D'autres mesures de texture appliquées à l'écriture comprennent les motifs binaires locaux (Local Binary Patterns LBP) [BER 13] et les Coefficients autorégressifs [GAR 09]. La performance de ces descripteurs sur des tâches telles que l'identification du scripteur a été jugée meilleure que celle des filtres de Gabor multi-canaux ou des matrices de co-occurrence (GLCM). Par conséquent, nous avons choisi d'employer les motifs locaux binaires (LBP) ainsi que les coefficients autorégressifs comme descripteurs de texture pour une éventuelle discrimination entre les écritures des scripteurs masculins et féminins. Ces caractéristiques sont discutées ci-après.

4.4.3.1. Motifs binaires locaux (LBP)

Les motifs binaires locaux ont été introduits par Ojala et al dans [OJA 94, OJA 96] et ont été employés de manière très efficace jusqu’à nos jours pour différentes applications en analyse et classification de textures [HUA 11, BER 13, XIA 09].

La méthode originale des motifs locaux binaires (LBP) proposée dans [OJA 94, OJA 96] consiste à générer un nombre restreint d’unités de textures. En considérant un ensemble de voisinages , on compare les pixels voisins au pixel central afin de générer un motif binaire. L’affectation binaire est réalisée comme suit : pour , si on assigne au pixel voisin la valeur , sinon on lui assigne la valeur . Ensuite, les valeurs binaires de ce motif sont multipliées par des poids et sommées pour calculer le code LBP du pixel central. Ce

93 processus est illustré par la figure 4.8. L’histogramme des codes LBP constitue le descripteur caractérisant la texture. En 2002, les auteurs ont étendu leur méthode originale pour inclure des voisinages de différentes tailles et pour capturer les caractéristiques dominantes à différentes échelles [OJA 02]. Les auteurs ont également introduit le concept de motifs binaires uniformes et non uniformes qui est basé sur le nombre de transitions spatiales dans le code LBP binaire (passage de 0 à 1 ou de 1 à 0).

Si le nombre de transitions est supérieur à deux, alors le motif est considéré comme non- uniforme. Sinon le motif est considéré comme uniforme. Le code LBP binaire peut alors être vu comme une chaîne circulaire. Par exemple, le code 00100100 n'est pas uniforme, car il contient 4 transitions mais les codes 00000000 et 00100000 sont uniformes, car ils contiennent 0 et 2 transitions respectivement.

Figure 4.8. Construction d’un motif binaire et calcul du code LBP pour un pixel central. Dans notre implémentation, nous calculons les LBP à partir d'images binaires de l'écriture. Pour points voisins, nous pouvons avoir un maximum de motifs uniformes. Nous utilisons un voisinage de pixels avec un total de motifs uniformes possibles. Le descripteur (histogramme de motifs binaires locaux LBP) comprend donc 242 éléments pour les motifs uniformes et un élément pour tous les motifs non-uniformes, ce qui nous donne un vecteur de caractéristiques de dimension 243.

4.4.3.2. Coefficients autorégressifs

Les modèles autorégressifs bidimensionnels ont été introduits par K. Deguchi [DEG 86] pour la représentation des images ainsi que la caractérisation des textures. Ils ont été appliqués aussi avec succès à la segmentation de textures [SHU 93] et la modélisation de textures [MHI 93]. Récemment, les modèles autorégressifs ont été adaptés pour caractériser et identifier les auteurs de textes manuscrits [GAR 09].

Pour notre tâche de détermination de sexe, nous caractérisons une écriture donnée par un ensemble de coefficients autorégressifs bidimensionnels extraits à partir des images binaires de textes manuscrits. Pour estimer ces coefficients, la valeur de chaque pixel dans l'image est

prédite par une combinaison linéaire des valeurs de ses pixels voisins.

Lorsque D représente le contexte de voisinage qui est généralement une fenêtre rectangulaire . sont les coefficients autorégressifs

tandis que p×q est l'ordre du modèle. Les coefficients sont estimés en minimisant l'erreur quadratique entre la valeur prédite et la valeur réelle du pixel. Les détails de l'estimation des coefficients peuvent être trouvés dans [GAR 09]. Dans notre implémentation, nous avons utilisé un voisinage de pixels qui donne un total de coefficients autorégressifs.

94 En résumé, les échantillons d’écritures manuscrites sont représentés par trois types de caractéristiques : l'orientation et la courbure, les dimensions fractales ainsi que des caractéristiques basées sur la texture. Le tableau 4.2 résume ces caractéristiques avec leurs dimensionnalités.

Catégorie Caractéristique Description de la caractéristique Dimension

Orientation et Courbure

f1 Distribution de codes de Freeman 8 f2 Distribution de paires de codes de Freeman 64 f3 Distribution des pentes de segments 8

f4 Distribution des courbures 8

Dimension fractale

f5 Dimension fractale par la méthode de comptage de boîtes 1 f6 Dimension fractale généralisée 5

Texture f7 Motif local binaire 243

f8 Coefficients autorégressifs 24

Total 361

Tableau 4.2. Récapitulatif des caractéristiques.

4.5. Classification

La classification est réalisée en utilisant deux classifieurs de l'état de l'art, les réseaux de neurones artificiels (ANN) et la les séparateurs à vaste marge (SVM). Les classifieurs sont entraînés à l'aide des trois ensembles de caractéristiques extraites de l'ensemble de données d'apprentissage (d'entraînement) tandis que les différents paramètres des deux classifieurs sont déterminés empiriquement sur l'ensemble des données de validation.

Le réseau de neurones artificiels (ANN) est un réseau à trois couches, la couche d'entrée ayant le même nombre de neurones que la dimension d'un ensemble particulier de caractéristiques, la couche de sortie comprend deux neurones correspondant aux deux classes (masculine et féminine), tandis que le nombre de neurones dans la couche cachée est déterminé en fonction de la dimension du vecteur de caractéristiques (à l'aide l'ensemble de données de validation). Le classifieur SVM est basé sur un noyau polynomial. Comme pour le classifieur ANN, les paramètres du SVM sont déterminés de façon empirique sur l'ensemble de données de validation. Pour la mise en œuvre, nous avons utilisé la boîte à outils Matlab des SVM décrite dans [CAN 05]. Les performances de ces deux classifieurs ainsi que les différentes évaluations effectuées sont discutées en détails dans la section suivante.