• Aucun résultat trouvé

A NALYSE AUTOMATIQUE DE L ' ECRITURE MANUSCRITE POUR LA DETERMINATION DU SEXE D ' UN INDIVIDU

4.3. Bases de données

4.4.1. Orientation et courbure

L’information de l'orientation et de la courbure dans une écriture est capturée par un ensemble de caractéristiques calculées à partir des contours de l'écriture. La représentation du contour est choisie en se basant sur l'hypothèse que la forme des caractères dans un document manuscrit peut être encapsulée par ses contours. L'utilisation des contours élimine également la sensibilité à l'instrument d'écriture tout en conservant la forme des caractères.

Nous extrayons les contours intérieurs et extérieurs de l'écriture et, comme nous l'avons discuté précédemment, ces contours sont représentés par une séquence des codes de chaîne de Freeman et par un ensemble de polygones obtenus en appliquant un algorithme de polygonisation aux contours. Ces deux représentations correspondent à deux différentes échelles d'observations et les caractéristiques calculées à partir de ces différentes représentations se complètent mutuellement. Nous discutons l'extraction de caractéristiques de l'orientation et de la courbure de chacune de ces représentations dans les sous-sections suivantes.

4.4.1.1. Caractéristiques basées sur les chaînes de codes de Freeman

Les chaînes de codes de Freeman ont été appliquées efficacement à des problèmes tels que la reconnaissance de mots et de caractères [HIR 96, KIM 97, BLU 03, BLU 07], la classification des styles d'écriture [DEH 03] et l'identification du scripteur [SID 09a, SID 10]. Étant donné que notre tâche de détermination du sexe concerne également des documents manuscrits, nous pensons qu’une représentation basée sur les codes de la chaîne Freeman peut être efficace pour l'extraction de caractéristiques. Nous représentons les contours de l'écriture par des une chaîne de codes de Freeman. Chaque contour est une séquence de pixels de frontière avec où et est la longueur du contour . Un exemple de caractère

89 Figure 4.3. Une image d'un caractère avec ses contours et la représentation en chaîne de

codes de Freeman.

Dès que l'image de l'écriture est représentée par une chaîne de codes, nous calculons l'histogramme (normalisé) de la chaîne de codes, généralement appelé distribution de codes de Freeman (f1). Les (huit) cases de l'histogramme représentent la contribution relative de chacune des huit directions principales dans une écriture tandis que les orientations dominantes dans l'écriture sont représentées par des pics dans l'histogramme.

Cependant, il est important de noter que, puisque les images sont hors-ligne, nous ne pouvons pas discriminer entre les traits avant et les traits arrière, ainsi, la séquence de code affectée à un contour particulier dépend de la manière de le traverser. Une solution serait de diviser l’histogramme en quatre cases représentant les quatre directions principales des traits : horizontale, verticale, diagonale gauche et diagonale droite. Cependant, notre expérience a montré que le meilleur choix serait de conserver les 8 cases et d’être consistant dans la manière de tracer un contour.

La figure 4.4 illustre la distribution des codes de Freeman calculée à partir de deux échantillons d'écriture. Il peut être constaté que l'orientation verticale globale dans l'échantillon ‘a’ se traduit par deux pics aux cases respectives de l'histogramme correspondant. De même, pour l'échantillon ‘b’ où l'écriture est inclinée vers la droite, les pics peuvent être observés au niveau des cases correspondant aux directions diagonales droites.

(a) (b)

Figure 4.4. Des échantillons d'écriture et leurs distributions de codes de Freeman respectives. Pour estimer la courbure au niveau du pixel, nous calculons l'histogramme de paires de codes de Freeman. Nous initialisons une matrice de avec la mise à zéro de tous les éléments. Pour chaque paire (i, j) dans la représentation en chaîne de codes de Freeman d'une écriture, nous incrémentons l'élément correspondant de la matrice (histogramme). La distribution est finalement normalisée pour être indépendante de la quantité du texte. Cette distribution (f2)

6 7 5 4 3 2 1 0

90 pourrait être considérée comme une mesure de l'angle (courbure) entre les vecteurs représentant les directions de la chaîne de codes comme illustré à la figure 4.5.

Figure 4.5. La paire de chaîne de codes de Freeman (7, 6) représentant un angle de 135° au pixel de position .

Les attributs de l'orientation et de la courbure, dans une écriture, calculés à partir des chaînes de codes de Freeman sont efficaces mais, étant donné que ces attributs sont calculés au niveau du pixel, ils pourraient être sensibles au bruit dans l'écriture. Pour compléter ces caractéristiques, nous calculons des caractéristiques similaires en estimant d'abord les contours par un ensemble de polygones. Ceci, en fait, correspond à une échelle d'observation lointaine et les caractéristiques calculées sont également plus robustes au bruit. Ces caractéristiques sont discutées dans la sous section suivante.

4.4.1.2. Caractéristiques basées sur les polygones

En utilisant l'algorithme séquentiel de polygonisation [KAR 84], nous estimons les contours par un ensemble de segments de ligne (polygones). Un exemple de contours polygonisés est illustré dans la Figure 4.6.

(a)

(b)

Figure 4.6. Polygonisation a) image originale b) Contours polygonisés.

Pour chaque segment dans l'écriture, nous calculons sa pente et nous utilisons la distribution de ces pentes comme notre prochaine caractéristique (f3). L'intervalle -90° à 90° est quantifié en 8 cases et les pentes des lignes approximant les contours d'écriture sont comptées dans leurs cases respectives. L'histogramme est finalement normalisé et est utilisé comme caractéristique. Pour estimer la courbure, nous calculons l'angle entre chaque paire de segments connectés comme suit:

p

i-1

c

i

p

i+1

p

i

c

i+1

6

θ

i

=135º

7

91

Avec et sont les vecteurs de à et de à

respectivement comme illustré à la figure 4.7.

De manière similaire à la distribution des pentes, les angles (0° à 180°) sont quantifiés en 8 cases et leur distribution (f4) est utilisée pour caractériser l'écriture. Les détails d'implémentation de ces caractéristiques peuvent être trouvés dans [SID 10].

Après avoir présenté les caractéristiques de l'orientation et de la courbure calculées à partir de deux échelles d'observation et deux niveaux de détails différents, nous présentons et discutons les caractéristiques basées sur les dimensions fractales dans la section suivante.

Figure 4.7. Angle entre les segments voisins des contours polygonisés.