Documents manuscrits et recherche d’information

(1)

et recherche d’information

Ameur Bensefia — Thierry Paquet — Laurent Heutte

Laboratoire PSI – FRE CNRS 2645 UFR des Sciences, Université de Rouen F-76821 Mont-Saint-Aignan Cedex

{Ameur.Bensefia, Thierry.Paquet, Laurent.Heutte}@univ-rouen.fr

RÉSUMÉ. Nous présentons un modèle de recherche d’information visuelle adapté à la navigation et l’interrogation de bases de documents manuscrits numérisés. Nous considérons ces documents du point de vue de leur contenu graphique, ce qui inscrit cette problématique dans un cadre d’identification du scripteur. Un certain nombre de travaux ont abordé ce problème d’identification du scripteur, le plus souvent en s’appuyant sur des techniques d’analyse de textures pour caractériser les écritures. L’originalité des travaux que nous présentons tient au fait que nous fondons notre démarche sur une technique de recherche d’information en utilisant une description spécifique à l’écriture manuscrite. L’approche est évaluée sur deux bases de documents manuscrits : une base créée au laboratoire et une base du patrimoine littéraire constituée des correspondances de Zola.

ABSTRACT. We present a Visual Information Retrieval model dedicated to the browsing and the query in large databases of handwritten document images. As we consider these documents from their graphical content point of view, our problem comes obviously within the framework of writer identification. The writer identification problem has given rise to numerous studies, most often based on texture analysis to characterise handwritings. The originality of our work lies in the use of an information retrieval technique and a particular description of cursive handwritings. Our approach has been evaluated on two handwritten document databases : one is a self-created database, the other is a literary heritage database which consists of Zola’s correspondences.

MOTS-CLÉS : documents manuscrits, patrimoine littéraire, identification du scripteur, recherche d’information, modèle vectoriel, requête graphique.

KEYWORDS: Handwritten documents, literary heritage, writer identification, information retrieval, vector space model, graphical query.

(2)

1. Introduction

La préservation du patrimoine culturel a depuis fort longtemps imposé une certaine limitation des accès aux biens. L’évolution des technologies numériques permet d’envisager aujourd’hui des campagnes de numérisation des collections à grande échelle. Pour le grand public, il deviendra dès lors possible dans un avenir proche d’accéder aux fonds numérisés dans un but de consultation d’archives ou de parcours culturel. Pour un public de spécialistes, la numérisation facilitera également l’accès aux archives. Ces orientations font émerger de nouvelles problématiques en ce qui concerne l’indexation des biens numérisés, la réutilisation des contenus, l’interopérabilité, la certification, etc.

Dans cet article, nous nous intéressons plus particulièrement à la problématique de navigation et d’accès à des collections de documents manuscrits. La démarche et les outils que nous proposons sont orientés vers un public de spécialistes auxquels nous proposons une aide à l’indexation. Naturellement, s’agissant de numérisation du patrimoine, les données initiales sont constituées d’images numérisées de documents manuscrits. Pour ces documents on peut globalement distinguer deux types d’utilisation auxquels on peut associer des requêtes de nature très différente :

– Les archives de documents manuscrits peuvent être vues sous l’angle de leurs contenus textuels. Dans ce cas, l’interrogation des bases documentaires nécessite de recourir à une phase préalable de transcription des textes manuscrits permettant ensuite une analyse textuelle. L’état de l’art dans ce domaine ne permet pas d’envisager des applications immédiates, la reconnaissance de l’écriture restant en effet mal maîtrisée sur des applications omniscripteurs et faisant appel à des lexiques de grande taille (Nosary, 2002).

– Les archives de documents manuscrits peuvent également être vues sous l’angle de leurs contenus graphiques. Dans ce cas, l’interrogation des bases documentaires est effectuée à partir de requêtes graphiques. On cherche par exemple à retrouver les documents de la base présentant certaines calligraphies correspondant à certains scripteurs. D’autres cas d’utilisation peuvent concerner la détection des différentes mains présentes, ou bien la datation des documents par rapport à la chronologie de l’œuvre de l’auteur. Les techniques de traitement de l’écriture permettent d’envisager dès à présent certaines applications comme celle que nous proposons dans cet article.

On peut considérer que ces deux cas d’utilisation relèvent d’un problème de recherche d’information soit textuelle soit graphique. Ces deux tâches ont été largement étudiées soit dans le domaine documentaire soit en traitement d’images.

En ce qui concerne spécifiquement l’analyse des écritures manuscrites, cette tâche relève de l’identification du scripteur d’un document. Un certain nombre de travaux ont abordé ce problème, le plus souvent en s’appuyant sur des techniques d’analyse de textures pour caractériser les écritures. L’originalité des travaux que nous présentons tient au fait que nous fondons notre démarche sur une technique de

(3)

recherche d’information en utilisant une description spécifique à l’écriture manuscrite.

Dans la première partie de cet article, nous présentons les caractéristiques retenues pour cette tâche d’identification : notre choix s’est porté sur les formes élémentaires (graphèmes) qui composent une écriture manuscrite. Nous justifions le bien-fondé de ce choix en évaluant la tâche d’identification sur une base de 88 scripteurs. Dans la seconde partie, nous proposons d’utiliser un modèle de recherche d’information pour l’identification du scripteur. Ce modèle utilisé dans la littérature sur des documents textuels est adapté ici à des documents manuscrits pour la tâche d’identification du scripteur en utilisant les graphèmes comme caractéristiques graphiques. Cette technique, évaluée sur la même base de documents, donne des résultats significatifs. Enfin, la troisième partie de cette communication est consacrée à l’évaluation de notre système d’identification sur les correspondances de Zola.

2. Identification du scripteur

En ce qui concerne l’analyse des écritures pour caractériser les scripteurs, on peut distinguer deux approches : l’approche d’identification et l’approche de vérification. Dans l’approche de vérification l’utilisateur dispose de deux documents et cherche à savoir s’ils sont tous deux l’œuvre du même scripteur. Cette approche est orientée vers l’expertise et ne sera pas abordée ici. Pour l’approche d’identification, l’utilisateur dispose d’un seul document, et cherche à identifier son auteur parmi un ensemble de N scripteurs connus. Le problème de la vérification peut être formulé comme un problème de discrimination entre deux classes, alors que l’approche d’identification nécessite une décision du type plus proches voisins.

Bien que l’identification du scripteur s’inscrive dans la même problématique que la reconnaissance de l’écriture, elle ne semble pas poser le même type de difficultés.

En effet, la tâche d’identification peut tirer profit de la variabilité des écritures afin de les discriminer, tandis que la tâche de reconnaissance doit au contraire parvenir à s’affranchir de la variabilité entre les scripteurs pour identifier le message textuel quel qu’en soit le scripteur. La variabilité de l’écriture d’un scripteur dépend de facteurs psychologiques multiples qu’il est difficile de déterminer avec précision.

L’étude présentée dans (Nosary et al., 1999) a montré cependant que cette variabilité peut être mesurée par les invariants du scripteur : ces invariants sont des groupes de graphèmes morphologiquement proches déterminés par classification automatique. Ces résultats ont montré l’existence d’un certain niveau de stabilité dans chaque écriture. En d’autres termes, la variabilité qui existe entre les groupes d’invariants de scripteurs différents est plus importante que la variabilité qui existe entre les groupes d’invariants d’un même scripteur. Par conséquent, le problème de l’identification du scripteur devrait trouver une solution naturelle en tirant avantage des invariants de chaque écriture.

(4)

Nous présentons dans les paragraphes qui suivent les différentes étapes nécessaires à l’identification du scripteur. La figure 1 donne un bref aperçu de la chaîne de traitement. Elle fait intervenir trois étapes classiques en reconnaissance des formes : une étape de prétraitements dont l’objectif principal est de localiser les informations, une étape d’extraction de caractéristiques dont le but est d’obtenir une représentation pertinente pour la prise de décision qui représente l’étape finale de la chaîne de traitement.

Figure 1. Chaîne d’identification du scripteur sur un document manuscrit

2.1. Prétraitements

Les constituants de l’écriture (masses connexes) sont tout d’abord analysés afin d’éliminer certaines représentations graphiques comme les ratures, les zones de surcharge ou sous-lignées dont on sait a priori qu’elles ne caractérisent pas l’écriture. Chaque entité retenue est ensuite segmentée en lettres ou en morceaux de lettres que nous appelons : graphèmes. Cette dénomination ne se réfère à aucune description spécifique de l’écriture et il est admis qu’elle peut porter à confusion.

Les graphèmes sont en effet des formes élémentaires de l’écriture manuscrite au sens d’un algorithme de segmentation (Nosary, 2002). La concaténation de deux

(5)

graphèmes adjacents (respectivement 3) donne ce que nous appelons les graphèmes du second niveau ou bigrammes (respectivement graphèmes du troisième niveau ou trigrammes) (cf. figure 2).

Figure 2. Graphèmes du 1êr, 2ê et 3ê niveau obtenus après segmentation d’une composante connexe

2.2. Extraction de caractéristiques

Le système d’identification du scripteur que nous proposons ne fait pas appel aux caractéristiques traditionnellement utilisées dans le domaine (Marti et al., 2001 ; Said et al., 2000) mais exploite l’information locale apportée par chaque forme segmentée (graphème). Ce choix offre la possibilité de traiter des documents de faible taille ne comportant que quelques mots et pour lesquels la notion de texture serait peu pertinente.

Les documents de la base de référence sont des blocs de texte comportant plusieurs lignes de façon à rendre compte de la variabilité de chaque écriture.

Cependant, l’étape de prétraitements produit les composantes élémentaires de la description qui pour une large part présentent une certaine redondance qui se matérialise par la répétition d’une certaine proportion des formes élémentaires (ceci au sens d’une mesure de similarité entre les graphèmes). Cette redondance est mise en évidence par une méthode de classification automatique des formes segmentées pour produire les formes caractéristiques de chaque écriture : les invariants du scripteur visualisés sur la figure 1 et qui constituent des groupes de formes identiques (Bensefia et al., 2001). Ce sont finalement les invariants des écritures qui constituent les caractéristiques des textes manuscrits de la base. On espère ainsi opérer une certaine compression de l’information manuscrite sans perte significative dans la méthode d’identification que nous proposons. Les documents soumis à l’analyse sont quant à eux décrits par l’ensemble des graphèmes produits par l’étape de prétraitement.

Chaque document manuscrit T à identifier sera donc représenté par l’ensemble des graphèmes xi qui le constituent, soit ^T=

{

^xi^,ⁱ≤^card⁽^T⁾

}

où card(T) est le nombre de graphèmes de 1êr, 2ê ou 3ê niveau suivant le niveau d’information

(6)

manuscrite sur lequel opère l’identification. De même, chaque document D de la base de référence sera représenté par l’ensemble de ces invariants yi, soit

{

^y^,ⁱ ^card⁽^D⁾

}

D= i ≤ , où card(D) est le nombre d’invariants (i.e. nombre de groupes obtenus après classification automatique) sur le 1êr, 2ê ou 3ê niveau.

2.3. Décision

Durant cette dernière étape, le système va rechercher, dans sa base de référence, le document (i.e. le scripteur) le plus proche du document à identifier en se basant sur une mesure de similarité entre documents. La mesure de similarité retenue entre le document manuscrit T et un document manuscrit quelconque D est définie par la relation suivante :

SIM(T, D) =

∑

= ∈ ) ( 1

)) , ( ) (

1( ^card^T

i

j D i

y simx y

T Max

card _j

où xi, yj sont des graphèmes des documents T et D respectivement, etsim(xⁱ,y^j) est une mesure de similarité entre deux graphèmes quelconques. Un certain nombre de mesures de similarité ont été définies dans la littérature (Duda et al., 2000) ; nous avons tout simplement retenu la mesure de corrélation, définie par la relation suivante :

sim(x, y) =

)]

)(

[( ₁₁ ₁₀ ₀₁ ₀₀ ₁₁ ₀₁ ₁₀ ₀₀

01 00 11

n n n n n n n n

n n - n

n ₁₀

+ +

+

où nij est le nombre de pixels pour lesquels les deux images binaires normalisées x et y ont la valeur de correspondance suivante : x(k)=i, y(k)=j, pour k = 1.. LxH où L est la largeur de l’image normalisée et H sa hauteur. Notons que selon cette mesure, deux documents manuscrits seront d’autant plus proches que la mesure de similarité sera proche de 1. Dans le cas extrême où elle vaudrait l’unité, cela indiquerait que tous les graphèmes du document inconnu T ont au moins un correspondant exact dans le document D considéré. Par construction cette mesure n’est pas symétrique car nous voulons tenir compte de la taille du document inconnu, qui peut être un document comportant plusieurs lignes d’écriture ou au contraire quelques mots.

Chaque document de référence a quant à lui une taille standard puisqu’il correspond à l’écriture d’un même texte connu.

Le scripteur du document inconnu T sera finalement le scripteur du document de la base de référence le plus similaire au document inconnu (au sens de la mesure que nous venons de définir), soit donc :

)) max )

) (

(T ScripteurArg ( SIM(T,D

Scripteur i

base D i∈

=

(7)

2.4. Résultats

Nous disposons d’une base de référence composée de 88 scripteurs auxquels nous avons demandé de recopier une lettre au choix parmi deux proposées, chacune d’elles étant composée de 107 et 98 mots respectivement. Les textes obtenus ont été coupés en deux parties non égales : deux tiers, un tiers. Les deux premiers tiers ont été utilisés comme base de référence, et le tiers restant a été utilisé comme base de test.

Les expériences menées ont pour but d’évaluer la pertinence du graphème comme caractéristique dans l’identification du scripteur. Le système a donc été testé afin d’identifier le scripteur à partir d’un bloc de texte (3 à 4 lignes en moyenne) en ayant recours indépendamment à des graphèmes de premier niveau, de second niveau (bigrammes) et de troisième niveau (trigrammes) (cf. figure 3). Les résultats obtenus indiquent une identification correcte dans près de 98 % des cas avec les graphèmes du premier niveau, 92 % avec les graphèmes du second niveau et 83 % avec les trigrammes. Ces résultats montrent l’intérêt d’utiliser une caractéristique locale comme le graphème pour l’identification du scripteur.

Figure 3. Résultats d’identification sur les trois niveaux de segmentation

Cette approche a cependant deux inconvénients majeurs. Le premier est le coût en nombre d’opérations effectuées à cause de la technique de mise en correspondance des formes utilisée. Si K est la taille moyenne d’un document (nombre de graphèmes qui le composent), alors la complexité de la méthode est de O(K²N), où N est le nombre de documents dans la base de données. Le second inconvénient vient du fait que tous les graphèmes invariants ont le même poids durant la prise de décision. Ceci revient à considérer que tous les graphèmes ont la même fréquence d’apparition dans un même document, ce qui est rarement le cas.

(8)

3. Modèle de recherche d’information

La recherche d’information est le processus de recherche, dans une base de documents, de ceux qui sont considérés pertinents au sens d’un besoin exprimé par l’utilisateur sous la forme d’une requête. Pour cela, la requête et les documents de la base sont généralement représentés dans un même espace de caractéristiques. De ce fait, le choix des caractéristiques est particulièrement primordial. Comme les documents doivent être décrits de façon à pouvoir répondre à tout type de requête, on ne peut en général faire intervenir une quelconque étape de sélection de caractéristiques pour réduire la dimension de l’espace et offrir ainsi un gain en temps de calcul. Aussi cherche-t-on le plus souvent à décrire les documents en conservant l’ensemble des caractéristiques extraites et donc en recourant à une description dans un espace de grande dimension. Un système de recherche d’information est généralement caractérisé par :

– l’ensemble des documents qui composent la base de données ;

– un modèle de recherche d’information qui ordonne les documents de la base de données, selon leur degré de similitude avec la requête ;

– le traitement des documents : les documents sont examinés, afin d’en extraire des informations statistiques.

L’identification du scripteur est un problème où le nombre de scripteurs qui forment la base de référence doit être suffisamment grand pour que le résultat prenne un sens. Parcourir une base de grande taille nécessite alors de recourir à une technique de recherche d’information, qui non seulement est très adaptée pour des bases de données de grande taille, mais qui prend également en compte la redondance des caractéristiques dans chaque document de la base.

De ce fait, on peut formuler notre problème d’identification du scripteur comme un procédé de recherche par le contenu graphique (ensemble de graphèmes extraits du document à identifier) dans une grande base de documents (ensemble des documents de référence). Les documents de cette base seront classés au sens d’une mesure de similitude avec la requête, du plus proche au plus éloigné.

Il existe plusieurs types de modèles de recherche d’information (Song et Croft, 1999) : le modèle booléen, le modèle probabiliste et le modèle vectoriel (VSM) sont les plus connus. Ce dernier, proposée par Salton (Salton et Wong, 1975) est un des modèles de recherche d’information les plus utilisés. Les documents de la base ainsi que la requête sont représentés par un vecteur dans un espace de grande dimension.

Bien que très simple et de conception assez ancienne, ce modèle reste très efficace (Memmi, 2000 ; Pouliquen et al., 2002).

Dans ce modèle, la stratégie de recherche s’effectue en deux phases : une phase d’indexation permettant de décrire chaque document par un vecteur de grande dimension ; une phase de recherche où sera évaluée la pertinence de chaque document de la base Dj par rapport à une requête spécifique Q. Cette évaluation

(9)

n’est rien d’autre qu’un produit scalaire entre le vecteur décrivant la requête Q et celui décrivant un document de la base Dj.

3.1. Phase d’indexation

Supposons défini l’ensemble des caractéristiques. On note ϕ_i 1≤i≤m la i^ème caractéristique. Dans les modèles RI, chaque caractéristique peut décrire un document de la base (ou la requête) selon sa fréquence d’apparition dans ce même document, et sa fréquence d’apparition dans les autres documents de la base. Partant de ce principe, chaque document de la base Dj ainsi que la requête Q, peuvent être décrits comme suit :

m-1,j T o,j 1,j

j (a , a ,.... a ) DG =

; QG= (bo, b₁, .... b_m−1)^T

où ai,j et bi représentent les poids attribués à chaque caractéristique ϕ_i et sont définis par :

ai,j = TF(ϕ_i, Dj) IDF(ϕ_i); bi = TF(ϕ_i, Q) IDF(ϕ_i)

où TF(ϕ_i, Dj) indique le nombre de fois où la caractéristique ϕ_i apparaît dans le document Dj (Terme Frequency). IDF(ϕ_i) est l’inverse du nombre de documents possédant la caractéristique ϕ_i (Inverse Document Frequency) ; sa valeur est donnée par :

)) )

(

i

i 1 DF(

n ( 1 log

IDFϕ ϕ

+ +

=

où n est le nombre total de documents dans la base, et DF(ϕ_i) est le nombre de documents où la caractéristique ϕ_i apparaît (Document Frequency). Notons que si IDF(ϕ_i) = 0, cela signifie que la caractéristique ϕ_i apparaît dans tous les documents de la base. De ce fait, cette caractéristique sera affectée d’un poids nul, et devrait même être retirée de l’ensemble des caractéristiques (Schaüble, 1997).

3.2. Phase de recherche

Chaque document ainsi que la requête est décrit dans le même espace de caractéristiques, une mesure de similarité entre chaque document, et la requête est nécessaire afin d’ordonner les documents selon leur pertinence. Plusieurs mesures de similarité ont été proposées dans la littérature (Dice, Jaccard...). D’après (Memmi, 2000) la plupart des mesures de similarité ne sont que des variantes de la mesure Cosinus, qui consiste à calculer la valeur de l’angle entre le vecteur d’un document du corpus Dj et le vecteur de la requête Q. Elle est définie par :

(10)

∑

=

∑

i i i

j i

i j i

Q D

j TFIDF TFIDF

TFIDF TFIDF

D Q

ϕ ϕ

2 , 2

, ,

) , cos(

où les deux termes du dénominateur représentent respectivement la norme du document, et de la requête. Les scores des TF-IDF sont calculés pour chaque document durant la phase d’indexation.

Comparé à la méthode de mise en correspondance directe, ce processus de recherche a une complexité de O(KN), où K est la taille du vecteur de caractéristiques et N le nombre de documents dans la base.

3.3. Identification du scripteur par RI

Le point central de l’implémentation d’un modèle de recherche d’informations pour une identification du scripteur réside dans la définition d’un espace commun de caractéristiques pour toute la base de données. Les phases d’indexation et de recherche peuvent ensuite être implémentées selon les étapes décrites précédemment. Dans la section 2.2 nous avons justifié notre choix de caractéristique locale (graphème) pour l’identification du scripteur ; nous avons également montré que l’utilisation des groupes d’invariants pour chaque scripteur est très pertinente pour l’identification.

Par conséquent, plutôt que de considérer les groupes d’invariants pour chacun des scripteurs indépendamment les uns des autres, nous étendons la définition de ces caractéristiques à l’ensemble de tous les scripteurs qui composent la base de référence. Cette étape de classification automatique permet donc de déterminer l’ensemble des caractéristiques sur toute la base de référence.

La figure 4 présente quelques groupes d’invariants obtenus sur notre base de référence, ces caractéristiques peuvent apparaître chez plusieurs scripteurs. Au sens du modèle, une caractéristique est considérée comme non pertinente si elle est partagée par tous les scripteurs.

Figure 4. Quelques groupes d’invariants du 1^er niveau de la base de référence

(11)

3.4. Expérimentations

La figure 5 donne le résultat de l’approche sur notre base. On constate que le bon scripteur a été correctement identifié dans près de 93 % des cas (83/88), en ayant recours aux graphèmes du premier niveau. Ce taux d’identification monte jusqu’à 95.45 % (84/88) avec les bigrammes (graphèmes niveau 2), quand les trigrammes ne donnent que 80 % (70/88) de bonne identification. Rappelons que l’approche initiale donnait 97 % de bonne identification sur le premier niveau avec une mise en correspondance très intensive des graphèmes, et donnait 92 % avec les bigrammes (cf. figure 3).

Figure 5. Identification du scripteur sur les 3 niveaux de segmentation

Ces résultats illustrent l’intérêt du modèle vectoriel de recherche d’information pour l’identification du scripteur. Nous avons pu constater également que nous obtenons pratiquement les mêmes résultats avec ce modèle de recherche d’informations qu’avec la première approche, voire des résultats meilleurs avec les graphèmes du second niveau tout en bénéficiant d’un gain de temps considérable.

Deux raisons peuvent expliquer les résultats avec les trigrammes. La première est que les trigrammes ont des formes assez singulières, ce qui les rend peu fréquents (beaucoup de singletons) même sur une même page d’écriture. La seconde raison est que les trigrammes sont plus dépendants du contenu textuel (cf. figure 6).

Figure 6. Quelques exemples de trigrammes

(12)

4. Application aux correspondances de Zola

Nous avons testé la performance de notre système d’identification sur une base d’écritures du patrimoine littéraire français. Cette base se compose de 39 scripteurs qui ont correspondu avec Émile Zola. Ces images ont été scannées à partir d’un microfilm avec une résolution de 300 dpi. Elles sont d’un niveau de difficulté plus élevé que celui de la base précédente, pour différentes raisons : présence de lignes parasites, chevauchement des lignes, types de plume et d’encre utilisés à la fin du XIX^esiècle. Enfin, les écritures de cette base sont complètement non contraintes. Le microfilm original contient près de 700 documents. Cette base de données a été manuellement annotée afin de rejeter les zones non pertinentes telles que des zones de textes imprimées, des marques, des ratures, des tâches d’encres, etc.

Bien que cette base contienne un nombre relativement important de documents, ils sont loin de se distribuer uniformément sur l’ensemble des scripteurs. De plus, le nombre de mots peut varier nettement d’un document à l’autre. Pour ces raisons, la base a été constituée en ne retenant que les blocs de textes ayant une quantité d’informations manuscrites suffisante en même temps qu’un nombre suffisant d’auteurs. Nous n’avons finalement retenu que 39 documents pour chacune des 2 bases de travail (base de référence et base d’évaluation). Chacun se compose de 5 à 7 lignes manuscrites pour la base de référence, alors que la base de test contient des blocs de textes de 3 à 5 lignes. La figure 7 donne quelques échantillons d’écriture retenus.

Figure 7. Quelques échantillons des écritures des correspondants de Zola

Les résultats obtenus sur cette base (cf. figure 8) sont sensiblement inférieurs à ceux obtenus sur notre base de laboratoire. Néanmoins, la méthode permet dans 93.3 % des cas (36/39) une identification correcte dans les 5 premières propositions.

Les particularités de cette base (images scannées à partir de microfilms, nombre limité de scripteurs…) peuvent expliquer ces résultats.

(13)

Figure 8. Résultats de l’identification sur la base Zola

5. Conclusion

Dans cet article nous avons présenté un cas d’utilisation d’un modèle de recherche d’information visuelle adapté à la navigation et l’interrogation de bases de documents manuscrits numérisés. Nous avons considéré ces documents du point de vue de leur contenu graphique, ce qui inscrit cette problématique dans un cadre d’identification du scripteur. La description utilisée, adaptée spécifiquement à la description des écritures manuscrites, permet d’atteindre des performances significatives lorsqu’on s’intéresse à retrouver le scripteur d’un document manuscrit (tâche d’identification du scripteur).

L’application de cette technique sur une base d’écritures du patrimoine littéraire montre d’une part qu’un ensemble de traitements complémentaires est nécessaire pour parvenir à filtrer les zones non manuscrites sur les documents. D’autre part, la numérisation des documents en noir et blanc à partir des microfilms reste un processus très imparfait, source importante de bruit, qui perturbe la caractérisation des écritures. Néanmoins, la méthode permet d’atteindre un taux de bonne identification de près de 93 % dans les 5 premières propositions du système. Elle s’avère donc très robuste vis-à-vis des perturbations introduites par la chaîne de capture des données. Outre son utilisation spécifique sur des écritures manuscrites, cette technique pourrait facilement être étendue à d’autres problèmes de caractérisation de documents textuels par leurs contenus graphiques. Citons par exemple les problèmes d’identification de typographies sur des documents imprimés anciens. Notons également que l’approche est par construction compatible avec les techniques de compression à base de dictionnaires de formes telles que celles utilisées par les normes JBIG ou DjVu. Pour toutes ces raisons, la technique semble particulièrement intéressante.

(14)

Remerciements

Ce travail s’inscrit dans le cadre du programme STIC-SHS du CNRS en collaboration avec l’ITEM (Institut des textes et manuscrits modernes).

Les auteurs tiennent à remercier la société DPCI (www.dpci.com) pour la numérisation des microfilms des correspondances de Zola.

6. Bibliographie

Bensefia A., Nosary A., Paquet T., Heutte L., « Writer Identification by Writer’s Invariants », International Workshop on Frontiers in Handwriting Recognition, Niagara on the Lake, Canada, 2002, p. 274-279.

Duda R., Stork D., Hart P., Pattern Classification and Scene Analysis, Wiley & Sons, 2^nd Edition, 2000.

Marti U.V., Messerli R., Bunke H., « Writer Identification Using Text Line Based Features », International Conference on Document Analysis and Recognition, Seattle, USA, p. 101- 105, 2001.

Memmi D., « Le modèle vectoriel pour le traitement de documents », Les Cahiers du Laboratoire Leibniz, IMAG-Grenoble, France, n° 14, 2000.

Nosary A., Heutte L., Paquet T., Lecourtier Y., « Defining writer’s invariants to adapt the recognition task », International Conference on Document Analysis and Recognition, Bengalore, India, 1999, p. 765-768.

Nosary A., Reconnaissance Automatique de Textes Manuscrits par Adaptation au Scripteur, Thèse de doctorat, Université de Rouen, 2002.

Pouliquen B., Delamane D., Lebeux P., « Indexation des textes médicaux par extraction de concepts et ses utilisations », 6^e Journée internationale d’Analyse statistique des Donnés Textuelles (JADT’02), 2002.

Said H.E.S., Tan T.N., Baker K.D., « Personal Identification Based on Handwritting », Pattern Recognition, vol. 33, 2000, p. 149-160.

Salton, G., Wong, A. « A vector Space Model for Automatic Indexing », Information Retrieval and Language Processing, 1975, p. 613-620.

Schaüble P., Multimedia Information Retrieval : Content–Based Information Retrieval from Large Text and Audio Databases, Swiss Federal Institute of Technology, Zurich, Suisse, Kluwer Academic Publishers, 1997.

Song F., Croft, B. W., « A General Language Model for Information Retrieval », Eighth International Conference on Information and Knowledge Management (ICIKM’99), 1999.