• Aucun résultat trouvé

État de l'art sur l'extraction de structures de documents imprimés

3.2 Apport d'informations textuelles

3.2.1 État de l'art sur l'extraction de structures de documents imprimés

Notre étude se base sur le constat que les résultats du premier modèle CAC proposé

pour l'extraction de structures de documents sont encore entachés d'erreurs. Les

infor-mations mises en jeu (spatiales et graphiques) se réfèrent essentiellement à la structure

physique du document. Pour améliorer les performances du modèle, il est nécessaire

d'inté-grer des informations se référant à la structure logique. L'extraction de la structure logique

d'un document nécessite la prise en considération d'informations textuelles qui sont

sou-vent implicites et non conscientes [LeBourgeois 00]. L'information textuelle correspond à

une information ou à une connaissance communiquée par l'ensemble des codages

linguis-tiques écrits. En d'autres termes, il s'agit d'un objet pourvu d'une signication propre

(par exemple, un mot ou un groupe de mots), supporté par une forme particulière de

codage, c'est-à-dire l'écriture et plus précisément le texte dans toutes ses dimensions. De

ce fait, l'objet (le mot ou groupe de mots) devient le véhicule d'une information ou d'une

connaissance donnée [Daoust 11]. En conséquence, l'information textuelle relève, d'une

part, d'une organisation physique du code écrit qui la supporte et, d'autre part, d'un

contenu signiant ou informationnel qui peut faire l'objet d'analyses. Nous divisons

clas-siquement cette information textuelle en information textuelle de bas niveau et de haut

niveau. Les informations de bas niveau correspondent aux mises en valeur essentiellement

graphiques (typographique ou scripto-graphique dans le cas du manuscrit) permettant

une meilleure compréhension du texte (alignements, agencements, style d'écriture,

espa-cements, ...). Au contraire, les informations de haut niveau font référence au message

véhiculé par le texte.

3.2. Apport d'informations textuelles 89

L'idée d'utiliser l'information textuelle comme une caractéristique pour l'interprétation

de structures de documents (extraction de structure logique) a été développée avec succès

sur des documents imprimés. Nous décrivons ici les quelques travaux dont nous avons

connaissance ayant recours à cette information.

• Dans [Klink 00] et [Klink 01], une approche à base de règles pour l'interprétation de

structures de documents imprimés est présentée. La méthode proposée consiste à étiqueter

logiquement les blocs de texte préalablement segmentés. Une méthodologie à base de règles

est utilisée pour associer une étiquette à chaque bloc et pour homogénéiser ces décisions

d'étiquetage les unes par rapport aux autres. Nous trouvons alors deux types de règles : les

règles d'association correspondant à l'étiquetage d'un bloc en fonction de caractéristiques

propres au bloc considéré et les règles d'interaction correspondant à l'étiquetage d'un bloc

par rapport aux autres blocs.

Les règles d'association se basent sur des caractéristiques morphologiques (graphiques)

intrinsèques au bloc considéré telles que sa dimension, l'alignement du texte, . . . ainsi que

des caractéristiques textuelles comme : des chaines de caractères spéciques par exemple :

with best regards , des expressions régulières alphanumériques de diérentes tailles et

des mots clés par exemple : Dear . La détection de ces mots clés est eectuée par un

OCR qui segmente et reconnaît les mots. Ces caractéristiques sont assemblées à l'aide de

règles explicitées préalablement par un expert pour un type de document donné. Le choix

de ces règles est eectué de manière intuitive.

Les règles d'interaction sont divisées en trois types : les caractéristiques de relation

géométrique qui spécient l'étiquette d'un bloc sachant son positionnement relatif (en

dessus, à gauche, . . . ) et son éloignement aux blocs voisins ; les caractéristiques de

rela-tion d'étiquettes qui spécient la présence ou l'absence d'une étiquette par rapport aux

étiquettes des blocs voisins ; les caractéristiques de relation textuelle qui spécient la

pré-sence d'une étiquette par rapport à des similitudes textuelles entre le bloc considéré et

les blocs voisins. Un exemple de règle proposée est que deux blocs seront aectés d'une

même étiquette s'ils ont un mot en commun. Là aussi, les règles sont choisies de manière

intuitive par un expert du domaine.

Ces règles sont fusionnées et normalisées pour déterminer la probabilité d'aecter

une étiquette à un bloc. Pour ce faire, chaque règle est pondérée par un paramètre qui

peut être réglé par apprentissage sur des données vérité terrain. Le modèle a été testé

sur des courriers d'entreprises et des documents techniques de la base de l'Université de

Washington [Phillips 93]. Les résultats montrent de bons taux de rappel/précision. Pour

certaines étiquettes, les taux atteignent 100% en rappel/précision lorsque l'OCR utilisé

pour segmenter et reconnaître les mots est able et lorsqu'il existe peu de similitude

avec d'autres étiquettes. Les erreurs induites par les mauvaises performances de l'OCR

montrent l'importance de ce type d'information dans l'étiquetage nal. Un autre point

important est le choix des mots clés. En eet, celui-ci est réalisé de manière intuitive, ce

qui ne garantit pas la pertinence de ces mots pour discriminer les étiquettes. Les mots

sélectionnés peuvent alors entraîner des similitudes entre type d'étiquettes et donc des

erreurs dans l'étiquetage logique.

• Dans [Ishitani 99], un modèle pour l'analyse de la structure logique de documents

imprimés est présenté. Le modèle proposé consiste en la combinaison de cinq modules

basiques : analyse de la typographie, segmentation des entités, reconnaissance des entités,

regroupement des entités et modication des entités. L'ensemble de ces modules coopèrent

au niveau local pour converger vers une structure logique satisfaisant les conditions

re-quises par chaque module. Cette structure logique émergente est ensuite vériée par des

règles globales de structuration. Si ces règles ne sont pas vériées, un système de

rebou-clage permet de corriger les instabilités en réitérant les opérations basiques sur les entités

instables.

Le module de reconnaissance permet d'attribuer une étiquette logique aux diérentes

entités présentées en entrée. C'est ce module qui permet d'intégrer des connaissances

textuelles dans le modèle. Il consiste à vérier par des règles, la présence d'entités textuelles

et la présence d'une typographie spécique. Ces entités sont choisies de manière intuitive

par les auteurs et sont jugées pertinentes pour une étiquette donnée. Par exemple, pour les

blocs de formules mathématiques, la règle utilisée consiste à vérier la présence d'un des

symboles mathématiques : +± ×÷ ≈6=∞. . . ou d'une lettre grecque Q P S R

λδ

. . . dans un bloc dont les lignes sont indentées ou centrées. Si cette règle est vériée,

l'étiquette bloc mathématique est aectée à ce dernier. Dans la même idée, l'identication

d'un bloc de titre revient à vérier la règle suivante : un bloc de titre est constitué

d'un nombre de lignes inférieur à un seuil t (choisi de manière intuitive) dans lesquelles

se trouvent l'une des entités textuelles suivantes : 2.1 , 2. , A. , . . . Toutes ces

informations textuelles peuvent être identiées par des modules de reconnaissance dédiés

à l'information recherchée.

Le modèle proposé utilise des informations textuelles de bas niveau (typographie)

et de haut niveau (reconnaissance d'entités textuelles). Ces informations permettent de

donner une décision locale sur l'étiquette logique à aecter à une entité (mots, lignes,

. . . ). Les autres modules permettent de vérier ces décisions locales qui peuvent être

entachées d'erreurs dues aux mauvaises performances des reconnaisseurs textuels utilisés.

Ils eectuent donc une remise en cause des décisions du module de reconnaissance d'objets

en créant essentiellement des modications de la segmentation des objets.

• Dans [Taylor 95], une méthodologie pour l'analyse d'images de documents est

pré-sentée. Le modèle proposé est complexe et repose sur une analyse complète de la structure

du document pour faciliter les étapes de traitement de l'information textuelle : indexation,

reconnaissance, . . . . Une des parties importantes de cette analyse traite de l'extraction

de la structure logique des documents. Les auteurs expliquent que la complexité des

documents impose l'intégration des connaissances images et textuelles pour leur

compré-hension . L'étiquetage des blocs est alors réalisé en combinant des caractéristiques

gra-phiques et spatiales (connaissances images) et des caractéristiques textuelles. Plusieurs

exemples de règles pour étiqueter les blocs sont présentés combinant ces trois types de

caractéristiques.

3.2. Apport d'informations textuelles 91

En ce qui concerne les caractéristiques textuelles, des caractéristiques simples basées

sur la reconnaissance de formes de chaînes de caractères sont utilisées. Par exemple, pour

discriminer les zones textuelles des zones non textuelles, les auteurs proposent d'utiliser

un système de reconnaissance de formes pour détecter la présence des mots clés Fig. ou

Figure . Des opérateurs booléens sont utilisés pour spécier la présence ou l'absence de

cette information dans des positions précises. En eet, ces mots sont classiquement situés

en dessous de zones non textuelles. Cependant, cette caractéristique n'est pas susante

pour étiqueter ces zones ; elle doit être combinée avec des caractéristiques graphiques et

spatiales. D'autres techniques de récupération d'informations de diérents types et de

dif-férents niveaux de complexité sont appliquées : détection de grammaire simple, détection

de groupe de mots, détection de syntaxe, . . . Par exemple, pour détecter les entêtes des

articles scolaires, les auteurs proposent de détecter des grammaires simples correspondant

à des séquences de chires et de points suivies par des chaînes alphanumériques.

Le modèle proposé montre que l'utilisation d'un OCR n'est pas le seul moyen pour

extraire de l'information textuelle. Notamment, certaines caractéristiques basées sur la

détection de mots clés possèdent l'avantage d'être relativement simples à extraire en

uti-lisant des algorithmes de reconnaissance de formes. Il est donc possible de détecter une

information textuelle, sans aller spéciquement jusqu'à une reconnaissance.

• Dans [Kreich 91], une méthode pour l'analyse de la structure logique de documents

imprimés est présentée. Elle consiste à appliquer les connaissances du domaine sur

l'or-ganisation et la structure en utilisant les résultats d'un OCR (caractéristiques textuelles)

et la reconnaissance graphique (caractéristiques graphiques) des documents. Cette

mé-thode suppose que la phase d'extraction de la structure physique segmente correctement

les zones de texte, qui sont ensuite reconnues par un OCR. Par exemple, l'approche peut

utiliser les mots dans une ligne de texte à proximité d'une image pour décider si cette ligne

est une légende ou non. Le même type de modélisation est proposée dans [Watanabe 98].

Un système combinant des informations sur la structure physique et des informations

tex-tuelles permet d'étiqueter logiquement la fonction des annotations d'un diagramme. Dans

cette application, les auteurs montrent la dualité des informations renvoyant à la structure

physique et les informations textuelles pour extraire la structure logique. Il est

notam-ment montré qu'un mot pris de manière isolée ne peut renseigner sur la structure logique.

Cependant, une information textuelle telle qu'un mot positionné à un endroit spécique

de la structure devient pertinent pour l'étiquetage logique. Un ensemble de règles est alors

construit à partir de ces deux sources d'informations (structure physique et information

textuelle) pour caractériser la structure logique des diagrammes. Les résultats d'un OCR

permettent de détecter des mots clés pertinents pour discriminer les structures. Ces mots

sont utilisées par cinq règles syntaxiques pour caractériser la structure logique. Les

ré-sultats montrent que ces règles sont insusantes pour discriminer toutes les structures

logiques possibles. De plus, le choix de ces règles peut être fastidieux et nécessite une

sélection des mots en fonction de l'application.

Pour résumer, l'utilisation des informations textuelles apparaît comme un moyen

ef-cace pour améliorer et abiliser l'attribution des étiquettes. Les modèles d'extraction

de structures sur des documents imprimés utilisant de l'information textuelle s'orientent

essentiellement vers la détection d'information de haut niveau. Notamment, les bonnes

performances des OCR sur ce type de documents rendent aisé l'apport d'une

informa-tion textuelle. L'OCR peut être appliqué directement à la reconnaissance du texte en

entier pour détecter des mots clés et/ou des expressions pouvant avoir des typographies

particulières. Néanmoins, une telle réalisation est nettement moins performante sur des

documents manuscrits. En eet, les performances des OCR sont dégradées sur de la

recon-naissance manuscrite plein texte. Pour pallier cela, il peut être envisagé d'utiliser d'autres

types d'information textuelle ou d'autres méthodes pour les détecter. Par exemple dans

[Taylor 95], la détection de mots clés est eectuée par reconnaissance de formes

holis-tiques qui est une recherche basique ayant l'avantage d'être simple à mettre en oeuvre.

Nous détaillons dans la section suivante les diérents cas envisagés. Une autre critique des

modèles présentés pour l'imprimé réside dans les procédures de sélection des informations

textuelles choisies. En eet, la sélection de ces dernières est toujours réalisée

manuelle-ment. Nous proposons ici une méthodologie pour les sélectionner automatiquemanuelle-ment.

3.2.2 Extraction d'information textuelle : le cas des documents