3.2 Apport d'informations textuelles
3.2.1 État de l'art sur l'extraction de structures de documents imprimés
Notre étude se base sur le constat que les résultats du premier modèle CAC proposé
pour l'extraction de structures de documents sont encore entachés d'erreurs. Les
infor-mations mises en jeu (spatiales et graphiques) se réfèrent essentiellement à la structure
physique du document. Pour améliorer les performances du modèle, il est nécessaire
d'inté-grer des informations se référant à la structure logique. L'extraction de la structure logique
d'un document nécessite la prise en considération d'informations textuelles qui sont
sou-vent implicites et non conscientes [LeBourgeois 00]. L'information textuelle correspond à
une information ou à une connaissance communiquée par l'ensemble des codages
linguis-tiques écrits. En d'autres termes, il s'agit d'un objet pourvu d'une signication propre
(par exemple, un mot ou un groupe de mots), supporté par une forme particulière de
codage, c'est-à-dire l'écriture et plus précisément le texte dans toutes ses dimensions. De
ce fait, l'objet (le mot ou groupe de mots) devient le véhicule d'une information ou d'une
connaissance donnée [Daoust 11]. En conséquence, l'information textuelle relève, d'une
part, d'une organisation physique du code écrit qui la supporte et, d'autre part, d'un
contenu signiant ou informationnel qui peut faire l'objet d'analyses. Nous divisons
clas-siquement cette information textuelle en information textuelle de bas niveau et de haut
niveau. Les informations de bas niveau correspondent aux mises en valeur essentiellement
graphiques (typographique ou scripto-graphique dans le cas du manuscrit) permettant
une meilleure compréhension du texte (alignements, agencements, style d'écriture,
espa-cements, ...). Au contraire, les informations de haut niveau font référence au message
véhiculé par le texte.
3.2. Apport d'informations textuelles 89
L'idée d'utiliser l'information textuelle comme une caractéristique pour l'interprétation
de structures de documents (extraction de structure logique) a été développée avec succès
sur des documents imprimés. Nous décrivons ici les quelques travaux dont nous avons
connaissance ayant recours à cette information.
• Dans [Klink 00] et [Klink 01], une approche à base de règles pour l'interprétation de
structures de documents imprimés est présentée. La méthode proposée consiste à étiqueter
logiquement les blocs de texte préalablement segmentés. Une méthodologie à base de règles
est utilisée pour associer une étiquette à chaque bloc et pour homogénéiser ces décisions
d'étiquetage les unes par rapport aux autres. Nous trouvons alors deux types de règles : les
règles d'association correspondant à l'étiquetage d'un bloc en fonction de caractéristiques
propres au bloc considéré et les règles d'interaction correspondant à l'étiquetage d'un bloc
par rapport aux autres blocs.
Les règles d'association se basent sur des caractéristiques morphologiques (graphiques)
intrinsèques au bloc considéré telles que sa dimension, l'alignement du texte, . . . ainsi que
des caractéristiques textuelles comme : des chaines de caractères spéciques par exemple :
with best regards , des expressions régulières alphanumériques de diérentes tailles et
des mots clés par exemple : Dear . La détection de ces mots clés est eectuée par un
OCR qui segmente et reconnaît les mots. Ces caractéristiques sont assemblées à l'aide de
règles explicitées préalablement par un expert pour un type de document donné. Le choix
de ces règles est eectué de manière intuitive.
Les règles d'interaction sont divisées en trois types : les caractéristiques de relation
géométrique qui spécient l'étiquette d'un bloc sachant son positionnement relatif (en
dessus, à gauche, . . . ) et son éloignement aux blocs voisins ; les caractéristiques de
rela-tion d'étiquettes qui spécient la présence ou l'absence d'une étiquette par rapport aux
étiquettes des blocs voisins ; les caractéristiques de relation textuelle qui spécient la
pré-sence d'une étiquette par rapport à des similitudes textuelles entre le bloc considéré et
les blocs voisins. Un exemple de règle proposée est que deux blocs seront aectés d'une
même étiquette s'ils ont un mot en commun. Là aussi, les règles sont choisies de manière
intuitive par un expert du domaine.
Ces règles sont fusionnées et normalisées pour déterminer la probabilité d'aecter
une étiquette à un bloc. Pour ce faire, chaque règle est pondérée par un paramètre qui
peut être réglé par apprentissage sur des données vérité terrain. Le modèle a été testé
sur des courriers d'entreprises et des documents techniques de la base de l'Université de
Washington [Phillips 93]. Les résultats montrent de bons taux de rappel/précision. Pour
certaines étiquettes, les taux atteignent 100% en rappel/précision lorsque l'OCR utilisé
pour segmenter et reconnaître les mots est able et lorsqu'il existe peu de similitude
avec d'autres étiquettes. Les erreurs induites par les mauvaises performances de l'OCR
montrent l'importance de ce type d'information dans l'étiquetage nal. Un autre point
important est le choix des mots clés. En eet, celui-ci est réalisé de manière intuitive, ce
qui ne garantit pas la pertinence de ces mots pour discriminer les étiquettes. Les mots
sélectionnés peuvent alors entraîner des similitudes entre type d'étiquettes et donc des
erreurs dans l'étiquetage logique.
• Dans [Ishitani 99], un modèle pour l'analyse de la structure logique de documents
imprimés est présenté. Le modèle proposé consiste en la combinaison de cinq modules
basiques : analyse de la typographie, segmentation des entités, reconnaissance des entités,
regroupement des entités et modication des entités. L'ensemble de ces modules coopèrent
au niveau local pour converger vers une structure logique satisfaisant les conditions
re-quises par chaque module. Cette structure logique émergente est ensuite vériée par des
règles globales de structuration. Si ces règles ne sont pas vériées, un système de
rebou-clage permet de corriger les instabilités en réitérant les opérations basiques sur les entités
instables.
Le module de reconnaissance permet d'attribuer une étiquette logique aux diérentes
entités présentées en entrée. C'est ce module qui permet d'intégrer des connaissances
textuelles dans le modèle. Il consiste à vérier par des règles, la présence d'entités textuelles
et la présence d'une typographie spécique. Ces entités sont choisies de manière intuitive
par les auteurs et sont jugées pertinentes pour une étiquette donnée. Par exemple, pour les
blocs de formules mathématiques, la règle utilisée consiste à vérier la présence d'un des
symboles mathématiques : +± ×÷ ≈6=∞. . . ou d'une lettre grecque Q P S R
λδ
. . . dans un bloc dont les lignes sont indentées ou centrées. Si cette règle est vériée,
l'étiquette bloc mathématique est aectée à ce dernier. Dans la même idée, l'identication
d'un bloc de titre revient à vérier la règle suivante : un bloc de titre est constitué
d'un nombre de lignes inférieur à un seuil t (choisi de manière intuitive) dans lesquelles
se trouvent l'une des entités textuelles suivantes : 2.1 , 2. , A. , . . . Toutes ces
informations textuelles peuvent être identiées par des modules de reconnaissance dédiés
à l'information recherchée.
Le modèle proposé utilise des informations textuelles de bas niveau (typographie)
et de haut niveau (reconnaissance d'entités textuelles). Ces informations permettent de
donner une décision locale sur l'étiquette logique à aecter à une entité (mots, lignes,
. . . ). Les autres modules permettent de vérier ces décisions locales qui peuvent être
entachées d'erreurs dues aux mauvaises performances des reconnaisseurs textuels utilisés.
Ils eectuent donc une remise en cause des décisions du module de reconnaissance d'objets
en créant essentiellement des modications de la segmentation des objets.
• Dans [Taylor 95], une méthodologie pour l'analyse d'images de documents est
pré-sentée. Le modèle proposé est complexe et repose sur une analyse complète de la structure
du document pour faciliter les étapes de traitement de l'information textuelle : indexation,
reconnaissance, . . . . Une des parties importantes de cette analyse traite de l'extraction
de la structure logique des documents. Les auteurs expliquent que la complexité des
documents impose l'intégration des connaissances images et textuelles pour leur
compré-hension . L'étiquetage des blocs est alors réalisé en combinant des caractéristiques
gra-phiques et spatiales (connaissances images) et des caractéristiques textuelles. Plusieurs
exemples de règles pour étiqueter les blocs sont présentés combinant ces trois types de
caractéristiques.
3.2. Apport d'informations textuelles 91
En ce qui concerne les caractéristiques textuelles, des caractéristiques simples basées
sur la reconnaissance de formes de chaînes de caractères sont utilisées. Par exemple, pour
discriminer les zones textuelles des zones non textuelles, les auteurs proposent d'utiliser
un système de reconnaissance de formes pour détecter la présence des mots clés Fig. ou
Figure . Des opérateurs booléens sont utilisés pour spécier la présence ou l'absence de
cette information dans des positions précises. En eet, ces mots sont classiquement situés
en dessous de zones non textuelles. Cependant, cette caractéristique n'est pas susante
pour étiqueter ces zones ; elle doit être combinée avec des caractéristiques graphiques et
spatiales. D'autres techniques de récupération d'informations de diérents types et de
dif-férents niveaux de complexité sont appliquées : détection de grammaire simple, détection
de groupe de mots, détection de syntaxe, . . . Par exemple, pour détecter les entêtes des
articles scolaires, les auteurs proposent de détecter des grammaires simples correspondant
à des séquences de chires et de points suivies par des chaînes alphanumériques.
Le modèle proposé montre que l'utilisation d'un OCR n'est pas le seul moyen pour
extraire de l'information textuelle. Notamment, certaines caractéristiques basées sur la
détection de mots clés possèdent l'avantage d'être relativement simples à extraire en
uti-lisant des algorithmes de reconnaissance de formes. Il est donc possible de détecter une
information textuelle, sans aller spéciquement jusqu'à une reconnaissance.
• Dans [Kreich 91], une méthode pour l'analyse de la structure logique de documents
imprimés est présentée. Elle consiste à appliquer les connaissances du domaine sur
l'or-ganisation et la structure en utilisant les résultats d'un OCR (caractéristiques textuelles)
et la reconnaissance graphique (caractéristiques graphiques) des documents. Cette
mé-thode suppose que la phase d'extraction de la structure physique segmente correctement
les zones de texte, qui sont ensuite reconnues par un OCR. Par exemple, l'approche peut
utiliser les mots dans une ligne de texte à proximité d'une image pour décider si cette ligne
est une légende ou non. Le même type de modélisation est proposée dans [Watanabe 98].
Un système combinant des informations sur la structure physique et des informations
tex-tuelles permet d'étiqueter logiquement la fonction des annotations d'un diagramme. Dans
cette application, les auteurs montrent la dualité des informations renvoyant à la structure
physique et les informations textuelles pour extraire la structure logique. Il est
notam-ment montré qu'un mot pris de manière isolée ne peut renseigner sur la structure logique.
Cependant, une information textuelle telle qu'un mot positionné à un endroit spécique
de la structure devient pertinent pour l'étiquetage logique. Un ensemble de règles est alors
construit à partir de ces deux sources d'informations (structure physique et information
textuelle) pour caractériser la structure logique des diagrammes. Les résultats d'un OCR
permettent de détecter des mots clés pertinents pour discriminer les structures. Ces mots
sont utilisées par cinq règles syntaxiques pour caractériser la structure logique. Les
ré-sultats montrent que ces règles sont insusantes pour discriminer toutes les structures
logiques possibles. De plus, le choix de ces règles peut être fastidieux et nécessite une
sélection des mots en fonction de l'application.
Pour résumer, l'utilisation des informations textuelles apparaît comme un moyen
ef-cace pour améliorer et abiliser l'attribution des étiquettes. Les modèles d'extraction
de structures sur des documents imprimés utilisant de l'information textuelle s'orientent
essentiellement vers la détection d'information de haut niveau. Notamment, les bonnes
performances des OCR sur ce type de documents rendent aisé l'apport d'une
informa-tion textuelle. L'OCR peut être appliqué directement à la reconnaissance du texte en
entier pour détecter des mots clés et/ou des expressions pouvant avoir des typographies
particulières. Néanmoins, une telle réalisation est nettement moins performante sur des
documents manuscrits. En eet, les performances des OCR sont dégradées sur de la
recon-naissance manuscrite plein texte. Pour pallier cela, il peut être envisagé d'utiliser d'autres
types d'information textuelle ou d'autres méthodes pour les détecter. Par exemple dans
[Taylor 95], la détection de mots clés est eectuée par reconnaissance de formes
holis-tiques qui est une recherche basique ayant l'avantage d'être simple à mettre en oeuvre.
Nous détaillons dans la section suivante les diérents cas envisagés. Une autre critique des
modèles présentés pour l'imprimé réside dans les procédures de sélection des informations
textuelles choisies. En eet, la sélection de ces dernières est toujours réalisée
manuelle-ment. Nous proposons ici une méthodologie pour les sélectionner automatiquemanuelle-ment.
3.2.2 Extraction d'information textuelle : le cas des documents
Dans le document
Extraction de structures de documents par champs aléatoires conditionnels : application aux traitements des courriers manuscrits
(Page 107-111)