4.4 CAC hiérarchique pour l'analyse de structures de documents
4.4.1 Choix d'une modélisation hiérarchique
Nous avons vu dans les chapitres précédents que l'étiquetage d'images en utilisant une
approche par un modèle CAC fournit un cadre intéressant pour l'extraction de structures
de documents. Ce modèle permet de combiner la segmentation et l'étiquetage logique des
entités fonctionnelles des documents. Cependant, ces modèles montrent leurs limites dans
leur capacité à combiner des informations locales et globales. Le modèle CAC présenté
dans le chapitre 2 permet de classer les sites (ensemble de pixels) d'une image de
docu-ment pour en extraire sa structure. Les potentiels d'interaction entre sites régularisent
les décisions dans un contexte où les informations ne sont propagées que très localement.
Nous avons pu vérier ce phénomène dans le chapitre 3 lors de l'ajout d'informations
textuelles, en constatant que l'information textuelle ne se propageait qu'à un contexte
local alors qu'elle porte sur des entités plus grandes (mots, lignes, blocs).
Les modèles hiérarchiques présentés dans la section précédente surpassent ces
limi-tations. Ils permettent de se rapprocher du processus de la lecture humaine. Lorsque
nous lisons un document, nous combinons intuitivement une approche globale (la vision
pré-attentive ou pré-consciente) avec des détails spéciques à chaque niveau (la vision
attentive) pour segmenter et reconnaître conjointement les entités fonctionnelles du
do-cument [Lecas 92], [Shi 05], [Chaudhury 09]. Cette modélisation hiérarchique est un vrai
atout dans l'objectif d'extraire conjointement la structure physique et logique du
docu-ment. Le modèle CAC mono-échelle présenté dans le chapitre 2 n'eectue qu'un étiquetage
logique des ensembles de pixels sans eectuer de segmentation. La segmentation des blocs
fonctionnels n'est obtenue qu'à la n, en considérant les pixels connexes ayant la même
étiquette. Au contraire, l'utilisation de plusieurs niveaux dans la modélisation hiérarchique
va permettre de segmenter en utilisant les informations véhiculées par les congurations
d'étiquettes. Par exemple, une proposition de segmentation ligne pourra être reconsidérée
si l'étiquetage fourni pour cette ligne n'est pas cohérent avec son contexte. Le modèle
utilisera alors une proposition de segmentation plus ne avec moins d'erreur de
segmen-tation.
L'utilisation de diérents niveaux d'abstraction est un moyen ecace pour combiner
la segmentation et la reconnaissance des entités fonctionnelles. Cependant, l'étiquetage
logique des segments les plus élevés risque de propager des erreurs si cet étiquetage ne peut
pas être remis en cause. La remise en cause de cette segmentation peut être eectuée de
diérentes manières selon la méthode implicite, explicite ou induite choisie (voir la
sous-section 4.2.2). Par exemple, dans [Ladicky 09], une méthode explicite est choisie produisant
pour chaque niveau d'abstraction des segmentations xes. Les segmentations obtenues
sur chaque niveau sont associées à un critère de qualité. Celui-ci pondère l'inuence de
l'étiquetage logique fourni sur les segments. Finalement, si les critères de segmentation ne
sont pas susamment bons, l'étiquetage logique est fourni par le niveau le plus n (pixel)
sans a priori de segmentation.
La modélisation CAC hiérarchique permet de pallier les limitations des modèles CACs
mono-échelles tout en gardant leur atout d'être des modélisations discriminantes. De plus,
ces modèles CACs hiérarchiques s'accordent parfaitement avec la structure
intrinsèque-ment hiérarchique des docuintrinsèque-ments (voir chapitre 1). Les diérents niveaux d'abstraction
considérés par le modèle vont permettre à la fois de segmenter les images de documents
avec plusieurs niveaux de précision et de faciliter l'analyse de l'information textuelle qu'ils
contiennent.
4.4. CAC hiérarchique pour l'analyse de structures de documents 131
Nous allons maintenant expliciter le modèle que nous proposons et les choix que nous
avons eectués. Le modèle se base sur la modélisation CAC mono-échelle qui dénit la
distribution conditionnelle globale du champ d'étiquettesY, sachant l'observationX. Les
choix reviennent alors :
à dénir la structure du graphe d'indépendance décrivant les relations entre les
variables
à dénir les fonctions de potentiels unaires et binaires inter et intra-échelles
à choisir les diérents niveaux d'abstraction considérés
à choisir la méthode d'apprentissage des paramètres du modèle ainsi que la méthode
d'inférence
4.4.2 Modèle général
Le modèle CAC mono-échelle est étendu au modèle hiérarchique en ajoutant un
po-tentiel correspondant aux interactions inter-échelles. Le modèle est déni pour ∫ échelles
diérentes. La probabilité conditionnelle d'avoir une réalisationydu champ d'étiquettesY
sachant les observationsxse décompose comme l'exponentielle de la somme des potentiels
unaires et binaires inter et intra-échelles :
P(y|x) = 1
Zexp
∫
X
s=1
X
i∈C
sφs(yis|x) +
∫
X
s=1
X
i∈Cs j∈Ns iψs(yis, ysj|x) +
∫ −1
X
s=1
X
i∈Cs+1 k k∈Cs+1ϕs(yis, ysk+1|x)
(4.8)
Les potentiels φs etψs sont calculés pour chaque échelles. Un graphe d'indépendance
est construit sur chaque échelle à partir des segments créés. Un segment correspond à un
noeud du graphe d'indépendance soit un site représenté par une variableyioùiappartient
à l'ensemble de sitesCspour l'échelles. Des arcs sont placés entre ces noeuds permettant
d'expliciter l'existence d'une relation entre ces derniers (voir la sous-section 4.4.3). Les
potentiels ϕs sont calculés pour ∫ −1 échelles correspondant au nombre d'interactions
inter-échelles. Des arcs sont placés sur le graphe d'indépendance symbolisant les relations
entre les sites de deux échelles successives. Les potentiels ϕs sont calculés sur les cliques
binaires constituées de deux variables yi et yk de telle sorte quei ∈ Cs+1
k l'ensemble des
sites de l'échelle s liés aux sites k de l'échelle s+ 1 aveck ∈Cs+1 l'ensemble des sites de
l'échelles+ 1. Chaque variableyi, yj, yk peut prendre une valeur dans un ensemble étendu
de valeurs LE = L ∪LR où LR correspond à une étiquette de rejet. Cette extension de
l'ensemble d'étiquettes permet de rejeter une décision introduite par un segment erroné.
Nous représentons sur la gure 4.8 une schématisation du modèle CAC hiérarchique
pro-posée avec le cheminement des calculs des diérents potentiels. Nous commençons par
construire le graphe d'adjacence du modèle. Les dépendances inter-échelles sont obtenues
naturellement par l'utilisation d'une méthode de segmentation explicite qui regroupe les
entités de l'échelle s pour l'échelle s + 1 (sens des èches sur le schéma). Ensuite pour
chaque échelle, les potentiels de cliques unaires φ et binaires ψ intra-échelles sont
calcu-lés. Puis, les potentiels de cliques binairesϕ inter-échelles sont calculés. Enn, l'ensemble
de ces potentiels est passé au module d'inférence pour déterminer la conguration
d'éti-quettes optimale. Nous décrivons dans les sous-sections suivantes les choix eectués pour
la construction de ce modèle.
Graphe
échelle 1
x {φ1, ψ1}
Graphe
échelle 2 {φ2, ψ2}
Inférence yˆ
...
Graphe
échelle∫ {φ∫ , ψ∫}
ϕ∫ −1
ϕ1
Fig. 4.8: Schéma du modèle CAC hiérarchique proposé
Dans le document
Extraction de structures de documents par champs aléatoires conditionnels : application aux traitements des courriers manuscrits
(Page 148-151)