Choix d'une modélisation hiérarchique

4.4 CAC hiérarchique pour l'analyse de structures de documents

i∈Cs j∈N^s i

i∈C^s+1 k k∈Cs+1

4.4 CAC hiérarchique pour l'analyse de structures de documents

4.4.1 Choix d'une modélisation hiérarchique

Nous avons vu dans les chapitres précédents que l'étiquetage d'images en utilisant une

approche par un modèle CAC fournit un cadre intéressant pour l'extraction de structures

de documents. Ce modèle permet de combiner la segmentation et l'étiquetage logique des

entités fonctionnelles des documents. Cependant, ces modèles montrent leurs limites dans

leur capacité à combiner des informations locales et globales. Le modèle CAC présenté

dans le chapitre 2 permet de classer les sites (ensemble de pixels) d'une image de

docu-ment pour en extraire sa structure. Les potentiels d'interaction entre sites régularisent

les décisions dans un contexte où les informations ne sont propagées que très localement.

Nous avons pu vérier ce phénomène dans le chapitre 3 lors de l'ajout d'informations

textuelles, en constatant que l'information textuelle ne se propageait qu'à un contexte

local alors qu'elle porte sur des entités plus grandes (mots, lignes, blocs).

Les modèles hiérarchiques présentés dans la section précédente surpassent ces

limi-tations. Ils permettent de se rapprocher du processus de la lecture humaine. Lorsque

nous lisons un document, nous combinons intuitivement une approche globale (la vision

pré-attentive ou pré-consciente) avec des détails spéciques à chaque niveau (la vision

attentive) pour segmenter et reconnaître conjointement les entités fonctionnelles du

do-cument [Lecas 92], [Shi 05], [Chaudhury 09]. Cette modélisation hiérarchique est un vrai

atout dans l'objectif d'extraire conjointement la structure physique et logique du

docu-ment. Le modèle CAC mono-échelle présenté dans le chapitre 2 n'eectue qu'un étiquetage

logique des ensembles de pixels sans eectuer de segmentation. La segmentation des blocs

fonctionnels n'est obtenue qu'à la n, en considérant les pixels connexes ayant la même

étiquette. Au contraire, l'utilisation de plusieurs niveaux dans la modélisation hiérarchique

va permettre de segmenter en utilisant les informations véhiculées par les congurations

d'étiquettes. Par exemple, une proposition de segmentation ligne pourra être reconsidérée

si l'étiquetage fourni pour cette ligne n'est pas cohérent avec son contexte. Le modèle

utilisera alors une proposition de segmentation plus ne avec moins d'erreur de

segmen-tation.

L'utilisation de diérents niveaux d'abstraction est un moyen ecace pour combiner

la segmentation et la reconnaissance des entités fonctionnelles. Cependant, l'étiquetage

logique des segments les plus élevés risque de propager des erreurs si cet étiquetage ne peut

pas être remis en cause. La remise en cause de cette segmentation peut être eectuée de

diérentes manières selon la méthode implicite, explicite ou induite choisie (voir la

sous-section 4.2.2). Par exemple, dans [Ladicky 09], une méthode explicite est choisie produisant

pour chaque niveau d'abstraction des segmentations xes. Les segmentations obtenues

sur chaque niveau sont associées à un critère de qualité. Celui-ci pondère l'inuence de

l'étiquetage logique fourni sur les segments. Finalement, si les critères de segmentation ne

sont pas susamment bons, l'étiquetage logique est fourni par le niveau le plus n (pixel)

sans a priori de segmentation.

La modélisation CAC hiérarchique permet de pallier les limitations des modèles CACs

mono-échelles tout en gardant leur atout d'être des modélisations discriminantes. De plus,

ces modèles CACs hiérarchiques s'accordent parfaitement avec la structure

intrinsèque-ment hiérarchique des docuintrinsèque-ments (voir chapitre 1). Les diérents niveaux d'abstraction

considérés par le modèle vont permettre à la fois de segmenter les images de documents

avec plusieurs niveaux de précision et de faciliter l'analyse de l'information textuelle qu'ils

contiennent.

4.4. CAC hiérarchique pour l'analyse de structures de documents 131

Nous allons maintenant expliciter le modèle que nous proposons et les choix que nous

avons eectués. Le modèle se base sur la modélisation CAC mono-échelle qui dénit la

distribution conditionnelle globale du champ d'étiquettesY, sachant l'observationX. Les

choix reviennent alors :

à dénir la structure du graphe d'indépendance décrivant les relations entre les

variables

à dénir les fonctions de potentiels unaires et binaires inter et intra-échelles

à choisir les diérents niveaux d'abstraction considérés

à choisir la méthode d'apprentissage des paramètres du modèle ainsi que la méthode

d'inférence

4.4.2 Modèle général

Le modèle CAC mono-échelle est étendu au modèle hiérarchique en ajoutant un

po-tentiel correspondant aux interactions inter-échelles. Le modèle est déni pour ∫ échelles

diérentes. La probabilité conditionnelle d'avoir une réalisationydu champ d'étiquettesY

sachant les observationsxse décompose comme l'exponentielle de la somme des potentiels

unaires et binaires inter et intra-échelles :

P(y|x) = 1

Zexp









∫

X

s=1

X

i∈C

φs(yis|x) +

∫

X

s=1

P(y|x) = ¹

φ^s(y_i^s|x) +

ψ^s(y_i^s, y^s_j|x) +

ϕ^s(y_i^s, y^s_k⁺¹|x)

échelle 2 ^{^φ²^, ^ψ²^}

échelle∫ ^{^φ^∫ , ψ^∫}