• Aucun résultat trouvé

4.4 CAC hiérarchique pour l'analyse de structures de documents

4.4.1 Choix d'une modélisation hiérarchique

Nous avons vu dans les chapitres précédents que l'étiquetage d'images en utilisant une

approche par un modèle CAC fournit un cadre intéressant pour l'extraction de structures

de documents. Ce modèle permet de combiner la segmentation et l'étiquetage logique des

entités fonctionnelles des documents. Cependant, ces modèles montrent leurs limites dans

leur capacité à combiner des informations locales et globales. Le modèle CAC présenté

dans le chapitre 2 permet de classer les sites (ensemble de pixels) d'une image de

docu-ment pour en extraire sa structure. Les potentiels d'interaction entre sites régularisent

les décisions dans un contexte où les informations ne sont propagées que très localement.

Nous avons pu vérier ce phénomène dans le chapitre 3 lors de l'ajout d'informations

textuelles, en constatant que l'information textuelle ne se propageait qu'à un contexte

local alors qu'elle porte sur des entités plus grandes (mots, lignes, blocs).

Les modèles hiérarchiques présentés dans la section précédente surpassent ces

limi-tations. Ils permettent de se rapprocher du processus de la lecture humaine. Lorsque

nous lisons un document, nous combinons intuitivement une approche globale (la vision

pré-attentive ou pré-consciente) avec des détails spéciques à chaque niveau (la vision

attentive) pour segmenter et reconnaître conjointement les entités fonctionnelles du

do-cument [Lecas 92], [Shi 05], [Chaudhury 09]. Cette modélisation hiérarchique est un vrai

atout dans l'objectif d'extraire conjointement la structure physique et logique du

docu-ment. Le modèle CAC mono-échelle présenté dans le chapitre 2 n'eectue qu'un étiquetage

logique des ensembles de pixels sans eectuer de segmentation. La segmentation des blocs

fonctionnels n'est obtenue qu'à la n, en considérant les pixels connexes ayant la même

étiquette. Au contraire, l'utilisation de plusieurs niveaux dans la modélisation hiérarchique

va permettre de segmenter en utilisant les informations véhiculées par les congurations

d'étiquettes. Par exemple, une proposition de segmentation ligne pourra être reconsidérée

si l'étiquetage fourni pour cette ligne n'est pas cohérent avec son contexte. Le modèle

utilisera alors une proposition de segmentation plus ne avec moins d'erreur de

segmen-tation.

L'utilisation de diérents niveaux d'abstraction est un moyen ecace pour combiner

la segmentation et la reconnaissance des entités fonctionnelles. Cependant, l'étiquetage

logique des segments les plus élevés risque de propager des erreurs si cet étiquetage ne peut

pas être remis en cause. La remise en cause de cette segmentation peut être eectuée de

diérentes manières selon la méthode implicite, explicite ou induite choisie (voir la

sous-section 4.2.2). Par exemple, dans [Ladicky 09], une méthode explicite est choisie produisant

pour chaque niveau d'abstraction des segmentations xes. Les segmentations obtenues

sur chaque niveau sont associées à un critère de qualité. Celui-ci pondère l'inuence de

l'étiquetage logique fourni sur les segments. Finalement, si les critères de segmentation ne

sont pas susamment bons, l'étiquetage logique est fourni par le niveau le plus n (pixel)

sans a priori de segmentation.

La modélisation CAC hiérarchique permet de pallier les limitations des modèles CACs

mono-échelles tout en gardant leur atout d'être des modélisations discriminantes. De plus,

ces modèles CACs hiérarchiques s'accordent parfaitement avec la structure

intrinsèque-ment hiérarchique des docuintrinsèque-ments (voir chapitre 1). Les diérents niveaux d'abstraction

considérés par le modèle vont permettre à la fois de segmenter les images de documents

avec plusieurs niveaux de précision et de faciliter l'analyse de l'information textuelle qu'ils

contiennent.

4.4. CAC hiérarchique pour l'analyse de structures de documents 131

Nous allons maintenant expliciter le modèle que nous proposons et les choix que nous

avons eectués. Le modèle se base sur la modélisation CAC mono-échelle qui dénit la

distribution conditionnelle globale du champ d'étiquettesY, sachant l'observationX. Les

choix reviennent alors :

à dénir la structure du graphe d'indépendance décrivant les relations entre les

variables

à dénir les fonctions de potentiels unaires et binaires inter et intra-échelles

à choisir les diérents niveaux d'abstraction considérés

à choisir la méthode d'apprentissage des paramètres du modèle ainsi que la méthode

d'inférence

4.4.2 Modèle général

Le modèle CAC mono-échelle est étendu au modèle hiérarchique en ajoutant un

po-tentiel correspondant aux interactions inter-échelles. Le modèle est déni pour ∫ échelles

diérentes. La probabilité conditionnelle d'avoir une réalisationydu champ d'étiquettesY

sachant les observationsxse décompose comme l'exponentielle de la somme des potentiels

unaires et binaires inter et intra-échelles :

P(y|x) = 1

Zexp

X

s=1

X

i∈C

s

φs(yis|x) +

X

s=1

X

i∈Cs j∈Ns i

ψs(yis, ysj|x) +

∫ −1

X

s=1

X

i∈Cs+1 k k∈Cs+1

ϕs(yis, ysk+1|x)

(4.8)

Les potentiels φs etψs sont calculés pour chaque échelles. Un graphe d'indépendance

est construit sur chaque échelle à partir des segments créés. Un segment correspond à un

noeud du graphe d'indépendance soit un site représenté par une variableyioùiappartient

à l'ensemble de sitesCspour l'échelles. Des arcs sont placés entre ces noeuds permettant

d'expliciter l'existence d'une relation entre ces derniers (voir la sous-section 4.4.3). Les

potentiels ϕs sont calculés pour ∫ −1 échelles correspondant au nombre d'interactions

inter-échelles. Des arcs sont placés sur le graphe d'indépendance symbolisant les relations

entre les sites de deux échelles successives. Les potentiels ϕs sont calculés sur les cliques

binaires constituées de deux variables yi et yk de telle sorte quei ∈ Cs+1

k l'ensemble des

sites de l'échelle s liés aux sites k de l'échelle s+ 1 aveck ∈Cs+1 l'ensemble des sites de

l'échelles+ 1. Chaque variableyi, yj, yk peut prendre une valeur dans un ensemble étendu

de valeurs LE = L ∪LR où LR correspond à une étiquette de rejet. Cette extension de

l'ensemble d'étiquettes permet de rejeter une décision introduite par un segment erroné.

Nous représentons sur la gure 4.8 une schématisation du modèle CAC hiérarchique

pro-posée avec le cheminement des calculs des diérents potentiels. Nous commençons par

construire le graphe d'adjacence du modèle. Les dépendances inter-échelles sont obtenues

naturellement par l'utilisation d'une méthode de segmentation explicite qui regroupe les

entités de l'échelle s pour l'échelle s + 1 (sens des èches sur le schéma). Ensuite pour

chaque échelle, les potentiels de cliques unaires φ et binaires ψ intra-échelles sont

calcu-lés. Puis, les potentiels de cliques binairesϕ inter-échelles sont calculés. Enn, l'ensemble

de ces potentiels est passé au module d'inférence pour déterminer la conguration

d'éti-quettes optimale. Nous décrivons dans les sous-sections suivantes les choix eectués pour

la construction de ce modèle.

Graphe

échelle 1

x {φ1, ψ1}

Graphe

échelle 2 {φ2, ψ2}

Inférence yˆ

...

Graphe

échelle∫ {φ , ψ}

ϕ∫ −1

ϕ1

Fig. 4.8: Schéma du modèle CAC hiérarchique proposé