Mise à jour des chemins pour naviguer au sein de l’en- l’en-semble des régions prototypes

sur des modèles incrémentaux

6.4.2 Mise à jour des chemins pour naviguer au sein de l’en- l’en-semble des régions prototypes

La mise à jour des régions prototypes implique également la mise à jour des chemins permettant de naviguer efficacement au sein des régions prototypes. En effet, le nombre de régions prototypes peut avoir augmenté et/ou les coordonnées (x, y, z, t) des régions prototypes peuvent avoir changé, suite à l’application du modèle de mise à jour incré-mentale des régions prototypes présenté dans la Section précédente. Pour la mise à jour des chemins deux cas sont à considérer :

— le cas où le nombre de régions prototypes reste inchangé suite à l’insertion d’une nouvelle donnée ;

— le cas où le nombre de régions prototypes a évolué suite à l’insertion d’une nouvelle donnée.

6.4.2 - Mise à jour des chemins pour naviguer au sein de l’ensemble des régions prototypes 141

Cas où le nombre de régions prototypes reste inchangé

Dans le cas où le nombre de régions prototypes reste inchangé (43 régions proto-types) et que seules les coordonnées des régions prototypes ont subi des modifications, la mise à jour du contexte formel et du treillis de concepts qui en découle ne semble a priori pas nécessaire. En effet, la variation des coordonnées des régions prototypes seule n’a pas d’effet sur la structure du contexte formel initial et par conséquent sur la structure du treillis de concepts dérivé. Toutefois, il est à noter que l’insertion de nou-veaux objets au sein d’un contexte formel existant impacte directement les valeurs de support, puisque le support d’une règle d’association est fonction du nombre d’objets du contexte formel considéré. Comme notre stratégie de navigation, au sein de l’ensemble des régions prototypes à partir des chemins, s’appuie en partie sur le support des règles d’association approximatives de la base Luxenburger, il peut être intéressant de mettre à jour le contexte formel initial dans ce cas là.

Van der Merwe et al. (Van Der Merwe et al., 2004) proposent un algorithme nommé “AddIntent” permettant de construire le treillis de concepts d’un contexte formel dans lequel les objets peuvent être insérés un à un. AddIntent est un algorithme incrémental qui prend en entré un treillis de concepts Gi construit à partir des i premiers objets d’un contexte formel et qui insère un objet supplémentaire o afin de générer un nouveau treillis de concepts Gi+1 (Algorithme5). Une implémentation de l’algorithme AddIntent est disponible sur le Web4.

Dans notre scénario spécifique, le treillis de concepts Giest le treillis de concepts existant dérivé du contexte formel initial d’images de factures synthétiques. L’objet supplémen-taire o à ajouter peut être l’image synthétique de la facture candidate inconnue. En appliquant l’algorithme incrémental de van der Merwe, nous obtenons un treillis de concepts actualisé Gi+1. Finalement, en appliquant notre méthode, décrite dans la Sec-tion 6.3.2, pour déterminer des chemins à partir d’un treillis de concepts, nous sommes en mesure de déterminer un nouvel ensemble de chemins pour naviguer au sein d’un nouvel ensemble de régions prototypes.

1 Procedure CreateLatticeIcrementally (O, A, R) Data: BottomConcept := (∅, A )

Result: G := {BottomConcept}

2 begin

3 for each o in O do

4 ObjectConcept = AddIntent(o0, BottomConcept, G)

5 Add o to the extent of ObjectConcept and all concepts above

6 end

7 end

Algorithm 5: Algorithme incrémental AddIntent de Van der Merwe et al. (Van Der Merwe et al., 2004).

142 Traitement d’une image de facture inconnue fondé sur des modèles incrémentaux

Cas où le nombre de régions prototypes change

Dans le cas où, suite à l’insertion d’une nouvelle donnée, la mise à jour de l’ensemble des régions prototypes produit un nombre différent de régions prototypes, il est clair que les chemins existants ne sont plus adaptés pour naviguer au sein du nouvel ensemble de régions prototypes. En effet, soit L1 l’ensemble des chemins existants permettant de naviguer parmi l’ensemble R1 des 43 régions prototypes obtenues dans la Section6.2.2, soit R2 un nouvel ensemble de régions prototypes obtenu suite à une mise à jour de R1

et contenant 44 régions prototypes. A partir de l’ensemble des chemins de L1 il ne sera pas possible d’atteindre la région Rj ∈ R2 absente de R1 et qui n’est donc pas connue des chemins de L1. Par conséquent, il apparait dans ce cas, que le contexte formel initial (a fortiori le treillis de concepts dérivé) peut ne plus convenir vis à vis des nouvelles données ajoutées.Pour rappel, dans la Section 6.3.1 nous considérons un contexte for-mel où les objets sont les m images de factures synthétiques initiales et les attributs des prédicats Ii = j, où i = 1, · · · , 5 désigne les 5 informations textuelles mentionnées dans la Section 6.1, et j = 1, · · · , 43 désigne l’indice des 43 régions prototypes R1, · · · ,R43

obtenues dans la Section6.2.2. Une image de facture on est en relation avec un prédicat I_i = j si l’information textuelle Ii est localisée dans la région prototype Rj au sein de l’image de facture on.

En considérant l’insertion d’une nouvelle donnée (une nouvelle image de facture synthé-tique) dans un ensemble E = {e1, · · · , e_m} constitué des m images de factures synthé-tiques initiales, E est alors constituée de m + 1 images de factures synthésynthé-tiques. Sup-posons que l’insertion de la nouvelle donnée déclenche la mise à jour de l’ensemble des 43 régions prototypes R1, · · · ,R43 produisant un nouvel ensemble R2 = {R2

1, · · · , R2 44} de 44 régions prototypes. Le contexte formel correspondant est donc un contexte formel K = (O, A, R) où les objets sont les m + 1 éléments de E et les attributs des prédicats I_i = j, où i = 1, · · · , 5 désigne les 5 informations textuelles, et j = 1, · · · , 44 désigne l’indice des 44 régions prototypes de R2. Nous pouvons noter que le contexte formel K ainsi construit est distinct du contexte formel initial considéré dans la Section6.3.1. Par conséquent, le treillis de concepts dérivé du contexte formel K, décrit ci-dessus, est distinct du treillis de concepts dont nous disposons initialement.

Dans le cas précédent nous avons vu comment l’algorithme AddIntent construit un treillis de concepts à partir d’un treillis de concepts Gi existant et d’un nouvel objet à insérer. Dans le cadre d’utilisation de cet algorithme, la structure du contexte formel initial ne peut pas subir de modification suite à l’insertion d’un nouvel objet. Hors, nous venons de voir comment l’insertion d’une nouvelle donnée dans notre système peut im-pacter la structure du contexte formel existant et par conséquent la structure du treillis de concepts existant. L’algorithme AddIntent ne semble donc pas approprié dans ce cas là. Finalement, dans le cas où l’insertion d’une nouvelle donnée produit un nouvel ensemble de régions prototypes, la mise à jour des chemins permettant de naviguer au sein de cet ensemble se déroule de la manière suivante :

1. Construction d’un contexte formel approprié, à partir du nouvel ensemble de régions prototypes et du nouvel ensemble d’images de factures synthétiques. 2. Construction du treillis de concepts du contexte formel précédemment construit. 3. Détermination des chemins à partir du treillis de concepts obtenu en appliquant

6.4.2 - Mise à jour des chemins pour naviguer au sein de l’ensemble des régions prototypes 143

6.5 Conclusion

Dans ce Chapitre nous avons présenté notre système d’extraction d’informations textuelles au sein d’images de factures, fondé sur des régions prototypes et des chemins pour naviguer au sein de l’ensemble des régions prototypes. Le système est constitué de cinq étapes :

1. Produire un jeu de données synthétiques à partir d’images de factures réelles contenant les informations d’intérêts.

2. Partitionner les données produites, puis déterminer les régions prototypes à partir de la partition obtenue.

3. Déterminer des chemins pour parcourir les régions prototypes, à partir du treillis de concepts d’un contexte formel convenablement construit.

4. Extraire à l’aide d’un moteur de reconnaissance, une liste d’informations tex-tuelles au sein des régions prototypes en étant guidé par les chemins.

5. Mettre à jour le système de manière incrémentale suite à l’insertion de nouvelles données.

La première étape est importante lorsque le système doit extraire des informations au sein d’une image de facture inconnue. En effet, si des informations à extraire, au sein d’une telle facture, ne sont pas retrouvées, alors une représentation synthétique de l’image de facture peut être produite. Ceci déclenche alors une mise à jour incrémentales de l’ensemble des régions prototypes et du treillis de concepts dont est déduit l’ensemble des chemins pour parcourir l’ensemble des régions prototypes.

En comparaison, les méthodes proposées par (Bartoli et al.,2014;Belaïd et al.,2011; Ce-sarini et al.,2003) consistent à prédire la classe (l’émetteur) d’une facture en s’appuyant sur un modèle de classification supervisé. De telles méthodes, permettent de localiser et d’extraire une information textuelle à extraire de manière précise à partir de la posi-tion absolue d’une région contenant cette informaposi-tion, étant donnée la classe de l’image de facture. Dans ces méthodes, l’extraction d’informations textuelles est guidée par un modèle (ou masque). Le modèle définit une région rectangulaire unique pour chaque in-formation à extraire au sein d’une image de facture similaire au modèle. Comme évoqué dans l’état de l’art, la construction automatique de modèles est une approche intéres-sante mais est limitée par l’hétérogénéité des émetteurs des documents. L’élaboration des modèles de classification supervisée sur lesquels s’appuient ces méthodes, nécessitent l’intervention d’un expert afin d’étiqueter un ensemble d’images sur lequel un modèle peut être entrainé. Les phases de paramétrage et d’entrainement peuvent être couteuses en temps et en ressource et pas toujours faciles à réaliser.

Notre méthode, fondée sur des modèles de classification non supervisée (partitionnement de données, analyse formelle de concepts) présente plusieurs avantages :

— capacité à traiter des images de documents d’émetteurs hétérogènes : notre sys-tème est capable de construire des régions prototypes génériques pour un en-semble d’images d’émetteurs variés ;

— indépendance à la mise en page adoptée : notre système en utilisant des régions prototypes est capable d’extraire une information textuelle au sein d’une région rectangulaire ciblée au sein d’une image ;

— capacité à traiter des images de documents sans connaissances a priori : notre sys-tème est fondé sur un partitionnement de données synthétiques et la construction

144 _Conclusion

du treillis de concepts d’un contexte formel convenablement construit ; l’inter-vention d’un expert, en amont du système, pour identifier des classes au sein des images n’est pas nécessaire, contrairement aux approches fondées sur un modèle de classification supervisée.

Le Chapitre suivant présente la mise en œuvre de la tâche d’extraction d’informations textuelles au sein d’images de facture avec notre système. Les résultats d’une évaluation expérimentale de notre système, pour l’extraction d’informations textuelles au sein d’un corpus d’images de factures réelles, sont également présentés.

6.4.2 - Mise à jour des chemins pour naviguer au sein de l’ensemble des régions prototypes 145

Publications

– Pitou, Cynthia, & Diatta, Jean. 2016. Construction de régions prototypes pour la localisation et l’extraction d’informations textuelles dans des documents numérisés : cas des factures.In : AAFD & SFC 2016 : Francophone International Conference on Data Science.

– Pitou, Cynthia, & Diatta, Jean. 2016. Textual Information Extraction in Document Images Guided by a Concept Lattice. In : Proceedings of the Thirteenth International Conference on Concept Lattices and Their Applications, 325–336.

Chapitre 7

Extraction d’informations textuelles au

Dans le document Extraction d'informations textuelles au sein de documents numérisés : cas des factures (Page 141-148)