• Aucun résultat trouvé

Détermination de chemins à partir du treillis de concepts

des régions prototypes à partir d’un treillis de concepts

6.3.2 Détermination de chemins à partir du treillis de concepts

o895 X · · · X X

· · · · · ·

o1270 X · · · X X

Table 6.8 – Extrait du contexte formel de l’ensemble des images de factures du jeu de données synthétiques.

6.3.2 Détermination de chemins à partir du treillis de concepts

Pour rappel, étant donné un contexte formel K = (O, A, R), une règle d’association est une paire (X, Y ), définie telle que X → Y , où X et Y sont des ensembles disjoints de A (Agrawal et al., 1993). L’ensemble X est appelé antécédent de la règle X → Y et Y son conséquent.

Le support d’une règle d’association X → Y est la proportion d’objets qui contiennent tous les attributs dans X ∪ Y , i.e. |(X∪Y )0|

|O| .

La confiance d’une règle d’association X → Y est la proportion d’objets qui contiennent Y, parmi ceux contenant X.

Une règle d’association valide est une règle d’association dont le support et la confiance sont au moins égaux à un seuil minimum fixé de support et un seuil minimum fixé de

6.3.2 - Détermination de chemins à partir du treillis de concepts 131

Figure 6.8 – Treillis de concepts du contexte formel d’images de factures.

confiance, respectivement. Une règle d’association approximative est une règle d’asso-ciation dont la confiance est inférieure à 1.

Lorsque le seuil minimum de support est fixé à 0, la base de Luxenburger des règles d’as-sociation approximatives est l’ensemble des règles de la forme X → Y \ X, où X = X00, Y = Y00, X ⊂ Y et il n’existe pas de Z tel que Z00 = Z et X ⊂ Z ⊂ Y (Kuznetsov & Makhalova, 2015).

La base de Luxenburger peut être directement visualisé sur le diagramme de Hasse d’un treillis de concepts. Chaque règle d’association approximative correspond exactement à une arrête du diagramme de Hasse. La Figure 6.8 représente le treillis de concepts du contexte formel d’images de factures synthétiques et montre par conséquent toutes les règles d’association approximatives de la base de Luxenburger pour un seuil minimum de support minsupp = 0. L’ensemble des règles d’association approximatives de la base de Luxenburger correspondant au treillis de concepts dérivé du contexte formel d’images de factures synthétiques est présenté dans les Tableaux2 6.9 et6.10. Sur le diagramme de Hasse de la Figure 6.8 une représentation succincte est utilisée pour représenter les informations à propos des intentions et des extensions de concepts formels. Dans cette représentation succincte, si une étiquette d’attribut A est attachée à un concept, cela si-gnifie, que cet attribut apparait dans les intentions de tous les concepts atteignables, en descendant dans le treillis, à partir de ce concept jusqu’au “concept bottom” (le concept le plus bas du treillis). Si une étiquette d’objet O est attachée à un concept, cela signifie, que l’objet O figure dans les extensions de tous les concepts atteignables, en remontant dans le treillis, à partir de ce concept jusqu’au “concept top” (le concept le plus haut du treillis). Sur le diagramme, un nœud bleu et noir signifie qu’il y a un attribut attaché au concept représenté par ce nœud. Un nœud blanc et noir signifie qu’il y a un objet attaché au concept représenté par ce nœud. Par exemple, dans la Figure6.9, l’arête (tracée en bleu) entre le nœud étiqueté "I5=42" et le nœud étiqueté "I1=9, I3=25" représente la règle d’association approximative I5=42 → I1=9, I3=25 de la base de Luxenburger.

2. Dans les Tableaux le support est exprimé en nombre d’objets contenant tous les attributs X ∪ Y étant donnée une règle d’association X → Y

132

Détermination de chemins pour naviguer au sein des régions prototypes à partir d’un treillis de concepts

règle d’association approximative support confiance

I2=16 I4=32 → I1=5 207 85 %

I1=6 → I4=31 202 84%

I2=13 I3=22 → I1=2 I4=32 I5=36 215 83 %

I5=39 → I2=16 I4=32 180 80 %

I2=16 I4=32 I5=39 → I1=5 I3=24 144 78 %

I2=17 I4=32 → I3=25 178 72 %

I3=22 I4=31 → I1=4 I2=15 I5=38 128 72 % I2=17 I5=40 → I1=6 I3=30 I4=31 134 72 % I2=20 → I1=10 I3=29 I4=33 I5=43 114 71 %

I3=22 → I2=13 307 70 %

I2=16 I4=32 → I5=39 207 70 %

I3=21 → I4=32 207 69 %

I1=1 I3=21 → I2=11 I4=31 I5=34 94 68 % I3=23 I4=32 → I1=3 I2=14 I5=37 102 68 %

I1=7 → I4=32 109 67 %

{ } → I4=32 1270 65 %

I2=17 → I4=32 274 65 %

I5=38 → I1=4 I2=15 I3=22 I4=31 142 65 % I5=42 → I1=6 I2=19 I3=28 I4=31 124 60 %

I5=40 → I4=32 230 58 %

I5=40 → I2=17 230 58 %

I4=32 I5=35 → I1=7 I2=17 I3=25 70 57 % I1=3 I2=17 I4=32 → I3=21 I5=38 88 57 % I1=6 I4=31 → I2=17 I3=30 I5=40 170 56 %

I1=3 I4=32 → I2=17 157 56 %

I1=7 I4=32 → I2=17 I3=25 I5=35 73 55 %

I2=17 I4=32 → I1=3 178 49 %

I2=17 → I5=40 274 49 %

I4=32 I5=40 → I1=5 I2=16 I3=21 134 47 %

I4=31 → I1=6 362 47 %

I3=21 → I1=1 207 45 %

Table 6.9 – Ensemble des règles d’association approximatives de la base de Luxenburger du treillis de concepts dérivé du contexte formel d’images de factures synthétiques (1ère partie).

6.3.2 - Détermination de chemins à partir du treillis de concepts 133

règle d’association approximative support3 confiance I1=7 I4=32 → I2=20 I3=23 I5=40 73 45 % I3=21 I4=32 → I1=5 I2=16 I5=40 143 44 % I1=3 I4=32 → I2=14 I3=23 I5=37 157 44 % I1=6 I4=31 → I2=19 I3=28 I5=42 170 44 % I1=3 I2=17 I4=32 → I3=25 I5=40 88 43 % I4=32 I5=35 → I1=1 I2=12 I3=21 70 43 %

I3=22 → I4=31 307 42 %

I5=42 → I1=9 I2=17 I3=25 I4=32 124 40 % I1=5 I2=16 I4=32 → I3=21 I5=40 175 36 %

I4=31 → I3=22 362 35 %

I1=7 → I2=13 I3=22 I4=31 I5=39 109 33 % I3=23 I4=32 → I1=7 I2=20 I5=40 102 32 % I2=20 → I1=7 I3=23 I4=32 I5=40 114 29 %

{ } → I4=31 1270 29 %

I2=16 I4=32 I5=39 → I1=6 I3=26 144 22 % I4=32 → I1=8 I2=18 I3=27 I5=41 826 16 %

I1=9 I2=17 I3=25 I4=32 I5=42 → I1=1 I1=2 I1=3 I1=4 I1=5 I1=6 I1=7 I1=8 I1=10 I2=11 I2=12 I2=13 I2=14 I2=15 I2=16 I2=18 I2=19 I2=20 I3=21 I3=22 I3=23 I3=24 I3=26 I3=27 I3=28 I3=29 I3=30 I4=31 I4=33 I5=34 I5=35 I5=36 I5=37 I5=38 I5=39 I5=40 I5=41 I5=43

50 0 % Table 6.10 – Ensemble des règles d’association approximatives de la base de Luxenbur-ger du treillis de concepts dérivé du contexte formel d’images de factures synthétiques (2ème partie).

Le diagramme de Hasse d’un treillis de concepts contient des chemins avec lesquels il est possible de se déplacer du concept “top” vers le concept “bottom”. Les chemins que nous adoptons pour naviguer à travers l’ensemble des régions prototypes sont exactement ceux correspondant à des séquences de règles d’association de la base de Luxenburger, c’est à dire des séquences consécutives d’arêtes du treillis de concepts en allant du haut vers le bas. En d’autres termes, un chemin est une séquence Y0 → Y1 → · · · → Yn, où Y0 est l’intention du concept formel “top” et pour tout 0 ≤ i < n, Yi → Yi+1 est une règle d’association de la base de Luxenburger.

Étant donné un nœud du treillis de concepts, il existe autant de règles d’association approximatives dont l’antécédent est l’intention de ce nœud, qu’il y a de nœuds fils de ce nœud dans le treillis de concepts. Entre deux règles d’association ayant le même antécédent, celui dont le support est le plus élevé est considéré en premier. Par exemple, soit deux chemins p1 et p2 :

p1 : I5=42 → I1=9 → I3=25, p2 : I5=42 → I2=19→ I3=28,

dont les valeurs de support sont respectivement de 4% et 6%. Dans le but de localiser et d’extraire les informations I1 à I5 au sein d’une image de facture candidate, et en supposant que I5=42 est un nœud fils direct du nœud “top” et qu’il possède la valeur de support la plus élevée parmi tous les nœuds fils direct du nœud “top”, la région prototype R42est visitée en premier afin de trouver l’information I5. Ensuite, en utilisant le chemin p2, les régions prototypes R19et R28sont visitées afin de trouver les informations I2 et I3

134

Détermination de chemins pour naviguer au sein des régions prototypes à partir d’un treillis de concepts

Chemins pour naviguer au sein de

l’en-semble des régions prototypes séquence correspondante de régions proto-types à visiter

p1 20 10 29 33 44 p2 6 31 19 28 42 p3 6 31 17 30 40 p4 7 32 20 23 40 p5 7 32 17 25 35 p6 39 16 32 6 26 p7 39 16 32 5 24 p8 39 7 13 22 31 p9 21 32 3 17 38 p10 21 32 5 16 40 p11 21 32 1 12 35 p12 21 1 11 31 34 p13 21 1 12 32 35 p14 32 16 5 21 40 p15 32 16 5 24 39 p16 32 2 13 22 36 p17 32 17 25 3 40 p18 32 17 25 7 35 p19 32 17 25 9 42 p20 32 17 3 25 40 p21 32 17 3 21 38 p22 32 3 17 21 38 p23 32 3 17 25 40 p24 32 3 14 23 37 p25 32 21 5 16 40 p26 32 21 3 17 38 p27 32 21 1 12 35

Table 6.11 – Ensemble des chemins déterminés à partir de la base de Luxenburger du treillis de concepts dérivé du contexte formel d’images de factures synthétiques (1ère partie).

respectivement. Lorsqu’une information Ii n’est pas trouvée dans une région prototype indiquée par le chemin p2, alors le chemin p1 peut être utilisé pour la trouver. Ainsi, toutes les règles d’association approximatives données par la base de Luxenburger sont utilisées pour la localisation et l’extraction des informations I1 à I5. Pour deux chemins de valeurs de support identiques, celui dont la valeur de confiance est la plus élevée est considéré en premier. L’ensemble des chemins obtenus à partir de la base de Luxenburger est disponible dans les Tableaux 6.11 et 6.12. Dans ces Tableaux, les chemins sont ordonnés de p1 à p55 par ordre décroissant de valeur de support. Pour un chemin la séquence correspondante est décrite par les indices des régions prototypes à visiter. Par exemple, le chemin p1 dont la séquence correspondante est “20 10 29 33 44” indique que les régions prototypes à visiter sont les régions prototypes R20, puis R10, R29, R33 et enfin R44.

6.3.2 - Détermination de chemins à partir du treillis de concepts 135

Chemins pour naviguer au sein de

l’en-semble des régions prototypes séquence correspondante de régions proto-types à visiter

p28 32 40 5 16 21 p29 32 40 3 17 25 p30 32 40 7 20 23 p31 32 8 18 27 41 p32 32 23 7 20 40 p33 32 23 3 14 37 p34 32 7 17 25 35 p35 32 7 20 23 40 p36 20 10 29 33 43 p37 20 7 23 32 40 p38 31 6 17 30 40 p39 31 6 19 28 42 p40 31 22 4 15 38 p41 31 22 7 13 39 p42 31 22 1 11 34 p43 38 4 15 22 31 p44 38 3 17 21 32 p45 40 17 6 30 31 p46 40 17 3 25 32 p47 40 32 5 16 21 p48 40 32 3 17 25 p49 40 32 7 20 23 p50 22 13 2 32 36 p51 22 13 7 31 39 p52 22 31 4 15 38 p53 22 31 7 13 39 p54 38 6 19 28 31 p55 38 9 17 25 32

Table 6.12 – Ensemble des chemins déterminés à partir de la base de Luxenburger du treillis de concepts dérivé du contexte formel d’images de factures synthétiques (2e partie).

136 Traitement d’une image de facture inconnue fondé sur des modèles incrémentaux

Figure 6.9 – Sous-partie du treillis de concepts de la Figure6.8. Les arrêtes apparaissant en bleu représentent deux règles d’association approximatives de la base de Luxenburger.

& Eklund, 2007) la stratégie de navigation consiste à se concentrer sur un concept et ses voisins, ce qui peut s’apparenter à un parcours en largeur d’un treillis de concepts. L’efficacité et la performance de l’utilisation de ce type de stratégie pour la recherche Web ont été démontrées dans (Carpineto et al., 2004; Ducrou & Eklund, 2007). Dans notre approche, notre stratégie de navigation consiste à se concentrer sur un concept et ses fils (parcours en profondeur). Les expérimentations que nous avons menées pour comparer notre stratégie de parcours et la stratégie de navigation utilisée dans CREDO et SearchSleuth, montrent que notre stratégie est la plus efficace pour la localisation et l’extraction des informations textuelles I1 à I5 au sein d’images de factures. Les résultats des expérimentations sont présentées dans le Chapitre7Section7.2.2. Nous avons donc choisi notre stratégie de navigation pour notre système.

6.4 Traitement d’une image de facture inconnue fondé