• Aucun résultat trouvé

3.5 Conclusion

L’identification de sous-parties d’images de documents peut se faire très précisément à l’aide de la méthode exposée dans ce chapitre. Le principal intérêt de cette méthode est de pouvoir garantir une excellente précision pour l’identification d’images de documents. De plus, la méthode peut être étendue très simplement à la recherche d’autres types de sous-images, il suffit de fournir une image requête. Les limites de la méthode sont celles liées au champ d’application, qui se trouve être restreint aux documents semi-structurés. En effet si une classe est composée de documents dont la structure change d’un document à l’autre on ne pourra reconnaitre les documents. L’autre limite est liée au problème de l’auto-similarité. Dans le cas où des images contiennent beaucoup de texte, la répétition de tels motifs peut engendrer de mauvaises mises en correspondance et aboutir à une mauvaise détection. Cela implique également que si des documents fortement similaires sont présents dans des classes différentes, la méthode présentée ne pourra les différencier. Une des principales perspectives est liée à l’optimisation du temps de traitement. L’ex-traction des points d’intérêt est rendue plus rapide grâce à l’utilisation de SURF plutôt que SIFT. Néanmoins l’extraction des points peut prendre de 3 à 10 secondes par images. Pour cette raison, l’ensemble des points d’intérêt des documents des bases à analyser sont extraits par un traitement hors-ligne. Ceci permet d’économiser en moyenne 5 secondes par image et de passer à un temps de traitement d’environ 3 secondes par image.

Les traitements seraient également plus rapides à basse résolution. Si l’image est mise en correspondance, il n’y a alors pas besoin de faire le traitement à la résolution origi-nale de l’image. Des premiers tests ont montré que la plupart des images A4 à 200 dpi redimensionnées à 60% de leur taille originale sont toujours détectées par le programme.

Le traitement pourrait également être accéléré en utilisant des descripteurs plus légers comme ceux utilisés dans [TKI11], en extrayant moins de points, en quantifiant les vecteurs de caractéristiques ou encore, en développant la sélection de points d’intérêt telle que nous l’avons présenté dans la partie3.3.2.

L’utilisation des sacs de mots visuels (“bags of visual words") [YJHN07] permettrait de détecter si potentiellement l’image est présente sur le document avant de chercher à la mettre en correspondance précisément. De plus, l’usage des sacs de mots visuels permet-traient d’avoir une mesure plus "souple" car ils ne prennent pas en compte l’information de position des points d’intérêt. L’information est obtenue de manière plus rapide puisqu’il n’y a pas de transformation géométrique à valider. La détection est alors faite en deux étapes successives : les sacs de mots visuels sont utilisés pour la détection, puis l’extraction de l’image est faite par la méthode présentée dans ce chapitre.

Chapitre 4

Classification par apprentissage de

l’image et du texte

Dans ce chapitre, des techniques de classification d’images de documents par appren-tissage supervisé sont présentées. L’utilisation d’images d’apprenappren-tissage permet de prendre en compte la diversité des documents au sein d’une base de documents complexes. Depuis quelques années, les techniques basées sur les points d’intérêt et notamment les sacs de mots visuels sont de plus en plus utilisées pour la recherche et la classification d’images naturelles [YJHN07]. L’objectif principal de ce chapitre est d’étendre ces techniques à la classification d’images de documents.

Dans la suite de ce chapitre, nous parlons tout d’abord de la problématique de la per-formance d’algorithmes de traitement et d’analyse d’images de documents dont le contenu est très varié. Ensuite, la technique des sacs de mots ("Bags of Words" BoW) est pré-sentée. C’est une des techniques les plus répandues et efficace pour la classification de texte ([Seb02], [WPS06], [LBH+09]). Une variante de cette technique basée uniquement sur l’analyse du texte est celle des sacs de mots visuels ("Bags of Visual Words" BoVW ou "Bags of Features" BoF) qui consiste en une analyse statistique de l’apparition de certains motifs dans l’image. Si lesBoF sont très répandus pour l’analyse d’images naturelles, ils sont rarement utilisés dans le cadre de l’analyse d’images de documents. Nous présentons une nouvelle base de documents et utilisons les BoW et les BoF pour la classification de cette base de documents. Le premier apport de ce chapitre est ainsi d’appliquer et d’étudier les performances des BoF pour la classification d’images de documents.

Dans la seconde moitié de ce chapitre, de nouvelles techniques basées sur l’adapta-tion des sacs de mots visuels "standard" sont présentées. Ces adaptal’adapta-tions sont inspirées de l’article de Boiman et al [BSI08], qui montre que l’utilisation des SVM (Machine à vecteurs de Support, également appelés Séparateur à Vaste Marge) conjointement avec le partitionnement des descripteurs a tendance à réduire les performances de l’étape de reconnaissance des BoF. Les auteurs suggèrent d’utiliser les k-PPV (Plus Proches Voi-sin) à la place des SVM et de ne plus quantifier les données. De nouvelles techniques liant l’extraction de points d’intérêts et l’apprentissage par k-PPV pour la classification d’images sont détaillées à la fin du chapitre. Notre objectif ici est d’adapter et d’étendre à la classification complète d’images de documents ce qui jusqu’ici a été testé uniquement à la reconnaissance de logos dans les images. Par rapport aux BoF "standard", une nette amélioration des performances de classification est alors observée.

4.1 La problématique de la diversité des documents

Deux principaux types de documents peuvent poser problème si l’on essaie de les classer avec l’une des deux techniques présentées dans les chapitres précédents. Les documents qui ont une faible variabilité inter-classe rendent difficile la différenciation entre une ou plusieurs classes. Les documents qui ont une forte variabilité intra-classe rendent difficile la reconnaissance des éléments d’une même classe. L’utilisation de techniques d’apprentissage permet de prendre en compte ces diversités.

Des exemples d’images avec une faible variabilité inter-classe sont présentées sur la figure 4.1. Sur cette figure sont représentés des formulaires de satisfaction provenant de trois classes différentes. Les images sont quasi-identiques, le principal changement entre les classes est la langue : la première est en anglais, la seconde en français et la troisième en espagnole. La mise en page de ces documents est également très similaire entre ces trois classes. De plus, sont présents les même logos, cadres et cases à cocher.

Figure 4.1 – Exemples de trois documents appartenant à trois classes différentes. Ces classes ont une faible variabilité inter-classe, c’est-à-dire que les documents provenant des trois classes présentent de fortes similarités visuelles.

Un ensemble d’images réparties sur deux classes sont présentées dans la figure 4.2. Chaque classe a la particularité de posséder une forte variabilité intra-classe. Ainsi, les éléments composant la classe "tickets de métro" et "factures IBIS" ont un visuel significa-tivement différent d’une image à l’autre. Sur ces images, la mise en page diffère beaucoup d’un document à l’autre. Cependant une portion des informations reste similaire (par exemple le logo "stif" sur les tickets RATP et le logo IBIS ainsi que le pied de page des fac-tures des hôtels IBIS) , ce qui laisse supposer qu’il est tout de même possible de regrouper ces documents malgré ces grandes variations.

Pour pouvoir différencier des images trop similaires ou regrouper des images dissimi-laires, il est nécessaire d’utiliser plus de connaissances. Dans ce chapitre, les images de documents sont classées à l’aide d’algorithmes d’apprentissages supervisés. L’apport de connaissances se fait alors via les images d’exemples données pour chaque classe à recon-naitre. À noter également que contrairement au chapitre précédent, le cadre d’application de ce chapitre ne se limite pas aux documents semi-structurés.