• Aucun résultat trouvé

Mesures pour l’évaluation de performance

traction d’informations textuelles

2.4.3 Mesures pour l’évaluation de performance

2.4.2 Avantages et inconvénients des données réelles et des

don-nées synthétiques

Le principal avantage de l’utilisation de données réelles est qu’elle permet d’éva-luer des algorithmes avec le même type d’images rencontrées dans des situations réelles. Ainsi, l’évaluation peut être une très bonne estimation des performances en situation réelle. Cependant, la collecte manuelle de larges ensembles d’images réelles représente un effort conséquent qui peut être défavorable dans certains cas. De plus, l’annotation de ces images avec leur vérité-terrain correspondante est aussi très couteuse en terme de temps et de ressources humaines et des erreurs peuvent facilement s’introduire lors d’une annotation manuelle. Un autre inconvénient, dans plusieurs domaines, peut être la difficulté d’accès à un nombre suffisant d’images réelles. Parfois, des problématiques de confidentialité rendent difficile la mise à disposition de collections de données réelles en accès libre. De plus, il est difficile de quantifier le degré de bruit présent dans une image réelle. Dès lors, il n’est pas possible de définir un classement des difficultés des images selon le degré de bruit.

L’alternative aux données réelles est de développer des méthodes automatiques de géné-ration de données synthétiques. Les principaux avantages de cette approche sont qu’elle permet de générer autant d’images que nécessaire et l’annotation des images avec la vérité-terrain est automatique. Ensuite, les efforts manuels sont réduits. De plus, les images générées en utilisant ces méthodes peuvent facilement être classées selon le type et le degré de bruit ou de dégradation appliqués, permettant ainsi d’évaluer la baisse de performance lorsque les degrés de bruit et de dégradation des images augmentent. Cependant, la difficulté principale est de réussir le développement des modèles qui per-mettent la génération de données aussi similaires que possible aux données réelles en prenant en compte tous les types de bruit et de déformation. Dans certains domaines, ces modèles peuvent être développés facilement, mais dans d’autres domaines, c’est une tâche vraiment difficile.

2.4.3 Mesures pour l’évaluation de performance

Les mesures les plus importantes et les plus utilisées dans le domaine de l’extraction d’informations sont le rappel (R) et la précision (P). Le rappel est défini comme la proportion d’objets correctement retrouvés parmi l’ensemble de tous les objets du jeu de données. La précision est définie comme la proportion d’objets correctement retrouvés parmi l’ensemble des objets retrouvés. Afin d’évaluer la qualité générale d’un système, une autre métrique est définie en tenant compte à la fois du rappel et de la précision. L’idée de base est de combiner les deux mesures et de calculer la moyenne de l’ensemble. La meilleure moyenne à utiliser est la moyenne harmonique appelée F-mesure et définie par :

F M = 1 2

P + R1 = 2P R

P + R. (2.1)

D’autres mesures de performance sont décrites dans (Chen,2015) de manière spécifique à différents domaines d’applications du traitement de documents.

64 Conclusion

2.5 Conclusion

Dans ce Chapitre, nous avons présenté les trois étapes principales qui constituent le processus d’extraction d’informations textuelles au sein d’images de documents : détec-tion, localisation et reconnaissance. Les étapes de détection et de localisation de texte sont étroitement liées mais ne sont pas à confondre. L’objectif de ces deux étapes est de générer des régions rectangulaires autour de tous les éléments textuels présents dans des images de documents et d’identifier de manière unique chaque élément. Tandis que l’étape de détection permet d’identifier si un élément est du texte ou non, l’étape de localisation consiste à délimiter et à identifier la position de l’élément textuel détecté (lors de l’étape de détection) en l’encapsulant au sein d’une région rectangulaire. On distingue quatre types d’approches dans la littérature :

— les approches fondées sur des régions ; — les approches fondées sur les contours ; — les approches morphologiques ;

— les approches fondées sur les textures.

Nous avons également évoqué les caractéristiques que comportent les éléments textuels présents au sein d’images de documents : taille, géométrie, couleur, texture, etc.. Cer-taines de ces caractéristiques inhérentes au texte présent dans des images impactent directement le processus d’extraction. En effet, les textes peuvent subir différents chan-gements d’apparence tels que la fonte, la taille, le style, l’orientation, l’alignement, la texture, la couleur, le contraste et l’arrière plan (Jung et al.,2004). Une difficulté supplé-mentaire s’ajoute en ce qui concerne les documents administratifs tels que des factures. En effet, selon la mise en page adoptée, la position géographique d’une information don-née peut varier d’un émetteur à un autre. Tout ces changements compliquent et rendent plus difficile le problème d’extraction de texte.

Dans ce mémoire, nous nous intéressons particulièrement à la tâche de localisation d’in-formations textuelles au sein d’images de documents, tels que des factures, pour l’extrac-tion de ces informal’extrac-tions à l’aide d’outils de reconnaissance existants. Nous présentons dans la Partie IIChapitre 6, notre approche pour la localisation et l’extraction d’infor-mations textuelles dans des images de documents, fondées sur les régions les contenant. Dans les deux derniers Chapitres, nous avons pu constater l’apport important des ap-proches de classification pour le traitement automatique d’images de documents, ainsi que pour l’extraction d’informations textuelles. Nous avons mentionnés l’utilisation des méthodes de classification telles que, les arbres de décision, les machines à vecteur sup-port, ou encore les réseaux de neurones, dans un certain nombre d’approches. Le Cha-pitre suivant présente plusieurs méthodes de classification utilisées dans la littérature.

Chapitre 3

Classification

Sommaire

3.1 Classification supervisée . . . 64 3.1.1 Arbres de décision . . . 66 3.1.2 Réseaux bayésiens . . . 69

3.1.3 Réseaux de neurones artificiels . . . 72

3.1.4 Discussion . . . 77

3.2 Classification non supervisée . . . 79

3.2.1 Méthodes hiérarchiques . . . 80

3.2.2 Méthodes de partitionnement . . . 84

3.3 Conclusion. . . 88

3.1 Classification supervisée

L’objectif de la classification supervisée est principalement de définir un modèle per-mettant de classer des objets (appelés aussi instances ou échantillons) dans des classes à partir d’attributs (appelés aussi variables) qualitatifs ou quantitatifs caractérisant ces objets. La classification supervisée s’appuie sur un ensemble d’entrainement à partir duquel un ensemble d’inférences est produit. Ces inférences permettent via une fonc-tion mathématique (classifieur) de prédire la classe (valeur de sortie) d’un objet fournit en entrée du classifieur. Les données d’entrainement ou ensemble d’apprentissage sont constituées de paires entrées-sorties. Les entrées sont les objets en tant que tel et les sorties sont les classes auxquelles appartiennent les objets. Ainsi, une paire est consti-tuée d’un objet et de sa classe.

Le processus général de classification supervisée est schématisé dans la Figure 3.1. La première étape consiste à collecter un jeu de données initial. Lors de cette étape, un expert peut être sollicité afin d’établir les caractéristiques les plus informatives. Néan-moins, des techniques d’extraction de caractéristiques et de sélection d’attributs peuvent être utilisées afin de réduire le nombre des caractéristiques. Les approches d’extraction de caractéristiques établissent une projection des caractéristiques dans un nouvel espace de plus petite dimension. Les nouvelles caractéristiques ainsi obtenues sont souvent des combinaisons des caractéristiques initiales. D’une part, les techniques d’extraction d’at-tributs les plus connues comprennent l’Analyse en Composantes Principales (Wold et al.,

66 Classification supervisée

Figure 3.1 – Processus général d’apprentissage supervisé.

1987), l’Analyse Discriminante Linéaire (Izenman, 2013) et l’Analyse Canonique des Corrélations (Levine, 1977). D’autre part, les approches de sélection d’attributs visent à sélectionner un petit sous-ensemble de caractéristiques qui minimise la redondance et maximise la pertinence des étiquettes de classe au sein d’un ensemble de données d’entrainement. Les techniques de sélection d’attributs comprennent la mesure du gain d’information (Föllmer, 1973), l’algorithme Relief (Kira & Rendell, 1992), ( Robnik-Šikonja & Kononenko, 2003), le score de Fischer (PEHRO & Stork, 2001) et Lasso (Least absolute shrinkage and selection operator) (Tibshirani, 1996). La mise en œuvre d’une extraction de caractéristiques et/ou d’une sélection d’attributs permet d’améliorer les performances d’apprentissage. L’étape suivante consiste à appliquer un algorithme d’apprentissage supervisé sur le jeu de données d’entrainement. Il en résulte un modèle (ou classifieur) permettant de prédire les étiquettes de classe d’échantillons de données inconnus.

La classification supervisée est une des tâches les plus fréquemment utilisées par les systèmes dits intelligents. Un nombre important de techniques a été développé à par-tir de techniques d’intelligence artificielle (perceptron), de techniques statistiques (ré-seaux bayésiens, k-plus proches voisins) et de techniques fondées sur des noyaux (plus proches voisins, machines à vecteurs supports). Les études de (Wang, 2010), (Mitra et al., 2002), (Goebel & Gruenwald, 1999) et (Kotsiantis et al., 2007) fournissent une vue d’ensemble de la littérature concernant les techniques de classification supervisés utilisées pour la fouille de données. Des détails sur la méthode des plus proches voisins sont disponibles dans (Weinberger et al.,2006;Bhatia et al., 2010). Une revue complète des machines à vecteurs supports (SVM) peut être trouvée dans (Burges, 1998). Des ouvrages plus récents sur cette technique sont celui de Cristianini et Shawe-Taylor ( Cris-tianini & Shawe-Taylor,2000) et celui de Scholkopf et Smola (Scholkopf & Smola,2001). L’article de (Hsu et al., 2003) peut aussi être consulté.

Dans cette section nous décrivons trois approches de classification supervisée populaires dans la littérature pour la classification de documents, la reconnaissance de motifs ou encore la fouille de données Les arbres de décision sont abordés dans la Section 3.1.1. La Section3.1.2présente les réseaux bayésiens et les réseaux de neurones artificiels sont présentés dans la Section 3.1.3.Une discussion autour des méthodes de classification présentées termine cette section.