Les travaux de détection et de reconnaissance des tableaux

Dans cette section, nous étudions des travaux qui ont développé les deux étapes de dé- tection et de reconnaissance des tableaux. De manière analogue aux deux sections précé- dentes, nous relevons les différentes caractéristiques des tableaux, de l’approche de détec- tion et de l’approche de reconnaissance pour les travaux étudiés.

2.3.1 Étude des travaux

[Pivk et al., 2004] propose une méthodologie en quatre couches pour la transformation de tableau relationnel non-statistique dans des pages HTML en frame F-Logics [Kifer et al., 1995]. La première couche permet le nettoyage et la normalisation des tableaux en format DOM (Document Object Model). La deuxième couche détecte la structure entre les cellules. En effet, ils transforment le tableau en une matrice où chaque cellule est soit un I-cell (cellules d’instances), soit A-Cell (cellules d’attributs) en fonction du type des termes conte- nus dans les cellules. Les types des termes sont identifiés à l’aide d’une hiérarchie de types (date, alapha, punct,...). Puis, ils proposent un algorithme heuristique pour découper le tableau en blocs unitaires selon la disposition des cellules fusionnées. Ensuite, ils calculent, à l’aide d’une formule, la meilleure région d’un bloc unitaire. Il s’agit alors d’une approche de détection dirigée par un modèle et ascendante. Les troisième et quatrième couches sont dé- diées à la reconnaissance des relations et des concepts du tableau. Dans la troisième couche, les auteurs construisent un modèle fonctionnel FTM qui représente les relations entre les données du tableau. C’est un modèle en arbre dont les feuilles sont des blocs de I-Cell et les noeuds intermédiaires sont des cellules A-Cell. La dernière couche a pour rôle l’enri- chissement sémantique du modèle FTM. Pour cela, ils ont utilisé les deux sources externes Wordnet et GoogleSets pour déterminer la classe des données appartenant à un même bloc I-Cell. Ils utilisent la distance IDF pour calculer la similarité entre les concepts des sources externes et les données des blocs d’I-Cell.

[Tijerino et al., 2005] ont proposé le système TANGO (Table Analysis for Generating Ontologies) pour la construction d’une ontologie commune à plusieurs tableaux. TANGO comporte quatre phases : (1) la transformation de tableaux extraits de pages HTML en tableau relationnel (dit aussi canonique), (2) la construction de mini-ontologie à partir de ces

à deux et (4) la fusion itérative des différentes mini-ontologies. Dans cette section, nous détaillons uniquement les deux premières phases de cette approche qui sont relatives à la détection et la reconnaissance des tableaux. Nous détaillerons les deux dernières phases dans l’état de l’art du chapitre 3. Les auteurs traitent des tableaux codés entre les balises <table></table> dans des pages HTML. Ils appliquent des patrons [Crescenzi et al., 2001] pour identifier les colonnes. Ensuite sur les colonnes, ils essayent différents patrons lexicaux (data frame) pour identifier des données géographiques, temporelles, pourcentages. Ils utilisent aussi des heuristiques pour reconnaître les concepts représentatifs d’un ensemble de valeurs dans une colonne. Par la suite, ils construisent un tableau relationnel par les diffé- rentes colonnes détectées et annotées. A partir de ce dernier, ils combinent d’autres patrons de données et heuristiques pour découvrir les dépendances fonctionnelles et les relations entre les concepts de l’entête de colonnes du tableau. Les différentes annotations et leurs instances formeront la mini-ontologie représentative du tableau.

[Liu et al., 2006] [Liu et al., 2007]ont proposé le système TableSeer qui est un moteur de recherche de tableaux. C’est un système complet qui aspire des librairies digitales, détecte les tableaux, extrait les méta-données des tableaux, indexe et note ces derniers pour pouvoir appliquer la recherche d’information dans les tableaux. Nous nous focalisons uniquement sur la partie détection et reconnaissance. D’abord, les auteurs transforment les données d’un document PDF vers un document TXT qu’il nomme Document Content File (DCF). Celui-ci est une suite de lignes où chaque ligne contient les coordonnées du dernier mot, la lar- geur et la hauteur de la ligne, le style du texte et le texte extrait du document PDF. Pour la détection des tableaux, [Liu et al., 2007] ont proposé la méthode page box-cutting. Cette méthode se déroule en plusieurs phases. D’abord ils construisent des page-box qui sont des rectangles de lignes connectées dans une même page ayant la même taille du style. Puis, ils les classifient en trois catégories suivant la taille du texte (petit, ordinaire, grand). Ensuite, ils parcourent chaque groupe de page-box et cherchent s’il y a un page-box qui commence par un mot d’une liste K (table, Figure, Form..), si c’est le cas ils vérifient si la structure du page-box contient des espaces pour décider s’il s’agit d’un tableau. Pour la détection, il s’agit d’une approche dirigée par les données et descendante. Concernant la reconnaissance des tableaux, [Liu et al., 2006] proposent un algorithme qui parcourt le tableau détecté et extrait en même temps ces annotations en se repérant par les indices du DCF. Les auteurs proposent d’annoter le tableau par sa propre structure. Les méta-données concernent : l’environnement/géographie du tableau, le cadre du tableau, le texte en dehors du tableau (titre, notes..), le traçage du tableau (nombre de lignes, nombre de colonnes, la longueur..), le contenu de cellules (position (i, j) et contenu) et le type de cellules (numérique, symbolique). [Coletta et al., 2012][Castanier et al., 2013] ont proposé un environnement web appelé WebSmatch pour l’intégration et la visualisation de données ouvertes tabulaires en format XLS. L’environnement WebSmatch rassemble des outils tiers tels que les outils de visualisation de Data Publica8et de Google Data Explorer9. Il est défini par un processus à trois phases : (1) détection et reconnaissance de tableaux, (2) intégration des données et (3) visualisation. Pour la détection des tableaux, WebSmatch combine des algorithmes de vision par ordinateur. En effet, les fichiers XLS sont transformés en une matrice binaires (0 pour les

8. http ://www.data-publica.com/

cellules vides et 1 pour les cellules non-vides). Un algorithme de détection des composants connectés est appliqué sur cette matrice afin de partitionner la matrice en zones d’éléments. Des algorithmes de vision par ordinateur sont ensuite appliqués pour fusionner ces zones et tracer le cadre du tableau. Ensuite, ils classifient les données en corps, entêtes, notes, en utilisant la technique d’apprentissage sur des règles établies à partir des habitudes des uti- lisateurs. Par exemple "si une cellule dans la première ligne formée par des composants connectés de type textuel et que la deuxième ligne contient des éléments numériques alors la première ligne constitue une entête". Il s’agit donc d’une approche de détection dirigée par les données et descendante. Pour la reconnaissance des données du tableau, ils ont uti- lisé l’outil YAM++ [Ngo et Bellahsene, 2012] qui permet de déduire des descriptions DSPL (Data Set Publishing Language) en résolvant la tâche d’alignement des instances par rapport à une liste prédéfinie de description DSPL. Ils proposent aussi dans l’environnement web, la possibilité de sélectionner interactivement des descriptions DSPL prédéfinies.

2.3.2 Synthèse et limites des travaux

Nous avons synthétisé dans le Tableau II.3 les caractéristiques des quatre approches dé- crites ci-dessus. L’approche de [Pivk et al., 2004] a trois limites : (1) la présence de cellules fusionnées est obligatoire pour l’application de l’algorithme de détection de la structure du tableau alors que ces cellules ne sont pas toujours présentes, (2) aucune conclusion ne peut être tirée sur l’applicabilité de cette approche sur des tableaux non-relationnels ou sur plusieurs tableaux simultanément, (3) les cellules fusionnées peuvent aussi signifier la présence d’une hiérarchie entre les cellules ce qui n’est pas exploité par les auteurs.

Nous considérons que l’approche TANGO [Tijerino et al., 2005] est exhaustive puisque plusieurs patrons sont utilisés pour la reconnaissance et l’annotation des concepts du tableau. Mais la transformation de colonnes en tableau relationnel réduit d’emblée le type de relations qui peuvent être déduites, chose que nous pouvons constater dans le résul- tat de recherche de dépendances fonctionnelles entre les entêtes de colonnes. En effet, il y a forcément un unique concept central et autour de lui soit des sous-concepts soit des attributs. L’hypothèse qu’un tableau peut être analysé par plusieurs concepts centraux non- connectés est éliminé. Dans l’approche de [Liu et al., 2006][Liu et al., 2007], nous partageons l’initiative d’annoter un tableau par ses méta-données qui le caractérisent non pas pour re- chercher des tableaux mais pour capitaliser et réutiliser ces informations. Toutefois, il nous semble que leur algorithme est très lié au format PDF puisque le style de texte est primor- dial dans ce dernier. Le manque de cette information dans XLS ou CSV par exemple peut poser un problème pour la détection des tableaux. Enfin l’approche de [Coletta et al., 2012] [Castanier et al., 2013] qui est la plus proche de notre contexte a deux limites selon notre point de vue. Tout d’abord, la détection des entêtes en se basant sur les habitudes est infor- melle ce qui peut dégrader la qualité de détection des composants du tableau. Ensuite, les

Tableau II.3 — Comparaison des approches de détection et de reconnaissance des ta-

bleaux

Tableau Détection Reconnaissance

Type Nature Support Stratégie Type Techniques Modèle Type Techniques

Données utilisées d’analyse utilisées

[Pivk et al., 2004] R S/NS HTML dirigée par un modèle A algorithmes Wordnet SA calcul similarité et ascendante heuristiques GoogleSets

[Tijerino et al., 2005] R S/NS HTML dirigée par les données A patrons patrons et frames A apprentissage et ascendante

[Liu et al., 2006] R/NR S/NS PDF dirigée par les données A méthode page méta-données A algorithme

[Liu et al., 2007] et descendante box-cutting d’extraction

[Coletta et al., 2012] R/NR S/NS XLS dirigée par les données A vision par ordinateur DSPL SA alignements

[Castanier et al., 2013] et ascendante apprentissage d’instances

3 Contribution à la détection et à la reconnaissance des données

ouvertes tabulaires

Dans cette section, nous décrivons notre approche de détection et de reconnaissance des données tabulaires. La détection vise à identifier l’emplacement et le type des composants du tableau. La reconnaissance vise à décrire le contenu du tableau. Dans cette section, nous employons le terme annotation (attachement d’une étiquette décrivant le composant) qui représente la technique utilisée pour la reconnaissance des composants.

Un aperçu global de notre approche est illustré dans la Figure II.2 :

– en entrée, nous avons des données ouvertes tableaux de nature statistique (S) et de type relationnel ou non-relationnel (R/NR). Ces tableaux se trouvent dans des sources en format XLS ou CSV.

– en sortie, nous avons des graphes (graphes de propriétés [Rodriguez et Neubauer, 2010] ou graphes RDF). Ces graphes représentent les schémas des tableaux qui seront utilisés pour l’intégration des données.

Figure II.2 — Un aperçu global de notre approche de détection et de reconnaissance des

tableaux

Notre approche comporte deux propositions :

– La première proposition est un modèle de tableau. Ce modèle permet de décrire d’une façon précise et homogène les composants de chaque tableau et les relations entre eux. Ce modèle est également utilisé dans les annotations qui vont être attribuées aux

composants du tableau.

– La deuxième proposition est un workflow de détection et de reconnaissance. Le workflow est composé de différentes activités réparties sur trois niveaux et dépendantes fonctionnellement. Chaque activité s’appuie sur le modèle de tableau pour détecter le type et l’emplacement du composant et pour produire les annotations du composant. Notre proposition fait partie des approches dirigées par un modèle et ascendantes. En effet, la stratégie adoptée consiste à découvrir les plus petits composants du tableau puis les composants les plus complexes. Par rapport aux travaux de la littérature, notre approche se distingue par des activités destinées à la découverte automatique de relations hiérarchiques sans faire appel à des ressources externes. Ces activités s’appliquent d’une façon générique à n’importe quel domaine d’étude puisqu’elles ne dépendent que du contenu des tableaux. Elles permettent aussi à un stade avancé dans notre démarche ETL, la préparation de l’or- ganisation hiérarchique des données tabulaires afin de faciliter la découverte du schéma multidimensionnel.

Notre contribution se résume dans les points suivants :

– Un modèle de tableau qui fournit une vision homogène sur les composants du tableau. Il permet de résoudre le problème d’hétérogénéité structurelle des tableaux.

– Des annotations qui s’appuient sur le modèle de tableau. Ces annotations permettent de capitaliser les résultats de détection des composants. Elles permettent également d’être informé sur le contenu sans avoir recours à des ressources externes.

– Des activités de détection et de reconnaissance automatiques. Ceci permet d’automa- tiser l’étape d’extraction du processus ETL.

– Une hiérarchisation des concepts, sans avoir recours à des ressources externes, ap- plicable sur n’importe quel domaine d’étude. Ceci permet de pallier le problème de diversité et d’hétérogénéité sémantique des données ouvertes tabulaires.

– Une transformation des données tabulaires en graphes fournit les éléments nécessaires pour l’intégration des données. La transformation en graphes RDF favorise également la réutilisation dans le contexte du web sémantique.

Dans le document Intégration holistique et entreposage automatique des données ouvertes (Page 40-44)