Les travaux de détection des tableaux - Intégration holistique et entreposage automatique des d

Les recherches autour du problème de détection des tableaux ont émergé avec le trai- tement des images de documents scannés. Avec l’avènement du web, plusieurs travaux se sont orientés vers la détection des tableaux contenus dans les pages web. Nous étudions, dans cette section, quelques travaux dans le domaine de détection des tableaux en s’ap- puyant sur les critères de comparaison suivants :

– Critères relatifs au tableau :

– Le type de tableau : Relationnel, Non-relationnel (R/NR). – La nature des données : Statistiques, Non-statistiques (S/NS). – Le support contenant le tableau.

– Critères relatifs à la détection :

– Le type de détection : Automatique, Semi-automatique, Manuelle (A/SA/M). – Les techniques utilisées.

– La stratégie de détection adoptée. Elle peut être dirigée par les données et ascendante / dirigée par les données et descendante comme elle peut être dirigée par un modèle et ascendante / dirigée par un modèle et descendante d’après [Lopresti et Nagy, 2000]. Une stratégie est ascendante si elle commence par la dé- tection des composants du tableau et finit par sa détection. Inversement, elle est descendante si elle commence par la détection du tableau et finit par la détection de ses composants. En absence de modèle de tableau, la stratégie est considérée comme étant dirigée par les données.

2.1.1 Étude des travaux

[Laurentini et Viada, 1992] ont étudié la détection des tableaux textuels (NS) dans l’image d’un document scanné. Il s’agit d’une approche descendante dirigée par un modèle logique de tableau. Ce modèle de tableau est composé d’éléments indexés par des entêtes

teurs utilisent la technique de reconnaissance optique de caractères (OCR) pour identifier les données textuelles connectées. Ceci permet de déduire l’emplacement du tableau dans l’image de document. Les données textuelles connectées sont ensuite analysées afin d’identifier les caractères, les mots et les phrases. En parallèle, différents processus sont lancés pour détecter des séquences importantes de pixels noirs qui constituent les lignes du tableau. La disposition des lignes et des phrases permet la déduction des entêtes de lignes et de colonnes.

[Hurst et Douglas, 1997] ont proposé un système à deux phases pour la détection des tableaux dans des sources codées en ASCII. Les auteurs distinguent deux types de don- nées : les données textuelles et les données numériques. Le modèle de tableau utilisé est un ensemble de template. Un template est un triplet [largeur, profondeur, type de données] qui permet d’indiquer la géométrie de données de même domaine. Chaque template peut être composé par de sous-templates. Les auteurs ont défini des restrictions sur les templates correspondants aux entêtes de lignes, aux entêtes de colonnes, au corps du tableau et à des colonnes de valeurs numériques. La première phase du système consiste à identifier des aires rectangulaires de type numérique ou textuel. Pour cela, les auteurs ont transformé les sources ASCII en un corpus SGML où la donnée de chaque cellule est marquée par un outil spécialisé. Ensuite, des experts ont spécifié manuellement les aires rectangulaires de don- nées numériques et textuelles. La deuxième phase consiste à mesurer par des fonctions de cohésion s’il y a une correspondance entre les aires rectangulaires et les templates. Il s’agit alors d’une approche dirigée par un modèle et ascendante.

[Ng et al., 1999] ont proposé d’utiliser des algorithmes d’apprentissage pour détecter des composants de tableaux présents dans des fichiers textes codés en ASCII. La détection du cadrage, des lignes et des colonnes s’appuie sur les algorithmes d’apprentissage C4.5 [Quinlan, 1993] et la propagation arrière [Rumelhart et al., 1988]. Ces algorithmes sont ap- pliqués sur les proportions de caractères et leur positions dans une ligne et entre les lignes. Il s’agit d’une approche dirigée par les données et descendante.

[Chen et al., 2000] se sont focalisés sur des tableaux relationnels statistiques ou non-statistiques dans des pages HTML. Les auteurs proposent un processus à quatre phases dirigé par les données et ascendant. Premièrement, les tableaux entre les balises <table></table> sont extraits des pages HTML. Deuxièmement, un filtrage de formulaire ou de tableau de moins de deux colonnes est effectué. Troisièmement, les auteurs combinent les similarités des labels, les similarités des entités nommées et les similarités entre les nu- mériques pour identifier les cellules similaires. Ceci permet de détecter les lignes ou les colonnes du corps du tableau qui sont indexées par un attribut d’une entête de lignes ou une entête de colonnes. Enfin, ils proposent un algorithme heuristique avec un raisonne- ment sans et avec la présence des cellules fusionnées pour interpréter la présentation des entêtes de lignes et de colonnes par rapport aux cellules similaires.

[Cafarella et al., 2008b] ont proposé un système pour la détection des tableaux relationnels dans un large corpus de tableaux HTML. Son objectif est de pouvoir inter- roger efficacement ces tableaux dans un cadre applicatif de recherche d’informations [Cafarella et al., 2008a]. Les auteurs ont utilisé des analyseurs pour écarter des tableaux spé- cifiques en HTML tels que les formulaires ou les calendriers. Ensuite, deux utilisateurs iden-

tifient manuellement l’ensemble de tableaux relationnels dans un échantillon de plusieurs tableaux. Enfin, le classificateur statistique proposé par les auteurs fait de l’apprentissage sur l’échantillon puis il est appliqué sur la totalité du corpus. La stratégie de cette approche est dirigée par les données. Par contre, elle ne peut pas être catégorisée comme ascendante ou descendante.

2.1.2 Synthèse et limites des travaux

Le Tableau II.1 synthétise les différentes caractéristiques des approches que nous avons décrites ci-dessus. Ces travaux montrent plusieurs limites par rapport à notre contexte. En effet, les trois approches [Laurentini et Viada, 1992], [Chen et al., 2000] et [Cafarella et al., 2008a] ne s’appliquent que sur des tableaux relationnels. De plus, pour [Chen et al., 2000] et [Cafarella et al., 2008a], les tableaux situés entre les balises <table></table> dans des pages HTML sont faciles à détecter automatiquement par rapport à des tableaux dans des fichiers XLS ou CSV.

[Laurentini et Viada, 1992] recherchent des composants connectés de type textuel tandis que nous recherchons à différencier les données numériques des données textuelles. Les approches de [Hurst et Douglas, 1997] et [Ng et al., 1999] sont plus génériques que les autres approches puisqu’elles considèrent les différents types de tableaux et les différentes natures de données. La détection d’un tableau dans une source ASCII et la détection d’un tableau dans une source XLS sont du même ordre de difficulté. Toutefois, [Hurst et Douglas, 1997] font appel à des humains pour détecter les différentes aires rectangulaires tandis que notre objectif est de détecter ces aires automatiquement. L’approche de [Ng et al., 1999] est la plus automatique et générique parmi toutes les autres approches mais elle ne peut pas pallier l’hétérogénéité structurelle des données ouvertes, en particulier lorsqu’un tableau est com- posé de sous-tableaux. Nous pensons que pour ce cas une approche ascendante serait plus efficace qu’une approche descendante.

Tableau II.1 — Comparaison des approches de détection de tableaux

Tableau Détection

Type Nature Support Stratégie Type Techniques utilisées données

[Laurentini et Viada, 1992] R NS Images de documents dirigée par un modèle A Heuristiques, OCR

et ascendante et templates

[Hurst et Douglas, 1997] R/NR S/NS Texte(ASCII) dirigée par un modèle SA Fonction de cohésion

et ascendante et templates

[Ng et al., 1999] R/NR S/NS Texte(ASCII) dirigée par les données A Algorithmes d’apprentissage

et ascendante

[Chen et al., 2000] R S/NS HTML dirigée par les données A Heuristiques, Similarité

et ascendante

[Cafarella et al., 2008a] R NS HTML dirigée par les données SA Classification et heuristiques

Dans le document Intégration holistique et entreposage automatique des données ouvertes (Page 34-36)