• Aucun résultat trouvé

Les travaux de reconnaissance de structure de tableaux

2 État de l’art : Détection et reconnaissance des tableaux

2.2 Les travaux de reconnaissance de structure de tableaux

Nous étudions dans cette section les approches qui se sont uniquement focalisées sur la reconnaissance de structure de tableaux. Cette tâche a pour objectif d’analyser le contenu

sé-d’annotation de contenu. En effet, le contenu des tableaux est d’abord comparé avec un mo-dèle d’analyse puis il est annoté par des annotations issues de ce momo-dèle. Avec l’émergence du web sémantique, nous remarquons que le modèle d’analyse est souvent une ontologie et les annotations sont des concepts issus de cette ontologie. Nous nous appuyons sur les critères suivants pour la comparaison des travaux :

– Critères relatifs au tableau :

– Le type du tableau : relationnel, non-relationnel (R/NR). – La nature des données : statistiques, non-statistiques (S/NS). – Le support contenant le tableau.

– Critères relatifs à la reconnaissance de structure : – Les modèles d’analyse utilisés.

– Le type d’approche de reconnaissance : Automatique, Semi-automatique, Manuelle (A/SA/M).

– Les techniques utilisées.

– Limitation ou non à un domaine d’étude.

2.2.1 Étude des travaux

[Embley et al., 2002]ont proposé la reconnaissance de tableaux relationnels S/NS dans les pages HTML en utilisant comme modèle d’analyse une "ontologie d’extraction". Cette ontologie est construite manuellement par un expert pour un domaine donné. Elle est com-posée d’un ensemble de concepts ayant des attributs et d’un ensemble de relations entre les concepts et les attributs. Chaque concept est décrit par un "frame" qui contient ses mots clés représentatifs, son contexte et des règles de reconnaissance de ses attributs. Dans ce travail, les auteurs supposent que la première ligne du tableau est un objet d’intérêt et que les différentes cellules de cette ligne sont les attributs de cet objet. Ils génèrent donc à partir de chaque enregistrement en-dessous de la première ligne un vecteur de la forme <attribut de la première ligne, valeur de l’attribut dans l’enregistrement>. En appliquant les règles de reconnaissance, les auteurs cherchent s’il y a des correspondances entre chaque couple <attribut, valeur> du tableau et chaque instance <attribut, valeur> de l’ontologie. De cette façon, ils arrivent à reconnaître les annotations des attributs et l’objet du tableau. Ils ap-pliquent ensuite des règles d’inférences, en s’appuyant sur les relations dans l’ontologie, entre les attributs annotés pour extraire les relations possibles entre ces attributs.

[Tenier et al., 2006]ont proposé une approche pour l’annotation des pages web avec les concepts et les relations d’un domaine particulier. Les pages web contiennent des tableaux codés entre les balises <table></table> qui sont de type relationnel et non-statistique. Les auteurs ont construit leur propre ontologie qui comporte des relations binaires entre des concepts hiérarchisés. Les utilisateurs doivent sélectionner manuellement les concepts de l’ontologie pour annoter les termes dans les tableaux. Ensuite les auteurs exploitent la tech-nique d’inférence pour déduire les relations entre les concepts sélectionnés. Ceci permet de reconnaître les relations entre les concepts du tableau.

[Hignette, 2007]a proposé dans ses travaux de thèse une méthode pour l’annotation des tableaux guidée par une ontologie de domaine (la microbiologie) construite manuellement par des experts. La méthode permet l’annotation des cellules, des colonnes et des relations

dans des tableaux en format XTAB [Saïs et al., 2005] (des tableaux relationnels matérialisés en XML). Pour annoter les données textuelles dans les cellules, dites termes, elle calcule des similarités lexicales (différents types de distances sont utilisées) entre ces termes et les termes de l’ontologie. Pour annoter les colonnes, l’auteur compare les intervalles, les unités de mesure et les valeurs des données numériques avec celles de l’ontologie de domaine ce qui lui permet de détecter s’il s’agit de données purement numériques (ex. mesures de résultats d’expériences...) ou de données symboliques (ex. réponse d’un micro-organisme à un traitement...). Les relations sont identifiées en utilisant le titre du tableau ainsi que les relations de l’ontologie. L’auteur a choisi de produire des annotations floues puisque plusieurs valeurs peuvent être attribuées à chaque type d’annotation.

[Van Assem et al., 2010]ont proposé une approche pour l’annotation de tableaux rela-tionnels statistiques en format XLS. La reconnaissance cible les données quantitatives. Elle utilise comme modèle d’analyse l’ontologie OUM (Ontology of Units of Measure and rela-ted concepts). Cette ontologie a été développée par les auteurs et elle comporte les princi-paux concepts : Quantité, Unité de mesure, Dimension, Domaine d’application. L’approche se déroule en cinq phases. Premièrement, les valeurs des cellules de la première ligne du ta-bleau sont transformées en sacs de termes. Deuxièmement, ils calculent les similarités entre les sacs de termes et les noms de quantités et d’unités de OUM, en utilisant la distance de similarité Jaro-Winkler-TFIDF. Dans la troisième et quatrième phase, ils calculent les simila-rités entre la composition d’unités de termes et les unités composées appartenant ou pas à OUM. Finalement, des règles heuristiques définissent des stratégies de désambiguïsation si le même terme se réfère à différentes quantités.

[Scharffe et al., 2012]ont proposé le projet Datalift5. Il s’agit d’une plateforme pour la publication et la liaison des données du web. Datalift propose plusieurs fonctionnalités telles que la transformation des données en RDF, l’annotation sémantique des données avec des ontologies, la liaison des données avec SILK6[Jentzsch et al., 2010], la visualisation, etc. Pour transformer les données tabulaires (format XLS ou CSV) en RDF, Datalift effectue la recon-naissance de tableaux relationnels. Ils supposent que les cellules de la première ligne repré-sentent des propriétés et à partir de la seconde ligne chaque ligne représente un sujet en RDF. En suivant ce principe, ils transforment le tableau en plusieurs triplets RDF tel que chaque triplet (s,p,o) correspond à (l’identifiant de l’objet de la ligne i, la valeur de première ligne à la colonne j, la valeur de la cellule de la ligne i et colonne j). Les données tabulaires transfor-mées en RDF sont ensuite annotées par des vocabulaires sélectionnés du LOV (Linked Open Vocabulary)7. L’utilisateur doit lui même effectuer et valider la recherche des concepts du vocabulaire pouvant le mieux annoter les propriétés. En utilisant ces résultats, le système pourrait générer automatiquement les annotations des différents triplets.

[Buche et al., 2013]ont proposé le système ONDINE (ONtology based Data INtEgra-tion) pour l’intégration floue de tableaux guidée par une ressource ontologique et termi-nologique (OTR) d’un domaine donné (la microbiologie) construite manuellement par des experts du domaine. ONDINE est composé de deux sous-systèmes : (1) @web qui a pour rôle d’annoter des tableaux du web dans le domaine de microbiologie en se basant sur la

ressource OTR et de produire des ontologies pour ces tableaux (2) MIEL++ qui a pour rôle d’interroger simultanément l’entrepôt des ontologies de tableaux et une base de données relationnelle locale par des requêtes SPARQL en utilisant aussi la ressource OTR. Le sous-système @web est la partie concernée par la reconnaissance des tableaux. @web est une extension des travaux de [Hignette, 2007] avec la nouvelle ressource OTR. L’originalité de la ressource utilisée réside dans sa composition en deux parties. La première partie est une ontologie du domaine de microbiologie, elle est constituée de différents concepts qui sont soit des concepts d’unités, soit des concepts simples. Les concepts simples se répartissent en concepts symboliques et concepts quantitatifs. La deuxième partie de l’OTR est une termi-nologie du domaine de microbiologie et chaque terme dénote un concept de l’ontologie. La démarche de [Hignette, 2007] a été reprise pour @web. En effet ils calculent les similarités entre les termes de chaque colonne et les termes de la ressource OTR pour annoter la co-lonne. Comme les termes de l’OTR dénotent des concepts symboliques ou quantitatifs, ces derniers seront les annotations des colonnes. Par déduction, des relations n-aires entre les concepts de l’ontologie annotent les relations entre les colonnes du tableau.

2.2.2 Synthèse et limites des travaux

Nous avons synthétisé les différentes caractéristiques des approches ci-dessus dans le Tableau II.2. Un premier constat est qu’aucune approche ne traite les tableaux non-relationnels. Un deuxième constat est que toutes les approches se basent sur des ontologies comme modèle d’analyse. Parmi ces ontologies, certaines sont dépendantes à un domaine par exemple celles utilisées par [Embley et al., 2002], [Tenier et al., 2006], [Hignette, 2007] et [Buche et al., 2013]. Certes, utiliser une ontologie de domaine permet de générer des annota-tions pertinentes et peut aider dans l’intégration des données mais se procurer ou construire ces ontologies est un problème en soi. Nous avons relevé que ces ontologies de domaine ont été développées par des spécialistes : auteurs ou experts. Face à la variété des données ou-vertes, les ontologies de domaine semblent peu appropriées car il faut en produire autant que de domaines étudiés. Par opposition, les approches de [Van Assem et al., 2010] et de [Scharffe et al., 2012] proposent des modèles indépendants du domaine. Le problème avec l’approche de [Van Assem et al., 2010] est qu’elle suppose que la première ligne doit contenir des termes sur la nature des quantités et des unités des données numériques du tableau. Or, cette supposition n’est pas valide pour les données ouvertes statistiques non-relationnelles. En effet, les quantités et les unités de mesure sont soit dispersées dans le titre ou les notes du tableau, soit absentes (nous rappelons que les données ouvertes sont imparfaites).

L’approche de [Scharffe et al., 2012] n’est pas complètement automatisée alors que nous envisageons une reconnaissance automatisée. Par ailleurs, nous avons constaté qu’à l’excep-tion de [Tenier et al., 2006] qui peut inférer des relal’excep-tions hiérarchiques entre les concepts, les autres approches n’abordent pas la possibilité d’avoir des relations hiérarchiques entre les concepts de l’entête de lignes. Ces approches supportent uniquement les relations n-aires ou binaires. Dans une perspective de construction d’un schéma multidimensionnel à par-tir de plusieurs tableaux, nous accordons une importance à la reconnaissance des relations hiérarchiques entre les concepts des entêtes.

Tableau II.2 — Comparaison des approches de reconnaissance de structure de tableau

Tableau Reconnaissance

Type Nature Support Modèle d’analyse Type Techniques utilisées Appliquée

données domaine

[Embley et al., 2002] R S/NS HTML une ontologie d’extraction SA règle de correspondance oui et d’inférence

[Tenier et al., 2006] R NS HTML une ontologie de domaine SA interaction et inférence oui [Hignette, 2007] R S/NS XTAB une ontologie de domaine A calcul de similarité oui

et annotation floue

[Van Assem et al., 2010] R S XLS l’ontologie OUM A calcul de similarité non [Scharffe et al., 2012] R S/NS CSV/XLS LOV SA mise en correspondance non

entre propriétés

[Buche et al., 2013] R S HTML une ressource terminologique A distances de similarité oui et ontologique OTR et annotation floue