Récemment recherché

Aucun résultat trouvé

Étiquettes

Aucun résultat trouvé

Document

Aucun résultat trouvé

Accueil Écoles Thèmes

Connexion

Extraction des ´ el´ ements de donn´ ees

Dans le document Conception d’un modèle Web sémantique appliqué à la génomique fonctionnelle (Page 104-107)

4.2 M´ ethodes

4.2.2 Constitution d’un corpus de g` enes pour l’interrogation des sources

4.2.3.2 Extraction des ´ el´ ements de donn´ ees

a la norme ISO/IEC 11179, des informations concernant les noms, d´efinitions, valeurs possibles

et concepts sémantiques pour chaque élément de données ont été incluses dans le caDSR. Nous

avons étudié l’éventuelle utilisation de cet entrepôt dans notre système mais il n’était pas adapté

pour repr´esenter les EDs dont nous disposions [Mougin 06b], [Mougin 06c].

Des exemples d’EDs dans le domaine biom´edical incluentGene SymboletPathology Name.

Les ensembles de valeurs correspondantes seraient respectivement un ensemble de symboles de

gènes (par exemple, dans un organisme précis) et un ensemble de maladies données. La partie

suivante décrit la manière dont nous avons extraits les EDs des sources à intégrer.

4.2.3.2 Extraction des éléments de données

De nombreuses recherches ont été effectuées dans le but d’extraire des informations à partir

de documents Web. Le terme généralement utilisé est lagénération de wrapper (ouwrapper

induction) [Kushmerick 97] o`u la notion dewrapper est diff´erente de celle traduite par

adapta-teur comme composant des systèmes de médiation. Ici, ce terme correspond à un programme qui

se charge de parcourir une page Web afin d’en inf´erer la structure, et donc une grammaire pour

le code HTML. Un bon rapport recensant les diff´erentes techniques d’extraction d’informations

développées pour l’induction de wrapper est donné dans [Eikvil 99]. Nous ne rentrons pas dans

les d´etails ici mais donnons quelques exemples d’approches et de travaux propos´es dans ce cadre.

Nous montrons en quoi ils ne répondent pas à nos besoins et en conséquence pourquoi nous avons

développé notre propre méthode. Nous présentons ensuite l’approche que nous proposons.

4.2.3.2.1 Travaux existants enwrapper induction. Des approches diverses ont ´et´e

pro-pos´ees afin d’extraire la structure d’un document HTML, et ce pour des objectifs diff´erents.

Certaines exploitent la connaissance d’une ontologie pour identifier les méta-données reflétant

le document HTML considéré [Stuckenschmidt 01]. Cette méthode nécessite une intervention

humaine pour d´efinir l’ontologie source et les r`egles permettant ensuite l’identification des

m´eta-donn´ees au sein des pages Web par rapport aux concepts pertinents dans l’ontologie.

D’autres approches utilisent des techniques d’apprentissage n´ecessitant au pr´ealable d’´

etique-ter manuellement un certain nombre de pages HTML `a partir desquelles il sera possible

d’ex-traire automatiquement les donn´ees relatives `a la structure du document HTML [Soderland 97],

[Kushmerick 97]. Le probl`eme principal de ces approches est qu’elles requi`erent l’existence

d’in-formations additionnelles par rapport aux pages HTML `a traiter mais surtout qu’elles n´ecessitent

une intervention manuelle, aspect que nous souhaitons ´eviter.

Certains travaux proposent cependant des approches automatiques. On citera d’abord

Info-Discoverer, un syst`eme qui identifie automatiquement les parties pertinentes de pages HTML

d’un même site Web [Lin 02]. Les auteurs se basent sur la similarité intra-pages présente dans un

même site Web pour éliminer cette information redondante et ne garder que ce qui est différent

d’une page `a l’autre consid´erant que seule cette information est pertinente. Nous souhaitons

extraire les éléments communs d’une page à l’autre, ce qui revient au travail inverse du leur :

garder uniquement les informations communes entre les pages de notre ensemble.

Le deuxième système que nous souhaitons présenter est RoadRunner [Crescenzi 01]. Les

au-teurs se basent sur le fait que des pages HTML générées à partir du contenu de bases de données

sont produites à partir de scripts et ont la même structure. Le principe suivi consiste à d’abord

transformer les deux pages HTML fournies en entr´ee en listes de tokens (lemmatisation). Le

contenu de la première page sert de référence et la seconde est parcourue pour être comparée

`

a l’autre. Les termes communs sont gard´es ensemble et il faut une intervention manuelle pour

indiquer le libellé à leur associer tandis que les différences permettent d’identifier des champs

optionnels. De plus, ce travail étudie les valeurs différentes associées à des termes communs d’une

page `a l’autre afin de d´efinir un type pour le champ correspondant. Nous ne voulons pas que

les éléments extraits des sources soient étiquetés manuellement car, dans les sources biom´

edi-cales, ils correspondent en soi aux libell´es qui nous int´eressent. Cela est un avantage des sources

de données dans ce domaine. Elles ont, en effet, été développées pour être consultées par des

biologistes et m´edecins et donc pour lesquelles les sites Web fournissent des informations ´

etique-tées pour que les utilisateurs sachent à quel type d’informations ils vont accéder. L’inconvénient

d’une extraction automatique est qu’elle peut résulter en des noms d’éléments peu appropriés,

incohérents ou ambigus. Cependant, nous réglons ce problème en typant les valeurs associées

aux EDs de manière plus précise que cela est réalisé dans RoadRunner (cf 4.2.3.4 page 108).

D’autre part, l’utilisation de deux pages HTML dans l’approche de Crescenzi et al. n’est pas

satisfaisante car on n’est pas certain (et c’est mˆeme peu probable) que les champs optionnels

soient tous repr´esent´es dans ces deux pages uniquement. Dans notre approche, l’exploitation

de 100 pages HTML est plus efficace mˆeme s’il faut noter qu’elle ne garantit pas non plus une

enti`ere exhaustivit´e.

4.2.3.2.2 Notre approche. Les sources de données que nous cherchons à intégrer au sein

de notre système fournissent des interfaces Web permettant d’accéder à leur contenu via des

requêtes. La plupart des sources sont implémentées à l’aide d’une base de données ou de fichiers

plats structur´es. Des programmes CGI (Common Gateway Interface) vont interroger ces bases

ou parcourir ces fichiers pour récupérer les données correspondant à la requête posée

(enregis-trements de tables ou contenu du fichier). Les r´esultats sont fournis sous la forme d’une page

Web, où sont associés des noms plus généraux aux champs ou à des libellés particuliers (répétés)

dans les fichiers : les noms externes. Ce sont ces noms externes qui nous int´eressent et que nous

cherchons `a extraire car ils correspondent aux EDs. Par exemple, HGNC stocke ses donn´ees dans

une base constitu´ee d’une table unique (cf figure 2.4 page 35). Les champs de celle-ci ont des

noms externes qui sont plus explicites que les noms de champs de la table. Des exemples de noms

de champs incluent gd app sym et gd pub acc ids dont les noms externes sont respectivement

Approved SymboletAccession Numbers.

Afin de rep´erer et d’extraire les EDs, notre m´ethode repose sur ce que l’on appelle la

redon-dance intra-pages Web (cf figure 4.4 page 107). En effet, au sein d’une mˆeme source, des requˆetes

différentes permettent d’obtenir en retour des pages Web répétant les mêmes EDs [Mougin 04].

Nous exploitons cette caract´eristique pour extraire de mani`ere automatique les EDs dans un

ensemble de pages HTML de chaque source.

Le processus que nous décrivons ci-dessous s’applique à chacune des sources de données à

intégrer, indépendamment les unes des autres. Les différentes phases d’extraction des EDs de la

source S sont les suivantes (Figure 4.3 page suivante) :

– interrogation de S pour les 100 g`enes (nom ou symbole) du corpus (cf 4.2.2 page 102).

Ce processus, enti`erement automatique, utilise l’URL du programme CGI disponible sur

le site Internet de S en lui fournissant en entr´ee les 100 g`enes un par un. Cela permet de

constituer un ´echantillon de 100 pages Web dont la structure HTML est identique ;

– un pré-traitement des 100 pages Web de l’échantillon est d’abord effectué : les pages

sont nettoyées afin d’éliminer des informations non pertinentes (en-tête et pied de page).

De plus, parmi les balises HTML, on distingue diff´erentes cat´egories qui sont plus ou

moins informatives. Ainsi, nous avons supprim´e les balises HTML qui ne sont a priori

pas pertinentes pour repr´esenter la structure de la source. On donnera comme exemple la

balise <BR>qui permet d’aller `a la ligne, en comparaison `a des balises telles que <H1>

et<TABLE>qui sont, elles, susceptibles de contenir des ´el´ements importants ;

– parallèlement, l’ensemble des liens hypertextes existant dans ces pages Web sont répertoriés

dans une base de données, de manière à identifier automatiquement des références croisées

entre S et d’autres sources qui pourront compl´eter la description de S ;

– dans chaque page, des paires associant une balise HTML `a son contenu (termes) sont

récupérées ;

– les paires (balise HTML, termes) pr´esentes dans plus de 75% des pages Web de S sont

sélectionnées. Cette sélection permet d’éliminer les données spécifiques telles qu’un nom

de g`ene donn´e (par exemple,_«HFE_»ou_«BRCA1_») tandis qu’elle conserve l’information

d’ordre g´en´eral qui se retrouve dans chacune des pages Web de S, comme le termeGene

Name. Le terme correspond ainsi `a un ED de la source S.

Nous avons choisi d’identifier des paires plutˆot que seulement les termes r´ecurrents dans

les pages Web afin d’exploiter r´eellement les caract´eristiques offertes par les programmes CGI.

Corpus de gènes

{HAMP + hepcidin,

TF + transferrin, etc }

Échantillon

de 100

pages Web

Outil

d’interrogation

de la source

Nettoyage des

balises HTML non

informatives et

en-tête et pied de page

+

Identification des

références croisées

Identification des

paires (balise,

terme(s))

similaires

Éléments de

données de la

source

Schéma de la

source

Fig. 4.3 – Algorithme pour l’extraction d’éléments de données dans une source.

`

A partir d’un corpus de g`enes, la source est interrog´ee au travers du programme CGI fourni

par l’interface Web du site associé. Un échantillon de 100 pages Web est récupéré. Les données

non pertinentes sont d’abord nettoy´ees pour identifier ensuite les paires (balise HTML, termes)

présentes sur chaque page et parallèlement les références croisées vers d’autres sources sont

récoltées. Les paires communes à la plupart des pages Web correspondent aux éléments de

données de la source, la balise HTML n’étant pas gardée. Ces éléments de données sont la base

du sch´ema de la source.

En effet, ces derniers générant des pages de structure similaire, les mêmes termes pertinents

apparaissent généralement dans les mêmes balises HTML d’une page à l’autre. Le fait

d’utili-ser l’information de la balise associée au terme garantit que le terme récurrent considéré sera

conservé uniquement s’il est repéré dans cette même balise dans la plupart des pages Web de la

source. Ainsi, un terme comme_«different_»qui apparaˆıt de manière répétitive dans une source

textuelle, telle que OMIM, mais qui n’est pas contenu dans la mˆeme balise d’une page `a une

autre, ne correspond pas `a un ED auquel sont associ´ees des valeurs et n’est donc pas extrait par

notre m´ethode.

Un exemple des EDs extraits de la source HGNC est donn´e figure 4.4 page suivante.

4.2.3.3 Traitement des références croisées

`

A partir des liens hypertextes (pr´esents sur les diff´erentes pages Web) que nous avons r´

ecu-pérés par l’algorithme d’extraction des EDs (présenté précédemment), il est parfois possible de

définir le nom de la source dont une référence croisée a été trouvée. En effet, le texte associé

aux hyperliens est soit le numéro de l’entrée correspondante dans la source référencée, soit le

nom de la source elle-mˆeme (par exemple, OMIM dans la figure 4.4 page ci-contre). Dans ce

deuxième cas, on peut définir directement une référence croisée de la source interrogée vers celle

qui est référencée (de HGNC vers OMIM, dans l’exemple). Dans le premier cas, un traitement

Dans le document Conception d’un modèle Web sémantique appliqué à la génomique fonctionnelle (Page 104-107)

Télécharger maintenant "Conception d’un modèle..."

Outline

Documents relatifs