Découverte et sélection de sources - Recherche des objets complexes dans le Web structuré

Le problème de la découverte de sources que nous traitons dans cette thèse soulève deux principaux déﬁs :

1. Découverte de sources structurées : consiste à déterminer (de façon non supervisée) si une source contient des données structurées ou non. Autrement dit, au moment de la collecte des sources à partir du Web (crawl), arriver à découvrir qu’une source (ensemble de pages) publient des contenus structurés, par un même template de présentation. Elles pourraient être générées automatiquement à l’aide ce template (la majorité des cas en pratique) ou remplies manuellement.

2. Indexation de sources : consiste à déterminer si une sources est susceptible de contenir des instances d’une description donnée. Ceci nécessite une technique d’indexation adéquate, qui permet de trouver les sources structurées pertinentes pour toute description spéciﬁée par l’utilisateur.

Certains travaux ont tenté de résoudre le problème de la découverte de sources contenant des pages partageant la même structure. Dans [CMM05, BDM11], les auteurs s’appuient principalement sur le clustering de pages Web, en se basant sur la structure des pages et leurs contenus. Le processus de découverte commence d’une URL comme point de départ, visite un nombre représentatifs de pages Web et détermine par le bais du clustering les parties des pages qui présentent de fortes similarités dans leurs structures. Toutefois, ces techniques supposent que l’ensemble de pages est soit donné directement ou soit obtenu par un point d’accès à la source. Découvrir ces sources d’une manière automatique reste donc un déﬁ en soi.

Le processus de découverte de sources Web peut être guidé en utilisant une description des données ciblées (focused crawling). Le problème de se focaliser à un domaine particulier (collecteurs ciblés) à été abordé dans plusieurs travaux, qui visent à rechercher et récupérer à partir du Web un sous-ensemble concernant à un domaine spécifique, en se basant sur des techniques de classification [CvdBD99, CGMP98] ou sur des techniques d’analyse des liens des documents qui sont étroitement liés aux pages ciblées [DCL+_{00]. Pour plus} de détail sur les différents algorithmes de focused crawling, voir le survey [MPS04].

Le problème d’indexation et de sélection de sources pertinentes pour la tâche d’extraction est lié aux travaux existants dans la littérature sur la recherche de documents à partir du Web textuel, Web caché ou le Web structuré.

Web textuel. Le problème de la sélection de documents à partir du Web textuel a été principalement traité pour l’extraction de relations simples (binaires) en se basant sur la découverte de patterns qui apparaissent dans le texte (comme KnowItAll [CDSE05],

KnowItNow [CDSE05], Snowball [AG00], TextRunner [BCS+_07]).

KnowItAll [CDSE05] récupère une liste d’URLs contenant les termes de la requête. Par exemple, pour la requête “cities such as properNoun(head(<Noun phrase>))”, il récupère un ensemble de pages Web contenant les termes “cities such as”. Ensuite, pour chaque page Web dont l’URL est sélectionnée, il extrait les instances en utilisant la règle associée à la requête, i.e., les noms de villes pour cette requête.

KnowItNow [CDSE05] sauvegarde les documents en local et construit des index inversés (Bindings Engine) afin de récupérer un ensemble de relations répondant à la requête. TextRunner [BCS+_{07] sélectionne les pages Web qui contiennent les relations indépen-} damment du domaine. QXtract [AG03, IAJG06] se base sur une technique de génération de requêtes pour analyser et filter des documents dans le Web, afin de sélectionner ceux qui sont prometteurs pour l’extraction d’une relation donnée. Ensuite, l’extraction est réalisée en utilisant un système d’extraction d’information (Snowball [AG00]).

Toutefois, notre objectif est diﬀérent de ces lignes de recherche, comme nous voulons récupérer des sources structurées qui publient des instances d’un certain schéma, et nous avons un accès complet à leur contenu (par exemple, pendant le crawl) pour les indexer. Web caché. Aussi connu sous le nom du Deep Web, contenant des données qui ne peuvent être accessible que par l’intermédiaire de formulaires Web. Certains travaux ont considéré la problématique de sélection de pages à partir du Web caché, en essayant de découvrir la structure et le domaine du formulaire [RGM01]. Les auteurs de [SMM+_08] tentent de comprendre ces formulaires en reliant leurs champs aux concepts appropriés. D’autres travaux [HPZC07, MAAH09] ont proposé des techniques qui permettent d’ac- céder aux données du Web caché, souvent par la formulation automatique de requêtes appropriées pour remplir les formulaires.

SourceRank [BK11] sélectionne les sources les plus pertinentes et les plus fiables à partir du Web caché, en se basant sur une mesure globale qui calcule la pertinence et la fiabilité d’une source. Cette mesure s’appuie sur la concordance des réponses apportées par différentes sources. En outre, les méthodes de sélection de base de données pour les bases de données relationnelles (tel que [IG04]) évaluent la pertinence des sources en se basant sur les similarités entre la requête et les réponses potentielles.

Web structuré. Dans le projet WebTables [CHW+_{08, CHZ}+_{08] de Google, les tables} HTML sont collectées automatiquement du Web aﬁn de construire un grand corpus de base de données. À notre connaissance, Flint [BCMP08] est le seul système qui a essayé de résoudre la problématique de trouver des pages Web contenant des instances d’objets

structurés. Flint exploite les informations présentées dans les pages pour découvrir, col- lecter et indexer des pages Web qui publient des données représentant une instance d’un certain schéma. Cependant, l’inconvénient de ce système est qu’il fonctionne uniquement pour les sites qui représentent des objets dont les composantes sont données dans le style de paires (attribut : valeur). Par exemple, pour un objet de type “Book”, les informations dans la page doivent être présentées dans le style (book title : valeur, author : valeur, etc.), comme dans Figure 2.8.

Figure2.8 – Segment d’une page Web présentant une instance d’un objet Book

Or la majorité des sites structurés sur le Web ne présentent pas les instances de structures d’objets de cette façon. Nous voulons combiner la représentation structurelle des objets dans les pages et l’annotation automatique des entités pour la sélection des sources pertinentes.

Dans le document Recherche des objets complexes dans le Web structuré (Page 44-46)