• Aucun résultat trouvé

3.2 Structure du Web

3.2.1 Structure hi´ erarchique du Web

Par d´efinition, un document structur´e est compos´e d’un ensemble d’´el´ e-ments (ou objets) organis´e dans une logique la plus souvent hi´erarchique (la structure logique).

3.2 Structure du Web 51

La notion de document structur´e comprend, dans le cadre de cette th`ese, trois composants principaux : le contenu, les structures et les strat´egies de lecture [G´er02].

1. Le contenu d’un document structur´e d´esigne les informations textuelles ou multim´edia, repr´esent´ees sous la forme d’un ensemble de composants (des figures, des images, des tableaux, des paragraphes, etc.).

2. Les normes de repr´esentation de documents structur´es, telles que l’ODA (Office Document Architecture) et le SGML (Standard Generalized Markup Language), distinguent deux types de structures : la struc-ture physique et la strucstruc-ture logique, qui sont d´efinies de la mani`ere suivante :

– La structure physique correspond `a l’organisation d’affichage des donn´ees qui composent le document. Elle d´epend de l’environnement de pr´esentation du document, comme le format du papier ou l’´ecran d’un ordinateur de type : ordinateur individuel, ordinateur de poche, t´el´ephone cellulaire, ...

– La structure logique correspond `a l’organisation hi´erarchique des donn´ees du document. Elle propose, implicitement, une strat´egie de lecture. Elle est la plus souvent ind´ependante de l’environnement de pr´esentation (affichage).

3. La strat´egie de lecture d’un document structur´e consiste `a enchaˆıner la lecture des parties successives, dans un sens connu implicitement, jusqu’`a la conclusion ou la prise d’une d´ecision d’arrˆet de lecture.

Cette notion de structure hi´erarchique est rest´ee tr`es pr´esente dans la conception des pages HTML mais aussi des sites web (page d’accueil, an-nuaires, etc.). Nous faisons la distinction entre structure hi´erarchique des pages et structure hi´erarchique des sites en raison de la possibilit´e de d´ecrire la structure logique au sein d’une page HTML et entre des pages HTML.

Structure hi´erarchique intra-page

Les pages HTML (ou ´equivalent) poss`edent une structure interne, appe-l´ee structure hi´erarchique intra-page, qui permet de d´efinir des ´el´ements de diff´erentes granularit´es.

Plusieurs approches ont ´et´e d´evelopp´ees pour extraire ou identifier la struc-ture hi´erarchique intra-page d’un hyperdocument (site web) telle que l’uti-lisation de la structure logique, d´ecrite `a l’aide des balises HTML (ou tout autre type de langage de description structur´e, comme SGML) :

– Fuller propose de fragmenter un document textuel, exprim´e `a l’aide de SGML, en un ensemble de noeuds et de relations de composition pour transformer cette structure en un hypertexte [FMSDW93].

– Riahi sugg`ere l’usage d’une base de donn´ees orient´ee objets, bas´ee sur des unit´es informationnelles, qui sont extraites et structur´ees en fonc-tion des balises HTML [Ria98].

– Carchiolo mod´elise la structure logique interne des sites Web en com-binant la structure d´ecrite `a l’aide des balises HTML et la similarit´e structurelle des parties de documents [CLM00].

– G´ery analyse la structuration interne des pages HTML selon trois ni-veaux de granularit´e HTML : la phrase, le paragraphe et la section [G´er02].

D’autres approches font appel `a des motifs pour l’int´egration des donn´ees semi-structur´ees provenant de bases h´et´erog`enes au sein d’un mˆeme mod`ele de documents [GY96], [jHtY97], [AMM97]. Nous nous sommes int´eress´es ´ ega-lement aux travaux de Salton bas´es sur la recherche de similarit´e entre les parties de textes (donn´ees textuelles) pour d´etecter des hyperliens s´ eman-tiques `a l’int´erieur mˆeme d’un document [SAS96].

Structure hi´erarchique intra-site

Dans la structure d’un site Web, il y a au moins deux types d’hyperliens : les r´ef´erentiels et les organisationnels (structurels). Les hyperliens r´ef´erentiels ´etablissent des relations de cheminement entre les « documents sources » et les « documents destinations » en faisant des chemins de lecture. Par contre, les hyperliens organisationnels construisent la structure hi´erarchique d’un site Web sous forme d’arbre : le document parent est reli´e par hyperlien organisationnel `a un document enfant et vice-versa.

Grˆace `a des notations standardis´ees telle que le URL (Uniform Resource Locators) on peut ´etablir des hyperliens, entre diverses ressources, d´ecrivant une structure hi´erarchique interne d’un site Web (appel´ee structure hi´ erar-chique intra-site) o`u les diff´erentes parties sont fragment´ees en plusieurs do-cuments HTML (au lieu de se localiser dans un mˆeme document). Or, ces normes ne permettent pas de pr´edire si le site Web repr´esente un seul docu-ment structur´e (lecture lin´eaire), ou si il repr´esente un ensemble de documents organis´es sous forme hypertextuelle (lecture par navigation) [G´er02].

Botafogo a montr´e qu’il est possible de diff´erencier automatiquement les hyperliens hi´erarchiques (organisationnels) des hyperliens de r´ef´erence, en

3.2 Structure du Web 53

extrayant une racine et la hi´erarchie qui en d´ecoule [BRS92]. Il consid`ere qu’une racine permet d’acc´eder `a tous les noeuds sauf ceux qui sont isol´es, qu’elle est `a une distance faible des autres noeuds, et qu’elle poss`ede un nombre consid´erable de fils. Les deux premi`eres consid´erations sont v´erifiables si le noeud poss`ede un fils. La derni`ere consid´eration permet d’´eliminer les noeuds qui ont uniquement un rˆole d’index (sans ˆetre r´eellement racine du site) [G´er02].

Aguiar insiste sur la difficult´e de la tˆache d’identification des hyper-liens structurels dans un site Web, pour proposer deux hypoth`eses : 1) les hyperliens structurels existent mais sont m´elang´es avec d’autres types d’hy-perliens, il faut envisager une m´ethode pour trier les hyperliens ; 2) les hyper-liens structurels n’existent pas n´ecessairement, il faut les extraire [AB00]. Cet auteur, en optant pour la seconde hypoth`ese, propose une m´ethode bas´ee sur l’analyse statistique de la distribution des termes dans les pages et entre les pages, ainsi que la distribution des hyperliens entre les pages pour extraire ces hyperliens structurels [G´er02].

La possibilit´e d’extraire une structure hi´erarchique interne `a un site Web a ´et´e renforc´ee par les travaux de G´ery, qui proposent un algorithme uti-lisant des heuristiques simples sur la syntaxe des URLs, en accordant de l’im-portance `a la structure hi´erarchique des r´epertoires du serveur Web [G´er02].