• Aucun résultat trouvé

Le e-lien, une solution pour l'extraction et le partage de connaissances structurées dans les documents hypertextuels

N/A
N/A
Protected

Academic year: 2021

Partager "Le e-lien, une solution pour l'extraction et le partage de connaissances structurées dans les documents hypertextuels"

Copied!
9
0
0

Texte intégral

(1)

HAL Id: hal-01525805

https://hal.archives-ouvertes.fr/hal-01525805

Submitted on 31 May 2017

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Le e-lien, une solution pour l’extraction et le partage de connaissances structurées dans les documents

hypertextuels

Gilles Verley, Jean-Pierre Asselin de Beauville

To cite this version:

Gilles Verley, Jean-Pierre Asselin de Beauville. Le e-lien, une solution pour l’extraction et le partage de connaissances structurées dans les documents hypertextuels. Revue des Nouvelles Technologies de l’Information, Editions RNTI, 2004, pp.172. �hal-01525805�

(2)

Le e-lien, une solution pour l’extraction et le partage de connaissances structurées dans les documents hypertextuels

Gilles Verley , J.P. Asselin de Beauville Laboratoire d'Informatique

64, avenue Jean Portalis 37000 - TOURS

 02 47 36 75 66 email: gilles.verley@univ-tours.fr, jean-pierre.asselin@auf.org

Résumé: Dans cet article, on propose une solution pour extraire et partager des connaissances structurées dans des documents hypertextuels . Dans une première partie, on examine quelles peuvent être les différentes motivations qui amènent un auteur à placer un lien hypertexte dans la page qu'il crée. On montre alors que certaines de ces motivations représentent une connaissance structurée potentielle dont l'exploitation pourrait être utile à une communauté d'auteurs et de lecteurs. Ces considérations nous amènent à élaborer un langage formel permettant de les expliciter dans le cadre des normes html et xml. Un lien explicité dans ce langage devient un lien "étendu" (e-lien). Dans une seconde partie, on développe le concept de " serveur de e-liens " d'un point de vue théorique et technologique. L'objectif de ce serveur particulier est de récupérer la connaissance formelle placée par les auteurs dans les e-liens afin de la partager de différentes manières. On montre, par exemple, qu'il est alors possible pour un auteur de poser un e-lien vers une page dont l'adresse est encore inconnue de l'auteur en indiquant simplement la motivation qui a justifié la pose de cet e-lien. Dans une dernière partie, on s'intéresse aux aspects méthodologiques et expérimentaux de la solution présentée.

Mots-clés: lien hypertexte, ontologie, travail partagé, moteur de recherche

1 Le e-lien: un lien hypertexte aux possibilités étendues

Les auteurs qui publient des connaissances sous la forme de documents électroniques lisibles sur un écran utilisent de plus en plus la technologie des liens hypertextes pour améliorer la présentation et la lisibilité de leur travail [1]. Il est alors logique de se demander si ceux-ci ne représenteraient pas une structure formelle

intéressante pour intégrer les outils conceptuels et technologiques favorisant la structuration des connaissances et leur partage par une communauté. Pour répondre à cette question, nous allons d’abord réaliser une typologie des besoins auxquels répondent les liens que les auteurs placent dans les documents hypertextes électroniques sur le web. Nous nous placerons dans le cadre de ce qui est communément appelé l'information scientifique et technique. Dans un premier paragraphe, nous ferons un inventaire non exhaustif des liens qui répondent à des besoins éprouvés par les auteurs depuis longtemps et que les nouvelles technologies n'ont fait que transposer dans l'univers numérique. Dans un second paragraphe, nous analyserons les liens qui répondent à des nouveaux besoins que les nouvelles technologies ont fait émerger en matière d'organisation collective de l'information.

Dans un dernier paragraphe, nous présenterons les prémisses d'un langage simple permettant aux auteurs d'expliciter de manière unifiée et formelle ces différents besoins au travers des liens étendus (ou e-liens).

L'objectif final est de constituer, dans un domaine de connaissances donné, une sorte d’ontologie qui va permettre aux auteurs d'indexer eux-mêmes les parties de documents qu'ils associent dans leurs liens. Les bénéfices que l’on peut attendre d'un tel système sont importants:

- pour les lecteurs parce qu'il peut constituer un outil efficace d'aide à la recherche d'informations - pour les auteurs parce qu'il peut simplifier l'organisation de leur travail individuel ou collectif.

1.1 Les liens traditionnels

1.1.1 Les liens "zoom"

Il y a longtemps que les auteurs ont souhaité proposer différents niveaux de lecture à leurs lecteurs et les éditeurs ont répondu à ce besoin en utilisant des artifices typographiques efficaces. L'objectif est de permettre au lecteur de suivre le cheminement de pensée de l'auteur (aspect logique du développement des idées) mais à un plus ou moins grand niveau de généralité selon son besoin ou ses connaissances (aspect pragmatique). Quiconque a consulté la une du journal "Le Monde" sait qu'il est extrêmement aisé de ne lire que les titres puis de "zoomer"

sur l'article de son choix. Ce sont les différences typographiques qui permettent cette opération. Pas besoin de haute technologie pour cela, l'œil et le cerveau humain se chargent de tout et rapidement! Mais quiconque a

"surfé" sur la version électronique du même journal à partir de son écran cathodique de 17 pouces, déjà bien encombré par un ensemble de barres horizontales et verticales en tout genre, sait que cette solution est

(3)

une lecture linéaire mais à différents niveaux de généralité, d'où également leur nom de "liens hiérarchiques".

Autrement dit, ces liens sont d'abord là pour remédier à un "moins technologique", l'exiguïté de la plupart des écrans et l'impossibilité de les feuilleter à la manière d'un livre que l'on feuillette pour en appréhender sa structure matérielle et logique! La quasi-obligation que les contraintes technologiques font aux auteurs de créer ce type de liens est, de notre point de vue, une chance car les liens de ce type vont découper formellement les documents et représenter des informations de nature ensembliste. L'explicitation de celles-ci, dans un langage adéquat au travers des e-liens, sera très aisée et naturelle pour l'auteur et ne nécessite pas l'emploi d'autres techniques.

1.1.2 Les liens "parenthèses"

Il s'agit des liens qui sont la simple transposition sous la forme électronique des traditionnels renvois que l'on trouve dans le fil habituel des documents traitant d'information scientifique et technique et dont l'objectif n'est pas de proposer au lecteur un véritable choix dans la poursuite de la lecture mais de permettre une digression pouvant répondre à différents besoins ponctuels et spécialisés du lecteur. De manière non exhaustive, on citera:

- renvoi à une note en bas de page

- renvoi à une partie quelconque du document autre qu'un sur ou sous-ensemble de l'élément appelant - renvoi à une figure

- renvoi à une définition

- renvoi à un élément bibliographique - renvoi à une annexe

La forme électronique, donc interactive, de ces renvois les rend plus attractifs aux lecteurs, c’est pourquoi les auteurs ont tendance à les multiplier dans les documents électroniques. Comme les liens "zoom", les liens

"parenthèses" constituent un découpage formel des documents qui peut être utile.

1.2 Les liens organisationnels

Ce sont ceux qui répondent à des besoins organisationnels qu'il aurait été difficile d'imaginer en l'absence des technologies d'édition électronique. Ils émergent des possibilités qu'offrent l'information électronique en matière de:

- organisation personnelle; chaque auteur peut gérer seul et en permanence les aspects matériels et intellectuels de son site web tel qu'il se présente à la communauté des lecteurs. Cette autonomie facilite les mises à jour et le développement de nouvelles parties. Il apparaît alors des besoins organisationnels afin de maintenir la cohérence des différentes parties (écrites ou à écrire) et des liens qui les relient.

- organisation collective; chaque auteur peut participer à une œuvre collective en se rattachant par des liens spécifiques au travail des autres. Là encore apparaissent des besoins organisationnels encore plus complexes à gérer puisque mettant en jeu plusieurs auteurs.

Ainsi, l'édition électronique sur le web est largement continue et collective. De ces caractéristiques ont émergé des liens que nous appellerons "organisationnels" qui permettent de structurer un ensemble hétérogène du point de vue des contenus et des auteurs. Ces liens organisationnels que l’on trouve, par exemple, dans les sites

« portail » peuvent être élaborés par des automates de recherche à partir des contenus ou créés manuellement par des spécialistes. Dans tous les cas, ils ont la fâcheuse caractéristique de pointer sur des ressources instables car susceptibles d'évolution dans le temps, par les mises à jour successives qui peuvent en détourner à terme la nature, ou dans l'espace, par des changements d'adresse. Malgré ce défaut « congénital », ce type de liens est tout à fait utile pour "naviguer" à travers les sites. Nous verrons comment le e-lien permet de pallier naturellement à cette instabilité des liens organisationnels ordinaires.

1.3 Le langage

Notre idée est donc de créer un langage simple permettant de prendre en compte les caractéristiques des différents types de liens et de le mettre à la disposition des auteurs pour leur bénéfice propre et celui des utilisateurs finaux. Il est à noter que les documents html et xml existants peuvent aisément être mis à jour dans cette optique par la simple modification de la forme de leurs liens. Nous présentons ici les éléments essentiels du prototype de ce langage.

1.3.1 Explicitation des liens de type traditionnel dans les e-liens

Ces liens ne posent pas de problèmes d'explicitation par l'auteur dans le sens où celui-ci en maîtrise les aspects de haut et bas niveau. Aspects de haut niveau dans le sens où l'auteur sait à quels besoins ils répondent et quels concepts ils mettent en relation, aspects de bas niveau dans le sens où l'auteur connaît les informations

techniques concernant le stockage puisqu'il en est l'auteur unique.

(4)

Pour des raisons de clarté, en italique gras seront représentés les éléments libres du langage, c'est-à-dire les termes construits par l'auteur à partir des caractères alphanumériques pour représenter :

- les concepts qui condensent les parties appelante et appelée mises en relation par le lien.

- les url's (c’est-à-dire les adresses) des documents.

En italique gras souligné est représenté un élément obligatoirement pris dans une liste fermée de termes représentant les différents besoins auxquels répondent les liens:

- spécialisation 'zoom avant' - généralisation 'zoom arrière'

- association 'renvoi à une partie quelconque du document autre qu'un sur ou sous-ensemble' - illustration 'renvoi à une figure'

- définition 'renvoi à une définition'

- citation 'renvoi à un élément bibliographique'

Les mots en italique normal sont des mots permanents qui permettent de donner un sens à la phrase construite grâce au langage.

Appliquons les éléments de ce langage pour expliciter un lien hiérarchique dans un exemple simple. Le site de Météo-France dispose d’une page dédiée aux prévisions météorologiques et qui est constituée d’une liste de liens tels que « les prévisions marines », « les prévisions terrestres », « les prévisions aériennes ». Ces liens sont des liens de type hiérarchique et à caractère durable. Tentons d’expliciter simplement le lien concernant les prévisions marines:

la cible prévisions_marines répond au besoin de spécialisation de la source prévisions_météorologiques, l'url de la source est http://www.meteo.fr/prevmeteo.htm#début,

l'url de la cible est http://www.meteo.fr/prevmarin htm#111.

Autre exemple pour un lien illustratif:

la cible carte_de_la_france répond au besoin de illustration de la source prévisions_météorologiques, l'url de la source est http://www.meteo.fr/prevmeteo.htm#début,

l'url de la cible est http://www.meteo.fr/cartefrance.gif

Anticipant sur la deuxième partie concernant les aspects technologiques du serveur d’e-liens, on peut déjà indiquer que l'activation d’un lien écrit dans ce langage par un utilisateur aura pour effet:

- de mettre à jour la base des termes représentant les concepts, - d'indexer les deux documents avec leurs termes respectifs, - d'appeler la page liée sur le navigateur du client.

On observera qu'un document peut parfaitement être indexé avec plusieurs termes. En pratique, cela se produit lorsqu'un même document est référencé comme cible ou source dans plusieurs liens mais en répondant à des besoins distincts. Cette situation est conforme aux habitudes documentaires en matière d'indexation de documents [2].

1.3.2 Explicitation des liens de type organisationnel dans les e-liens

Ainsi que nous l'avons vu plus haut, les liens organisationnels permettent à un auteur ou à une communauté d’auteurs de relier leurs productions dans un ensemble fédérateur cohérent et au lecteur de disposer de liens pertinents pour naviguer dans un très un vaste ensemble de documents. Le langage va permettre à l'auteur de n'expliciter que ce qu'il sait sans avoir à fournir certaines informations de bas niveau qu'il ne connaît pas encore ou qui ne dépendent pas de lui.

Eclaircissons ce point sur un nouvel exemple simple. Soit un étudiant en informatique à qui on a demandé de créer un site pédagogique sur les scanners . Une fois son travail terminé, il pourra intégrer son site dans un ensemble fédérateur plus vaste même si celui-ci n’existe pas encore et si il en ignore la future adresse. Il lui suffit de placer dans une page de son site un e-lien dans lequel il pourra exprimer simplement le fait que cet e- lien a pour motivation d’intégrer son travail dans un ensemble fédérateur (approche ascendante). Celui-ci sera représenté par un concept générique qu'il créera ex nihilo dans l’e-lien et qui servira par la suite d'entité intégrative pour son travail et d’éventuels autres travaux:

<xml>

Le site que vous êtes en train de consulter traite du problème de la numérisation des images et s'intègre dans un travail collectif plus vaste portant sur

<a href="e-lien ad hoc" > l'étude des périphériques </a>

……….suite du travail de l’étudiant………….

</xml>

forme du e-lien ad hoc (on ne cherche pas ici à assurer la compatibilité avec les normes html,xml,http) :

(5)

la cible périphériques_ informatiques répond au besoin de généralisation de la source scanners, l'url de la source est http://www.iut.fr/scanner/page1.htm#1

Anticipant encore sur la deuxième partie, l'activation de cet e-lien mettra à jour la base de e-liens mais ne permettra pas au serveur de e-liens de fournir la page fédératrice traitant des périphériques informatiques pour la raison que celle-ci n’existe pas encore et que son adresse future n’est pas encore déterminée et ne peut donc pas figurer dans le lien. A la place, le serveur de e-liens enverra une aide appropriée au lecteur (cf. la troisième partie sur les aspects expérimentaux). Supposons maintenant qu'un auteur quelconque ait l’intention de créer cette page fédératrice permettant de présenter et d’accéder aux différents travaux dont le travail concernant les scanners (approche descendante). Cet auteur pourra créer un e-lien vers le travail concernant les scanners sans avoir à connaître l’adresse réelle de ce travail.

<xml>

Cette page vous permet d’accéder à différents travaux réalisés par des étudiants à propos des périphériques informatiques.

<a href="e-lien ad hoc" > étude des scanners</a>

……….suite des e-liens concernant les autres travaux……….

</xml>

forme du e-lien ad hoc :

la cible scanners répond au besoin de spécialisation de la source périphériques_ informatiques, l'url de la source est http://www.iut.fr/periphs/index.htm#1

L’activation de cet e-lien mettra à jour la base d’e-liens et provoquera l’affichage de la page concernant les scanners grâce à une jointure réalisée sur le concept de « scanners ». Ceci sera expliqué dans la partie qui suit.

De la même manière, une nouvelle activation de l’e-lien présent dans la page traitant des scanners provoquera maintenant l’affichage de la page fédératrice sans aucune manipulation supplémentaire.

Les possibilités d’organisation qu’offrent les e-liens tiennent au fait qu’ils permettent de s’abstraire des contraintes liées au stockage physique des fichiers en ne raisonnant que sur des concepts organisationnels et sur les relations sémantiques entre ces concepts. Pour ne pas alourdir le propos, nous n’aborderons pas les autres informations utiles qui peuvent être placées dans les e-liens tels que le nom de l’auteur, la date, etc. . Ce genre d’informations peut maintenant être présent dans le cadre du langage xml mais pas avec les fonctionnalités présentées ici [3].

2 Le serveur d’e-liens: aspects technologiques

Nous avons vu dans la première partie que l’e-lien permet à un auteur d’expliciter les motivations qui ont conduit à le créer et que l’activation d’un e-lien permet d’enrichir une base de connaissances en plus que d’appeler la page souhaitée. Cette base de connaissances permet au lecteur de rechercher des pages à partir des concepts qui décrivent ces pages dans les e-liens et des relations sémantiques entre ces concepts. Elle permet également aux auteurs d’organiser leur production individuelle ou collective en s’appuyant essentiellement sur ces concepts. Comment mettre en œuvre les spécifications de l’e-lien et du serveur d’e-liens dans le strict cadre des langages html ou xml et du protocole http, tel est l’objet de cette partie plus technologique.

Reprenons l’exemple de notre étudiant devant réaliser un site sur les scanners dans le cadre d’un projet collectif d’études des périphériques informatiques. Le lien classique en html (ou en xml) suppose de connaître l’adresse de la page pointée et ne permet pas de fournir toutes les informations sémantiques dont il a été question dans la première partie. Le source aurait donc la forme suivante :

Le site que vous êtes en train de consulter traite du problème de la numérisation des images et s'intègre dans un travail collectif plus vaste portant sur

<a href="http://www.iut.fr/periphs/index.htm#1" > l'étude des périphériques </a>

L’e-lien correspondant aura la forme suivante pour être compatible avec les normes html, xml, http :

<a href="http://serveur_de_e-liens/prog.cgi?param=la cible périphériques_ informatiques répond au besoin de généralisation de la source scanners, l'url de la source est http://www.iut.fr/scanner/page1.htm#1">

(6)

Les informations spécifiques à l’e-lien sont donc écrites dans le langage ad hoc et sont tout simplement fournies au serveur d’e-liens par le biais d’une phrase structurée qui est la valeur d’un paramètre d’un programme s’exécutant sur ce serveur.

On remarquera d’abord que le e-lien ne respecte pas exactement la syntaxe d’une requête http pour de simples raisons de présentation (accents, espaces, etc.) sans conséquences réelles.

Le e-lien est donc une requête d’exécution d’un programme cgi-bin sur le serveur d’e-liens avec pour paramètre une phrase structurée dans le langage spécifique. Le serveur d’e-liens est a priori indépendant des serveurs qui contiennent les pages elles-mêmes.

Comme on l’a déjà vu (explicitation des liens organisationnels), on notera que cette phrase ne comporte pas l’url de la page pointée par l’ancien lien.

Du point de vue du lecteur , le remplacement du lien ordinaire par un e-lien restera transparent si l’e-lien fournit la page désirée comme l’ancien lien.

Du point de vue de l’auteur, un e-lien est un lieu d'explicitation, dans une certaine syntaxe, d'informations de haut et de bas niveau concernant l’objet de la page appelante et celui de la cible.

Du point de vue formel, un e-lien est un texte écrit dans une syntaxe particulière représentant des informations de haut et de bas niveau concernant la nature du lien.

Du point de vue technologique, un e-lien est une requête http sur le serveur d’e-liens.

Voyons maintenant le fonctionnement de ce serveur intermédiaire par l’examen de l’ensemble du processus permettant au client de recevoir la même page que celle qui aurait été obtenue par un lien ordinaire:

1. L’utilisateur « Client » active un e-lien sur la page affichée sur son navigateur.

2. Le serveur d’e-liens reçoit donc une requête résultant de l’activation d’un e-lien. Il démarre l’exécution du programme cgi-bin avec pour paramètre la phrase contenant « l’intelligence du lien ». Celui-ci, après avoir analysé la phrase, enrichit d’abord sa base de connaissances avec les informations fournies par l’e-lien.

Ensuite, le programme consulte cette même base de connaissances pour trouver l’url de la page appelée (et éventuellement d’autres méta-informations dont il sera question dans la dernière partie). Anticipant sur la suite de l’exposé, nous considérerons que le programme a trouvé l’url d’une page répondant à la motivation de cet e-lien.

3. Le serveur d’e-liens renvoie cet url au navigateur du client qui a activé l’e-lien , dans une forme parfaitement compatible avec le protocole http et qui sera explicitée ensuite.

4. Le client qui a activé le e-lien reçoit alors cet url dans une forme qui lui permet de générer automatiquement (cf. explications plus bas) la même requête http que celle correspondant au lien ordinaire initial.

5. Le serveur de la page appelée renvoie la page correspondant à cet url au client qui reçoit donc la page adéquate d’une manière totalement transparente par rapport au serveur d’e-liens.

Fig. 1. Processus de traitement d'une requête provenant d’un e-lien

B

C

Serveur d’e-liens

A

Client Serveur de

la page appelée

1

2

3 4

5

(7)

Le e-lien peut être, à juste titre, comparé aux pointeurs que l’on trouve dans les langages informatiques ou à l’adressage indirect que l’on trouve dans les langages « machine ». En quelque sorte, le e-lien ne spécifie plus l’adresse d’une page (comme dans le cas d’un lien ordinaire), mais la manière dont cette adresse peut être trouvée. Nous montrerons plus bas que cette possibilité d’indirection , dont l’existence a très rapidement été considérée comme indispensable dans les processeurs pour gérer efficacement les données, se trouve disponible, à un niveau logique beaucoup plus évolué que le langage-machine, dans le strict cadre du langage html ou xml et du protocole http. Nous avons vu les possibilités qui en découlent dont celle qui consiste pour l’auteur un e-lien de ne plus avoir besoin de connaître l’adresse de la page qu’il veut appeler mais uniquement le besoin conceptuel auquel cette page doit répondre. Les conséquences positives en matière de recherche et de partage de

connaissances en découlent naturellement. Bien entendu, cet apport conceptuel a un coût. C’est la nécessité de faire intervenir un serveur intermédiaire que l’on peut appeler maintenant et pertinemment "serveur d’e-liens"

par analogie au "serveur de noms de domaines". Les premières estimations que nous avons faites montrent que ce coût est négligeable car ne mettant en jeu que du texte. Les flux ne sont augmentés que de quelques dizaines d’octets lorsqu'on active un e-lien plutôt qu'un lien ordinaire et les traitements supplémentaires sont élémentaires et donc quasiment immédiats.

En ce qui concerne la forme dans laquelle le serveur d’e-liens doit renvoyer l’adresse correspondant à la page réellement appelée au navigateur du client afin que celui-ci puisse appeler dans un deuxième temps et de manière complètement automatique cette page, il existe au moins deux solutions totalement compatibles avec le protocole http et les navigateurs actuels. Seule la première a été développée pour l’instant. Cette solution extrêmement simple, mais originale, et que nous avons donc utilisée expérimentalement pour nos tests consiste à encapsuler l’adresse (c’est-à-dire l’url) de la page à faire apparaître dans une page de création de cadre (il s’agit d’une page dont le rôle est de créer des cadres dans la fenêtre du navigateur du client et d’indiquer les adresses des pages devant être affichés dans ces cadres). Ainsi le serveur de noms d’e-liens renvoie au « navigateur appelant » une page html dont l’objet sera de créer un cadre unique et qui comportera l’adresse de la page souhaitée. Ainsi le navigateur du client ouvrira un cadre et ira chercher automatiquement la page voulue. Le cadre étant unique utilise toute la fenêtre du navigateur sans aucune modification d’apparence. Cette solution est complètement opérationnelle et le code en est disponible sur simple demande auprès des auteurs. Une autre solution, plus contraignante mais offrant plus de possibilités, consisterait à ce que les documents hypertextuels devant contenir des e-liens intègre, par défaut, un programme en java script permettant d’effectuer le traitement adéquat. Enfin, une dernière solution consisterait à modifier le protocole http et les navigateurs pour intégrer à un niveau plus bas ces fonctionnalités.

En conclusion de cette partie, on peut donc placer dans la structure formelle d’un lien html (ou xml) et à la place de la classique adresse du document lié, une phrase écrite dans une syntaxe adéquate, dans laquelle l’auteur du lien peut fournir très simplement des informations de haut niveau conceptuel sur les documents qu’il est en train de relier. L'activation d’un e-lien par un client permet, au travers d'un serveur de e-liens, de:

fournir à une base de connaissances des informations actuelles de haut et bas niveau reçues spontanément du client et concernant les documents liés. Ces informations pourront efficacement être utilisées pour faciliter la recherche et le partage de documents par des utilisateurs finaux.

fournir la page demandée au client.

Nous verrons plus loin que cette technologie permet aussi de fournir au client qui a activé un e-lien des informations contextuelles à la page appelée (on crée alors un deuxième cadre sur son navigateur) qui peuvent lui être utiles dans sa navigation (cf. application à l'aide contextuelle dans la troisième partie). Enfin, cette technologie ne nécessite pas de modifications du langage html ou xml, du protocole http, des navigateurs et des serveurs web. Elle est totalement transparente pour l'utilisateur et peu contraignante pour l’auteur . A ce propos, il faut remarquer que celui-ci peut faire cohabiter dans une même page des e-liens et des liens ordinaires.

3 Aspects méthodologiques et expérimentaux

En définitive, le langage que nous mettons à disposition des auteurs au travers des e-liens a pour fonction de créer un deuxième langage que les spécialistes appellent langage documentaire. Dans notre esprit, chaque auteur participe donc à l'élaboration de ce langage documentaire et, dans un même mouvement, l'utilise pour indexer les documents qu'il référence dans ses liens. Il s'agit donc d'un langage documentaire libre et structuré. Dans cette situation vont se poser alors les problèmes de polysémie, de synonymie et de polyhiérarchie. Dans les thesaurus qui sont des langages documentaires contrôlés et structurés, ces problèmes sont résolus par la structure humaine qui contrôle le langage. Il s'agit, en général, d'un groupe de spécialistes à la fois de la documentation et du domaine de connaissances dont va relever le thesaurus [2,4].

Ainsi la polysémie, qui crée du bruit lors des recherches, est éliminée en se restreignant à un champ sémantique et en se contraignant à utiliser autant de termes descripteurs distincts que de concepts à représenter. Cela suppose que les termes soient en eux-mêmes suffisamment explicites dans le champ sémantique considéré ou que leur

(8)

sémantique puisse être précisée suffisamment par les termes génériques ou spécifiques qui leur sont directement associés. De même, la synonymie, qui crée du silence, est traitée par l'adjonction au vocabulaire des descripteurs d'un vocabulaire de non descripteurs (eux aussi non polysémiques) qui sont en relation d'équivalence avec les descripteurs. Enfin, la polyhiérarchie qui est le fait pour un descripteur d'avoir plusieurs descripteurs génériques peut être soit interdite conventionnellement pour des raisons de simplification du graphe, soit autorisée pour améliorer les possibilités de recherche.

Comment traiter ces problèmes lorsque on ne s'adresse pas à des spécialistes du traitement de l'information et que tout le monde participe de manière continue à l'élaboration de l'outil? Il existe au moins trois réponses qui ne sont aucunement exclusives les unes des autres:

- la première réponse réside dans les possibilités d'amélioration spontanée du langage documentaire. Certaines erreurs vont tendre à s'éliminer par des corrections spontanées de la part des auteurs. En effet si un terme créé par un auteur n'est pas un bon candidat pour représenter un concept (mot vide, terme polysémique ou inusité, etc.) , on peut penser que les autres auteurs ne l'utiliseront pas dans leurs e-liens (ils créeront et utiliseront un "meilleur" terme) ni les utilisateurs finaux dans leur démarche de recherche. L'auteur de ce terme "parasite" sera alors tenté de mettre à jour les e-liens correspondants pour que les documents liés soient indexés par ce meilleur terme. Le terme parasite disparaîtra alors du langage documentaire. En quelque sorte, il peut s'instaurer une pédagogie par la concurrence dont on peut espérer qu'elle tende à faire converger ce langage documentaire vers une sorte de thesaurus. Néanmoins, il serait naïf d'attendre tout de cette seule réponse sauf si on utilise le système avec des personnes formées aux méthodes de construction de thesaurus.

- la seconde réponse passe par l'intervention d'une personne formée aux techniques documentaires qui sera chargée de contrôler l'évolution du langage en proposant les corrections adéquates aux auteurs.

- la troisième réponse consiste à utiliser des programmes spécifiques. Ainsi, certaines données statistiques concernant la manière dont les utilisateurs finaux utilisent le langage structuré pour trouver de l'information pourraient être utilisées pour améliorer le langage documentaire [5,6].

L'ensemble des concepts présentés ont été mis en œuvre expérimentalement. Le serveur de e-liens est un serveur http ordinaire (Windows 2000 serveur). La seule consigne pour les auteurs est d'utiliser, quand il le souhaite, les possibilités du langage évolué pour créer des e-liens à la place des liens habituels. La méthode et la technologie décrites ont été appliquées à un travail collectif réalisé par des étudiants en documentation et dont l'objectif était de réaliser un produit pédagogique sur l'utilisation des périphériques informatiques.

Le premier bénéfice de cette expérimentation a été de mettre à la disposition de l'utilisateur final un langage documentaire, mis à jour automatiquement et de manière continue, lui permettant; de parcourir un domaine de connaissances à différents niveaux de lecture (généralisation, spécialisation) ou/et en fonction de besoins particuliers (association, glossaire, bibliographie, etc..); de trouver les documents pertinents indexés par le vocabulaire du langage.

Le deuxième bénéfice toujours pour l'utilisateur final a été de disposer d'une fenêtre spéciale lui fournissant à tout moment de sa navigation une série de liens contextuels à la page appelée qui lui permettent d'orienter sa navigation intelligemment d'une manière complémentaire par rapport aux liens créés par les auteurs et qui se trouvent dans la page elle-même.

Le dernier bénéfice a été pour les auteurs de pouvoir développer et mettre à jour leurs sites personnels ou collectifs en s'affranchissant des aspects de bas niveau concernant le stockage des documents. Les démarches collectives, ascendantes ou descendantes ont été facilitées par l’utilisation des concepts à tout moment rendus visibles par tous grâce au serveur d’e-liens.

4 Conclusion

Nous avons cherché à montrer qu'il pouvait exister des solutions théoriques, technologiques et méthodologiques relativement simples et efficaces au problème complexe de l’extraction et du partage de connaissances

structurées sur le web. Elles mettent en œuvre le concept d’e-liens, sorte de liens hypertextes étendus enrichis sémantiquement, associé au concept de serveur d’e-liens. Dans l'état actuel de notre travail, nous pensons que ces solutions peuvent être mises à profit dans le cadre de structures Intranet et dans le domaine de l'information scientifique et technique.

5 Bibliographie

[2] AFNOR, Traitement documentaire, AFNOR, Paris, 1996. p.459-536.

[5] S. Chakrabarti, B. Dom, D. Gibson, J. Kleinberg, P. Raghavan, and S. Rajagopalan. Automatic Re- source Compilation by Analyzing Hyperlink Structure and Associated Text. Proceedings of the 7th World-Wide Web conference, 1998. Copyright owned by Elsevier Sciences, Amsterdam.

A. Deutsch, M. Fernandez, D. Florecu, A. Levy, D. Suciu, A query language for XML, Proceedings of the Eighth International World Wide Web Conference, 11-14 may 1999, Toronto, Canada, pp. 1155-1169.

(9)

Daniela Florescu, Donald Kossmann, A performance evaluation of alternative mapping schemes for storing XML data in a relational database, Rapport de recherche - INRIA - France, 1999, 31 p.

A. Heimburger, A structured link document as a new means for composing and publishing technical, Electronic publishing'99 Conference, 10-12 may 1999, Ronneby, USA, pp. 90-102.

F. Jaumier, Réutilisation des données : apport de SGML et XML, Forum sur la gestion de documents électroniques, 5-9 mars 1999, Paris, France, 11 p.

Kim H., Chang H., Williams M., Building an XML and Web-based document retrieval system, 20 th annual national online meeting,18-20 may 1999, Medford, NJ, USA, pp. 251, 262.

H. Kim, H. Chang, Martha E. Williams, Building an XML and Web-based document retrieval system, 20th annual national online meeting,18-20 may 1999, Medford, NJ, USA, pp. 251, 262.

C. Lecluse, Quelle architecture mettre en place pour tirer profit de XML ?, Forum sur la gestion de documents électroniques, 5-9 mars 1999, Paris, France, 11 p.

[4] Lubkov M., Thesaurus de la banque d’information politique et d’actualité de la documentation française, La documentation Française, Paris, 1983. 275p.

M. Mann, R. Robishon, HTML standards-history and future, Annual NASIG Conference june 13-18 1999, Boulder, Colorado, USA.

I. Mardhall, M. Fry, L. Velasco, A. Ghosh, Active information networks and XML, IWAN'99 Active networks International Conference, 30 june - 2 july 1999, Berlin DEU.

P. Martin, P. Eklund, Embedding knowledge in Web documents: CGs versus XML-based metadata languages, ICCS'99, International conference on conceptual structures, 7-12 july 1999, Blacksburg, VA, USA.

[3] P. Martin, P. Eklund, Embedding knowledge in Web document, Proceedings of the Eighth International World Wide Web Conference, 11-14 may 1999, Toronto, Canada, pp. 1403-1419.

Perkowitz M., Etzioni O. (1998) Adaptive Web Sites: Automatically Synthesizing Web Pages. In: Pro-ceedings of the Fifteenth National Conference on Artificial Intelligence, 1998.

[6] Perkowitz M. and Etzioni O. "Towards Adaptive Web Sites: Conceptual Framework and Case Study."

Proceedings of WWW8. 1999.

C. Sherman, The future of Web search : Search Engine Section, Online, vol 20, n° 3, 1999, pp. 54-61, Weston, CT, USA.

T. Shimura, M. Yoshikawa, S. Uemura, Storage and retrieval of XML documents using object-relational databases, DEXA'99, Database and expert systems applications, 30 august-3 september, Florence, Italia, pp.

206-217.

Y. Stern, Documents électroniques : les dix grandes tendances, Forum sur la gestion de documents électroniques, 5-9 mars 1999, Paris, France, 9 p.

P. Urso, J. Faure, Le XML pour structurer la recherche d'information, Technologie internationales, N° 54, 1999, pp.23-26, Strasbourg, France.

[1] C. Vandendorpe, Du papyrus à l’hypertexte : essai sur les mutations du texte et de la lecture, Ed. La découverte, Paris, 2000, pp 113-138.

Références

Documents relatifs

[r]

[r]

La PDG du CISSS de Laval, les personnes en autorité dans l’établissement ainsi que le personnel concerné doivent prendre connaissance du plan de mobilisation et s’assurer

Madame Caroline Barbir a annoncé avec fierté que le CISSS de Laval s’est vu remettre une mention d’honneur dans la catégorie « Développement durable » pour

Madame Josée Blanchard, présidente locale de l’Alliance du personnel professionnel et technique de la santé et des services sociaux (APTS), a interpellé le CA

La présidente-directrice générale a informé les membres du CA que, conformément au Règlement sur la procédure de désignation de certains membres du conseil

Le 16 janvier 2018, le ministre de la Santé et des Services sociaux, Gaétan Barrette, était de passage à l’Hôpital de la Cité-de-la-Santé pour procéder à l’inauguration

Afin de répondre aux exigences de services pour la population du territoire, un plan clinique a été élaboré pour prévoir les développements et guider les architectes