Aide au référencement d'un site web

(1)

HAL Id: dumas-01549149

https://dumas.ccsd.cnrs.fr/dumas-01549149

Submitted on 28 Jun 2017

HAL is a multi-disciplinary open access

archive for the deposit and dissemination of sci-entific research documents, whether they are pub-lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Aide au référencement d’un site web

Annie Frarin

To cite this version:

Annie Frarin. Aide au référencement d’un site web. Sciences de l’information et de la communication. 2000. �dumas-01549149�

(2)

Annie FRARIN

MAITRISE

SCIENCES DE L'INFORMATION ET DE LADOCUMENTATION

AIDE AU REFERENCEMENT

D'UN SITE

WEB

Rapport

de

stage

Stageeffectuédu

1erfévrier

au 30juin2000auservice de l'Ingenierie éducative et

documentaire du Centre_{régional de documentation}_pédagogique_{du Nord Pas-de-Calais,}

3rueJean BartàLille

Sous la direction de:

Madame C. VanLancker_responsable_{universitaire}

Monsieur P Fernandez_{responsable professionnel}

Université Charles de Gaulle Lille 3

UFRIDIST octobre 2000

(3)

Annie FRARIN

MAITRISE

SCIENCES DE L'INFORMATION ET DE LA DOCUMENTATION

AIDE AU

REFERENCEMENT D'UN SITE WEB

Rapport

de

stage

Stage effectué du

1erfévrier

au30juin 2000auservice de l'Ingenierie éducativeet

documentaire du Centre_{régional de documentation pédagogique du Nord}_{Pas-de-Calais,}

3rueJean Bart àLille

Sous la direction de:

MadameC. VanLancker_responsable _{universitaire}

Monsieur P. Fernandez_{responsable professionnel}

Université Charlesde GaulleLille3

(4)

Remerciements à

MmeChristine Van

_Lancker,

pour ses

conseils

et sa

disponibilité

Mme

_{Sylvie Prieux}

_et

_Mr

_{Pierre Fernandez,}

_pour

_{leur accueil}

_et

_{leur aide}

(5)

TABLE DES MATIERES

I. LE_STAGE, BESOINS, RAISONS, OBJET p. 1

I.1 Le lieu p. 1

1.1.1 L'institution,ses missions, son public p. 1

1.1.2 Leservice concerné, ses missionsspécifiques p. 2

I.2 Le moment et lademande p. 4

II. ETAT DE LAQUESTION DU REFERENCEMENT: DES PISTES POUR FAVORISER L'ACCES

AL'INFORMATION p. 5

II.1 Outils de recherche _p. ₆

11.1.1 Les outils_généraux p. 6

Moteurs etannuaires _p. ₆

Evolutions decesoutils _p. ₉

11.1.2 Lecatalogagedes ressources p. 11

11.1.3 L'identificationdes ressources _p. ₁₆

11.1.4 Les microstructures _p. ₁₇

11.1.5 Le_filtrage_{d'informations} _p. ₁₈

11.2 La _{recherche par}_{l'utilisateur} _p. ₂₀

11.2.1 Utilisation de mots-clés p. 20

11.2.2 La normeZ 39.50 p. 21

11.3 Leréférencement des sites _p. ₂₂

III. APPLICATIONS DE CES RECHERCHES AU SITE p.23

111.1 Miseen _{place d'une recherche-type} _p. ₂₃

111.2 Lancement des_{recherches, évaluation des résultats} _p. ₂₉

111.3 _{Propositions de modifications} _p. ₃₀

111.4 Mise à_{jour du} _{référencement et résultats} _p. ₃₁

IV. CONCLUSION p. 37

BIBLIOGRAPHIE p. 39

(6)

I. LE _{STAGE, BESOINS, RAISONS, OBJET} 1.1 Le lieu

1.1.1 _{L'institution,} _ses _missions, _son _public

Le lieu de mon _stage, _{le CRDP (Centre régional} _{de documentation}

pédagogique) du Nord Pas-de-Calais, est un des vingt-huit établissements

publics nationaux à caractère administratif faisant partie du réseau des

Centres de documentation _{pédagogique,} _le _{CNDP (Centre} _{national de}

documentation _{pédagogique, organisme à caractère administratif,} _sous _la

tutelle du ministère de l'Education _nationale) _{étant le pilote de cet ensemble.}

La mission des CRDP est la mise à _disposition _auprès _de _son _public

prioritaire, les enseignants, d'une part, de documentation administrative

(textes réglementaires, programmes, etc.), et d'autre part, de ressources

pédagogiques et didactiques multimédias, et ce à travers des services d'édition, de documentation (vente, prêt, consultation de documents, aide à

la _recherche), _{d'ingénierie éducative (formation à la recherche} _et _{à l'outil}

Internet, présentations et analyses de logiciels didactiques).

Une _enquête _sur _les _{activités des CRDP} _en _1998, _impulsée _par _le _ministère

de l'éducation _nationale, a été analysée et a fait apparaître le manque

d'utilisation, par les enseignants, des ressources documentaires offertes par

le réseau des centres de documentation _pédagogique _{; sur} _l'académie _de

Lille, qui est la plus importante académie de France en nombre

d'enseignants, l'ensemble des cinq médiathèques académiques a le plusfort

tauxde _{prêts de documents} _sur _{l'ensemble des} _{médiathèques pédagogiques}

nationales _(ratio _de _prêts _par _inscrits _: ₂₅ _{par an,} _{187497 prêts/an),} _et

cependant, elles ne touchent « que » 6% de l'ensemble des enseignants du

Nord Pas-de-Calais ; même si l'on double ce nombre pour prendre en

compte ceux qui ne fontque consulter ces mêmes ressources (qu'on ne peut

donc _{comptabiliser à} _travers _une _{inscription),} _on _est _encore _bien _{loin du}

compte, surtout lorsque l'on sait qu'à peu près la moitié du public qui

(7)

sciences de l'éducation ou en formation à l'IUFM _{(Institut Universitaire de}

Formation des _{Maîtres), donc}_{potentiellement futurs enseignants}

Il est certain _que _l'étendue _des _{deux départements} _{constituant cette}

académie _explique _une _{partie des} _difficultés _{qu'ont les enseignants} _à _venir

sur des lieux de documentation _{proportionnellement} _peu _{nombreux (trois} _sur

le _{Nord, deux} _sur _le _{Pas-de-Calais)} _: _{la distance, mais aussi les horaires} _et

jours d'ouverture sont une raison de la défection de ce public.

Aussi l'accès distant aux ressources ou à leur _signalement _{pourrait être} _une

réponse apportée à ces problèmes de distance, de temps et de disponibilité qui se posent à nombre d'entre eux, ainsi qu'un moyen d'améliorer la

connaissance des outils _{pédagogiques} _{disponibles, puisqu'il permet (au}

moins en _théorie) _{de toucher d'une part tous les} _{établissements} _{scolaires via}

Internet et la _messagerie _{électronique,} _et _{d'autre part les enseignants}

eux-mêmes en tant _que _{pratiquants individuels d'Internet.}

Cependant, mettre à disposition ne suffit pas, loin de là, surtout au milieu de la _{profusion d'informations disponibles} _sur _Internet _; _{il faut signaler cette}

information, la rendre repérable, il faut être sûr que le public concerné arrive

à la retrouver.

C'est dans ce _{questionnement qu'il m'a} _{semblé intéressant} _d'entrer _: _{la mise}

à _disposition _{à distance} _de _ressources _résout-elle _pour _autant _le _problème

d'accès à ces mêmes ressources?

De là découlait une recherche sur la structuration de l'information sur

Internet : comment accède-t-on à _{l'information,} _par _quels _moyens, _comment

est-elle mise à _disposition _?

1.1.2 Le service _concerné, ses missionsspécifiques

Le _CRDP, _{avec ses} _cinq _centres _implantés _dans _l'académie _(Dunkerque,

Lille et Valenciennes _pour _le _département _{du Nord, Arras et} _Outreau _pour _le

Pas-de-Calais), a mis en place des outils pour répondre à (ou anticiper) toute

recherche documentaire de son _public _:

- des services

proposés localement, sur place, comme les catalogues

(8)

productions en vente, proposant ainsi aux enseignants le prêt et/ou

l'achat de documents ; mais aussi la consultation ou la vente de textes

officiels, de programmes disciplinaires, de rapports de jury ; et aussi des

documentalistes _pouvant_aider_tout _usager _{à faire} _une_recherche _à _travers

différents outils _{(allant du catalogue} _interne _au _centre _{concerné à des}

bases _{bibliographiques externes,} _en _passant _par _la _{consultation du site}

web du _{CRDP, qui offre} _{différentes pistes} _pour _trouver _de _{l'information,}

et/ou de sites _{distants pour} _compléter_celle-ci)

- des services

proposés à l'extérieur (accessibles depuis n'importe quel

ordinateur _individuel, _et _plus _{particulièrement} _{dans les centres de}

documentation et d'information des établissements _scolaires) _à _{partir du}

site web du _{CRDP, qui} _va _{pointer les} _différents _{services fournis} _par _le

centre _pouvant _{être utiles à} _son _{public ( dont} _l'accès _aux _{catalogues des}

médiathèques afin de localiser des documents et des pages « _thématiques _» _par _{disciplines d'enseignement ), et} _{des sites pertinents} pour les enseignants (ministériels, académiques, CNDP, ...).

A l'intérieur du _CRDP, un de ses services, celui de l'ingénierie éducative et

documentaire _(IED) _{a pour} _{mission plus} _{spécifique d'assurer} _un _{rôle de}

service conseil et _d'expertise _dans _le _domaine _de _{l'informatique}

pédagogique, en passant par des animations autour de thèmes et d'outils

liés à l'information _{électronique,} _en _participant _à _la _formation _des

enseignants-documentalistes de l'académie ; il gère également la mise à jour du site web.

Ce site existe _{depuis 1996.} _Son _adresse _a _d'abord _été

http://www.univ-lille1.fr/~puel/CRDP/homecrdp.html. _puis _{http:// nordnet.fr/crdp.} _ensuite http://www.ac-lille.fr/crdp. _{sous-catégorie} _{du site de} _{l'académie de Lille,} _et

dernièrement http://crdp.ac-lille.fr.

La _{création des pages}_{web du site,} _sa _maintenance _et _sa _mise _{à jour} _ont _été

assurées_{jusqu'à présent} _par_deux _personnes, _dont _une _{à mi-temps.}

Le site a été _envisagé _au _départ _{comme un} _moyen _de _{présenter les}

différents services internes du _{CRDP, susceptibles} _{d'intéresser} _un _public

enseignant ; on y trouve donc beaucoup de pages descriptives. Des pages

spécifiques pour l'enseignement de certaines matières y ont été créées afin d'apporter des pistes pédagogiques et des aides aux enseignants concernés.

(9)

Les _pages _web _ont _{été créées à} _{partir du} _{logiciel FrontPage} _par _des

personnes « techniciennes », ayant la connaissance du logiciel en question

et des _{impératifs liés} _aux _signalements _{de sites et à leurs changements} _(voir le _chapitre _sur _le _{référencement} _de_sites).

1.2 Le moment et la demande

Cependant aucun travail sur la façon dont le site peut répondre à une

demande _d'usager _dans _le _{cadre de services documentaires n'avait} _pu _être

mis en _{place, et le} _{positionnement} _des _pages _du _{site dans} _une _{liste de}

réponses pouvait aider à évaluer la pertinence du signalement qui en avait

été fait. Ma _{proposition d'y} _consacrer _{du temps lors d'un stage} _a _de _ce _fait

fortement intéressé les « webmasters » qui n'avaient jamais _pu _aborder _ce

sujet.

Par _ailleurs, _{je m'étais moi-même intéressée, à} _travers _la _recherche

documentaire sur Internet _(moyens _de _{recherche des} _usagers _{et types de}

réponses reçues), aux signalements des sites Web et des documents contenus dans _ceux-ci, _et _en _particulier _{à l'utilisation} _{possible d'une}

indexation documentaire dans ce cadre.

Arrivant à un moment où le site du CRDP était en _pleine _{restructuration, la}

période de stage pouvait permettre d'observer la « fabrication » des pages du _{site, puis} _{de faire} _des _recherches _sur _{le web quant} _à _la _possibilité _de

retrouver le contenu de _celles-ci, _{en se} _plaçant _en _tant _que _{public particulier} _;

à _{partir des observations faites,} _on _{pouvait alors} _proposer _des _{ajouts, des}

modifications, afin d'améliorer le positionnement des pages du site lors de

recherches _{documentaires,} en _s'appuyant sur l'évolution des outils d'aide à

la recherche informatisée.

Pour ce _faire, _on _{fera donc} _un _{rapide tour d'horizon de} _ces _{outils afin d'en}

(10)

II. ETAT DE LAQUESTION DE LA RECHERCHE SUR INTERNET : DES

PISTES POUR FAVORISER L'ACCES A L'INFORMATION

La recherche d'informations ne date certes _pas _{d'aujourd'hui. On} _trouvera _un

exemple intéressant sur les pratiques de Voltaire (1694-1778) en la matière

dans un article de _{Jean-François} _{Cerisier (voir} _{bibliographie),} _{où, à} _travers _le

travail d'une étudiante de maîtrise de sciences de _{l'information,} on découvre

que l'écrivain, maîtrisant les outils d'accès à l'information et aux documents (tels que répertoires, catalogues, etc.), avait une démarche d'appropriation

de l'information et un réseau d '« informateurs » lui _permettant _de _compléter

ses connaissances.

Cette démarche reste _{toujours valable.} _Seulement, _avec _{l'arrivée de}

l'informatique, la quantité d'informations créées, stockées et pouvant être

interrogées, a connu une croissance énorme, et les outils d'accès à

l'information ont dû tenir _compte _{de cette} _masse.

Cependant tant que l'on accédait à des catalogues ou des banques de

données_{structurées,} _on _restait _{dans la} _{rigueur des} _systèmes _{documentaires.}

Le contenu du document était décrit sous une forme _{synthétique (la} _notice)

par son auteur ou un spécialiste du traitement de l'information, garantissant

ainsi une _{homogénéité de la} _{présentation} _des _documents _{à travers}

l'utilisation de _{règles particulières} _{(normes) et} _le _{choix de} _mots-clés

appropriés. La recherche dans un système informatisé pouvait alors se faire

surcertains critères _{prédéterminés} _de _ces _{notices, choisis} _en _{fonction de leur}

pertinence (tout comme les fiches de catalogage des catalogues de

bibliothèques) permettant d'accéder au document lui-même ou non. En

complément il était possible de rechercher sur le texte du document

lui-même , permettant alors d'enrichir la technique booléenne de recherche sur

les notices _(ET, _{OU, SAUF)} _par _{des fonctions de recherche} _sur _{le texte}

lui-même _(opérateurs _de _proximité, _{recherches dans} _un _paragraphe, _une

phrase, ...), parfois couplées à des techniques, statistiques et linguistiques

essentiellement, permettant de réduire le bruit ou le silence liés à la

recherche en texte _intégral.

Sur _{Internet, plus} _d'accès _« _normalisé _» _au _{document, l'information} _est

(11)

accessibles en _{ligne et la vitesse de croissance de} _ce _{même volume} _ont _fait

qu'il est impossible pour un usager d'accéder à l'ensemble des informations

l'intéressant sans l'aide d'outils _appropriés _à _cette _recherche.

11.1 Outils de recherche

11.1.1 Les outils _généraux

Moteurs et annuaires

Il existe à la base deux _types _{d'outils fonctionnant soit} _en _{interrogation}

directe sur le contenu du _{document, soit} _en _{interrogation} _par _mots-clés. _Il _y _a

donc deux_types _d'approche _:

- la collecte

automatique suivie de l'indexation également automatique de

ressources à l'aide de robots de recherche _{(« crawler} _» _ou _« _{spider »)} _: _ce

sont les moteurs de recherche.

- la constitution de

répertoires organisés avec une validation, une

classification humaine des ressources et une indexation _automatique _sur

des zones _{particulières} _: _ce _sont _{les annuaires} _ou _{répertoires.}

Dans le _premier cas, l'usager pose une requête sous forme d'une liste de

mots _séparés _par _des _opérateurs _implicites _ou _{choisis et le} _moteur _cherche

en texte _intégral _sur _{le contenu des} _pages _{HTML (HTML} _ou _HyperText

Markup Language est le langage de description des pages web, qui permet

de structurer leur _{présentation} _et _{d'en décrire} _un _{minimum le contenu). Dans}

le second cas, l'usager peut poser une requête sur un index limité qui

interrogera en fait sur les descriptions des sites et les titres de catégories, il peutaussi naviguer dans l'arborescence de la classification.

Les annuaires _{signalent les sites dans leur ensemble (en pointant} _vers _leur

page d'accueil), alors que les moteurs traitent indistinctement toutes les

pages qu'ils rencontrent, même si elles proviennent du même site.

Quelques précisions :

Les robots:

Les services comme Alta Vista ou Excite se _décomposent _en _{3 modules}

(12)

qui passe son temps à demander des copies de pages html), le module

d'indexation _(au _sens _constitution _de _fichiers _inverses), _{le module de}

recherche d'information _gérant _{aussi l'interface} _avec_l'usager.

Choix des sites _explorés _: _cette _stratégie _est _{variable mais} _très _souvent _on

utilise les pages " What's new ", des classements de sites très demandés, les

déclarations _spontanées _{des auteurs mais} _également _une _exploration

aléatoire en _{privilégiant} _les _URL _courts.

Contenus indexés : très variable. On _peut _indexer _les _pages _{entières (ex} _:

Altavista), les titres html, les premiers paragraphes et les liens (ex : Lycos).

L'exploration des liens en profondeur et en largeur peut varier également.

Cette indexation est associée à une _pondération _{des mots qui tient compte} _à

la fois de critères de _{fréquence mais aussi de l'encodage HTML, ainsi les}

mots des titres _(balise _ou _tag _title _en _{langage HTML) reçoivent des poids}

plus importants.

Il faut aussi _souligner _{l'utilisation des} _{métadonnées} _{d'indexation (dans les}

balises _HTML) _{fournis directement} _par _{l'utilisateur} _sous _{forme d'une liste de}

mots-clé et d'un résumé. Certains robots vont utiliser ces données _pour

indexeret surtout _pour _{afficher le descriptif du site. Cette indexation} _{laissée à}

l'auteur n'est absolument _pas _normalisée _{et peut} _{subir des} _{dérives facilement}

identifiables _(du _genre _répéter _x _{fois le} _même _mot _clé _pour _donner _un _poids

très fort à la ressource en fonction de ce mot _{clé). Certains} _robots _vérifient _un

minimum ce _type _de _dérive.

La _{production et} _{l'analyse de} _ces _champs _{métadonnées} _ne _sont _cependant pas généralisées.

Utilisation : _pour _{utiliser les robots, il faut connaître la syntaxe du langage}

d'interrogation. Un guide en ligne est toujours disponible. Les interfaces

présentent généralement 2 modes d'interactions:

*

un mode _{simple visant l'utilisateur final} _{: on} _donne _une _{liste de mots et le}

système retrouve des documents répondant "au mieux" à cette liste selon

des _algorithmes _peu _explicités _{mais qui tiennent compte} _{de la} _{localisation, de} la _{proximité et de l'occurrence des} _termes. _{La troncature} _{à droite est souvent}

implicite.

*

(13)

entre les termes de sa _{question et} _{éventuellement orienter la} _pondération

des documents retrouvés.

L'utilisateur doit se _{rappeler quelques} _{règles de} _base _qui _tendent _à _se

généraliser

- utilisation des

guillemets (") pour spécifier une expression

- utilisation

d'opérateurs de présence (+) ou l'exclusion (-) absolue de termes

- tester la sensibilité _ou _non _aux caractères accentués et à la

casse

majuscule/minuscule des caractères.

Avantages pourl'usager: compte tenu de l'automatisation du processus, les

robots sont les outils _ayant _la _couverture _la _plus _exhaustive _de _l'espace

public Internet, la mise à jour est rapide. L'interaction est simplifiée. Mais les

réponses sont hétérogènes, les doublons ne sont pas détectés, le bruit peut

être considérable.

Les_{répertoires validés} _ou_annuaires _:

Ce sont des inventaires _thématiques _de _ressources _{organisées selon} _une

classification. Ces ressources sont aussi indexées sur certaines zones. Ces

répertoires couvrent de nombreuses thématiques.

Choix des sites _{explorés: la majorité des} _ressources _recensées _sont _des

ressources déclarées _par _les _auteurs _et _validées _par _les _{responsables du}

répertoire. Des collectes automatiques peuvent assister éventuellement ce

travail de recensement.

Contenus indexés : contrairement à _{l'approche robots,} _on _{indexe ici des}

zones limitées _(URL, _titres, _{résumés éventuels} _fournis _par _l'auteur,

commentaires des _{administrateurs, titres des rubriques} _thématiques _{de la}

classification).

Utilisation : l'utilisateur _peut _soit _naviguer _en _empruntant _{la classification}

prévue, soit formuler des équations de recherche sur une partie de la

classification. Il faut aussi _{comprendre la syntaxe des} _requêtes _pour _contrôler

sa recherche.

Avantages pour l'usager : l'intérêt majeur de cette approche est la valeur

ajoutée humaine (contrôle, validation, organisation) qui limite ainsi le bruit

des _réponses. _{La classification des} _ressources _{permet de} _{répondre à} _des

requêtes de type exploratoire sur une thématique. Par contre, la couverture

(14)

Cependant, il devient de plus en plus difficile de faire la différence entre ces outils, d'autant plus que les annuaires sont souvent alliés à des moteurs de

recherche pour leur permettre de répondre à des requêtes trop spécifiques

pour être dans leur propre base de données, tandis que les moteurs de

recherche _peuvent _{être associés à} _{des annuaires} _pour _{leur permettre de}

localiser des informations commerciales _par _exemple, _très _difficiles _à

localiser par mots-clés dans des documents indexés en texte intégral. Cette

mixité _peut _être _illustrée _par _{celle de} _{Voilà, où la recherche} _est _dégrossie

dans l'annuaire _{puis sont fournies les} _réponses _{du moteur.}

Pour _approfondir _{la question,} _on _trouvera _{des informations entre} _autres _sur _le

site d'Olivier Andrieu et dans le document de Jean-Pierre _Lardy _cités _{dans la}

bibliographie.

Evolutions de ces outils

Avec la _{pression concurrentielle,} _ces _outils _ont _évolué _vers _la

« _{portalisation} _», _{transformant les sites des outils de navigation} _en _« _galeries

marchandes _», _en _essayant _de _proposer_à _{l'utilisateur les produits convenant}

le mieux à son _{profil et} _en _{lui offrant de multiples services pratiques afin de le}

fidéliser. Le _concept _de _« _métaportail _» _{vient même s'ajouter} _à _{cela (venant}

des _Etats-Unis, _l'un _d'eux, _« _consacré _aux _{professionnels de l'information} _»,

vient _{d'apparaître} _en _France _: _{http://www.drapo.com/indexfr.html),} _proposant

à _l'usager_{d'interroger différentes} _{bases de données accessibles directement}

sur la barre de menus _(sites _{des professionnels de l'information, listes de}

diffusion, mais aussi moteurs de recherche, sites de vente d'ouvrages) tout

en _gardant _sa _{recherche initiale.}

Certains moteurs _{cependant restent} _non _accessibles _au _public

(comme Inktomi qui loue ses fonctionnalités et ses bases à des clients

comme _Yahoo!, _{AOL, Hotbot} _ou _Nomade _par _exemple)ou _«purs», _en

contrepoint des « portails », mettant en avant la recherche (ainsi Google,

AIITheWeb, mais aussi Raging lancé par Altavista, qui a le même moteur et

la même _{base, mais} _dont _l'interface, _{dépouillée,} _est _{beaucoup plus rapide),}

s'adressant ainsi aux chercheurs et non _plus _au _grand _public. _Parmi _eux,

(15)

peu à peu par les autres outils ; ainsi certains essaient d'analyser le

comportement de leurs visiteurs à travers « l'indice ou l'analyse de clic(s) » :

si l'utilisateur revient directement sur la page _des _{résultats après} _avoir _cliqué

sur un _{lien, le} _moteur_en _conclut _que _{le contenu du site} _ne _{correspondait} _pas

à son attente et _que _{l'association entre les} _{mots-clés utilisés} _{dans la} _requête

et ceux du site _{n'est pas} _{bonne, le site est alors} _rétrogradé _{dans le}

classement des résultats. Ce _type _d'étude _peut _{être doublé} _d'une _analyse

des liens : _{plus le nombre de sites traitant d'un sujet similaire et pointant} _vers

une _page _est _{grand, plus la} _{page a} _{des chances} _{d'être pertinente}_{sur un} _sujet

(« indice de popularité ») ; pour contourner le problème du « spamming » (créer de multiples fausses pages qui pointent vers une page pour optimiser

son _{classement), certains moteurs} _comme _Google _{calculent la popularité à}

deux niveaux : seront mieux classées les pages vers _{lesquelles pointent des}

pages elles-mêmes populaires.

Une autre direction est celle du « moteur de _questions _» _{(tel Ask}

Jeeves) : le moteur va chercher dans sa base de données de questions

préalablement définies celle qui se rapprochera le plus de celle de l'usager,

et lui ramènera les _{réponses déjà trouvées} _{(Ask Jeeves} _a _d'ailleurs _été

intégré dans Altavista en complémentarité de ses résultats).

D'autres _encore, _tout _en _proposant _{des listes de liens} _vers _des _pages

Web _{susceptibles de correspondre} _à _{la demande de} _l'usager, _rangent

également ces pages dans des dossiers, qu'il est alors possible d'ouvrir et

d'organiser(NorthernLight).

Les métamoteurs _interrogent _en _parallèle _{plusieurs moteurs} _de

recherche et _annuaires, _et _{fusionnent leurs} _résultats _: _cela _peut _être

intéressant, puisque chaque moteur n'a dans sa base de données qu'une

petite partie des documents disponibles sur le Web (30% d'après les études

faites) ; en les regroupant, on aura sûrement plus de références de pages, mais reste le _problème _de _{l'interrogation} _avec _la _même _syntaxe _alors _que _l'on

sait que la façon d'interroger n'est pas la même sur tous les moteurs, et de la

synthèse de résultats de moteurs qui n'ont pas les mêmes critères de pertinence.

Les outils _appelés _« _agents _intelligents _» _peuvent _{désigner les}

(16)

compte de l'indice de popularité, mais aussi d'autres logiciels qui eux aussi profitent de l'apport de la recherche en ingénierie linguistique et statistique :

ainsi Altavista utilise la _technologie _Cow9 _dans _sa _{fonction Refine (un tri}

statistique des termes posés est fait parmi les pages issues de la recherche

et un _regroupement _par _paquets _ou _{clusters, définis} _par _{des séries de mots,}

est fait _; _cette _fonction _révèle _autour _{des termes de la recherche les réseaux} des mots _{utilisés, il} _est _donc _possible _d'affiner _sa _question _avec _{des termes} plus précis. A l'heure actuelle, des outils, qualifiés d'agents de recherche

d'informations ou _{d'agents de filtrage, sont utilisables dans} _un _{contexte hors}

ligne et permettent d'assurer globalement de façon plus ou moins automatique ces quatre grandes fonctions :

-l'analyse de la question de l'utilisateur

-l'analyse des résultats de recherche

- le

rapatriement des informations sélectionnées pour en dégager

l'information _pertinente

- le

filtrage et la mise à jourdes résultats.

Ainsi _{DigOut4U(société} _{Arisem) exploitant les traitements} _{linguistiques}

(http://www.arisem.com). _{lnformationMiner4U, qui le} _complète, _travaillant _sur

les _profils _de _recherche, _et _Class4U _permettant _de _constituer _une

classification _{conceptuelle, tout} _comme _{UmapWeb (société} _{Trivium) et}

Sampler TM (société Cisi) (http://www.trivium.fr; http://www.cisi.fr).

11.1.2 Le _{catalogage des} _ressources

Les _{professionnels de l'information, les chercheurs} _{apprécient sûrement}

l'évolution de tous ces outils _; _{néanmoins, l'utilisateur} _non _averti _ne _sait _pas

obligatoirement les utiliser et obtient des résultats souvent insatisfaisants,

dûs à _plusieurs _raisons _:

-beaucoup de « bruit », généré par une indexation informatique en texte

intégral sur du texte non structuré sémantiquement. En effet, les données

présentes sur le réseau sont décrites à l'aide d'un langage très simple, le

langage HTML, qui précise la structure et la mise en forme de l'écrit et permet d'inclure des éléments extérieurs (images, sons, vidéos...), et ce à

(17)

rend pas compte de la structure du texte lui-même ni de son « intelligence », et _mélange _{les descriptions des structures} _logiques _et _de _simples _éléments

de mise en _page. _On _a _vu _que, _néanmoins, _{les outils de recherche cherchent}

à limiter le bruit à travers des _{algorithmes de} _pondération _en _présentant

d'abord à _{l'usager les} _ressources _{où les termes de} sa question apparaissent

fréquemment et dans des zones telles que les champs title HTML.

- l'instabilité des

ressources : les adresses _changent _{sans que} _{les index des}

outils soient mis à _jour _en _{conséquence.}

-le manque d'identification des ressources : pas de date de création, pas de

nom _d'auteurs, _pas _{d'information} _générique _sur _{le contenu...} _{Lors du}

référencement de son _{site, le concepteur peut soumettre} _un _{résumé auprès}

des _{annuaires, mais} _{ce ne} _sont _en _général _que _{quelques lignes succinctes,}

et _qui _{n'apparaissent} _pas _toujours _en _entier _{lorsque l'adresse} _du _site apparaît.

-l'hétérogénéité des ressources trouvées : l'élément de base est un fichier

HTML et l'utilisateur n'a aucun _moyen _{de spécifier}_qu'il _ne _{s'intéresse qu'à} _un

certain _type _d'objet, _par _{exemple uniquement à des} _{cours ou} _{à des articles.}

Pour _{pallier à} _ces _types _de _problèmes, _plusieurs _solutions _ont _été

envisagées :

-comme on l'a _vu, _{certains robots proposent des algorithmes statistiques de}

regroupement des ressources pour fournir à l'utilisateur une certaine lecture

des _réponses _: _on _{présente des agrégats de} _ressources _partageant _de

nombreux termes et l'utilisateur _peut _reformuler sa question en sélectionnant

ou en éliminant des termes _proposés _dans _ces _agrégats. _{Alta Vista} _propose

ce _type _de _{fonctionnalité} _{automatique appelée " Live} _{Topics ". Ceci} _ne _résout

qu'en partie le problème du bruit et n'apporte pas de solutions aux autres

points soulignés précédemment. La fonction est cependant appréciable

comme aide à _{l'exploration d'une} _thématique, _elle _ne _nécessite _pas d'intervention humaine.

- _une autre

approche est l'élaboration par un être humain de descriptions des

ressources _{qui sont} _appelées _{des metadata.} _Ces _{metadata sont} _plus

complètes que les tags que nous avons évoqués pour l'indexation effectuée

(18)

des _{répertoires.} _{On rejoint la fonction classique de catalogage} _effectuée _par les _{bibliothèques.}

Les metadata ou métadonnées sont des données structurées sur les

données, qui vont aider à l'identification, à la description et à la localisation

des ressources sur le réseau. Elles sont véhiculées _par _un _{langage de}

description de pages web qui est en train d'évoluer : le HTML , qui était

lui-même une version « _simplifiée _» _du _{SGML (Standard} _{Generalized Markup}

Language), commence à être remplacé par le XML (eXtended Markup

Language), avec à ses _{côtés le XHTML, normalisé fin janvier 2000} par le

W3C _{(World Wide Web Consortium} _: _regroupement _{de compagnies qui}

préside au développement du World Wide Web), couplant la puissance du

XML et la _{simplicité du HTML, et permettant de} _{conserver une} _{compatibilité} entre la_production _éditoriale _existant _sous _{HTML et celle qui} _naît _sous _XML. Un _{cadre, reposant} _{sur une} _structure_XML, _va _{recevoir les} _{métadonnées des}

documents : c'est le RDF _{(Resource Description} _Framework) _: _{le RDF est} _un

ensemble de conventions _qui _supportera _{l'interopérabilité} _entre _des

applications qui échangeront des métadonnées. La syntaxe sera exprimée

en _{langage XML mais la} _sémantique _sera _définie _par _{les besoins des}

usagers. C'estun cadre : il peut donc recevoir toutes sortes de métadonnées

(même celles à venir !) et même emboîter plusieurs standards de

métadonnées.

Dans le modèle _RDF, _{les métadonnées peuvent} _être _{associées à} _la

ressource de _quatre _manières _différents _:

• encapsulées _{dans la} _ressource _{(« embedded}_»)

; dans ce cadre, deux

standards _{principaux ont} _{été définis} _:

le _projet _{TEI (Text encoding} _initiative) _{qui s'est} _concrétisé _{par une} _DTD

(Définition de type de document) SGML, et qui s'applique à chaque

document _{électronique encodé} _{selon la DTD et définit} _pour _chaque

unité documentaire _{électronique} _un _{en-tête obligatoire comportant les}

métadonnées. Un des _{chapitres de la TEI P3(Public proposai number}

3) est consacré auxcitations et références bibliographiques, et précise

quelles sont les balises à retenir pour la description bibliographique

(19)

la DTD _HTML, _définie _pour _{la structuration des} _pages _{Web de}

l'Internet, sur laquelle ont travaillé des communautés d'utilisateurs afin

de standardiser les _types _de _{métadonnées.} _De _là _a _été _{créé le Dublin}

Core _(DC), _qui _prévoit _{l'utilisation de} ₁₅ _balises _pour _décrire « _{bibliographiquement} _» _{une ressource} _{électronique (10)} _; _c'est _une

norme servant à la _{description des} _{ressources sur} _Internet, _ses

éléments sont _optionnels, _{répétables,} _elle _est _{interdisciplinaire,}

internationale et extensible _{grâce à} _{l'ajout possible de sous-éléments}

dans _chaque _élément. _Exemple _: _dans _l'élément _« _Creator _» _on _peut ajouter « Given Name », « Surname», « Affiliation », « Contact Info »,

etc. Différents _projets _importants _commencent _à _utiliser _cette

standardisation _(voir _les _liens _rassemblés _par _l'IFLA _sur _le

sujet :http://ifla.inist.fr/li/metadata.htm) et des sites ont mis en place

des métadonnées selon le Dublin Core : ainsi celui de la _{Bibliothèque}

nationale _française _{(http://www.bnf.fr)} _ou _{celui de} _coopération _entre

sites Web en bibliothéconomie et sciences de l'information Sitebib

(http://www.abf.asso.fr/sitebib).

• _externes à la _ressource mais fournies _avec elle dans le mode de transfert

de la _{réponse à} _une _{recherche d'information (« along-with »)}

• utilisées _séparément

de la ressource pour une recherche d'information,

éventuellement dans des bases de données différentes _{(« service}

bureau _»). _Ceux-ci _concernent _la _description _{bibliographique} _ou

documentaire, et recouvrent les règles de description (définition des

éléments de _description _et _{règles à} _observer _pour _créer_ces _descriptifs _à

partir des informations figurant dans les ressources que l'on décrit) et les

formats de _{description (codage} _en _{machine permettant de structurer les}

données en vue de leur _exploitation _{dans des} _{systèmes d'interrogation).}

Certains se sont _{déjà adaptés} _au _contexte _des _ressources _{électroniques}

en étendant les _règles _{de description et les formats} _aux _{besoins de}

recherche et d'accès direct aux ressources _{électroniques.} _{Ainsi, le format}

MARC _(Machine _readable _{cataloging), format} _{de gestion et} _d'échange _de données _{bibliographiques} _{informatisées,} _offrent _{désormais la} _possibilité

d'indiquer la localisation de la ressource électronique, ses

(20)

accéder: les formats USMARC et UNIMARC _qui _en _sont _dérivés _ont

défini le _{champ 856} _à _cet _effet.

Et en décembre 1999, un logiciel libre XMLMARC a été lancé ; ce

programme convertit le format MARC en XML en se basant sur une DTD

détaillée _pour _les _formats _{bibliographiques} _et _d'autorité ₍

http://www.dlib.Org/diib/march00/03inbrief.html#MiLLER)

• la _ressource _est _{encapsulée dans les} _{métadonnées} _qui _la _décrivent

(« wrapped »). La DTD EAD (Encoding archivai description) a été

développée pour la structuration et l'encodage en XML des instruments

de recherche décrivant des collections _{spécialisées} _telles _que _les

archives ou les collections de _{papiers, et permet} _une _{structuration de}

l'instrument de recherche en douze niveaux _{hiérarchiques} _et

l'attachement de la ressource _{électronique à} _sa _description.

D'autres métadonnées existent ou sont en cours d'élaboration : le PICS

(Platform for Internet content sélection), permettant de classer le niveau du document, son contenu moral, le P3P codant son niveau de difficulté ou de

secret, MPEG-7 (Moving picture experts group) pour le catalogage de

documents _numériques _comme _les _vidéos, _etc.

Les métadonnées doivent _permettre _:

- de meilleures

performances dans la recherche d'informations (les

moteurs _ayant _une _structure _où _naviguer, _comme _{les champs dans} _une

base de _données)

- _une meilleure

description du contenu et des relations entre les différents

fichiers d'un site web

- la

description de collections de documents qui représentent un document

logique

- le classement du

contenu suivant un_degré _de_difficulté _{ou un} _{public cible}

- la

description des droits de propriétéintellectuelle ou d'accès à des pages web

-l'encodage d'une signature numérique pour valider lestextes circulant sur

Internet

On _peut _se _{demander aussi si} _tout _ceci _sera _{réellement respecté} _et _utilisé.

(21)

probable qu'ils puissent le faire assez vite. Les outils de recherche tels que

les robots ne _proposent _pas_à _{l'utilisateur}_d'exploiter _ce _type _de _données _pour

le moment mais ils le feront certainement dans un _{proche avenir. Il} _est

intéressant néanmoins de savoir _{quelles sont les balises} _interrogées _par _les

moteurs, et à quoi ceux-ci attribuent le plus d'importance pour ramener

l'adresse d'une _page _web _; _{pour ce} _faire, _{on se} _reportera _au _{site web}

d'OlivierAndrieu _(cf. _{bibliographie).}

11.1.3 L'identification des ressources

Des numéros ou codes d'identification des documents existent _depuis

longtemps : l'ISBN (International standard book number) pour le livre et

l'ISSN _{(International standard sériai number)} _pour _les _publications _en _série.

Ces identifiants sont _{utilisés à la fois par} _les _éditeurs _et _par _les _{bibliothèques}

et centres de _{documentation,} _d'un _côté _pour _la _gestion _de _la commercialisation, de l'autre pour la gestion des commandes et

l'identification _{bibliographique} _et _{documentaire des} _ouvrages _et _{périodiques.}

Envisagée dans le contexte du Web, cette identification doit non seulement

identifier et localiser une _ressource, _{mais aussi} _y _donner _{accès. C'est} _le

système URI (Uniform resource identifier) qui va proposer un cadre et des

règles, s'appuyantsur le dispositif suivant :

l'URN _(Uniform _resource _{name) de la} _ressource _est _{son nom} _unique _et

persistant : la ressource pourra être présente sur plusieurs sites

comme autant _{d'exemplaires. Ce numéro} _est _{résolu (c'est à dire} _qu'il

indique le ou les URL du ou des sites où on peut consulter la ressource) par une agence (agence de résolution du nom) où il est

enregistré et qui maintient lavalidité des URL.

l'URL _(Uniform resource locator) est l'adresse du site où se trouve la

ressource _{(ce lien n'est} _pas _{persistant et} _sa _validité _n'est _pas

garantie).

l'URC _(Uniform _resource _{characteristic) contient des métadonnées} _sur

la _{ressource, en} _{particulier les} _modalités _{d'accès et la gestion des} droits.

(22)

Le _{système DOI (Digital object identifie/)} _est _une _application _du _système URI : le numéro DOI est un URN au sens _Internet, _composé _d'un _préfixe

attribué à l'éditeur et d'un suffixe _{qui est} _{le numéro de} _la _ressource _chez

l'éditeur ou le détenteur des droits. Il _peut _être _un _{identifiant issu des}

systèmes existants, tel l'ISBN ou l'ISSN.

11.1.4 Les microstructures : clôture de _l'espace

On observe _également _{de nombreuses} _initiatives _pour_délimiter _l'espace _à _un

sous-ensemble de ressources utiles à une _discipline, _à _une _communauté

d'usagers partageant les mêmes centres d'intérêt.

Chaque

micro-structure

construit ses clés d'accès _{correspondant} _aux _{demandes des utilisateurs et}

aux ressources _disponibles.

Par _exemple, _{dans le domaine des} _ressources _{éducatives, différents} _acteurs

ont initié des recensements _{spécialisés} _de _ressources _utiles _{à l'enseignant}_et

à _{l'élève, l'objectif majeur} _{étant d'accroître l'efficacité} _et _{la richesse} _des

recherches de l'utilisateur dans ce domaine. Très _souvent, _les ressources ont

été évaluées et _organisées _par _{discipline et/ou} _par _{niveau de classe. Ces}

répertoires constituent des filtres permettant de guider au mieux l'utilisateur

intéressé _{par ce}_type _de _ressources. _{Par exemple} _:

Cyberscol : c'est un projet visant à favoriser l'exploitation des ressources

éducatives d'Internet et le _{développement de} _ressources _{francophones. Le}

projet est d'origine québécoise et implique différents partenaires éducatifs.

Le _répertoire _propose _{à la fois} _des _sélections _de _sites _et _des _scénarios

pédagogiques utilisant ces ressources.

URL: http://www.cvberscol.qc.ca/Accueil.htmi

Les ressources du réseau _{CNDP, CRDP} _: _sur _{les sites} _{web de} _ces

organismes, on trouve déjà certains documents pédagogiques utilisables par

les _{enseignants. Un} _projet _national _a _{permis de} _mettre _en _place _une _{base de}

données _{appelée Educasource, pilotée} _au _départ _par _la _{Direction de}

l'information _{scientifique, des technologies nouvelles} _et _des

_{bibliothèques}

_et

le CNDP. Cette base est le _{produit d'une collecte} _nationale _{des supports}

pédagogiques disponibles, l'objectif est de fournir aux enseignants une aide

(23)

des cours et les _échanges _{d'expériences.}

URL : http://www.educasource.education.fr.

Un vaste _projet _américain _dans _ce _{domaine est le} _programme _K-12 _fédérant

un ensemble de sites américainsfournissant des ressources éducatives.

On retrouve aussi le _concept _de _« _portail _», _cette _fois _non _plus _sur _{des sites}

généraux comme ceux des outils de recherche, mais sur des sites déjà spécialisés, qui vont rassembler toute l'information concernant un domaine

particulier.

Ainsi _Educlic, « portail des professionnels de l'éducation » (accessible à

l'URL http://educiic.education.fr ou à _partir _du _site _du _CNDP

(http://www.cndp.fr). mis en _place _{le 30 juin de} _cette _année _par _le _CNDP _à _la

demande du ministère de l'éducation _{nationale, dont} _{l'objectif principal} _est _de

valoriser la _production _éducative _{des acteurs publics} _ou _associatifs _sur _le

Web _français, _qui _couvre _{plus de 200} _serveurs _éducatifs, _{et permet de} _faire

une recherche _par _thèmes, _ou _directe _par _mot _ou _expression _dans

l'ensemble des documents _hébergés _par _ces _mêmes _serveurs; _il _va

également donner accès à des informations utiles aux enseignants (liste des

vidéos _exemptes _{de droits} _pour _pouvoir _{être utilisées} _en _classe, _par

exemple).

11.1.5 _{Filtrage d'informations et} _info-agents

Face à la _{quantité, à} _la _diversité _et _au _{renouvellement continuel des}

informations _disponibles _sur _{Internet, le} _marché _{des services d'information}

personnalisée se développe également dans différents domaines, correspondant à un repérage automatique. Le principe est de filtrer les

informations selon un _profil _{personnalisé} _et _de _diffuser _{régulièrement} _et

automatiquement les nouvelles informations collectées à l'utilisateur (DSI

diffusion sélective de _{l'information). Le filtre}_va _{être réalisé} _{par un} _agent, _c'est

à dire un _{logiciel qui agit} _pour _{accomplir des}_tâches _fixées _{par son} _utilisateur.

Un _agent _{va en}_{fait être caractérisé} _{par :}

- _son architecture

technique

(24)

- _son"

intelligence "(pour la définition du profil : motsfournis parl'utilisateur

ou fonction _{d'auto-apprentissage,} _pour _la _stratégie _{de recherche} _: _choix

explicite des outils parl'usagerou auto-sélection).

Il existe encoretrès peu _{d'agents intelligents, c'est} _à _{dire capable de} _prendre

des _{décisions pour} _l'usager _avec _{des fonctions} _{d'auto-apprentissage. On}

trouve, par contre, de nombreux programmes paramétrés par l'usager et

effectuant ce travail de filtres dans des domaines variés : _{filtrage des} _pages

web en fonction d'un _{profil, filtrage d'articles de} _revues _et _{magazines (comme}

les services d'alerte des éditeurs _{scientifiques), filtrage des} _dépêches _de

presse, mais aussi fonction de DSI dans certains logiciels de gestion de

bibliothèques ou de centres de documentation, grâce à laquelle le lecteur de la _{bibliothèque} _ou _{l'usager (interne} _ou _{externe) du centre peut} _être _mis _au

courant de ce _{qui existe dans le domaine qui} _l'intéresse _et _informé

régulièrement des nouveaux documents correspondants.

Concernant le domaine _éducatif, un filtrage important concerne la

non-visualisation de sites _{problématiques} _: _{pornographie, violence,} _racisme...

Rien ne _{garantit aujourd'hui qu'un} _élève _utilisant _un _{robot de recherche} _par

exemple, ne puisse visualiser ce type de ressources. Des logiciels particuliers ont été développés pour permettre de bloquer certaines requêtes

ou _empêcher _la _{visualisation de certains sites.}

Des mesures internationales sont en cours de _{développement} _comme _celles

définies _par _le _groupe _PICS _{(voir plus haut)} _{créé à} _{l'initiative du} _W3C.

L'objectif est de développer des moyens de contrôle sur le contenu en vue

de sélectionner notamment les ressources accessibles _par_{des enfants.}

Le _principe _{repose sur} _{l'établissement} _{d'un " label " mesurant} _en _particulier

les niveaux de _violence, _nudité, sexe et correction de langage, qui serait

codé dans les ressources. Les visualiseurs seraient _capables _{d'interpréter} _ce

label et de filtrer les ressources à la demande _{(notamment celle des parents}

et des _{enseignants).} _{Plusieurs labels pourraient} _{être associés à} _une

ressource car en fait _{plusieurs acteurs pourraient attribuer} _ces _labels _: _le

fournisseur de la ressource mais aussi des services extérieurs _ayant un rôle

(25)

11.2 La recherche par l'utilisateur

Les _experts _{de la} _recherche _sont _peu _nombreux _à _{savoir utiliser toutes les}

possibilités des outils de recherche, et même s'il existe des « outils cachés »

qui font du tri, du classement, ..., dans les moteurs, il reste toujours que les

mots _posés _par _{l'usager sont} _l'élément _{premier et donc essentiel.}

Je citerai ici un extrait d'un texte de _{François Bourdoncle (3), qui souligne} _les

limites du _grand _{public face à la recherche} _sur _Internet _: _«... _l'effort _que _le

grand public est prêt à faire pour obtenir une information pertinente est

extrêmement faible. _Ainsi, _d'après _une _{étude portant}_sur_{plus de 1 milliard de}

requêtes du moteur Altavista, les requêtes consistent en moyenne en 2.35 termes, le plus souvent imprécis et mal orthographiés, et 80% des requêtes

ne _comportent _aucun _{opérateur. Qui plus est, 85%} _{des utilisateurs} _se

contentent des 10_premiers _{résultats fournis}_sur_{la première} _page _(alors _qu'ils

ont _{potentiellement} _accès aux 200 premiers résultats) et 78% des requêtes

ne _{sont pas} _{modifiées dans}_{le but de les améliorer.} _»

11.2.1 Utilisation de mots-clés

Pourquoi, malgrétoutes les avancées vues précédemment, celui qui cherche

de l'information sur Internet est-il souvent _déçu _{? (si} _{encore une} _{fois, il n'est}

pas « expert » dans cette recherchede par sa profession ou sa pratique).

C'est _qu'au _{départ le choix} _{des mots n'est} _pas _{innocent. Cette} _notion _de « mot-clé » (utilisée d'abord _en _{documentation et dans} _{l'enseignement du}

français) nécessite un apprentissage, et l'usager lambda l'ignore, ne réalisant

pas toujours qu'un moteur de recherche n'est qu'un programme informatique qui va « comparer » des chaînes de caractères pour ramener celles qui sont

identiques aux mots de la recherche, et contenues dans la base de données du _logiciel _pour _lequel _{il travaille. Il} _va _chercher _une _{identité de forme. Ce qui}

explique les résultats parfois ahurissants que l'on peut obtenir en réponse à

une _requête. _{En outre le moteur} _va _{chercher chacun des} _mots _de _la

recherche, entraînant un « bruit » documentaire (nombre important de

réponses obtenues non pertinentes).

On ne _peut _pas _{lui préciser} _: _« _{non, ce que} _{j'ai voulu dire,} _c'est... _» _{Il faut}

(26)

correspondre à la recherche (ou qui seront intégrés dans les métadonnées

correspondant à la description du contenu intellectuel du document), et qui seront _{suffisamment peu} _fréquents _{pour que} _{le moteur ait} _indexé _peu _de

pages avec ceux-ci, mais des pages adéquates. Il est important aussi de

connaître le réseau _sémantique _{des mots} _utilisés _et _cela _suppose _un

vocabulaire riche _{(on peut} _même _se _{trouver dans la} _situation _{de trouver des}

mots-clés _{spécifiques dans} _un _domaine _qu'on _ne _connaît _{pas encore}

-puisque le but de la recherche seraitjustement de découvrirce domaine - ).

Chercher de l'information sur les « voitures » ne doit pas _{laisser de côté les} mots « _{automobile(s)} _» _et _« _auto(s) _». _{A l'inverse,} _une _recherche _sur _l'animal

« _jaguar _» _{devra exclure} _le _{domaine automobile et le football} _(équipe _du

même _nom).

L'utilisateur du moteur doit donc _indiquer _ce _{qu'il veut associer} _ou _exclure, _en

tenant _compte _{des options} _proposées_par _{les moteurs de recherche (celles-ci}

sont accessibles en _général _{par un} _bouton _« _{Recherche avancée} _» _sur _la

page d'accueil), et écrire par défaut ses mots-clés en minuscules et sans

accents _{(à moins de vouloir restreindre la} _portée_{de la recherche).}

11.2.2 La normeZ39.50

Dans un cadre _{plus restreint d'interrogations de} _bases _de _données

bibliographiques (catalogues de bibliothèques, mais aussi toute base

d'information _{documentaire),} _un _{outil existe qui permet} _à _{l'usager d'interroger}

des bases de _{présentations,} _{natures et formats} _différents _sans _avoir _à _tenir

compte de ceux-ci lors de son interrogation, et même d'en récupérer les

informations _{bibliographiques obtenues} _pour _les _intégrer _dans _une _{base de}

données locale. Il _s'agit _{de la} _norme _Z39.50 _{qui, s'appuyant} _sur _des _normes

de communication _{adaptées à l'environnement} _{Internet, permet} _d'interroger

toute base _{bibliographique} _{reliée à Internet, à} _travers _un _logiciel _{client Z39.50}

(qui traduit les requêtes utilisateurs en Z39.50, lance l'interrogation et décode

les résultats _{reçus en} _Z39.50) _et _un _logiciel _serveur _{Z39.50 (qui} _décode _les

requêtes reçues, les interprète et les exécute sur sa base de données, code