• Aucun résultat trouvé

LA RECHERCHE D INFORMATION SUR L INTERNET

N/A
N/A
Protected

Academic year: 2022

Partager "LA RECHERCHE D INFORMATION SUR L INTERNET"

Copied!
25
0
0

Texte intégral

(1)

Livret sous licence Creative Commons. Inspiré de Aeris (http://aeris.11vm-serv.net/) et de l’Encyclopédie Comment

CAO- BENIN

Programme de Promotion de la Démocratie par l’appui aux Organisations de la Société Civile (ProDOSC)

LA RECHERCHE D’INFORMATION SUR L’INTERNET

nt

(2)

2

Contrat de licence Creative commons

Paternité - Pas d'Utilisation Commerciale - Partage des Conditions Initiales à l'Identique Vous êtes libre :

de reproduire, distribuer et communiquer cette création au public

de modifier cette création Selon les conditions suivantes :

Paternité. Vous devez citer le nom de l'auteur original.

Pas d'utilisation commerciale. Vous n'avez pas le droit d'utiliser cette création à des fins commerciales.

Partage des Conditions Initiales à l'Identique. Si vous modifiez, transformez ou adaptez cette création, vous n'avez le droit de distribuer la création qui en résulte que sous un contrat identique à celui-ci.

A chaque réutilisation ou distribution, vous devez faire apparaître clairement aux autres les conditions contractuelles de mise à disposition de cette création.

Chacune de ces conditions peut être levée si vous obtenez l'autorisation du titulaire des droits.

Ce qui précède n'affecte en rien vos droits en tant qu'utilisateur (exceptions au droit d'auteur : copies réservées à l'usage privé du copiste, courtes citations, parodie...)

Ceci est le Résumé Explicatif du Code Juridique (la version intégrale du contrat http://creativecommons.org/licenses/by-nc-sa/2.0/be/legalcode.fr).

(3)

Table des matières

1. INTRODUCTION AU WORLD WIDE WEB... 4

QU'EST-CE QU'UN SITE WEB ? ... 4

LE NAVIGATEUR WEB... 4

COMMENT NAVIGUER SUR INTERNET... 6

LES FAVORIS... 6

COMMENT CREER UN MARQUE-PAGE ? ... 6

2. LES MOTEURS DE RECHERCHE... 7

LA RECHERCHE PAR LES MOTEURS... 7

ƒ Classement des résultats... 8

ƒ Présentation des résultats... 9

3. LES ANNUAIRES OU REPERTOIRES... 9

LA RECHERCHE PAR LES ANNUAIRES... 9

ƒ Par mots-clés ... 9

ƒ Par catégories... 10

ƒ Présentation des résultats... 10

4. LA RECHERCHE PAR LES METAMOTEURS ... 10

PREMIERE GENERATION... 10

SECONDE GENERATION... 10

TROISIEME GENERATION... 11

LA RECHERCHE PAR LES ENCYCLOPEDIES EN LIGNES... 12

LES SITES FEDERATEURS ET LES GUIDES - RECHERCHE LARGE DANS UN DOMAINE PRECIS... 12

LES WEBRINGS - RECHERCHE LARGE DANS UN DOMAINE PRECIS... 13

SPECIFICITES DE CERTAINS MOTEURS... 13

ƒ Fonctionnalités intéressantes ... 13

ƒ Spécificités de Google <www.google.com> ... 14

ƒ Spécificité de Yahoo! Search <search.yahoo.com> ... 16

ORGANISER SA BOITE A OUTILS AU SUD... 16

ƒ La consultation de sites en mode hors-ligne ... 16

ƒ Organiser les favoris ... 16

5. METHODOLOGIE DE LA RECHERCHE DOCUMENTAIRE... 17

PREPARATIFS... 17

ƒ Délimiter le sujet... 17

ƒ Indicateurs d’un sujet bien délimité ... 17

REQUETE COMPLEXE ET OPERATEURS BOOLEENS... 18

ƒ Généralités ... 18

ƒ Les opérateurs booléens ... 20

ƒ Recherche d'une expression ou d'une phrase... 21

ƒ Langage naturel ... 21

6. EVALUER LES RESSOURCES ... 22

L'URL ... 23

SOURCE DU DOCUMENT... 23

ACTUALITE... 23

PRESENCE DE REFERENCES BIBLIOGRAPHIQUES... 24

7. GLOSSAIRE ... 24

(4)

4

1. Introduction au World Wide Web

On appelle «Web» (nom anglais signifiant «toile»), contraction de «World Wide Web» (d'où l'acronyme www), une des possibilités offertes par le réseau Internet de naviguer entre des documents reliés par des liens hypertextes.

Le concept du Web a été mis au point au CERN (Centre Européen de Recherche Nucléaire) en 1991 par une équipe de chercheurs à laquelle appartenait Tim-Berners LEE, le créateur du concept d'hyperlien, considéré aujourd'hui comme le père fondateur du Web.

Le principe du web repose sur l'utilisation d'hyperliens pour naviguer entre des documents (appelés «pages web») grâce à un logiciel appelé navigateur (ou en anglais browser). Une page web est ainsi un simple fichier texte écrit dans un langage de description (appelé HTML), permettant de décrire la mise en page du document et d'inclure des éléments graphiques ou bien des liens vers d'autres documents à l'aide de balises.

Au-delà des liens reliant des documents formatés, le web prend tout son sens avec le protocole HTTP permettant de lier des documents hébergés par des ordinateurs distants (appelés serveurs web, par opposition au client que représente le navigateur). Sur Internet les documents sont ainsi repérés par une adresse unique, appelée URL (Uniform Ressource Locator), permettant de localiser une ressource sur n'importe quel serveur du réseau internet.

Qu'est-ce qu'un site web ?

Un site web (aussi appelé site internet) est un ensemble de fichiers stockés sur un ordinateur connecté en permanence à internet et hébergeant les pages web (serveur web).

Un site web est habituellement architecturé autour d'une page centrale, appelée «page d'accueil» et proposant des liens vers un ensemble d'autres pages hébergées sur le même serveur, et parfois des liens dits «externes», c'est-à-dire de pages hébergées par un autre serveur.

Une URL se présente sous la forme suivante : http://www.yahoo.com

http:// www. yahoo .fr

Indique le protocole utilisé. Il existe d'autres protocoles, correspondant à d'autres usages de l'Internet. (ftp, Irc, gopher…)

Symbolise un serveur dédié à l’usage du Web.

Cependant une URL peut ne pas comporter le www.

Cette partie s’appelle nom de domaine.

C’est l’extension. Elle exprime l’appartenance à une zone géographique ou à un domaine d’activité. .fr pour la France, .bj pour le Bénin, .org pour les organisations, .info pour les sites d’information etc…

Le navigateur web

(5)

Le «navigateur» est le logiciel qui permet de surfer entre les pages web des sites présents sur la toile. Il possède une interface graphique composée de boutons de navigation, d'une barre d'adresse, d'une barre d'état (généralement en bas de fenêtre) et dont la majeure partie de la surface sert à afficher les pages web.

Lorsque le curseur de la souris passe sur un lien hypertexte, celui-ci se transforme généralement en icône en forme de main afin d'indiquer qu'il est cliquable. L'adresse de destination de ce lien est alors indiquée dans la barre d'état. Il peut ainsi être utile de prendre l'habitude de surveiller la barre d'état avant de cliquer sur les liens afin de savoir où ils conduisent.

Les flèches de navigation permettent de naviguer dans l'historique des différents liens visités. Le bouton de rechargement permet de rafraîchir l'affichage de la page web en cours et le bouton d'arrêt de chargement permet d'interrompre le téléchargement en cours de la page.

Enfin le bouton en forme de maison permet de se rendre à la page de démarrage, c'est-à-dire la page chargée à l'ouverture du navigateur. Il est conseillé de modifier la

Barre d’état

Page Barre du titre

Barre du menu Barre des

outils Barre

d’adresse+URL

Hyperlien + main

(6)

6 comporte des informations que l'on souhaite voir lors de la première connexion.

Il existe plusieurs navigateurs. Ces logiciels jouent le même rôle mais sont très diversifiés suivant la plateforme utilisée ou le goût de l’utilisateur. Quelques navigateurs : Internet Explorer, Netscape, Mozilla, Konqueror, Opera, Lynx…

Comment naviguer sur Internet

Il existe trois façons de naviguer :

1. L’on connaît l'adresse du site à visiter : il suffit alors de taper l'adresse dans la barre d'adresse du navigateur et de valider en appuyant sur la touche Entrée ou bien en cliquant sur le bouton de validation du navigateur.

2. L’on recherche une information sans connaître a priori un site susceptible d’y conduire : il est alors nécessaire d'utiliser un moteur de recherche et d’y introduire des mots-clés.

3. L’on souhaite naviguer sur Internet sans but précis : il suffit de partir d'une page Internet et de suivre les liens au fur et à mesure de la navigation.

Les favoris

En navigant sur le Web, il est courant de « tomber » sur une page intéressante et de vouloir en noter l’adresse afin d’y revenir ultérieurement. Il convient d’utiliser les favoris, également appelés marque-pages (traduction littérale du mot anglais bookmark) ou encore signets.

Comment créer un marque-page ?

La pratique varie d’un navigateur à l’autre :

Sous Internet Explorer les favoris sont accessibles via la barre de menus ou la barre des tâches. Mais la plupart du temps, le raccourci-clavier CTRL-D permet d'ouvrir une boîte de dialogue proposant le marquage de la page en cours.

(7)

2. Les moteurs de recherche

Les moteurs de recherche sont les outils à utiliser quand on cherche une information précise. Leur couverture est beaucoup plus importante que celle des annuaires, mais reste très parcellaire (environ 20% du Web pour les meilleurs d'entre eux). Il est indispensable de bien connaître la façon de les utiliser, leurs avantages et leurs limites.

Les moteurs de recherche indexent régulièrement des millions de PAGES Web dans une base de données. Pour cela, la plupart des moteurs de recherche utilisent des robots (programmes automatiques aussi appelés spiders ou crawlers) qui inventorient les pages Web et ajoutent les nouvelles adresses à leur base de données. Ces informations sont complétées par les auteurs de pages Web qui informent, de leur propre initiative, les moteurs de recherche de l'existence de leurs pages (référencement).

En plus des moteurs généralistes, il existe maintenant de nombreux moteurs de recherche spécialisés dans une discipline donnée, ou pour un type de document particulier (images, vidéos,...)

Chaque robot fonctionne à sa manière. Voilà pourquoi les résultats peuvent être différents pour une même requête selon que l'on utilise tel ou tel moteur. Les trois principaux systèmes d'indexation utilisés par les robots sont les suivants (certains en utilisent plusieurs):

Par mots clés. Lors de la conception d'une page Web, l'auteur peut indiquer une liste de mots clés (non affichée à l'écran : balise META keywords) qui sera recherchée par le moteur.

Par titre. De même, la balise TITLE indique aux moteurs de recherche le titre du document.

Dans le texte. Le robot indexe touts les mots (ou les mots des premières lignes) des pages Web.

Exemples :

Moteurs généralistes : Altavista www.altavista.com, Google www.google.com

Moteur géographique : Excite www.excite.fr

La recherche par les moteurs

Les moteurs de recherche proposent un formulaire de recherche simple disponible sur la page d'accueil.

(8)

8 Exemple : AlltheWebÆ www.alltheWeb.com, formulaire de recherche simple. Un formulaire de recherche avancée, beaucoup plus puissant est généralement proposé par un lien.

Exemple : Google recherche avancéeÆ www.google.com/advanced_search?hl=fr

Au cours d’une recherche le moteur cherchera l'occurrence du (des) mot(s) recherché(s) dans sa base de données contenant plusieurs millions de pages.

Attention, la recherche s'effectue dans la base de données du moteur et pas sur la totalité de l'Internet ! De plus il existe une part non-négligeable du Web totalement inaccessible aux moteurs : le Web invisible.

ƒ Classement des résultats

Les résultats seront classés selon un algorithme de pertinence propre au moteur (présence du mot dans le titre, dans le texte, dans les balises métas, dans l'url, indice de popularité...).

Attention cependant, de nombreux moteurs proposent sur leurs pages de résultats des liens sponsorisés. Dans le milieu du e-commerce et du e-marketing, c'est ce qu'on appelle le positionnement payant : des sociétés achètent aux enchères certains mots clés afin de se retrouver dans les premiers résultats d'une requête comprenant ce mot. Ces liens ne sont pas nécessairement les plus pertinents pour la recherche en tant que telle et n'ont en général pour but que de ramener des clients potentiels à la société.

(9)

ƒ Présentation des résultats

La façon de présenter les résultats est, elle aussi, propre à chaque moteur (titre de la page, petite description, adresse, mais aussi date de mise à jour, auteur, sites similaires, pertinence en %, ...).

Enfin, la plupart des moteurs effectuent un clustering (c'est-à-dire qu'ils ne proposent qu'un seul lien pour un site même si plusieurs pages de ce site correspondent à la requête). On peut en général accéder aux autres pages du site à l'aide d'un lien du type "Autres pages de ce site".

3. Les annuaires ou répertoires

Les répertoires ou annuaires sont très différents des moteurs. Alors que ces derniers indexent automatiquement des PAGES Web, les annuaires recensent des SITES classés par catégories et sous catégories. Ce classement est effectué par des humains (par opposition aux robots) et, dès lors, la pertinence et la qualité des sites sont en général bien meilleures que sur un moteur de recherche.

Les responsables construisent donc une base de données de fiches descriptives contenant des informations comme le titre, l'adresse URL, les sujets traités (sport, éducation, arts et spectacles, etc.), une description et éventuellement un commentaire et des mots-clés.

A côté des annuaires généraux, il existe aussi de nombreux annuaires spécialisés dans des domaines précis (un pays, la médecine, l'éducation, ...).

Exemples :

Généralistes : http://www.google.fr/dirhp?hl=fr http://fr.dir.yahoo.com

Géographiques : http://www.woyaa.com/

La recherche par les annuaires

ƒ Par mots-clés

La recherche par mots-clés dans un annuaire s'effectue sur l'occurrence des mots dans le contenu des fiches descriptives et non sur le contenu des pages du site (à la différence des moteurs).

(10)

10

ƒ Par catégories

La recherche peut aussi se faire en descendant la hiérarchie de catégories de la plus générale à la plus spécifique. Une recherche sur la ville de Cotonou peut se décomposer comme suit : Afrique > Afrique de l’Ouest > Bénin > Cotonou.

ƒ Présentation des résultats

Par mots-clés

:

L’annuaire proposera d'abord une liste de catégories contenant le(s) mots(s) demandé(s), suivie d'une liste de sites dont la fiche correspond à la recherche, classés par pertinence.

Exemple :

Par catégories

:

Le résultat sera une liste de sites pertinents du domaine recherché, classés par ordre alphabétique.

4. La recherche par les métamoteurs

Ils permettent de survoler rapidement un sujet et de repérer les outils qui y répondent le mieux.

On distingue généralement 3 générations de métamoteurs :

Première génération

: ils rassemblent sur une même interface un certain nombre de moteurs et outils de recherche. Ils ne permettent pas une interrogation simultanée mais offrent néanmoins un gain de temps.

Seconde génération

: ces métamoteurs interrogent simultanément plusieurs outils de recherche. Mais ils affichent les résultats moteurs par moteurs sans éliminer les doublons ni procéder à l'analyse de pertinence.

L'utilisateur doit évaluer les résultats en se connectant site par site.

(11)

Troisième génération

: ces métamoteurs, les plus sophistiqués, sélectionnent les sites dans différents moteurs, éliminent les doublons et affichent les résultats selon des critères de pertinence ou par type de document.

Les métamoteurs permettent d'interroger simultanément plusieurs moteurs de recherche avec une même requête (du moins pour les métamoteurs de génération 2 et 3. Les résultats de la requête sont issus de plusieurs bases de données, ce qui permet une plus grande couverture de l'Internet. Le principal avantage des métamoteurs est donc l'exhaustivité.

Cependant, la même requête étant envoyée à tous les moteurs, il est dès lors impossible de faire une requête complexe puisque chaque moteur utilise une syntaxe propre. L'usage des métamoteurs se limite donc souvent à des recherches simples.

Exemple :

- http://www.metacrawler.com

Il existe d'autres outils faisant de la "métarecherche" : les agents dits intelligents (les métamoteurs sont qualifiés d'agents "semi-intelligents"). Ceux-ci sont en général des logiciels payants que l'on installe sur sa machine.

La définition exacte d'un agent intelligent est "Objet utilisant les techniques de l'intelligence artificielle : il adapte son comportement à son environnement et en mémorisant ses expériences, se comporte comme un sous-système capable d'apprentissage : il enrichit le système qui l'utilise en ajoutant, au cours du temps, des fonctions automatiques de traitement, de contrôle, de mémorisation ou de transfert d'information." (AFNOR)

(12)

12 Les agents de recherche intelligents sont spécialisés dans la recherche d'information, plus ou moins autonomes et qui assistent l'utilisateur dans la recherche d'information, soit qu'ils opèrent directement en lieu et place de l'utilisateur, soit qu'ils aient une connaissance au moins partielle des objectifs ou du profil de l'utilisateur. Ils sont le plus souvent programmés avec des technologies d'intelligence artificielle. (Définition tiré de Strategic- road.com)

Exemple :

Copernic <http://www.copernic.com/fr/index.html>

La recherche par les encyclopédies en lignes

Gratuites ou payantes, les encyclopédies en ligne ne sont pas à proprement parler des outils de recherche (même si certaines d'entre elles en intègrent). Elles sont néanmoins une source sûre, l'information y est de qualité et permanente. Elles sont donc souvent un passage obligé lors d'une recherche d'information.

Exemples :

- http://en.wikipedia.org, - http://www.britannica.com, - http://www.quid.fr

Les sites fédérateurs et les guides - recherche large dans un domaine précis

Aucun outil n'est exhaustif et bien souvent, il faut en utiliser plusieurs pour arriver à ses fins. Les sites fédérateurs (Gateway, Portail, passerelle thématique) et les guides thématiques sélectionnent des sources de qualité dans un domaine précis. Créés par des professionnels de l'information ou des passionnés, ces sites proposent en général un recensement complet des meilleures ressources concernant un domaine. Par ailleurs, ils recensent bien souvent des ressources appartenant au Web invisible. Un site fédérateur peut donc proposer des répertoires spécialisés, des liens vers des répertoires ou pages de liens spécialisées, des articles en texte intégral ou une bibliographie en ligne, les actualités du secteur, les événements du secteur, des accès à des base de données, des offres/demandes d'emploi, un forum, des données chiffrées, des statistiques, des synthèses concernant le secteur, une liste de périodiques spécialisés, une liste d'experts, des cours, des conseils, des informations juridiques, etc. Un site fédérateur très actif rassemble souvent une communauté de spécialistes autour de lui et devient donc un point de référence du domaine.

(13)

Exemples :

- Plant Pathology Internet Guide Book http://www.pk.uni- bonn.de/ppigb/ppigb.htm,

- All the Virology on the WWW http://www.tulane.edu/~dmsander/garryfavWeb.html, - Map History http://www.maphistory.info

Les Webrings - recherche large dans un domaine précis

Les Webrings permettent de découvrir une multitude de sites correspondant à un thème donné. Il est possible depuis n'importe quel site membre d'obtenir la liste détaillée de tous les sites. Le Webring est géré manuellement et fait l'objet d'une sélection : gage de qualité et fiabilité.

Exemples :

- Geology & Earth Science Webring http://d.Webring.com/hub?ring=geoesring&list

Spécificités de certains moteurs

ƒ Fonctionnalités intéressantes

Page archivée en mémoire, version cache

Cette fonctionnalité a été lancée pour la première fois par Google. La version cache d'une page est la page telle qu'elle était lors du dernier passage du moteur, archivée par ce dernier. Très pratique pour retrouver des pages disparues mais aussi pour des pages qui changent très souvent et dont le contenu est archivé ailleurs au fur et à mesure (cas des blogs par exemple), utile aussi dans le cas de pages accessibles sur abonnement mais publiées d'abord gratuitement.

Cette version cache permet aussi de mettre en évidence les mots recherchés dans la page en les surlignant, ce qui s'avère particulièrement utile avec de longs documents.

Moteurs concernés : Google (http://www.google.com), Yahoo!

Search (http://search.yahoo.com), Gigablast (http://www.gigablast.com)

Format de fichiers

Cette fonctionnalité très intéressante a été inaugurée par Google mais est disponible maintenant sur quelques autres moteurs. Elle permet de ne chercher que des fichiers .pdf ou .doc par exemple, ce qui est particulièrement intéressant quand on sait que de nombreux dossiers de fond, rapports,

(14)

14

Regroupement thématique à la volée

Lancée pour la première fois par Northern Light, cette fonctionnalité permet d'affiner sa recherche. En effet, une fois la recherche lancée, les résultats similaires (d'après le moteur) sont regroupés automatiquement dans des dossiers thématiques.

Par exemple, une recherche sur "benin" dans Vivismo proposera les dossiers suivants :

Moteurs concernés : Wisenut (http://www.wisenut.com), Teoma (http://www.teoma.com), Ez2find (métamoteur) (http://ez2find.com), Vivismo (métamoteur) (http://vivisimo.com), KillerInfo (métamoteur) (http://www.killerinfo.com).

ƒ Spécificités de Google <www.google.com>

"Recherche rapide et facile. [...] google a fait un compromis entre son extrême simplicité d'utilisation et la complexité de son système de classement de résultats"

Algorithme de pertinence : Rank page

L'algorithme de pertinence de Google se base essentiellement sur l'indice de popularité. Ce système est utilisé à la fois pour les résultats du moteur et pour le classement des sites dans son répertoire.

"Le principe de PageRank est simple : tout lien pointant de la page A à la page B est considéré comme un vote de la page A en faveur de la page B. Toutefois, Google ne limite pas son évaluation au nombre de « votes » (liens) reçus par la page ; il procède également à une analyse de la page qui contient le lien. Les liens présents dans des pages jugées importantes par Google ont plus de « poids », et contribuent ainsi à « élire » d'autres pages. "

(15)

Avantage

Les pages trouvées sont en quelque sorte évaluées par des pairs puisqu'un site référencé par de nombreux sites du même domaine sera bien classé. A l'usage on constate qu'effectivement les résultats de Google sont très pertinents.

Inconvénients

Les pages récentes et méconnues sont négligées, de même que les pages traitant d'un sujet peu populaire.

J'ai de la chance

Le bouton "j'ai de la chance" du formulaire de recherche de Google permet d'afficher directement la page que Google considère comme la plus pertinente pour une recherche donnée.

Formats de fichiers

Google était jusqu'il y a peu le seul moteur à indexer d'autres formats en dehors des pages Web (en gras les plus fréquents) :

Adobe Portable Document Format pdf

DBase dbf Lotus WordPro lwp Adobe Postscript eps, ps Lotus 123 wk, wk1, wk2,

wk3, wk4, wk5, wki, wku

Mac Write mw

CorelWorldPerfect wp Lotus Amipro sam Microsoft Excel xls Microsoft Word doc Microsoft PowerPoint ppt Microsoft Access mdb Rich Text Format (RTF)

rtf

WordPad wri Works Spreadsheet wps Works Database wdb WorksText wks WordStar ws

Il suffit de taper filetype:ppt pour trouver des documents powerpoint ou utiliser le formulaire de recherche avancée http://www.google.com/advanced_search?hl=fr.

Pages archivées en mémoires

Dans ces résultats, Google propose un lien vers la version de la page telle qu'elle était lors de son indexation ce qui est extrêmement utile pour les pages disparues (erreurs 404).

Recherche incluant les synonymes

Depuis août 2003, Google propose une recherche incluant les synonymes par l'intermédiaire du tilde (~). Par exemple, une recherche sur biology ~course cherchera des pages comprenant le mot biology associé à des termes comme course(s), classe(s), tutorial, lecture(s), training, ... La recherche incluant les synonymes n'est pas encore très efficace en français.

(16)

16 Pour savoir quels synonymes sont utilisés il suffit de faire une recherche incluant les synonymes en excluant le mot dont on recherche les synonymes, puis de regarder les pages de résultats :

Exemple :

~help -help : guide, manual, faq, support, tutorial, helping, helper, tips, problems, troubleshooting

~search -search : finder, listings, searcher, database

ƒ Spécificité de Yahoo! Search <search.yahoo.com>

Recherche sur le nom de domaine du site

hostname:

Exemple : hostname:autos.honda.com recherchera les documents disponibles sur le site autos.honda.com.

Ordre des mots

L’ordre des mots est important : paris dakar donne un résultat différent de dakar paris. Une plus grande importance est donnée au premier mot choisi.

Organiser sa boîte à outils au sud

Du fait de la fracture numérique, les internautes du sud se connectent le plus souvent à partir d’ordinateurs publics.

Cela rend impossible toute personnalisation. Il existe cependant des moyens simples à utiliser en toutes circonstances.

ƒ La consultation de sites en mode hors-ligne :

- Enregistrement de la page Web sur un disque amovible - Export vers un document Word.

- Impression de données

ƒ Organiser les favoris

Il est possible, sur un disque amovible, d’organiser ses favoris et de les avoir partout sur soi en s’appuyant sur les dossiers, sous dossiers et raccourcis de Windows. (Voir TP).

Les outils suivants devraient être idéalement classés dans ces favoris au sein d’un répertoire "Recherche":

- Quelques moteurs de recherche

- Des moteurs de recherche régionaux

- Un moteur de recherche spécialisé pour chaque centre d'intérêt

- Un métamoteurs

- Des dictionnaires en ligne - Des outils de traduction - Une encyclopédie

(17)

- Des annuaires, etc.

5. Méthodologie de la recherche documentaire

Préparatifs

ƒ Délimiter le sujet

Avant toute recherche complexe, il convient de comprendre et préciser le sujet par :

- La définition claire de la discipline et des thèmes concernés, de la période et de la zone géographique couvertes.

- La définition des mots-clés :

Consulter les ouvrages de références (dictionnaires, encyclopédies, atlas...) permet de définir les termes spécifiques à la recherche, les synonymes, les notions proches...

L’on peut, dans le choix des mots-clés, utiliser Rameau

http://noticesrameau.bnf.fr (Répertoire d'autorité-matière encyclopédique et alphabétique unifié : langage d'indexation

élaboré et utilisé par la Bibliothèque nationale de France),

Le grand dictionnaire terminologique http://www.granddictionnaire.com/ et la section Dictionnaires et

encyclopédies des outils.

- Le choix de bons outils

- Une bonne formulation des requêtes

A partir de cette démarche préalable, il est utile de se demander quels sont les types de documents qui peuvent le mieux fournir l'information pertinente (thèses et mémoires, articles scientifiques, publications officielles, livres, documents iconographiques, audiovisuels, sonores...).

Ces types de document se trouvent-ils plus facilement en bibliothèque ou sur Internet ?

Ensuite il faut utiliser les outils les mieux adaptés à cette recherche en utilisant les bons mots clés dans des requêtes bien formulées.

ƒ Indicateurs d’un sujet bien délimité

Après la démarche préalable (Délimiter le sujet) L’on doit pouvoir répondre aux questions suivantes :

- Quel est le type d'information recherchée?

- Quel est le type de document ?

- Quelle est la quantité d'information désirée ? - Quel temps faut-il consacrer à la recherche ? - Quelles limites présente la recherche ?

- Comment formuler la question ? - Quel outil est le mieux adapté ?

Quel est le type d'information recherchée?

A partir du type de recherche à effectuer (recherche de

(18)

18 l’on peut définir le type d’information (Information générale-spécifique-url-références)

Quel est le type de document ?

- Textuel (html, doc, rtf, pdf)

- Images (gif, jpeg, png, autres formats) - Multimedia (mp3, mpeg, avi, wav,…)

Quelle est la quantité d'information désirée ?

Exhaustive-Ponctuelle

Quel temps faut-il consacrer à la recherche ?

Beaucoup de temps-Peu de temps

Quelles limites présente la recherche ?

Langues-Période couverte-Date de publication-Région couverte -Zone géographique des pages.

Comment formuler la question ?

- En une phrase

- Puis à l'aide de mots clés

- Organiser ensuite ces mots selon leur importance dans la recherche (ceux qui délimitent le domaine de recherche et ceux qui précisent la recherche)

- Traduire ces termes en anglais

- Chercher des synonymes (en anglais et en français) de ces mots.

Ecrire la requête de différentes manières à l'aide des opérateurs booléens.

L’on peut recourir dans le choix des mots clefs et des synonymes (français et anglais), à Rameau, au Grand dictionnaire terminologique et à la section Dictionnaires et encyclopédies des outils.

Requête complexe et opérateurs booléens

Attention, vu la spécificité des outils, des mots-clés génériques peuvent être utilisés dans un annuaire et générer du bruit sur un moteur. Inversement, des termes trop précis dans un annuaire risquent de ne pas donner de réponse.

D'autre part, les différents outils de recherche n'utilisent pas toutes ces possibilités et chacun possède un langage d'interrogation spécifique. Cette remarque peut donc aussi déterminer le choix de l'outil approprié.

ƒ Généralités

Importance de l'ordre des mots

Pour la plupart des outils, global change donnera les mêmes résultats que change global. Mais ce n'est pas le cas pour tous. En effet, certains outils accordent un poids au mot en

(19)

fonction de sa position : le premier mot sera plus important que le deuxième. Le nombre de résultats sera le même mais ils seront triés différemment. Si l'on utilise un outil qui ne tient pas compte de l'ordre des mots, l'utilisation des griffes permet de l'y obliger : "global change"

Mots fréquents

Beaucoup de moteurs excluent les mots fréquents ou vides (le, la, et, les, ou, je, tu, a...) ce qui peut être problématique pour certaines recherches (par exemple vitamine A en français).

Attention aussi en utilisant un moteur non francophone, les mots tels que "le, la, les, ..." seront pris comme un mot clé (bruit)!

Q. Recherche sur la vitamine A Avec Google (avril 2007) :

La casse (majuscule/minuscule)

La plupart des moteurs sont insensibles à la casse (il y'a quelques temps la plupart des moteurs la respectait !).

Il semble que désormais, seul AltaVista soit entièrement sensible à la casse à condition de mettre le mot recherché entre " ou en utilisant le formulaire de recherche avancé ou l'assistant de recherche.

Les caractères accentués

La plupart des moteurs tiennent compte des accents, particulièrement les outils francophones, mais pas tous.

- Pour certains, électrophorèse cherchera électrophorèse et electrophorese.

- Pour d'autres électrophorèse cherchera électrophorèse uniquement.

- Pour certains, electrophorese cherchera electrophorese et électrophorèse.

- Pour d'autres electrophorese cherchera electrophorese uniquement.

Q. Recherche de site sur Star Wars épisode 1 avec google (02/2005):

star wars épisode 1--> 1 370 000 résultats Star Wars Episode 1 --> 693 000 résultats Stars Wars Épisode 1--> 1 370 000 résultats

Conclusion : Google n'est pas sensible à la casse mais tient compte des accents.

(20)

20

Pluriel

Certains moteurs cherchent automatiquement le pluriel d'un mot au singulier (en fait ils effectuent une troncature par défaut c'est-à-dire que chat cherchera chat, chats, chatte, chattes, chaton, chatière, chatouille, chateaubriand...).

Pour ceux qui ne le font pas, l'utilisation de la troncature permet de chercher le pluriel et le singulier.

ƒ Les opérateurs booléens

Opérateurs par défaut

Les internautes ont pris l'habitude de taper un ou deux mots-clés séparés par un espace. L'espace est compris de deux manières différentes par les outils de recherche : un ET ou un OU, le OU par défaut étant le plus fréquent.

Attention donc, lorsque l'on cherche global change, beaucoup d'outil chercheront en fait les pages contenant global, change ou les 2 c'est-à-dire beaucoup de bruit.

- AND (ET)

Associer deux mots (ou plus) à une recherche est une excellente méthode, qui donne en général d'assez bons résultats en réduisant considérablement le nombre de pages trouvées. Pour effectuer une recherche AND, chaque outil a sa méthode. Voici les plus courantes :

Q. Informations sur la migration des cigognes migration AND cigogne

+cigogne +migration cigogne WITH migration

cigogne migration (recherche AND par défaut)

cigogne migration avec un bouton vous permettant de choisir all the words

- OR (OU)

Associer deux mots différents avec l'opérateur OR n'est pas vraiment à conseiller dans la mesure où le nombre de résultats trouvés est en général impressionnant. Cela peut cependant être utile dans le cas où la recherche peut s'exprimer de différentes manières (synonymes et concepts liés). De même, les méthodes diffèrent en fonction de l'outil:

Q. Informations sur le SIDA (en anglais) AIDS OR HIV

AIDS HIV (OR par défaut)

AIDS HIV avec un menu déroulant (any of the words)

- NOT (SAUF)

Ce peut être une excellente solution aux mots désignant plusieurs concepts ou lorsque l'on sait que tel type d'information ne nous sera d'aucune utilité. Cette méthode permet de réduire le bruit.

(21)

Q.Information sur la chimie mais pas la chimie organique (en anglais)

chemistry not organic chemistry -organic

chemistry AND NOT organic chemistry BUT NOT organic

chemistry avec un champs permettant d'exclure le mot organic

ƒ Recherche d'une expression ou d'une phrase

Pour rechercher une expression, il suffit de la mettre entre griffes.

Q.Informations sur le Mont Saint Michel S."Mont Saint Michel"

ƒ Langage naturel

La recherche en langage naturel consiste à poser une question sous forme de phrase au moteur comme "quelle est la capitale du Bénin ?". Il interroge alors une base de données composée de questions déjà posées par les internautes et dont il possède la réponse. L'outil tente de rapprocher la question de l'une de celle de sa base de données. Les résultats sont composés d'une liste de ces questions.

Ce principe est intéressant mais est décevant pour des questions pointues.

La recherche intuitive

Pour beaucoup de sites, il n'est pas nécessaire de consulter un annuaire ou un moteur. En effet, lorsque l'on cherche un site dont on connaît l'institution, la société ou l'organisation, il est relativement facile de deviner l'adresse de ce site, à condition de bien comprendre comment sont formées les URL.

- Pour commencer, taper http://www.

- Puis inscrire le nom ou l'acronyme de l'organisation

- Terminer par le domaine le plus évident http://www.nom.domaine(com pour une société commerciale, org pour une ONG, ...)

Q. Site de BeninTelecoms

R. Recherche intuitive : c’est une entreprise d’Etat béninoise dont l’ancienne appellation était OPT

--> http://www.opt.bj Q. Site de Microsoft

R. Recherche intuitive : c'est une société commerciale --> http://www.microsoft.com

Q. Site de la FAO

R. Recherche intuitive : c'est une organisation internationale --> http://www.fao.org/

(22)

22 La recherche intuitive permet aussi de retrouver une page qui n'existe plus (erreur 404) ou des liens morts.

Coupez l'url à partir de la droite jusqu'à chaque /.

Q. Dans le répertoire Darwin de mes bookmarks, j'ai la page suivante

http://www2.lucidcafe.com/lucidcafe/library/96feb/charlesdar win.html qui ne fonctionne pas et me renvoie sur la page d'accueil http://www.lucidcafe.com/ (ce qui revient à couper l'url jusqu'au nom de l'hôte). Comment retrouver ma page à partir de là?

R. Dans la première url, le mot Library apparaît, or sur la page une rubrique porte ce nom. Sur la page http://www.lucidcafe.com/library/library.html, il existe un

lien vers un index http://www.lucidcafe.com/library/categoryindex.html, une

recherche dans cette page (ctrl+F:Darwin) me permet de retrouver la page cherchée :

http://www.lucidcafe.com/lucidcafe/library/96feb/darwin.html

Q. Avec une recherche sur les trous noirs, un moteur me propose parmi ses résultats la page suivante http://membres.lycos.fr/bholes/trous-noirs.html qui me renvoie l'erreur 404 de son hébergeur. Comment faire pour retrouver la page ?

R. Copier l'url et la coller dans la barre d'adresse du

navigateur. En coupant l'url jusque http://membres.lycos.fr/bholes/ on tombe sur la page d'accueil d'un site d'étudiants du secondaire consacré aux trous noirs. En cliquant sur le lien plan du menu, on constate que le lien "developpement du sujet" répondra entre autre à la question Qu'est-ce qu'un trou noir?

http://membres.lycos.fr/bholes/dvpt1.html

6. Evaluer les ressources

S'il est vrai que sur l'Internet on trouve en général ce que l'on cherche, on y trouve aussi n'importe quoi. Or il n'est pas si évident de distinguer les informations fiables de celles qui relèvent de la désinformation ou du manque d'information.

Contrairement aux éditions papier ou même électroniques (CD- ROM), l'Internet ne bénéficient en général pas de la revue par les pairs ni d'aucune autre évaluation. La facilité de créer un site Web permet à n'importe qui d'éditer, via l'Internet, ce qu'il veut.

On trouve ainsi, sur un sujet déterminé, des pages personnelles (qui ne sont pas toujours les moins fiables), des sites commerciaux, des sites universitaires, des sites

(23)

gouvernementaux, des sites d'organisations internationales... La qualité des informations disponibles

est donc, elle aussi, très variable.

D'autre part, les informations peuvent être disponibles dans différents formats et peuvent changer ou disparaître d'un jour à l'autre.

L'URL

Premier indice de crédibilité, l'URL. Comme vu, l’on peut déduire beaucoup de choses d'une URL, en particulier le domaine d'activité (société commerciale, université, ONG,...). Cependant, si l'analyse de l'URL d'un site donne de bons indices, ceux-ci sont loin d'être suffisants pour se faire une opinion définitive sur la qualité de l'information que l'on y trouve.

Source du document

La source d'un document doit pouvoir être identifiée avec certitude. Si elle ne se trouve pas sur la page concernée, il convient de remonter les pages jusqu'à obtenir le nom de l'auteur (si possible ses qualifications sur le sujet concerné : son CV) et le nom de l'institution s'il y a lieu.

Une fois la source obtenue, vérifier si le nom de l'institution correspond à l'URL, si l'adresse de contact de l'auteur est l'adresse de l'institution, si le mail de contact correspond à l'institution. Attention ce n'est pas toujours le cas, mais ce sont de bons indices de crédibilité.

Exemple :

Vous trouvez un article intéressant sur la neuropsychologie de Martin Jacques, qui se dit étudiant en dernière année de doctorat de médecine à l'ULB (Université de Bruxelles).

Si cet article se trouve sur une page Web dont l'adresse est

www.ulb.ac.be/~jacques/neuropsy.html ou www.ulb.ac.be/facmed/labos/neuropsy/jacques.html et que le

mail de ce Monsieur Jacques est mjacques@ulb.ac.be, c'est bon signe.

Si la source ne peut-être obtenue, il vaut mieux ne pas utiliser l'information. De toute façon, ces informations sont nécessaires pour citer le document.

Actualité

La date de création et la date de dernière mise à jour sont aussi des critères essentiels pour évaluer la crédibilité d'une information. Attention, il faut bien distinguer la date de mise à jour de la forme de celle du contenu, mais bien souvent ces deux dates ne sont pas distinguées. Si la

(24)

24 éléments internes au texte du site : par exemple des nouvelles datées, des allusions à des faits passés, présents ou futurs (" en 2001 les travaux porteront sur… ") Etc.

D'autre part, l'actualité d'une information doit être relativisée en fonction du sujet. Il est des sciences qui évoluent au jour le jour (c'est souvent le cas en médecine et en biologie moléculaire), d'autre qui ne change pas pendant des années (systématique).

De plus, des sites peuvent être de qualité lors de leur création et se laisser rapidement dépasser par les événements.

Présence de références bibliographiques

Si le contenu de la page n'est pas original ou contient des informations relatives à d'autres travaux (informations secondaires), les sources originales doivent être indiquées.

Pour finir, l'évaluation d'un document électronique doit pouvoir répondre aux questions suivantes :

- Qui (Who) : auteurs - Où (Where) : lieux

- Quoi (What) : analyse du discours

- Quand (When) : date de publication ou de mise à jour - Comment (How) : organisation et qualité de l'information - Pourquoi (Why) : objectifs du site

Outils

Evaluation Wizard http://21cif.imsa.edu/evaluate Grilles d'analyse de sites Web.

7. Glossaire

- AGENT INTELLIGENT

Logiciel visant à faciliter la recherche et la gestion de l'information sur l'Internet. IL possède des attributs propres et agit dans le but d'accomplir un certain nombre de tâches pour un autre agent logiciel ou un humain.

- ANNUAIRE Voir Répertoire - BRUIT

Réponse non pertinente fournie lors d'une recherche d'information.

- CONTENU DYNAMIQUE

Il s'agit de pages Web avec des informations qui changent ou sont changées automatiquement en fonction d'une base de données ou d'éléments provenant de l'utilisateur.

(25)

- EN-TETE heading tags

Ce sont les commandes qui se trouvent en tête des pages HTML. Certains moteurs de recherche donnent plus d'importance et de poids au texte qui s'y trouve.

- LIEN MORT

Un lien qui ne mène plus à une page ou à un site, soit parce que le serveur est en panne, soit parce que la page a été déplacée ou bien n'existe plus. La plupart des outils de recherche ont des techniques pour ôter de telles pages de leur liste automatiquement. Mais l'Internet continuant à croître quotidiennement, il leur devient de plus en plus difficile de contrôler régulièrement toutes ces pages.

- MOT CLE ou keyword

Mot ou groupe de mot, éventuellement dans une forme lexicographique normalisée, choisi dans le titre ou le texte d'un document, caractérisé par le contenu et permettant la recherche de ce document.

- OPERATEUR BOOLEEN

Pour effectuer une recherche par mots-clés, on couple souvent une suite de mots grâce à des opérateurs booléens.

Venant du nom de George Boole (mathématicien britannique) ces opérateurs permettent d'élargir ou de restreindre la recherche en imposant certains mots et en excluant d'autres.

Il existe plusieurs opérateurs booléens :

ET [AND] (la recherche se fait obligatoirement sur les deux mots saisis);

OU [OR] (la recherche se fait soit sur l'un des mots saisis, soit sur l'autre, soit sur les deux);

SAUF [WITHOUT] (qui exclut le terme en question de la recherche).

PORTAIL

Terme générique pour désigner un site qui sert de point d'entrée sur l'Internet pour un nombre important d'utilisateurs.

- REGROUPEMENT ou cluster ou méthode de clustering

Affichage d'une seule adresse pour chaque site Web sur la page des résultats d'un outil de recherche. Cette méthode permet d'éviter qu'un petit nombre de sites occupe toutes les premières positions de résultats et en facilite la lecture pour l'utilisateur.

- ROBOT

Programmes de navigation qui suivent les liens hypertextes des pages Web mais qui ne sont par directement sous contrôle humain.

- URL

Uniform Resource Locator : adresse d'un site Web.

Références

Documents relatifs

La programmation sur ordinateur ou calculatrice programmable d’une grille autoréférente est très simple mais elle enlève tout le plaisir de la recherche manuelle. Elle a pour

La programmation sur ordinateur ou calculatrice programmable d’une grille autoréférente est très simple mais elle enlève tout le plaisir de la recherche manuelle. Elle a pour

En se limitant au meilleur moteur de dépistage de l'information, c'est-à-dire le modèle Okapi, notre stratégie de fusion propose, pour le corpus TREC 8, une précision moyenne de

Mathématiques Devoir n°1:. les complexes et les

C’est en fonction du contexte (l’ensemble des mots qui l’accompagnent) que l’on peut identifier le sens dans lequel il est employé.. Exemple : Cet explorateur a parcouru

C’est en fonction du contexte (l’ensemble des mots qui l’accompagnent) que l’on peut identifier le sens dans lequel il est employé.. Exemple : Cet explorateur a parcouru la terre

mais, inopinément, Georgina était survenue ou avait appelé Mathurine, ou bien encore le vieux Fanche était apparu aux alentours, et Alix se

Pour vous aider dans vos recherches sur Internet, vous disposez de plusieurs types d'outils : annuaires (annuaires thématiques ou répertoires), moteurs de recherche, métamoteurs,