• Aucun résultat trouvé

Panorama des outils de recherche d’informations actuels:

2.2 La recherche d’informations:

2.2.2 Panorama des outils de recherche d’informations actuels:

L’apparition du World-Wide Web, a conduit à une croissance exponentielle du nombre d'utilisateurs du réseau mais aussi à une croissance exponentielle du nombre de textes accessibles aux utilisateurs. Des quelques centaines de milliers de pages de texte accessibles en 1993, le stock d’information sur Internet atteint aujourd’hui quelques centaines de millions (350 millions en juillet 1998 d’après l’estimation de (Broder et Henzinger, 1998), avec un taux de croissance estimé à 20 millions de pages par mois. Il est donc devenu impossible de naviguer sur cet océan de données et de localiser l’information souhaitée sans des outils appropriés.

C’est ce qui a permis la rapidité de développement d’outils d’aide à la navigation on distingue les annuaires thématiques, qui procèdent à un référencement et une description humaines des sites Web (par exemple la partie annuaire de Yahoo, Nomade, l’Open Directory…) et les moteurs de recherche (Google, Alta Vista, Exalead, Wisenut, YST…), qui fonctionnent par collecte et indexation automatisées des pages Web (et non des sites) (Vignaux, 2007). Les moteurs de recherche apportent une réponse plus " technologique" basée sur des outils informatiques beaucoup plus puissants mais sans intelligence particulière (Bourdoncle, 1999).

Cette distinction, « historique » car elle a longtemps structuré le monde des outils, est moins nette aujourd’hui, à cause de la mixité, de l’imbrication des annuaires et des moteurs : Google utilise l’annuaire de l’Open Directory, Yahoo a son propre moteur, etc (Vignaux, 2007).

Mais le critère des modes d’indexation reste essentiel, car il induit des ressources, des usages et des technologies très différentes. Ainsi un annuaire thématique va-t-il référencer des sites Web, là où un moteur indexera toutes les pages d’un site ; l’annuaire facilitera le défrichage, le premier repérage des ressources dans un domaine ou un secteur défini, par l’organisation arborescente proposée, alors qu’un moteur de recherche permettra de trouver un document très précis. Autrement dit, les deux familles se prêtent à des utilisations complémentaires : pour connaître la liste des journaux présents sur le Web, la navigation dans un annuaire sera recommandée, alors

que vous y trouverez difficilement un support pédagogique sous Power Point, en français, paru en 2002 et traitant du fonctionnement des ordinateurs… (Serres, 2004). Afin d’améliorer la pertinence des documents retournés, les moteurs de recherche disposent de plusieurs angles d’attaque. L’un des premiers concerne les requêtes elles- mêmes, par exemple la correction orthographique ou la détection automatique des phrases (Bourdoncle, 1999).

Cependant, le principal levier dont dispose l’architecte d’un moteur de recherche reste encore l’amélioration de l’algorithme d’évaluation de pertinence (ranking.) En effet, les algorithmes traditionnels, fondés sur la mise en correspondance des mots des requêtes et des mots contenus dans les documents trouvent rapidement leurs limites sur le World-Wide Web (Bourdoncle, 1999).

Allant faire un tour d’horizon autour des approches de classement des résultats des moteurs de recherche pour aider les utilisateurs dans leurs recherches citons par exemple (Bourdoncle, 1999):

• Une approche permettant de classer les résultats des recherches dans des dossiers thématiques (dont la liste est établie manuellement), a plus récemment été déployée sur le moteur de recherche NorthernLight (www.northernlight.com).

La fonction What’s Related de Netscape (www.netscape.com) proposant des liens vers des pages au contenu proche d’une page donnée,

La fonction More Like This du moteur Excite (www.excite.com) permettant d’affiner une requête de manière à rechercher des pages au contenu proche d’un des résultats de cette requête.

• l’approches alternatives de celle suivie par les moteurs de recherche, comme la recherche par nom de marques de RealNames (www.realnames.com), la reformulation de requêtes en questions aux réponses connues, voie suivie par AskJeeves (www.askjeeves.com),

L’approche des anneaux (rings en anglais) qui consiste à relier entre eux par des liens hypertextes les sites aux contenus voisins (ce qui ne résout toutefois pas le problème de trouver un premier site situé dans l’anneau).

En plus des annuaires et des moteurs de recherche il y a encore les méta-moteurs qui interrogent en parallèle plusieurs moteurs de recherche classiques et fusionnent ensuite de manière intelligente les résultats de ces derniers (Bourdoncle, 1999), les portails et les outils dits annexes. Un portail se distingue notamment des autres outils traditionnels par un ensemble de services personnalisés offerts aux usagers (compte personnel, messagerie, commerce, commande de documents, veille, etc.). Quant aux « outils annexes », il s’agit d’un ensemble d’outils diversifiés, pouvant servir à la recherche d’information et à la veille : « aspirateurs de sites » Web, organisateurs de signets, outils collaboratifs de partage des signets (Vignaux, 2007).

Néanmoins, les moteurs de recherche rendent souvent des centaines de documents pour chaque requête. La tâche la plus lourde revient à l‘utilisateur qui doit fouiller dans cette masse d‘information pour sélectionner les documents qui lui seront les plus utiles. Les résultats ne sont pas tout pertinents et l‘information retrouvée n‘est pas complète. Autrement dit, la recherche plein texte n‘est pas toujours efficace car il existe des variantes lexicales et des synonymes considérés comme étant des termes différents (Anh, 2005).

La problématique qui se pose est celle d‘une recherche d‘informations intelligente où l‘indexation devrait reposer sur la sémantique des ressources comme étant «l‘explication de structures et de concepts contenus dans les documents numériques ou qui leur sont associés». L‘intérêt est d‘une part d‘apporter suffisamment de renseignements sur les ressources, en ajoutant des annotations sous la forme de métadonnées et d‘autre part, de décrire leur contenu de manière à la fois formelle et signifiante à l‘aide d‘une ontologie pour être interprétables aussi bien par les humains que par les machines (Anh, 2005).

Documents relatifs