• Aucun résultat trouvé

1.2. La genèse du moteur de recherche

1.2.3. Fonctionnement du moteur de recherche

« Un moteur de recherche est conçu pour faire une recherche à partir de quelques

mots-clés et obtenir, en résultats, une liste de liens vers des documents susceptibles d’être pertinents »88. Fort de savoir cela, il n’en reste pas moins que les questions que beaucoup de personnes se posent sont à peu près celles-ci : comment, à partir d’une requête, le moteur cherche-t-il, sélectionne-t-il et présente-t-il ses résultats ? Comment évalue-t-il la pertinence d’une page web ? Comment fait-il pour proposer des milliers de résultats en si peu de temps (souvent moins d’une seconde) ?

Brigitte Simonnot nous rappelle tout d’abord que, malgré l’évolution, la diversité et le perfectionnement des moteurs de recherches depuis leur invention, « leur principe général de

fonctionnement reste globalement toujours le même »89.

Tout d’abord, des robots (également nommés spiders ou crawlers) explorent les milliards de pages que contient le Web. Ils passent de page en page à l’aide des liens hypertextes qui correspondent à des adresses URL (Uniform Resource Locator) renvoyant à d’autres pages. L’URFIST de Rennes explique qu’en général, un robot commence ses visites des sites web à partir d’un noyau initial de pages riche en liens90

. Ces liens sont ensuite explorés soit en largeur (tous les liens de même niveau hiérarchique), soit en profondeur (exploration d’une branche particulière jusqu’au bout), soit de façon mixte (en largeur jusqu’à un certain niveau puis en profondeur). Cependant, des obstacles au travail des robots sont repérés : les types particuliers de pages, les pages dynamiques, les pages orphelines (celles dont aucun lien ne pointent vers elles ou qui n’ont fait l’objet d’aucun référencement), les pages à accès contrôlé, les pages interdites de référencement et les pages produites via un formulaire sont autant de pages inaccessibles aux moteurs de recherche.

Lors de la visite des pages web, les moteurs de recherche analysent le plus souvent du contenu textuel : le texte affiché dans le titre et sur les pages ainsi que les informations contenues dans

88

SIMONNOT, Brigitte. Moteurs de recherche. Op. cit.

89

Ibid.

90

MALINGRE, Marie-Laure, SERRES, Alexandre. La collecte des données. In : URFIST de Bretagne et des Pays de la Loire [en ligne]. 2002. Mis à jour en 2014. Disponible sur : http://www.sites.univ- rennes2.fr/urfist/ressources/moteurs-de-recherche-principes-de-fonctionnement/la-collecte-des-donnees

33

les métadonnées ou encore les URL. Ce contenu est collecté, indexé et stocké sur un serveur91. L’index d’un moteur constitue donc sa base de données. Il est composé des milliards de pages web et de documents collectés par le robot ainsi que des fichiers inverses contenant tous les termes d’accès et renvoyant aux pages web92.

Afin d’obtenir des renseignements relatifs à son besoin d’information, l’usager soumet une requête dans la barre d’interrogation du moteur de recherche. Il existe un langage syntaxique des requêtes commun à presque tous les moteurs de recherche. En effet, ils reconnaissent quasiment tous ce que l’on appelle les opérateurs booléens (et – ou – sauf), les opérateurs numériques ou encore les opérateurs de troncature. L’utilisateur peut ensuite effectuer sa requête en langage naturel ou bien sous forme de mots-clés93.

Lorsqu’un utilisateur formule une requête dans la barre d’interrogation, le moteur repère les chaines de caractères et consulte ses bases de données. Il est important ici de souligner que le moteur de recherche est une machine et qu’à ce titre, il est incapable de comprendre ou d’interpréter ce que l’usager a formulé dans sa requête. Il se contente de comparer les chaines de caractère (et non pas les mots-clés, le terme « mot » pouvant prêter à confusion car relevant du langage humain) présentes dans le formulaire de requête avec ce qui se trouve dans ses bases de données. Il retourne ensuite une liste de résultats contenant des liens vers des pages. Il faut bien réaliser ici que l’usager qui interroge un moteur de recherche ne scrute pas le Web en temps réel mais « consulte l’index d’une base de données constituée par

exploration successives du web »94. Cette liste proposée contient deux catégories de résultats : « les résultats éditoriaux ou résultats « naturels » et les liens [résultats] commerciaux ».95 La hiérarchie des résultats affichés dépend du système de référencement du moteur utilisé, le plus connu étant le PageRank de Google, algorithme qui mesure quantitativement la popularité d’une page web : plus une page web bénéficie de liens qui pointent vers elle et plus ces liens sont de qualités (c'est-à-dire issus de sites jugés eux-mêmes populaires et digne de confiance),

91

DELENGAIGNE, Xavier. Organiser sa veille sur Internet. Au-delà de Google…Outils et astuces pour le professionnel. Paris : Eyrolles, 2012. p. 74.

92

MALINGRE, Marie-Laure, SERRES, Alexandre. L’indexation, la constitution des index. In : URFIST de Bretagne et des Pays de la Loire [en ligne]. 2002. Mis à jour en 2014. Disponible sur : http://www.sites.univ- rennes2.fr/urfist/ressources/moteurs-de-recherche-principes-de-fonctionnement/lindexation-la-constitution-des- index [Consulté le 01/02/2015]

93

MALINGRE, Marie-Laure, SERRES, Alexandre. La présentation des résultats des requêtes. In : URFIST de Bretagne et des Pays de la Loire [en ligne]. 2002. Mis à jour en 2014. Disponible sur : http://www.sites.univ- rennes2.fr/urfist/ressources/moteurs-de-recherche-principes-de-fonctionnement/la-presentation-des-resultats-des- requet [Consulté le 01/02/2015]

94

MESGUICH, Véronique, THOMAS, Armelle. Net recherche 2010. Le guide pratique pour mieux trouver l’information utile et surveiller le web. Op. cit. p. 48.

95

34

plus son classement dans les pages de résultats s’améliore96. Il existe également d’autres critères utilisés par les moteurs afin de classer les résultats comme par exemple les indices de pondération des mots-clés ou les indices de confiance97. Le premier critère mentionné, celui de la pondération des mots-clés, fonctionne sur le principe que tous les mots n’ont pas la même importance. La position qu’ils occupent (par exemple dans le titre de la page) ou leur nombre d’occurrence au sein d’un même document leur attribuera un poids au moment de l’indexation. Le moteur utilisera ce critère pour mettre en relation les résultats envoyés et la requête formulée. Le second critère, l’indice de confiance, sert à contrebalancer l’indice de pondération des mots-clés qui offre trop de possibilités de fausser les résultats en insérant artificiellement des mots-clés dans les pages créées. Nous avons déjà évoqué le Pagerank de

Google qui prend en compte la popularité d’une page mais il existe également des moyens de

mesurer le niveau de confiance à accorder à une page. Il s’agit dans ce cas d’évaluer la structure de la page, l’accessibilité du site ou encore, la variété des types de contenus. Google utilise par exemple un indice de confiance, le TrustRank, basé sur ce que nous venons d’énoncer. Le classement des résultats est donc effectué en fonction de tous ces indices avec pour objectif d’afficher dans les 10 premiers résultats les documents qui répondent le mieux à la question98. L’enjeu de la méthode de classement est très important pour les moteurs de recherche vu que 90% des utilisateurs ne consultent que la première page de résultats et que plus de 40% des internautes cliqueraient sur le premier lien, 16% sur le deuxième, 10% sur le troisième et 5 à 6% sur les liens situés de la quatrième à la sixième place selon une étude réalisée en 2005 par des chercheurs de la Cornell University99.

À l’issu de ces quelques éléments d’informations nous ayant permis de définir et de comprendre le fonctionnement d’un moteur de recherche, nous pouvons d’ores et déjà pointer quelques notions qui paraissent indispensables à l’élaboration de la notion moteur de

recherche. Nous avons établi un premier classement de ces notions, selon qu’elles

apparaissent comme étant des notions « principales » ou « secondaires » mais quoiqu’il en soit, elles participent toutes à la compréhension de ce qu’est un moteur de recherche et de

96

DELENGAIGNE, Xavier. Organiser sa veille sur Internet. Au-delà de Google…Outils et astuces pour le professionnel. Op. cit. p. 74-75.

97

Ibid.

98

MALINGRE, Marie-Laure, SERRES, Alexandre. La présentation des résultats des requêtes. Op.cit.

99

ANDRIEU, Olivier. 42% des internautes cliquent sur le premier résultat. In : Abondance [en ligne]. 29 septembre 2005. Disponible sur : http://actu2.abondance.com/2005-39/etude.php [Consulté le 01/02/2015]

35

comment il fonctionne. Nous précisions également aussi que nous n’avons pas hiérarchisé les notions au sein des deux catégories et que nous les présentons dans un ordre alphabétique. Selon nous, les notions principales reliées à celle de moteur de recherche sont : algorithme,

base de données, chaine de caractères, classement, formulaire de requête/barre d’interrogation, index, indexation automatique, indice de confiance, indice de popularité, mot-clé, page de résultats, page web, pertinence, pondération de mots-clés, recensement/collecte, requête, requête simple/avancée, robot d’exploration, serveur.

Les notions secondaires seraient alors celles-ci : adresse URL, lien hypertexte, métadonnée,

opérateur booléen, opérateur de troncature, opérateur numérique, résultat commercial, résultat éditorial.