Le PageRank - Bibliographies scientifiques : de la recherche d'informations à la production de

Le PageRank est un indice de popularité pour une page web, calculé selon un algorithme très sophistiqué, utilisé par Google. Initialement, l’algorithme « Method for Node Ranking in a Linked Database » fut développé par l’université de Stanford en 1997

et déposé par Page (2001) en 1998 pour le compte de Standford1 _{(renouvelé en 2001)}

qui en a concédé la licence à Google jusqu’en 2011. Cependant, le nom « PageRank »–

littéralement rang de la page2 _{– est une marque déposée par la société Google. Le}

PageRank fait partie des critères utilisés pour déterminer le positionnement d’une page dans l’affichage des résultats des requêtes sur Google. Il est présenté comme un gage de qualité basé sur la popularité. Examinons les bases de son fonctionnement.

Selon le collectif italien Ippolita (2008), le fonctionnement du PageRank repose sur la popularité d’une page web. Cette popularité est calculée à partir du nombre de sites qui ont au moins un lien pointant vers elle. À égalité de liens, deux pages web auront des PageRank différents selon l’importance de celles à qui elles sont reliées.

Partons du principe que le web est comparable à un graphe (Eisermann, 2009). Chaque document hypertexte est un nœud de ce graphe et les hyperliens forment des arcs valués entre ces nœuds. La valeur PageRank notée P R d’une page u dépend de

la somme des valeurs des PageRank de chaque page v de l’ensemble Bu. Ce dernier

contient toutes les pages ayant au moins un lien vers la page u, divisé par le nombre

L(v) de liens vers la page u depuis Bu (soit le cardinal de Bu).

P R(u) = ÿ

vœBu

P R(v)

L(v) (4.9)

Exemple : Nous souhaitons calculer le PageRank d’une page A, dans un micro

internet composé de quatre pages web : A, B, C et D. La première approximation du PageRank serait répartie également entre ces quatre documents. Au départ, chaque document commence par une estimation de 0,25 PageRank (1/4).

Posons que :

– la page B ayant un lien vers les pages C et A ;

1. Le brevet est accessible en ligne à l’url suivante :http://patft.uspto.gov/netacgi/ nph-Parser?Sect1=PTO1&Sect2=HITOFF&d=PALL&p=1&u="netahtml"PTO"srchnum.htm&r=1&f= G&l=50&s1=6,285,999.PN.&OS=PN/6,285,999&RS=PN/6,285,999

Figure 4.2: Illustration du PageRank

– la page D a des liens vers les trois pages.

Le crédit de lien est divisé entre tous les liens sortants d’une page.

P R(A) = P R(B) L(B) + P R(C) L(C) + P R(D) L(D) (4.10)

Ce qui, dans notre cas, donne :

P R(A) = 1/4 2 + 1/4 1 + 1/4 3 ƒ0, 125 + 0, 25 + 0, 083 ƒ 0, 458 (4.11)

Ainsi, la page B donne un vote de 0,125 à la page A et un vote de 0,125 à la page C. Seul un tiers du PageRank D est compté pour un PageRank (environ 0.083 voir illustration 4.2). En d’autres termes, le PageRank conféré par un lien sortant est égal au PageRank du document divisé par le nombre normalisé de liens sortants (L). Les liens vers des URL spéciﬁques ne comptent qu’une fois par document.

Pour l’usage grand public, le PageRank est lissé de manière logarithmique. Les internautes peuvent ainsi connaître une approximation grossière du PageRank (sur une échelle de 0 à 10) d’une page en consultant la Google Toolbar.

Plusieurs problèmes sont soulevés par le PageRank :

– La fraude aux liens de complaisance qui gonﬂent artiﬁciellement le PageRank. – La quantité de données. Calculer des relations dans une matrice avec des milliards

de sites à traiter prend un temps qui rend le résultat approximatif dès la ﬁn du calcul.

L’algorithme a été modiﬁé pour prendre plus en compte le contenu et la sémantique des sites web pour le classement. Espérons que Google Panda apportera une solution à ces problèmes.

4.3 Conclusion

Les facteurs qui tendent à la réussite d’une recherche d’information sont multiples. Le méthodologie de recherche d’information est une clé importante pour une collecte efficace qui trouve son équilibre entre bruit et silence. Cependant la qualité des interfaces de recherches, des bases de connaissances ainsi que de la méthode d’indexation font également la différence entre un système bruyant ou silencieux et un système efficace. S’il faut une méthodologie pour accéder à l’information, savoir trier l’information est également un tâche majeure, même au sein de la littérature scientifique. Une bonne connaissance de la scientométrie est un plus indéniable pour choisir les lectures qui permettront d’étayer une réflexion scientifique solide. Du point de vue de l’usager d’un système d’information, la notion de pertinence peut être interprétée comme une quête de sens. Les déductions tirées de cet examen qualitatif vont créer un lien psychocognitif entre les utilisateurs de SRI et l’information. Certains de ces liens deviennent alors des frontières qui déterminent ce que sera, et ce qui ne sera pas, incorporé dans la structure cognitive (Bartlett et Toms, 2004). Quels sont les enjeux qui font d’une recherche d’informations une réussite ou un échec ? Posons-nous la question de l’intégration de l’information et du rapport qu’a le processus de recherche avec les acquis d’un usager.

Chapitre

Les écoles de pensée en RI : Processus et

Cognition

Mais ces hommes sages, qui avaient jeté un regard

savant sur la nature de la cognition humaine, en

restèrent là ; et convaincus par tant d’essais qu’il n’en

pouvait résulter rien d’absolument certain, ils

bornèrent là leur recherche et s’arrêtèrent dans le

doute.

Charles François Dominique Villers

Philosophie de Kant ou Principes fondamentaux de la

philosophie transcendentale, p. 59

Ce que les hommes veulent en fait, ce n’est pas la

connaissance, c’est la certitude

Introduction

C

omme le montre ce début de ce manuscrit, le processus de formulation de la requête

informationnelle n’est pas transparent pour la plupart des utilisateurs du système d’information.

L’utilisateur du service de recherche d’information (SRI) documentaire « a parfois des difficultés à exposer sa question (...), il faut l’aider à reformuler une problématique aﬁn qu’elle puisse trouver un écho dans l’arbre des collections (Denecker et al., 2000, p. 17-18) ».

Déﬁnition de collection

Le terme de collection s’entend comme le regroupement volontaire de documents, d’objets, d’informations de provenances diverses, rassemblés en raison de la similitude d’un ou de plusieurs de leurs caractères. ADBS (2012).

Mais pour qu’un usager puisse convenablement formuler sa requête, faut donc qu’il prenne conscience de son besoin d’informations.

5.1 Le besoin d’information

Le besoin d’information selon Le Coadic (1997)

Du site Internet à la bibliothèque en passant par le centre de documentation et le musée, du livre à la revue en passant par le journal, la radio, la télévision, le cinéma, de la banque d’information à la bibliographie en passant par la revue de sommaires, les systèmes, les services, les produits d’information sont destinés à répondre aux besoins d’information d’usagers multiples et variés qui feront de l’information qu’ils auront obtenue des usages multiformes.

Le Coadic (2008) reprenant Baudrillard (1973) posait le besoin d’information comme « problème cognitif à résoudre ». Dans un contexte donné, le besoin d’information est le constat pour un individu d’un « état de connaissance insuffisant ou inadéquat » pour atteindre un objectif (cf. schéma ci-après).

⌥ ⌃

⌅ ⇧

contexte

–>

problème

–>

besoin

Le besoin d’information en contexte

Les sciences cognitives ont connu un fort essor dans les années 90, c’est durant cette période que les sciences documentaires ont décidé d’en tirer partie pour comprendre les mécanismes cognitifs liés à la recherche d’information, en y associant parfois des éléments de psychologie. En effet, « les sciences cognitives apportent de précieuses indications sur les mécanismes cognitifs et sur la manière dont un individu traite l’information et utilise la bibliothèque (Denecker et al., 2000, p. 21) ». Plusieurs méthodes de recherche d’information ont émergés de ces réﬂexions. Examinons ce cheminement.

Le problème du besoin d’information étant posé, il reste à le résoudre. Dans cette optique, Brookes (1980) propose son « équation fondamentale de la science de l’informa- tion » pour expliciter la transition de l’état de connaissance parcellaire initial C d’un

individu λ , vers un état CÕ

de connaissance augmenté par capitalisation du différentiel de connaissance δ extrait d’une information i.

CÕ = C + δCi (5.1)

Le besoin d’information, aussi appelé anomalie de connaissance par le Coadic, que

nous appelons « différentiel de connaissance1 _{» δ}

C entre l’état initial C et l’état de

satisfaction informationnelle CÕ

par rapport au problème est résolu par l’apport de l’information i.

De leur coté, Tricot et Rouet (2004) déﬁnissent le besoin d’informations comme un besoin de réduction d’incertitude. Il est difficile de considérer qu’une seule information peut combler le différentiel de connaissance. Le Coadic (2008) poursuit donc son analyse de la vision de Brookes (1980) en y ajoutant que la transition d’état se fait plus comme

une fonction récursive par la somme des informations i1,n extraites de divers documents.

L’équation fondamentale de la science de l’information pourrait alors trouver une

1. Différentiel comme combinaison des accroissements infinitésimaux des états de connaissance, la transition d’état ne se fait pas sur une seule information, mais comme somme de petits éléments.

explicitation fonctionnelle ainsi :

CÕ = C +ÿ

δC_i(1,n) (5.2)

Le Coadic (2008) pose le problème historique du manque d’intérêt de la bibliothéco- nomie en général pour les besoins d’information de l’usager préférant centrer sa réflexion sur le document. Il était considéré comme acquis qu’il est de la responsabilité de l’usager du système documentaire de diagnostiquer et d’identifier ses besoins. En particulier, sans une connaissance détaillée de la collection, et de l’environnement de numérique, la plupart des utilisateurs trouvent qu’il est difficile de formuler des requêtes en adéquation avec leurs besoins(Salton et Buckley, 1997). Connaître le mode de classification d’une collection n’est cependant pas suffisant pour en comprendre la complexité et donc l’utiliser efficacement car « le système de classification qui organise la collection en un ensemble intellectuel cohérent reste souvent impénétrable au public (Denecker et al., 2000, p. 18) ». En prenant le point de vue de l’usager, on ne peut que se ranger à l’avis de Denecker et al. et « on finit par se douter que sa manière d’appréhender la bibliothèque n’est tout à fait conforme aux projections des bibliothécaires ». (Denecker et al., 2000, p. 18) Nous présentons que l’opération initiale doit être intuitivement pensée comme un brouillon de formulation. Les éléments initialement récupérés pourront alors être confrontés à un filtre de pertinence basé sur l’expérience de l’utilisateur. Ainsi, de nouvelles formulations de requêtes améliorées pourraient être construites dans l’espoir de récupérer d’autres objets utiles lors des opérations de recherches ultérieures. Au fur et à mesure, l’utilisateur enrichit sa connaissance et sa compréhension du domaine qu’il étudie. Dans cette partie, nous allons tenter de démontrer la prépondérance d’une méthodologie de recherche d’information efficace. Dégager de l’information pertinente est une activité dont l’aspect (psycho) cognitif ne doit pas être négligé, sous peine d’aller vers de graves déconvenues.

Comme le disaient Salton et McGill (1986) dans Introduction to modern information retrieval :

systems are designed to aid human activites1_{. »}

Les difficultés de la recherche d’information ne peuvent être résolues simplement par la création d’interfaces qui permettraient à l’utilisateur de poser une question au système d’informations, à charge pour celui-ci de produire les documents pertinents. Salton rappelait ici qu’une recherche d’information ne se réduit pas à l’usage d’un système d’informations, c’est avant tout une activité humaine exigeant une méthodologie. La recherche d’information est une activité cognitive complexe. Elle fait appel à de nombreux savoirs et se compose en plusieurs tâches. De nombreux chercheurs se sont essayés à modéliser cette recherche d’information aﬁn de produire des outils techniques d’aide à la RI, ou d’améliorer l’apprentissage de la RI.

5.2 Information et connaissance

Dans le document Bibliographies scientifiques : de la recherche d'informations à la production de documents normés (Page 134-142)