• Aucun résultat trouvé

Les deux axiomes du PageRank

Le PageRank, introduit par Brin et al. en 1998 [PBMW98], est la méthode de classement qui a fait la spécificité du moteur de recherche Google [Goo98]. Il s’agit en fait d’une adaptation au Web de diverses méthodes introduites par les scientomètres3 depuis les années 1950. Deux méthodes scientométriques en particulier doivent être évoquées :

Le comptage de citations En 1963, Price publie Little Science, Big Science [SP63]. Dans ce livre, premier ouvrage majeur traitant de ce qui deviendra plus tard la scientométrie, il propose de mesurer la qualité de la production scientifique grâce, entre autres, à une tech- nique très simple, le comptage de citations : une des manières de mesurer la qualité d’une publication est de dénombrer le nombre de fois où cette publication est citée.

Modélisation markovienne Les chaînes de Markov, décrites dans le chapitre 4, permettent non seulement de jouer au MonopolyTM, mais aussi de modéliser l’évolution d’une population répartie entre plusieurs états à condition d’arriver à estimer les probabilités de transition

3. Cela fait maintenant quelques dizaines d’années qu’un nouveau domaine de la recherche est apparu qui se consacre à l’étude de la production intellectuelle humaine. Les principales branches de cette méta-science sont :

Bibliométrie définie en 1969 comme « l’application des mathématiques et des méthodes statistiques aux livres,

articles et autres moyens de communication ».

Scientométrie on peut la considérer comme la bibliométrie spécialisée au domaine de l’Information Scientifique

et Technique (IST). Toutefois, la scientométrie désigne d’une manière générale l’application de méthodes statistiques à des données quantitatives (économiques, humaines, bibliographiques) caractéristiques de l’état de la science.

Infométrie terme adopté en 1987 par la F.I.D. (International Federation of Documentation, IFD) pour désigner

l’ensemble des activités métriques relatives à l’information, couvrant aussi bien la bibliométrie que la scien- tométrie.

 Chap. 5 — PAGERANK,UNE MANIÈRE D’ESTIMER L’IMPORTANCE DES PAGES WEB

entre états. Par exemple, Goffman propose en 1971 l’étude de l’évolution de la recherche dans différents sous-domaines de la logique à l’aide de chaînes de Markov [Gof71]. Voyons maintenant comment Brin et al. ont adapté ces concepts à l’estimation de l’impor- tance des pages Web.

5.2.1

Une page importante est pointée par des pages importantes

Tranposée telle quelle aux graphes du Web, la méthode du comptage de citations revient à dire que l’importance d’une page est proportionnelle à son degré entrant, c’est-à-dire au nombre de pages qui la citent à travers un hyperlien :

I(v) = X

w→v 1,

w → v signifie w qui pointe sur v.

Bien que cette mesure puisse effectivement être utilisée pour estimer l’importance des pages [CGMP98], elle se trouve en partie dénaturée par l’inexistence d’un contrôle de qualité. En effet, lorsqu’un chercheur veut publier une communication dans une revue spécialisée, il doit passer par des comités de lecture qui évaluent la qualité de son travail selon des critères précis. À cause de cela, le fait même d’être publié donne un minimum d’importance aux articles considérés, et on a une certaine garantie que les citations que reçoit un papier ne sont pas complètement fantaisistes. Dans le cas du Web, ce garde-fou n’existe pas : à cause du faible coût intellectuel et matériel d’une page Web, n’importe qui peut pointer vers n’importe quoi sans que cela ait forcément un véritable sens4. Par exemple, pourquoi ne pas créer une multitude de pages vides de sens, mais qui me citent par des hyperliens, pour augmenter à l’envi ma propre importance ?

Brin et al. proposent de contrer ce problème par une description récursive de l’importance : Qu’est-ce qu’une page importante ? C’est une page pointée par des pages importantes. Concrè- tement, si une pagev est pointée par k pages v1, . . . , vk, l’importance dev doit être définie par :

I(v) = fv(I(v1), . . . , I(vk)) (5.1)

Il nous reste à définirfv et résoudre l’équation (5.1).

5.2.2

Le surfeur aléatoire : le hasard fait bien les choses

Une image d’Épinal du Web est le principe de la navigation par hyperliens : pour trouver ce qu’il cherche, l’internaute va naviguer de page en page et de clic en clic jusqu’à l’arrivée à bon port. Bien sûr, ce n’est pas ce qui se passe en pratique, autant pour des raisons techniques (il n’est

5.3 — LES MODÈLES CLASSIQUES 

pas toujours possible de rejoindre une pagep à partir d’une page q) que sociales (utilisation des

moteurs de recherche, lassitude de l’internaute. . . )5.

Brin et al. ont eu pour idée de modéliser le comportement de l’internaute cliqueur par une chaîne de Markov. Tout ce qu’il fallait, c’était trouver les probabilités de transitions d’une page à une autre. Une des manières les plus simples de voir les choses est de considérer qu’une fois sur une page donnée, l’internaute va cliquer de manière équiprobable sur un des liens contenu dans cette page : pv,w =    1 d(v) siv → w 0 sinon

, oùd est le degré sortant.

Ceci est la base du modèle du surfeur aléatoire. Pour Brin et al., étant donné que les graphes du Web reflètent une architecture volontaire et réfléchie, les pages intéressantes doivent être structurellement facile d’accès, tout comme une ville est d’autant plus accessible par le réseau routier qu’elle est importante. Donc, comme le surfeur aléatoire se laisse guider par le réseau des hyperliens, statistiquement, il devrait tomber d’autant plus souvent sur une page que celle-ci est importante. D’où l’idée de définir l’importance d’une page Web par la probabilité asymptotique de se trouver sur cette page dans le modèle du surfeur aléatoire.

5.2.3

Cohérence des deux interprétations

Maintenant que nous avons défini deux façons de considérer l’importance d’une page, consta- tons qu’elles se recoupent et désignent le même phénomène : en effet, dans le modèle du surfeur aléatoire, il est possible d’estimer la probabilité asymptotique de présence sur une page v en

fonction de celles des pagesw qui pointent vers v :

P (v) = X

w→v 1

d(w)P (w) (5.2)

On peut constater qu’on a bien une relation de transfert d’importance comme celle définie par l’équation (5.1), et que (5.2) obéit en plus à un principe de conservation : une page donnée transmet l’intégralité de son importance, celle-ci étant équitablement répartie entre les diffé- rentes pages pointées. La probabilité, vue comme une importance, se transmet donc à travers les hyperliens à la manière d’un flot.