• Aucun résultat trouvé

5.3 Les modèles classiques

5.3.5 Choix de d

Avant d’aller plus loin, il convient de parler du choix du paramètre d et des raisons qui

ont poussé à faire ce choix. Pour commencer, précisons une réalité empirique universelle et inaltérable :d vaut 0, 85, à 0, 05 près. Depuis les débuts du PageRank, 0, 85 a en effet toujours

été la valeur de référence, et à ma connaissance, les calculs pratiques de PageRank suivant le modèle de source de rang vu lors de la section 5.3.4 utilisent toujours und compris entre 0, 8 et 0, 9.

5.3 — LES MODÈLES CLASSIQUES 

Compromis convergence/altération du graphe

D’après le théorème 8, siA est stochastique, ce que l’on peut supposer quite à effectuer une

complétion, les valeurs propres de bA autres que 1 sont inférieures à d en valeur absolue17. Cela

garantit aux algorithmes 3 et 4 une convergence géométrique de raison au plus égale à d. On

a donc intérêt à choisir d le plus petit possible. . . sauf que plus d est petit, plus l’influence du

zap, qui est une composante extérieure au graphe intrinsèque du Web, est grande. Un d petit

altère, voire dénature le graphe sous-jacent. Choisir le plus grandd garantissant une convergence

raisonnable semble donc un bon compromis. Or, les limitations techniques font que le nombre d’itérations réalisables par un moteur de recherche comme Google est de l’ordre de la centaine18.

d = 0, 85 offre une précision de 10−8 au bout de114 itérations, 10−11au bout de156 itérations,

et semble donc être heuristiquement le compromis recherché. En effet, comme nous le verrons dans la section 5.5 page 99,10−8correspond au seuil de différenciation d’un graphe du Web d’un

million de pages, alors que10−11est le seuil de différenciation pour un milliard de pages.

Théorème 8 SoitA une matrice stochastique. Si x est un vecteur propre de bAtassocié àλ 6= 1,

alorsx est un vecteur propre de Atet bAtx = dAtx. En particulier, |λ| ≤ d.

Preuve : Comme 1 est vecteur propre gauche de bAtassocié à1, on a

1 bAtx = 1.x = λ1.x Commeλ 6= 1, 1.x = 0, d’où b Atx = λx = (d.At+ (1 − d).(Z.1))x = dAtx  Remarque 7

Dans [KHMG03b] se trouve une preuve du fait que toute valeur propre autre que1(qui est simple pourAb) est inférieure àd. Dans [LM04], il est montré en plus que les valeurs propres secondaires deAbsont égales àdfois celles deA(les multiplicités de1étant comptées comme secondaires), et

17. Si A possède plus d’une composante fortement connexe récurrente, d est une valeur propre.

18. Il faut en effet recalculer le PageRank périodiquement, et avec plusieurs milliards de pages à traiter, chaque itération prend un temps non négligeable.

 Chap. 5 — PAGERANK,UNE MANIÈRE D’ESTIMER L’IMPORTANCE DES PAGES WEB

les auteurs affirment que leur preuve est plus compacte que celle de [KHMG03b]. Le théorème 8 montre en plus que les vecteurs propres secondaires deAbtsont ceux deAt, et nous affirmons que notre preuve est plus compacte que celle de [LM04]. Il ne reste plus qu’à trouver un théorème plus précis que le théorème 8, avec une preuve plus compacte. . .

Améliorer le modèle du surfeur aléatoire

L’interprétation du facteur zap en terme de surfeur aléatoire, avec à chaque étape une pro- babilitéd de suivre un lien, fait que la longueur des chemins suivis entre deux zap suit une loi

géométrique de raisond. En particulier, la longueur moyenne d’un chemin entre deux zap vaut ∞ X k=0 kdk(1 − d) = ∞ X k=1 dk = d 1 − d

Pour d = 0, 85, cela donne une longueur moyenne entre deux zaps successifs d’environ

5, 67. On peut interpréter cela comme le nombre moyen de liens que notre surfeur aléatoire va

suivre avant de se lasser et de zapper ailleurs. À titre de comparaison, différentes études donnent, suivant l’époque et la méthode employée, des nombres variant entre3 et 10 [CP95, WM04]. Dans

[MFJR+04], il apparaît que la taille moyenne des trails19est de. . .5, 6 ! Pourtant, on trouve dans

ce même article que l’usage des liens de navigations représente seulement 42, 5% des moyens

d’accès aux pages. De plus, aucune des études citées n’a mis en évidence une répartition selon une loi géométrique.

On conclura donc que le choix pour d de 0, 85 peut s’interpréter comme une manière de

modéliser le comportement des surfeurs, mais qu’il ne faut pas forcément considérer cette mo- délisation comme réaliste.

Conclusion

Nous venons de voir des raisons justifiant le choix d = 0, 85. J’aimerais conclure par une

anecdote concernant l’étude du PageRank à l’intérieur du site de l’INRIA (cf annexe B). Afin de calculer le PageRank local, j’ai testé différentes valeurs de d et constaté expérimentalement les

effets obtenus.

• Quand d est trop petit, le classement par PageRank se rapproche de plus en plus du clas-

sement par degré entrant. En effet, prendre d petit revient, nous l’avons vu, à réduire la

longueur du chemin moyen parcouru par le surfeur aléatoire entre deux zaps. Intuitive- ment, on réduit ainsi la portée de la vision du surfeur. Àd = 0, 7, il ne « voit » qu’à 2, 33

pages, et pour d = 0, 5, la portée du surf est d’une page. On se rapproche donc de la

version non-récursive du PageRank, le comptage de liens entrants (pondéré parZ). Plus

19. Un trail (séquence) commence à chaque fois qu’un utilisateur tape une URL à la main, utilise ses Bookmarks ou tout autre liste pré-établie pour accéder à une URL.

5.4 — SOURCE DE RANG ET MATRICES SOUS-STOCHASTIQUES 

formellement, il est facile de constater que la distribution stationnaire est égale, à l’ordre

1 en d, à Z + d.At.Z. Si Z est la distribution uniforme (ce qui est le cas par défaut, et en

particulier pour l’étude du PageRank de l’INRIA), quandd → 0, avec d 6= 0, le classement

induit par la distribution stationnaire est égal au classement par degré entrant.

• Quand d est trop grand, bA tend vers A, et le vecteur propre maximal se rapproche d’un

vecteur propre maximal deA. En particulier, le PageRank se met à se concentrer sur les

composantes fortement connexes récurrentes et autres pièges à PageRank (voir la section 7.5 sur le rôle modérateur ded dans l’auto-amplification du PageRank d’une composante).

Plus que le problème de la convergence (la taille du site de l’INRIA autorise suffisamment d’itérations pour toujours obtenir un point fixe) se pose le problème dit des « puits de rang » : le PageRank est « absorbé » par un sous-ensemble de pages, et ne donne donc pas forcément la distribution que l’on souhaiterait.

Ces constatations faites, j’ai essayé de minimiser l’importance d’un couple de pages peu per- tinentes, mais possédant un fort degré entrant et situées dans un fort « puit de rang ». Cette mi- nimisation (manuelle) a été atteinte pour. . .d = 0, 9. De mon expérience personnelle, il apparaît

donc que le choix ded est surtout motivé par des raisons structurelles, même si le choix initial de

Brin et Page semble avoir été motivé par la modélisation du surfeur aléatoire [PBMW98, BP98].