• Aucun résultat trouvé

Convergence en norme 1 et convergence du classement

Dans tous les algorithmes de PageRank que nous avons présentés, comme dans tous ceux que nous allons présenter, nous utilisons comme critère de convergence la convergence en norme 1

d’une suitePnde vecteurs positifs. Ainsi, lorsque qu’une source de rang associée à un facteur zap d est utilisée et que le critère de convergence  est atteint, nous savons que l’erreur par rapport au

vecteur limite est d’au plus 1−d . Pourtant, seul le classement induit parP nous intéresse a priori,

puisque l’intérêt principal du PageRank est de fournir un ordre d’importance sur les pages Web considérées21.

21. Dans la réalité, les choses sont légèrement différentes. Le classement renvoyé pour une requête donnée est vraisemblablement le résultat de la confrontation de plusieurs estimations d’importances, la pertinence et le Page- Rank étant les principales d’entre elles. Connaître le PageRank quantitatif des pages peut alors avoir un intérêt.

 Chap. 5 — PAGERANK,UNE MANIÈRE D’ESTIMER L’IMPORTANCE DES PAGES WEB

5.5.1

Distance de Kendall normalisée

Une première solution est de comparer à chaque itération les classements induits, et d’arrêter lorsqu’il n’y a plus de changement. On peut également définir une distance sur les classements et remplacer la convergence en norme1 par une convergence sur les classements. Une distance

assez classique sur les classements est la distance de la différence symétrique, ou distance de Kendall22: siσ

1 et σ2 sont deux classements, présenté sous la forme de permutations, alors la

distance de Kendall entre ces deux permutations est le nombre minimum d’inversion de deux éléments conjoints nécessaires pour passer de l’une à l’autre. On peut montrer que cette distance est invariante par translation et que la distance d’une permutationσ à l’identité est :

dist(σ, id) =X

i<j

χσ(i)>σ(j)

La distance entre deux permutationsσ1etσ2est doncdist(σ1, σ2) = dist(σ1◦ σ−12 , Id).

Comme la plus grande distance possibledistmaxentre deux permutations de taillen est celle

entre deux classements inversés, à savoir n(n−1)2 , on pourra si l’on veut un critère de convergence indépendant de la taille du classement considérer la distance de kendall normalisée pardistmax.

Les applications pratiques de l’étude de la convergence selon la distance de kendall sont en- core à l’étude, nous nous conterons donc dans ce mémoire de cette courte introduction théorique.

5.5.2

Densité de PageRank

Par un simple raisonnement d’ordre de grandeur, il est possible d’établir un lien entre et la

convergence du classement. Le point de départ est l’étude du rapport entre le classement d’une page et son PageRank. La figure 5.2 représente ce lien pour deux modèles de PageRank que nous allons étudier plus en détail : le PageRankµ-compensé standard avec zap uniforme sur V , ainsi

que le PageRankµ-compensé avec technique d’effeuillage-remplumage et zap uniforme sur R.

Le facteur de zapd vaut évidemment 0, 85.

La régularité des courbes23 nous incite à considérer la densité mésoscopique de pages à un PageRank donné : on cherche à savoir quel est le nombre dN de pages dont le PageRank est

compris entrep et p + dp. On se place pour cela à l’échelle mésoscopique, c’est-à-dire que l’on

supposedp  p et dN  1. Expérimentalement, nous avons constaté que l’hypothèse méso-

scopique était tout à fait réaliste sur des graphes de plus d’un million de sommets. Nous avons également observé qu’il existait, pour chaque modèle de PageRank, une fonctionρ, relativement

indépendante du graphe du Web considéré24, telle que, sin est le nombre de pages du graphe,

22. Merci à François Durand et à son rapport de maîtrise[Dur03] pour m’avoir fait connaître la distance de Kendall. 23. Pour chacun des deux PageRanks étudiés ici, nous n’avons représenté qu’une seule courbe, mais expérimen- talement, les autres échantillons étudiés génèrent des courbes extrêmement similaires.

24. Dans le cas du PageRank avec effeuillage-remplumage, ceci est valable pour une proportion de pages sans lien donnée. Empiriquement, cette constante est souvent un invariant de crawl.

5.5 — CONVERGENCE EN NORME1ET CONVERGENCE DU CLASSEMENT  100 102 104 106 108 10−11 10−10 10−9 10−8 10−7 10−6 10−5 10−4 10−3 Classement PageRank PageRank sur V

PageRank sur R remplumé sur V

FIG. 5.2 – Lien entre le classement d’une page et son PageRank

dN

dp ≈ n

2ρ(np) (5.8)

ρ est la densité mésoscopique normalisée (indépendante de la taille n du graphe) typique du

modèle de PageRank considéré. La figure 5.3 montre des mesures expérimentales deρ corres-

pondant aux deux modèles étudiés ici. Pour le PageRank surV avec zap uniforme, on constate

queρ est d’autant plus fort que le PageRank est faible, avec une zone extrêmement dense autour

du PageRank Minimum d’Insertion : un grand nombre de pages n’ont presque pas d’autre source de PageRank que le zap.

Pour le PageRank surR remplumé sur V , la nullité du PageRank en dehors de R provoque

une discontinuité de la densité mésoscopique : au-dessus du PageRank Minimum d’Insertion, la densité présente un profil semblable à celui rencontré dans le cas du PageRank avec zap uniforme, avec un maximum plus faible. En dessous du PRMI, le profil de densité correspond aux pages sans lien — qui ne reçoivent donc pas le PRMI — dont le PageRank reçu est inférieur au PRMI. La comparaison des profils de densité des deux modèles nous incite à penser que l’utilisation d’une source de zap uniforme de supportR au lieu de V permet d’étaler le PageRank des pages

 Chap. 5 — PAGERANK,UNE MANIÈRE D’ESTIMER L’IMPORTANCE DES PAGES WEB 10−4 10−2 100 102 104 10−10 10−8 10−6 10−4 10−2 100 102 104 np ρ (np ) PageRank sur V

PageRank sur R remplumé sur V

FIG. 5.3 – Densité mésoscopique normalisée de pages en fonction du PageRank

5.5.3

Seuil de différenciation

La densité nous fournit un seuil minimum de différenciation naturel : pour différencier les pages dont le PageRank se situe autour dep, il est nécessaire d’avoir pour chaque page une préci-

sion de PageRank d’au moins n2 1

ρ(np) (à un facteur2 près). Ce seuil de différenciation correspond

à un cas idéal où les PageRanks des pages seraient régulièrement réparties, et où la différence de PageRank entre 2 pages consécutives serait n2 1

ρ(np). Il nous fournit un ordre de grandeur de la

précision à atteindre pour espérer avoir le bon classement de PageRank.

Il reste à relier la précision sur une page à la précision sur l’ensemble des pages. Expérimen-

talement, nous avons constaté que pour l’immense majorité des pages de PageRank p, l’erreur

était inférieure àp, mais qu’il existait quelques pages qui dépassaient cette erreur d’un ordre de

grandeur.

Si l’on ne tient pas compte de ces pages atypiques, on obtient, si l’on veut se placer sous le seuil de différenciation, la relation

p < 1

n2ρ(np), c’est-à-dire

 < 1

5.5 — CONVERGENCE EN NORME1ET CONVERGENCE DU CLASSEMENT 

Tout comme pour la densité mésoscopique normalisée, la quantité Xρ(X)1 ne dépend pas de

n, mais juste du modèle de PageRank. Nous l’appellerons seuil de différenciation normalisé. La

figure 5.4 montre ce que vaut ce seuil de différenciation pour les deux PageRanks considérés ici.

10−4 10−3 10−2 10−1 100 101 102 103 104 10−1 100 101 102 103 104 105 np 1/( np ρ (np )) PageRank sur V

PageRank sur R remplumé sur V

FIG. 5.4 – Seuil de différenciation normalisé

Interprétation

Pour un PageRank donné, plus le seuil de différenciation est petit, plus il sera difficile de différencier les pages. On constate, comme l’intuition le laissait prévoir, que la différenciation la plus difficile est toujours située au niveau du PageRank Minimum d’Insertion. Avec un zap uniforme surV , elle vaut environ 10−1, soit une valeur préconisée de inférieure à 1

10n. Si le zap

est uniforme surR, le seuil minimum pour  est simplement de n1.

Nous suggérons donc, comme choix pratique de  dans les algorithmes de PageRank, de

prendre = 1

10n si le zap est uniforme sur R,  = 1

100n s’il est uniforme sur V (nous rajoutons

un facteur10 de sécurité, soit une quinzaine d’itérations pour d = 0, 85). Restreindre le zap sur

les pages sans lien permet donc une différenciation plus rapide, au prix d’une dépréciation des pages sans lien de faible PageRank par rapport aux pages avec lien(s) de faible PageRank25. Remarque 8

L’étude du seuil de différenciation que nous venons de réaliser donne une explication à la conver- gence rapide du classement des pages de fort PageRank généralement observée. En effet, on ob-

 Chap. 5 — PAGERANK,UNE MANIÈRE D’ESTIMER L’IMPORTANCE DES PAGES WEB

serve sur la figure 5.4 que le seuil de différenciation est beaucoup plus facile à atteindre pour les pages de fort PageRank. Ainsi, pour les pages dont le PageRank est au moins 100fois plus grand que le PageRank moyen, le seuil normalisé vaut1000, soit selon le modèle entre45et60

itérations de gagnées par rapport à une différenciation sur l’ensemble des pages.

Remarque 9

Nous avons signalé l’existence de quelques pages pour lesquelles l’erreur de PageRank était bien supérieure àp. À cause de ces pages atypiques, nous pouvons être à peu près certain que même avec le facteur10de sécurité que nous avons choisi, le classement ne sera pas totalement stabilisé.

Avoir un classement stabilisé sur toutes les pages demande beaucoup plus de précision que pour avoir un classement stabilisé sur la plupart des pages.Cette constatation, confirmée par un projet d’étudiants de l’université de l’Indiana [KL], met en évidence la nécessité de considérer une distance sur les classements (la distance de Kendall) si l’on veut travailler sur une convergence du classement.