Mesures sur des crawls - Graphes du Web, Mesures d'importance à la PageRank

L’étude et la comparaison des différents crawls est un sujet délicat à traîter. D’un côté, il y a les crawls commerciaux issus de moteurs de recherche, qui ne peuvent guère être accessibles qu’au travers de requêtes publiques faites sur les moteurs eux-mêmes, lesquelles requêtes sont très souvent bridées. De l’autre, les laboratoires de recherche offrent souvent des tailles plus réduites et des méthodes de crawl extrêmement variées. À cause de ces disparités, il peut être difficile de comparer différents résultats, voire de savoir s’ils sont comparables. L’objet de cette section est de répertorier différentes méthodes d’évaluation des crawls, dans le cas de données privées et celui de données publiques.

La méthode d’estimation des tailles réelles proposée par Greg Notess (cf section 2.2.2) peut également servir de mesure de qualité de crawl. En dénombrant les réponses faites à 25 requêtes représentatives, on mesure en effet en quelque sorte la capacité d’un moteur à répondre à ces requêtes, transformant en quelque sorte le biais des requêtes en mesure de qualité.

2.3.1 Techniques de chevauchement (overlap)

Ce système de comparaison par requêtes est utilisé de manière plus poussé dans la méthode de comparaison par chevauchement, introduite par Bharat et Broder en 1998 [BB98] et reprise par Lawrence et Giles [LG98, LG99].

Le principe du chevauchement est le suivant : arriver à mesurer entre deux moteurs le chevauchement de leurs index respectifs. Par exemple, si on peut déterminer qu’une fraction p

d’un index A est dans B, et si une fraction q de B est dans A, alors on peut en déduire que |A ∩ B| = p |A| = q |B|, et ainsi avoir le rapport de taille entre les index :

|A|

|B| =

q p

 Chap. 2 — CHALUTIERS ET TAILLES DUWEB

C’est là qu’intervient l’échantillonnage par requête : des requêtes créées par un générateur aléa- toire le plus uniforme possible, sont soumises à un moteur. À chaque fois, un des réponses parmi les 100 premières est choisie au hasard, et on vérifie, par des méthodes plus ou moins strictes, si cette réponse est dans l’index de l’autre moteur.

Par rapport à la méthode de Notess, deux autres sources de biais (en plus du biais dû au choix des requêtes et des biais standards d’échantillonnage) sont introduites :

Le biais de classement En choississant uniquement les échantillons parmi les 100 premières réponses (contrainte imposée par les moteurs de recherche eux-même), les classements (les importances) des pages considérées sont statistiquement plus élevés que la moyenne. Le biais de vérification Il n’y a pas de méthode parfaite pour contrôler l’appartenance d’une

page donnée à un index. Les différentes méthodes proposées par Bharat et Broder sont basées sur l’analyse d’une requête censée définir la page et les critères de validation vont de le moteur renvoie la bonne page à le moteur revoie un résultat non vide.

Les mesures par chevauchement ont eu leur heure de gloire au cours des guerres du Crawl8 (voir section 2.2), mais si elles ont l’avantage d’introduire un formalisme rigoureux, le coût en biais et la relative complexité de la méthode font que la méthode de Notess reste très compétitive.

2.3.2 Échantillonnage par marche aléatoire

Une variante intéressante de la méthode d’échantillonnage de Bharat et Broder a été proposée par Henzinger et al. [HHMN99] : plutôt que de mesurer un moteur à l’aide d’un autre, le principe est d’utiliser comme mètre-étalon un crawl personnel issu d’une marche aléatoire. Cette marche aléatoire ne fournit pas un échantillonnage uniforme des pages Web9_{, mais un échantillonnage}

qui, aux biais statistiques près, obéit à la distribution de probabilité associée à la marche aléatoire. Cette distribution sur les pages Web, plus connue sous le nom de PageRank (Voir la partie II, va permettre, en mesurant à l’aide des techniques de chevauchement la fraction des échantillons connus du moteur, d’estimer la quantité de PageRank contenue dans les pages connues du moteur. Le biais spécifique de cette méthode est que derrière l’échantillonnage par marche aléatoire se cache un crawl implicite, le crawl que l’on obtiendrait en laissant tourner la marche aléatoire suffisamment longtemps. On mesure donc le PageRank du moteur que l’on veut tester par rapport au PageRank sur ce crawl virtuel. En particulier, toute divergence entre les stratégies de crawl de la marche aléatoire et du moteur sont néfastes pour l’évaluation de ce dernier : si le moteur a indexé des parties du Web que la marche aléatoire, pour diverses raisons techniques, n’a jamais effleurées, ces parties ne compteront pas dans l’évaluation. À l’inverse, si certains sites sont vo- lontairement évités par les moteurs (des pouponnières par exemple, voir page 25), cette omission sera sanctionnée dans l’évaluation.

8. De là à dire que certains articles ont surtout servi à montrer qu’AltaVista avait la plus grosse basse de donnée, il n’y a qu’un pas que je franchirai section 3.2. . .



Chapitre 3

Graphes et structures du web

La vie est un papillon éphémère arborant les ailes du paradoxe.

BENOÎTGAGNON

Les sites ne changent pas d’aspect comme les hommes changent de visage.

TACITE

Un bon site Web est toujours en construction.

ANONYME

M

AINTENANT que les concepts de Web et de crawl ont été précisé, nous allons pouvoir étudier ce qu’il est possible d’en dire. Ce chapitre étant consacré aux structures, il convient de placer une structure canonique sur les crawls que l’on veut étudier. Une des structures les plus simples et les plus naturelles dans le cas des crawls du Web est la structure de graphe. Les graphes du Web, dont une définition est donnée section 3.1, sont un sujet d’étude fréquent. Après avoir analysé de manière critique l’un des modèles les plus connus, le modèle du nœud papillon (section 3.2), nous mettrons en évidence dans le reste du chapitre l’importance de la structure en sites dans les graphes du Web.

3.1 Graphes du Web : définition

Considérons un crawlC. Ce crawl est constitué d’un ensemble d’URLs, dont certaines ont été

visitées, et d’autres simplement détectées à travers les hyperliens des pages visitées. Il contient aussi l’ensemble des hyperliens des pages visitées. On appellera graphe du crawl C le graphe

 Chap. 3 — GRAPHES ET STRUCTURES DU WEB

e ∈ E relie une page i à une page j si, et seulement si, i contient un hyperlien pointant vers j.

Par convention, les ancres1 _{sont ignorées, et les liens multiples ne rajoutent rien au graphe (si}

une pagei possède deux hyperliens pointant vers j, le graphe aura toujours un seul arc de i vers j). De même, les liens d’une page vers elle-même ne seront pas pris en compte.

Par abus de langage, nous utiliserons souvent le terme graphe du Web pour désigner un tel grapheG. Il conviendra de toujours se rappeler qu’il s’agit toujours en fait de graphes de crawls.

Dans le document Graphes du Web, Mesures d'importance à la PageRank (Page 34-37)