Pertinence d’une page web
Pertinence d’une page web
Présentation historique du web
Le World Wide Web (WWW),
littéralement la « toile (d’araignée) mondiale », communément appelé le
web, est un système hypertexte public
fonctionnant sur internet qui permet de consulter des contenus avec un
Pertinence d’une page web
Présentation historique du web
Le 13 mars 1989, Tim Berners-Lee,
engagé au CERN à Genève en 1984 pour travailler sur l’acquisition et le traitement des données, propose de développer un système hypertexte organisé en Web, afin d’améliorer la diffusion des
Pertinence d’une page web
Présentation historique du web
Le 6 août 1991, Tim Berners-Lee rend le
projet WorldWideWeb public dans un message sur Usenet.
Pertinence d’une page web
Les moteurs de recherche avant
Un nouvel algorithme : motivations
Pertinence d’une page web
La formule introduite par Sergueï Brin
et Larry Page dans l’article fondateur
Un outil majeur : l’algèbre linéaire
11
22
1 ( ) n n PR T PR T PR T d PR A d N L T L T L T L Mesurer l’importance d’une page web
Un exemple
Mesurer l’importance d’une page web
Le comptage naïf inconvénient manipulation1
j i j
Mesurer l’importance d’une page web
Le comptage pondéré inconvénient manipulation1
j i j il
Mesurer l’importance d’une page web
Le comptage récursif
Une page j est importante si beaucoup
de pages importantes pointent vers j.
On tient compte de l’importance de la
page d’origine i et du nombre de liens qui en sont émis.
Mesurer l’importance d’une page web
Le comptage récursif plausibilité robustesse1
j i i j il
Mesurer l’importance d’une page web
Le comptage récursif : avec 11
n j i j i ia
j n
1
si
0 sinon
i i ji
j
l
a
Mesurer l’importance d’une page web
Le comptage récursif :
Les coefficients vérifient :
La matrice A constituée par ces coefficients est une matrice stochastique.
1 0 pour tout , et 1 pour tout i j n i j j a i j a i
Mesurer l’importance d’une page web
Le comptage récursif :
système linéaire de n équations à n inconnues (les μi)
où W est la matrice ligne ayant pour coefficients les μi
Mesurer l’importance d’une page web
Le comptage récursif : interprétation
probabilité d’aller de la page i à la page j, en suivant un des liens au hasard
On modélise ainsi un surfeur aléatoire.
i j
Mesurer l’importance d’une page web
Le comptage récursif :
si l’on note Xp la position du surfeur après p étapes : soit
1
1
1 p n p X i p p iP X
j
P
X
j P X
i
1
1 n p i j p iP X
j
a P X
i
Mesurer l’importance d’une page web
Le comptage récursif :
où Up désigne la matrice ligne ayant
pour i-ème coefficient
1
p p
U
U A
p
Mesurer l’importance d’une page web
Le comptage récursif :
où Up désigne la matrice ligne ayant
pour i-ème coefficient
0 p p
U
U A
p
P X
i
Mesurer l’importance d’une page web
Mesurer l’importance d’une page web
Un modèle plus raffiné : introduction du
coefficient de téléportation
avec probabilité c, le surfeur abandonne la page actuelle et recommence sur une des n pages du web, choisie de manière
équiprobable ;
avec probabilité 1 c, le surfeur suit un des liens de la page actuelle j, choisi de manière équiprobable parmi tous les liens émis.
Mesurer l’importance d’une page web
On obtient : ou encore puisque
1
11
n p i j p ic
P X
j
c
a P X
i
n
1
11
n p i j p ic
P X
j
c a
P X
i
n
11
n p iP X
i
Mesurer l’importance d’une page web
Cela se traduit par la relation
matricielle :
où J désigne la matrice carrée de
format (n,n) dont tous les coefficients sont égaux à 1.
11
p pc
U
U
J
c A
n
Mesurer l’importance d’une page web
Ou encore: où
11
p pU
c U A L
1 1
1
c
L
n
K
Mesurer l’importance d’une page web
Suite de matrices lignes de type
arithmético-géométrique
on commence par chercher un point fixe : H
en posant : , on obtient : puis p p V U H
1
0 p p p V c V A
1
0
p p p U c U H A HMesurer l’importance d’une page web
La constante c est un paramètre du
modèle.
c=0,15 correspond à suivre environ 6
Présentation d’exercices
possibles
Bibliographie
Document ressource Éduscol (juin 2012)
Michael Eisermann
Comment fonctionne Google ?
www-fourier.ujf-grenoble.fr/~eiserm
Christiane Rousseau et Yvan Saint-Aubin