Comment classer les pages web
Principe du moteur de recherche
• Mise en mémoire des pages web
• Associer chaque page à des mot-clefs
• Objectif : Classification selon deux critères :
pertinence et popularité
Première approche
Exploitation
Comptage naïf
Avec le comptage naïf, la page 1 et la page 9 arrivent en tête : m1 = m9 = 4.
Comptage pondéré
La page 7 reçoit des liens depuis les pages 5, 6 et 8.
Venant de la page 5, il s'agit d'un lien parmi 3 liens émis, ℓ5 = 3.
De même, ℓ6 = ℓ8 = 2. Donc avec le comptage pondéré,
m7 = 1 / ℓ5 + 1 / ℓ6 + 1 / ℓ8 = 1/3 + 1/2 + 1/2 = 4/3.
l j : Nombre de liens émis par la source j vers i.
Comptage récursif
P1 P2 P3 P4 P5 P6 P7 P8 P9 P10 P11 P12 M = ( 2 ; 1 ; 1 ; 1 ; 3 ; 1 ; 2 ; 1 ; 2 ; 1 ; 1 ;1 )
m : poids de la
source j vers i.
Promenade aléatoire
P1 P2 P3 P4 P5 P6 P7 P8 P9 P10 P11 P12
t=0 0.00 0.00 0.00 0.00 0.00 0.00 1.00 0.00 0.00 0.00 0.00 0.00 t=1 0.00 0.00 0.00 0.00 1.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 t=2 0.00 0.00 0.00 0.00 0.00 0.33 0.33 0.33 0.00 0.00 0.00 0.00 t=3 0.17 0.00 0.00 0.00 0.33 0.00 0.33 0.00 0.17 0.00 0.00 0.00 t=4 0.00 0.04 0.04 0.04 0.42 0.11 0.11 0.11 0.00 0.04 0.04 0.04 t=5 0.12 0.02 0.02 0.02 0.11 0.14 0.25 0.14 0.12 0.02 0.02 0.02
…
t=29 0.12 0.06 0.06 0.06 0.12 0.06 0.12 0.06 0.12 0.06 0.06 0.06 t=30 0.12 0.06 0.06 0.06 0.12 0.06 0.12 0.06 0.12 0.06 0.06 0.06
Cas des « trous noirs »
m = (0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1).
Modèle utilisé par Google
Pour échapper aux trous noirs, Google utilise un modèle plus raffiné : avec une probabilité fixée c, le surfeur abandonne sa page actuelle Pj et recommence sur une des n pages du web, choisie de manière équiprobable; sinon, avec la probabilité 1 − c, le surfeur suit un des liens de la page Pj, choisi de manière
équiprobable.
Cette astuce de « téléportation » évite de se faire piéger par une page sans issue, et garantit d’arriver n’importe où dans le graphe.
(c/n) provient de la « téléportation » Avec 0 < c ≤ 1