• Aucun résultat trouvé

Comment classer les pages web

N/A
N/A
Protected

Academic year: 2022

Partager "Comment classer les pages web"

Copied!
12
0
0

Texte intégral

(1)

Comment classer les pages web

(2)

Principe du moteur de recherche

• Mise en mémoire des pages web

• Associer chaque page à des mot-clefs

• Objectif : Classification selon deux critères :

pertinence et popularité

(3)

Première approche

(4)

Exploitation

(5)

Comptage naïf

Avec le comptage naïf, la page 1 et la page 9 arrivent en tête : m1 = m9 = 4.

(6)

Comptage pondéré

La page 7 reçoit des liens depuis les pages 5, 6 et 8.

Venant de la page 5, il s'agit d'un lien parmi 3 liens émis, ℓ5 = 3.

De même, ℓ6 = ℓ8 = 2. Donc avec le comptage pondéré,

m7 = 1 / ℓ5 + 1 / ℓ6 + 1 / ℓ8 = 1/3 + 1/2 + 1/2 = 4/3.

l j : Nombre de liens émis par la source j vers i.

(7)

Comptage récursif

P1 P2 P3 P4 P5 P6 P7 P8 P9 P10 P11 P12 M = ( 2 ; 1 ; 1 ; 1 ; 3 ; 1 ; 2 ; 1 ; 2 ; 1 ; 1 ;1 )

m : poids de la

source j vers i.

(8)

Promenade aléatoire

P1 P2 P3 P4 P5 P6 P7 P8 P9 P10 P11 P12

t=0 0.00 0.00 0.00 0.00 0.00 0.00 1.00 0.00 0.00 0.00 0.00 0.00 t=1 0.00 0.00 0.00 0.00 1.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 t=2 0.00 0.00 0.00 0.00 0.00 0.33 0.33 0.33 0.00 0.00 0.00 0.00 t=3 0.17 0.00 0.00 0.00 0.33 0.00 0.33 0.00 0.17 0.00 0.00 0.00 t=4 0.00 0.04 0.04 0.04 0.42 0.11 0.11 0.11 0.00 0.04 0.04 0.04 t=5 0.12 0.02 0.02 0.02 0.11 0.14 0.25 0.14 0.12 0.02 0.02 0.02

t=29 0.12 0.06 0.06 0.06 0.12 0.06 0.12 0.06 0.12 0.06 0.06 0.06 t=30 0.12 0.06 0.06 0.06 0.12 0.06 0.12 0.06 0.12 0.06 0.06 0.06

(9)

Cas des « trous noirs »

m = (0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1).

(10)

Modèle utilisé par Google

Pour échapper aux trous noirs, Google utilise un modèle plus raffiné : avec une probabilité fixée c, le surfeur abandonne sa page actuelle Pj et recommence sur une des n pages du web, choisie de manière équiprobable; sinon, avec la probabilité 1 − c, le surfeur suit un des liens de la page Pj, choisi de manière

équiprobable.

Cette astuce de « téléportation » évite de se faire piéger par une page sans issue, et garantit d’arriver n’importe où dans le graphe.

(c/n) provient de la « téléportation » Avec 0 < c ≤ 1

(11)

Conclusion

• Pour être utile, un moteur de recherche doit non seulement énumérer les résultats d’une requête, mais les classer par ordre d’importance. Or, estimer la pertinence des pages web est un profond défi de modélisation.

• En première approximation, Google analyse le graphe formé par les liens entre pages web. Interprétant un lien j → i comme « vote » de la page P

j

en faveur de la page P

i

, le modèle Page-Rank (6) définit une mesure de « popularité ».

• Le théorème du point fixe assure que cette équation admet une unique solution, et justifie l’algorithme itératif (5) pour l’approcher.

Celui-ci est facile à implémenter et assez efficace pour les graphes de grandeur nature.

• Muni de ces outils mathématiques et d’une habile stratégie

d’entreprise, Google gagne des milliards de dollars. Il fallait y penser

!

(12)

Source

• http://interstices.info/jcms/c_47076/commen

t-google-classe-les-pages-web

Références

Documents relatifs

Il y a donc d’autres m´ecanismes qui permettent d’ajouter des nouvelles pages entre deux PageRank et aussi de modifier le classement en fonction des « cliques » sur les recherches.

La civilisation arabo-musulmane a connu son âge d’or grâce à une panoplie de savants dont les traces sont visibles jusqu’à nos jours. Al Khawarizmi Ibn

3) Les mises en forme et les fonds de pages sont au choix de l’élève, mais sont considérés dans l’évaluation du site web.. 4) Chaque page doit contenir un

Le devoir consiste à créer un site web contenant une page d’accueil, un formulaire de création d’adresse e-mail et une page web de confirmation d’enregistrement.. Créer un

une des six pages au hasard en relançant le dé sinon, vous choisirez au hasard un des lien proposé sur la page actuelle en relançant le dé... Récupérer ce code

- Appeler votre professeur pour qu’il valide votre article et qu’il vérifie le bon fonctionnement de celui-ci. 4) Exercice 4 : Création d’un article avec des documents joints

The Creating Web Pages All-in-One Desk Reference For Dummies is intended to be a reference for all the great things (and maybe a few not-so-great things) that you may need to know

The only trouble is, HTML doesn’t allow you to specify a location within the page using normal language — you can’t say “link to the spot just below the picture of Britney Spears