Le Web, un graphe à fouiller
Pierre Senellart
TELECOM ParisTech
24 juillet 2008
Le graphe du Web
Le World Wide Web vu comme un graphe (orienté) : Nœuds : pages Web ;
Arêtes : liens entre pages.
Idem pour d’autres environnements hypertextes : dictionnaire monolingue ;
encyclopédie ;
publications scientifiques, avec liens de citation.
Introduction à PageRank
2 1 3
6
7 9
4
5
10
8
Introduction à PageRank
0.100 0.100
0.100
0.100
0.100 0.100
0.100
0.100
0.100
0.100
Introduction à PageRank
0.033 0.317
0.075
0.108
0.025 0.058
0.083
0.150
0.117
0.033
Introduction à PageRank
0.036 0.193
0.108
0.163
0.079 0.090
0.074
0.154
0.094
0.008
Introduction à PageRank
0.054 0.212
0.093
0.152
0.048 0.051
0.108
0.149
0.106
0.026
Introduction à PageRank
0.051 0.247
0.078
0.143
0.053 0.062
0.097
0.153
0.099
0.016
Introduction à PageRank
0.048 0.232
0.093
0.156
0.062 0.067
0.087
0.138
0.099
0.018
Introduction à PageRank
0.052 0.226
0.092
0.148
0.058 0.064
0.098
0.146
0.096
0.021
Introduction à PageRank
0.049 0.238
0.088
0.149
0.057 0.063
0.095
0.141
0.099
0.019
Introduction à PageRank
0.050 0.232
0.091
0.149
0.060 0.066
0.094
0.143
0.096
0.019
Introduction à PageRank
0.050 0.233
0.091
0.150
0.058 0.064
0.095
0.142
0.098
0.020
Introduction à PageRank
0.050 0.234
0.090
0.148
0.058 0.065
0.095
0.143
0.097
0.019
Introduction à PageRank
0.049 0.233
0.091
0.149
0.058 0.065
0.095
0.142
0.098
0.019
Introduction à PageRank
0.050 0.233
0.091
0.149
0.058 0.065
0.095
0.143
0.097
0.019
Introduction à PageRank
0.050 0.234
0.091
0.149
0.058 0.065
0.095
0.142
0.097
0.019
Collaboration avec Vincent Blondel, UCL.
Comparaison de graphes
HITS (Kleinberg)
2 1 3
6
7 9
4
5
10
8
Portail Autorité
Généralisation
2 1 3
6
7 9
4
5
10
8
Graphe arbitraire
Collaboration avec Vincent Blondel, UCL.
Comparaison de graphes
HITS (Kleinberg)
2 1 3
6
7 9
4
5
10
8
Portail Autorité
Généralisation
2 1 3
6
7 9
4
5
10
8
Graphe arbitraire Travaux
Modèle mathématique pour généraliser HITS
à la comparaison de nœuds entre deux graphes
arbitraires, avec processus itératif de calcul ;
Application au graphe 1 ! 2 ! 3 pour
extraire des synonymes dans un dictionnaire
monolingue.
Collaboration avec Serge Abiteboul, INRIA Futurs.
Frontières de sites Web
Site Web : ensemble des pages d’un même serveur Web ? Mais : De nombreux serveurs hébergent des sites différents.
Certains sites se répartissent sur des serveurs multiples (p.ex. pages statiques/dynamiques).
Notion hiérarchique de ce qu’est un site Web.
Collaboration avec Serge Abiteboul, INRIA Futurs.
Frontières de sites Web
Site Web : ensemble des pages d’un même serveur Web ? Mais : De nombreux serveurs hébergent des sites différents.
Certains sites se répartissent sur des serveurs multiples (p.ex. pages statiques/dynamiques).
Notion hiérarchique de ce qu’est un site Web.
Travaux
Méthode automatique, utilisant le flot maximal dans un réseau de transports, pour trouver les frontières d’un site Web.
Basée essentiellement sur le graphe du site,
pas sur le contenu des pages.
Collaboration avec Yann Ollivier, ENS Lyon.
Découverte de pages similaires
2 1 3
6
7 9
4
5
10
8
Collaboration avec Yann Ollivier, ENS Lyon.
Découverte de pages similaires
-0.050 -0.233
-0.091
-0.149
-0.058 0.935
-0.095
-0.143
-0.097
-0.019
Collaboration avec Yann Ollivier, ENS Lyon.
Découverte de pages similaires
-0.099 0.034
0.319
-0.298
-0.117 0.870
-0.190
-0.285
-0.194
-0.039
Collaboration avec Yann Ollivier, ENS Lyon.
Découverte de pages similaires
-0.149 -0.199
0.353
-0.322
-0.050 0.930
-0.035
-0.178
-0.291
-0.058
Collaboration avec Yann Ollivier, ENS Lyon.
Découverte de pages similaires
-0.157 -0.078
0.325
-0.304
-0.109 0.865
-0.026
-0.258
-0.222
-0.036
Collaboration avec Yann Ollivier, ENS Lyon.
Découverte de pages similaires
-0.151 -0.096
0.322
-0.333
-0.078 0.903
-0.034
-0.203
-0.273
-0.055
Collaboration avec Yann Ollivier, ENS Lyon.
Découverte de pages similaires
-0.161 -0.096
0.337
-0.300
-0.083 0.892
-0.045
-0.256
-0.242
-0.045
Collaboration avec Yann Ollivier, ENS Lyon.
Découverte de pages similaires
-0.150 -0.108
0.331
-0.328
-0.083 0.895
-0.027
-0.218
-0.267
-0.047
Collaboration avec Yann Ollivier, ENS Lyon.
Découverte de pages similaires
-0.159 -0.086
0.330
-0.312
-0.086 0.892
-0.039
-0.246
-0.248
-0.047
Collaboration avec Yann Ollivier, ENS Lyon.
Découverte de pages similaires
-0.154 -0.104
0.334
-0.321
-0.081 0.897
-0.034
-0.228
-0.262
-0.048
Collaboration avec Yann Ollivier, ENS Lyon.
Découverte de pages similaires
-0.157 -0.094
0.332
-0.314
-0.085 0.892
-0.035
-0.241
-0.252
-0.046
Collaboration avec Yann Ollivier, ENS Lyon.
Découverte de pages similaires
-0.155 -0.098
0.332
-0.320
-0.083 0.895
-0.034
-0.231
-0.259
-0.047
Collaboration avec Yann Ollivier, ENS Lyon.
Découverte de pages similaires
-0.157 -0.095
0.332
-0.315
-0.084 0.893
-0.036
-0.239
-0.253
-0.046
Collaboration avec Yann Ollivier, ENS Lyon.
Découverte de pages similaires
-0.155 -0.098
0.332
-0.318
-0.084 0.894
-0.034
-0.234
-0.257
-0.047
Collaboration avec Yann Ollivier, ENS Lyon.
Découverte de pages similaires
-0.156 -0.095
0.332
-0.316
-0.084 0.893
-0.035
-0.238
-0.254
-0.046
Collaboration avec Yann Ollivier, ENS Lyon.
Découverte de pages similaires
-0.156 -0.097
0.332
-0.318
-0.084 0.894
-0.034
-0.235
-0.256
-0.047
Collaboration avec Yann Ollivier, ENS Lyon.
Découverte de pages similaires
-0.156 -0.096
0.332
-0.316
-0.084 0.893
-0.035
-0.237
-0.254
-0.046
Collaboration avec Yann Ollivier, ENS Lyon.
Découverte de pages similaires
-0.156 -0.097
0.332
-0.317
-0.084 0.894
-0.034
-0.236
-0.255
-0.046
Collaboration avec Yann Ollivier, ENS Lyon.
Découverte de pages similaires
-0.156 -0.096
0.332
-0.316
-0.084 0.893
-0.034
-0.237
-0.254
-0.046
Collaboration avec Yann Ollivier, ENS Lyon.
Découverte de pages similaires
-0.156 -0.096
0.332
-0.317
-0.084 0.893
-0.034
-0.236
-0.255
-0.046
Collaboration avec Yann Ollivier, ENS Lyon.
Découverte de pages similaires
-0.156 -0.096
0.332
-0.316
-0.085 0.893
-0.034
-0.237
-0.254
-0.046
Collaboration avec Yann Ollivier, ENS Lyon.
Découverte de pages similaires
-0.156 -0.096
0.332
-0.316
-0.085 0.893
-0.034
-0.237
-0.254
-0.046
Travaux
Méthode automatique et mathématiquement fondée pour extraire un voisinage conceptuel d’un nœud dans un graphe.
Application à l’extraction d’articles sur des thèmes voisins dans Wikipedia.
Meilleurs résultats qu’approches classiques
(cocitations, cosinus, PageRank local. . .).
Collaboration avec Yann Ollivier, ENS Lyon.
Découverte de pages similaires
Example of related articles for Pierre de Fermat :
Green SymGreen PageRankOfLinks Cosine Cocitations
1. Pierre de Fermat 2. Toulouse 3. Fermat’s
Last Theorem 4. Diophantine
equation 5. Fermat’s
little theorem 6. Fermat
number 7. Grandes
écoles 8. Blaise Pascal 9. France 10. Pseudo-
prime
1. Pierre de Fermat 2. Mathematics 3. Probability
theory 4. Fermat’s
Last Theorem 5. Number
theory 6. Toulouse 7. Diophantine
equation 8. Blaise Pascal 9. Fermat’s
little theorem 10. Calculus
1. France 2. 17th century 3. March 4 4. January 12 5. August 17 6. Calculus 7. Lawyer 8. 1660 9. Number
theory 10. René
Descartes
1. Pierre de Fermat 2. ENSICA 3. Fermat’s theorem 4. International
School of Toulouse 5. École
Nationale Supérieure d’Électro- nique, d’Électrotech- nique, d’Informa- tique, d’Hydrau- lique, et de Télécommuni- cations 6. Languedoc 7. Hélène Pince . . .
1. Pierre de Fermat 2. Leonhard
Euler 3. Mathematics 4. René
Descartes 5. Mathemati-
cian 6. Gottfried
Leibniz 7. Calculus 8. Isaac
Newton 9. Blaise Pascal 10. Carl
Friedrich Gauss
Collaboration avec Michalis Vazirgiannis, Athens Univ. of Economics & Business.
Prédiction de PageRank
Le score (PageRank) d’une page Web évolue au cours du temps.
Coûteux de parcourir tout le Web afin de mettre à jour ces scores.
Possibilité de prévoir ces évolutions, en identifiant des
tendances récurrentes ?
Collaboration avec Michalis Vazirgiannis, Athens Univ. of Economics & Business.
Prédiction de PageRank
Le score (PageRank) d’une page Web évolue au cours du temps.
Coûteux de parcourir tout le Web afin de mettre à jour ces scores.
Possibilité de prévoir ces évolutions, en identifiant des tendances récurrentes ?
Travaux
Prédiction de PageRank avec un modèle de Markov caché ;
Mesures de similarités adaptées pour
comparer les scores effectifs et prédits.
Le Web caché
Définition (Web caché, Web profond, Web invisible) La partie du Web qui n’est pas accessible via des
hyperliens : formulaires HTML, services Web. Donc cachée aux moteurs de recherche classiques.
Taille (estimation) : 500 fois plus grand que le Web de surface.
But
Indexation en compréhension (c.à.d., pas en extension) du Web caché.
De manière complètement automatique et non supervisée !
Problème très large ) restriction à un domaine d’intérêt parti-
culier.
Processus automatique pour comprendre le Web caché
WWW
Form. HTML
Form. analysé + pages résultat Service Web
Service Web
analysé Index de services
Utilisateur découverte
découverte sondage
apprentissage d’extracteur analyse sémantique
indexation
requête résultats
Processus automatique pour comprendre le Web caché
WWW Form. HTML
Form. analysé + pages résultat
Service Web
Service Web
analysé Index de services
Utilisateur
découverte
découverte
sondage apprentissage
d’extracteur analyse sémantique
indexation
requête résultats
Processus automatique pour comprendre le Web caché
WWW Form. HTML
Form. analysé + pages résultat Service Web
Service Web
analysé Index de services
Utilisateur
découverte
découverte sondage
apprentissage d’extracteur analyse sémantique
indexation
requête résultats
Processus automatique pour comprendre le Web caché
WWW Form. HTML
Form. analysé + pages résultat Service Web
Service Web
analysé Index de services
Utilisateur
découverte
découverte sondage
apprentissage d’extracteur
analyse sémantique
indexation
requête résultats
Processus automatique pour comprendre le Web caché
WWW Form. HTML
Form. analysé + pages résultat Service Web
Service Web analysé
Index de services
Utilisateur
découverte
découverte sondage
apprentissage d’extracteur analyse sémantique
indexation
requête résultats
Processus automatique pour comprendre le Web caché
WWW Form. HTML
Form. analysé + pages résultat Service Web
Service Web
analysé Index de services
Utilisateur
découverte
découverte sondage
apprentissage d’extracteur analyse sémantique
indexation
requête résultats
Processus automatique pour comprendre le Web caché
WWW Form. HTML
Form. analysé + pages résultat Service Web
Service Web
analysé Index de services
Utilisateur découverte
découverte sondage
apprentissage d’extracteur analyse sémantique
indexation
requête résultats
Collaboration avec Avin Mittal, IIT Bombay.
Sondage du Web caché
Analyse de la structure de formulaires HTML.
Problème
Associer à chaque champ de formulaire le concept du domaine
approprié.
Collaboration avec Avin Mittal, IIT Bombay.
Sondage du Web caché
Analyse de la structure de formulaires HTML.
Problème
Associer à chaque champ de formulaire le concept du domaine approprié.
Travaux
Heuristiques pour une première annotation.
Sondage du formulaire par des mots du domaine pour infirmer ou confirmer.
Naïf, mais bonne performance en pratique !
Collaboration avec équipe-projetMostrare& Daniel Muschick, INRIA Futurs & Technische Univ. Graz.
Extraction automatique à partir de pages de résultats
Collaboration avec équipe-projetMostrare& Daniel Muschick, INRIA Futurs & Technische Univ. Graz.
Extraction automatique à partir de pages de résultats
Collaboration avec équipe-projetMostrare& Daniel Muschick, INRIA Futurs & Technische Univ. Graz.