• Aucun résultat trouvé

Le Web, un graphe à fouiller

N/A
N/A
Protected

Academic year: 2022

Partager "Le Web, un graphe à fouiller"

Copied!
60
0
0

Texte intégral

(1)

Le Web, un graphe à fouiller

Pierre Senellart

TELECOM ParisTech

24 juillet 2008

(2)

Le graphe du Web

Le World Wide Web vu comme un graphe (orienté) : Nœuds : pages Web ;

Arêtes : liens entre pages.

Idem pour d’autres environnements hypertextes : dictionnaire monolingue ;

encyclopédie ;

publications scientifiques, avec liens de citation.

(3)

Introduction à PageRank

2 1 3

6

7 9

4

5

10

8

(4)

Introduction à PageRank

0.100 0.100

0.100

0.100

0.100 0.100

0.100

0.100

0.100

0.100

(5)

Introduction à PageRank

0.033 0.317

0.075

0.108

0.025 0.058

0.083

0.150

0.117

0.033

(6)

Introduction à PageRank

0.036 0.193

0.108

0.163

0.079 0.090

0.074

0.154

0.094

0.008

(7)

Introduction à PageRank

0.054 0.212

0.093

0.152

0.048 0.051

0.108

0.149

0.106

0.026

(8)

Introduction à PageRank

0.051 0.247

0.078

0.143

0.053 0.062

0.097

0.153

0.099

0.016

(9)

Introduction à PageRank

0.048 0.232

0.093

0.156

0.062 0.067

0.087

0.138

0.099

0.018

(10)

Introduction à PageRank

0.052 0.226

0.092

0.148

0.058 0.064

0.098

0.146

0.096

0.021

(11)

Introduction à PageRank

0.049 0.238

0.088

0.149

0.057 0.063

0.095

0.141

0.099

0.019

(12)

Introduction à PageRank

0.050 0.232

0.091

0.149

0.060 0.066

0.094

0.143

0.096

0.019

(13)

Introduction à PageRank

0.050 0.233

0.091

0.150

0.058 0.064

0.095

0.142

0.098

0.020

(14)

Introduction à PageRank

0.050 0.234

0.090

0.148

0.058 0.065

0.095

0.143

0.097

0.019

(15)

Introduction à PageRank

0.049 0.233

0.091

0.149

0.058 0.065

0.095

0.142

0.098

0.019

(16)

Introduction à PageRank

0.050 0.233

0.091

0.149

0.058 0.065

0.095

0.143

0.097

0.019

(17)

Introduction à PageRank

0.050 0.234

0.091

0.149

0.058 0.065

0.095

0.142

0.097

0.019

(18)

Collaboration avec Vincent Blondel, UCL.

Comparaison de graphes

HITS (Kleinberg)

2 1 3

6

7 9

4

5

10

8

Portail Autorité

Généralisation

2 1 3

6

7 9

4

5

10

8

Graphe arbitraire

(19)

Collaboration avec Vincent Blondel, UCL.

Comparaison de graphes

HITS (Kleinberg)

2 1 3

6

7 9

4

5

10

8

Portail Autorité

Généralisation

2 1 3

6

7 9

4

5

10

8

Graphe arbitraire Travaux

Modèle mathématique pour généraliser HITS

à la comparaison de nœuds entre deux graphes

arbitraires, avec processus itératif de calcul ;

Application au graphe 1 ! 2 ! 3 pour

extraire des synonymes dans un dictionnaire

monolingue.

(20)

Collaboration avec Serge Abiteboul, INRIA Futurs.

Frontières de sites Web

Site Web : ensemble des pages d’un même serveur Web ? Mais : De nombreux serveurs hébergent des sites différents.

Certains sites se répartissent sur des serveurs multiples (p.ex. pages statiques/dynamiques).

Notion hiérarchique de ce qu’est un site Web.

(21)

Collaboration avec Serge Abiteboul, INRIA Futurs.

Frontières de sites Web

Site Web : ensemble des pages d’un même serveur Web ? Mais : De nombreux serveurs hébergent des sites différents.

Certains sites se répartissent sur des serveurs multiples (p.ex. pages statiques/dynamiques).

Notion hiérarchique de ce qu’est un site Web.

Travaux

Méthode automatique, utilisant le flot maximal dans un réseau de transports, pour trouver les frontières d’un site Web.

Basée essentiellement sur le graphe du site,

pas sur le contenu des pages.

(22)

Collaboration avec Yann Ollivier, ENS Lyon.

Découverte de pages similaires

2 1 3

6

7 9

4

5

10

8

(23)

Collaboration avec Yann Ollivier, ENS Lyon.

Découverte de pages similaires

-0.050 -0.233

-0.091

-0.149

-0.058 0.935

-0.095

-0.143

-0.097

-0.019

(24)

Collaboration avec Yann Ollivier, ENS Lyon.

Découverte de pages similaires

-0.099 0.034

0.319

-0.298

-0.117 0.870

-0.190

-0.285

-0.194

-0.039

(25)

Collaboration avec Yann Ollivier, ENS Lyon.

Découverte de pages similaires

-0.149 -0.199

0.353

-0.322

-0.050 0.930

-0.035

-0.178

-0.291

-0.058

(26)

Collaboration avec Yann Ollivier, ENS Lyon.

Découverte de pages similaires

-0.157 -0.078

0.325

-0.304

-0.109 0.865

-0.026

-0.258

-0.222

-0.036

(27)

Collaboration avec Yann Ollivier, ENS Lyon.

Découverte de pages similaires

-0.151 -0.096

0.322

-0.333

-0.078 0.903

-0.034

-0.203

-0.273

-0.055

(28)

Collaboration avec Yann Ollivier, ENS Lyon.

Découverte de pages similaires

-0.161 -0.096

0.337

-0.300

-0.083 0.892

-0.045

-0.256

-0.242

-0.045

(29)

Collaboration avec Yann Ollivier, ENS Lyon.

Découverte de pages similaires

-0.150 -0.108

0.331

-0.328

-0.083 0.895

-0.027

-0.218

-0.267

-0.047

(30)

Collaboration avec Yann Ollivier, ENS Lyon.

Découverte de pages similaires

-0.159 -0.086

0.330

-0.312

-0.086 0.892

-0.039

-0.246

-0.248

-0.047

(31)

Collaboration avec Yann Ollivier, ENS Lyon.

Découverte de pages similaires

-0.154 -0.104

0.334

-0.321

-0.081 0.897

-0.034

-0.228

-0.262

-0.048

(32)

Collaboration avec Yann Ollivier, ENS Lyon.

Découverte de pages similaires

-0.157 -0.094

0.332

-0.314

-0.085 0.892

-0.035

-0.241

-0.252

-0.046

(33)

Collaboration avec Yann Ollivier, ENS Lyon.

Découverte de pages similaires

-0.155 -0.098

0.332

-0.320

-0.083 0.895

-0.034

-0.231

-0.259

-0.047

(34)

Collaboration avec Yann Ollivier, ENS Lyon.

Découverte de pages similaires

-0.157 -0.095

0.332

-0.315

-0.084 0.893

-0.036

-0.239

-0.253

-0.046

(35)

Collaboration avec Yann Ollivier, ENS Lyon.

Découverte de pages similaires

-0.155 -0.098

0.332

-0.318

-0.084 0.894

-0.034

-0.234

-0.257

-0.047

(36)

Collaboration avec Yann Ollivier, ENS Lyon.

Découverte de pages similaires

-0.156 -0.095

0.332

-0.316

-0.084 0.893

-0.035

-0.238

-0.254

-0.046

(37)

Collaboration avec Yann Ollivier, ENS Lyon.

Découverte de pages similaires

-0.156 -0.097

0.332

-0.318

-0.084 0.894

-0.034

-0.235

-0.256

-0.047

(38)

Collaboration avec Yann Ollivier, ENS Lyon.

Découverte de pages similaires

-0.156 -0.096

0.332

-0.316

-0.084 0.893

-0.035

-0.237

-0.254

-0.046

(39)

Collaboration avec Yann Ollivier, ENS Lyon.

Découverte de pages similaires

-0.156 -0.097

0.332

-0.317

-0.084 0.894

-0.034

-0.236

-0.255

-0.046

(40)

Collaboration avec Yann Ollivier, ENS Lyon.

Découverte de pages similaires

-0.156 -0.096

0.332

-0.316

-0.084 0.893

-0.034

-0.237

-0.254

-0.046

(41)

Collaboration avec Yann Ollivier, ENS Lyon.

Découverte de pages similaires

-0.156 -0.096

0.332

-0.317

-0.084 0.893

-0.034

-0.236

-0.255

-0.046

(42)

Collaboration avec Yann Ollivier, ENS Lyon.

Découverte de pages similaires

-0.156 -0.096

0.332

-0.316

-0.085 0.893

-0.034

-0.237

-0.254

-0.046

(43)

Collaboration avec Yann Ollivier, ENS Lyon.

Découverte de pages similaires

-0.156 -0.096

0.332

-0.316

-0.085 0.893

-0.034

-0.237

-0.254

-0.046

Travaux

Méthode automatique et mathématiquement fondée pour extraire un voisinage conceptuel d’un nœud dans un graphe.

Application à l’extraction d’articles sur des thèmes voisins dans Wikipedia.

Meilleurs résultats qu’approches classiques

(cocitations, cosinus, PageRank local. . .).

(44)

Collaboration avec Yann Ollivier, ENS Lyon.

Découverte de pages similaires

Example of related articles for Pierre de Fermat :

Green SymGreen PageRankOfLinks Cosine Cocitations

1. Pierre de Fermat 2. Toulouse 3. Fermat’s

Last Theorem 4. Diophantine

equation 5. Fermat’s

little theorem 6. Fermat

number 7. Grandes

écoles 8. Blaise Pascal 9. France 10. Pseudo-

prime

1. Pierre de Fermat 2. Mathematics 3. Probability

theory 4. Fermat’s

Last Theorem 5. Number

theory 6. Toulouse 7. Diophantine

equation 8. Blaise Pascal 9. Fermat’s

little theorem 10. Calculus

1. France 2. 17th century 3. March 4 4. January 12 5. August 17 6. Calculus 7. Lawyer 8. 1660 9. Number

theory 10. René

Descartes

1. Pierre de Fermat 2. ENSICA 3. Fermat’s theorem 4. International

School of Toulouse 5. École

Nationale Supérieure d’Électro- nique, d’Électrotech- nique, d’Informa- tique, d’Hydrau- lique, et de Télécommuni- cations 6. Languedoc 7. Hélène Pince . . .

1. Pierre de Fermat 2. Leonhard

Euler 3. Mathematics 4. René

Descartes 5. Mathemati-

cian 6. Gottfried

Leibniz 7. Calculus 8. Isaac

Newton 9. Blaise Pascal 10. Carl

Friedrich Gauss

(45)

Collaboration avec Michalis Vazirgiannis, Athens Univ. of Economics & Business.

Prédiction de PageRank

Le score (PageRank) d’une page Web évolue au cours du temps.

Coûteux de parcourir tout le Web afin de mettre à jour ces scores.

Possibilité de prévoir ces évolutions, en identifiant des

tendances récurrentes ?

(46)

Collaboration avec Michalis Vazirgiannis, Athens Univ. of Economics & Business.

Prédiction de PageRank

Le score (PageRank) d’une page Web évolue au cours du temps.

Coûteux de parcourir tout le Web afin de mettre à jour ces scores.

Possibilité de prévoir ces évolutions, en identifiant des tendances récurrentes ?

Travaux

Prédiction de PageRank avec un modèle de Markov caché ;

Mesures de similarités adaptées pour

comparer les scores effectifs et prédits.

(47)

Le Web caché

Définition (Web caché, Web profond, Web invisible) La partie du Web qui n’est pas accessible via des

hyperliens : formulaires HTML, services Web. Donc cachée aux moteurs de recherche classiques.

Taille (estimation) : 500 fois plus grand que le Web de surface.

But

Indexation en compréhension (c.à.d., pas en extension) du Web caché.

De manière complètement automatique et non supervisée !

Problème très large ) restriction à un domaine d’intérêt parti-

culier.

(48)

Processus automatique pour comprendre le Web caché

WWW

Form. HTML

Form. analysé + pages résultat Service Web

Service Web

analysé Index de services

Utilisateur découverte

découverte sondage

apprentissage d’extracteur analyse sémantique

indexation

requête résultats

(49)

Processus automatique pour comprendre le Web caché

WWW Form. HTML

Form. analysé + pages résultat

Service Web

Service Web

analysé Index de services

Utilisateur

découverte

découverte

sondage apprentissage

d’extracteur analyse sémantique

indexation

requête résultats

(50)

Processus automatique pour comprendre le Web caché

WWW Form. HTML

Form. analysé + pages résultat Service Web

Service Web

analysé Index de services

Utilisateur

découverte

découverte sondage

apprentissage d’extracteur analyse sémantique

indexation

requête résultats

(51)

Processus automatique pour comprendre le Web caché

WWW Form. HTML

Form. analysé + pages résultat Service Web

Service Web

analysé Index de services

Utilisateur

découverte

découverte sondage

apprentissage d’extracteur

analyse sémantique

indexation

requête résultats

(52)

Processus automatique pour comprendre le Web caché

WWW Form. HTML

Form. analysé + pages résultat Service Web

Service Web analysé

Index de services

Utilisateur

découverte

découverte sondage

apprentissage d’extracteur analyse sémantique

indexation

requête résultats

(53)

Processus automatique pour comprendre le Web caché

WWW Form. HTML

Form. analysé + pages résultat Service Web

Service Web

analysé Index de services

Utilisateur

découverte

découverte sondage

apprentissage d’extracteur analyse sémantique

indexation

requête résultats

(54)

Processus automatique pour comprendre le Web caché

WWW Form. HTML

Form. analysé + pages résultat Service Web

Service Web

analysé Index de services

Utilisateur découverte

découverte sondage

apprentissage d’extracteur analyse sémantique

indexation

requête résultats

(55)

Collaboration avec Avin Mittal, IIT Bombay.

Sondage du Web caché

Analyse de la structure de formulaires HTML.

Problème

Associer à chaque champ de formulaire le concept du domaine

approprié.

(56)

Collaboration avec Avin Mittal, IIT Bombay.

Sondage du Web caché

Analyse de la structure de formulaires HTML.

Problème

Associer à chaque champ de formulaire le concept du domaine approprié.

Travaux

Heuristiques pour une première annotation.

Sondage du formulaire par des mots du domaine pour infirmer ou confirmer.

Naïf, mais bonne performance en pratique !

(57)

Collaboration avec équipe-projetMostrare& Daniel Muschick, INRIA Futurs & Technische Univ. Graz.

Extraction automatique à partir de pages de résultats

(58)

Collaboration avec équipe-projetMostrare& Daniel Muschick, INRIA Futurs & Technische Univ. Graz.

Extraction automatique à partir de pages de résultats

(59)

Collaboration avec équipe-projetMostrare& Daniel Muschick, INRIA Futurs & Technische Univ. Graz.

Extraction automatique à partir de pages de résultats

Travaux

Première annotation imprécise et incomplète grâce à la connaissance du domaine.

Affinage par généralisation structurelle du document (champs aléatoires conditionnels, appliqués de manière non supervisée !).

Permet d’obtenir sans intervention humaine

un extracteur (wrapper) des résultats.

(60)

Perspectives

Découvrir et structurer données et informations . . . du monde réel (p. ex. du Web)

Quelques perspectives sur des thèmes proches

Utilisation de sources multiples pour corroborer les informations qu’elles produisent.

Apprentissage sans overfitting en essayant de réduire la longueur de description de l’extracteur appris.

Résolution de doublons (ou déduplication).

Références

Documents relatifs

[r]

[r]

[r]

'LVHDVHVRIRUDO

*ORPHUXODUGLVHDVHUHQDO IDLOXUHDQGRWKHUGLVRUGHUVRI NLGQH\DQGXUHWHU0DODGLHV JORPpUXODLUHVLQVXIILVDQFH UpQDOHHWDXWUHVDIIHFWLRQVGX

[r]

WKMUTVPn§ZI[ˆKQnCrM†MVC:W>QRC:H1C8J_T‘YKI[L†QnC•¬I[PnT‘acW>C_x_E>I?JKMQRC8M†MUdGq:Psg C:T>g

[r]