• Aucun résultat trouvé

conference 5 michel habib

N/A
N/A
Protected

Academic year: 2021

Partager "conference 5 michel habib"

Copied!
269
0
0

Texte intégral

(1)

Mod´

elisation et moteurs de recherche sur le web

Michel Habib

habib@liafa.univ-paris-diderot.fr

http://www.liafa.univ-paris-diderot.fr/~habib

(2)

Mod´elisation et moteurs de recherche sur le web

Plan

PageRank

Structure versus contenu

Raisonner sur des donn´ees h´et´erog`enes

Algorithmes de recommandation

(3)

Mod´elisation et moteurs de recherche sur le web

Plan

PageRank

Syntaxe et s´emantique

Raisonner sur des donn´ees h´et´erog`enes

Algorithmes de recommandation

(4)

Mod´elisation et moteurs de recherche sur le web

Plan

PageRank

Syntaxe et s´emantique Structure versus contenu

(5)

Mod´elisation et moteurs de recherche sur le web

Plan

PageRank

Syntaxe et s´emantique Structure versus contenu

Raisonner sur des donn´ees h´et´erog`enes

(6)

Plan

PageRank

Syntaxe et s´emantique Structure versus contenu

Raisonner sur des donn´ees h´et´erog`enes

Algorithmes de recommandation

(7)

PageRank

Syntaxe et s´emantique Structure versus contenu

Raisonner sur des donn´ees h´et´erog`enes

Algorithmes de recommandation

(8)

PageRank, l’algorithme de classement des

pages WEB qui a permis l’´emergence de

(9)

Mod´elisation et moteurs de recherche sur le web PageRank

(10)

I ”Information is not Knowledge”, Albert Einstein

I ”Information is not Knowledge. Knowledge comes from theory”, W. Edward Deming

(11)

Sir Timothy

Timothy Bernes-Lee (1955) is generally credited with inventing the world wide web in 1990.

The internet as such already existed, but it was mostly used for email and newsgroups. It was Berners-Lee, together with his Belgian colleague Robert Cailleau, who established the first successful communication between an HTTP client and server via the Internet, thus creating the first web browser.

The first ever website in the world was

(12)

Mod´elisation et moteurs de recherche sur le web PageRank

`

A quel titre je me permets de parler de ce sujet ?

I Sp´ecialiste d’algorithmique sur les graphes (algorithmes pour les tr`es grands graphes)

par an chez Exalead)

I Contrats sur le sujet avec Orange et Exalead

I Participation `a un projet ANR ”Algopol” qui d´emarre sur les r´eseaux sociaux.

(13)

Mod´elisation et moteurs de recherche sur le web PageRank

`

A quel titre je me permets de parler de ce sujet ?

I Sp´ecialiste d’algorithmique sur les graphes (algorithmes pour les tr`es grands graphes)

I 3 th`eses co-encadr´ees sur les moteurs de recherche

I Contrats sur le sujet avec Orange et Exalead

I Participation `a un projet ANR ”Algopol” qui d´emarre sur les r´eseaux sociaux.

(14)

Mod´elisation et moteurs de recherche sur le web PageRank

`

A quel titre je me permets de parler de ce sujet ?

I Sp´ecialiste d’algorithmique sur les graphes (algorithmes pour les tr`es grands graphes)

I 3 th`eses co-encadr´ees sur les moteurs de recherche

I Cours de M2 professionnel `a Paris Diderot (1 `a 2 embauches par an chez Exalead)

(15)

Mod´elisation et moteurs de recherche sur le web PageRank

`

A quel titre je me permets de parler de ce sujet ?

I Sp´ecialiste d’algorithmique sur les graphes (algorithmes pour les tr`es grands graphes)

I 3 th`eses co-encadr´ees sur les moteurs de recherche

I Cours de M2 professionnel `a Paris Diderot (1 `a 2 embauches par an chez Exalead)

(16)

`

A quel titre je me permets de parler de ce sujet ?

I Sp´ecialiste d’algorithmique sur les graphes (algorithmes pour les tr`es grands graphes)

I 3 th`eses co-encadr´ees sur les moteurs de recherche

I Cours de M2 professionnel `a Paris Diderot (1 `a 2 embauches par an chez Exalead)

I Contrats sur le sujet avec Orange et Exalead

I Participation `a un projet ANR ”Algopol” qui d´emarre sur les r´eseaux sociaux.

(17)

Mod´elisation et moteurs de recherche sur le web PageRank

Quel rapport avec les math´

ematiques ?

I Une tr`es belle application de l’alg`ebre lin´eaire

(18)

Mod´elisation et moteurs de recherche sur le web PageRank

Quel rapport avec les math´

ematiques ?

I Une tr`es belle application de l’alg`ebre lin´eaire

(19)

Mod´elisation et moteurs de recherche sur le web PageRank

Quel rapport avec les math´

ematiques ?

I Une tr`es belle application de l’alg`ebre lin´eaire

I des th´eor`emes de point fixe

(20)

Quel rapport avec les math´

ematiques ?

I Une tr`es belle application de l’alg`ebre lin´eaire

I des th´eor`emes de point fixe

I Des marches al´eatoires sur des graphes (chaˆınes de Markov)

(21)

Mod´elisation et moteurs de recherche sur le web PageRank

Vocabulaire technique minimal

I url : Uniform Resource Locator adresse IP + chemin d’acc`es

I http : Hypertext Transfert protocol

Protocole tr`es efficace

(22)

Mod´elisation et moteurs de recherche sur le web PageRank

Vocabulaire technique minimal

I url : Uniform Resource Locator adresse IP + chemin d’acc`es

I html : Hypertext Markup Language

Ce langage poss`ede quelques lacunes

(23)

Mod´elisation et moteurs de recherche sur le web PageRank

Vocabulaire technique minimal

I url : Uniform Resource Locator adresse IP + chemin d’acc`es

I html : Hypertext Markup Language

Ce langage poss`ede quelques lacunes

I http : Hypertext Transfert protocol

(24)

Vocabulaire technique minimal

I url : Uniform Resource Locator adresse IP + chemin d’acc`es

I html : Hypertext Markup Language

Ce langage poss`ede quelques lacunes

I http : Hypertext Transfert protocol

Protocole tr`es efficace

(25)

Mod´elisation et moteurs de recherche sur le web PageRank

Fonctionnement d’un moteur de recherche

Donn´ees :une question (une chaˆıne de caract`eres)

R´esultat :une liste ordonn´ee d’URL associ´ees `a la question.

Comment cela marche

mots cl´es

3. Tri et affichage d’une liste ordonn´ee d’url (munies d’une affichette).

(26)

Mod´elisation et moteurs de recherche sur le web PageRank

Fonctionnement d’un moteur de recherche

Donn´ees :une question (une chaˆıne de caract`eres)

R´esultat :une liste ordonn´ee d’URL associ´ees `a la question.

Comment cela marche

mots cl´es

3. Tri et affichage d’une liste ordonn´ee d’url (munies d’une affichette).

(27)

Mod´elisation et moteurs de recherche sur le web PageRank

Fonctionnement d’un moteur de recherche

Donn´ees :une question (une chaˆıne de caract`eres)

R´esultat :une liste ordonn´ee d’URL associ´ees `a la question.

Comment cela marche

1. Extraction du contenu de la question (i.e. quelques mots cl´es)

3. Tri et affichage d’une liste ordonn´ee d’url (munies d’une affichette).

(28)

Mod´elisation et moteurs de recherche sur le web PageRank

Fonctionnement d’un moteur de recherche

Donn´ees :une question (une chaˆıne de caract`eres)

R´esultat :une liste ordonn´ee d’URL associ´ees `a la question.

Comment cela marche

1. Extraction du contenu de la question (i.e. quelques mots cl´es)

2. Recherche de ”toutes” les pages WEB qui contiennent ces mots cl´es

(29)

Fonctionnement d’un moteur de recherche

Donn´ees :une question (une chaˆıne de caract`eres)

R´esultat :une liste ordonn´ee d’URL associ´ees `a la question.

Comment cela marche

1. Extraction du contenu de la question (i.e. quelques mots cl´es)

2. Recherche de ”toutes” les pages WEB qui contiennent ces mots cl´es

3. Tri et affichage d’une liste ordonn´ee d’url (munies d’une affichette).

(30)

Mod´elisation et moteurs de recherche sur le web PageRank

Tri des r´esultats

L’´etape 3 est critique, car il peut y avoir plus de 100 000 r´eponses.

Une question tr`es pertinente

(31)

Mod´elisation et moteurs de recherche sur le web PageRank

Tri des r´esultats

L’´etape 3 est critique, car il peut y avoir plus de 100 000 r´eponses.

Une question tr`es pertinente

(32)

Mod´elisation et moteurs de recherche sur le web PageRank

Tri des r´esultats

L’´etape 3 est critique, car il peut y avoir plus de 100 000 r´eponses.

Une question tr`es pertinente

(33)

Tri des r´esultats

L’´etape 3 est critique, car il peut y avoir plus de 100 000 r´eponses.

Une question tr`es pertinente

I Habib Terroriste

I Google Results (February 2007) approx 504 000 for Habib terrorist. (0,11 seconds)

(34)

Un utilisateur normal ne lit que la ou les premi`eres pages des r´esultats

(35)

Mod´elisation et moteurs de recherche sur le web PageRank

I Un moteur de recherche c’est :

I une gigantesque base de donn´ees +

(36)

Mod´elisation et moteurs de recherche sur le web PageRank

I Un moteur de recherche c’est :

I un gigantesque graphe +

(37)

Mod´elisation et moteurs de recherche sur le web PageRank

I Un moteur de recherche c’est :

I un gigantesque graphe +

I une gigantesque base de donn´ees +

(38)

I Un moteur de recherche c’est :

I un gigantesque graphe +

I une gigantesque base de donn´ees +

(39)

Le contenu

Un moteur de recherche indexe les pages lisibles de l’ext´erieur mais aussi tout texte (au format pdf, rtf ou doc) mais aussi des images

tous fichiers dans un format lisible et qui ne sont pas prot´eg´es en lecture

(40)

Mod´elisation et moteurs de recherche sur le web PageRank

N´ecessit´e de l’exp´erimentation car il y a beaucoup d’intox et le culte du secret dans le domaine

de recherche

Ludique

Jeux exp´erimentaux avec les ´el`eves sur la question ”comment cela marche ?” On peut faire varier les moteurs de recherche.

(41)

Mod´elisation et moteurs de recherche sur le web PageRank

N´ecessit´e de l’exp´erimentation car il y a beaucoup d’intox et le culte du secret dans le domaine

G´en´ericit´e

Les remarques pr´esent´ees ici tiennent pour la plupart des moteurs de recherche

(42)

N´ecessit´e de l’exp´erimentation car il y a beaucoup d’intox et le culte du secret dans le domaine

G´en´ericit´e

Les remarques pr´esent´ees ici tiennent pour la plupart des moteurs de recherche

Ludique

Jeux exp´erimentaux avec les ´el`eves sur la question ”comment cela marche ?” On peut faire varier les moteurs de recherche.

(43)

Mod´elisation et moteurs de recherche sur le web PageRank

Le principe de classement

I Il s’agit de calculeralgorithmiquement (pas `a la main) un coefficient entre 0 et 1 associ´e `a chaque page

(44)

Le principe de classement

I Il s’agit de calculeralgorithmiquement (pas `a la main) un coefficient entre 0 et 1 associ´e `a chaque page

I Vu la taille des donn´ees, l’algorithme doit ˆetre tr`es efficace, ce qui interdit l’analyse pr´ecise du contenu des pages

(45)

Mod´elisation et moteurs de recherche sur le web PageRank

Eviter `

a tout prix la s´

emantique

En 1999, plusieurs chercheurs ont propos´e une formulation r´ecursive de l’importance d’une page.

Cette importance ne d´ependant que de la structure des liens entre les pages html.

(46)

Eviter `

a tout prix la s´

emantique

En 1999, plusieurs chercheurs ont propos´e une formulation r´ecursive de l’importance d’une page.

Cette importance ne d´ependant que de la structure des liens entre les pages html.

N’utiliser que la structure des hyperliens entre les pages permet d’´eviter les analyses du contenu des pages (on ´evite ainsi le recours `a des programmes d’analyse de la langue naturelle)

(47)

Des m´

ethodes bas´

ee sur la structure du graphe et non la

emantique des pages

Interpr´etation des hyperliens

M´ethode inspir´ee des ´etudes sur les citations entre scientifiques, par exemple le classement pond´er´e de G. Pinsky et F. Narin 1976

(48)

La premi`

ere id´

ee

Utiliser le nombre de liens pointant sur une page

(c’est l’id´ee utilis´ee par les principaux indices de citations, h-index et autres scores afin de comparer les chercheurs, les labos, voire les universit´es . . .)

(49)

Mod´elisation et moteurs de recherche sur le web PageRank

S. Brin, L. Page, R. Motwani, T. Winograd

Principe de l’algorithme de PageRank (Google)

Une page a un score d’autant plus ´elev´e qu’elle est r´ef´erenc´ee par des pages ayant un score ´elev´e

(50)

S. Brin, L. Page, R. Motwani, T. Winograd

Principe de l’algorithme de PageRank (Google)

Une page a un score d’autant plus ´elev´e qu’elle est r´ef´erenc´ee par des pages ayant un score ´elev´e

(51)
(52)

Mais aussi : Rajeev Motwani 1962-2009, Stanford

University

(53)
(54)

Principe de la m´

ethode HITS : Hypertext Induced Topic

Search

J. Kleinberg

Pour chaque page on calcule de concert deux scores : un coefficient d’autorit´e et un coefficient d’annuaire (hub)

Une page a un coefficient d’autorit´e d’autant plus ´elev´e qu’elle est r´ef´erenc´ee par des pages ayant un coefficient d’annuaire ´elev´e Une page a un coefficient d’annuaire d’autant plus ´elev´e qu’elle est r´ef´erenc´ee par des pages ayant un coefficient d’autorit´e ´elev´e.

(55)
(56)

Mod´elisation et moteurs de recherche sur le web PageRank

Le graphe du WEB

I Le graphe du Web un graphe orient´e

(57)

Mod´elisation et moteurs de recherche sur le web PageRank

Le graphe du WEB

I Le graphe du Web un graphe orient´e

I Les sommets sont les pages html, appel´ees ici pages (10 milliards de pages estim´ees actuellement)

(58)

Le graphe du WEB

I Le graphe du Web un graphe orient´e

I Les sommets sont les pages html, appel´ees ici pages (10 milliards de pages estim´ees actuellement)

(59)

Mod´elisation et moteurs de recherche sur le web PageRank

Beaucoup de choses ont ´

et´

e ´

ecrites sur ce graphe . . .

Le fameux mod`ele du noeud papillon Broder et al. (2000)

log (Prob(d (p) = k)) = α − λlog (k) avec λ = 2.1 pour les degr´es entrants et λ = 2.72 pour les degr´es sortants.

(60)

Beaucoup de choses ont ´

et´

e ´

ecrites sur ce graphe . . .

Le fameux mod`ele du noeud papillon Broder et al. (2000)

Graphe petit monde

Les degr´es v´erifient une loi de puissance

log (Prob(d−(p) = k)) = α − λlog (k) avec λ = 2.1 pour les degr´es entrants et λ = 2.72 pour les degr´es sortants.

(61)

Mod´elisation et moteurs de recherche sur le web PageRank

Biais introduit par l’outil

T. Bennouas, F. de Montgolfier 2007

La plupart des propri´et´es trouv´ees proviennent en fait des m´ethodes choisies pour l’exploration du graphe

(62)

Biais introduit par l’outil

T. Bennouas, F. de Montgolfier 2007

La plupart des propri´et´es trouv´ees proviennent en fait des m´ethodes choisies pour l’exploration du graphe

BFS

(63)

Mod´elisation et moteurs de recherche sur le web PageRank

Exploration (Crawl )

L’exploration du graphe du Web est un probl`eme techniquement difficile d’informatique distribu´ee (des programmes appel´es robots suivent les liens)

publiques, ainsi qu’un logiciel BV graphs qui permet de compresser les graphes du Web avec 2-3 bits peof URL names

(64)

Exploration (Crawl )

L’exploration du graphe du Web est un probl`eme techniquement difficile d’informatique distribu´ee (des programmes appel´es robots suivent les liens)

Graphes du Web

P. Boldi et son groupe de recherche propose des donn´ees

publiques, ainsi qu’un logiciel BV graphs qui permet de compresser les graphes du Web avec 2-3 bits peof URL names

(65)

Matrice ordonn´

ee par l’ordre alphab´

etique des noms des

URL

(66)
(67)

Mod´elisation et moteurs de recherche sur le web PageRank

I Une page standard contient au plus une centaine de liens vers d’autres pages

Le degr´e sortant est donc born´e

(68)

Mod´elisation et moteurs de recherche sur le web PageRank

I Une page standard contient au plus une centaine de liens vers d’autres pages

Le degr´e sortant est donc born´e

I C’est donc un graphe peu dense repr´esentable tr`es efficacement

(69)

I Une page standard contient au plus une centaine de liens vers d’autres pages

Le degr´e sortant est donc born´e

I C’est donc un graphe peu dense repr´esentable tr`es efficacement

(70)

Mod´elisation et moteurs de recherche sur le web PageRank

Le mod`

ele du radar

I L’exploration des nouvelles pages se fait en approximativement un mois

I Avec des exceptions pour les pages de pub index´ees `a la demande et les informations quotidiennes

(71)

Mod´elisation et moteurs de recherche sur le web PageRank

Le mod`

ele du radar

I L’exploration des nouvelles pages se fait en approximativement un mois

I P´eriodiquement la base de donn´ees op´erationnelle est mise `a jour et le classement est recalcul´e sur l’image du graphe du mois pr´ec´edent

(72)

Mod´elisation et moteurs de recherche sur le web PageRank

Le mod`

ele du radar

I L’exploration des nouvelles pages se fait en approximativement un mois

I P´eriodiquement la base de donn´ees op´erationnelle est mise `a jour et le classement est recalcul´e sur l’image du graphe du mois pr´ec´edent

I Avec des exceptions pour les pages de pub index´ees `a la demande et les informations quotidiennes

(73)

Le mod`

ele du radar

I L’exploration des nouvelles pages se fait en approximativement un mois

I P´eriodiquement la base de donn´ees op´erationnelle est mise `a jour et le classement est recalcul´e sur l’image du graphe du mois pr´ec´edent

I Avec des exceptions pour les pages de pub index´ees `a la demande et les informations quotidiennes

(74)

Mod´elisation et moteurs de recherche sur le web PageRank

Pages cach´

ees

(75)

Pages cach´

ees

I Nous ne parlerons ici que du WEB statique

I Nous ignorerons les pages dynamiques, calcul´ees par un serveur en r´eponse `a une requˆete d’un usager

(76)

ecessit´

e d’une approche exp´

erimentale

Bien que le WEB soit une construction humaine munie d’une syntaxe (html . . .)

personne n’en poss`ede les plans.

Mais il poss`ede une certaine s´emantique qu’il s’agit de trouver `a la mani`ere des physiciens, sociologues en pratiquant des exp´erimentations.

(77)

Remarques

Le graphe du Web ne sert qu’`a calculer le coefficient associ´e `a chaque page,

Il n’est pas utilis´e pour la recherche des pages par la suite (le reste d´epend de la base de donn´ees).

(78)

Mod´elisation et moteurs de recherche sur le web PageRank

Un mod`

ele lin´

eaire

Une sorte de flot

Soit Rn(p) le coefficient PageRank de la page p `a l’´etape n du

calcul et soit Rn+1(q, p) la quantit´e qui traverse l’arc qp entre les

(79)

Un mod`

ele lin´

eaire

Une sorte de flot

Soit Rn(p) le coefficient PageRank de la page p `a l’´etape n du

calcul et soit Rn+1(q, p) la quantit´e qui traverse l’arc qp entre les

´etapes n et n + 1.

L’´equation

(80)

Mod´elisation et moteurs de recherche sur le web PageRank

I Avec l’hypoth`ese de l’´equir´epartion du coefficient sur les liens sortant d’une page q

I D’o`u

(81)

Mod´elisation et moteurs de recherche sur le web PageRank

I Avec l’hypoth`ese de l’´equir´epartion du coefficient sur les liens sortant d’une page q

I On obtient

Rn+1(q, p) =degre(q)1 Rn(q)

(82)

I Avec l’hypoth`ese de l’´equir´epartion du coefficient sur les liens sortant d’une page q

I On obtient

Rn+1(q, p) =degre(q)1 Rn(q)

pour tout arc qp sortant de la page q.

I D’o`u

(83)

Mod´elisation et moteurs de recherche sur le web PageRank

Vectoriellement

I Rn+1= ATRn o`u A est une sorte de matrice d’ incidence du

graphe du Web.

(84)

Mod´elisation et moteurs de recherche sur le web PageRank

Vectoriellement

I Rn+1= ATRn o`u A est une sorte de matrice d’ incidence du

graphe du Web.

(85)

Vectoriellement

I Rn+1= ATRn o`u A est une sorte de matrice d’ incidence du

graphe du Web.

I A[p, q] = d +(p)1 si pq est un arc et 0 sinon

I Quand la suite Rn converge, sa limite est le vecteur propre

(86)

Mod´elisation et moteurs de recherche sur le web PageRank

Pourquoi PageRank est-il tant utilis´

e ?

1. Convergence tr`es rapide

3. Le calcul se parall´elise simplement.

4. Il y a plusieurs interpr´etations math´ematiques int´eressantes du calcul

(87)

Mod´elisation et moteurs de recherche sur le web PageRank

Pourquoi PageRank est-il tant utilis´

e ?

1. Convergence tr`es rapide

2. Le calcul peut se faire ligne `a ligne en utilisant un codage compact du graphe

(88)

Mod´elisation et moteurs de recherche sur le web PageRank

Pourquoi PageRank est-il tant utilis´

e ?

1. Convergence tr`es rapide

2. Le calcul peut se faire ligne `a ligne en utilisant un codage compact du graphe

(89)

Pourquoi PageRank est-il tant utilis´

e ?

1. Convergence tr`es rapide

2. Le calcul peut se faire ligne `a ligne en utilisant un codage compact du graphe

3. Le calcul se parall´elise simplement.

4. Il y a plusieurs interpr´etations math´ematiques int´eressantes du calcul

(90)

Convergence

A l’aide du th´eor`eme de Perron Froebenius

La convergence est assur´ee si le graphe est fortement connexe et si le pgcd des longueurs des circuits est 1.

Ce qui est impossible `a v´erifier sur le graphe du Web. Plusieurs astuces sont utilis´ees pour assurer la convergence du calcul.

(91)

Interpr´

etation `

a l’aide des chaˆınes de Markov

A est une matrice stochastique et la limite de Rn(p) peut se comprendre comme la probabilit´e qu’un surfeur al´eatoire visite la page p.

Le vecteur R final n’est rien d’autre que la distribution stationnaire d’une marche al´eatoire sur le graphe du Web

(92)

Un effet de bord ?

M. Bouklit et F. Mathieu ont essay´e de mod´eliser plus avant le comportement d’un surfeur en introduisant par exemple la touche Retour (undo)

Le classement obtenu n’avait pas l’air significativement meilleur. PageRank est-il un flot de mati`ere ou une probabilit´e ?

(93)

Proposition de projet avec les ´

el`

eves

Mise au point d’une programmation (ou du fonctionnement `a la main) sur des petits exemples de Pagerank (genre s´eance d’exercices TP ou TD)

Vecteur initial

(94)

Mod´elisation et moteurs de recherche sur le web PageRank

Le facteur ZAP (dumping factor)

I On initialise `a 1/N le coefficient de PageRank de toutes les pages

o`u N est le nombre total de pages du graphe du Web

soit de suivre un lien sortant avec un probabilit´e 1 − d , soit ”zapper” sur une page al´eatoire avec un probabilit´e d

(95)

Mod´elisation et moteurs de recherche sur le web PageRank

Le facteur ZAP (dumping factor)

I On initialise `a 1/N le coefficient de PageRank de toutes les pages

o`u N est le nombre total de pages du graphe du Web

I Rn+1(p) = Nd + (1 − d ).Σqpdegre(q)1 Rn(q)

(96)

Mod´elisation et moteurs de recherche sur le web PageRank

Le facteur ZAP (dumping factor)

I On initialise `a 1/N le coefficient de PageRank de toutes les pages

o`u N est le nombre total de pages du graphe du Web

I Rn+1(p) = Nd + (1 − d ).Σqpdegre(q)1 Rn(q) I Dans le mod`ele du surfeur, il peut choisir :

soit de suivre un lien sortant avec un probabilit´e 1 − d , soit ”zapper” sur une page al´eatoire avec un probabilit´e d

(97)

Le facteur ZAP (dumping factor)

I On initialise `a 1/N le coefficient de PageRank de toutes les pages

o`u N est le nombre total de pages du graphe du Web

I Rn+1(p) = Nd + (1 − d ).Σqpdegre(q)1 Rn(q) I Dans le mod`ele du surfeur, il peut choisir :

soit de suivre un lien sortant avec un probabilit´e 1 − d , soit ”zapper” sur une page al´eatoire avec un probabilit´e d

(98)

Mod´elisation et moteurs de recherche sur le web PageRank

G´eniale astuce

le graphe devient fortement connexe

Transformation T : Rn → R, T (x) = d . + (1 − d )Ax o`u  est le vecteur dont toutes les composantes valent 1/N

contractante de rapport 1 − d et quelle que soit la valeur initiale x0, la suite

(99)

G´eniale astuce

le graphe devient fortement connexe

Transformation T : Rn → R, T (x) = d . + (1 − d )Ax o`u  est le vecteur dont toutes les composantes valent 1/N

Point fixe

Si A est une matrice stochastique alors l’application T est contractante de rapport 1 − d et quelle que soit la valeur initiale x0, la suite

(100)

Vitesse de convergence

|xn+1− µ| ≤ 1−d

d .|xn+1− xn|

avec |y | = Σi|yi|

Test d’arrˆet

Il suffit de choisir un seuil et de calculer `a la fin de chaque it´eration |xn+1− xn|

(101)

Pour Google d = 0.15

(102)

L’extrˆ

eme robustesse exp´

erimentale de PageRank

Peu d´ependant des conditions initiales (cf. Il existe un point fixe unique !)

(103)

En conclusion

Une application int´eressante de l’alg`ebre lin´eaire que l’on peut d´ecouvrir sur des exemples simples

(104)

Question personnelle

Peut-on utiliser ces id´ees pour des calculs de flots maximum dans un graphe ?

(105)

Mod´elisation et moteurs de recherche sur le web PageRank

Retour sur le fonctionnement d’un moteur de recherche

1. Pr´ecalcul d’un fichier invers´e des Pages Web, dans une gigantesque Base de donn´ees distribu´ee

cl´es et calcul d’un score pond´er´e pour chaque page (le score d´epend des mots cl´es de la question)

4. Filtrer les pages r´esultats `a l’aide d’un profil d’utilisateur (langue, num´ero IP, acad´emique versus commercial).

5. Trier les pages obtenues `a l’aide de PageRank (et de quelques petites astuces secr`etes) et afficher cette liste ordonn´ee d’URL.

(106)

Mod´elisation et moteurs de recherche sur le web PageRank

Retour sur le fonctionnement d’un moteur de recherche

1. Pr´ecalcul d’un fichier invers´e des Pages Web, dans une gigantesque Base de donn´ees distribu´ee

2. Extraction du contenu de la question (i.e. quelques mots cl´es)

4. Filtrer les pages r´esultats `a l’aide d’un profil d’utilisateur (langue, num´ero IP, acad´emique versus commercial).

5. Trier les pages obtenues `a l’aide de PageRank (et de quelques petites astuces secr`etes) et afficher cette liste ordonn´ee d’URL.

(107)

Mod´elisation et moteurs de recherche sur le web PageRank

Retour sur le fonctionnement d’un moteur de recherche

1. Pr´ecalcul d’un fichier invers´e des Pages Web, dans une gigantesque Base de donn´ees distribu´ee

2. Extraction du contenu de la question (i.e. quelques mots cl´es)

3. Recherche de toutes les pages WEB qui contiennent ces mots cl´es et calcul d’un score pond´er´e pour chaque page (le score d´epend des mots cl´es de la question)

5. Trier les pages obtenues `a l’aide de PageRank (et de quelques petites astuces secr`etes) et afficher cette liste ordonn´ee d’URL.

(108)

Mod´elisation et moteurs de recherche sur le web PageRank

Retour sur le fonctionnement d’un moteur de recherche

1. Pr´ecalcul d’un fichier invers´e des Pages Web, dans une gigantesque Base de donn´ees distribu´ee

2. Extraction du contenu de la question (i.e. quelques mots cl´es)

3. Recherche de toutes les pages WEB qui contiennent ces mots cl´es et calcul d’un score pond´er´e pour chaque page (le score d´epend des mots cl´es de la question)

4. Filtrer les pages r´esultats `a l’aide d’un profil d’utilisateur (langue, num´ero IP, acad´emique versus commercial).

(109)

Retour sur le fonctionnement d’un moteur de recherche

1. Pr´ecalcul d’un fichier invers´e des Pages Web, dans une gigantesque Base de donn´ees distribu´ee

2. Extraction du contenu de la question (i.e. quelques mots cl´es)

3. Recherche de toutes les pages WEB qui contiennent ces mots cl´es et calcul d’un score pond´er´e pour chaque page (le score d´epend des mots cl´es de la question)

4. Filtrer les pages r´esultats `a l’aide d’un profil d’utilisateur (langue, num´ero IP, acad´emique versus commercial).

5. Trier les pages obtenues `a l’aide de PageRank (et de quelques petites astuces secr`etes) et afficher cette liste ordonn´ee d’URL.

(110)

Mod´elisation et moteurs de recherche sur le web PageRank

Calcul de score

Score pond´er´e

Construit `a partir de :

2. Les mots apparaissent α fois dans la description de l’entˆete de la page.

3. Les mots apparaissent β fois dans la page, avec pr´ef´erence pour le d´ebut de la page.

(111)

Mod´elisation et moteurs de recherche sur le web PageRank

Calcul de score

Score pond´er´e

Construit `a partir de :

1. Les mots apparaissent dans le titre de la page (ou le chemin d’acc`es)

(exemple French Military Victories )

3. Les mots apparaissent β fois dans la page, avec pr´ef´erence pour le d´ebut de la page.

(112)

Mod´elisation et moteurs de recherche sur le web PageRank

Calcul de score

Score pond´er´e

Construit `a partir de :

1. Les mots apparaissent dans le titre de la page (ou le chemin d’acc`es)

(exemple French Military Victories )

2. Les mots apparaissent α fois dans la description de l’entˆete de la page.

(113)

Calcul de score

Score pond´er´e

Construit `a partir de :

1. Les mots apparaissent dans le titre de la page (ou le chemin d’acc`es)

(exemple French Military Victories )

2. Les mots apparaissent α fois dans la description de l’entˆete de la page.

3. Les mots apparaissent β fois dans la page, avec pr´ef´erence pour le d´ebut de la page.

(114)

Mot cl´es sp´eciaux int´eressants :

Confidential do not distribute

permet de v´erifier la strat´egie de publication d’une soci´et´e. secret d´efense

(115)

Commutativit´

e

La commutativit´e des mots cl´es dans une requˆete ?

Exemples les r´eponses ne sont pas class´ees dans le mˆeme ordre si l’on pose les questions :

Nicolas Sarkozy Sarkozy Nicolas ou Sarko

(116)

Ni Altavista, ni Exalead, ni Google, ni Ask ne sont commutatifs !1 Comment l’expliquer ? Par une cat´egorisation des noms : pr´enom versus nom de famille ?

(117)

Mod´elisation et moteurs de recherche sur le web PageRank

Trouver des questions ayant peu de r´

eponses diff´

erentes

I Jeu Google : trouver une question en deux mots ayant ≤ 1 r´eponse.

(si possible sans guillemets dans la question)

(118)

Mod´elisation et moteurs de recherche sur le web PageRank

Trouver des questions ayant peu de r´

eponses diff´

erentes

I Jeu Google : trouver une question en deux mots ayant ≤ 1 r´eponse.

(si possible sans guillemets dans la question)

I dorade droiti`ere poulpe ambitieuse . . .

(119)

Trouver des questions ayant peu de r´

eponses diff´

erentes

I Jeu Google : trouver une question en deux mots ayant ≤ 1 r´eponse.

(si possible sans guillemets dans la question)

I dorade droiti`ere poulpe ambitieuse . . .

(120)

Mod´elisation et moteurs de recherche sur le web PageRank

Une typologie des requˆ

etes

(121)

Mod´elisation et moteurs de recherche sur le web PageRank

Une typologie des requˆ

etes

1. Savoir, connaissance : recherche d’information (48%)

(122)

Une typologie des requˆ

etes

1. Savoir, connaissance : recherche d’information (48%)

2. Localisation : navigation (adresses, cartes, . . .) (25%)

(123)

Faut-il des moteurs de recherche sp´ecialis´es ?

Par exemple : Google Scholar pour le monde acad´emique qui n’indexe que des articles scientifiques.

(124)

Mod´elisation et moteurs de recherche sur le web PageRank

A d´efaut une cat´egorisation des requˆetes en fonction :

I du pays, de la langue

(125)

Mod´elisation et moteurs de recherche sur le web PageRank

A d´efaut une cat´egorisation des requˆetes en fonction :

I du pays, de la langue

(126)

A d´efaut une cat´egorisation des requˆetes en fonction :

I du pays, de la langue

I des profils utilisateur

I de la requˆete elle-mˆeme, ce qui expliquerait l’absence de commutativit´e

(127)

Mod´elisation et moteurs de recherche sur le web PageRank

Probl`

emes de recherche actuels

I Maintenir les performances et la pertinence des r´eponses

I Indexer correctement les images puis les vid´eos algorithmiquement

(128)

Mod´elisation et moteurs de recherche sur le web PageRank

Probl`

emes de recherche actuels

I Maintenir les performances et la pertinence des r´eponses

I lutter algorithmiquement contre les spams

(129)

Mod´elisation et moteurs de recherche sur le web PageRank

Probl`

emes de recherche actuels

I Maintenir les performances et la pertinence des r´eponses

I lutter algorithmiquement contre les spams

(130)

Probl`

emes de recherche actuels

I Maintenir les performances et la pertinence des r´eponses

I lutter algorithmiquement contre les spams

I identifier des communaut´es, des comportements

I Indexer correctement les images puis les vid´eos algorithmiquement

(131)

Mod´elisation et moteurs de recherche sur le web PageRank

Le brevet de 2007

Le brevet d´ecrit les crit`eres qui permettent de classer les pages Web

I La date du document (en fait celle du premier r´ef´erencement Google)

I La vitesse d’apparition de nouveaux liens pointant sur une page *

I Le texte des balises (ou ancres). L’anciennet´e du texte est gage de pertinence. (Analyse s´emantique du contexte autour de la balise).

(132)

Mod´elisation et moteurs de recherche sur le web PageRank

Le brevet de 2007

Le brevet d´ecrit les crit`eres qui permettent de classer les pages Web

I La date du document (en fait celle du premier r´ef´erencement Google)

I La fr´equence des modifications du contenu *

page *

I Le texte des balises (ou ancres). L’anciennet´e du texte est gage de pertinence. (Analyse s´emantique du contexte autour de la balise).

(133)

Mod´elisation et moteurs de recherche sur le web PageRank

Le brevet de 2007

Le brevet d´ecrit les crit`eres qui permettent de classer les pages Web

I La date du document (en fait celle du premier r´ef´erencement Google)

I La fr´equence des modifications du contenu *

I L’analyse des requˆıtes et des clics sur les r´esultats *

I Le texte des balises (ou ancres). L’anciennet´e du texte est gage de pertinence. (Analyse s´emantique du contexte autour de la balise).

(134)

Mod´elisation et moteurs de recherche sur le web PageRank

Le brevet de 2007

Le brevet d´ecrit les crit`eres qui permettent de classer les pages Web

I La date du document (en fait celle du premier r´ef´erencement Google)

I La fr´equence des modifications du contenu *

I L’analyse des requˆıtes et des clics sur les r´esultats *

I La vitesse d’apparition de nouveaux liens pointant sur une page *

(135)

Le brevet de 2007

Le brevet d´ecrit les crit`eres qui permettent de classer les pages Web

I La date du document (en fait celle du premier r´ef´erencement Google)

I La fr´equence des modifications du contenu *

I L’analyse des requˆıtes et des clics sur les r´esultats *

I La vitesse d’apparition de nouveaux liens pointant sur une page *

I Le texte des balises (ou ancres). L’anciennet´e du texte est gage de pertinence. (Analyse s´emantique du contexte autour de la balise).

(136)

Mod´elisation et moteurs de recherche sur le web PageRank

Mais aussi ...

I Le trafic sur la page

I Les classements pr´ec´edents

I ˆetre ou ne pas ˆetre dans des bookmarks

I Le liens non pertinents (indicateur de spam)

(137)

Mod´elisation et moteurs de recherche sur le web PageRank

Mais aussi ...

I Le trafic sur la page

I Le comportement des visiteurs sur la page (temps pass´e . . .)

I ˆetre ou ne pas ˆetre dans des bookmarks

I Le liens non pertinents (indicateur de spam)

(138)

Mod´elisation et moteurs de recherche sur le web PageRank

Mais aussi ...

I Le trafic sur la page

I Le comportement des visiteurs sur la page (temps pass´e . . .)

I Le nom de domaine

I Le liens non pertinents (indicateur de spam)

(139)

Mod´elisation et moteurs de recherche sur le web PageRank

Mais aussi ...

I Le trafic sur la page

I Le comportement des visiteurs sur la page (temps pass´e . . .)

I Le nom de domaine

I Les classements pr´ec´edents

(140)

Mod´elisation et moteurs de recherche sur le web PageRank

Mais aussi ...

I Le trafic sur la page

I Le comportement des visiteurs sur la page (temps pass´e . . .)

I Le nom de domaine

I Les classements pr´ec´edents

(141)

Mod´elisation et moteurs de recherche sur le web PageRank

Mais aussi ...

I Le trafic sur la page

I Le comportement des visiteurs sur la page (temps pass´e . . .)

I Le nom de domaine

I Les classements pr´ec´edents

I ˆetre ou ne pas ˆetre dans des bookmarks

(142)

Mais aussi ...

I Le trafic sur la page

I Le comportement des visiteurs sur la page (temps pass´e . . .)

I Le nom de domaine

I Les classements pr´ec´edents

I ˆetre ou ne pas ˆetre dans des bookmarks

I Le liens non pertinents (indicateur de spam)

(143)

Mod´elisation et moteurs de recherche sur le web PageRank

Commentaires

I * signifie : pas du tout c’est mauvais, un peu c’est bien, trop c’est louche (spam)

I Le brevet ne doit donc pas ˆetre trop strict (car les autres moteurs font pareil)

(144)

Mod´elisation et moteurs de recherche sur le web PageRank

Commentaires

I * signifie : pas du tout c’est mauvais, un peu c’est bien, trop c’est louche (spam)

I Une ´equipe d’une centaine d’ing´enieurs qui pond`ere les param`etres d´ecrits ci-dessus continuellement.

(145)

Commentaires

I * signifie : pas du tout c’est mauvais, un peu c’est bien, trop c’est louche (spam)

I Une ´equipe d’une centaine d’ing´enieurs qui pond`ere les param`etres d´ecrits ci-dessus continuellement.

I Le brevet ne doit donc pas ˆetre trop strict (car les autres moteurs font pareil)

(146)

Quelques r´

ef´

erences

I T. Bennouas, PhD Thesis, Montpellier University, 2005.

I M. Bouklit, PhD Thesis, Montpellier University, 2006.

I S. Brin, L. Page, R. Motwani, T. Winograd, The PageRank citation ranking : bringing an order to the Web, Technical Report 1999-0120, Computer Science Dept. Standford, 1999.

I M. Eisermann, Comment fonctionne Google ?, www-fourier-ujf-grenoble.fr/~eiserm

I J. Kleinberg, Authoritative sources in a hyperlinked environment, J. of the ACM, 1999.

I A.N. Langville, C.D. Meyer, Google’s PageRank and beyond, Princeton University Press, 2006.

(147)

PageRank

Syntaxe et s´emantique Structure versus contenu

Raisonner sur des donn´ees h´et´erog`enes

Algorithmes de recommandation

(148)

Mod´elisation et moteurs de recherche sur le web Syntaxe et s´emantique

Les limites de la recherche par mots cl´

es

(149)

Les limites de la recherche par mots cl´

es

I Les limites des statistiques de mots cl´es (Rabelais et Dieu)

I La page recherch´ee ne contient pas n´ecessairement le mot de la requˆete (Page de Harvard, du MIT le mot est rempla¸c´e par un logo) ou les pages personnelles.

(150)

Mod´elisation et moteurs de recherche sur le web Syntaxe et s´emantique

Les bombes de Google

I Le nom associ´e `a la balise html d’une page q qui pointe sur une page p est utilis´e pour indexer la page p

(151)

Mod´elisation et moteurs de recherche sur le web Syntaxe et s´emantique

Les bombes de Google

I Le nom associ´e `a la balise html d’une page q qui pointe sur une page p est utilis´e pour indexer la page p

(152)

Les bombes de Google

I Le nom associ´e `a la balise html d’une page q qui pointe sur une page p est utilis´e pour indexer la page p

I C’est presque l’unique moyen de faire passer de la s´emantique

(153)

Mod´elisation et moteurs de recherche sur le web Syntaxe et s´emantique

Les bombes les plus c´

el`

ebres

1. Talentless hacker versus Andy Pressman made by Adam Mathes in 2001.

3. Sarkozy versus Iznogood

4. Ministre Blanchisseur versus Renaud Donnadieu de Vabres

(154)

Mod´elisation et moteurs de recherche sur le web Syntaxe et s´emantique

Les bombes les plus c´

el`

ebres

1. Talentless hacker versus Andy Pressman made by Adam Mathes in 2001.

2. Miserable failure versus George W. Bush made by George Johnston 2003

(155)

Mod´elisation et moteurs de recherche sur le web Syntaxe et s´emantique

Les bombes les plus c´

el`

ebres

1. Talentless hacker versus Andy Pressman made by Adam Mathes in 2001.

2. Miserable failure versus George W. Bush made by George Johnston 2003

(156)

Mod´elisation et moteurs de recherche sur le web Syntaxe et s´emantique

Les bombes les plus c´

el`

ebres

1. Talentless hacker versus Andy Pressman made by Adam Mathes in 2001.

2. Miserable failure versus George W. Bush made by George Johnston 2003

3. Sarkozy versus Iznogood

(157)

Les bombes les plus c´

el`

ebres

1. Talentless hacker versus Andy Pressman made by Adam Mathes in 2001.

2. Miserable failure versus George W. Bush made by George Johnston 2003

3. Sarkozy versus Iznogood

4. Ministre Blanchisseur versus Renaud Donnadieu de Vabres

(158)

Mod´elisation et moteurs de recherche sur le web Syntaxe et s´emantique

Dans la plupart des cas le mot de la balise est un bon mot cl´e pour une page, et une grande partie du succ`es de Google vient de cela.

Une bombe explose uniquement apr`es la mise `a jour des coefficient de PageRank (un mois)

(159)

Mod´elisation et moteurs de recherche sur le web Syntaxe et s´emantique

Dans la plupart des cas le mot de la balise est un bon mot cl´e pour une page, et une grande partie du succ`es de Google vient de cela.

First Google answer was : We just show what is between the Web pages.

(160)

Dans la plupart des cas le mot de la balise est un bon mot cl´e pour une page, et une grande partie du succ`es de Google vient de cela.

First Google answer was : We just show what is between the Web pages.

Une bombe explose uniquement apr`es la mise `a jour des coefficient de PageRank (un mois)

(161)

Existe-t-il une solution algorithmique pour la d´

etection des

bombes ?

01/26/2007

Google announced today a modification to their search algorithm that minimizes well-known googlebombing exploits. Searches on ”miserable failure” and their ilk no longer bring up political targets. The Google blogger writes : By improving our analysis of the link structure of the web, Google has begun minimizing the impact of many Googlebombs. Now we will typically return commentary, discussions, and articles about the Googlebombs instead.

(162)

Toujours pas vrai !

(163)
(164)

La question : Comment faire un enfant ? Google classe bizarrement les r´eponses

(165)

Pour mieux r´epondre `a certaines questions, il faut comprendre le sens des mots ! ! !

R´ef´erence `a Lewis Caroll :

(166)

Google n’utilise pour l’instant que des recherches `a l’aide de mots cl´es et quelques heuristiques (cf. le brevet).

Ses algorithmes ne sont pas suffisants car ils ne reconnaissent pas les pages cr´e´ees par Demand Media (pages vides de sens, mais construites uniquement pour ˆetre index´ees sur les requˆetes les plus communes, histoire d’afficher de la publicit´e).

La simple existence de Demand Media (Publishing what the world want to know and share) valant 1,6 milliard de dollars est une atteinte `a Google.

(167)

Mod´elisation et moteurs de recherche sur le web Syntaxe et s´emantique

Raisonnement type qu’il s’agit d’automatiser

(168)

Mod´elisation et moteurs de recherche sur le web Syntaxe et s´emantique

Raisonnement type qu’il s’agit d’automatiser

1. Des donn´ees

(169)

Raisonnement type qu’il s’agit d’automatiser

1. Des donn´ees

2. Un m´ecanisme d’inf´erence

(170)

On peut vouloir raisonner logiquement (selon une certaine logique math´ematique)

ou raisonner suivant une heuristique (raisonnement de sens commun)

(171)

Mod´elisation et moteurs de recherche sur le web Syntaxe et s´emantique

Les raisonnements varient d’une discipline `a l’autre :

I Pr´ehistoire :

”L’absence n’est pas une preuve, et encore moins la preuve de l’absence.”

Mais un seul os suffit `a faire une th´eorie, inventer une esp`ece.

I En math´ematiques une seule preuve ”juste” suffit, en attendant le contre-exemple . . .

(172)

Mod´elisation et moteurs de recherche sur le web Syntaxe et s´emantique

Les raisonnements varient d’une discipline `a l’autre :

I Pr´ehistoire :

”L’absence n’est pas une preuve, et encore moins la preuve de l’absence.”

Mais un seul os suffit `a faire une th´eorie, inventer une esp`ece.

I En histoire pour affirmer qq chose, il faut accumuler les preuves, les indices.

(173)

Les raisonnements varient d’une discipline `a l’autre :

I Pr´ehistoire :

”L’absence n’est pas une preuve, et encore moins la preuve de l’absence.”

Mais un seul os suffit `a faire une th´eorie, inventer une esp`ece.

I En histoire pour affirmer qq chose, il faut accumuler les preuves, les indices.

I En math´ematiques une seule preuve ”juste” suffit, en attendant le contre-exemple . . .

(174)

PageRank

Syntaxe et s´emantique Structure versus contenu

Raisonner sur des donn´ees h´et´erog`enes

Algorithmes de recommandation

(175)

Autre exemple structuraliste

Issu de la th`ese Alina Stoica 2011, CIFRE entre ORANGE LAB et le LIAFA (encadrant principal Christophe Prieur)

En consid´erant des graphes extraits des communications (t´el´ephoniques, mail, SMS),

R´esultat principal

La structure des graphes egocentr´es (les sous-graphes voisinages d’un sommet) sont ´etroitement corr´el´es avec l’ˆage.

Pour ce faire nous avons class´e les graphes egocentr´es suivant leur r´epartition des sous-graphes de petites tailles (triangle, P4, . . . ≤ 5

(176)

Mod´elisation et moteurs de recherche sur le web Structure versus contenu

Cons´equences

Il semblerait donc que la structure de communication interne du groupe de vos correspondants soit corr´el´e avec votre ˆage, et votre milieu social.

(177)

Cons´equences

Il semblerait donc que la structure de communication interne du groupe de vos correspondants soit corr´el´e avec votre ˆage, et votre milieu social.

Question

Peut-on d´eduire de la structure de ces graphes egocentr´es votre couleur politique ?

(178)

Mod´elisation et moteurs de recherche sur le web Structure versus contenu

Dans ces deux premiers exemples

I Pas de s´emantique, il n’est pas n´ecessaire de consid´erer le contenu des pages Web, ni le contenu des messages dans le 2`eme exemple.

I Enfin Twitter utiliserait ce genre de techniques dans sa recherche anti-spam

(179)

Mod´elisation et moteurs de recherche sur le web Structure versus contenu

Dans ces deux premiers exemples

I Pas de s´emantique, il n’est pas n´ecessaire de consid´erer le contenu des pages Web, ni le contenu des messages dans le 2`eme exemple.

I Juste l’utilisation de la syntaxe (i.e. la structure du graphe), suffit `a donner des informations utiles.

(180)

Dans ces deux premiers exemples

I Pas de s´emantique, il n’est pas n´ecessaire de consid´erer le contenu des pages Web, ni le contenu des messages dans le 2`eme exemple.

I Juste l’utilisation de la syntaxe (i.e. la structure du graphe), suffit `a donner des informations utiles.

I Enfin Twitter utiliserait ce genre de techniques dans sa recherche anti-spam

(181)
(182)

Les rapports entre structure et contenus dans les r´eseaux : retour au structuralisme (Levi-Strauss)

(183)

PageRank

Syntaxe et s´emantique Structure versus contenu

Raisonner sur des donn´ees h´et´erog`enes

Algorithmes de recommandation

(184)

Mod´elisation et moteurs de recherche sur le web Raisonner sur des donn´ees h´et´erog`enes

1. Recommander un nouvel ami (ex : Facebook)

3. Recommander un autre achat dans un logiciel de vente en ligne ( ex : Amazon)

4. Recommander une autre vid´eo dans un logiciel de recherche de vid´eos

5. Choisir ce que l’on vous recommande de lire /voir chez vos amis (Facebook)

(185)

Mod´elisation et moteurs de recherche sur le web Raisonner sur des donn´ees h´et´erog`enes

1. Recommander un nouvel ami (ex : Facebook)

2. Recommander une nouvelle relation dans un r´eseau social (ex : LinkedIn)

4. Recommander une autre vid´eo dans un logiciel de recherche de vid´eos

5. Choisir ce que l’on vous recommande de lire /voir chez vos amis (Facebook)

(186)

Mod´elisation et moteurs de recherche sur le web Raisonner sur des donn´ees h´et´erog`enes

1. Recommander un nouvel ami (ex : Facebook)

2. Recommander une nouvelle relation dans un r´eseau social (ex : LinkedIn)

3. Recommander un autre achat dans un logiciel de vente en ligne ( ex : Amazon)

5. Choisir ce que l’on vous recommande de lire /voir chez vos amis (Facebook)

(187)

Mod´elisation et moteurs de recherche sur le web Raisonner sur des donn´ees h´et´erog`enes

1. Recommander un nouvel ami (ex : Facebook)

2. Recommander une nouvelle relation dans un r´eseau social (ex : LinkedIn)

3. Recommander un autre achat dans un logiciel de vente en ligne ( ex : Amazon)

4. Recommander une autre vid´eo dans un logiciel de recherche de vid´eos

(188)

1. Recommander un nouvel ami (ex : Facebook)

2. Recommander une nouvelle relation dans un r´eseau social (ex : LinkedIn)

3. Recommander un autre achat dans un logiciel de vente en ligne ( ex : Amazon)

4. Recommander une autre vid´eo dans un logiciel de recherche de vid´eos

5. Choisir ce que l’on vous recommande de lire /voir chez vos amis (Facebook)

(189)

Enorme importance ´

economique du sujet

Annonce r´ecente de th`ese 01/02/2010

Nous souhaiterions recruter des ´etudiants doctorants dans le cadre d’une convention CIFRE afin de d´evelopper un algorithme de coupage entre les offres d’emploi pr´esentes sur Internet et les donn´ees ou profils utilisateurs contenus sur les r´eseaux sociaux tels que LinkedIn et Facebook.

Plus particuli`erement l’algorithme aura pour but de :

Proposer les offres d’emploi les plus pertinentes en fonction du profil d’un utilisateur,

Sugg´erer des contacts susceptibles d’ˆetre int´eress´es par une offre d’emploi donn´ee,

Optimiser la cr´eation de campagnes publicitaires cibl´ees sur le r´eseau LinkedIn ou Facebook.

(190)

`

A partir de quelles donn´

ees travaillent ces algorithmes ?

On parle aussi demoteur de recommandation

Un ou plusieurs graphes, plus des donn´ees textuelles, des graphes conceptuels ou r´eseaux s´emantiques.

(191)

Mod´elisation et moteurs de recherche sur le web Raisonner sur des donn´ees h´et´erog`enes

Recommandation d’un nouvel ami

On cherche les sommets du graphe du r´eseau social ayant le plus de voisins commun avec un sommet x donn´e.

Recherche de voisinage dans un graphe.

2 heuristiques possibles

Parmi ceux qui ont le plus de voisins communs, classer par ordre de proximit´e au profil

Parmi ceux qui sont proches, classer en fonction du nombre de voisins communs

(192)

Mod´elisation et moteurs de recherche sur le web Raisonner sur des donn´ees h´et´erog`enes

Recommandation d’un nouvel ami

On cherche les sommets du graphe du r´eseau social ayant le plus de voisins commun avec un sommet x donn´e.

Recherche de voisinage dans un graphe.

Variante

On cherche suivant le profil : a ´etudi´e `a Paris Diderot . . .

de proximit´e au profil

Parmi ceux qui sont proches, classer en fonction du nombre de voisins communs

(193)

Recommandation d’un nouvel ami

On cherche les sommets du graphe du r´eseau social ayant le plus de voisins commun avec un sommet x donn´e.

Recherche de voisinage dans un graphe.

Variante

On cherche suivant le profil : a ´etudi´e `a Paris Diderot . . .

2 heuristiques possibles

Parmi ceux qui ont le plus de voisins communs, classer par ordre de proximit´e au profil

Parmi ceux qui sont proches, classer en fonction du nombre de voisins communs

(194)

Mod´elisation et moteurs de recherche sur le web Raisonner sur des donn´ees h´et´erog`enes

Recommandation d’un livre

On consid`ere le graphe biparti Client – Livres.

Etant donn´e un client x un livre achet´e y , on cherche un biparti maximal complet contenant l’arˆete xy dans le graphe des achats. Ce biparti peut ´eventuellement avoir ´et´e pr´ecalcul´e

(195)

Recommandation d’un livre

On consid`ere le graphe biparti Client – Livres.

Etant donn´e un client x un livre achet´e y , on cherche un biparti maximal complet contenant l’arˆete xy dans le graphe des achats. Ce biparti peut ´eventuellement avoir ´et´e pr´ecalcul´e

Variante

On peut associer `a chaque livre un graphe conceptuel et rechercher des livres ayant des graphes conceptuels voisins.

(196)

One million dollars program

Il y a quatre ans, Netflix, le loueur de DVD en ligne am´ericain, avait lanc´e un concours pour am´eliorer la pertinence de son moteur de recommandation de films de 10%. Plusieurs ´equipes de

recherche s’´etaient lanc´ees dans le d´efi, mais les propositions avaient du mal `a am´eliorer le moteur de plus de 8,5% .

Le prix d’un Million de dollars a ´et´e gagn´e en 2009 (une m´ethode de factorisation matricielle, pas d’apprentissage automatique).

(197)

Les moteurs de recommandation fonctionnent souvent de la mˆeme fa¸con et se contentent d’offrir aux utilisateurs un syst`eme de notation pour faire des recommandations adapt´ees aux notes attribu´ees. Pour Alex Iskold, il faut distinguer les recommandations personnalis´ees (adapt´ees `a nos comportements pass´es), sociales (adapt´ees au comportement d’utilisateurs similaires) ou sur l’objet.

Donn´ees de base

id user id movie id rating timestamp

(198)

Les recommandations sociales s’appuient sur un filtrage collaboratif : les gens qui aiment le Seigneur des anneaux vont appr´ecier Eragon et les Chroniques de Narnia. Le probl`eme de ce type d’approche est que les goˆuts des gens ne se superposent pas toujours `a des cat´egories aussi simples. Si deux personnes aiment les films de ce type, cela ne veut pas dire qu’ils aimeront les mˆemes drames ou les mˆemes polars. De mˆeme, on pourrait ajouter que si vous aimez un titre de ce genre pour ses qualit´es de r´ealisation, il n’est pas sˆur que vous appr´ecierez un autre titre de ce genre dont la r´ealisation ou l’approche sc´enaristique seront diff´erentes.

Références

Documents relatifs

Raisonner avec la provenance sur les donn ´ees du Web pour l’int ´egration et la fiabilit ´e. Fondations : Provenance symbolique pour

Objectif : Int ´egrer les donn ´ees du Web et raisonner sur ces donn ´ees en estimant leur fiabilit ´e grˆace `a des annotations de provenance Le raisonnement et la fiabilit ´e vont

Objectif : Int´egrer les donn ´ees du Web et raisonner sur ces donn ´ees en estimant leur fiabilit´e grˆace `a des annotations de provenance Le raisonnement et la fiabilit´e vont

Objectif : Int´egrer les donn ´ees du Web et raisonner sur ces donn ´ees en estimant leur fiabilit´e grˆace `a des annotations de provenance Le raisonnement et la fiabilit´e vont

Main goal: Integrate Web data and reason about it using provenance to estimate the reliability of results Reasoning and reliability go hand in hand:. • Data from one source

Discovering new URLs Identifying duplicates Crawling architecture Crawling Complex Content Focused

Answering Keyword Queries Building inverted files Spelling correction Clustering. Indexing

Le droit d’usage d ´efini par la licence autorise un usage `a destination de tout public qui comprend : – le droit de reproduire tout ou partie du document sur support informatique