• Aucun résultat trouvé

État des recherches

N/A
N/A
Protected

Academic year: 2022

Partager "État des recherches"

Copied!
24
0
0

Texte intégral

(1)

État des recherches

Pierre Senellart

TELECOM ParisTech 27 juin 2008

(2)

XML probabiliste

A

B

w1; :w2

C

D

w2

Event Prob.

w1 0:8 w2 0:7

sémantique

A

C

D p2=0:70 A

C p1=0:06

A

B C

p3=0:24

(3)

Collaboration avec Serge Abiteboul (INRIA Saclay), Benny Kimmelfeld (Hebrew University of Jerusalem).

XML probabiliste

A

B

w1; :w2

C

D

w2

Event Prob.

w1 0:8 w2 0:7

sémantique

A

C

D p2=0:70 A

C p1=0:06

A

B C

p3=0:24 État des recherches

Implémentation et étude de complexité réalisées et publiées.

En cours : rédaction d’un article de journal sur expressivité et mises à jour dans les différents modèles XML probabiliste.

(4)

Correspondance de schémas à partir d’instances

R R0

a b c d

a a b b c a d d g h

8x R(x) !R0(x;x)

Coût :17

R0 prédit a a b b c c d d

(5)

Collaboration avec Georg Gottlob, University of Oxford.

Correspondance de schémas à partir d’instances

R R0

a b c d

a a b b c a d d g h

8x R(x)^x 6=c!R0(x;x)

Coût :17

R0 prédit a a b b d d

(6)

Correspondance de schémas à partir d’instances

R R0

a b c d

a a b b c a d d g h

8x R(x)^x 6=c!R0(x;x) R0(c;a)

R0(g;h) Coût :17

R0 prédit a a b b c a d d

(7)

Collaboration avec Georg Gottlob, University of Oxford.

Correspondance de schémas à partir d’instances

R R0

a b c d

a a b b c a d d g h

8x R(x)^x 6=c!R0(x;x) R0(c;a)

R0(g;h)

Coût :17

R0 prédit a a b b c c d d g h

(8)

Correspondance de schémas à partir d’instances

R R0

a b c d

a a b b c a d d g h

8x R(x)^x 6=c!R0(x;x) 9y19y2R0(y1;y2) ^y1 =c^y2 =a 9y19y2R0(y1;y2) ^y1 =g ^y2=h

Coût :17

R0 prédit a a b b c c d d g h

(9)

Collaboration avec Georg Gottlob, University of Oxford.

Correspondance de schémas à partir d’instances

R R0

a b c d

a a b b c a d d g h

8x R(x) ^x 6=c!R0(x;x) 9y19y2R0(y1;y2) ^y1 =c^y2 =a 9y19y2R0(y1;y2) ^y1 =g ^y2=h

Coût :17

R0 prédit a a b b c c d d g h

(10)

Correspondance de schémas à partir d’instances

R R0

a b c d

a a b b c a d d g h

8x R(x) ^x 6=c!R0(x;x) 9y19y2R0(y1;y2) ^y1 =c^y2 =a 9y19y2R0(y1;y2) ^y1 =g ^y2=h

Coût :17

R0 prédit a a b b c c d d g h État des recherches

Étude détaillée de complexité

En cours : amélioration de certains résultats, rédaction de papier journal

Possibles prolongements : étude des liens avec la programmation logique inductive

(11)

Collaboration avec l’équipe-projet Mostrare, INRIA Lille.

Extraction d’informations depuis des pages de résultat

Première annotation imprécise et incomplète grâce à la connaissance du domaine.

Affinage par généralisation structurelle du document (champs aléatoires conditionnels, appliqués de manièrenon supervisée!).

Permet d’obtenir sans intervention humaineun extracteur (wrapper) des résultats.

(12)

Extraction d’informations depuis des pages de résultat

Première annotation imprécise et incomplète grâce à la connaissance du domaine.

Affinage par généralisation structurelle du document (champs aléatoires conditionnels, appliqués de manièrenon supervisée!).

Permet d’obtenir sans intervention humaineun extracteur (wrapper) des résultats.

(13)

Collaboration avec l’équipe-projet Mostrare, INRIA Lille.

Extraction d’informations depuis des pages de résultat

Première annotationimprécise et incomplète grâce à la connaissance du domaine.

Affinage par généralisation structurelle du document (champs aléatoires conditionnels, appliqués de manièrenon supervisée!).

Permet d’obtenir sans intervention humaineun extracteur (wrapper) des résultats.

(14)

Extraction d’informations depuis des pages de résultat

Première annotationimprécise et incomplète grâce à la connaissance du domaine.

Affinage par généralisation structurelle du document (champs aléatoires conditionnels, appliqués de manièrenon supervisée!).

Permet d’obtenir sans intervention humaineun extracteur État des recherches

Premières expériences réalisées, résultats satisfaisants, article en cours de revue À venir : expériences sur d’autres domaines, amélioration du cadre d’apprentissage pour obtenir de meilleurs résultats

(15)

Collaboration avec Michalis Vazirgiannis, Athens University of Economics and Business.

Prédiction de PageRank

Le score (PageRank) d’une page Webévolue au cours du temps.

Coûteuxde parcourir tout le Web afin de mettre à jour ces scores.

Possibilité de prévoirces évolutions, en identifiant des tendances récurrentes ?

(16)

Prédiction de PageRank

Le score (PageRank) d’une page Webévolue au cours du temps.

Coûteuxde parcourir tout le Web afin de mettre à jour ces scores.

Possibilité de prévoirces évolutions, en identifiant des tendances récurrentes ?

État des recherches

Bon résultats avec des modèles de Markov cachés

Poster publié, papier en cours de revue

(17)

Collaboration avec Serge Abiteboul, INRIA Saclay.

Réponse à des requêtes avec vues et restrictions d’accès

Quels services (du Web caché) interroger pour répondre à une requête d’un utilisateur ?

Service, Requête : règle Datalog

Différences avec interrogation classique de base de données : L’information ne peut être obtenue que par desvues

(Local As View)

Restriction sur les accès à ces vues (binding patterns) Informationincomplèteet imprécise

Typesimbriqués

(18)

Réponse à des requêtes avec vues et restrictions d’accès

Quels services (du Web caché) interroger pour répondre à une requête d’un utilisateur ?

Service, Requête : règle Datalog

Différences avec interrogation classique de base de données : L’information ne peut être obtenue que par desvues

(Local As View)

Restriction sur les accès à ces vues (binding patterns) Informationincomplèteet imprécise

Typesimbriqués État des recherches

Modèle défini

Pas de solution évidente

Beaucoup de littérature sur des thèmes voisins, mais ne répondant pas exactement au

problème

En cours : exploration du côté de Magic, Minicon, Inverse-Rules. . .

(19)

Collaboration avec le Max Planck Institut für Informatik (Sarrebruck) et European Archive (Paris).

Archivage du Web et datation

Estimer la date de dernière modification d’une page : Timestamp et ETag HTTP

Timestamp dans le contenu (max des timestamps ?) Comparaison avec une ancienne version, sans tenir compte des différences non significatives (hachage du texte

uniquement, shingling, distance d’édition. . . )

Méta-information sémantique (RSS, sitemaps, timestamp de documents PDF ou Word. . .)

(20)

Archivage du Web et datation

Estimer la date de dernière modification d’une page : Timestamp et ETag HTTP

Timestamp dans le contenu (max des timestamps ?) Comparaison avec une ancienne version, sans tenir compte des différences non significatives (hachage du texte

uniquement, shingling, distance d’édition. . . )

Méta-information sémantique (RSS, sitemaps, timestamp de documents PDF ou Word. . .)

État des recherches

Différentes sources d’informations répertoriées À venir : expérimentation systématique de la qualité de ces sources, pour définir une stratégie de datation

Gros crawls du Web à disposition (European Archive)

(21)

Collaboration avec Amélie Marian (Rutgers University) & Serge Abiteboul (INRIA Saclay).

Corroboration de données entre sources

Comment utiliser laredondance des faits déclarés par différentes sources (p. ex., sur le Web) pour estimer laconfiance en ces faits

?

Graphe bipartite source/fait Certaines sources nient des faits

Certains faits sont incompatibles (dépendances fonctionnelles)

etc.

(22)

Corroboration de données entre sources

Comment utiliser laredondance des faits déclarés par différentes sources (p. ex., sur le Web) pour estimer laconfiance en ces faits

?

Graphe bipartite source/fait Certaines sources nient des faits

Certains faits sont incompatibles (dépendances fonctionnelles)

etc.

État des recherches

Modèle et algorithmes à peu près élaborés dans certains cas (PageRank en biparti, OPIC avec cash négatif)

En cours : implémentation, expérimentations À venir : généralisations, dépendances fonctionnelles souples, etc.

(23)

Proposition de projet ANR DataRing (Atlas, Gemo, LIG, LIRMM).

Gestion d’incertitude dans le DataRing

DataRing : base de données semi-structurées auto-administrée

Problème spécifique : gestion d’incertitude (existence d’informations, mesures imprécises, etc.)

(24)

Gestion d’incertitude dans le DataRing

DataRing : base de données semi-structurées auto-administrée

Problème spécifique : gestion d’incertitude (existence d’informations, mesures imprécises, etc.)

État des recherches

À faire :à peu près tout ! Basé sur XML probabiliste ?

Références

Documents relatifs

Pour illustrer l’apport de l’utilisation des fonctions de caractéristiques quantifiées, nous comparons les résultats obtenus avec deux modèles CAC, le premier entrainé avec

Ces erreurs sont liées à des composantes connexes qui relient deux blocs.. Discussion 149 la tâche d'extraction de blocs fonctionnels dans des courriers manuscrits, ce cas de gure

Dans la suite des expériences, HDDA et HDDC seront comparées à différents modèles classiques de mélange gaussien : modèle gaussien avec une matrice de covariance pleine pour

Mais, dans notre application, x et y proviendront tous les deux des arbres du FTB : x sera un arbre d’analyse syntaxique et y l’arbre de même structure dont les nœuds internes ne

Exemple : si deux mots ont la même étiquette, ils sont en rapport avec une même

Tout d’abord, nous rappelons la définition d’un algorithme (pseudo-)robuste et le théorème sur la capacité en généralisation d’un tel algorithme dans le contexte usuel où

On estime que dans le cours de notre algorithme, la suppression des bords et la recherche des rectangles blancs maximaux nous permet déjà d’isoler des zones de texte avec une mise

Le jeu de données utilisé est le jeu de don- nées automatique, dans lequel les segments sont décrits à l’aide des descripteurs de contenu (voir paragraphe 3.2) et identifiés