• Aucun résultat trouvé

Raisonner avec la provenance sur les donn´ees du Web

N/A
N/A
Protected

Academic year: 2022

Partager "Raisonner avec la provenance sur les donn´ees du Web"

Copied!
73
0
0

Texte intégral

(1)

Raisonner avec la provenance sur les donn´ees du Web

Antoine Amarilli

Candidature MCF `a T ´el ´ecom ParisTech 14 juin 2016

(2)

Parcours

2013–2016 : Th `ese `aT´el´ecom ParisTechavecPierre Senellart:

Tirer parti de la structure des donn ´ees incertaines

• Soutenue le14 mars 2016 2012-2013 : Pr´e-doc :

• 3 mois `aTel Avivavec Tova Milo

• 5 mois `aOxfordavec Michael Benedikt

2009–2013 : ´Ecole normale sup´erieurede Paris, masterMPRI

• Stage de M1 `aGoogle New York

(3)

Enseignement

Environ185 heures ´equivalent TD pendant ma th `ese :

Uncertain Data Management, M2 Data & Knowledge :16 heures Conceptionetenseignementdu cours avec S. Maniu Technologies du Web, Master COMASIC :33 heures

Conceptionetenseignementdu cours et du projet Probl`emes pratiques et concours, inf280 :66 heures

Responsabled’un groupe,coachpour le concours

(4)

Publications

Bases de donn´ees :

• ICDT’14(pr ´edoc `a Tel Aviv)

• PODS’16(th `ese) Logique et automates :

• ICALP’15(th `ese)

• LICS’15(th `ese) Intelligence artificielle :

• IJCAI’15(pr ´e-doc `a Oxford) IJCAI’16

(5)

R´esum´e des travaux ant´erieurs

Interrogation de donn´ees relationnelles incertaines

(6)

Vue d’ensemble : Donn´ees relationnelles incertaines

´Evaluer unerequˆete logiquesur unebase de donn´ees relationnelle

Probl`eme :On ne dispose pas toujours des donn ´eesexactes:

• Donn ´ees cr ´e ´ees par des m ´ethodesfailliblesetnon-exhaustives

• Donn ´ees annot ´ees par des techniquesd’apprentissage

• Donn ´eesbruit´eesoup´erim´ees

→G ´erer les donn ´ees relationnellesavec leur incertitude

Probl`eme : complexes ind´ecidables

(7)

Donn´ees incompl`etes Donn´ees :

jour type 9 cong ´es 10 r ´eunion

11 cong ´es 18 cong ´es 18 r ´eunion Requˆete logique : Quelles r ´eunions sont pendant mes cong ´es ?

R`egles logiques :

• Je ne reviens pas pourun seul jour

jour type 9 cong ´es 10 r ´eunion

11 cong ´es 18 cong ´es 18 r ´eunion

10 cong´es

R´esultat :

(8)

Donn´ees incompl`etes Donn´ees :

jour type 9 cong ´es 10 r ´eunion

11 cong ´es 18 cong ´es 18 r ´eunion Requˆete logique : Quelles r ´eunions sont pendant mes cong ´es ?

R`egles logiques :

• Je ne reviens pas pourun seul jour

jour type 9 cong ´es 10 r ´eunion

11 cong ´es 18 cong ´es 18 r ´eunion

10 cong´es

R´esultat :

(9)

Donn´ees incompl`etes Donn´ees :

jour type 9 cong ´es 10 r ´eunion

11 cong ´es 18 cong ´es 18 r ´eunion Requˆete logique : Quelles r ´eunions sont pendant mes cong ´es ?

R`egles logiques :

• Je ne reviens pas pourun seul jour

jour type 9 cong ´es 10 r ´eunion

11 cong ´es 18 cong ´es 18 r ´eunion

10 cong´es

R´esultat : jour

(10)

Donn´ees incompl`etes Donn´ees :

jour type 9 cong ´es 10 r ´eunion

11 cong ´es 18 cong ´es 18 r ´eunion Requˆete logique : Quelles r ´eunions sont pendant mes cong ´es ?

R`egles logiques :

• Je ne reviens pas pourun seul jour

jour type 9 cong ´es 10 r ´eunion

11 cong ´es 18 cong ´es 18 r ´eunion

10 cong´es

R´esultat : jour 18

10

(11)

Donn´ees incompl`etes Donn´ees :

jour type 9 cong ´es 10 r ´eunion

11 cong ´es 18 cong ´es 18 r ´eunion Requˆete logique : Quelles r ´eunions sont pendant mes cong ´es ?

jour type 9 cong ´es 10 r ´eunion

11 cong ´es 18 cong ´es 18 r ´eunion

10 cong´es

R´esultat : jour 18

10

(12)

Donn´ees incompl`etes Donn´ees :

jour type 9 cong ´es 10 r ´eunion

11 cong ´es 18 cong ´es 18 r ´eunion Requˆete logique : Quelles r ´eunions sont pendant mes cong ´es ?

jour type 9 cong ´es 10 r ´eunion

11 cong ´es 18 cong ´es 18 r ´eunion

10 cong´es

R´esultat : jour 18

10

(13)

Donn´ees incompl`etes Donn´ees :

jour type 9 cong ´es 10 r ´eunion

11 cong ´es 18 cong ´es 18 r ´eunion Requˆete logique : Quelles r ´eunions sont pendant mes cong ´es ?

jour type 9 cong ´es 10 r ´eunion

11 cong ´es 18 cong ´es 18 r ´eunion 10 cong´es

R´esultat : jour 18

10

(14)

Donn´ees incompl`etes Donn´ees :

jour type 9 cong ´es 10 r ´eunion

11 cong ´es 18 cong ´es 18 r ´eunion Requˆete logique : Quelles r ´eunions sont pendant mes cong ´es ?

jour type 9 cong ´es 10 r ´eunion

11 cong ´es 18 cong ´es 18 r ´eunion 10 cong´es

R´esultat : jour

10

(15)

Donn´ees incompl`etes Donn´ees :

jour type 9 cong ´es 10 r ´eunion

11 cong ´es 18 cong ´es 18 r ´eunion Requˆete logique : Quelles r ´eunions sont pendant mes cong ´es ?

jour type 9 cong ´es 10 r ´eunion

11 cong ´es 18 cong ´es 18 r ´eunion 10 cong´es

R´esultat : jour

(16)

R´esum´e : raisonner sur les donn´ees incompl`etes

→Probl `eme fondamental enintelligence artificielle : Quelles r ´eponses `a larequˆetede l’utilisateur

sont vraies dans toutes les compl ´etions desdonn´ees qui satisfont desr`egles logiques?

Approches existantes:Langages de r `egles d ´ecidables en IA :

• Uniquement sur desgraphes de donn´ees

• Ne consid `erent pas sp ´ecifiquement les compl ´etionsfinies

→J’ai transpos ´e ces r ´esultats auxbases de donn´ees :

• ´Etendre auxhypergraphes [Amarilli, Benedikt,IJCAI’15]

• Restreindre aux compl ´etionsfinies [Amarilli, Benedikt,LICS’15]

(17)

R´esum´e : raisonner sur les donn´ees incompl`etes

→Probl `eme fondamental enintelligence artificielle : Quelles r ´eponses `a larequˆetede l’utilisateur

sont vraies dans toutes les compl ´etions desdonn´ees qui satisfont desr`egles logiques?

Approches existantes:Langages de r `egles d ´ecidables en IA :

• Uniquement sur desgraphes de donn´ees

• Ne consid `erent pas sp ´ecifiquement les compl ´etionsfinies

→J’ai transpos ´e ces r ´esultats auxbases de donn´ees :

(18)

Donn´ees probabilistes

Donn´ees : jour type

9 cong ´es

95%

10 r ´eunion

20%

11 cong ´es

30%

18 cong ´es

80%

18 r ´eunion

90%

Requˆete logique : Quelles r ´eunions sont

90%×80%

=

72%

R´esultat : jour

18

72%

(19)

Donn´ees probabilistes

Donn´ees : jour type

9 cong ´es

95%

10 r ´eunion

20%

11 cong ´es

30%

18 cong ´es

80%

18 r ´eunion

90%

Requˆete logique : Quelles r ´eunions sont

90%×80%

=

72%

R´esultat : jour

18

72%

(20)

Donn´ees probabilistes

Donn´ees : jour type

9 cong ´es

95%

10 r ´eunion

20%

11 cong ´es

30%

18 cong ´es

80%

18 r ´eunion

90%

Requˆete logique : Quelles r ´eunions sont

90%×80%

=

72%

R´esultat : jour

72%

(21)

Donn´ees probabilistes

Donn´ees : jour type

9 cong ´es 95%

10 r ´eunion 20%

11 cong ´es 30%

18 cong ´es 80%

18 r ´eunion 90%

Requˆete logique : Quelles r ´eunions sont

90%×80%

=

72%

R´esultat : jour

72%

(22)

Donn´ees probabilistes

Donn´ees : jour type

9 cong ´es 95%

10 r ´eunion 20%

11 cong ´es 30%

18 cong ´es 80%

18 r ´eunion 90%

Requˆete logique : Quelles r ´eunions sont

90%×80%

=

72%

R´esultat : jour

72%

(23)

Donn´ees probabilistes

Donn´ees : jour type

9 cong ´es 95%

10 r ´eunion 20%

11 cong ´es 30%

18 cong ´es 80%

18 r ´eunion 90%

Requˆete logique : Quelles r ´eunions sont

90%×80%

=72%

R´esultat : jour

72%

(24)

Donn´ees probabilistes

Donn´ees : jour type

9 cong ´es 95%

10 r ´eunion 20%

11 cong ´es 30%

18 cong ´es 80%

18 r ´eunion 90%

Requˆete logique : Quelles r ´eunions sont

90%×80%

=72%

R´esultat : jour

(25)

Donn´ees probabilistes : travaux existants

→Probl `eme d’ ´evaluation de requˆetes sur donn ´eesprobabilistes : Quelle est laprobabilit´e totalede chaque r ´eponse

quand les faits sont pr ´esents ou absentsind´ependamment avec laprobabilit´eindiqu ´ee ?

Approche existante(intensionnelle) :

dtt' Calendrier(t, d, "congés")

Calendrier(t', d, "réunion") Requête conjonctive

Y a-t-il une réunion pendant mes congés ?

(26)

Donn´ees probabilistes : travaux existants

→Probl `eme d’ ´evaluation de requˆetes sur donn ´eesprobabilistes : Quelle est laprobabilit´e totalede chaque r ´eponse

quand les faits sont pr ´esents ou absentsind´ependamment avec laprobabilit´eindiqu ´ee ?

Approche existante(intensionnelle) :

Calendrier id jour type t1 9 cong ´es

95%

t2 10 r ´eunion

20%

t3 11 cong ´es

30%

t4 18 cong ´es

80%

t5 18 r ´eunion

90%

(27)

Donn´ees probabilistes : travaux existants

→Probl `eme d’ ´evaluation de requˆetes sur donn ´eesprobabilistes : Quelle est laprobabilit´e totalede chaque r ´eponse

quand les faits sont pr ´esents ou absentsind´ependamment avec laprobabilit´eindiqu ´ee ?

Approche existante(intensionnelle) :

Formule de provenance

t ∧ t

PTIME Calendrier

id jour type t1 9 cong ´es

95%

t2 10 r ´eunion

20%

t3 11 cong ´es

30%

t4 18 cong ´es

80%

t5 18 r ´eunion

90%

(28)

Donn´ees probabilistes : travaux existants

→Probl `eme d’ ´evaluation de requˆetes sur donn ´eesprobabilistes : Quelle est laprobabilit´e totalede chaque r ´eponse

quand les faits sont pr ´esents ou absentsind´ependamment avec laprobabilit´eindiqu ´ee ?

Approche existante(intensionnelle) :

Formule de provenance

t ∧ t

PTIME Calendrier

id jour type

t1 9 cong ´es 95%

t2 10 r ´eunion 20%

t3 11 cong ´es 30%

t4 18 cong ´es 80%

t5 18 r ´eunion 90%

(29)

Donn´ees probabilistes : travaux existants

→Probl `eme d’ ´evaluation de requˆetes sur donn ´eesprobabilistes : Quelle est laprobabilit´e totalede chaque r ´eponse

quand les faits sont pr ´esents ou absentsind´ependamment avec laprobabilit´eindiqu ´ee ?

Approche existante(intensionnelle) :

Formule de provenance

Probabilité72%

t ∧ t

PTIME #P-difficile

en général Calendrier

id jour type

t1 9 cong ´es 95%

t2 10 r ´eunion 20%

t3 11 cong ´es 30%

t4 18 cong ´es 80%

t5 18 r ´eunion 90%

(30)

Donn´ees probabilistes : r´esultat de dichotomie

→J’ai montr ´e comment exploiter lastructure des donn´ees : Th´eor`eme [Amarilli, Bourhis, Senellart,ICALP’15]

L’ ´evaluation de requˆetesMSOest faisable en tempslin´eaire sur des donn ´ees probabilistes delargeur d’arbre born´ee

→En un sens, ce r ´esultat ne peut pas ˆetream´elior´e(dichotomie) : Th´eor`eme [Amarilli, Bourhis, Senellart,PODS’16]

L’ ´evaluation probabiliste de certaines requˆetesFOest#P-difficile

(31)

Donn´ees probabilistes : preuve de la borne sup´erieure Gen ´eraliser les r ´esultats de[Courcelle, 1990] `a laprovenance

Requête MSO Y a-t-il une réunion Données de largeur bornée

Calendrier id jour type t1 9 cong ´es

95%

t2 10 r ´eunion

20%

t3 11 cong ´es

30%

t4 18 cong ´es

80%

t5 18 r ´eunion

90%

(32)

Donn´ees probabilistes : preuve de la borne sup´erieure Gen ´eraliser les r ´esultats de[Courcelle, 1990] `a laprovenance

Automate d'arbres Requête MSO

Y a-t-il une réunion Données de largeur bornée

Calendrier id jour type t1 9 cong ´es

95%

t2 10 r ´eunion

20%

t3 11 cong ´es

30%

t4 18 cong ´es

80%

t5 18 r ´eunion

90%

(33)

Donn´ees probabilistes : preuve de la borne sup´erieure Gen ´eraliser les r ´esultats de[Courcelle, 1990] `a laprovenance

Automate d'arbres Encodage en arbre

Requête MSO Y a-t-il une réunion Données de largeur bornée

Calendrier id jour type t1 9 cong ´es

95%

t2 10 r ´eunion

20%

t3 11 cong ´es

30%

t4 18 cong ´es

80%

t5 18 r ´eunion

90%

(34)

Donn´ees probabilistes : preuve de la borne sup´erieure Gen ´eraliser les r ´esultats de[Courcelle, 1990] `a laprovenance

Automate d'arbres Encodage en arbre

Réponse TRUE

Requête MSO Y a-t-il une réunion

linéaire Données de largeur bornée

Calendrier id jour type t1 9 cong ´es

95%

t2 10 r ´eunion

20%

t3 11 cong ´es

30%

t4 18 cong ´es

80%

t5 18 r ´eunion

90%

(35)

Donn´ees probabilistes : preuve de la borne sup´erieure Gen ´eraliser les r ´esultats de[Courcelle, 1990] `a laprovenance

Automate d'arbres Encodage en arbre

Requête MSO Y a-t-il une réunion Données de largeur bornée

Calendrier id jour type t1 9 cong ´es

95%

t2 10 r ´eunion

20%

t3 11 cong ´es

30%

t4 18 cong ´es

80%

t5 18 r ´eunion

90%

(36)

Donn´ees probabilistes : preuve de la borne sup´erieure Gen ´eraliser les r ´esultats de[Courcelle, 1990] `a laprovenance

Automate d'arbres Encodage en arbre

Requête MSO Y a-t-il une réunion

Circuit de provenance

t4 t5

linéaire Données de largeur bornée

Calendrier id jour type t1 9 cong ´es

95%

t2 10 r ´eunion

20%

t3 11 cong ´es

30%

t4 18 cong ´es

80%

t5 18 r ´eunion

90%

(37)

Donn´ees probabilistes : preuve de la borne sup´erieure Gen ´eraliser les r ´esultats de[Courcelle, 1990] `a laprovenance

Automate d'arbres Encodage en arbre

Requête MSO Y a-t-il une réunion

Circuit de provenance

t4 t5

linéaire Données de largeur bornée

Calendrier id jour type

t1 9 cong ´es 95%

t2 10 r ´eunion 20%

t3 11 cong ´es 30%

t4 18 cong ´es 80%

t5 18 r ´eunion 90%

(38)

Donn´ees probabilistes : preuve de la borne sup´erieure Gen ´eraliser les r ´esultats de[Courcelle, 1990] `a laprovenance

Automate d'arbres Encodage en arbre

Requête MSO Y a-t-il une réunion

Circuit de provenance

t4 t5

linéaire Données de largeur bornée

linéaire

Calendrier id jour type

t1 9 cong ´es 95%

t2 10 r ´eunion 20%

t3 11 cong ´es 30%

t4 18 cong ´es 80%

t5 18 r ´eunion 90%

(39)

Projet de recherche

Raisonner avec la provenance sur les donn´ees du Web

(40)

Web des donn´ees

• Bases de connaissances :Wikidata, YAGO, etc.

• Donn ´ees ouvertes :data.gouv.fr, etc.

• Donn ´ees g ´eographiques :OpenStreetMaps, etc.

• Annotations s ´emantiques :Web Data Commons, etc. Objectif: combiner et utiliser ces donn ´ees :

• R ´epondre `a des requˆetes logiquescomplexes

• Calculer desvisualisationset desstatistiques

• Recouperdes informations ou trouver descontradictions

• Connecter sespropres donn´eesauxjeux de donn´ees existants Ces donn ´ees posent de nombreusesdifficult´es:

•h´et´erog`enes •distribu´ees •incompl`etes •peu fiables

(41)

Web des donn´ees

• Bases de connaissances :Wikidata, YAGO, etc.

• Donn ´ees ouvertes :data.gouv.fr, etc.

• Donn ´ees g ´eographiques :OpenStreetMaps, etc.

• Annotations s ´emantiques :Web Data Commons, etc. Objectif: combiner et utiliser ces donn ´ees :

• R ´epondre `a des requˆetes logiquescomplexes

• Calculer desvisualisationset desstatistiques

• Recouperdes informations ou trouver descontradictions

• Connecter sespropres donn´eesauxjeux de donn´ees existants Ces donn ´ees posent de nombreusesdifficult´es:

•h´et´erog`enes •distribu´ees •incompl`etes •peu fiables

(42)

Web des donn´ees

• Bases de connaissances :Wikidata, YAGO, etc.

• Donn ´ees ouvertes :data.gouv.fr, etc.

• Donn ´ees g ´eographiques :OpenStreetMaps, etc.

• Annotations s ´emantiques :Web Data Commons, etc. Objectif: combiner et utiliser ces donn ´ees :

• R ´epondre `a des requˆetes logiquescomplexes

• Calculer desvisualisationset desstatistiques

• Recouperdes informations ou trouver descontradictions

• Connecter sespropres donn´eesauxjeux de donn´ees existants Ces donn ´ees posent de nombreusesdifficult´es:

•h´et´erog`enes •distribu´ees •incompl`etes •peu fiables

Q2311820

T ´el ´ecom ParisTech

1878

Q847027 nom franc¸ais

date de fondation nature

(43)

Web des donn´ees

• Bases de connaissances :Wikidata, YAGO, etc.

• Donn ´ees ouvertes :data.gouv.fr, etc.

• Donn ´ees g ´eographiques :OpenStreetMaps, etc.

• Annotations s ´emantiques :Web Data Commons, etc. Objectif: combiner et utiliser ces donn ´ees :

• R ´epondre `a des requˆetes logiquescomplexes

• Calculer desvisualisationset desstatistiques

• Recouperdes informations ou trouver descontradictions

• Connecter sespropres donn´eesauxjeux de donn´ees existants Ces donn ´ees posent de nombreusesdifficult´es:

•h´et´erog`enes •distribu´ees •incompl`etes •peu fiables

(44)

Web des donn´ees

• Bases de connaissances :Wikidata, YAGO, etc.

• Donn ´ees ouvertes :data.gouv.fr, etc.

• Donn ´ees g ´eographiques :OpenStreetMaps, etc.

• Annotations s ´emantiques :Web Data Commons, etc. Objectif: combiner et utiliser ces donn ´ees :

• R ´epondre `a des requˆetes logiquescomplexes

• Calculer desvisualisationset desstatistiques

• Recouperdes informations ou trouver descontradictions

• Connecter sespropres donn´eesauxjeux de donn´ees existants Ces donn ´ees posent de nombreusesdifficult´es:

•h´et´erog`enes •distribu´ees •incompl`etes •peu fiables

(45)

Web des donn´ees

• Bases de connaissances :Wikidata, YAGO, etc.

• Donn ´ees ouvertes :data.gouv.fr, etc.

• Donn ´ees g ´eographiques :OpenStreetMaps, etc.

• Annotations s ´emantiques :Web Data Commons, etc. Objectif: combiner et utiliser ces donn ´ees :

• R ´epondre `a des requˆetes logiquescomplexes

• Calculer desvisualisationset desstatistiques

• Recouperdes informations ou trouver descontradictions

• Connecter sespropres donn´eesauxjeux de donn´ees existants Ces donn ´ees posent de nombreusesdifficult´es:

•h´et´erog`enes •distribu´ees •incompl`etes •peu fiables

(46)

Web des donn´ees

• Bases de connaissances :Wikidata, YAGO, etc.

• Donn ´ees ouvertes :data.gouv.fr, etc.

• Donn ´ees g ´eographiques :OpenStreetMaps, etc.

• Annotations s ´emantiques :Web Data Commons, etc. Objectif: combiner et utiliser ces donn ´ees :

• R ´epondre `a des requˆetes logiquescomplexes

• Calculer desvisualisationset desstatistiques

• Recouperdes informations ou trouver descontradictions

• Connecter sespropres donn´eesauxjeux de donn´ees existants Ces donn ´ees posent de nombreusesdifficult´es:

•h´et´erog`enes •distribu´ees •incompl`etes •peu fiables

(47)

Web des donn´ees

• Bases de connaissances :Wikidata, YAGO, etc.

• Donn ´ees ouvertes :data.gouv.fr, etc.

• Donn ´ees g ´eographiques :OpenStreetMaps, etc.

• Annotations s ´emantiques :Web Data Commons, etc.

Objectif: combiner et utiliser ces donn ´ees :

• R ´epondre `a des requˆetes logiquescomplexes

• Calculer desvisualisationset desstatistiques

• Recouperdes informations ou trouver descontradictions

• Connecter sespropres donn´eesauxjeux de donn´ees existants Ces donn ´ees posent de nombreusesdifficult´es:

•h´et´erog`enes •distribu´ees •incompl`etes •peu fiables

(48)

Web des donn´ees

• Bases de connaissances :Wikidata, YAGO, etc.

• Donn ´ees ouvertes :data.gouv.fr, etc.

• Donn ´ees g ´eographiques :OpenStreetMaps, etc.

• Annotations s ´emantiques :Web Data Commons, etc.

Objectif: combiner et utiliser ces donn ´ees :

• R ´epondre `a des requˆetes logiquescomplexes

• Calculer desvisualisationset desstatistiques

• Recouperdes informations ou trouver descontradictions

• Connecter sespropres donn´eesauxjeux de donn´ees existants

Ces donn ´ees posent de nombreusesdifficult´es:

•h´et´erog`enes •distribu´ees •incompl`etes •peu fiables

(49)

Web des donn´ees

• Bases de connaissances :Wikidata, YAGO, etc.

• Donn ´ees ouvertes :data.gouv.fr, etc.

• Donn ´ees g ´eographiques :OpenStreetMaps, etc.

• Annotations s ´emantiques :Web Data Commons, etc.

Objectif: combiner et utiliser ces donn ´ees :

• R ´epondre `a des requˆetes logiquescomplexes

• Calculer desvisualisationset desstatistiques

• Recouperdes informations ou trouver descontradictions

• Connecter sespropres donn´eesauxjeux de donn´ees existants

(50)

Probl`eme 1 : Int´egration

Donn ´eesincompl`eteseth´et´erog`enesissues de sourcesmultiples

• Raisonnement avec des r `egleslogiques

Int´egrerles diff ´erences sources

D´eduireles faits manquants Données

Intégration

Déduction

(51)

Probl`eme 2 : Fiabilit´e

Donn ´ees produitescollaborativementou par des processusfaillibles

Vandalisme

•Controverses •Extraction

→Approches existantes :truth finding, data cleaning, data repair...

(52)

Probl`eme 2 : Fiabilit´e

Donn ´ees produitescollaborativementou par des processusfaillibles

Vandalisme

•Controverses •Extraction

→Approches existantes :truth finding, data cleaning, data repair...

DansWikidata

(53)

Probl`eme 2 : Fiabilit´e

Donn ´ees produitescollaborativementou par des processusfaillibles

Vandalisme

•Controverses •Extraction

→Approches existantes :truth finding, data cleaning, data repair...

DansWikidata

(54)

Probl`eme 2 : Fiabilit´e

Donn ´ees produitescollaborativementou par des processusfaillibles

•Vandalisme •Controverses

•Extraction

→Approches existantes :truth finding, data cleaning, data repair...

DansWikidata

(55)

Probl`eme 2 : Fiabilit´e

Donn ´ees produitescollaborativementou par des processusfaillibles

•Vandalisme •Controverses •Extraction

→Approches existantes :truth finding, data cleaning, data repair...

DansYAGO

(56)

Probl`eme 2 : Fiabilit´e

Donn ´ees produitescollaborativementou par des processusfaillibles

•Vandalisme •Controverses •Extraction

→Approches existantes :truth finding, data cleaning, data repair...

DansYAGO

extraction automatique

(57)

Probl`eme 2 : Fiabilit´e

Donn ´ees produitescollaborativementou par des processusfaillibles

•Vandalisme •Controverses •Extraction DansYAGO

extraction automatique

(58)

Objectif

Objectif :Int´egrerles donn ´ees du Web etraisonnersur ces donn ´ees en estimant leurfiabilit´egrˆace `a des annotations deprovenance Leraisonnementet lafiabilit´evont de pair :

• Les donn ´ees d’une source peuvent provenir d’autres sources

• Les r `egles d’int ´egration elles-mˆemes ne sont pasfiables

• Il faut ´etudier la fiabilit ´e desr´esultats du raisonnement

1. Prendre en compte laprovenance initialedes faits 2. Propager laprovenanceau cours du raisonnement

(59)

Objectif

Objectif :Int´egrerles donn ´ees du Web etraisonnersur ces donn ´ees en estimant leurfiabilit´egrˆace `a des annotations deprovenance Leraisonnementet lafiabilit´evont de pair :

• Les donn ´ees d’une source peuvent provenir d’autres sources

• Les r `egles d’int ´egration elles-mˆemes ne sont pasfiables

• Il faut ´etudier la fiabilit ´e desr´esultats du raisonnement

1. Prendre en compte laprovenance initialedes faits

(60)

Provenance existante des donn´ees

Wikidata : Plus de40Mfaits ont une source (pr `es de 50%)

OpenStreetMaps : >40Mpoints et>120Mvoies avec source (>35%)

(61)

Provenance existante des donn´ees

Wikidata : Plus de40Mfaits ont une source (pr `es de 50%)

OpenStreetMaps : >40Mpoints et>120Mvoies avec source (>35%)

(62)

Propager la provenance au cours du raisonnement

→Comment d ´efinir laprovenanced’une r ´eponsecertaine?

Donn´ees :

id jour type t1 9 cong ´es t2 10 r ´eunion t3 11 cong ´es

Requˆete logique : Y a-t-il des r ´eunions pendant mes cong ´es ?

R`egle logique : Je ne reviens pas pourun seul jour

Provenance : t1t2t3r`egle?

→G ´en ´eraliser lessemianneaux de provenance[Green et al., 2007] des bases de donn ´ees au raisonnement ?

→Comment calculerefficacementcette provenance

et la repr ´esenter de fac¸onconcise, selon le langage de r `egles ?

(63)

Propager la provenance au cours du raisonnement

→Comment d ´efinir laprovenanced’une r ´eponsecertaine?

Donn´ees :

id jour type t1 9 cong ´es t2 10 r ´eunion t3 11 cong ´es

Requˆete logique : Y a-t-il des r ´eunions pendant mes cong ´es ?

R`egle logique : Je ne reviens pas pourun seul jour

Provenance : t1t2t3r`egle?

→G ´en ´eraliser lessemianneaux de provenance[Green et al., 2007]

des bases de donn ´ees au raisonnement ?

→Comment calculerefficacementcette provenance

et la repr ´esenter de fac¸onconcise, selon le langage de r `egles ?

(64)

Propager la provenance au cours du raisonnement

→Comment d ´efinir laprovenanced’une r ´eponsecertaine?

Donn´ees :

id jour type t1 9 cong ´es t2 10 r ´eunion t3 11 cong ´es

Requˆete logique : Y a-t-il des r ´eunions pendant mes cong ´es ?

R`egle logique : Je ne reviens pas pourun seul jour

Provenance : t1t2t3r`egle?

→G ´en ´eraliser lessemianneaux de provenance[Green et al., 2007]

des bases de donn ´ees au raisonnement ?

→Comment calculerefficacementcette provenance

(65)

Programme de recherche

Raisonner avec la provenance sur les donn ´ees du Web pour l’int ´egration et la fiabilit ´e

1. Provenance symbolique pour le raisonnement

D´efinitionabstraite `a diff ´erents niveaux d’expressivit ´e

Calculetrepr´esentationefficace

2. Propager des relations defiabilit´e `a travers la provenance 3. Calculer des confiancesquantitativeset probabilistes

R´eviser

(66)

Int´egration

(67)

Projet d’enseignement

Th´eorie des langages, BCI inf105

•Responsabilit´edu cours et enseignement d’un groupe Probl`emes pratiques et concours, inf280

•Responsabilit´edu cours

• Syst `eme d’ ´evaluation et sujets locaux,concours public Donn´ees du Web, Formation continue, inf344

• Participation `a l’enseignement

•Maintenancedu syst `eme d’ ´evaluation pour les TP Cours de M2 : Master Paris-Saclay, parcours D&K ou AFP

(68)

Projet de recherche dans DBWeb

Th`emes actuels : Rechercheth´eoriquesur les bases de donn ´ees

• Gestion de l’incertitudeet faisabilit ´e

• Gestion logique de l’incompl´etude

Projet de recherche : Provenance pour lesdonn´ees du Web

• Provenance pour YAGOet ´evaluation de YAGO

• Liens entre YAGO etWikidata

• Applicationsindustrielles, p. ex. avec Voyages-SNCF Collaborations internationales :

Oxford

(69)

R´esum´e

Merci pour votre attention!

Th`emes : Th ´eorie des bases de donn ´ees et incertitude Th`ese : Tirer parti de la structure des donn ´ees incertaines

[ICALP’15],[LICS’15],[PODS’16]; apr `es-th `ese[IJCAI’16]

Pr´e-doc : `ATel Aviv [ICDT’14]et `aOxford [IJCAI’15]

Projet :

(70)

Crowdsourcing

Fouille de donn´ees :Trouver des motifsfr´equents Crowdsourcing :Poser des questions `a lafoule

→Questions `a la foule : quelsensembles d’objetssontfr´equents?

nil activity

icdt tour

icdt

tour parthenon piraeus

icdt piraeus icdt

parthenon

parthenon piraeus

• Utiliser unetaxonomiesur les objets

• Les ensembles forment untreillis distributif

• Compromisentre lecoˆutdes questions pos ´ees et lecoˆutde calculer quelles questions poser

(71)

Applicabilit´e pratique de la largeur d’arbre

• Travail avec S. Maniu : les jeux de donn ´ees r ´eels peuvent ˆetrepartiellement d´ecompos´esen arbre

100%

80%

60%

40%

20%

0%

largeur 5 largeur 10 proportion d'arêtes

après décomposition partielle

D ´ecompositionpartielleen arbre dugraphe OSM de Paris

4.3 Mnœuds et5.4 Marˆetes

• Largeur totale521

• Stage de M. Monet : les m ´ethodes `a base d’automates peuvent ˆetreimplant´ees en pratique

(72)

Application : Compl´eter et v´erifier Wikidata

Ajouter `a Wikidata des faits issus d’autres sourceset lesv´erifier:

R `egles logiquesd´eclaratives: extraction, int ´egration, conflits

→Calculer laprovenanceet estimer lafiabilit´eavec :

• Sources originales(Wikip ´edia, etc.)

(73)

R´ef´erences

Courcelle, Bruno (1990). “The Monadic Second-Order Logic of Graphs. I. Recognizable Sets of Finite Graphs”. In :Inf. Comput.

Green, Todd J., Grigoris Karvounarakis, Val Tannen (2007).

“Provenance Semirings”. In :Proc. PODS.

Références

Documents relatifs

In this demonstration paper, we illustrate how to extrapolate on the information extracted from multiple Web sources in order to infer the locations of certain moving objects at

[r]

Discovering new URLs Identifying duplicates Crawling architecture Crawling Complex Content Focused

Answering Keyword Queries Building inverted files Spelling correction Clustering. Indexing

Le droit d’usage d ´efini par la licence autorise un usage `a destination de tout public qui comprend : – le droit de reproduire tout ou partie du document sur support informatique

Le droit d’usage d ´efini par la licence autorise un usage `a destination de tout public qui comprend : – le droit de reproduire tout ou partie du document sur support informatique

Most social networking Web sites (and some other kinds of Web sites) provide APIs to effectively access their content.. Usually a RESTful API,

Compare pages obtained by probing with the error page (by clustering along the DOM tree structure of the pages), to distinguish error pages and result pages.. Confirm the annotation