• Aucun résultat trouvé

Raisonner avec la provenance sur les donn´ees du Web

N/A
N/A
Protected

Academic year: 2022

Partager "Raisonner avec la provenance sur les donn´ees du Web"

Copied!
73
0
0

Texte intégral

(1)

Raisonner avec la provenance sur les donn´ees du Web

Antoine Amarilli

Candidature MCF `a T ´el ´ecom ParisTech 14 juin 2016

(2)

Parcours

2013–2016 : Th `ese `aT´el´ecom ParisTechavecPierre Senellart:

Tirer parti de la structure des donn ´ees incertaines

• Soutenue le14 mars 2016 2012-2013 : Pr´e-doc :

• 3 mois `aTel Avivavec Tova Milo

• 5 mois `aOxfordavec Michael Benedikt

2009–2013 : ´Ecole normale sup´erieurede Paris, masterMPRI

• Stage de M1 `aGoogle New York

(3)

Enseignement

Environ185 heures ´equivalent TD pendant ma th `ese :

Uncertain Data Management, M2 Data & Knowledge :16 heures Conceptionetenseignementdu cours avec S. Maniu Technologies du Web, Master COMASIC :33 heures

Conceptionetenseignementdu cours et du projet Probl`emes pratiques et concours, inf280 :66 heures

Responsabled’un groupe,coachpour le concours

(4)

Publications

Bases de donn´ees :

• ICDT’14(pr ´edoc `a Tel Aviv)

• PODS’16(th `ese) Logique et automates :

• ICALP’15(th `ese)

• LICS’15(th `ese) Intelligence artificielle :

• IJCAI’15(pr ´e-doc `a Oxford) IJCAI’16

(5)

R´esum´e des travaux ant´erieurs

Interrogation de donn´ees relationnelles incertaines

(6)

Vue d’ensemble : Donn´ees relationnelles incertaines

´Evaluer unerequˆete logiquesur unebase de donn´ees relationnelle

Probl`eme :On ne dispose pas toujours des donn ´eesexactes:

• Donn ´ees cr ´e ´ees par des m ´ethodesfailliblesetnon-exhaustives

• Donn ´ees annot ´ees par des techniquesd’apprentissage

• Donn ´eesbruit´eesoup´erim´ees

→G ´erer les donn ´ees relationnellesavec leur incertitude

Probl`eme : complexes ind´ecidables

(7)

Donn´ees incompl`etes Donn´ees :

jour type 9 cong ´es 10 r ´eunion

11 cong ´es 18 cong ´es 18 r ´eunion Requˆete logique : Quelles r ´eunions sont pendant mes cong ´es ?

R`egles logiques :

• Je ne reviens pas pourun seul jour

jour type 9 cong ´es 10 r ´eunion

11 cong ´es 18 cong ´es 18 r ´eunion

10 cong´es

R´esultat :

(8)

Donn´ees incompl`etes Donn´ees :

jour type 9 cong ´es 10 r ´eunion

11 cong ´es 18 cong ´es 18 r ´eunion Requˆete logique : Quelles r ´eunions sont pendant mes cong ´es ?

R`egles logiques :

• Je ne reviens pas pourun seul jour

jour type 9 cong ´es 10 r ´eunion

11 cong ´es 18 cong ´es 18 r ´eunion

10 cong´es

R´esultat :

(9)

Donn´ees incompl`etes Donn´ees :

jour type 9 cong ´es 10 r ´eunion

11 cong ´es 18 cong ´es 18 r ´eunion Requˆete logique : Quelles r ´eunions sont pendant mes cong ´es ?

R`egles logiques :

• Je ne reviens pas pourun seul jour

jour type 9 cong ´es 10 r ´eunion

11 cong ´es 18 cong ´es 18 r ´eunion

10 cong´es

R´esultat : jour

(10)

Donn´ees incompl`etes Donn´ees :

jour type 9 cong ´es 10 r ´eunion

11 cong ´es 18 cong ´es 18 r ´eunion Requˆete logique : Quelles r ´eunions sont pendant mes cong ´es ?

R`egles logiques :

• Je ne reviens pas pourun seul jour

jour type 9 cong ´es 10 r ´eunion

11 cong ´es 18 cong ´es 18 r ´eunion

10 cong´es

R´esultat : jour 18

10

(11)

Donn´ees incompl`etes Donn´ees :

jour type 9 cong ´es 10 r ´eunion

11 cong ´es 18 cong ´es 18 r ´eunion Requˆete logique : Quelles r ´eunions sont pendant mes cong ´es ?

jour type 9 cong ´es 10 r ´eunion

11 cong ´es 18 cong ´es 18 r ´eunion

10 cong´es

R´esultat : jour 18

10

(12)

Donn´ees incompl`etes Donn´ees :

jour type 9 cong ´es 10 r ´eunion

11 cong ´es 18 cong ´es 18 r ´eunion Requˆete logique : Quelles r ´eunions sont pendant mes cong ´es ?

jour type 9 cong ´es 10 r ´eunion

11 cong ´es 18 cong ´es 18 r ´eunion

10 cong´es

R´esultat : jour 18

10

(13)

Donn´ees incompl`etes Donn´ees :

jour type 9 cong ´es 10 r ´eunion

11 cong ´es 18 cong ´es 18 r ´eunion Requˆete logique : Quelles r ´eunions sont pendant mes cong ´es ?

jour type 9 cong ´es 10 r ´eunion

11 cong ´es 18 cong ´es 18 r ´eunion 10 cong´es

R´esultat : jour 18

10

(14)

Donn´ees incompl`etes Donn´ees :

jour type 9 cong ´es 10 r ´eunion

11 cong ´es 18 cong ´es 18 r ´eunion Requˆete logique : Quelles r ´eunions sont pendant mes cong ´es ?

jour type 9 cong ´es 10 r ´eunion

11 cong ´es 18 cong ´es 18 r ´eunion 10 cong´es

R´esultat : jour

10

(15)

Donn´ees incompl`etes Donn´ees :

jour type 9 cong ´es 10 r ´eunion

11 cong ´es 18 cong ´es 18 r ´eunion Requˆete logique : Quelles r ´eunions sont pendant mes cong ´es ?

jour type 9 cong ´es 10 r ´eunion

11 cong ´es 18 cong ´es 18 r ´eunion 10 cong´es

R´esultat : jour

(16)

R´esum´e : raisonner sur les donn´ees incompl`etes

→Probl `eme fondamental enintelligence artificielle : Quelles r ´eponses `a larequˆetede l’utilisateur

sont vraies dans toutes les compl ´etions desdonn´ees qui satisfont desr`egles logiques?

Approches existantes:Langages de r `egles d ´ecidables en IA :

• Uniquement sur desgraphes de donn´ees

• Ne consid `erent pas sp ´ecifiquement les compl ´etionsfinies

→J’ai transpos ´e ces r ´esultats auxbases de donn´ees :

• ´Etendre auxhypergraphes [Amarilli, Benedikt,IJCAI’15]

• Restreindre aux compl ´etionsfinies [Amarilli, Benedikt,LICS’15]

(17)

R´esum´e : raisonner sur les donn´ees incompl`etes

→Probl `eme fondamental enintelligence artificielle : Quelles r ´eponses `a larequˆetede l’utilisateur

sont vraies dans toutes les compl ´etions desdonn´ees qui satisfont desr`egles logiques?

Approches existantes:Langages de r `egles d ´ecidables en IA :

• Uniquement sur desgraphes de donn´ees

• Ne consid `erent pas sp ´ecifiquement les compl ´etionsfinies

→J’ai transpos ´e ces r ´esultats auxbases de donn´ees :

(18)

Donn´ees probabilistes

Donn´ees : jour type

9 cong ´es

95%

10 r ´eunion

20%

11 cong ´es

30%

18 cong ´es

80%

18 r ´eunion

90%

Requˆete logique : Quelles r ´eunions sont

90%×80%

=

72%

R´esultat : jour

18

72%

(19)

Donn´ees probabilistes

Donn´ees : jour type

9 cong ´es

95%

10 r ´eunion

20%

11 cong ´es

30%

18 cong ´es

80%

18 r ´eunion

90%

Requˆete logique : Quelles r ´eunions sont

90%×80%

=

72%

R´esultat : jour

18

72%

(20)

Donn´ees probabilistes

Donn´ees : jour type

9 cong ´es

95%

10 r ´eunion

20%

11 cong ´es

30%

18 cong ´es

80%

18 r ´eunion

90%

Requˆete logique : Quelles r ´eunions sont

90%×80%

=

72%

R´esultat : jour

72%

(21)

Donn´ees probabilistes

Donn´ees : jour type

9 cong ´es 95%

10 r ´eunion 20%

11 cong ´es 30%

18 cong ´es 80%

18 r ´eunion 90%

Requˆete logique : Quelles r ´eunions sont

90%×80%

=

72%

R´esultat : jour

72%

(22)

Donn´ees probabilistes

Donn´ees : jour type

9 cong ´es 95%

10 r ´eunion 20%

11 cong ´es 30%

18 cong ´es 80%

18 r ´eunion 90%

Requˆete logique : Quelles r ´eunions sont

90%×80%

=

72%

R´esultat : jour

72%

(23)

Donn´ees probabilistes

Donn´ees : jour type

9 cong ´es 95%

10 r ´eunion 20%

11 cong ´es 30%

18 cong ´es 80%

18 r ´eunion 90%

Requˆete logique : Quelles r ´eunions sont

90%×80%

=72%

R´esultat : jour

72%

(24)

Donn´ees probabilistes

Donn´ees : jour type

9 cong ´es 95%

10 r ´eunion 20%

11 cong ´es 30%

18 cong ´es 80%

18 r ´eunion 90%

Requˆete logique : Quelles r ´eunions sont

90%×80%

=72%

R´esultat : jour

(25)

Donn´ees probabilistes : travaux existants

→Probl `eme d’ ´evaluation de requˆetes sur donn ´eesprobabilistes : Quelle est laprobabilit´e totalede chaque r ´eponse

quand les faits sont pr ´esents ou absentsind´ependamment avec laprobabilit´eindiqu ´ee ?

Approche existante(intensionnelle) :

dtt' Calendrier(t, d, "congés")

Calendrier(t', d, "réunion") Requête conjonctive

Y a-t-il une réunion pendant mes congés ?

(26)

Donn´ees probabilistes : travaux existants

→Probl `eme d’ ´evaluation de requˆetes sur donn ´eesprobabilistes : Quelle est laprobabilit´e totalede chaque r ´eponse

quand les faits sont pr ´esents ou absentsind´ependamment avec laprobabilit´eindiqu ´ee ?

Approche existante(intensionnelle) :

Calendrier id jour type t1 9 cong ´es

95%

t2 10 r ´eunion

20%

t3 11 cong ´es

30%

t4 18 cong ´es

80%

t5 18 r ´eunion

90%

(27)

Donn´ees probabilistes : travaux existants

→Probl `eme d’ ´evaluation de requˆetes sur donn ´eesprobabilistes : Quelle est laprobabilit´e totalede chaque r ´eponse

quand les faits sont pr ´esents ou absentsind´ependamment avec laprobabilit´eindiqu ´ee ?

Approche existante(intensionnelle) :

Formule de provenance

t ∧ t

PTIME Calendrier

id jour type t1 9 cong ´es

95%

t2 10 r ´eunion

20%

t3 11 cong ´es

30%

t4 18 cong ´es

80%

t5 18 r ´eunion

90%

(28)

Donn´ees probabilistes : travaux existants

→Probl `eme d’ ´evaluation de requˆetes sur donn ´eesprobabilistes : Quelle est laprobabilit´e totalede chaque r ´eponse

quand les faits sont pr ´esents ou absentsind´ependamment avec laprobabilit´eindiqu ´ee ?

Approche existante(intensionnelle) :

Formule de provenance

t ∧ t

PTIME Calendrier

id jour type

t1 9 cong ´es 95%

t2 10 r ´eunion 20%

t3 11 cong ´es 30%

t4 18 cong ´es 80%

t5 18 r ´eunion 90%

(29)

Donn´ees probabilistes : travaux existants

→Probl `eme d’ ´evaluation de requˆetes sur donn ´eesprobabilistes : Quelle est laprobabilit´e totalede chaque r ´eponse

quand les faits sont pr ´esents ou absentsind´ependamment avec laprobabilit´eindiqu ´ee ?

Approche existante(intensionnelle) :

Formule de provenance

Probabilité72%

t ∧ t

PTIME #P-difficile

en général Calendrier

id jour type

t1 9 cong ´es 95%

t2 10 r ´eunion 20%

t3 11 cong ´es 30%

t4 18 cong ´es 80%

t5 18 r ´eunion 90%

(30)

Donn´ees probabilistes : r´esultat de dichotomie

→J’ai montr ´e comment exploiter lastructure des donn´ees : Th´eor`eme [Amarilli, Bourhis, Senellart,ICALP’15]

L’ ´evaluation de requˆetesMSOest faisable en tempslin´eaire sur des donn ´ees probabilistes delargeur d’arbre born´ee

→En un sens, ce r ´esultat ne peut pas ˆetream´elior´e(dichotomie) : Th´eor`eme [Amarilli, Bourhis, Senellart,PODS’16]

L’ ´evaluation probabiliste de certaines requˆetesFOest#P-difficile

(31)

Donn´ees probabilistes : preuve de la borne sup´erieure Gen ´eraliser les r ´esultats de[Courcelle, 1990] `a laprovenance

Requête MSO Y a-t-il une réunion Données de largeur bornée

Calendrier id jour type t1 9 cong ´es

95%

t2 10 r ´eunion

20%

t3 11 cong ´es

30%

t4 18 cong ´es

80%

t5 18 r ´eunion

90%

(32)

Donn´ees probabilistes : preuve de la borne sup´erieure Gen ´eraliser les r ´esultats de[Courcelle, 1990] `a laprovenance

Automate d'arbres Requête MSO

Y a-t-il une réunion Données de largeur bornée

Calendrier id jour type t1 9 cong ´es

95%

t2 10 r ´eunion

20%

t3 11 cong ´es

30%

t4 18 cong ´es

80%

t5 18 r ´eunion

90%

(33)

Donn´ees probabilistes : preuve de la borne sup´erieure Gen ´eraliser les r ´esultats de[Courcelle, 1990] `a laprovenance

Automate d'arbres Encodage en arbre

Requête MSO Y a-t-il une réunion Données de largeur bornée

Calendrier id jour type t1 9 cong ´es

95%

t2 10 r ´eunion

20%

t3 11 cong ´es

30%

t4 18 cong ´es

80%

t5 18 r ´eunion

90%

(34)

Donn´ees probabilistes : preuve de la borne sup´erieure Gen ´eraliser les r ´esultats de[Courcelle, 1990] `a laprovenance

Automate d'arbres Encodage en arbre

Réponse TRUE

Requête MSO Y a-t-il une réunion

linéaire Données de largeur bornée

Calendrier id jour type t1 9 cong ´es

95%

t2 10 r ´eunion

20%

t3 11 cong ´es

30%

t4 18 cong ´es

80%

t5 18 r ´eunion

90%

(35)

Donn´ees probabilistes : preuve de la borne sup´erieure Gen ´eraliser les r ´esultats de[Courcelle, 1990] `a laprovenance

Automate d'arbres Encodage en arbre

Requête MSO Y a-t-il une réunion Données de largeur bornée

Calendrier id jour type t1 9 cong ´es

95%

t2 10 r ´eunion

20%

t3 11 cong ´es

30%

t4 18 cong ´es

80%

t5 18 r ´eunion

90%

(36)

Donn´ees probabilistes : preuve de la borne sup´erieure Gen ´eraliser les r ´esultats de[Courcelle, 1990] `a laprovenance

Automate d'arbres Encodage en arbre

Requête MSO Y a-t-il une réunion

Circuit de provenance

t4 t5

linéaire Données de largeur bornée

Calendrier id jour type t1 9 cong ´es

95%

t2 10 r ´eunion

20%

t3 11 cong ´es

30%

t4 18 cong ´es

80%

t5 18 r ´eunion

90%

(37)

Donn´ees probabilistes : preuve de la borne sup´erieure Gen ´eraliser les r ´esultats de[Courcelle, 1990] `a laprovenance

Automate d'arbres Encodage en arbre

Requête MSO Y a-t-il une réunion

Circuit de provenance

t4 t5

linéaire Données de largeur bornée

Calendrier id jour type

t1 9 cong ´es 95%

t2 10 r ´eunion 20%

t3 11 cong ´es 30%

t4 18 cong ´es 80%

t5 18 r ´eunion 90%

(38)

Donn´ees probabilistes : preuve de la borne sup´erieure Gen ´eraliser les r ´esultats de[Courcelle, 1990] `a laprovenance

Automate d'arbres Encodage en arbre

Requête MSO Y a-t-il une réunion

Circuit de provenance

t4 t5

linéaire Données de largeur bornée

linéaire

Calendrier id jour type

t1 9 cong ´es 95%

t2 10 r ´eunion 20%

t3 11 cong ´es 30%

t4 18 cong ´es 80%

t5 18 r ´eunion 90%

(39)

Projet de recherche

Raisonner avec la provenance sur les donn´ees du Web

(40)

Web des donn´ees

• Bases de connaissances :Wikidata, YAGO, etc.

• Donn ´ees ouvertes :data.gouv.fr, etc.

• Donn ´ees g ´eographiques :OpenStreetMaps, etc.

• Annotations s ´emantiques :Web Data Commons, etc. Objectif: combiner et utiliser ces donn ´ees :

• R ´epondre `a des requˆetes logiquescomplexes

• Calculer desvisualisationset desstatistiques

• Recouperdes informations ou trouver descontradictions

• Connecter sespropres donn´eesauxjeux de donn´ees existants Ces donn ´ees posent de nombreusesdifficult´es:

•h´et´erog`enes •distribu´ees •incompl`etes •peu fiables

(41)

Web des donn´ees

• Bases de connaissances :Wikidata, YAGO, etc.

• Donn ´ees ouvertes :data.gouv.fr, etc.

• Donn ´ees g ´eographiques :OpenStreetMaps, etc.

• Annotations s ´emantiques :Web Data Commons, etc. Objectif: combiner et utiliser ces donn ´ees :

• R ´epondre `a des requˆetes logiquescomplexes

• Calculer desvisualisationset desstatistiques

• Recouperdes informations ou trouver descontradictions

• Connecter sespropres donn´eesauxjeux de donn´ees existants Ces donn ´ees posent de nombreusesdifficult´es:

•h´et´erog`enes •distribu´ees •incompl`etes •peu fiables

(42)

Web des donn´ees

• Bases de connaissances :Wikidata, YAGO, etc.

• Donn ´ees ouvertes :data.gouv.fr, etc.

• Donn ´ees g ´eographiques :OpenStreetMaps, etc.

• Annotations s ´emantiques :Web Data Commons, etc. Objectif: combiner et utiliser ces donn ´ees :

• R ´epondre `a des requˆetes logiquescomplexes

• Calculer desvisualisationset desstatistiques

• Recouperdes informations ou trouver descontradictions

• Connecter sespropres donn´eesauxjeux de donn´ees existants Ces donn ´ees posent de nombreusesdifficult´es:

•h´et´erog`enes •distribu´ees •incompl`etes •peu fiables

Q2311820

T ´el ´ecom ParisTech

1878

Q847027 nom franc¸ais

date de fondation nature

(43)

Web des donn´ees

• Bases de connaissances :Wikidata, YAGO, etc.

• Donn ´ees ouvertes :data.gouv.fr, etc.

• Donn ´ees g ´eographiques :OpenStreetMaps, etc.

• Annotations s ´emantiques :Web Data Commons, etc. Objectif: combiner et utiliser ces donn ´ees :

• R ´epondre `a des requˆetes logiquescomplexes

• Calculer desvisualisationset desstatistiques

• Recouperdes informations ou trouver descontradictions

• Connecter sespropres donn´eesauxjeux de donn´ees existants Ces donn ´ees posent de nombreusesdifficult´es:

•h´et´erog`enes •distribu´ees •incompl`etes •peu fiables

(44)

Web des donn´ees

• Bases de connaissances :Wikidata, YAGO, etc.

• Donn ´ees ouvertes :data.gouv.fr, etc.

• Donn ´ees g ´eographiques :OpenStreetMaps, etc.

• Annotations s ´emantiques :Web Data Commons, etc. Objectif: combiner et utiliser ces donn ´ees :

• R ´epondre `a des requˆetes logiquescomplexes

• Calculer desvisualisationset desstatistiques

• Recouperdes informations ou trouver descontradictions

• Connecter sespropres donn´eesauxjeux de donn´ees existants Ces donn ´ees posent de nombreusesdifficult´es:

•h´et´erog`enes •distribu´ees •incompl`etes •peu fiables

(45)

Web des donn´ees

• Bases de connaissances :Wikidata, YAGO, etc.

• Donn ´ees ouvertes :data.gouv.fr, etc.

• Donn ´ees g ´eographiques :OpenStreetMaps, etc.

• Annotations s ´emantiques :Web Data Commons, etc. Objectif: combiner et utiliser ces donn ´ees :

• R ´epondre `a des requˆetes logiquescomplexes

• Calculer desvisualisationset desstatistiques

• Recouperdes informations ou trouver descontradictions

• Connecter sespropres donn´eesauxjeux de donn´ees existants Ces donn ´ees posent de nombreusesdifficult´es:

•h´et´erog`enes •distribu´ees •incompl`etes •peu fiables

(46)

Web des donn´ees

• Bases de connaissances :Wikidata, YAGO, etc.

• Donn ´ees ouvertes :data.gouv.fr, etc.

• Donn ´ees g ´eographiques :OpenStreetMaps, etc.

• Annotations s ´emantiques :Web Data Commons, etc. Objectif: combiner et utiliser ces donn ´ees :

• R ´epondre `a des requˆetes logiquescomplexes

• Calculer desvisualisationset desstatistiques

• Recouperdes informations ou trouver descontradictions

• Connecter sespropres donn´eesauxjeux de donn´ees existants Ces donn ´ees posent de nombreusesdifficult´es:

•h´et´erog`enes •distribu´ees •incompl`etes •peu fiables

(47)

Web des donn´ees

• Bases de connaissances :Wikidata, YAGO, etc.

• Donn ´ees ouvertes :data.gouv.fr, etc.

• Donn ´ees g ´eographiques :OpenStreetMaps, etc.

• Annotations s ´emantiques :Web Data Commons, etc.

Objectif: combiner et utiliser ces donn ´ees :

• R ´epondre `a des requˆetes logiquescomplexes

• Calculer desvisualisationset desstatistiques

• Recouperdes informations ou trouver descontradictions

• Connecter sespropres donn´eesauxjeux de donn´ees existants Ces donn ´ees posent de nombreusesdifficult´es:

•h´et´erog`enes •distribu´ees •incompl`etes •peu fiables

(48)

Web des donn´ees

• Bases de connaissances :Wikidata, YAGO, etc.

• Donn ´ees ouvertes :data.gouv.fr, etc.

• Donn ´ees g ´eographiques :OpenStreetMaps, etc.

• Annotations s ´emantiques :Web Data Commons, etc.

Objectif: combiner et utiliser ces donn ´ees :

• R ´epondre `a des requˆetes logiquescomplexes

• Calculer desvisualisationset desstatistiques

• Recouperdes informations ou trouver descontradictions

• Connecter sespropres donn´eesauxjeux de donn´ees existants

Ces donn ´ees posent de nombreusesdifficult´es:

•h´et´erog`enes •distribu´ees •incompl`etes •peu fiables

(49)

Web des donn´ees

• Bases de connaissances :Wikidata, YAGO, etc.

• Donn ´ees ouvertes :data.gouv.fr, etc.

• Donn ´ees g ´eographiques :OpenStreetMaps, etc.

• Annotations s ´emantiques :Web Data Commons, etc.

Objectif: combiner et utiliser ces donn ´ees :

• R ´epondre `a des requˆetes logiquescomplexes

• Calculer desvisualisationset desstatistiques

• Recouperdes informations ou trouver descontradictions

• Connecter sespropres donn´eesauxjeux de donn´ees existants

(50)

Probl`eme 1 : Int´egration

Donn ´eesincompl`eteseth´et´erog`enesissues de sourcesmultiples

• Raisonnement avec des r `egleslogiques

Int´egrerles diff ´erences sources

D´eduireles faits manquants Données

Intégration

Déduction

(51)

Probl`eme 2 : Fiabilit´e

Donn ´ees produitescollaborativementou par des processusfaillibles

Vandalisme

•Controverses •Extraction

→Approches existantes :truth finding, data cleaning, data repair...

(52)

Probl`eme 2 : Fiabilit´e

Donn ´ees produitescollaborativementou par des processusfaillibles

Vandalisme

•Controverses •Extraction

→Approches existantes :truth finding, data cleaning, data repair...

DansWikidata

(53)

Probl`eme 2 : Fiabilit´e

Donn ´ees produitescollaborativementou par des processusfaillibles

Vandalisme

•Controverses •Extraction

→Approches existantes :truth finding, data cleaning, data repair...

DansWikidata

(54)

Probl`eme 2 : Fiabilit´e

Donn ´ees produitescollaborativementou par des processusfaillibles

•Vandalisme •Controverses

•Extraction

→Approches existantes :truth finding, data cleaning, data repair...

DansWikidata

(55)

Probl`eme 2 : Fiabilit´e

Donn ´ees produitescollaborativementou par des processusfaillibles

•Vandalisme •Controverses •Extraction

→Approches existantes :truth finding, data cleaning, data repair...

DansYAGO

(56)

Probl`eme 2 : Fiabilit´e

Donn ´ees produitescollaborativementou par des processusfaillibles

•Vandalisme •Controverses •Extraction

→Approches existantes :truth finding, data cleaning, data repair...

DansYAGO

extraction automatique

(57)

Probl`eme 2 : Fiabilit´e

Donn ´ees produitescollaborativementou par des processusfaillibles

•Vandalisme •Controverses •Extraction DansYAGO

extraction automatique

(58)

Objectif

Objectif :Int´egrerles donn ´ees du Web etraisonnersur ces donn ´ees en estimant leurfiabilit´egrˆace `a des annotations deprovenance Leraisonnementet lafiabilit´evont de pair :

• Les donn ´ees d’une source peuvent provenir d’autres sources

• Les r `egles d’int ´egration elles-mˆemes ne sont pasfiables

• Il faut ´etudier la fiabilit ´e desr´esultats du raisonnement

1. Prendre en compte laprovenance initialedes faits 2. Propager laprovenanceau cours du raisonnement

(59)

Objectif

Objectif :Int´egrerles donn ´ees du Web etraisonnersur ces donn ´ees en estimant leurfiabilit´egrˆace `a des annotations deprovenance Leraisonnementet lafiabilit´evont de pair :

• Les donn ´ees d’une source peuvent provenir d’autres sources

• Les r `egles d’int ´egration elles-mˆemes ne sont pasfiables

• Il faut ´etudier la fiabilit ´e desr´esultats du raisonnement

1. Prendre en compte laprovenance initialedes faits

(60)

Provenance existante des donn´ees

Wikidata : Plus de40Mfaits ont une source (pr `es de 50%)

OpenStreetMaps : >40Mpoints et>120Mvoies avec source (>35%)

(61)

Provenance existante des donn´ees

Wikidata : Plus de40Mfaits ont une source (pr `es de 50%)

OpenStreetMaps : >40Mpoints et>120Mvoies avec source (>35%)

(62)

Propager la provenance au cours du raisonnement

→Comment d ´efinir laprovenanced’une r ´eponsecertaine?

Donn´ees :

id jour type t1 9 cong ´es t2 10 r ´eunion t3 11 cong ´es

Requˆete logique : Y a-t-il des r ´eunions pendant mes cong ´es ?

R`egle logique : Je ne reviens pas pourun seul jour

Provenance : t1t2t3r`egle?

→G ´en ´eraliser lessemianneaux de provenance[Green et al., 2007] des bases de donn ´ees au raisonnement ?

→Comment calculerefficacementcette provenance

et la repr ´esenter de fac¸onconcise, selon le langage de r `egles ?

(63)

Propager la provenance au cours du raisonnement

→Comment d ´efinir laprovenanced’une r ´eponsecertaine?

Donn´ees :

id jour type t1 9 cong ´es t2 10 r ´eunion t3 11 cong ´es

Requˆete logique : Y a-t-il des r ´eunions pendant mes cong ´es ?

R`egle logique : Je ne reviens pas pourun seul jour

Provenance : t1t2t3r`egle?

→G ´en ´eraliser lessemianneaux de provenance[Green et al., 2007]

des bases de donn ´ees au raisonnement ?

→Comment calculerefficacementcette provenance

et la repr ´esenter de fac¸onconcise, selon le langage de r `egles ?

(64)

Propager la provenance au cours du raisonnement

→Comment d ´efinir laprovenanced’une r ´eponsecertaine?

Donn´ees :

id jour type t1 9 cong ´es t2 10 r ´eunion t3 11 cong ´es

Requˆete logique : Y a-t-il des r ´eunions pendant mes cong ´es ?

R`egle logique : Je ne reviens pas pourun seul jour

Provenance : t1t2t3r`egle?

→G ´en ´eraliser lessemianneaux de provenance[Green et al., 2007]

des bases de donn ´ees au raisonnement ?

→Comment calculerefficacementcette provenance

(65)

Programme de recherche

Raisonner avec la provenance sur les donn ´ees du Web pour l’int ´egration et la fiabilit ´e

1. Provenance symbolique pour le raisonnement

D´efinitionabstraite `a diff ´erents niveaux d’expressivit ´e

Calculetrepr´esentationefficace

2. Propager des relations defiabilit´e `a travers la provenance 3. Calculer des confiancesquantitativeset probabilistes

R´eviser

(66)

Int´egration

(67)

Projet d’enseignement

Th´eorie des langages, BCI inf105

•Responsabilit´edu cours et enseignement d’un groupe Probl`emes pratiques et concours, inf280

•Responsabilit´edu cours

• Syst `eme d’ ´evaluation et sujets locaux,concours public Donn´ees du Web, Formation continue, inf344

• Participation `a l’enseignement

•Maintenancedu syst `eme d’ ´evaluation pour les TP Cours de M2 : Master Paris-Saclay, parcours D&K ou AFP

(68)

Projet de recherche dans DBWeb

Th`emes actuels : Rechercheth´eoriquesur les bases de donn ´ees

• Gestion de l’incertitudeet faisabilit ´e

• Gestion logique de l’incompl´etude

Projet de recherche : Provenance pour lesdonn´ees du Web

• Provenance pour YAGOet ´evaluation de YAGO

• Liens entre YAGO etWikidata

• Applicationsindustrielles, p. ex. avec Voyages-SNCF Collaborations internationales :

Oxford

(69)

R´esum´e

Merci pour votre attention!

Th`emes : Th ´eorie des bases de donn ´ees et incertitude Th`ese : Tirer parti de la structure des donn ´ees incertaines

[ICALP’15],[LICS’15],[PODS’16]; apr `es-th `ese[IJCAI’16]

Pr´e-doc : `ATel Aviv [ICDT’14]et `aOxford [IJCAI’15]

Projet :

(70)

Crowdsourcing

Fouille de donn´ees :Trouver des motifsfr´equents Crowdsourcing :Poser des questions `a lafoule

→Questions `a la foule : quelsensembles d’objetssontfr´equents?

nil activity

icdt tour

icdt

tour parthenon piraeus

icdt piraeus icdt

parthenon

parthenon piraeus

• Utiliser unetaxonomiesur les objets

• Les ensembles forment untreillis distributif

• Compromisentre lecoˆutdes questions pos ´ees et lecoˆutde calculer quelles questions poser

(71)

Applicabilit´e pratique de la largeur d’arbre

• Travail avec S. Maniu : les jeux de donn ´ees r ´eels peuvent ˆetrepartiellement d´ecompos´esen arbre

100%

80%

60%

40%

20%

0%

largeur 5 largeur 10 proportion d'arêtes

après décomposition partielle

D ´ecompositionpartielleen arbre dugraphe OSM de Paris

4.3 Mnœuds et5.4 Marˆetes

• Largeur totale521

• Stage de M. Monet : les m ´ethodes `a base d’automates peuvent ˆetreimplant´ees en pratique

(72)

Application : Compl´eter et v´erifier Wikidata

Ajouter `a Wikidata des faits issus d’autres sourceset lesv´erifier:

R `egles logiquesd´eclaratives: extraction, int ´egration, conflits

→Calculer laprovenanceet estimer lafiabilit´eavec :

• Sources originales(Wikip ´edia, etc.)

(73)

R´ef´erences

Courcelle, Bruno (1990). “The Monadic Second-Order Logic of Graphs. I. Recognizable Sets of Finite Graphs”. In :Inf. Comput.

Green, Todd J., Grigoris Karvounarakis, Val Tannen (2007).

“Provenance Semirings”. In :Proc. PODS.

Références

Documents relatifs

« Après les formations régionales et départementales, notre objectif est de permettre à celles et ceux qui ont participé aux réunions présentielles de réviser

Depuis 2011, le CREM, centre de recherche en Ethnomusicologie (http://crem-cnrs.fr) basé à l’université de Paris Nanterre, équipe du laboratoire d’Ethnologie et de