• Aucun résultat trouvé

Raisonner avec la provenance sur les donn´ees du Web

N/A
N/A
Protected

Academic year: 2022

Partager "Raisonner avec la provenance sur les donn´ees du Web"

Copied!
60
0
0

Texte intégral

(1)

Raisonner avec la provenance sur les donn´ees du Web

Antoine Amarilli Concours Inria CR2 10 mai 2016

(2)

Parcours

2013–2016 : Th `ese `aT ´el ´ecom ParisTechavecPierre Senellart:

Tirer parti de la structure des donn ´ees incertaines

• Soutenue le14 mars 2016 2012-2013 : Pr ´e-doc :

• 3 mois `aTel Avivavec Tova Milo

• 5 mois `aOxfordavec Michael Benedikt

2009–2013 : ´Ecole normale sup ´erieurede Paris, masterMPRI

Vainqueur desconcours de programmation Google Hash Code (2015) et Prologin (2008)

(3)

Publications

Bases de donn´ees :

• ICDT’14(pr ´edoc `a Tel Aviv)

PODS’16(th `ese) Logique et automates :

• ICALP’15(th `ese)

• LICS’15(th `ese) Intelligence artificielle :

• IJCAI’15(pr ´e-doc `a Oxford)

IJCAI’16(avec Oxford)

• 7autres publications internationales avec comit ´e de lecture

(4)

R´esum´e des travaux ant´erieurs

Interrogation de donn´ees relationnelles incertaines

(5)

Vue d’ensemble : Donn´ees relationnelles incertaines

´Evaluer unerequˆete logiquesur unebase de donn ´ees relationnelle

Probl `eme :On ne dispose pas toujours des donn ´eesexactes:

• Donn ´ees cr ´e ´ees par des m ´ethodesfailliblesetnon-exhaustives

• Donn ´ees annot ´ees par des techniquesd’apprentissage

• Donn ´eesbruit ´eesoup ´erim ´ees

→G ´erer les donn ´ees relationnellesavec leur incertitude Probl `eme :Tˆaches souventcomplexesvoireind ´ecidables

1.donn ´eesincompl `etes •2.donn ´eesprobabilistes

(6)

Donn´ees incompl`etes Donn´ees :

jour type 9 cong ´es 10 r ´eunion

11 cong ´es 18 cong ´es 18 r ´eunion Requˆete logique : Quelles r ´eunions sont pendant mes cong ´es ?

R`egles logiques :

• Je ne reviens pas pourun seul jour

jour type 9 cong ´es 10 r ´eunion

11 cong ´es 18 cong ´es 18 r ´eunion

10 cong ´es

R´esultat :

(7)

Donn´ees incompl`etes Donn´ees :

jour type 9 cong ´es 10 r ´eunion

11 cong ´es 18 cong ´es 18 r ´eunion Requˆete logique : Quelles r ´eunions sont pendant mes cong ´es ?

R`egles logiques :

• Je ne reviens pas pourun seul jour

jour type 9 cong ´es 10 r ´eunion

11 cong ´es 18 cong ´es 18 r ´eunion

10 cong ´es

R´esultat :

(8)

Donn´ees incompl`etes Donn´ees :

jour type 9 cong ´es 10 r ´eunion

11 cong ´es 18 cong ´es 18 r ´eunion Requˆete logique : Quelles r ´eunions sont pendant mes cong ´es ?

R`egles logiques :

• Je ne reviens pas pourun seul jour

jour type 9 cong ´es 10 r ´eunion

11 cong ´es 18 cong ´es 18 r ´eunion

10 cong ´es

R´esultat : jour 18

(9)

Donn´ees incompl`etes Donn´ees :

jour type 9 cong ´es 10 r ´eunion

11 cong ´es 18 cong ´es 18 r ´eunion Requˆete logique : Quelles r ´eunions sont pendant mes cong ´es ?

R`egles logiques :

• Je ne reviens pas pourun seul jour

jour type 9 cong ´es 10 r ´eunion

11 cong ´es 18 cong ´es 18 r ´eunion

10 cong ´es

R´esultat : jour 18

10

(10)

Donn´ees incompl`etes Donn´ees :

jour type 9 cong ´es 10 r ´eunion

11 cong ´es 18 cong ´es 18 r ´eunion Requˆete logique : Quelles r ´eunions sont pendant mes cong ´es ?

R`egles logiques :

• Je ne reviens pas pourun seul jour

jour type 9 cong ´es 10 r ´eunion

11 cong ´es 18 cong ´es 18 r ´eunion

10 cong ´es

R´esultat : jour 18

10

(11)

Donn´ees incompl`etes Donn´ees :

jour type 9 cong ´es 10 r ´eunion

11 cong ´es 18 cong ´es 18 r ´eunion Requˆete logique : Quelles r ´eunions sont pendant mes cong ´es ?

R`egles logiques :

• Je ne reviens pas

jour type 9 cong ´es 10 r ´eunion

11 cong ´es 18 cong ´es 18 r ´eunion

10 cong ´es

R´esultat : jour 18

10

(12)

Donn´ees incompl`etes Donn´ees :

jour type 9 cong ´es 10 r ´eunion

11 cong ´es 18 cong ´es 18 r ´eunion Requˆete logique : Quelles r ´eunions sont pendant mes cong ´es ?

R`egles logiques :

• Je ne reviens pas pourun seul jour

jour type 9 cong ´es 10 r ´eunion

11 cong ´es 18 cong ´es 18 r ´eunion 10 cong ´es

R´esultat : jour 18

10

(13)

Donn´ees incompl`etes Donn´ees :

jour type 9 cong ´es 10 r ´eunion

11 cong ´es 18 cong ´es 18 r ´eunion Requˆete logique : Quelles r ´eunions sont pendant mes cong ´es ?

R`egles logiques :

• Je ne reviens pas

jour type 9 cong ´es 10 r ´eunion

11 cong ´es 18 cong ´es 18 r ´eunion 10 cong ´es

R´esultat : jour 18

10

(14)

Donn´ees incompl`etes Donn´ees :

jour type 9 cong ´es 10 r ´eunion

11 cong ´es 18 cong ´es 18 r ´eunion Requˆete logique : Quelles r ´eunions sont pendant mes cong ´es ?

R`egles logiques :

• Je ne reviens pas pourun seul jour

jour type 9 cong ´es 10 r ´eunion

11 cong ´es 18 cong ´es 18 r ´eunion 10 cong ´es

R´esultat : jour 18 10

(15)

R´esum´e : raisonner sur les donn´ees incompl`etes

→Probl `eme fondamental enintelligence artificielle : Quelles r ´eponses `a larequˆetede l’utilisateur

sont vraies dans toutes les compl ´etions desdonn ´ees qui satisfont desr `egles logiques?

Approches existantes:Langages de r `egles d ´ecidables en IA :

• Uniquement sur desgraphes de donn ´ees

• Ne consid `erent pas sp ´ecifiquement les compl ´etionsfinies

→J’ai transpos ´e ces r ´esultats auxbases de donn ´ees :

• ´Etendre auxhypergraphes [Amarilli, Benedikt,IJCAI’15]

• Restreindre aux compl ´etionsfinies [Amarilli, Benedikt,LICS’15]

(16)

R´esum´e : raisonner sur les donn´ees incompl`etes

→Probl `eme fondamental enintelligence artificielle : Quelles r ´eponses `a larequˆetede l’utilisateur

sont vraies dans toutes les compl ´etions desdonn ´ees qui satisfont desr `egles logiques?

Approches existantes:Langages de r `egles d ´ecidables en IA :

• Uniquement sur desgraphes de donn ´ees

• Ne consid `erent pas sp ´ecifiquement les compl ´etionsfinies

→J’ai transpos ´e ces r ´esultats auxbases de donn ´ees :

• ´Etendre auxhypergraphes [Amarilli, Benedikt,IJCAI’15]

• Restreindre aux compl ´etionsfinies [Amarilli, Benedikt,LICS’15]

(17)

Donn´ees probabilistes

Donn´ees : jour type

9 cong ´es

95%

10 r ´eunion

20%

11 cong ´es

30%

18 cong ´es

80%

18 r ´eunion

90%

Requˆete logique : Quelles r ´eunions sont pendant mes cong ´es ?

90%×80%

=

72%

R´esultat : jour

18

72%

(18)

Donn´ees probabilistes

Donn´ees : jour type

9 cong ´es

95%

10 r ´eunion

20%

11 cong ´es

30%

18 cong ´es

80%

18 r ´eunion

90%

Requˆete logique : Quelles r ´eunions sont pendant mes cong ´es ?

90%×80%

=

72%

R´esultat : jour

18

72%

(19)

Donn´ees probabilistes

Donn´ees : jour type

9 cong ´es

95%

10 r ´eunion

20%

11 cong ´es

30%

18 cong ´es

80%

18 r ´eunion

90%

Requˆete logique : Quelles r ´eunions sont pendant mes cong ´es ?

90%×80%

=

72%

R´esultat : jour

18

72%

(20)

Donn´ees probabilistes

Donn´ees : jour type

9 cong ´es 95%

10 r ´eunion 20%

11 cong ´es 30%

18 cong ´es 80%

18 r ´eunion 90%

Requˆete logique : Quelles r ´eunions sont pendant mes cong ´es ?

90%×80%

=

72%

R´esultat : jour

18

72%

(21)

Donn´ees probabilistes

Donn´ees : jour type

9 cong ´es 95%

10 r ´eunion 20%

11 cong ´es 30%

18 cong ´es 80%

18 r ´eunion 90%

Requˆete logique : Quelles r ´eunions sont pendant mes cong ´es ?

90%×80%

=

72%

R´esultat : jour

18

72%

(22)

Donn´ees probabilistes

Donn´ees : jour type

9 cong ´es 95%

10 r ´eunion 20%

11 cong ´es 30%

18 cong ´es 80%

18 r ´eunion 90%

Requˆete logique : Quelles r ´eunions sont pendant mes cong ´es ?

90%×80%

=72%

R´esultat : jour

18

72%

(23)

Donn´ees probabilistes

Donn´ees : jour type

9 cong ´es 95%

10 r ´eunion 20%

11 cong ´es 30%

18 cong ´es 80%

18 r ´eunion 90%

Requˆete logique : Quelles r ´eunions sont pendant mes cong ´es ?

90%×80%

=72%

R´esultat : jour

18 72%

(24)

Donn´ees probabilistes : travaux existants

→Probl `eme d’ ´evaluation de requˆetes sur donn ´eesprobabilistes : Quelle est laprobabilit ´e totalede chaque r ´eponse

quand les faits sont pr ´esents ou absentsind ´ependamment avec laprobabilit ´eindiqu ´ee ?

Approches existantes:G ´en ´eralement infaisables en les donn ´ees

(25)

Donn´ees probabilistes : travaux existants

→Probl `eme d’ ´evaluation de requˆetes sur donn ´eesprobabilistes : Quelle est laprobabilit ´e totalede chaque r ´eponse

quand les faits sont pr ´esents ou absentsind ´ependamment avec laprobabilit ´eindiqu ´ee ?

Approches existantes:G ´en ´eralement infaisables en les donn ´ees

(26)

Donn´ees probabilistes : r´esultat de dichotomie

→J’ai montr ´e comment exploiter lastructure des donn ´ees : Th´eor`eme [Amarilli, Bourhis, Senellart,ICALP’15]

L’ ´evaluation de requˆetesMSOest faisable en tempslin ´eaire sur des donn ´ees probabilistes delargeur d’arbre born ´ee

→En un sens, ce r ´esultat ne peut pas ˆetream ´elior ´e(dichotomie) : Th´eor`eme [Amarilli, Bourhis, Senellart,PODS’16]

L’ ´evaluation probabiliste de certaines requˆetesFOest#P-difficile (sous conditions) surn’importe quellefamille de graphes

delargeur d’arbre non born ´ee

(27)

Projet de recherche

Raisonner avec la provenance sur les donn´ees du Web

(28)

Web des donn´ees

• Bases de connaissances :Wikidata, YAGO, etc.

• Donn ´ees ouvertes :data.gouv.fr, etc.

• Donn ´ees g ´eographiques :OpenStreetMaps, etc.

• Annotations s ´emantiques :Web Data Commons, etc. Objectif: combiner et utiliser ces donn ´ees :

• R ´epondre `a des requˆetes logiquescomplexes

• Calculer desvisualisationset desstatistiques

• Recouperdes informations ou trouver descontradictions

• Connecter sespropres donn ´eesauxjeux de donn ´ees existants Ces donn ´ees posent de nombreusesdifficult ´es:

•h ´et ´erog `enes •distribu ´ees •incompl `etes •peu fiables

(29)

Web des donn´ees

• Bases de connaissances :Wikidata, YAGO, etc.

• Donn ´ees ouvertes :data.gouv.fr, etc.

• Donn ´ees g ´eographiques :OpenStreetMaps, etc.

• Annotations s ´emantiques :Web Data Commons, etc. Objectif: combiner et utiliser ces donn ´ees :

• R ´epondre `a des requˆetes logiquescomplexes

• Calculer desvisualisationset desstatistiques

• Recouperdes informations ou trouver descontradictions

• Connecter sespropres donn ´eesauxjeux de donn ´ees existants Ces donn ´ees posent de nombreusesdifficult ´es:

•h ´et ´erog `enes •distribu ´ees •incompl `etes •peu fiables

(30)

Web des donn´ees

• Bases de connaissances :Wikidata, YAGO, etc.

• Donn ´ees ouvertes :data.gouv.fr, etc.

• Donn ´ees g ´eographiques :OpenStreetMaps, etc.

• Annotations s ´emantiques :Web Data Commons, etc. Objectif: combiner et utiliser ces donn ´ees :

• R ´epondre `a des requˆetes logiquescomplexes

• Calculer desvisualisationset desstatistiques

• Recouperdes informations ou trouver descontradictions

• Connecter sespropres donn ´eesauxjeux de donn ´ees existants Ces donn ´ees posent de nombreusesdifficult ´es:

•h ´et ´erog `enes •distribu ´ees •incompl `etes •peu fiables

Q1146208

Inria

1967

Q31855

institut de recherche nom franc¸ais

date de cr ´eation

nature

nom franc¸ais

(31)

Web des donn´ees

• Bases de connaissances :Wikidata, YAGO, etc.

• Donn ´ees ouvertes :data.gouv.fr, etc.

• Donn ´ees g ´eographiques :OpenStreetMaps, etc.

• Annotations s ´emantiques :Web Data Commons, etc. Objectif: combiner et utiliser ces donn ´ees :

• R ´epondre `a des requˆetes logiquescomplexes

• Calculer desvisualisationset desstatistiques

• Recouperdes informations ou trouver descontradictions

• Connecter sespropres donn ´eesauxjeux de donn ´ees existants Ces donn ´ees posent de nombreusesdifficult ´es:

•h ´et ´erog `enes •distribu ´ees •incompl `etes •peu fiables

(32)

Web des donn´ees

• Bases de connaissances :Wikidata, YAGO, etc.

• Donn ´ees ouvertes :data.gouv.fr, etc.

• Donn ´ees g ´eographiques :OpenStreetMaps, etc.

• Annotations s ´emantiques :Web Data Commons, etc. Objectif: combiner et utiliser ces donn ´ees :

• R ´epondre `a des requˆetes logiquescomplexes

• Calculer desvisualisationset desstatistiques

• Recouperdes informations ou trouver descontradictions

• Connecter sespropres donn ´eesauxjeux de donn ´ees existants Ces donn ´ees posent de nombreusesdifficult ´es:

•h ´et ´erog `enes •distribu ´ees •incompl `etes •peu fiables

(33)

Web des donn´ees

• Bases de connaissances :Wikidata, YAGO, etc.

• Donn ´ees ouvertes :data.gouv.fr, etc.

• Donn ´ees g ´eographiques :OpenStreetMaps, etc.

• Annotations s ´emantiques :Web Data Commons, etc. Objectif: combiner et utiliser ces donn ´ees :

• R ´epondre `a des requˆetes logiquescomplexes

• Calculer desvisualisationset desstatistiques

• Recouperdes informations ou trouver descontradictions

• Connecter sespropres donn ´eesauxjeux de donn ´ees existants Ces donn ´ees posent de nombreusesdifficult ´es:

•h ´et ´erog `enes •distribu ´ees •incompl `etes •peu fiables

(34)

Web des donn´ees

• Bases de connaissances :Wikidata, YAGO, etc.

• Donn ´ees ouvertes :data.gouv.fr, etc.

• Donn ´ees g ´eographiques :OpenStreetMaps, etc.

• Annotations s ´emantiques :Web Data Commons, etc. Objectif: combiner et utiliser ces donn ´ees :

• R ´epondre `a des requˆetes logiquescomplexes

• Calculer desvisualisationset desstatistiques

• Recouperdes informations ou trouver descontradictions

• Connecter sespropres donn ´eesauxjeux de donn ´ees existants Ces donn ´ees posent de nombreusesdifficult ´es:

•h ´et ´erog `enes •distribu ´ees •incompl `etes •peu fiables

(35)

Web des donn´ees

• Bases de connaissances :Wikidata, YAGO, etc.

• Donn ´ees ouvertes :data.gouv.fr, etc.

• Donn ´ees g ´eographiques :OpenStreetMaps, etc.

• Annotations s ´emantiques :Web Data Commons, etc.

Objectif: combiner et utiliser ces donn ´ees :

• R ´epondre `a des requˆetes logiquescomplexes

• Calculer desvisualisationset desstatistiques

• Recouperdes informations ou trouver descontradictions

• Connecter sespropres donn ´eesauxjeux de donn ´ees existants Ces donn ´ees posent de nombreusesdifficult ´es:

•h ´et ´erog `enes •distribu ´ees •incompl `etes •peu fiables

(36)

Web des donn´ees

• Bases de connaissances :Wikidata, YAGO, etc.

• Donn ´ees ouvertes :data.gouv.fr, etc.

• Donn ´ees g ´eographiques :OpenStreetMaps, etc.

• Annotations s ´emantiques :Web Data Commons, etc.

Objectif: combiner et utiliser ces donn ´ees :

• R ´epondre `a des requˆetes logiquescomplexes

• Calculer desvisualisationset desstatistiques

• Recouperdes informations ou trouver descontradictions

• Connecter sespropres donn ´eesauxjeux de donn ´ees existants

Ces donn ´ees posent de nombreusesdifficult ´es:

•h ´et ´erog `enes •distribu ´ees •incompl `etes •peu fiables

(37)

Web des donn´ees

• Bases de connaissances :Wikidata, YAGO, etc.

• Donn ´ees ouvertes :data.gouv.fr, etc.

• Donn ´ees g ´eographiques :OpenStreetMaps, etc.

• Annotations s ´emantiques :Web Data Commons, etc.

Objectif: combiner et utiliser ces donn ´ees :

• R ´epondre `a des requˆetes logiquescomplexes

• Calculer desvisualisationset desstatistiques

• Recouperdes informations ou trouver descontradictions

• Connecter sespropres donn ´eesauxjeux de donn ´ees existants Ces donn ´ees posent de nombreusesdifficult ´es:

(38)

Probl`eme 1 : Int´egration

Donn ´eesincompl `eteseth ´et ´erog `enesissues de sourcesmultiples

• Raisonnement avec des r `egleslogiques

Int ´egrerles diff ´erences sources

D ´eduireles faits manquants

Données

Intégration

Déduction

→Approches existantes :OBDA, data integration, data exchange...

(39)

Probl`eme 2 : Fiabilit´e

Donn ´ees produitescollaborativementou par des processusfaillibles

Vandalisme

•Controverses •Extraction

→Approches existantes :truth finding, data cleaning, data repair...

(40)

Probl`eme 2 : Fiabilit´e

Donn ´ees produitescollaborativementou par des processusfaillibles

Vandalisme

•Controverses •Extraction

→Approches existantes :truth finding, data cleaning, data repair...

DansWikidata

(41)

Probl`eme 2 : Fiabilit´e

Donn ´ees produitescollaborativementou par des processusfaillibles

•Vandalisme •Controverses

•Extraction

→Approches existantes :truth finding, data cleaning, data repair...

DansWikidata

(42)

Probl`eme 2 : Fiabilit´e

Donn ´ees produitescollaborativementou par des processusfaillibles

•Vandalisme •Controverses •Extraction

→Approches existantes :truth finding, data cleaning, data repair...

DansYAGO

(43)

Probl`eme 2 : Fiabilit´e

Donn ´ees produitescollaborativementou par des processusfaillibles

•Vandalisme •Controverses •Extraction

→Approches existantes :truth finding, data cleaning, data repair...

DansYAGO

<Macquarie><hasRevenue>

"8100000000"^^<dollar>

extraction automatique

(44)

Probl`eme 2 : Fiabilit´e

Donn ´ees produitescollaborativementou par des processusfaillibles

•Vandalisme •Controverses •Extraction

→Approches existantes :truth finding, data cleaning, data repair...

DansYAGO

<Macquarie><hasRevenue>

"8100000000"^^<dollar>

extraction automatique

(45)

Objectif

Objectif :Int ´egrerles donn ´ees du Web etraisonnersur ces donn ´ees en estimant leurfiabilit ´egrˆace `a des annotations deprovenance Leraisonnementet lafiabilit ´evont de pair :

• Les donn ´ees d’une source peuvent provenir d’autres sources

• Les r `egles d’int ´egration elles-mˆemes ne sont pasfiables

• Il faut ´etudier la fiabilit ´e desr ´esultats du raisonnement

1. Prendre en compte laprovenance initialedes faits 2. Propager laprovenanceau cours du raisonnement

(46)

Objectif

Objectif :Int ´egrerles donn ´ees du Web etraisonnersur ces donn ´ees en estimant leurfiabilit ´egrˆace `a des annotations deprovenance Leraisonnementet lafiabilit ´evont de pair :

• Les donn ´ees d’une source peuvent provenir d’autres sources

• Les r `egles d’int ´egration elles-mˆemes ne sont pasfiables

• Il faut ´etudier la fiabilit ´e desr ´esultats du raisonnement

1. Prendre en compte laprovenance initialedes faits 2. Propager laprovenanceau cours du raisonnement

(47)

Provenance existante des donn´ees

Wikidata : Plus de40Mfaits ont une source (pr `es de 50%)

OpenStreetMaps : >40Mpoints et>120Mvoies avec source (>35%)

Autres indices : Historiquedes faits,utilisateursqui ont ´edit ´e

(48)

Provenance existante des donn´ees

Wikidata : Plus de40Mfaits ont une source (pr `es de 50%)

OpenStreetMaps : >40Mpoints et>120Mvoies avec source (>35%)

Autres indices : Historiquedes faits,utilisateursqui ont ´edit ´e

(49)

Provenance existante des donn´ees

Wikidata : Plus de40Mfaits ont une source (pr `es de 50%)

OpenStreetMaps : >40Mpoints et>120Mvoies avec source (>35%)

(50)

Propager la provenance au cours du raisonnement

→Comment d ´efinir laprovenanced’une r ´eponsecertaine?

Donn´ees :

id jour type t1 9 cong ´es t2 10 r ´eunion t3 11 cong ´es

Requˆete logique : Y a-t-il des r ´eunions pendant mes cong ´es ?

R`egle logique : Je ne reviens pas pourun seul jour

Provenance : t1∧t2∧t3∧r `egle?

→G ´en ´eraliser lessemianneaux de provenance[Green et al., 2007] des bases de donn ´ees au raisonnement ?

→Comment calculerefficacementcette provenance

et la repr ´esenter de fac¸onconcise, selon le langage de r `egles ?

(51)

Propager la provenance au cours du raisonnement

→Comment d ´efinir laprovenanced’une r ´eponsecertaine?

Donn´ees :

id jour type t1 9 cong ´es t2 10 r ´eunion t3 11 cong ´es

Requˆete logique : Y a-t-il des r ´eunions pendant mes cong ´es ?

R`egle logique : Je ne reviens pas pourun seul jour

Provenance : t1∧t2∧t3∧r `egle?

→G ´en ´eraliser lessemianneaux de provenance[Green et al., 2007]

des bases de donn ´ees au raisonnement ?

→Comment calculerefficacementcette provenance

et la repr ´esenter de fac¸onconcise, selon le langage de r `egles ?

(52)

Propager la provenance au cours du raisonnement

→Comment d ´efinir laprovenanced’une r ´eponsecertaine?

Donn´ees :

id jour type t1 9 cong ´es t2 10 r ´eunion t3 11 cong ´es

Requˆete logique : Y a-t-il des r ´eunions pendant mes cong ´es ?

R`egle logique : Je ne reviens pas pourun seul jour

Provenance : t1∧t2∧t3∧r `egle?

→G ´en ´eraliser lessemianneaux de provenance[Green et al., 2007]

des bases de donn ´ees au raisonnement ?

→Comment calculerefficacementcette provenance

et la repr ´esenter de fac¸onconcise, selon le langage de r `egles ?

(53)

Programme de recherche

Raisonner avec la provenance sur les donn ´ees du Web pour l’int ´egration et la fiabilit ´e

1. Provenance symbolique pour le raisonnement

D ´efinitionabstraite `a diff ´erents niveaux d’expressivit ´e

Calculetrepr ´esentationefficace

2. Propager des relations defiabilit ´e `a travers la provenance 3. Calculer des confiancesquantitativeset probabilistes 4. R ´eviserles jugements sur les sources primaires

avec des retours utilisateurs, en remontant la provenance

(54)

Application : Compl´eter et v´erifier Wikidata

Ajouter `a Wikidata des faits issus d’autres sourceset lesv ´erifier:

R `egles logiquesd ´eclaratives: extraction, int ´egration, conflits

→Calculer laprovenanceet estimer lafiabilit ´eavec :

• Sources originales(Wikip ´edia, etc.)

• Extracteurs(comme pour Yago) etint ´egration

• Contradictionsentre faits

• Jugements de lafoule(pas toujours fiables)

(55)

Int´egration

´Equipe LINKS : Linking Dynamic Data

(56)

´Equipe LINKS

Gestion du Web des donn´ees

• Sourcesh ´et ´erog `enes

• M ´ethodeslogiquespour l’int ´egration Int´egration

• Collaborations en cours avecPierre Bourhis

• Autres th `emes :automates d’arbre, apprentissage

• Comp ´etencesen donn ´ees incertaines et provenance

(57)

R´esum´e

Projet : Raisonner avec la provenance sur les donn ´ees du Web pour l’int ´egration et la fiabilit ´e

1. Provenance symbolique pour le raisonnement

D ´efinitionabstraite `a diff ´erents niveaux d’expressivit ´e

Calculetrepr ´esentationefficace

2. Propager des relations defiabilit ´e `a travers la provenance 3. Calculer des confiancesquantitativeset probabilistes 4. R ´eviserles jugements sur les sources primaires

avec des retours utilisateurs, en remontant la provenance Th`ese : Tirer parti de la structure des donn ´ees incertaines

[ICALP’15],[LICS’15],[PODS’16]; apr `es-th `ese[IJCAI’16]

(58)

Crowdsourcing

Fouille de donn´ees :Trouver des motifsfr ´equents Crowdsourcing :Poser des questions `a lafoule

→Questions `a la foule : quelsensembles d’objetssontfr ´equents ?

nil activity

icdt tour

icdt

tour parthenon piraeus

icdt piraeus icdt

parthenon

parthenon piraeus

icdt parthenon

piraeus

• Utiliser unetaxonomiesur les objets

• Les ensembles forment untreillis distributif

• Compromisentre leco ˆutdes questions pos ´ees et leco ˆutde calculer quelles questions poser

→Bornes decomplexit ´esur ce probl `eme

(59)

Applicabilit´e pratique de la largeur d’arbre

• Travail avec S. Maniu : les jeux de donn ´ees r ´eels peuvent ˆetrepartiellement d ´ecompos ´esen arbre

100%

80%

60%

40%

20%

0%

largeur 5 largeur 10 proportion d'arêtes

après décomposition partielle

D ´ecompositionpartielleen arbre dugraphe OSM de Paris

4.3 Mnœuds et5.4 Marˆetes

• Largeur totale521

• Stage de M. Monet : les m ´ethodes `a base d’automates peuvent ˆetreimplant ´ees en pratique

• Travail avec M. Monet : compilation efficace en automates

(60)

R´ef´erences

Green, Todd J., Grigoris Karvounarakis, Val Tannen (2007).

“Provenance Semirings”. In :Proc. PODS.

Références

Documents relatifs

In this demonstration paper, we illustrate how to extrapolate on the information extracted from multiple Web sources in order to infer the locations of certain moving objects at

[r]

Discovering new URLs Identifying duplicates Crawling architecture Crawling Complex Content Focused

Answering Keyword Queries Building inverted files Spelling correction Clustering. Indexing

Le droit d’usage d ´efini par la licence autorise un usage `a destination de tout public qui comprend : – le droit de reproduire tout ou partie du document sur support informatique

Le droit d’usage d ´efini par la licence autorise un usage `a destination de tout public qui comprend : – le droit de reproduire tout ou partie du document sur support informatique

Most social networking Web sites (and some other kinds of Web sites) provide APIs to effectively access their content.. Usually a RESTful API,

Compare pages obtained by probing with the error page (by clustering along the DOM tree structure of the pages), to distinguish error pages and result pages.. Confirm the annotation