Raisonner avec la provenance sur les donn´ees du Web
Antoine Amarilli Concours Inria CR2 10 mai 2016
Parcours
2013–2016 : Th `ese `aT ´el ´ecom ParisTechavecPierre Senellart:
• Tirer parti de la structure des donn ´ees incertaines
• Soutenue le14 mars 2016 2012-2013 : Pr ´e-doc :
• 3 mois `aTel Avivavec Tova Milo
• 5 mois `aOxfordavec Michael Benedikt
2009–2013 : ´Ecole normale sup ´erieurede Paris, masterMPRI
• Vainqueur desconcours de programmation Google Hash Code (2015) et Prologin (2008)
Publications
Bases de donn´ees :
• ICDT’14(pr ´edoc `a Tel Aviv)
• PODS’16(th `ese) Logique et automates :
• ICALP’15(th `ese)
• LICS’15(th `ese) Intelligence artificielle :
• IJCAI’15(pr ´e-doc `a Oxford)
• IJCAI’16(avec Oxford)
• 7autres publications internationales avec comit ´e de lecture
R´esum´e des travaux ant´erieurs
Interrogation de donn´ees relationnelles incertaines
Vue d’ensemble : Donn´ees relationnelles incertaines
´Evaluer unerequˆete logiquesur unebase de donn ´ees relationnelle
Probl `eme :On ne dispose pas toujours des donn ´eesexactes:
• Donn ´ees cr ´e ´ees par des m ´ethodesfailliblesetnon-exhaustives
• Donn ´ees annot ´ees par des techniquesd’apprentissage
• Donn ´eesbruit ´eesoup ´erim ´ees
→G ´erer les donn ´ees relationnellesavec leur incertitude Probl `eme :Tˆaches souventcomplexesvoireind ´ecidables
•1.donn ´eesincompl `etes •2.donn ´eesprobabilistes
Donn´ees incompl`etes Donn´ees :
jour type 9 cong ´es 10 r ´eunion
11 cong ´es 18 cong ´es 18 r ´eunion Requˆete logique : Quelles r ´eunions sont pendant mes cong ´es ?
R`egles logiques :
• Je ne reviens pas pourun seul jour
jour type 9 cong ´es 10 r ´eunion
11 cong ´es 18 cong ´es 18 r ´eunion
10 cong ´es
R´esultat :
Donn´ees incompl`etes Donn´ees :
jour type 9 cong ´es 10 r ´eunion
11 cong ´es 18 cong ´es 18 r ´eunion Requˆete logique : Quelles r ´eunions sont pendant mes cong ´es ?
R`egles logiques :
• Je ne reviens pas pourun seul jour
jour type 9 cong ´es 10 r ´eunion
11 cong ´es 18 cong ´es 18 r ´eunion
10 cong ´es
R´esultat :
Donn´ees incompl`etes Donn´ees :
jour type 9 cong ´es 10 r ´eunion
11 cong ´es 18 cong ´es 18 r ´eunion Requˆete logique : Quelles r ´eunions sont pendant mes cong ´es ?
R`egles logiques :
• Je ne reviens pas pourun seul jour
jour type 9 cong ´es 10 r ´eunion
11 cong ´es 18 cong ´es 18 r ´eunion
10 cong ´es
R´esultat : jour 18
Donn´ees incompl`etes Donn´ees :
jour type 9 cong ´es 10 r ´eunion
11 cong ´es 18 cong ´es 18 r ´eunion Requˆete logique : Quelles r ´eunions sont pendant mes cong ´es ?
R`egles logiques :
• Je ne reviens pas pourun seul jour
jour type 9 cong ´es 10 r ´eunion
11 cong ´es 18 cong ´es 18 r ´eunion
10 cong ´es
R´esultat : jour 18
10
Donn´ees incompl`etes Donn´ees :
jour type 9 cong ´es 10 r ´eunion
11 cong ´es 18 cong ´es 18 r ´eunion Requˆete logique : Quelles r ´eunions sont pendant mes cong ´es ?
R`egles logiques :
• Je ne reviens pas pourun seul jour
jour type 9 cong ´es 10 r ´eunion
11 cong ´es 18 cong ´es 18 r ´eunion
10 cong ´es
R´esultat : jour 18
10
Donn´ees incompl`etes Donn´ees :
jour type 9 cong ´es 10 r ´eunion
11 cong ´es 18 cong ´es 18 r ´eunion Requˆete logique : Quelles r ´eunions sont pendant mes cong ´es ?
R`egles logiques :
• Je ne reviens pas
jour type 9 cong ´es 10 r ´eunion
11 cong ´es 18 cong ´es 18 r ´eunion
10 cong ´es
R´esultat : jour 18
10
Donn´ees incompl`etes Donn´ees :
jour type 9 cong ´es 10 r ´eunion
11 cong ´es 18 cong ´es 18 r ´eunion Requˆete logique : Quelles r ´eunions sont pendant mes cong ´es ?
R`egles logiques :
• Je ne reviens pas pourun seul jour
jour type 9 cong ´es 10 r ´eunion
11 cong ´es 18 cong ´es 18 r ´eunion 10 cong ´es
R´esultat : jour 18
10
Donn´ees incompl`etes Donn´ees :
jour type 9 cong ´es 10 r ´eunion
11 cong ´es 18 cong ´es 18 r ´eunion Requˆete logique : Quelles r ´eunions sont pendant mes cong ´es ?
R`egles logiques :
• Je ne reviens pas
jour type 9 cong ´es 10 r ´eunion
11 cong ´es 18 cong ´es 18 r ´eunion 10 cong ´es
R´esultat : jour 18
10
Donn´ees incompl`etes Donn´ees :
jour type 9 cong ´es 10 r ´eunion
11 cong ´es 18 cong ´es 18 r ´eunion Requˆete logique : Quelles r ´eunions sont pendant mes cong ´es ?
R`egles logiques :
• Je ne reviens pas pourun seul jour
jour type 9 cong ´es 10 r ´eunion
11 cong ´es 18 cong ´es 18 r ´eunion 10 cong ´es
R´esultat : jour 18 10
R´esum´e : raisonner sur les donn´ees incompl`etes
→Probl `eme fondamental enintelligence artificielle : Quelles r ´eponses `a larequˆetede l’utilisateur
sont vraies dans toutes les compl ´etions desdonn ´ees qui satisfont desr `egles logiques?
Approches existantes:Langages de r `egles d ´ecidables en IA :
• Uniquement sur desgraphes de donn ´ees
• Ne consid `erent pas sp ´ecifiquement les compl ´etionsfinies
→J’ai transpos ´e ces r ´esultats auxbases de donn ´ees :
• ´Etendre auxhypergraphes [Amarilli, Benedikt,IJCAI’15]
• Restreindre aux compl ´etionsfinies [Amarilli, Benedikt,LICS’15]
R´esum´e : raisonner sur les donn´ees incompl`etes
→Probl `eme fondamental enintelligence artificielle : Quelles r ´eponses `a larequˆetede l’utilisateur
sont vraies dans toutes les compl ´etions desdonn ´ees qui satisfont desr `egles logiques?
Approches existantes:Langages de r `egles d ´ecidables en IA :
• Uniquement sur desgraphes de donn ´ees
• Ne consid `erent pas sp ´ecifiquement les compl ´etionsfinies
→J’ai transpos ´e ces r ´esultats auxbases de donn ´ees :
• ´Etendre auxhypergraphes [Amarilli, Benedikt,IJCAI’15]
• Restreindre aux compl ´etionsfinies [Amarilli, Benedikt,LICS’15]
Donn´ees probabilistes
Donn´ees : jour type
9 cong ´es
95%
10 r ´eunion
20%
11 cong ´es
30%
18 cong ´es
80%
18 r ´eunion
90%
Requˆete logique : Quelles r ´eunions sont pendant mes cong ´es ?
90%×80%
=
72%
R´esultat : jour
18
72%
Donn´ees probabilistes
Donn´ees : jour type
9 cong ´es
95%
10 r ´eunion
20%
11 cong ´es
30%
18 cong ´es
80%
18 r ´eunion
90%
Requˆete logique : Quelles r ´eunions sont pendant mes cong ´es ?
90%×80%
=
72%
R´esultat : jour
18
72%
Donn´ees probabilistes
Donn´ees : jour type
9 cong ´es
95%
10 r ´eunion
20%
11 cong ´es
30%
18 cong ´es
80%
18 r ´eunion
90%
Requˆete logique : Quelles r ´eunions sont pendant mes cong ´es ?
90%×80%
=
72%
R´esultat : jour
18
72%
Donn´ees probabilistes
Donn´ees : jour type
9 cong ´es 95%
10 r ´eunion 20%
11 cong ´es 30%
18 cong ´es 80%
18 r ´eunion 90%
Requˆete logique : Quelles r ´eunions sont pendant mes cong ´es ?
90%×80%
=
72%
R´esultat : jour
18
72%
Donn´ees probabilistes
Donn´ees : jour type
9 cong ´es 95%
10 r ´eunion 20%
11 cong ´es 30%
18 cong ´es 80%
18 r ´eunion 90%
Requˆete logique : Quelles r ´eunions sont pendant mes cong ´es ?
90%×80%
=
72%
R´esultat : jour
18
72%
Donn´ees probabilistes
Donn´ees : jour type
9 cong ´es 95%
10 r ´eunion 20%
11 cong ´es 30%
18 cong ´es 80%
18 r ´eunion 90%
Requˆete logique : Quelles r ´eunions sont pendant mes cong ´es ?
90%×80%
=72%
R´esultat : jour
18
72%
Donn´ees probabilistes
Donn´ees : jour type
9 cong ´es 95%
10 r ´eunion 20%
11 cong ´es 30%
18 cong ´es 80%
18 r ´eunion 90%
Requˆete logique : Quelles r ´eunions sont pendant mes cong ´es ?
90%×80%
=72%
R´esultat : jour
18 72%
Donn´ees probabilistes : travaux existants
→Probl `eme d’ ´evaluation de requˆetes sur donn ´eesprobabilistes : Quelle est laprobabilit ´e totalede chaque r ´eponse
quand les faits sont pr ´esents ou absentsind ´ependamment avec laprobabilit ´eindiqu ´ee ?
Approches existantes:G ´en ´eralement infaisables en les donn ´ees
Donn´ees probabilistes : travaux existants
→Probl `eme d’ ´evaluation de requˆetes sur donn ´eesprobabilistes : Quelle est laprobabilit ´e totalede chaque r ´eponse
quand les faits sont pr ´esents ou absentsind ´ependamment avec laprobabilit ´eindiqu ´ee ?
Approches existantes:G ´en ´eralement infaisables en les donn ´ees
Donn´ees probabilistes : r´esultat de dichotomie
→J’ai montr ´e comment exploiter lastructure des donn ´ees : Th´eor`eme [Amarilli, Bourhis, Senellart,ICALP’15]
L’ ´evaluation de requˆetesMSOest faisable en tempslin ´eaire sur des donn ´ees probabilistes delargeur d’arbre born ´ee
→En un sens, ce r ´esultat ne peut pas ˆetream ´elior ´e(dichotomie) : Th´eor`eme [Amarilli, Bourhis, Senellart,PODS’16]
L’ ´evaluation probabiliste de certaines requˆetesFOest#P-difficile (sous conditions) surn’importe quellefamille de graphes
delargeur d’arbre non born ´ee
Projet de recherche
Raisonner avec la provenance sur les donn´ees du Web
Web des donn´ees
• Bases de connaissances :Wikidata, YAGO, etc.
• Donn ´ees ouvertes :data.gouv.fr, etc.
• Donn ´ees g ´eographiques :OpenStreetMaps, etc.
• Annotations s ´emantiques :Web Data Commons, etc. Objectif: combiner et utiliser ces donn ´ees :
• R ´epondre `a des requˆetes logiquescomplexes
• Calculer desvisualisationset desstatistiques
• Recouperdes informations ou trouver descontradictions
• Connecter sespropres donn ´eesauxjeux de donn ´ees existants Ces donn ´ees posent de nombreusesdifficult ´es:
•h ´et ´erog `enes •distribu ´ees •incompl `etes •peu fiables
Web des donn´ees
• Bases de connaissances :Wikidata, YAGO, etc.
• Donn ´ees ouvertes :data.gouv.fr, etc.
• Donn ´ees g ´eographiques :OpenStreetMaps, etc.
• Annotations s ´emantiques :Web Data Commons, etc. Objectif: combiner et utiliser ces donn ´ees :
• R ´epondre `a des requˆetes logiquescomplexes
• Calculer desvisualisationset desstatistiques
• Recouperdes informations ou trouver descontradictions
• Connecter sespropres donn ´eesauxjeux de donn ´ees existants Ces donn ´ees posent de nombreusesdifficult ´es:
•h ´et ´erog `enes •distribu ´ees •incompl `etes •peu fiables
Web des donn´ees
• Bases de connaissances :Wikidata, YAGO, etc.
• Donn ´ees ouvertes :data.gouv.fr, etc.
• Donn ´ees g ´eographiques :OpenStreetMaps, etc.
• Annotations s ´emantiques :Web Data Commons, etc. Objectif: combiner et utiliser ces donn ´ees :
• R ´epondre `a des requˆetes logiquescomplexes
• Calculer desvisualisationset desstatistiques
• Recouperdes informations ou trouver descontradictions
• Connecter sespropres donn ´eesauxjeux de donn ´ees existants Ces donn ´ees posent de nombreusesdifficult ´es:
•h ´et ´erog `enes •distribu ´ees •incompl `etes •peu fiables
Q1146208
Inria
1967
Q31855
institut de recherche nom franc¸ais
date de cr ´eation
nature
nom franc¸ais
Web des donn´ees
• Bases de connaissances :Wikidata, YAGO, etc.
• Donn ´ees ouvertes :data.gouv.fr, etc.
• Donn ´ees g ´eographiques :OpenStreetMaps, etc.
• Annotations s ´emantiques :Web Data Commons, etc. Objectif: combiner et utiliser ces donn ´ees :
• R ´epondre `a des requˆetes logiquescomplexes
• Calculer desvisualisationset desstatistiques
• Recouperdes informations ou trouver descontradictions
• Connecter sespropres donn ´eesauxjeux de donn ´ees existants Ces donn ´ees posent de nombreusesdifficult ´es:
•h ´et ´erog `enes •distribu ´ees •incompl `etes •peu fiables
→
Web des donn´ees
• Bases de connaissances :Wikidata, YAGO, etc.
• Donn ´ees ouvertes :data.gouv.fr, etc.
• Donn ´ees g ´eographiques :OpenStreetMaps, etc.
• Annotations s ´emantiques :Web Data Commons, etc. Objectif: combiner et utiliser ces donn ´ees :
• R ´epondre `a des requˆetes logiquescomplexes
• Calculer desvisualisationset desstatistiques
• Recouperdes informations ou trouver descontradictions
• Connecter sespropres donn ´eesauxjeux de donn ´ees existants Ces donn ´ees posent de nombreusesdifficult ´es:
•h ´et ´erog `enes •distribu ´ees •incompl `etes •peu fiables
→
Web des donn´ees
• Bases de connaissances :Wikidata, YAGO, etc.
• Donn ´ees ouvertes :data.gouv.fr, etc.
• Donn ´ees g ´eographiques :OpenStreetMaps, etc.
• Annotations s ´emantiques :Web Data Commons, etc. Objectif: combiner et utiliser ces donn ´ees :
• R ´epondre `a des requˆetes logiquescomplexes
• Calculer desvisualisationset desstatistiques
• Recouperdes informations ou trouver descontradictions
• Connecter sespropres donn ´eesauxjeux de donn ´ees existants Ces donn ´ees posent de nombreusesdifficult ´es:
•h ´et ´erog `enes •distribu ´ees •incompl `etes •peu fiables
Web des donn´ees
• Bases de connaissances :Wikidata, YAGO, etc.
• Donn ´ees ouvertes :data.gouv.fr, etc.
• Donn ´ees g ´eographiques :OpenStreetMaps, etc.
• Annotations s ´emantiques :Web Data Commons, etc. Objectif: combiner et utiliser ces donn ´ees :
• R ´epondre `a des requˆetes logiquescomplexes
• Calculer desvisualisationset desstatistiques
• Recouperdes informations ou trouver descontradictions
• Connecter sespropres donn ´eesauxjeux de donn ´ees existants Ces donn ´ees posent de nombreusesdifficult ´es:
•h ´et ´erog `enes •distribu ´ees •incompl `etes •peu fiables
Web des donn´ees
• Bases de connaissances :Wikidata, YAGO, etc.
• Donn ´ees ouvertes :data.gouv.fr, etc.
• Donn ´ees g ´eographiques :OpenStreetMaps, etc.
• Annotations s ´emantiques :Web Data Commons, etc.
Objectif: combiner et utiliser ces donn ´ees :
• R ´epondre `a des requˆetes logiquescomplexes
• Calculer desvisualisationset desstatistiques
• Recouperdes informations ou trouver descontradictions
• Connecter sespropres donn ´eesauxjeux de donn ´ees existants Ces donn ´ees posent de nombreusesdifficult ´es:
•h ´et ´erog `enes •distribu ´ees •incompl `etes •peu fiables
Web des donn´ees
• Bases de connaissances :Wikidata, YAGO, etc.
• Donn ´ees ouvertes :data.gouv.fr, etc.
• Donn ´ees g ´eographiques :OpenStreetMaps, etc.
• Annotations s ´emantiques :Web Data Commons, etc.
Objectif: combiner et utiliser ces donn ´ees :
• R ´epondre `a des requˆetes logiquescomplexes
• Calculer desvisualisationset desstatistiques
• Recouperdes informations ou trouver descontradictions
• Connecter sespropres donn ´eesauxjeux de donn ´ees existants
Ces donn ´ees posent de nombreusesdifficult ´es:
•h ´et ´erog `enes •distribu ´ees •incompl `etes •peu fiables
Web des donn´ees
• Bases de connaissances :Wikidata, YAGO, etc.
• Donn ´ees ouvertes :data.gouv.fr, etc.
• Donn ´ees g ´eographiques :OpenStreetMaps, etc.
• Annotations s ´emantiques :Web Data Commons, etc.
Objectif: combiner et utiliser ces donn ´ees :
• R ´epondre `a des requˆetes logiquescomplexes
• Calculer desvisualisationset desstatistiques
• Recouperdes informations ou trouver descontradictions
• Connecter sespropres donn ´eesauxjeux de donn ´ees existants Ces donn ´ees posent de nombreusesdifficult ´es:
Probl`eme 1 : Int´egration
Donn ´eesincompl `eteseth ´et ´erog `enesissues de sourcesmultiples
• Raisonnement avec des r `egleslogiques
→ Int ´egrerles diff ´erences sources
→ D ´eduireles faits manquants
Données
Intégration
Déduction
→Approches existantes :OBDA, data integration, data exchange...
Probl`eme 2 : Fiabilit´e
Donn ´ees produitescollaborativementou par des processusfaillibles
•Vandalisme
•Controverses •Extraction
→Approches existantes :truth finding, data cleaning, data repair...
Probl`eme 2 : Fiabilit´e
Donn ´ees produitescollaborativementou par des processusfaillibles
•Vandalisme
•Controverses •Extraction
→Approches existantes :truth finding, data cleaning, data repair...
DansWikidata
Probl`eme 2 : Fiabilit´e
Donn ´ees produitescollaborativementou par des processusfaillibles
•Vandalisme •Controverses
•Extraction
→Approches existantes :truth finding, data cleaning, data repair...
DansWikidata
Probl`eme 2 : Fiabilit´e
Donn ´ees produitescollaborativementou par des processusfaillibles
•Vandalisme •Controverses •Extraction
→Approches existantes :truth finding, data cleaning, data repair...
DansYAGO
Probl`eme 2 : Fiabilit´e
Donn ´ees produitescollaborativementou par des processusfaillibles
•Vandalisme •Controverses •Extraction
→Approches existantes :truth finding, data cleaning, data repair...
DansYAGO
<Macquarie><hasRevenue>
"8100000000"^^<dollar>
extraction automatique
Probl`eme 2 : Fiabilit´e
Donn ´ees produitescollaborativementou par des processusfaillibles
•Vandalisme •Controverses •Extraction
→Approches existantes :truth finding, data cleaning, data repair...
DansYAGO
<Macquarie><hasRevenue>
"8100000000"^^<dollar>
extraction automatique
Objectif
Objectif :Int ´egrerles donn ´ees du Web etraisonnersur ces donn ´ees en estimant leurfiabilit ´egrˆace `a des annotations deprovenance Leraisonnementet lafiabilit ´evont de pair :
• Les donn ´ees d’une source peuvent provenir d’autres sources
• Les r `egles d’int ´egration elles-mˆemes ne sont pasfiables
• Il faut ´etudier la fiabilit ´e desr ´esultats du raisonnement
1. Prendre en compte laprovenance initialedes faits 2. Propager laprovenanceau cours du raisonnement
Objectif
Objectif :Int ´egrerles donn ´ees du Web etraisonnersur ces donn ´ees en estimant leurfiabilit ´egrˆace `a des annotations deprovenance Leraisonnementet lafiabilit ´evont de pair :
• Les donn ´ees d’une source peuvent provenir d’autres sources
• Les r `egles d’int ´egration elles-mˆemes ne sont pasfiables
• Il faut ´etudier la fiabilit ´e desr ´esultats du raisonnement
1. Prendre en compte laprovenance initialedes faits 2. Propager laprovenanceau cours du raisonnement
Provenance existante des donn´ees
Wikidata : Plus de40Mfaits ont une source (pr `es de 50%)
OpenStreetMaps : >40Mpoints et>120Mvoies avec source (>35%)
Autres indices : Historiquedes faits,utilisateursqui ont ´edit ´e
Provenance existante des donn´ees
Wikidata : Plus de40Mfaits ont une source (pr `es de 50%)
OpenStreetMaps : >40Mpoints et>120Mvoies avec source (>35%)
Autres indices : Historiquedes faits,utilisateursqui ont ´edit ´e
Provenance existante des donn´ees
Wikidata : Plus de40Mfaits ont une source (pr `es de 50%)
OpenStreetMaps : >40Mpoints et>120Mvoies avec source (>35%)
Propager la provenance au cours du raisonnement
→Comment d ´efinir laprovenanced’une r ´eponsecertaine?
Donn´ees :
id jour type t1 9 cong ´es t2 10 r ´eunion t3 11 cong ´es
Requˆete logique : Y a-t-il des r ´eunions pendant mes cong ´es ?
R`egle logique : Je ne reviens pas pourun seul jour
Provenance : t1∧t2∧t3∧r `egle?
→G ´en ´eraliser lessemianneaux de provenance[Green et al., 2007] des bases de donn ´ees au raisonnement ?
→Comment calculerefficacementcette provenance
et la repr ´esenter de fac¸onconcise, selon le langage de r `egles ?
Propager la provenance au cours du raisonnement
→Comment d ´efinir laprovenanced’une r ´eponsecertaine?
Donn´ees :
id jour type t1 9 cong ´es t2 10 r ´eunion t3 11 cong ´es
Requˆete logique : Y a-t-il des r ´eunions pendant mes cong ´es ?
R`egle logique : Je ne reviens pas pourun seul jour
Provenance : t1∧t2∧t3∧r `egle?
→G ´en ´eraliser lessemianneaux de provenance[Green et al., 2007]
des bases de donn ´ees au raisonnement ?
→Comment calculerefficacementcette provenance
et la repr ´esenter de fac¸onconcise, selon le langage de r `egles ?
Propager la provenance au cours du raisonnement
→Comment d ´efinir laprovenanced’une r ´eponsecertaine?
Donn´ees :
id jour type t1 9 cong ´es t2 10 r ´eunion t3 11 cong ´es
Requˆete logique : Y a-t-il des r ´eunions pendant mes cong ´es ?
R`egle logique : Je ne reviens pas pourun seul jour
Provenance : t1∧t2∧t3∧r `egle?
→G ´en ´eraliser lessemianneaux de provenance[Green et al., 2007]
des bases de donn ´ees au raisonnement ?
→Comment calculerefficacementcette provenance
et la repr ´esenter de fac¸onconcise, selon le langage de r `egles ?
Programme de recherche
Raisonner avec la provenance sur les donn ´ees du Web pour l’int ´egration et la fiabilit ´e
1. Provenance symbolique pour le raisonnement
• D ´efinitionabstraite `a diff ´erents niveaux d’expressivit ´e
• Calculetrepr ´esentationefficace
2. Propager des relations defiabilit ´e `a travers la provenance 3. Calculer des confiancesquantitativeset probabilistes 4. R ´eviserles jugements sur les sources primaires
avec des retours utilisateurs, en remontant la provenance
Application : Compl´eter et v´erifier Wikidata
Ajouter `a Wikidata des faits issus d’autres sourceset lesv ´erifier:
R `egles logiquesd ´eclaratives: extraction, int ´egration, conflits
→Calculer laprovenanceet estimer lafiabilit ´eavec :
• Sources originales(Wikip ´edia, etc.)
• Extracteurs(comme pour Yago) etint ´egration
• Contradictionsentre faits
• Jugements de lafoule(pas toujours fiables)
Int´egration
´Equipe LINKS : Linking Dynamic Data
´Equipe LINKS
Gestion du Web des donn´ees
• Sourcesh ´et ´erog `enes
• M ´ethodeslogiquespour l’int ´egration Int´egration
• Collaborations en cours avecPierre Bourhis
• Autres th `emes :automates d’arbre, apprentissage
• Comp ´etencesen donn ´ees incertaines et provenance
R´esum´e
Projet : Raisonner avec la provenance sur les donn ´ees du Web pour l’int ´egration et la fiabilit ´e
1. Provenance symbolique pour le raisonnement
• D ´efinitionabstraite `a diff ´erents niveaux d’expressivit ´e
• Calculetrepr ´esentationefficace
2. Propager des relations defiabilit ´e `a travers la provenance 3. Calculer des confiancesquantitativeset probabilistes 4. R ´eviserles jugements sur les sources primaires
avec des retours utilisateurs, en remontant la provenance Th`ese : Tirer parti de la structure des donn ´ees incertaines
[ICALP’15],[LICS’15],[PODS’16]; apr `es-th `ese[IJCAI’16]
Crowdsourcing
Fouille de donn´ees :Trouver des motifsfr ´equents Crowdsourcing :Poser des questions `a lafoule
→Questions `a la foule : quelsensembles d’objetssontfr ´equents ?
nil activity
icdt tour
icdt
tour parthenon piraeus
icdt piraeus icdt
parthenon
parthenon piraeus
icdt parthenon
piraeus
• Utiliser unetaxonomiesur les objets
• Les ensembles forment untreillis distributif
• Compromisentre leco ˆutdes questions pos ´ees et leco ˆutde calculer quelles questions poser
→Bornes decomplexit ´esur ce probl `eme
Applicabilit´e pratique de la largeur d’arbre
• Travail avec S. Maniu : les jeux de donn ´ees r ´eels peuvent ˆetrepartiellement d ´ecompos ´esen arbre
100%
80%
60%
40%
20%
0%
largeur 5 largeur 10 proportion d'arêtes
après décomposition partielle
D ´ecompositionpartielleen arbre dugraphe OSM de Paris
• 4.3 Mnœuds et5.4 Marˆetes
• Largeur totale≤521
• Stage de M. Monet : les m ´ethodes `a base d’automates peuvent ˆetreimplant ´ees en pratique
• Travail avec M. Monet : compilation efficace en automates
R´ef´erences
Green, Todd J., Grigoris Karvounarakis, Val Tannen (2007).
“Provenance Semirings”. In :Proc. PODS.