Raisonner avec la provenance sur les donn´ees du Web
Antoine Amarilli Concours Inria CR2 12 mai 2016
Parcours
2013–2016 : Th `ese `aT´el´ecom ParisTechavecPierre Senellart:
• Tirer parti de la structure des donn ´ees incertaines
• Soutenue le14 mars 2016 2012-2013 : Pr´e-doc :
• 3 mois `aTel Avivavec Tova Milo
• 5 mois `aOxfordavec Michael Benedikt
2009–2013 : ´Ecole normale sup´erieurede Paris, masterMPRI
Publications
Bases de donn´ees :
• ICDT’14(pr ´edoc `a Tel Aviv)
• PODS’16(th `ese) Logique et automates :
• ICALP’15(th `ese)
• LICS’15(th `ese) Intelligence artificielle :
• IJCAI’15(pr ´e-doc `a Oxford)
• IJCAI’16(avec Oxford)
• 7autres publications internationales avec comit ´e de lecture
• 1brevet avec Google New York (stage de M1)
Antoine Amarilli 2
R´esum´e des travaux ant´erieurs
Interrogation de donn´ees relationnelles incertaines
Vue d’ensemble : Donn´ees relationnelles incertaines
´Evaluer unerequˆete logiquesur unebase de donn´ees relationnelle
Probl`eme :On ne dispose pas toujours des donn ´eesexactes:
• Donn ´ees cr ´e ´ees par des m ´ethodesfailliblesetnon-exhaustives
• Donn ´ees annot ´ees par des techniquesd’apprentissage
• Donn ´eesbruit´eesoup´erim´ees
→G ´erer les donn ´ees relationnellesavec leur incertitude Probl`eme :Tˆaches souventcomplexesvoireind´ecidables
•1.donn ´eesincompl`etes •2.donn ´eesprobabilistes
Antoine Amarilli 3
Donn´ees incompl`etes Donn´ees :
jour type 9 cong ´es 10 r ´eunion
11 cong ´es 18 cong ´es 18 r ´eunion Requˆete logique : Quelles r ´eunions sont pendant mes cong ´es ?
R`egles logiques :
• Je ne reviens pas pourun seul jour
jour type 9 cong ´es 10 r ´eunion
11 cong ´es 18 cong ´es 18 r ´eunion
10 cong´es
R´esultat :
Donn´ees incompl`etes Donn´ees :
jour type 9 cong ´es 10 r ´eunion
11 cong ´es 18 cong ´es 18 r ´eunion Requˆete logique : Quelles r ´eunions sont pendant mes cong ´es ?
R`egles logiques :
• Je ne reviens pas pourun seul jour
jour type 9 cong ´es 10 r ´eunion
11 cong ´es 18 cong ´es 18 r ´eunion
10 cong´es
R´esultat :
Antoine Amarilli 4
Donn´ees incompl`etes Donn´ees :
jour type 9 cong ´es 10 r ´eunion
11 cong ´es 18 cong ´es 18 r ´eunion Requˆete logique : Quelles r ´eunions sont pendant mes cong ´es ?
R`egles logiques :
• Je ne reviens pas pourun seul jour
jour type 9 cong ´es 10 r ´eunion
11 cong ´es 18 cong ´es 18 r ´eunion
10 cong´es
R´esultat : jour
Donn´ees incompl`etes Donn´ees :
jour type 9 cong ´es 10 r ´eunion
11 cong ´es 18 cong ´es 18 r ´eunion Requˆete logique : Quelles r ´eunions sont pendant mes cong ´es ?
R`egles logiques :
• Je ne reviens pas pourun seul jour
jour type 9 cong ´es 10 r ´eunion
11 cong ´es 18 cong ´es 18 r ´eunion
10 cong´es
R´esultat : jour 18
10
Antoine Amarilli 4
Donn´ees incompl`etes Donn´ees :
jour type 9 cong ´es 10 r ´eunion
11 cong ´es 18 cong ´es 18 r ´eunion Requˆete logique : Quelles r ´eunions sont pendant mes cong ´es ?
jour type 9 cong ´es 10 r ´eunion
11 cong ´es 18 cong ´es 18 r ´eunion
10 cong´es
R´esultat : jour 18
10
Donn´ees incompl`etes Donn´ees :
jour type 9 cong ´es 10 r ´eunion
11 cong ´es 18 cong ´es 18 r ´eunion Requˆete logique : Quelles r ´eunions sont pendant mes cong ´es ?
R`egles logiques :
• Je ne reviens pas pourun seul jour
jour type 9 cong ´es 10 r ´eunion
11 cong ´es 18 cong ´es 18 r ´eunion
10 cong´es
R´esultat : jour 18
10
Antoine Amarilli 4
Donn´ees incompl`etes Donn´ees :
jour type 9 cong ´es 10 r ´eunion
11 cong ´es 18 cong ´es 18 r ´eunion Requˆete logique : Quelles r ´eunions sont pendant mes cong ´es ?
jour type 9 cong ´es 10 r ´eunion
11 cong ´es 18 cong ´es 18 r ´eunion 10 cong´es
R´esultat : jour 18
10
Donn´ees incompl`etes Donn´ees :
jour type 9 cong ´es 10 r ´eunion
11 cong ´es 18 cong ´es 18 r ´eunion Requˆete logique : Quelles r ´eunions sont pendant mes cong ´es ?
R`egles logiques :
• Je ne reviens pas pourun seul jour
jour type 9 cong ´es 10 r ´eunion
11 cong ´es 18 cong ´es 18 r ´eunion 10 cong´es
R´esultat : jour 18
10
Antoine Amarilli 4
Donn´ees incompl`etes Donn´ees :
jour type 9 cong ´es 10 r ´eunion
11 cong ´es 18 cong ´es 18 r ´eunion Requˆete logique : Quelles r ´eunions sont pendant mes cong ´es ?
jour type 9 cong ´es 10 r ´eunion
11 cong ´es 18 cong ´es 18 r ´eunion 10 cong´es
R´esultat : jour
R´esum´e : raisonner sur les donn´ees incompl`etes
→Probl `eme fondamental enintelligence artificielle : Quelles r ´eponses `a larequˆetede l’utilisateur
sont vraies dans toutes les compl ´etions desdonn´ees qui satisfont desr`egles logiques?
Approches existantes:Langages de r `egles d ´ecidables en IA :
• Uniquement sur desgraphes de donn´ees
• Ne consid `erent pas sp ´ecifiquement les compl ´etionsfinies
→J’ai transpos ´e ces r ´esultats auxbases de donn´ees :
• ´Etendre auxhypergraphes [Amarilli, Benedikt,IJCAI’15]
• Restreindre aux compl ´etionsfinies [Amarilli, Benedikt,LICS’15]
Antoine Amarilli 5
R´esum´e : raisonner sur les donn´ees incompl`etes
→Probl `eme fondamental enintelligence artificielle : Quelles r ´eponses `a larequˆetede l’utilisateur
sont vraies dans toutes les compl ´etions desdonn´ees qui satisfont desr`egles logiques?
Approches existantes:Langages de r `egles d ´ecidables en IA :
• Uniquement sur desgraphes de donn´ees
• Ne consid `erent pas sp ´ecifiquement les compl ´etionsfinies
→J’ai transpos ´e ces r ´esultats auxbases de donn´ees :
Donn´ees probabilistes
Donn´ees : jour type
9 cong ´es
95%
10 r ´eunion
20%
11 cong ´es
30%
18 cong ´es
80%
18 r ´eunion
90%
Requˆete logique : Quelles r ´eunions sont pendant mes cong ´es ?
90%×80%
=
72%
R´esultat : jour
18
72%
Antoine Amarilli 6
Donn´ees probabilistes
Donn´ees : jour type
9 cong ´es
95%
10 r ´eunion
20%
11 cong ´es
30%
18 cong ´es
80%
18 r ´eunion
90%
Requˆete logique : Quelles r ´eunions sont
90%×80%
=
72%
R´esultat : jour
18
72%
Donn´ees probabilistes
Donn´ees : jour type
9 cong ´es
95%
10 r ´eunion
20%
11 cong ´es
30%
18 cong ´es
80%
18 r ´eunion
90%
Requˆete logique : Quelles r ´eunions sont pendant mes cong ´es ?
90%×80%
=
72%
R´esultat : jour
18
72%
Antoine Amarilli 6
Donn´ees probabilistes
Donn´ees : jour type
9 cong ´es 95%
10 r ´eunion 20%
11 cong ´es 30%
18 cong ´es 80%
18 r ´eunion 90%
Requˆete logique : Quelles r ´eunions sont
90%×80%
=
72%
R´esultat : jour
72%
Donn´ees probabilistes
Donn´ees : jour type
9 cong ´es 95%
10 r ´eunion 20%
11 cong ´es 30%
18 cong ´es 80%
18 r ´eunion 90%
Requˆete logique : Quelles r ´eunions sont pendant mes cong ´es ?
90%×80%
=
72%
R´esultat : jour
18
72%
Antoine Amarilli 6
Donn´ees probabilistes
Donn´ees : jour type
9 cong ´es 95%
10 r ´eunion 20%
11 cong ´es 30%
18 cong ´es 80%
18 r ´eunion 90%
Requˆete logique : Quelles r ´eunions sont
90%×80%
=72%
R´esultat : jour
72%
Donn´ees probabilistes
Donn´ees : jour type
9 cong ´es 95%
10 r ´eunion 20%
11 cong ´es 30%
18 cong ´es 80%
18 r ´eunion 90%
Requˆete logique : Quelles r ´eunions sont pendant mes cong ´es ?
90%×80%
=72%
R´esultat : jour
18 72%
Antoine Amarilli 6
Donn´ees probabilistes : travaux existants
→Probl `eme d’ ´evaluation de requˆetes sur donn ´eesprobabilistes : Quelle est laprobabilit´e totalede chaque r ´eponse
quand les faits sont pr ´esents ou absentsind´ependamment avec laprobabilit´eindiqu ´ee ?
Approche existante(intensionnelle) :
∃dtt' Calendrier(t, d, "congés")
∧ Calendrier(t', d, "réunion") Requête conjonctive
Y a-t-il une réunion pendant mes congés ?
Donn´ees probabilistes : travaux existants
→Probl `eme d’ ´evaluation de requˆetes sur donn ´eesprobabilistes : Quelle est laprobabilit´e totalede chaque r ´eponse
quand les faits sont pr ´esents ou absentsind´ependamment avec laprobabilit´eindiqu ´ee ?
Approche existante(intensionnelle) :
∃dtt' Calendrier(t, d, "congés")
∧ Calendrier(t', d, "réunion") Requête conjonctive
Y a-t-il une réunion pendant mes congés ?
Antoine Amarilli 7
Calendrier id jour type t1 9 cong ´es
95%
t2 10 r ´eunion
20%
t3 11 cong ´es
30%
t4 18 cong ´es
80%
t5 18 r ´eunion
90%
Donn´ees probabilistes : travaux existants
→Probl `eme d’ ´evaluation de requˆetes sur donn ´eesprobabilistes : Quelle est laprobabilit´e totalede chaque r ´eponse
quand les faits sont pr ´esents ou absentsind´ependamment avec laprobabilit´eindiqu ´ee ?
Approche existante(intensionnelle) :
Formule de provenance
t ∧ t
PTIME Calendrier
id jour type t1 9 cong ´es
95%
t2 10 r ´eunion
20%
t3 11 cong ´es
30%
t4 18 cong ´es
80%
t5 18 r ´eunion
90%
Donn´ees probabilistes : travaux existants
→Probl `eme d’ ´evaluation de requˆetes sur donn ´eesprobabilistes : Quelle est laprobabilit´e totalede chaque r ´eponse
quand les faits sont pr ´esents ou absentsind´ependamment avec laprobabilit´eindiqu ´ee ?
Approche existante(intensionnelle) :
∃dtt' Calendrier(t, d, "congés")
∧ Calendrier(t', d, "réunion") Requête conjonctive
Formule de provenance Y a-t-il une réunion pendant mes congés ?
t4 ∧ t5
PTIME
Antoine Amarilli 7
Calendrier id jour type
t1 9 cong ´es 95%
t2 10 r ´eunion 20%
t3 11 cong ´es 30%
t4 18 cong ´es 80%
t5 18 r ´eunion 90%
Donn´ees probabilistes : travaux existants
→Probl `eme d’ ´evaluation de requˆetes sur donn ´eesprobabilistes : Quelle est laprobabilit´e totalede chaque r ´eponse
quand les faits sont pr ´esents ou absentsind´ependamment avec laprobabilit´eindiqu ´ee ?
Approche existante(intensionnelle) :
Formule de provenance
Probabilité72%
t ∧ t
PTIME #P-difficile
en général Calendrier
id jour type
t1 9 cong ´es 95%
t2 10 r ´eunion 20%
t3 11 cong ´es 30%
t4 18 cong ´es 80%
t5 18 r ´eunion 90%
Donn´ees probabilistes : r´esultat de dichotomie
→J’ai montr ´e comment exploiter lastructure des donn´ees : Th´eor`eme [Amarilli, Bourhis, Senellart,ICALP’15]
L’ ´evaluation de requˆetesMSOest faisable en tempslin´eaire sur des donn ´ees probabilistes delargeur d’arbre born´ee
→En un sens, ce r ´esultat ne peut pas ˆetream´elior´e(dichotomie) : Th´eor`eme [Amarilli, Bourhis, Senellart,PODS’16]
L’ ´evaluation probabiliste de certaines requˆetesFOest#P-difficile (sous conditions) surn’importe quellefamille de graphes
delargeur d’arbre non born´ee
Antoine Amarilli 8
Donn´ees probabilistes : preuve de la borne sup´erieure Gen ´eraliser les r ´esultats de[Courcelle, 1990] `a laprovenance
Requête MSO Y a-t-il une réunion Données de largeur bornée
Calendrier id jour type t1 9 cong ´es
95%
t2 10 r ´eunion
20%
t3 11 cong ´es
30%
t4 18 cong ´es
80%
t5 18 r ´eunion
90%
Donn´ees probabilistes : preuve de la borne sup´erieure Gen ´eraliser les r ´esultats de[Courcelle, 1990] `a laprovenance
Automate d'arbres
∃dtt' Calendrier(t, d, "congés")
∧ Calendrier(t', d, "réunion") Requête MSO Y a-t-il une réunion pendant mes congés ? Données de largeur bornée
Antoine Amarilli 9
Calendrier id jour type t1 9 cong ´es
95%
t2 10 r ´eunion
20%
t3 11 cong ´es
30%
t4 18 cong ´es
80%
t5 18 r ´eunion
90%
Donn´ees probabilistes : preuve de la borne sup´erieure Gen ´eraliser les r ´esultats de[Courcelle, 1990] `a laprovenance
Automate d'arbres Encodage en arbre
Requête MSO Y a-t-il une réunion Données de largeur bornée
Calendrier id jour type t1 9 cong ´es
95%
t2 10 r ´eunion
20%
t3 11 cong ´es
30%
t4 18 cong ´es
80%
t5 18 r ´eunion
90%
Donn´ees probabilistes : preuve de la borne sup´erieure Gen ´eraliser les r ´esultats de[Courcelle, 1990] `a laprovenance
Automate d'arbres Encodage en arbre
Réponse TRUE
∃dtt' Calendrier(t, d, "congés")
∧ Calendrier(t', d, "réunion") Requête MSO Y a-t-il une réunion pendant mes congés ?
linéaire Données de largeur bornée
Antoine Amarilli 9
Calendrier id jour type t1 9 cong ´es
95%
t2 10 r ´eunion
20%
t3 11 cong ´es
30%
t4 18 cong ´es
80%
t5 18 r ´eunion
90%
Donn´ees probabilistes : preuve de la borne sup´erieure Gen ´eraliser les r ´esultats de[Courcelle, 1990] `a laprovenance
Automate d'arbres Encodage en arbre
Requête MSO Y a-t-il une réunion Données de largeur bornée
Calendrier id jour type t1 9 cong ´es
95%
t2 10 r ´eunion
20%
t3 11 cong ´es
30%
t4 18 cong ´es
80%
t5 18 r ´eunion
90%
Donn´ees probabilistes : preuve de la borne sup´erieure Gen ´eraliser les r ´esultats de[Courcelle, 1990] `a laprovenance
Automate d'arbres Encodage en arbre
∃dtt' Calendrier(t, d, "congés")
∧ Calendrier(t', d, "réunion") Requête MSO Y a-t-il une réunion pendant mes congés ?
Circuit de provenance
∧
t4 t5
linéaire Données de largeur bornée
Antoine Amarilli 9
Calendrier id jour type t1 9 cong ´es
95%
t2 10 r ´eunion
20%
t3 11 cong ´es
30%
t4 18 cong ´es
80%
t5 18 r ´eunion
90%
Donn´ees probabilistes : preuve de la borne sup´erieure Gen ´eraliser les r ´esultats de[Courcelle, 1990] `a laprovenance
Automate d'arbres Encodage en arbre
Requête MSO Y a-t-il une réunion
Circuit de provenance
∧
t4 t5
linéaire Données de largeur bornée
Calendrier id jour type
t1 9 cong ´es 95%
t2 10 r ´eunion 20%
t3 11 cong ´es 30%
t4 18 cong ´es 80%
t5 18 r ´eunion 90%
Donn´ees probabilistes : preuve de la borne sup´erieure Gen ´eraliser les r ´esultats de[Courcelle, 1990] `a laprovenance
Automate d'arbres Encodage en arbre
∃dtt' Calendrier(t, d, "congés")
∧ Calendrier(t', d, "réunion") Requête MSO Y a-t-il une réunion pendant mes congés ?
Circuit de provenance
Probabilité72%
∧
t4 t5
linéaire Données de largeur bornée
linéaire
Antoine Amarilli 9
Calendrier id jour type
t1 9 cong ´es 95%
t2 10 r ´eunion 20%
t3 11 cong ´es 30%
t4 18 cong ´es 80%
t5 18 r ´eunion 90%
Projet de recherche
Raisonner avec la provenance sur les donn´ees du Web
Web des donn´ees
• Bases de connaissances :Wikidata, YAGO, etc.
• Donn ´ees ouvertes :data.gouv.fr, etc.
• Donn ´ees g ´eographiques :OpenStreetMaps, etc.
• Annotations s ´emantiques :Web Data Commons, etc. Objectif: combiner et utiliser ces donn ´ees :
• R ´epondre `a des requˆetes logiquescomplexes
• Calculer desvisualisationset desstatistiques
• Recouperdes informations ou trouver descontradictions
• Connecter sespropres donn´eesauxjeux de donn´ees existants Ces donn ´ees posent de nombreusesdifficult´es:
•h´et´erog`enes •distribu´ees •incompl`etes •peu fiables
Antoine Amarilli 10
Web des donn´ees
• Bases de connaissances :Wikidata, YAGO, etc.
• Donn ´ees ouvertes :data.gouv.fr, etc.
• Donn ´ees g ´eographiques :OpenStreetMaps, etc.
• Annotations s ´emantiques :Web Data Commons, etc. Objectif: combiner et utiliser ces donn ´ees :
• R ´epondre `a des requˆetes logiquescomplexes
• Calculer desvisualisationset desstatistiques
• Recouperdes informations ou trouver descontradictions
• Connecter sespropres donn´eesauxjeux de donn´ees existants Ces donn ´ees posent de nombreusesdifficult´es:
•h´et´erog`enes •distribu´ees •incompl`etes •peu fiables
Web des donn´ees
• Bases de connaissances :Wikidata, YAGO, etc.
• Donn ´ees ouvertes :data.gouv.fr, etc.
• Donn ´ees g ´eographiques :OpenStreetMaps, etc.
• Annotations s ´emantiques :Web Data Commons, etc. Objectif: combiner et utiliser ces donn ´ees :
• R ´epondre `a des requˆetes logiquescomplexes
• Calculer desvisualisationset desstatistiques
• Recouperdes informations ou trouver descontradictions
• Connecter sespropres donn´eesauxjeux de donn´ees existants Ces donn ´ees posent de nombreusesdifficult´es:
•h´et´erog`enes •distribu´ees •incompl`etes •peu fiables
Antoine Amarilli 10
Q1146208
Inria
1967
Q31855
institut de recherche nom franc¸ais
date de cr´eation nature
nom franc¸ais
Web des donn´ees
• Bases de connaissances :Wikidata, YAGO, etc.
• Donn ´ees ouvertes :data.gouv.fr, etc.
• Donn ´ees g ´eographiques :OpenStreetMaps, etc.
• Annotations s ´emantiques :Web Data Commons, etc. Objectif: combiner et utiliser ces donn ´ees :
• R ´epondre `a des requˆetes logiquescomplexes
• Calculer desvisualisationset desstatistiques
• Recouperdes informations ou trouver descontradictions
• Connecter sespropres donn´eesauxjeux de donn´ees existants Ces donn ´ees posent de nombreusesdifficult´es:
•h´et´erog`enes •distribu´ees •incompl`etes •peu fiables
→
Web des donn´ees
• Bases de connaissances :Wikidata, YAGO, etc.
• Donn ´ees ouvertes :data.gouv.fr, etc.
• Donn ´ees g ´eographiques :OpenStreetMaps, etc.
• Annotations s ´emantiques :Web Data Commons, etc. Objectif: combiner et utiliser ces donn ´ees :
• R ´epondre `a des requˆetes logiquescomplexes
• Calculer desvisualisationset desstatistiques
• Recouperdes informations ou trouver descontradictions
• Connecter sespropres donn´eesauxjeux de donn´ees existants Ces donn ´ees posent de nombreusesdifficult´es:
•h´et´erog`enes •distribu´ees •incompl`etes •peu fiables
Antoine Amarilli 10
→
Web des donn´ees
• Bases de connaissances :Wikidata, YAGO, etc.
• Donn ´ees ouvertes :data.gouv.fr, etc.
• Donn ´ees g ´eographiques :OpenStreetMaps, etc.
• Annotations s ´emantiques :Web Data Commons, etc. Objectif: combiner et utiliser ces donn ´ees :
• R ´epondre `a des requˆetes logiquescomplexes
• Calculer desvisualisationset desstatistiques
• Recouperdes informations ou trouver descontradictions
• Connecter sespropres donn´eesauxjeux de donn´ees existants Ces donn ´ees posent de nombreusesdifficult´es:
•h´et´erog`enes •distribu´ees •incompl`etes •peu fiables
Web des donn´ees
• Bases de connaissances :Wikidata, YAGO, etc.
• Donn ´ees ouvertes :data.gouv.fr, etc.
• Donn ´ees g ´eographiques :OpenStreetMaps, etc.
• Annotations s ´emantiques :Web Data Commons, etc. Objectif: combiner et utiliser ces donn ´ees :
• R ´epondre `a des requˆetes logiquescomplexes
• Calculer desvisualisationset desstatistiques
• Recouperdes informations ou trouver descontradictions
• Connecter sespropres donn´eesauxjeux de donn´ees existants Ces donn ´ees posent de nombreusesdifficult´es:
•h´et´erog`enes •distribu´ees •incompl`etes •peu fiables
Antoine Amarilli 10
Web des donn´ees
• Bases de connaissances :Wikidata, YAGO, etc.
• Donn ´ees ouvertes :data.gouv.fr, etc.
• Donn ´ees g ´eographiques :OpenStreetMaps, etc.
• Annotations s ´emantiques :Web Data Commons, etc.
Objectif: combiner et utiliser ces donn ´ees :
• R ´epondre `a des requˆetes logiquescomplexes
• Calculer desvisualisationset desstatistiques
• Recouperdes informations ou trouver descontradictions
• Connecter sespropres donn´eesauxjeux de donn´ees existants Ces donn ´ees posent de nombreusesdifficult´es:
•h´et´erog`enes •distribu´ees •incompl`etes •peu fiables
Web des donn´ees
• Bases de connaissances :Wikidata, YAGO, etc.
• Donn ´ees ouvertes :data.gouv.fr, etc.
• Donn ´ees g ´eographiques :OpenStreetMaps, etc.
• Annotations s ´emantiques :Web Data Commons, etc.
Objectif: combiner et utiliser ces donn ´ees :
• R ´epondre `a des requˆetes logiquescomplexes
• Calculer desvisualisationset desstatistiques
• Recouperdes informations ou trouver descontradictions
• Connecter sespropres donn´eesauxjeux de donn´ees existants
Ces donn ´ees posent de nombreusesdifficult´es:
•h´et´erog`enes •distribu´ees •incompl`etes •peu fiables
Antoine Amarilli 10
Web des donn´ees
• Bases de connaissances :Wikidata, YAGO, etc.
• Donn ´ees ouvertes :data.gouv.fr, etc.
• Donn ´ees g ´eographiques :OpenStreetMaps, etc.
• Annotations s ´emantiques :Web Data Commons, etc.
Objectif: combiner et utiliser ces donn ´ees :
• R ´epondre `a des requˆetes logiquescomplexes
• Calculer desvisualisationset desstatistiques
• Recouperdes informations ou trouver descontradictions
• Connecter sespropres donn´eesauxjeux de donn´ees existants
Probl`eme 1 : Int´egration
Donn ´eesincompl`eteseth´et´erog`enesissues de sourcesmultiples
• Raisonnement avec des r `egleslogiques
→ Int´egrerles diff ´erences sources
→ D´eduireles faits manquants Données
Intégration
Déduction
→Approches existantes :OBDA, data integration, data exchange...
Antoine Amarilli 11
Probl`eme 2 : Fiabilit´e
Donn ´ees produitescollaborativementou par des processusfaillibles
•Vandalisme
•Controverses •Extraction
→Approches existantes :truth finding, data cleaning, data repair...
Probl`eme 2 : Fiabilit´e
Donn ´ees produitescollaborativementou par des processusfaillibles
•Vandalisme
•Controverses •Extraction
→Approches existantes :truth finding, data cleaning, data repair...
Antoine Amarilli 12
DansWikidata
Probl`eme 2 : Fiabilit´e
Donn ´ees produitescollaborativementou par des processusfaillibles
•Vandalisme
•Controverses •Extraction
→Approches existantes :truth finding, data cleaning, data repair...
DansWikidata
Probl`eme 2 : Fiabilit´e
Donn ´ees produitescollaborativementou par des processusfaillibles
•Vandalisme •Controverses
•Extraction
→Approches existantes :truth finding, data cleaning, data repair...
Antoine Amarilli 12
DansWikidata
Probl`eme 2 : Fiabilit´e
Donn ´ees produitescollaborativementou par des processusfaillibles
•Vandalisme •Controverses •Extraction
→Approches existantes :truth finding, data cleaning, data repair...
DansYAGO
Probl`eme 2 : Fiabilit´e
Donn ´ees produitescollaborativementou par des processusfaillibles
•Vandalisme •Controverses •Extraction
→Approches existantes :truth finding, data cleaning, data repair...
Antoine Amarilli 12
DansYAGO
<Macquarie><hasRevenue>
"8100000000"^^<dollar>
extraction automatique
Probl`eme 2 : Fiabilit´e
Donn ´ees produitescollaborativementou par des processusfaillibles
•Vandalisme •Controverses •Extraction DansYAGO
extraction automatique
Objectif
Objectif :Int´egrerles donn ´ees du Web etraisonnersur ces donn ´ees en estimant leurfiabilit´egrˆace `a des annotations deprovenance Leraisonnementet lafiabilit´evont de pair :
• Les donn ´ees d’une source peuvent provenir d’autres sources
• Les r `egles d’int ´egration elles-mˆemes ne sont pasfiables
• Il faut ´etudier la fiabilit ´e desr´esultats du raisonnement
1. Prendre en compte laprovenance initialedes faits 2. Propager laprovenanceau cours du raisonnement
Antoine Amarilli 13
Objectif
Objectif :Int´egrerles donn ´ees du Web etraisonnersur ces donn ´ees en estimant leurfiabilit´egrˆace `a des annotations deprovenance Leraisonnementet lafiabilit´evont de pair :
• Les donn ´ees d’une source peuvent provenir d’autres sources
• Les r `egles d’int ´egration elles-mˆemes ne sont pasfiables
• Il faut ´etudier la fiabilit ´e desr´esultats du raisonnement
1. Prendre en compte laprovenance initialedes faits
Provenance existante des donn´ees
Wikidata : Plus de40Mfaits ont une source (pr `es de 50%)
OpenStreetMaps : >40Mpoints et>120Mvoies avec source (>35%)
Autres indices : Historiquedes faits,utilisateursqui ont ´edit ´e
Antoine Amarilli 14
Provenance existante des donn´ees
Wikidata : Plus de40Mfaits ont une source (pr `es de 50%)
OpenStreetMaps : >40Mpoints et>120Mvoies avec source (>35%)
Autres indices : Historiquedes faits,utilisateursqui ont ´edit ´e
Provenance existante des donn´ees
Wikidata : Plus de40Mfaits ont une source (pr `es de 50%)
OpenStreetMaps : >40Mpoints et>120Mvoies avec source (>35%)
Autres indices : Historiquedes faits,utilisateursqui ont ´edit ´e
Antoine Amarilli 14
Propager la provenance au cours du raisonnement
→Comment d ´efinir laprovenanced’une r ´eponsecertaine?
Donn´ees :
id jour type t1 9 cong ´es t2 10 r ´eunion t3 11 cong ´es
Requˆete logique : Y a-t-il des r ´eunions pendant mes cong ´es ?
R`egle logique : Je ne reviens pas pourun seul jour
Provenance : t1∧t2∧t3∧r`egle?
→G ´en ´eraliser lessemianneaux de provenance[Green et al., 2007] des bases de donn ´ees au raisonnement ?
→Comment calculerefficacementcette provenance
et la repr ´esenter de fac¸onconcise, selon le langage de r `egles ?
Propager la provenance au cours du raisonnement
→Comment d ´efinir laprovenanced’une r ´eponsecertaine?
Donn´ees :
id jour type t1 9 cong ´es t2 10 r ´eunion t3 11 cong ´es
Requˆete logique : Y a-t-il des r ´eunions pendant mes cong ´es ?
R`egle logique : Je ne reviens pas pourun seul jour
Provenance : t1∧t2∧t3∧r`egle?
→G ´en ´eraliser lessemianneaux de provenance[Green et al., 2007]
des bases de donn ´ees au raisonnement ?
→Comment calculerefficacementcette provenance
et la repr ´esenter de fac¸onconcise, selon le langage de r `egles ?
Antoine Amarilli 15
Propager la provenance au cours du raisonnement
→Comment d ´efinir laprovenanced’une r ´eponsecertaine?
Donn´ees :
id jour type t1 9 cong ´es t2 10 r ´eunion t3 11 cong ´es
Requˆete logique : Y a-t-il des r ´eunions pendant mes cong ´es ?
R`egle logique : Je ne reviens pas pourun seul jour
Provenance : t1∧t2∧t3∧r`egle?
→G ´en ´eraliser lessemianneaux de provenance[Green et al., 2007]
des bases de donn ´ees au raisonnement ?
→Comment calculerefficacementcette provenance
Programme de recherche
Raisonner avec la provenance sur les donn ´ees du Web pour l’int ´egration et la fiabilit ´e
1. Provenance symbolique pour le raisonnement
• D´efinitionabstraite `a diff ´erents niveaux d’expressivit ´e
• Calculetrepr´esentationefficace
2. Propager des relations defiabilit´e `a travers la provenance 3. Calculer des confiancesquantitativeset probabilistes 4. R´eviserles jugements sur les sources primaires
avec des retours utilisateurs, en remontant la provenance
Antoine Amarilli 16
Application : Compl´eter et v´erifier Wikidata
Ajouter `a Wikidata des faits issus d’autres sourceset lesv´erifier:
R `egles logiquesd´eclaratives: extraction, int ´egration, conflits
→Calculer laprovenanceet estimer lafiabilit´eavec :
• Sources originales(Wikip ´edia, etc.)
Int´egration
´Equipe DAHU : V´erification en bases de donn´ees
´Equipe DAHU
Gestion de connaissances distribu´ees : LangageWebdamLog:
• Contrˆole d’acc`esfond ´e sur la provenance
• Gestion decontradictionsetexplicationde r ´eponses Donn´ees du Web : Fondements des bases de donn ´eesgraphe:
• ´Etude de probl `eme de lad´eterminaison de vues
⇒ Ces probl `emes peuvent ˆetrecaptur´esavec la provenance
´etendus, notamment pour g ´erer laconfiance
R´esum´e
Projet : Raisonner avec la provenance sur les donn´ees du Web pour l’int ´egration et la fiabilit ´e
1. Provenance symbolique pour le raisonnement
• D´efinitionabstraite `a diff ´erents niveaux d’expressivit ´e
• Calculetrepr´esentationefficace
2. Propager des relations defiabilit´e `a travers la provenance 3. Calculer des confiancesquantitativeset probabilistes 4. R´eviserles jugements sur les sources primaires
avec des retours utilisateurs, en remontant la provenance Th`ese : Tirer parti de la structure des donn ´ees incertaines
[ICALP’15],[LICS’15],[PODS’16]; apr `es-th `ese[IJCAI’16]
Pr´e-doc : `ATel Aviv [ICDT’14]et `aOxford [IJCAI’15]
Antoine Amarilli 19
Crowdsourcing
Fouille de donn´ees :Trouver des motifsfr´equents Crowdsourcing :Poser des questions `a lafoule
→Questions `a la foule : quelsensembles d’objetssontfr´equents?
nil activity
icdt tour
icdt
tour parthenon piraeus
icdt piraeus icdt
parthenon
parthenon piraeus
• Utiliser unetaxonomiesur les objets
• Les ensembles forment untreillis distributif
• Compromisentre lecoˆutdes questions pos ´ees et lecoˆutde calculer quelles questions poser
Applicabilit´e pratique de la largeur d’arbre
• Travail avec S. Maniu : les jeux de donn ´ees r ´eels peuvent ˆetrepartiellement d´ecompos´esen arbre
100%
80%
60%
40%
20%
0%
largeur 5 largeur 10 proportion d'arêtes
après décomposition partielle
D ´ecompositionpartielleen arbre dugraphe OSM de Paris
• 4.3 Mnœuds et5.4 Marˆetes
• Largeur totale≤521
• Stage de M. Monet : les m ´ethodes `a base d’automates peuvent ˆetreimplant´ees en pratique
• Travail avec M. Monet : compilation efficace en automates pour deslangages restreintsde requˆetes
R´ef´erences
Courcelle, Bruno (1990). “The Monadic Second-Order Logic of Graphs. I. Recognizable Sets of Finite Graphs”. In :Inf. Comput.
Green, Todd J., Grigoris Karvounarakis, Val Tannen (2007).
“Provenance Semirings”. In :Proc. PODS.