Raisonner avec la provenance sur les donn ´ees du Web
Antoine Amarilli Concours CNRS 06/03 6 avril 2016
Parcours
2013–2016 : Th `ese `aT´el´ecom ParisTechavecPierre Senellart:
• Tirer parti de la structure des donn ´ees incertaines
• Soutenue le14 mars 2016 2012-2013 : Pr´e-doc :
• 3 mois `aTel Avivavec Tova Milo
• 5 mois `aOxfordavec Michael Benedikt
´Ecole normale sup´erieure
Publications
Bases de donn ´ees :
• ICDT’14(pr ´edoc `a Tel Aviv)
• PODS’16(th `ese) Logique et automates :
• ICALP’15(th `ese)
• LICS’15(th `ese) Intelligence artificielle :
• IJCAI’15(pr ´e-doc `a Oxford)
R ´esum ´e des travaux ant ´erieurs
Interrogation de donn ´ees relationnelles incertaines
Vue d’ensemble : Donn ´ees relationnelles incertaines
´Evaluer unerequˆete logiquesur unebase de donn´ees relationnelle
Probl`eme :On ne dispose pas toujours des donn ´eesexactes:
• Donn ´ees cr ´e ´ees par des m ´ethodesfailliblesetnon-exhaustives
• Donn ´ees annot ´ees par des techniquesd’apprentissage
• Donn ´eesbruit´eesoup´erim´ees
→G ´erer les donn ´ees relationnellesavec leur incertitude Probl`eme : infaisable ind´ecidable
Donn ´ees incompl `etes
Donn ´ees : jour type
9 cong ´es 10 r ´eunion
11 cong ´es 18 cong ´es 18 r ´eunion Requˆete logique : Quelles r ´eunions sont pendant mes cong ´es ?
R `egles logiques :
• Je ne reviens pas pourun seul jour
jour type 9 cong ´es 10 r ´eunion
11 cong ´es 18 cong ´es 18 r ´eunion
10 cong´es
R ´esultat :
Donn ´ees incompl `etes
Donn ´ees : jour type
9 cong ´es 10 r ´eunion
11 cong ´es 18 cong ´es 18 r ´eunion Requˆete logique : Quelles r ´eunions sont pendant mes cong ´es ?
R `egles logiques :
• Je ne reviens pas pourun seul jour
jour type 9 cong ´es 10 r ´eunion
11 cong ´es 18 cong ´es 18 r ´eunion
10 cong´es
R ´esultat :
Donn ´ees incompl `etes
Donn ´ees : jour type
9 cong ´es 10 r ´eunion
11 cong ´es 18 cong ´es 18 r ´eunion Requˆete logique : Quelles r ´eunions sont pendant mes cong ´es ?
R `egles logiques :
• Je ne reviens pas pourun seul jour
jour type 9 cong ´es 10 r ´eunion
11 cong ´es 18 cong ´es 18 r ´eunion
10 cong´es
R ´esultat : jour
Donn ´ees incompl `etes
Donn ´ees : jour type
9 cong ´es 10 r ´eunion
11 cong ´es 18 cong ´es 18 r ´eunion Requˆete logique : Quelles r ´eunions sont pendant mes cong ´es ?
R `egles logiques :
• Je ne reviens pas pourun seul jour
jour type 9 cong ´es 10 r ´eunion
11 cong ´es 18 cong ´es 18 r ´eunion
10 cong´es
R ´esultat : jour 18
10
Donn ´ees incompl `etes
Donn ´ees : jour type
9 cong ´es 10 r ´eunion
11 cong ´es 18 cong ´es 18 r ´eunion Requˆete logique : Quelles r ´eunions sont pendant mes cong ´es ?
jour type 9 cong ´es 10 r ´eunion
11 cong ´es 18 cong ´es 18 r ´eunion
10 cong´es
R ´esultat : jour 18
10
Donn ´ees incompl `etes
Donn ´ees : jour type
9 cong ´es 10 r ´eunion
11 cong ´es 18 cong ´es 18 r ´eunion Requˆete logique : Quelles r ´eunions sont pendant mes cong ´es ?
jour type 9 cong ´es 10 r ´eunion
11 cong ´es 18 cong ´es 18 r ´eunion
10 cong´es
R ´esultat : jour 18
10
Donn ´ees incompl `etes
Donn ´ees : jour type
9 cong ´es 10 r ´eunion
11 cong ´es 18 cong ´es 18 r ´eunion Requˆete logique : Quelles r ´eunions sont pendant mes cong ´es ?
jour type 9 cong ´es 10 r ´eunion
11 cong ´es 18 cong ´es 18 r ´eunion 10 cong´es
R ´esultat : jour 18
10
Donn ´ees incompl `etes
Donn ´ees : jour type
9 cong ´es 10 r ´eunion
11 cong ´es 18 cong ´es 18 r ´eunion Requˆete logique : Quelles r ´eunions sont pendant mes cong ´es ?
jour type 9 cong ´es 10 r ´eunion
11 cong ´es 18 cong ´es 18 r ´eunion 10 cong´es
R ´esultat : jour
10
Donn ´ees incompl `etes
Donn ´ees : jour type
9 cong ´es 10 r ´eunion
11 cong ´es 18 cong ´es 18 r ´eunion Requˆete logique : Quelles r ´eunions sont pendant mes cong ´es ?
jour type 9 cong ´es 10 r ´eunion
11 cong ´es 18 cong ´es 18 r ´eunion 10 cong´es
R ´esultat : jour
R ´esum ´e : raisonner sur les donn ´ees incompl `etes
→Probl `eme fondamental enintelligence artificielle : Quelles r ´eponses `a larequˆetede l’utilisateur
sont vraies dans toutes les compl ´etions desdonn´ees qui satisfont desr`egles logiques?
Approches existantes :Langages de r `egles d ´ecidables en IA :
• Uniquement sur desgraphes de donn´ees
• Autorisant des compl ´etionsinfinies
→J’ai transpos ´e ces r ´esultats auxbases de donn´ees :
• ´Etendre auxhypergraphes [Amarilli, Benedikt,IJCAI’15]
• Restreindre aux compl ´etionsfinies [Amarilli, Benedikt,LICS’15]
R ´esum ´e : raisonner sur les donn ´ees incompl `etes
→Probl `eme fondamental enintelligence artificielle : Quelles r ´eponses `a larequˆetede l’utilisateur
sont vraies dans toutes les compl ´etions desdonn´ees qui satisfont desr`egles logiques?
Approches existantes :Langages de r `egles d ´ecidables en IA :
• Uniquement sur desgraphes de donn´ees
• Autorisant des compl ´etionsinfinies
→J’ai transpos ´e ces r ´esultats auxbases de donn´ees :
Donn ´ees probabilistes
Donn ´ees : jour type
9 cong ´es
95%
10 r ´eunion
20%
11 cong ´es
30%
18 cong ´es
80%
18 r ´eunion
90%
Requˆete logique : Quelles r ´eunions sont
90%×80%
=
72%
R ´esultat : jour
18
72%
Donn ´ees probabilistes
Donn ´ees : jour type
9 cong ´es
95%
10 r ´eunion
20%
11 cong ´es
30%
18 cong ´es
80%
18 r ´eunion
90%
Requˆete logique : Quelles r ´eunions sont
90%×80%
=
72%
R ´esultat : jour
18
72%
Donn ´ees probabilistes
Donn ´ees : jour type
9 cong ´es
95%
10 r ´eunion
20%
11 cong ´es
30%
18 cong ´es
80%
18 r ´eunion
90%
Requˆete logique : Quelles r ´eunions sont
90%×80%
=
72%
R ´esultat : jour
72%
Donn ´ees probabilistes
Donn ´ees : jour type
9 cong ´es 95%
10 r ´eunion 20%
11 cong ´es 30%
18 cong ´es 80%
18 r ´eunion 90%
Requˆete logique : Quelles r ´eunions sont
90%×80%
=
72%
R ´esultat : jour
72%
Donn ´ees probabilistes
Donn ´ees : jour type
9 cong ´es 95%
10 r ´eunion 20%
11 cong ´es 30%
18 cong ´es 80%
18 r ´eunion 90%
Requˆete logique : Quelles r ´eunions sont
90%×80%
=
72%
R ´esultat : jour
72%
Donn ´ees probabilistes
Donn ´ees : jour type
9 cong ´es 95%
10 r ´eunion 20%
11 cong ´es 30%
18 cong ´es 80%
18 r ´eunion 90%
Requˆete logique : Quelles r ´eunions sont
90%×80%
=72%
R ´esultat : jour
72%
Donn ´ees probabilistes
Donn ´ees : jour type
9 cong ´es 95%
10 r ´eunion 20%
11 cong ´es 30%
18 cong ´es 80%
18 r ´eunion 90%
Requˆete logique : Quelles r ´eunions sont
90%×80%
=72%
R ´esultat : jour
Donn ´ees probabilistes : travaux existants
→Probl `eme d’ ´evaluation de requˆetes sur donn ´eesprobabilistes : Quelle est laprobabilit´e totalede chaque r ´eponse
quand les faits sont pr ´esents ou absentsind´ependamment avec laprobabilit´eindiqu ´ee ?
Approche existante(intensionnelle) :
∃dtt' Calendrier(t, d, "congés")
∧ Calendrier(t', d, "réunion") Requête conjonctive
Y a-t-il une réunion pendant mes congés ?
Donn ´ees probabilistes : travaux existants
→Probl `eme d’ ´evaluation de requˆetes sur donn ´eesprobabilistes : Quelle est laprobabilit´e totalede chaque r ´eponse
quand les faits sont pr ´esents ou absentsind´ependamment avec laprobabilit´eindiqu ´ee ?
Approche existante(intensionnelle) :
Calendrier id jour type t1 9 cong ´es
95%
t2 10 r ´eunion
20%
t3 11 cong ´es
30%
t4 18 cong ´es
80%
t5 18 r ´eunion
90%
Donn ´ees probabilistes : travaux existants
→Probl `eme d’ ´evaluation de requˆetes sur donn ´eesprobabilistes : Quelle est laprobabilit´e totalede chaque r ´eponse
quand les faits sont pr ´esents ou absentsind´ependamment avec laprobabilit´eindiqu ´ee ?
Approche existante(intensionnelle) :
Formule de provenance
t ∧ t
PTIME Calendrier
id jour type t1 9 cong ´es
95%
t2 10 r ´eunion
20%
t3 11 cong ´es
30%
t4 18 cong ´es
80%
t5 18 r ´eunion
90%
Donn ´ees probabilistes : travaux existants
→Probl `eme d’ ´evaluation de requˆetes sur donn ´eesprobabilistes : Quelle est laprobabilit´e totalede chaque r ´eponse
quand les faits sont pr ´esents ou absentsind´ependamment avec laprobabilit´eindiqu ´ee ?
Approche existante(intensionnelle) :
Formule de provenance
t ∧ t
PTIME Calendrier
id jour type
t1 9 cong ´es 95%
t2 10 r ´eunion 20%
t3 11 cong ´es 30%
t4 18 cong ´es 80%
t5 18 r ´eunion 90%
Donn ´ees probabilistes : travaux existants
→Probl `eme d’ ´evaluation de requˆetes sur donn ´eesprobabilistes : Quelle est laprobabilit´e totalede chaque r ´eponse
quand les faits sont pr ´esents ou absentsind´ependamment avec laprobabilit´eindiqu ´ee ?
Approche existante(intensionnelle) :
Formule de provenance
Probabilité72%
t ∧ t
PTIME #P-difficile
en général Calendrier
id jour type
t1 9 cong ´es 95%
t2 10 r ´eunion 20%
t3 11 cong ´es 30%
t4 18 cong ´es 80%
t5 18 r ´eunion 90%
Donn ´ees probabilistes : r ´esultats
→J’ai montr ´e comment exploiter lastructure des donn´ees : Th ´eor `eme [Amarilli, Bourhis, Senellart,ICALP’15]
L’ ´evaluation de requˆetesMSOest faisable en tempslin´eaire sur des donn ´ees probabilistes delargeur d’arbre born´ee
→En un sens, ce r ´esultat ne peut pas ˆetream´elior´e(dichotomie) : Th ´eor `eme [Amarilli, Bourhis, Senellart,PODS’16]
L’ ´evaluation probabiliste de certaines requˆetesFOestinfaisable
Donn ´ees probabilistes : preuve de la borne sup ´erieure
Gen ´eraliser les r ´esultats de[Courcelle, 1990] `a laprovenance
Requête MSO Y a-t-il une réunion Données de largeur bornée
Calendrier id jour type t1 9 cong ´es
95%
t2 10 r ´eunion
20%
t3 11 cong ´es
30%
t4 18 cong ´es
80%
t5 18 r ´eunion
90%
Donn ´ees probabilistes : preuve de la borne sup ´erieure
Gen ´eraliser les r ´esultats de[Courcelle, 1990] `a laprovenance
Automate d'arbres Requête MSO
Y a-t-il une réunion Données de largeur bornée
Calendrier id jour type t1 9 cong ´es
95%
t2 10 r ´eunion
20%
t3 11 cong ´es
30%
t4 18 cong ´es
80%
t5 18 r ´eunion
90%
Donn ´ees probabilistes : preuve de la borne sup ´erieure
Gen ´eraliser les r ´esultats de[Courcelle, 1990] `a laprovenance
Automate d'arbres Encodage en arbre
Requête MSO Y a-t-il une réunion Données de largeur bornée
Calendrier id jour type t1 9 cong ´es
95%
t2 10 r ´eunion
20%
t3 11 cong ´es
30%
t4 18 cong ´es
80%
t5 18 r ´eunion
90%
Donn ´ees probabilistes : preuve de la borne sup ´erieure
Gen ´eraliser les r ´esultats de[Courcelle, 1990] `a laprovenance
Automate d'arbres Encodage en arbre
Réponse TRUE
Requête MSO Y a-t-il une réunion
linéaire Données de largeur bornée
Calendrier id jour type t1 9 cong ´es
95%
t2 10 r ´eunion
20%
t3 11 cong ´es
30%
t4 18 cong ´es
80%
t5 18 r ´eunion
90%
Donn ´ees probabilistes : preuve de la borne sup ´erieure
Gen ´eraliser les r ´esultats de[Courcelle, 1990] `a laprovenance
Automate d'arbres Encodage en arbre
Requête MSO Y a-t-il une réunion Données de largeur bornée
Calendrier id jour type t1 9 cong ´es
95%
t2 10 r ´eunion
20%
t3 11 cong ´es
30%
t4 18 cong ´es
80%
t5 18 r ´eunion
90%
Donn ´ees probabilistes : preuve de la borne sup ´erieure
Gen ´eraliser les r ´esultats de[Courcelle, 1990] `a laprovenance
Automate d'arbres Encodage en arbre
Requête MSO Y a-t-il une réunion
Circuit de provenance
∧
t4 t5
linéaire Données de largeur bornée
Calendrier id jour type t1 9 cong ´es
95%
t2 10 r ´eunion
20%
t3 11 cong ´es
30%
t4 18 cong ´es
80%
t5 18 r ´eunion
90%
Donn ´ees probabilistes : preuve de la borne sup ´erieure
Gen ´eraliser les r ´esultats de[Courcelle, 1990] `a laprovenance
Automate d'arbres Encodage en arbre
Requête MSO Y a-t-il une réunion
Circuit de provenance
∧
t4 t5
linéaire Données de largeur bornée
Calendrier id jour type
t1 9 cong ´es 95%
t2 10 r ´eunion 20%
t3 11 cong ´es 30%
t4 18 cong ´es 80%
t5 18 r ´eunion 90%
Donn ´ees probabilistes : preuve de la borne sup ´erieure
Gen ´eraliser les r ´esultats de[Courcelle, 1990] `a laprovenance
Automate d'arbres Encodage en arbre
Requête MSO Y a-t-il une réunion
Circuit de provenance
∧
t4 t5
linéaire Données de largeur bornée
linéaire
Calendrier id jour type
t1 9 cong ´es 95%
t2 10 r ´eunion 20%
t3 11 cong ´es 30%
t4 18 cong ´es 80%
t5 18 r ´eunion 90%
Projet de recherche
Raisonner avec la provenance sur les donn ´ees du Web
Web des donn ´ees
• Bases de connaissances :Wikidata, YAGO, etc.
• Donn ´ees ouvertes :data.gouv.fr, etc.
• Donn ´ees g ´eographiques :OpenStreetMaps, etc.
• Annotations s ´emantiques :Web Data Commons, etc. Objectif: combiner et utiliser ces donn ´ees :
• R ´epondre `a des requˆetes logiquescomplexes
• Calculer desvisualisationset desstatistiques
• Recouperdes informations ou trouver descontradictions
• Connecter sespropres donn´eesauxjeux de donn´ees existants Ces donn ´ees posent de nombreusesdifficult´es:
•h´et´erog`enes •distribu´ees •incompl`etes •peu fiables
Web des donn ´ees
• Bases de connaissances :Wikidata, YAGO, etc.
• Donn ´ees ouvertes :data.gouv.fr, etc.
• Donn ´ees g ´eographiques :OpenStreetMaps, etc.
• Annotations s ´emantiques :Web Data Commons, etc. Objectif: combiner et utiliser ces donn ´ees :
• R ´epondre `a des requˆetes logiquescomplexes
• Calculer desvisualisationset desstatistiques
• Recouperdes informations ou trouver descontradictions
• Connecter sespropres donn´eesauxjeux de donn´ees existants Ces donn ´ees posent de nombreusesdifficult´es:
•h´et´erog`enes •distribu´ees •incompl`etes •peu fiables
Web des donn ´ees
• Bases de connaissances :Wikidata, YAGO, etc.
• Donn ´ees ouvertes :data.gouv.fr, etc.
• Donn ´ees g ´eographiques :OpenStreetMaps, etc.
• Annotations s ´emantiques :Web Data Commons, etc. Objectif: combiner et utiliser ces donn ´ees :
• R ´epondre `a des requˆetes logiquescomplexes
• Calculer desvisualisationset desstatistiques
• Recouperdes informations ou trouver descontradictions
• Connecter sespropres donn´eesauxjeux de donn´ees existants Ces donn ´ees posent de nombreusesdifficult´es:
•h´et´erog`enes •distribu´ees •incompl`etes •peu fiables
Q280413
Centre national de la recherche scientifique
48◦50’51.72”N, 2◦15’50.40”E
Q31855 nom franc¸ais
coordonn´ees nature
Web des donn ´ees
• Bases de connaissances :Wikidata, YAGO, etc.
• Donn ´ees ouvertes :data.gouv.fr, etc.
• Donn ´ees g ´eographiques :OpenStreetMaps, etc.
• Annotations s ´emantiques :Web Data Commons, etc. Objectif: combiner et utiliser ces donn ´ees :
• R ´epondre `a des requˆetes logiquescomplexes
• Calculer desvisualisationset desstatistiques
• Recouperdes informations ou trouver descontradictions
• Connecter sespropres donn´eesauxjeux de donn´ees existants Ces donn ´ees posent de nombreusesdifficult´es:
•h´et´erog`enes •distribu´ees •incompl`etes •peu fiables
→
Web des donn ´ees
• Bases de connaissances :Wikidata, YAGO, etc.
• Donn ´ees ouvertes :data.gouv.fr, etc.
• Donn ´ees g ´eographiques :OpenStreetMaps, etc.
• Annotations s ´emantiques :Web Data Commons, etc. Objectif: combiner et utiliser ces donn ´ees :
• R ´epondre `a des requˆetes logiquescomplexes
• Calculer desvisualisationset desstatistiques
• Recouperdes informations ou trouver descontradictions
• Connecter sespropres donn´eesauxjeux de donn´ees existants Ces donn ´ees posent de nombreusesdifficult´es:
•h´et´erog`enes •distribu´ees •incompl`etes •peu fiables
→
Web des donn ´ees
• Bases de connaissances :Wikidata, YAGO, etc.
• Donn ´ees ouvertes :data.gouv.fr, etc.
• Donn ´ees g ´eographiques :OpenStreetMaps, etc.
• Annotations s ´emantiques :Web Data Commons, etc. Objectif: combiner et utiliser ces donn ´ees :
• R ´epondre `a des requˆetes logiquescomplexes
• Calculer desvisualisationset desstatistiques
• Recouperdes informations ou trouver descontradictions
• Connecter sespropres donn´eesauxjeux de donn´ees existants Ces donn ´ees posent de nombreusesdifficult´es:
•h´et´erog`enes •distribu´ees •incompl`etes •peu fiables
Web des donn ´ees
• Bases de connaissances :Wikidata, YAGO, etc.
• Donn ´ees ouvertes :data.gouv.fr, etc.
• Donn ´ees g ´eographiques :OpenStreetMaps, etc.
• Annotations s ´emantiques :Web Data Commons, etc. Objectif: combiner et utiliser ces donn ´ees :
• R ´epondre `a des requˆetes logiquescomplexes
• Calculer desvisualisationset desstatistiques
• Recouperdes informations ou trouver descontradictions
• Connecter sespropres donn´eesauxjeux de donn´ees existants Ces donn ´ees posent de nombreusesdifficult´es:
•h´et´erog`enes •distribu´ees •incompl`etes •peu fiables
Web des donn ´ees
• Bases de connaissances :Wikidata, YAGO, etc.
• Donn ´ees ouvertes :data.gouv.fr, etc.
• Donn ´ees g ´eographiques :OpenStreetMaps, etc.
• Annotations s ´emantiques :Web Data Commons, etc.
Objectif: combiner et utiliser ces donn ´ees :
• R ´epondre `a des requˆetes logiquescomplexes
• Calculer desvisualisationset desstatistiques
• Recouperdes informations ou trouver descontradictions
• Connecter sespropres donn´eesauxjeux de donn´ees existants Ces donn ´ees posent de nombreusesdifficult´es:
•h´et´erog`enes •distribu´ees •incompl`etes •peu fiables
Web des donn ´ees
• Bases de connaissances :Wikidata, YAGO, etc.
• Donn ´ees ouvertes :data.gouv.fr, etc.
• Donn ´ees g ´eographiques :OpenStreetMaps, etc.
• Annotations s ´emantiques :Web Data Commons, etc.
Objectif: combiner et utiliser ces donn ´ees :
• R ´epondre `a des requˆetes logiquescomplexes
• Calculer desvisualisationset desstatistiques
• Recouperdes informations ou trouver descontradictions
• Connecter sespropres donn´eesauxjeux de donn´ees existants
Ces donn ´ees posent de nombreusesdifficult´es:
•h´et´erog`enes •distribu´ees •incompl`etes •peu fiables
Web des donn ´ees
• Bases de connaissances :Wikidata, YAGO, etc.
• Donn ´ees ouvertes :data.gouv.fr, etc.
• Donn ´ees g ´eographiques :OpenStreetMaps, etc.
• Annotations s ´emantiques :Web Data Commons, etc.
Objectif: combiner et utiliser ces donn ´ees :
• R ´epondre `a des requˆetes logiquescomplexes
• Calculer desvisualisationset desstatistiques
• Recouperdes informations ou trouver descontradictions
• Connecter sespropres donn´eesauxjeux de donn´ees existants
Probl `eme 1 : Int ´egration
Donn ´eesincompl`eteseth´et´erog`enesissues de sourcesmultiples
• Raisonnement avec des r `egleslogiques
→ Int´egrerles diff ´erences sources
→ D´eduireles faits manquants Données
Intégration
Déduction
Probl `eme 2 : Fiabilit ´e
Donn ´ees produitescollaborativementou par des processusfaillibles
•Vandalisme
•Controverses •Extraction
→Approches existantes :truth finding, data cleaning, data repair...
Probl `eme 2 : Fiabilit ´e
Donn ´ees produitescollaborativementou par des processusfaillibles
•Vandalisme
•Controverses •Extraction
→Approches existantes :truth finding, data cleaning, data repair...
DansWikidata
Probl `eme 2 : Fiabilit ´e
Donn ´ees produitescollaborativementou par des processusfaillibles
•Vandalisme
•Controverses •Extraction
→Approches existantes :truth finding, data cleaning, data repair...
DansWikidata
Probl `eme 2 : Fiabilit ´e
Donn ´ees produitescollaborativementou par des processusfaillibles
•Vandalisme •Controverses
•Extraction
→Approches existantes :truth finding, data cleaning, data repair...
DansWikidata
Probl `eme 2 : Fiabilit ´e
Donn ´ees produitescollaborativementou par des processusfaillibles
•Vandalisme •Controverses •Extraction
→Approches existantes :truth finding, data cleaning, data repair...
DansYAGO
Probl `eme 2 : Fiabilit ´e
Donn ´ees produitescollaborativementou par des processusfaillibles
•Vandalisme •Controverses •Extraction
→Approches existantes :truth finding, data cleaning, data repair...
DansYAGO
extraction automatique
Probl `eme 2 : Fiabilit ´e
Donn ´ees produitescollaborativementou par des processusfaillibles
•Vandalisme •Controverses •Extraction DansYAGO
extraction automatique
Objectif
L’int´egrationet lafiabilit´evontensemblepour les donn ´ees duWeb:
• Les donn ´ees d’une source peuvent provenir d’autres sources
• Il faut ´etudier la fiabilit ´e desr´esultats du raisonnement
• Les r `egles d’int ´egration elles-mˆemes ne sont pasfiables Objectif :Int´egrerdes donn ´ees etraisonnersur ces donn ´ees en conservant des informations pour estimer leurfiabilit´e
provenance
Exploiter la provenance des donn ´ees
Wikidata : Plus de40Mfaits ont une source (pr `es de 50%)
OpenStreetMaps : >40Mpoints et>120Mvoies avec source (>35%)
Autres indices : Historiquedes faits,utilisateursqui ont ´edit ´e
Exploiter la provenance des donn ´ees
Wikidata : Plus de40Mfaits ont une source (pr `es de 50%)
OpenStreetMaps : >40Mpoints et>120Mvoies avec source (>35%)
Autres indices : Historiquedes faits,utilisateursqui ont ´edit ´e
Exploiter la provenance des donn ´ees
Wikidata : Plus de40Mfaits ont une source (pr `es de 50%)
OpenStreetMaps : >40Mpoints et>120Mvoies avec source (>35%)
Propager la provenance des donn ´ees
→Comment d ´efinir laprovenanced’une r ´eponsecertaine?
Donn ´ees :
id jour type t1 9 cong ´es t2 10 r ´eunion t3 11 cong ´es
Requˆete logique : Y a-t-il des r ´eunions pendant mes cong ´es ?
R `egle logique : Je ne reviens pas pourun seul jour
Provenance : t1∧t2∧t3∧r`egle?
→G ´en ´eraliser lessemianneaux de provenanceau raisonnement ?
→Comment calculerefficacementcette provenance
et la repr ´esenter de fac¸onconcise, selon le langage de r `egles ?
Propager la provenance des donn ´ees
→Comment d ´efinir laprovenanced’une r ´eponsecertaine?
Donn ´ees :
id jour type t1 9 cong ´es t2 10 r ´eunion t3 11 cong ´es
Requˆete logique : Y a-t-il des r ´eunions pendant mes cong ´es ?
R `egle logique : Je ne reviens pas pourun seul jour
Provenance : t1∧t2∧t3∧r`egle?
→G ´en ´eraliser lessemianneaux de provenanceau raisonnement ?
→Comment calculerefficacementcette provenance
et la repr ´esenter de fac¸onconcise, selon le langage de r `egles ?
Propager la provenance des donn ´ees
→Comment d ´efinir laprovenanced’une r ´eponsecertaine?
Donn ´ees :
id jour type t1 9 cong ´es t2 10 r ´eunion t3 11 cong ´es
Requˆete logique : Y a-t-il des r ´eunions pendant mes cong ´es ?
R `egle logique : Je ne reviens pas pourun seul jour
Provenance : t1∧t2∧t3∧r`egle?
→G ´en ´eraliser lessemianneaux de provenanceau raisonnement ?
→Comment calculerefficacementcette provenance
concise, selon le langage de r `egles ?
Programme de recherche
Raisonner avec la provenance sur les donn ´ees du Web pour l’int ´egration et la fiabilit ´e
1. Fondations :Provenance symbolique pour le raisonnement
• D´efinitionabstraite `a diff ´erents niveaux d’expressivit ´e
• Calculetrepr´esentationefficace
2. Propager des relations defiabilit´e `a travers la provenance 3. Calculer des confiancesquantitativeset probabilistes
R´eviser
Int ´egration
Int ´egration
´EquipeLINKSdeCRIStAL, Lille
Th ´ematiques : Web des donn ´ees et int ´egration
Expertise : Automates (S. Tison), agr ´egation (J. Niehren), Collaboration : Avec P. Bourhis
´EquipeAutomates et applicationsde l’IRIF, Paris
Th ´ematiques : Informatique fondamentale (large champ), th ´eorie des bases de donn ´ees
Expertise : Donn ´ees incertaines (C. Sirangelo et A. Gheerbrant)
´EquipeGraphIKduLIRMM, Montpellier
R ´esum ´e
Projet : Raisonner avec la provenance sur les donn´ees du Web pour l’int ´egration et la fiabilit ´e
1. Fondations :Provenance symbolique pour le raisonnement
• D´efinitionabstraite `a diff ´erents niveaux d’expressivit ´e
• Calculetrepr´esentationefficace
2. Propager des relations defiabilit´e `a travers la provenance 3. Calculer des confiancesquantitativeset probabilistes
4. Long terme :R´eviserles jugements sur les sources primaires avec des retours utilisateurs, en remontant la provenance
Crowdsourcing
Fouille de donn ´ees :Trouver des motifsfr´equents Crowdsourcing :Poser des questions `a lafoule
→Questions `a la foule : quelsensembles d’objetssontfr´equents?
nil activity
icdt tour
icdt
tour parthenon piraeus
icdt piraeus icdt
parthenon
parthenon piraeus
• Utiliser unetaxonomiesur les objets
• Les ensembles forment untreillis distributif
• Compromisentre lecoˆutdes questions pos ´ees et lecoˆutde calculer quelles questions poser
Applicabilit ´e pratique
• Travail avec S. Maniu : les jeux de donn ´ees r ´eels peuvent ˆetrepartiellement d´ecompos´esen arbre
100%
80%
60%
40%
20%
0%
largeur 5 largeur 10 proportion d'arêtes
après décomposition partielle
D ´ecompositionpartielleen arbre dugraphe OSM de Paris
• 4.3 Mnœuds et5.4 Marˆetes
• Largeur totale≤521
• Stage de M. Monet : les m ´ethodes `a base d’automates peuvent ˆetreimplant´ees en pratique
R ´ef ´erences
Courcelle, Bruno (1990). “The Monadic Second-Order Logic of Graphs. I. Recognizable Sets of Finite Graphs”. In :Inf. Comput.