• Aucun résultat trouvé

Raisonner avec la provenance sur les donn´ees du Web

N/A
N/A
Protected

Academic year: 2022

Partager "Raisonner avec la provenance sur les donn´ees du Web"

Copied!
70
0
0

Texte intégral

(1)

Raisonner avec la provenance sur les donn ´ees du Web

Antoine Amarilli Concours CNRS 06/03 6 avril 2016

(2)

Parcours

2013–2016 : Th `ese `aT´el´ecom ParisTechavecPierre Senellart:

Tirer parti de la structure des donn ´ees incertaines

• Soutenue le14 mars 2016 2012-2013 : Pr´e-doc :

• 3 mois `aTel Avivavec Tova Milo

• 5 mois `aOxfordavec Michael Benedikt

´Ecole normale sup´erieure

(3)

Publications

Bases de donn ´ees :

• ICDT’14(pr ´edoc `a Tel Aviv)

PODS’16(th `ese) Logique et automates :

• ICALP’15(th `ese)

• LICS’15(th `ese) Intelligence artificielle :

• IJCAI’15(pr ´e-doc `a Oxford)

(4)

R ´esum ´e des travaux ant ´erieurs

Interrogation de donn ´ees relationnelles incertaines

(5)

Vue d’ensemble : Donn ´ees relationnelles incertaines

´Evaluer unerequˆete logiquesur unebase de donn´ees relationnelle

Probl`eme :On ne dispose pas toujours des donn ´eesexactes:

• Donn ´ees cr ´e ´ees par des m ´ethodesfailliblesetnon-exhaustives

• Donn ´ees annot ´ees par des techniquesd’apprentissage

• Donn ´eesbruit´eesoup´erim´ees

→G ´erer les donn ´ees relationnellesavec leur incertitude Probl`eme : infaisable ind´ecidable

(6)

Donn ´ees incompl `etes

Donn ´ees : jour type

9 cong ´es 10 r ´eunion

11 cong ´es 18 cong ´es 18 r ´eunion Requˆete logique : Quelles r ´eunions sont pendant mes cong ´es ?

R `egles logiques :

• Je ne reviens pas pourun seul jour

jour type 9 cong ´es 10 r ´eunion

11 cong ´es 18 cong ´es 18 r ´eunion

10 cong´es

R ´esultat :

(7)

Donn ´ees incompl `etes

Donn ´ees : jour type

9 cong ´es 10 r ´eunion

11 cong ´es 18 cong ´es 18 r ´eunion Requˆete logique : Quelles r ´eunions sont pendant mes cong ´es ?

R `egles logiques :

• Je ne reviens pas pourun seul jour

jour type 9 cong ´es 10 r ´eunion

11 cong ´es 18 cong ´es 18 r ´eunion

10 cong´es

R ´esultat :

(8)

Donn ´ees incompl `etes

Donn ´ees : jour type

9 cong ´es 10 r ´eunion

11 cong ´es 18 cong ´es 18 r ´eunion Requˆete logique : Quelles r ´eunions sont pendant mes cong ´es ?

R `egles logiques :

• Je ne reviens pas pourun seul jour

jour type 9 cong ´es 10 r ´eunion

11 cong ´es 18 cong ´es 18 r ´eunion

10 cong´es

R ´esultat : jour

(9)

Donn ´ees incompl `etes

Donn ´ees : jour type

9 cong ´es 10 r ´eunion

11 cong ´es 18 cong ´es 18 r ´eunion Requˆete logique : Quelles r ´eunions sont pendant mes cong ´es ?

R `egles logiques :

• Je ne reviens pas pourun seul jour

jour type 9 cong ´es 10 r ´eunion

11 cong ´es 18 cong ´es 18 r ´eunion

10 cong´es

R ´esultat : jour 18

10

(10)

Donn ´ees incompl `etes

Donn ´ees : jour type

9 cong ´es 10 r ´eunion

11 cong ´es 18 cong ´es 18 r ´eunion Requˆete logique : Quelles r ´eunions sont pendant mes cong ´es ?

jour type 9 cong ´es 10 r ´eunion

11 cong ´es 18 cong ´es 18 r ´eunion

10 cong´es

R ´esultat : jour 18

10

(11)

Donn ´ees incompl `etes

Donn ´ees : jour type

9 cong ´es 10 r ´eunion

11 cong ´es 18 cong ´es 18 r ´eunion Requˆete logique : Quelles r ´eunions sont pendant mes cong ´es ?

jour type 9 cong ´es 10 r ´eunion

11 cong ´es 18 cong ´es 18 r ´eunion

10 cong´es

R ´esultat : jour 18

10

(12)

Donn ´ees incompl `etes

Donn ´ees : jour type

9 cong ´es 10 r ´eunion

11 cong ´es 18 cong ´es 18 r ´eunion Requˆete logique : Quelles r ´eunions sont pendant mes cong ´es ?

jour type 9 cong ´es 10 r ´eunion

11 cong ´es 18 cong ´es 18 r ´eunion 10 cong´es

R ´esultat : jour 18

10

(13)

Donn ´ees incompl `etes

Donn ´ees : jour type

9 cong ´es 10 r ´eunion

11 cong ´es 18 cong ´es 18 r ´eunion Requˆete logique : Quelles r ´eunions sont pendant mes cong ´es ?

jour type 9 cong ´es 10 r ´eunion

11 cong ´es 18 cong ´es 18 r ´eunion 10 cong´es

R ´esultat : jour

10

(14)

Donn ´ees incompl `etes

Donn ´ees : jour type

9 cong ´es 10 r ´eunion

11 cong ´es 18 cong ´es 18 r ´eunion Requˆete logique : Quelles r ´eunions sont pendant mes cong ´es ?

jour type 9 cong ´es 10 r ´eunion

11 cong ´es 18 cong ´es 18 r ´eunion 10 cong´es

R ´esultat : jour

(15)

R ´esum ´e : raisonner sur les donn ´ees incompl `etes

→Probl `eme fondamental enintelligence artificielle : Quelles r ´eponses `a larequˆetede l’utilisateur

sont vraies dans toutes les compl ´etions desdonn´ees qui satisfont desr`egles logiques?

Approches existantes :Langages de r `egles d ´ecidables en IA :

• Uniquement sur desgraphes de donn´ees

• Autorisant des compl ´etionsinfinies

→J’ai transpos ´e ces r ´esultats auxbases de donn´ees :

• ´Etendre auxhypergraphes [Amarilli, Benedikt,IJCAI’15]

• Restreindre aux compl ´etionsfinies [Amarilli, Benedikt,LICS’15]

(16)

R ´esum ´e : raisonner sur les donn ´ees incompl `etes

→Probl `eme fondamental enintelligence artificielle : Quelles r ´eponses `a larequˆetede l’utilisateur

sont vraies dans toutes les compl ´etions desdonn´ees qui satisfont desr`egles logiques?

Approches existantes :Langages de r `egles d ´ecidables en IA :

• Uniquement sur desgraphes de donn´ees

• Autorisant des compl ´etionsinfinies

→J’ai transpos ´e ces r ´esultats auxbases de donn´ees :

(17)

Donn ´ees probabilistes

Donn ´ees : jour type

9 cong ´es

95%

10 r ´eunion

20%

11 cong ´es

30%

18 cong ´es

80%

18 r ´eunion

90%

Requˆete logique : Quelles r ´eunions sont

90%×80%

=

72%

R ´esultat : jour

18

72%

(18)

Donn ´ees probabilistes

Donn ´ees : jour type

9 cong ´es

95%

10 r ´eunion

20%

11 cong ´es

30%

18 cong ´es

80%

18 r ´eunion

90%

Requˆete logique : Quelles r ´eunions sont

90%×80%

=

72%

R ´esultat : jour

18

72%

(19)

Donn ´ees probabilistes

Donn ´ees : jour type

9 cong ´es

95%

10 r ´eunion

20%

11 cong ´es

30%

18 cong ´es

80%

18 r ´eunion

90%

Requˆete logique : Quelles r ´eunions sont

90%×80%

=

72%

R ´esultat : jour

72%

(20)

Donn ´ees probabilistes

Donn ´ees : jour type

9 cong ´es 95%

10 r ´eunion 20%

11 cong ´es 30%

18 cong ´es 80%

18 r ´eunion 90%

Requˆete logique : Quelles r ´eunions sont

90%×80%

=

72%

R ´esultat : jour

72%

(21)

Donn ´ees probabilistes

Donn ´ees : jour type

9 cong ´es 95%

10 r ´eunion 20%

11 cong ´es 30%

18 cong ´es 80%

18 r ´eunion 90%

Requˆete logique : Quelles r ´eunions sont

90%×80%

=

72%

R ´esultat : jour

72%

(22)

Donn ´ees probabilistes

Donn ´ees : jour type

9 cong ´es 95%

10 r ´eunion 20%

11 cong ´es 30%

18 cong ´es 80%

18 r ´eunion 90%

Requˆete logique : Quelles r ´eunions sont

90%×80%

=72%

R ´esultat : jour

72%

(23)

Donn ´ees probabilistes

Donn ´ees : jour type

9 cong ´es 95%

10 r ´eunion 20%

11 cong ´es 30%

18 cong ´es 80%

18 r ´eunion 90%

Requˆete logique : Quelles r ´eunions sont

90%×80%

=72%

R ´esultat : jour

(24)

Donn ´ees probabilistes : travaux existants

→Probl `eme d’ ´evaluation de requˆetes sur donn ´eesprobabilistes : Quelle est laprobabilit´e totalede chaque r ´eponse

quand les faits sont pr ´esents ou absentsind´ependamment avec laprobabilit´eindiqu ´ee ?

Approche existante(intensionnelle) :

dtt' Calendrier(t, d, "congés")

Calendrier(t', d, "réunion") Requête conjonctive

Y a-t-il une réunion pendant mes congés ?

(25)

Donn ´ees probabilistes : travaux existants

→Probl `eme d’ ´evaluation de requˆetes sur donn ´eesprobabilistes : Quelle est laprobabilit´e totalede chaque r ´eponse

quand les faits sont pr ´esents ou absentsind´ependamment avec laprobabilit´eindiqu ´ee ?

Approche existante(intensionnelle) :

Calendrier id jour type t1 9 cong ´es

95%

t2 10 r ´eunion

20%

t3 11 cong ´es

30%

t4 18 cong ´es

80%

t5 18 r ´eunion

90%

(26)

Donn ´ees probabilistes : travaux existants

→Probl `eme d’ ´evaluation de requˆetes sur donn ´eesprobabilistes : Quelle est laprobabilit´e totalede chaque r ´eponse

quand les faits sont pr ´esents ou absentsind´ependamment avec laprobabilit´eindiqu ´ee ?

Approche existante(intensionnelle) :

Formule de provenance

t ∧ t

PTIME Calendrier

id jour type t1 9 cong ´es

95%

t2 10 r ´eunion

20%

t3 11 cong ´es

30%

t4 18 cong ´es

80%

t5 18 r ´eunion

90%

(27)

Donn ´ees probabilistes : travaux existants

→Probl `eme d’ ´evaluation de requˆetes sur donn ´eesprobabilistes : Quelle est laprobabilit´e totalede chaque r ´eponse

quand les faits sont pr ´esents ou absentsind´ependamment avec laprobabilit´eindiqu ´ee ?

Approche existante(intensionnelle) :

Formule de provenance

t ∧ t

PTIME Calendrier

id jour type

t1 9 cong ´es 95%

t2 10 r ´eunion 20%

t3 11 cong ´es 30%

t4 18 cong ´es 80%

t5 18 r ´eunion 90%

(28)

Donn ´ees probabilistes : travaux existants

→Probl `eme d’ ´evaluation de requˆetes sur donn ´eesprobabilistes : Quelle est laprobabilit´e totalede chaque r ´eponse

quand les faits sont pr ´esents ou absentsind´ependamment avec laprobabilit´eindiqu ´ee ?

Approche existante(intensionnelle) :

Formule de provenance

Probabilité72%

t ∧ t

PTIME #P-difficile

en général Calendrier

id jour type

t1 9 cong ´es 95%

t2 10 r ´eunion 20%

t3 11 cong ´es 30%

t4 18 cong ´es 80%

t5 18 r ´eunion 90%

(29)

Donn ´ees probabilistes : r ´esultats

→J’ai montr ´e comment exploiter lastructure des donn´ees : Th ´eor `eme [Amarilli, Bourhis, Senellart,ICALP’15]

L’ ´evaluation de requˆetesMSOest faisable en tempslin´eaire sur des donn ´ees probabilistes delargeur d’arbre born´ee

→En un sens, ce r ´esultat ne peut pas ˆetream´elior´e(dichotomie) : Th ´eor `eme [Amarilli, Bourhis, Senellart,PODS’16]

L’ ´evaluation probabiliste de certaines requˆetesFOestinfaisable

(30)

Donn ´ees probabilistes : preuve de la borne sup ´erieure

Gen ´eraliser les r ´esultats de[Courcelle, 1990] `a laprovenance

Requête MSO Y a-t-il une réunion Données de largeur bornée

Calendrier id jour type t1 9 cong ´es

95%

t2 10 r ´eunion

20%

t3 11 cong ´es

30%

t4 18 cong ´es

80%

t5 18 r ´eunion

90%

(31)

Donn ´ees probabilistes : preuve de la borne sup ´erieure

Gen ´eraliser les r ´esultats de[Courcelle, 1990] `a laprovenance

Automate d'arbres Requête MSO

Y a-t-il une réunion Données de largeur bornée

Calendrier id jour type t1 9 cong ´es

95%

t2 10 r ´eunion

20%

t3 11 cong ´es

30%

t4 18 cong ´es

80%

t5 18 r ´eunion

90%

(32)

Donn ´ees probabilistes : preuve de la borne sup ´erieure

Gen ´eraliser les r ´esultats de[Courcelle, 1990] `a laprovenance

Automate d'arbres Encodage en arbre

Requête MSO Y a-t-il une réunion Données de largeur bornée

Calendrier id jour type t1 9 cong ´es

95%

t2 10 r ´eunion

20%

t3 11 cong ´es

30%

t4 18 cong ´es

80%

t5 18 r ´eunion

90%

(33)

Donn ´ees probabilistes : preuve de la borne sup ´erieure

Gen ´eraliser les r ´esultats de[Courcelle, 1990] `a laprovenance

Automate d'arbres Encodage en arbre

Réponse TRUE

Requête MSO Y a-t-il une réunion

linéaire Données de largeur bornée

Calendrier id jour type t1 9 cong ´es

95%

t2 10 r ´eunion

20%

t3 11 cong ´es

30%

t4 18 cong ´es

80%

t5 18 r ´eunion

90%

(34)

Donn ´ees probabilistes : preuve de la borne sup ´erieure

Gen ´eraliser les r ´esultats de[Courcelle, 1990] `a laprovenance

Automate d'arbres Encodage en arbre

Requête MSO Y a-t-il une réunion Données de largeur bornée

Calendrier id jour type t1 9 cong ´es

95%

t2 10 r ´eunion

20%

t3 11 cong ´es

30%

t4 18 cong ´es

80%

t5 18 r ´eunion

90%

(35)

Donn ´ees probabilistes : preuve de la borne sup ´erieure

Gen ´eraliser les r ´esultats de[Courcelle, 1990] `a laprovenance

Automate d'arbres Encodage en arbre

Requête MSO Y a-t-il une réunion

Circuit de provenance

t4 t5

linéaire Données de largeur bornée

Calendrier id jour type t1 9 cong ´es

95%

t2 10 r ´eunion

20%

t3 11 cong ´es

30%

t4 18 cong ´es

80%

t5 18 r ´eunion

90%

(36)

Donn ´ees probabilistes : preuve de la borne sup ´erieure

Gen ´eraliser les r ´esultats de[Courcelle, 1990] `a laprovenance

Automate d'arbres Encodage en arbre

Requête MSO Y a-t-il une réunion

Circuit de provenance

t4 t5

linéaire Données de largeur bornée

Calendrier id jour type

t1 9 cong ´es 95%

t2 10 r ´eunion 20%

t3 11 cong ´es 30%

t4 18 cong ´es 80%

t5 18 r ´eunion 90%

(37)

Donn ´ees probabilistes : preuve de la borne sup ´erieure

Gen ´eraliser les r ´esultats de[Courcelle, 1990] `a laprovenance

Automate d'arbres Encodage en arbre

Requête MSO Y a-t-il une réunion

Circuit de provenance

t4 t5

linéaire Données de largeur bornée

linéaire

Calendrier id jour type

t1 9 cong ´es 95%

t2 10 r ´eunion 20%

t3 11 cong ´es 30%

t4 18 cong ´es 80%

t5 18 r ´eunion 90%

(38)

Projet de recherche

Raisonner avec la provenance sur les donn ´ees du Web

(39)

Web des donn ´ees

• Bases de connaissances :Wikidata, YAGO, etc.

• Donn ´ees ouvertes :data.gouv.fr, etc.

• Donn ´ees g ´eographiques :OpenStreetMaps, etc.

• Annotations s ´emantiques :Web Data Commons, etc. Objectif: combiner et utiliser ces donn ´ees :

• R ´epondre `a des requˆetes logiquescomplexes

• Calculer desvisualisationset desstatistiques

• Recouperdes informations ou trouver descontradictions

• Connecter sespropres donn´eesauxjeux de donn´ees existants Ces donn ´ees posent de nombreusesdifficult´es:

•h´et´erog`enes •distribu´ees •incompl`etes •peu fiables

(40)

Web des donn ´ees

• Bases de connaissances :Wikidata, YAGO, etc.

• Donn ´ees ouvertes :data.gouv.fr, etc.

• Donn ´ees g ´eographiques :OpenStreetMaps, etc.

• Annotations s ´emantiques :Web Data Commons, etc. Objectif: combiner et utiliser ces donn ´ees :

• R ´epondre `a des requˆetes logiquescomplexes

• Calculer desvisualisationset desstatistiques

• Recouperdes informations ou trouver descontradictions

• Connecter sespropres donn´eesauxjeux de donn´ees existants Ces donn ´ees posent de nombreusesdifficult´es:

•h´et´erog`enes •distribu´ees •incompl`etes •peu fiables

(41)

Web des donn ´ees

• Bases de connaissances :Wikidata, YAGO, etc.

• Donn ´ees ouvertes :data.gouv.fr, etc.

• Donn ´ees g ´eographiques :OpenStreetMaps, etc.

• Annotations s ´emantiques :Web Data Commons, etc. Objectif: combiner et utiliser ces donn ´ees :

• R ´epondre `a des requˆetes logiquescomplexes

• Calculer desvisualisationset desstatistiques

• Recouperdes informations ou trouver descontradictions

• Connecter sespropres donn´eesauxjeux de donn´ees existants Ces donn ´ees posent de nombreusesdifficult´es:

•h´et´erog`enes •distribu´ees •incompl`etes •peu fiables

Q280413

Centre national de la recherche scientifique

4850’51.72”N, 215’50.40”E

Q31855 nom franc¸ais

coordonn´ees nature

(42)

Web des donn ´ees

• Bases de connaissances :Wikidata, YAGO, etc.

• Donn ´ees ouvertes :data.gouv.fr, etc.

• Donn ´ees g ´eographiques :OpenStreetMaps, etc.

• Annotations s ´emantiques :Web Data Commons, etc. Objectif: combiner et utiliser ces donn ´ees :

• R ´epondre `a des requˆetes logiquescomplexes

• Calculer desvisualisationset desstatistiques

• Recouperdes informations ou trouver descontradictions

• Connecter sespropres donn´eesauxjeux de donn´ees existants Ces donn ´ees posent de nombreusesdifficult´es:

•h´et´erog`enes •distribu´ees •incompl`etes •peu fiables

(43)

Web des donn ´ees

• Bases de connaissances :Wikidata, YAGO, etc.

• Donn ´ees ouvertes :data.gouv.fr, etc.

• Donn ´ees g ´eographiques :OpenStreetMaps, etc.

• Annotations s ´emantiques :Web Data Commons, etc. Objectif: combiner et utiliser ces donn ´ees :

• R ´epondre `a des requˆetes logiquescomplexes

• Calculer desvisualisationset desstatistiques

• Recouperdes informations ou trouver descontradictions

• Connecter sespropres donn´eesauxjeux de donn´ees existants Ces donn ´ees posent de nombreusesdifficult´es:

•h´et´erog`enes •distribu´ees •incompl`etes •peu fiables

(44)

Web des donn ´ees

• Bases de connaissances :Wikidata, YAGO, etc.

• Donn ´ees ouvertes :data.gouv.fr, etc.

• Donn ´ees g ´eographiques :OpenStreetMaps, etc.

• Annotations s ´emantiques :Web Data Commons, etc. Objectif: combiner et utiliser ces donn ´ees :

• R ´epondre `a des requˆetes logiquescomplexes

• Calculer desvisualisationset desstatistiques

• Recouperdes informations ou trouver descontradictions

• Connecter sespropres donn´eesauxjeux de donn´ees existants Ces donn ´ees posent de nombreusesdifficult´es:

•h´et´erog`enes •distribu´ees •incompl`etes •peu fiables

(45)

Web des donn ´ees

• Bases de connaissances :Wikidata, YAGO, etc.

• Donn ´ees ouvertes :data.gouv.fr, etc.

• Donn ´ees g ´eographiques :OpenStreetMaps, etc.

• Annotations s ´emantiques :Web Data Commons, etc. Objectif: combiner et utiliser ces donn ´ees :

• R ´epondre `a des requˆetes logiquescomplexes

• Calculer desvisualisationset desstatistiques

• Recouperdes informations ou trouver descontradictions

• Connecter sespropres donn´eesauxjeux de donn´ees existants Ces donn ´ees posent de nombreusesdifficult´es:

•h´et´erog`enes •distribu´ees •incompl`etes •peu fiables

(46)

Web des donn ´ees

• Bases de connaissances :Wikidata, YAGO, etc.

• Donn ´ees ouvertes :data.gouv.fr, etc.

• Donn ´ees g ´eographiques :OpenStreetMaps, etc.

• Annotations s ´emantiques :Web Data Commons, etc.

Objectif: combiner et utiliser ces donn ´ees :

• R ´epondre `a des requˆetes logiquescomplexes

• Calculer desvisualisationset desstatistiques

• Recouperdes informations ou trouver descontradictions

• Connecter sespropres donn´eesauxjeux de donn´ees existants Ces donn ´ees posent de nombreusesdifficult´es:

•h´et´erog`enes •distribu´ees •incompl`etes •peu fiables

(47)

Web des donn ´ees

• Bases de connaissances :Wikidata, YAGO, etc.

• Donn ´ees ouvertes :data.gouv.fr, etc.

• Donn ´ees g ´eographiques :OpenStreetMaps, etc.

• Annotations s ´emantiques :Web Data Commons, etc.

Objectif: combiner et utiliser ces donn ´ees :

• R ´epondre `a des requˆetes logiquescomplexes

• Calculer desvisualisationset desstatistiques

• Recouperdes informations ou trouver descontradictions

• Connecter sespropres donn´eesauxjeux de donn´ees existants

Ces donn ´ees posent de nombreusesdifficult´es:

•h´et´erog`enes •distribu´ees •incompl`etes •peu fiables

(48)

Web des donn ´ees

• Bases de connaissances :Wikidata, YAGO, etc.

• Donn ´ees ouvertes :data.gouv.fr, etc.

• Donn ´ees g ´eographiques :OpenStreetMaps, etc.

• Annotations s ´emantiques :Web Data Commons, etc.

Objectif: combiner et utiliser ces donn ´ees :

• R ´epondre `a des requˆetes logiquescomplexes

• Calculer desvisualisationset desstatistiques

• Recouperdes informations ou trouver descontradictions

• Connecter sespropres donn´eesauxjeux de donn´ees existants

(49)

Probl `eme 1 : Int ´egration

Donn ´eesincompl`eteseth´et´erog`enesissues de sourcesmultiples

• Raisonnement avec des r `egleslogiques

Int´egrerles diff ´erences sources

D´eduireles faits manquants Données

Intégration

Déduction

(50)

Probl `eme 2 : Fiabilit ´e

Donn ´ees produitescollaborativementou par des processusfaillibles

Vandalisme

•Controverses •Extraction

→Approches existantes :truth finding, data cleaning, data repair...

(51)

Probl `eme 2 : Fiabilit ´e

Donn ´ees produitescollaborativementou par des processusfaillibles

Vandalisme

•Controverses •Extraction

→Approches existantes :truth finding, data cleaning, data repair...

DansWikidata

(52)

Probl `eme 2 : Fiabilit ´e

Donn ´ees produitescollaborativementou par des processusfaillibles

Vandalisme

•Controverses •Extraction

→Approches existantes :truth finding, data cleaning, data repair...

DansWikidata

(53)

Probl `eme 2 : Fiabilit ´e

Donn ´ees produitescollaborativementou par des processusfaillibles

•Vandalisme •Controverses

•Extraction

→Approches existantes :truth finding, data cleaning, data repair...

DansWikidata

(54)

Probl `eme 2 : Fiabilit ´e

Donn ´ees produitescollaborativementou par des processusfaillibles

•Vandalisme •Controverses •Extraction

→Approches existantes :truth finding, data cleaning, data repair...

DansYAGO

(55)

Probl `eme 2 : Fiabilit ´e

Donn ´ees produitescollaborativementou par des processusfaillibles

•Vandalisme •Controverses •Extraction

→Approches existantes :truth finding, data cleaning, data repair...

DansYAGO

extraction automatique

(56)

Probl `eme 2 : Fiabilit ´e

Donn ´ees produitescollaborativementou par des processusfaillibles

•Vandalisme •Controverses •Extraction DansYAGO

extraction automatique

(57)

Objectif

L’int´egrationet lafiabilit´evontensemblepour les donn ´ees duWeb:

• Les donn ´ees d’une source peuvent provenir d’autres sources

• Il faut ´etudier la fiabilit ´e desr´esultats du raisonnement

• Les r `egles d’int ´egration elles-mˆemes ne sont pasfiables Objectif :Int´egrerdes donn ´ees etraisonnersur ces donn ´ees en conservant des informations pour estimer leurfiabilit´e

provenance

(58)

Exploiter la provenance des donn ´ees

Wikidata : Plus de40Mfaits ont une source (pr `es de 50%)

OpenStreetMaps : >40Mpoints et>120Mvoies avec source (>35%)

Autres indices : Historiquedes faits,utilisateursqui ont ´edit ´e

(59)

Exploiter la provenance des donn ´ees

Wikidata : Plus de40Mfaits ont une source (pr `es de 50%)

OpenStreetMaps : >40Mpoints et>120Mvoies avec source (>35%)

Autres indices : Historiquedes faits,utilisateursqui ont ´edit ´e

(60)

Exploiter la provenance des donn ´ees

Wikidata : Plus de40Mfaits ont une source (pr `es de 50%)

OpenStreetMaps : >40Mpoints et>120Mvoies avec source (>35%)

(61)

Propager la provenance des donn ´ees

→Comment d ´efinir laprovenanced’une r ´eponsecertaine?

Donn ´ees :

id jour type t1 9 cong ´es t2 10 r ´eunion t3 11 cong ´es

Requˆete logique : Y a-t-il des r ´eunions pendant mes cong ´es ?

R `egle logique : Je ne reviens pas pourun seul jour

Provenance : t1t2t3r`egle?

→G ´en ´eraliser lessemianneaux de provenanceau raisonnement ?

→Comment calculerefficacementcette provenance

et la repr ´esenter de fac¸onconcise, selon le langage de r `egles ?

(62)

Propager la provenance des donn ´ees

→Comment d ´efinir laprovenanced’une r ´eponsecertaine?

Donn ´ees :

id jour type t1 9 cong ´es t2 10 r ´eunion t3 11 cong ´es

Requˆete logique : Y a-t-il des r ´eunions pendant mes cong ´es ?

R `egle logique : Je ne reviens pas pourun seul jour

Provenance : t1t2t3r`egle?

→G ´en ´eraliser lessemianneaux de provenanceau raisonnement ?

→Comment calculerefficacementcette provenance

et la repr ´esenter de fac¸onconcise, selon le langage de r `egles ?

(63)

Propager la provenance des donn ´ees

→Comment d ´efinir laprovenanced’une r ´eponsecertaine?

Donn ´ees :

id jour type t1 9 cong ´es t2 10 r ´eunion t3 11 cong ´es

Requˆete logique : Y a-t-il des r ´eunions pendant mes cong ´es ?

R `egle logique : Je ne reviens pas pourun seul jour

Provenance : t1t2t3r`egle?

→G ´en ´eraliser lessemianneaux de provenanceau raisonnement ?

→Comment calculerefficacementcette provenance

concise, selon le langage de r `egles ?

(64)

Programme de recherche

Raisonner avec la provenance sur les donn ´ees du Web pour l’int ´egration et la fiabilit ´e

1. Fondations :Provenance symbolique pour le raisonnement

D´efinitionabstraite `a diff ´erents niveaux d’expressivit ´e

Calculetrepr´esentationefficace

2. Propager des relations defiabilit´e `a travers la provenance 3. Calculer des confiancesquantitativeset probabilistes

R´eviser

(65)

Int ´egration

(66)

Int ´egration

´EquipeLINKSdeCRIStAL, Lille

Th ´ematiques : Web des donn ´ees et int ´egration

Expertise : Automates (S. Tison), agr ´egation (J. Niehren), Collaboration : Avec P. Bourhis

´EquipeAutomates et applicationsde l’IRIF, Paris

Th ´ematiques : Informatique fondamentale (large champ), th ´eorie des bases de donn ´ees

Expertise : Donn ´ees incertaines (C. Sirangelo et A. Gheerbrant)

´EquipeGraphIKduLIRMM, Montpellier

(67)

R ´esum ´e

Projet : Raisonner avec la provenance sur les donn´ees du Web pour l’int ´egration et la fiabilit ´e

1. Fondations :Provenance symbolique pour le raisonnement

D´efinitionabstraite `a diff ´erents niveaux d’expressivit ´e

Calculetrepr´esentationefficace

2. Propager des relations defiabilit´e `a travers la provenance 3. Calculer des confiancesquantitativeset probabilistes

4. Long terme :R´eviserles jugements sur les sources primaires avec des retours utilisateurs, en remontant la provenance

(68)

Crowdsourcing

Fouille de donn ´ees :Trouver des motifsfr´equents Crowdsourcing :Poser des questions `a lafoule

→Questions `a la foule : quelsensembles d’objetssontfr´equents?

nil activity

icdt tour

icdt

tour parthenon piraeus

icdt piraeus icdt

parthenon

parthenon piraeus

• Utiliser unetaxonomiesur les objets

• Les ensembles forment untreillis distributif

• Compromisentre lecoˆutdes questions pos ´ees et lecoˆutde calculer quelles questions poser

(69)

Applicabilit ´e pratique

• Travail avec S. Maniu : les jeux de donn ´ees r ´eels peuvent ˆetrepartiellement d´ecompos´esen arbre

100%

80%

60%

40%

20%

0%

largeur 5 largeur 10 proportion d'arêtes

après décomposition partielle

D ´ecompositionpartielleen arbre dugraphe OSM de Paris

4.3 Mnœuds et5.4 Marˆetes

• Largeur totale521

• Stage de M. Monet : les m ´ethodes `a base d’automates peuvent ˆetreimplant´ees en pratique

(70)

R ´ef ´erences

Courcelle, Bruno (1990). “The Monadic Second-Order Logic of Graphs. I. Recognizable Sets of Finite Graphs”. In :Inf. Comput.

Références

Documents relatifs

In this demonstration paper, we illustrate how to extrapolate on the information extracted from multiple Web sources in order to infer the locations of certain moving objects at

[r]

Discovering new URLs Identifying duplicates Crawling architecture Crawling Complex Content Focused

Answering Keyword Queries Building inverted files Spelling correction Clustering. Indexing

Le droit d’usage d ´efini par la licence autorise un usage `a destination de tout public qui comprend : – le droit de reproduire tout ou partie du document sur support informatique

Le droit d’usage d ´efini par la licence autorise un usage `a destination de tout public qui comprend : – le droit de reproduire tout ou partie du document sur support informatique

Most social networking Web sites (and some other kinds of Web sites) provide APIs to effectively access their content.. Usually a RESTful API,

Compare pages obtained by probing with the error page (by clustering along the DOM tree structure of the pages), to distinguish error pages and result pages.. Confirm the annotation