• Aucun résultat trouvé

Raisonner avec la provenance sur les donn´ees du Web

N/A
N/A
Protected

Academic year: 2022

Partager "Raisonner avec la provenance sur les donn´ees du Web"

Copied!
72
0
0

Texte intégral

(1)

Raisonner avec la provenance sur les donn´ees du Web

Antoine Amarilli Concours Inria CR2 12 mai 2016

(2)

Parcours

2013–2016 : Th `ese `aT´el´ecom ParisTechavecPierre Senellart:

Tirer parti de la structure des donn ´ees incertaines

• Soutenue le14 mars 2016 2012-2013 : Pr´e-doc :

• 3 mois `aTel Avivavec Tova Milo

• 5 mois `aOxfordavec Michael Benedikt

2009–2013 : ´Ecole normale sup´erieurede Paris, masterMPRI

(3)

Publications

Bases de donn´ees :

• ICDT’14(pr ´edoc `a Tel Aviv)

PODS’16(th `ese) Logique et automates :

• ICALP’15(th `ese)

• LICS’15(th `ese) Intelligence artificielle :

• IJCAI’15(pr ´e-doc `a Oxford)

IJCAI’16(avec Oxford)

• 7autres publications internationales avec comit ´e de lecture

• 1brevet avec Google New York (stage de M1)

Antoine Amarilli 2

(4)

R´esum´e des travaux ant´erieurs

Interrogation de donn´ees relationnelles incertaines

(5)

Vue d’ensemble : Donn´ees relationnelles incertaines

´Evaluer unerequˆete logiquesur unebase de donn´ees relationnelle

Probl`eme :On ne dispose pas toujours des donn ´eesexactes:

• Donn ´ees cr ´e ´ees par des m ´ethodesfailliblesetnon-exhaustives

• Donn ´ees annot ´ees par des techniquesd’apprentissage

• Donn ´eesbruit´eesoup´erim´ees

→G ´erer les donn ´ees relationnellesavec leur incertitude Probl`eme :Tˆaches souventcomplexesvoireind´ecidables

1.donn ´eesincompl`etes •2.donn ´eesprobabilistes

Antoine Amarilli 3

(6)

Donn´ees incompl`etes Donn´ees :

jour type 9 cong ´es 10 r ´eunion

11 cong ´es 18 cong ´es 18 r ´eunion Requˆete logique : Quelles r ´eunions sont pendant mes cong ´es ?

R`egles logiques :

• Je ne reviens pas pourun seul jour

jour type 9 cong ´es 10 r ´eunion

11 cong ´es 18 cong ´es 18 r ´eunion

10 cong´es

R´esultat :

(7)

Donn´ees incompl`etes Donn´ees :

jour type 9 cong ´es 10 r ´eunion

11 cong ´es 18 cong ´es 18 r ´eunion Requˆete logique : Quelles r ´eunions sont pendant mes cong ´es ?

R`egles logiques :

• Je ne reviens pas pourun seul jour

jour type 9 cong ´es 10 r ´eunion

11 cong ´es 18 cong ´es 18 r ´eunion

10 cong´es

R´esultat :

Antoine Amarilli 4

(8)

Donn´ees incompl`etes Donn´ees :

jour type 9 cong ´es 10 r ´eunion

11 cong ´es 18 cong ´es 18 r ´eunion Requˆete logique : Quelles r ´eunions sont pendant mes cong ´es ?

R`egles logiques :

• Je ne reviens pas pourun seul jour

jour type 9 cong ´es 10 r ´eunion

11 cong ´es 18 cong ´es 18 r ´eunion

10 cong´es

R´esultat : jour

(9)

Donn´ees incompl`etes Donn´ees :

jour type 9 cong ´es 10 r ´eunion

11 cong ´es 18 cong ´es 18 r ´eunion Requˆete logique : Quelles r ´eunions sont pendant mes cong ´es ?

R`egles logiques :

• Je ne reviens pas pourun seul jour

jour type 9 cong ´es 10 r ´eunion

11 cong ´es 18 cong ´es 18 r ´eunion

10 cong´es

R´esultat : jour 18

10

Antoine Amarilli 4

(10)

Donn´ees incompl`etes Donn´ees :

jour type 9 cong ´es 10 r ´eunion

11 cong ´es 18 cong ´es 18 r ´eunion Requˆete logique : Quelles r ´eunions sont pendant mes cong ´es ?

jour type 9 cong ´es 10 r ´eunion

11 cong ´es 18 cong ´es 18 r ´eunion

10 cong´es

R´esultat : jour 18

10

(11)

Donn´ees incompl`etes Donn´ees :

jour type 9 cong ´es 10 r ´eunion

11 cong ´es 18 cong ´es 18 r ´eunion Requˆete logique : Quelles r ´eunions sont pendant mes cong ´es ?

R`egles logiques :

• Je ne reviens pas pourun seul jour

jour type 9 cong ´es 10 r ´eunion

11 cong ´es 18 cong ´es 18 r ´eunion

10 cong´es

R´esultat : jour 18

10

Antoine Amarilli 4

(12)

Donn´ees incompl`etes Donn´ees :

jour type 9 cong ´es 10 r ´eunion

11 cong ´es 18 cong ´es 18 r ´eunion Requˆete logique : Quelles r ´eunions sont pendant mes cong ´es ?

jour type 9 cong ´es 10 r ´eunion

11 cong ´es 18 cong ´es 18 r ´eunion 10 cong´es

R´esultat : jour 18

10

(13)

Donn´ees incompl`etes Donn´ees :

jour type 9 cong ´es 10 r ´eunion

11 cong ´es 18 cong ´es 18 r ´eunion Requˆete logique : Quelles r ´eunions sont pendant mes cong ´es ?

R`egles logiques :

• Je ne reviens pas pourun seul jour

jour type 9 cong ´es 10 r ´eunion

11 cong ´es 18 cong ´es 18 r ´eunion 10 cong´es

R´esultat : jour 18

10

Antoine Amarilli 4

(14)

Donn´ees incompl`etes Donn´ees :

jour type 9 cong ´es 10 r ´eunion

11 cong ´es 18 cong ´es 18 r ´eunion Requˆete logique : Quelles r ´eunions sont pendant mes cong ´es ?

jour type 9 cong ´es 10 r ´eunion

11 cong ´es 18 cong ´es 18 r ´eunion 10 cong´es

R´esultat : jour

(15)

R´esum´e : raisonner sur les donn´ees incompl`etes

→Probl `eme fondamental enintelligence artificielle : Quelles r ´eponses `a larequˆetede l’utilisateur

sont vraies dans toutes les compl ´etions desdonn´ees qui satisfont desr`egles logiques?

Approches existantes:Langages de r `egles d ´ecidables en IA :

• Uniquement sur desgraphes de donn´ees

• Ne consid `erent pas sp ´ecifiquement les compl ´etionsfinies

→J’ai transpos ´e ces r ´esultats auxbases de donn´ees :

• ´Etendre auxhypergraphes [Amarilli, Benedikt,IJCAI’15]

• Restreindre aux compl ´etionsfinies [Amarilli, Benedikt,LICS’15]

Antoine Amarilli 5

(16)

R´esum´e : raisonner sur les donn´ees incompl`etes

→Probl `eme fondamental enintelligence artificielle : Quelles r ´eponses `a larequˆetede l’utilisateur

sont vraies dans toutes les compl ´etions desdonn´ees qui satisfont desr`egles logiques?

Approches existantes:Langages de r `egles d ´ecidables en IA :

• Uniquement sur desgraphes de donn´ees

• Ne consid `erent pas sp ´ecifiquement les compl ´etionsfinies

→J’ai transpos ´e ces r ´esultats auxbases de donn´ees :

(17)

Donn´ees probabilistes

Donn´ees : jour type

9 cong ´es

95%

10 r ´eunion

20%

11 cong ´es

30%

18 cong ´es

80%

18 r ´eunion

90%

Requˆete logique : Quelles r ´eunions sont pendant mes cong ´es ?

90%×80%

=

72%

R´esultat : jour

18

72%

Antoine Amarilli 6

(18)

Donn´ees probabilistes

Donn´ees : jour type

9 cong ´es

95%

10 r ´eunion

20%

11 cong ´es

30%

18 cong ´es

80%

18 r ´eunion

90%

Requˆete logique : Quelles r ´eunions sont

90%×80%

=

72%

R´esultat : jour

18

72%

(19)

Donn´ees probabilistes

Donn´ees : jour type

9 cong ´es

95%

10 r ´eunion

20%

11 cong ´es

30%

18 cong ´es

80%

18 r ´eunion

90%

Requˆete logique : Quelles r ´eunions sont pendant mes cong ´es ?

90%×80%

=

72%

R´esultat : jour

18

72%

Antoine Amarilli 6

(20)

Donn´ees probabilistes

Donn´ees : jour type

9 cong ´es 95%

10 r ´eunion 20%

11 cong ´es 30%

18 cong ´es 80%

18 r ´eunion 90%

Requˆete logique : Quelles r ´eunions sont

90%×80%

=

72%

R´esultat : jour

72%

(21)

Donn´ees probabilistes

Donn´ees : jour type

9 cong ´es 95%

10 r ´eunion 20%

11 cong ´es 30%

18 cong ´es 80%

18 r ´eunion 90%

Requˆete logique : Quelles r ´eunions sont pendant mes cong ´es ?

90%×80%

=

72%

R´esultat : jour

18

72%

Antoine Amarilli 6

(22)

Donn´ees probabilistes

Donn´ees : jour type

9 cong ´es 95%

10 r ´eunion 20%

11 cong ´es 30%

18 cong ´es 80%

18 r ´eunion 90%

Requˆete logique : Quelles r ´eunions sont

90%×80%

=72%

R´esultat : jour

72%

(23)

Donn´ees probabilistes

Donn´ees : jour type

9 cong ´es 95%

10 r ´eunion 20%

11 cong ´es 30%

18 cong ´es 80%

18 r ´eunion 90%

Requˆete logique : Quelles r ´eunions sont pendant mes cong ´es ?

90%×80%

=72%

R´esultat : jour

18 72%

Antoine Amarilli 6

(24)

Donn´ees probabilistes : travaux existants

→Probl `eme d’ ´evaluation de requˆetes sur donn ´eesprobabilistes : Quelle est laprobabilit´e totalede chaque r ´eponse

quand les faits sont pr ´esents ou absentsind´ependamment avec laprobabilit´eindiqu ´ee ?

Approche existante(intensionnelle) :

dtt' Calendrier(t, d, "congés")

Calendrier(t', d, "réunion") Requête conjonctive

Y a-t-il une réunion pendant mes congés ?

(25)

Donn´ees probabilistes : travaux existants

→Probl `eme d’ ´evaluation de requˆetes sur donn ´eesprobabilistes : Quelle est laprobabilit´e totalede chaque r ´eponse

quand les faits sont pr ´esents ou absentsind´ependamment avec laprobabilit´eindiqu ´ee ?

Approche existante(intensionnelle) :

dtt' Calendrier(t, d, "congés")

Calendrier(t', d, "réunion") Requête conjonctive

Y a-t-il une réunion pendant mes congés ?

Antoine Amarilli 7

Calendrier id jour type t1 9 cong ´es

95%

t2 10 r ´eunion

20%

t3 11 cong ´es

30%

t4 18 cong ´es

80%

t5 18 r ´eunion

90%

(26)

Donn´ees probabilistes : travaux existants

→Probl `eme d’ ´evaluation de requˆetes sur donn ´eesprobabilistes : Quelle est laprobabilit´e totalede chaque r ´eponse

quand les faits sont pr ´esents ou absentsind´ependamment avec laprobabilit´eindiqu ´ee ?

Approche existante(intensionnelle) :

Formule de provenance

t ∧ t

PTIME Calendrier

id jour type t1 9 cong ´es

95%

t2 10 r ´eunion

20%

t3 11 cong ´es

30%

t4 18 cong ´es

80%

t5 18 r ´eunion

90%

(27)

Donn´ees probabilistes : travaux existants

→Probl `eme d’ ´evaluation de requˆetes sur donn ´eesprobabilistes : Quelle est laprobabilit´e totalede chaque r ´eponse

quand les faits sont pr ´esents ou absentsind´ependamment avec laprobabilit´eindiqu ´ee ?

Approche existante(intensionnelle) :

dtt' Calendrier(t, d, "congés")

Calendrier(t', d, "réunion") Requête conjonctive

Formule de provenance Y a-t-il une réunion pendant mes congés ?

t4 ∧ t5

PTIME

Antoine Amarilli 7

Calendrier id jour type

t1 9 cong ´es 95%

t2 10 r ´eunion 20%

t3 11 cong ´es 30%

t4 18 cong ´es 80%

t5 18 r ´eunion 90%

(28)

Donn´ees probabilistes : travaux existants

→Probl `eme d’ ´evaluation de requˆetes sur donn ´eesprobabilistes : Quelle est laprobabilit´e totalede chaque r ´eponse

quand les faits sont pr ´esents ou absentsind´ependamment avec laprobabilit´eindiqu ´ee ?

Approche existante(intensionnelle) :

Formule de provenance

Probabilité72%

t ∧ t

PTIME #P-difficile

en général Calendrier

id jour type

t1 9 cong ´es 95%

t2 10 r ´eunion 20%

t3 11 cong ´es 30%

t4 18 cong ´es 80%

t5 18 r ´eunion 90%

(29)

Donn´ees probabilistes : r´esultat de dichotomie

→J’ai montr ´e comment exploiter lastructure des donn´ees : Th´eor`eme [Amarilli, Bourhis, Senellart,ICALP’15]

L’ ´evaluation de requˆetesMSOest faisable en tempslin´eaire sur des donn ´ees probabilistes delargeur d’arbre born´ee

→En un sens, ce r ´esultat ne peut pas ˆetream´elior´e(dichotomie) : Th´eor`eme [Amarilli, Bourhis, Senellart,PODS’16]

L’ ´evaluation probabiliste de certaines requˆetesFOest#P-difficile (sous conditions) surn’importe quellefamille de graphes

delargeur d’arbre non born´ee

Antoine Amarilli 8

(30)

Donn´ees probabilistes : preuve de la borne sup´erieure Gen ´eraliser les r ´esultats de[Courcelle, 1990] `a laprovenance

Requête MSO Y a-t-il une réunion Données de largeur bornée

Calendrier id jour type t1 9 cong ´es

95%

t2 10 r ´eunion

20%

t3 11 cong ´es

30%

t4 18 cong ´es

80%

t5 18 r ´eunion

90%

(31)

Donn´ees probabilistes : preuve de la borne sup´erieure Gen ´eraliser les r ´esultats de[Courcelle, 1990] `a laprovenance

Automate d'arbres

∃dtt' Calendrier(t, d, "congés")

Calendrier(t', d, "réunion") Requête MSO Y a-t-il une réunion pendant mes congés ? Données de largeur bornée

Antoine Amarilli 9

Calendrier id jour type t1 9 cong ´es

95%

t2 10 r ´eunion

20%

t3 11 cong ´es

30%

t4 18 cong ´es

80%

t5 18 r ´eunion

90%

(32)

Donn´ees probabilistes : preuve de la borne sup´erieure Gen ´eraliser les r ´esultats de[Courcelle, 1990] `a laprovenance

Automate d'arbres Encodage en arbre

Requête MSO Y a-t-il une réunion Données de largeur bornée

Calendrier id jour type t1 9 cong ´es

95%

t2 10 r ´eunion

20%

t3 11 cong ´es

30%

t4 18 cong ´es

80%

t5 18 r ´eunion

90%

(33)

Donn´ees probabilistes : preuve de la borne sup´erieure Gen ´eraliser les r ´esultats de[Courcelle, 1990] `a laprovenance

Automate d'arbres Encodage en arbre

Réponse TRUE

∃dtt' Calendrier(t, d, "congés")

Calendrier(t', d, "réunion") Requête MSO Y a-t-il une réunion pendant mes congés ?

linéaire Données de largeur bornée

Antoine Amarilli 9

Calendrier id jour type t1 9 cong ´es

95%

t2 10 r ´eunion

20%

t3 11 cong ´es

30%

t4 18 cong ´es

80%

t5 18 r ´eunion

90%

(34)

Donn´ees probabilistes : preuve de la borne sup´erieure Gen ´eraliser les r ´esultats de[Courcelle, 1990] `a laprovenance

Automate d'arbres Encodage en arbre

Requête MSO Y a-t-il une réunion Données de largeur bornée

Calendrier id jour type t1 9 cong ´es

95%

t2 10 r ´eunion

20%

t3 11 cong ´es

30%

t4 18 cong ´es

80%

t5 18 r ´eunion

90%

(35)

Donn´ees probabilistes : preuve de la borne sup´erieure Gen ´eraliser les r ´esultats de[Courcelle, 1990] `a laprovenance

Automate d'arbres Encodage en arbre

∃dtt' Calendrier(t, d, "congés")

Calendrier(t', d, "réunion") Requête MSO Y a-t-il une réunion pendant mes congés ?

Circuit de provenance

t4 t5

linéaire Données de largeur bornée

Antoine Amarilli 9

Calendrier id jour type t1 9 cong ´es

95%

t2 10 r ´eunion

20%

t3 11 cong ´es

30%

t4 18 cong ´es

80%

t5 18 r ´eunion

90%

(36)

Donn´ees probabilistes : preuve de la borne sup´erieure Gen ´eraliser les r ´esultats de[Courcelle, 1990] `a laprovenance

Automate d'arbres Encodage en arbre

Requête MSO Y a-t-il une réunion

Circuit de provenance

t4 t5

linéaire Données de largeur bornée

Calendrier id jour type

t1 9 cong ´es 95%

t2 10 r ´eunion 20%

t3 11 cong ´es 30%

t4 18 cong ´es 80%

t5 18 r ´eunion 90%

(37)

Donn´ees probabilistes : preuve de la borne sup´erieure Gen ´eraliser les r ´esultats de[Courcelle, 1990] `a laprovenance

Automate d'arbres Encodage en arbre

∃dtt' Calendrier(t, d, "congés")

Calendrier(t', d, "réunion") Requête MSO Y a-t-il une réunion pendant mes congés ?

Circuit de provenance

Probabilité72%

t4 t5

linéaire Données de largeur bornée

linéaire

Antoine Amarilli 9

Calendrier id jour type

t1 9 cong ´es 95%

t2 10 r ´eunion 20%

t3 11 cong ´es 30%

t4 18 cong ´es 80%

t5 18 r ´eunion 90%

(38)

Projet de recherche

Raisonner avec la provenance sur les donn´ees du Web

(39)

Web des donn´ees

• Bases de connaissances :Wikidata, YAGO, etc.

• Donn ´ees ouvertes :data.gouv.fr, etc.

• Donn ´ees g ´eographiques :OpenStreetMaps, etc.

• Annotations s ´emantiques :Web Data Commons, etc. Objectif: combiner et utiliser ces donn ´ees :

• R ´epondre `a des requˆetes logiquescomplexes

• Calculer desvisualisationset desstatistiques

• Recouperdes informations ou trouver descontradictions

• Connecter sespropres donn´eesauxjeux de donn´ees existants Ces donn ´ees posent de nombreusesdifficult´es:

•h´et´erog`enes •distribu´ees •incompl`etes •peu fiables

Antoine Amarilli 10

(40)

Web des donn´ees

• Bases de connaissances :Wikidata, YAGO, etc.

• Donn ´ees ouvertes :data.gouv.fr, etc.

• Donn ´ees g ´eographiques :OpenStreetMaps, etc.

• Annotations s ´emantiques :Web Data Commons, etc. Objectif: combiner et utiliser ces donn ´ees :

• R ´epondre `a des requˆetes logiquescomplexes

• Calculer desvisualisationset desstatistiques

• Recouperdes informations ou trouver descontradictions

• Connecter sespropres donn´eesauxjeux de donn´ees existants Ces donn ´ees posent de nombreusesdifficult´es:

•h´et´erog`enes •distribu´ees •incompl`etes •peu fiables

(41)

Web des donn´ees

• Bases de connaissances :Wikidata, YAGO, etc.

• Donn ´ees ouvertes :data.gouv.fr, etc.

• Donn ´ees g ´eographiques :OpenStreetMaps, etc.

• Annotations s ´emantiques :Web Data Commons, etc. Objectif: combiner et utiliser ces donn ´ees :

• R ´epondre `a des requˆetes logiquescomplexes

• Calculer desvisualisationset desstatistiques

• Recouperdes informations ou trouver descontradictions

• Connecter sespropres donn´eesauxjeux de donn´ees existants Ces donn ´ees posent de nombreusesdifficult´es:

•h´et´erog`enes •distribu´ees •incompl`etes •peu fiables

Antoine Amarilli 10

Q1146208

Inria

1967

Q31855

institut de recherche nom franc¸ais

date de cr´eation nature

nom franc¸ais

(42)

Web des donn´ees

• Bases de connaissances :Wikidata, YAGO, etc.

• Donn ´ees ouvertes :data.gouv.fr, etc.

• Donn ´ees g ´eographiques :OpenStreetMaps, etc.

• Annotations s ´emantiques :Web Data Commons, etc. Objectif: combiner et utiliser ces donn ´ees :

• R ´epondre `a des requˆetes logiquescomplexes

• Calculer desvisualisationset desstatistiques

• Recouperdes informations ou trouver descontradictions

• Connecter sespropres donn´eesauxjeux de donn´ees existants Ces donn ´ees posent de nombreusesdifficult´es:

•h´et´erog`enes •distribu´ees •incompl`etes •peu fiables

(43)

Web des donn´ees

• Bases de connaissances :Wikidata, YAGO, etc.

• Donn ´ees ouvertes :data.gouv.fr, etc.

• Donn ´ees g ´eographiques :OpenStreetMaps, etc.

• Annotations s ´emantiques :Web Data Commons, etc. Objectif: combiner et utiliser ces donn ´ees :

• R ´epondre `a des requˆetes logiquescomplexes

• Calculer desvisualisationset desstatistiques

• Recouperdes informations ou trouver descontradictions

• Connecter sespropres donn´eesauxjeux de donn´ees existants Ces donn ´ees posent de nombreusesdifficult´es:

•h´et´erog`enes •distribu´ees •incompl`etes •peu fiables

Antoine Amarilli 10

(44)

Web des donn´ees

• Bases de connaissances :Wikidata, YAGO, etc.

• Donn ´ees ouvertes :data.gouv.fr, etc.

• Donn ´ees g ´eographiques :OpenStreetMaps, etc.

• Annotations s ´emantiques :Web Data Commons, etc. Objectif: combiner et utiliser ces donn ´ees :

• R ´epondre `a des requˆetes logiquescomplexes

• Calculer desvisualisationset desstatistiques

• Recouperdes informations ou trouver descontradictions

• Connecter sespropres donn´eesauxjeux de donn´ees existants Ces donn ´ees posent de nombreusesdifficult´es:

•h´et´erog`enes •distribu´ees •incompl`etes •peu fiables

(45)

Web des donn´ees

• Bases de connaissances :Wikidata, YAGO, etc.

• Donn ´ees ouvertes :data.gouv.fr, etc.

• Donn ´ees g ´eographiques :OpenStreetMaps, etc.

• Annotations s ´emantiques :Web Data Commons, etc. Objectif: combiner et utiliser ces donn ´ees :

• R ´epondre `a des requˆetes logiquescomplexes

• Calculer desvisualisationset desstatistiques

• Recouperdes informations ou trouver descontradictions

• Connecter sespropres donn´eesauxjeux de donn´ees existants Ces donn ´ees posent de nombreusesdifficult´es:

•h´et´erog`enes •distribu´ees •incompl`etes •peu fiables

Antoine Amarilli 10

(46)

Web des donn´ees

• Bases de connaissances :Wikidata, YAGO, etc.

• Donn ´ees ouvertes :data.gouv.fr, etc.

• Donn ´ees g ´eographiques :OpenStreetMaps, etc.

• Annotations s ´emantiques :Web Data Commons, etc.

Objectif: combiner et utiliser ces donn ´ees :

• R ´epondre `a des requˆetes logiquescomplexes

• Calculer desvisualisationset desstatistiques

• Recouperdes informations ou trouver descontradictions

• Connecter sespropres donn´eesauxjeux de donn´ees existants Ces donn ´ees posent de nombreusesdifficult´es:

•h´et´erog`enes •distribu´ees •incompl`etes •peu fiables

(47)

Web des donn´ees

• Bases de connaissances :Wikidata, YAGO, etc.

• Donn ´ees ouvertes :data.gouv.fr, etc.

• Donn ´ees g ´eographiques :OpenStreetMaps, etc.

• Annotations s ´emantiques :Web Data Commons, etc.

Objectif: combiner et utiliser ces donn ´ees :

• R ´epondre `a des requˆetes logiquescomplexes

• Calculer desvisualisationset desstatistiques

• Recouperdes informations ou trouver descontradictions

• Connecter sespropres donn´eesauxjeux de donn´ees existants

Ces donn ´ees posent de nombreusesdifficult´es:

•h´et´erog`enes •distribu´ees •incompl`etes •peu fiables

Antoine Amarilli 10

(48)

Web des donn´ees

• Bases de connaissances :Wikidata, YAGO, etc.

• Donn ´ees ouvertes :data.gouv.fr, etc.

• Donn ´ees g ´eographiques :OpenStreetMaps, etc.

• Annotations s ´emantiques :Web Data Commons, etc.

Objectif: combiner et utiliser ces donn ´ees :

• R ´epondre `a des requˆetes logiquescomplexes

• Calculer desvisualisationset desstatistiques

• Recouperdes informations ou trouver descontradictions

• Connecter sespropres donn´eesauxjeux de donn´ees existants

(49)

Probl`eme 1 : Int´egration

Donn ´eesincompl`eteseth´et´erog`enesissues de sourcesmultiples

• Raisonnement avec des r `egleslogiques

Int´egrerles diff ´erences sources

D´eduireles faits manquants Données

Intégration

Déduction

→Approches existantes :OBDA, data integration, data exchange...

Antoine Amarilli 11

(50)

Probl`eme 2 : Fiabilit´e

Donn ´ees produitescollaborativementou par des processusfaillibles

Vandalisme

•Controverses •Extraction

→Approches existantes :truth finding, data cleaning, data repair...

(51)

Probl`eme 2 : Fiabilit´e

Donn ´ees produitescollaborativementou par des processusfaillibles

Vandalisme

•Controverses •Extraction

→Approches existantes :truth finding, data cleaning, data repair...

Antoine Amarilli 12

DansWikidata

(52)

Probl`eme 2 : Fiabilit´e

Donn ´ees produitescollaborativementou par des processusfaillibles

Vandalisme

•Controverses •Extraction

→Approches existantes :truth finding, data cleaning, data repair...

DansWikidata

(53)

Probl`eme 2 : Fiabilit´e

Donn ´ees produitescollaborativementou par des processusfaillibles

•Vandalisme •Controverses

•Extraction

→Approches existantes :truth finding, data cleaning, data repair...

Antoine Amarilli 12

DansWikidata

(54)

Probl`eme 2 : Fiabilit´e

Donn ´ees produitescollaborativementou par des processusfaillibles

•Vandalisme •Controverses •Extraction

→Approches existantes :truth finding, data cleaning, data repair...

DansYAGO

(55)

Probl`eme 2 : Fiabilit´e

Donn ´ees produitescollaborativementou par des processusfaillibles

•Vandalisme •Controverses •Extraction

→Approches existantes :truth finding, data cleaning, data repair...

Antoine Amarilli 12

DansYAGO

<Macquarie><hasRevenue>

"8100000000"^^<dollar>

extraction automatique

(56)

Probl`eme 2 : Fiabilit´e

Donn ´ees produitescollaborativementou par des processusfaillibles

•Vandalisme •Controverses •Extraction DansYAGO

extraction automatique

(57)

Objectif

Objectif :Int´egrerles donn ´ees du Web etraisonnersur ces donn ´ees en estimant leurfiabilit´egrˆace `a des annotations deprovenance Leraisonnementet lafiabilit´evont de pair :

• Les donn ´ees d’une source peuvent provenir d’autres sources

• Les r `egles d’int ´egration elles-mˆemes ne sont pasfiables

• Il faut ´etudier la fiabilit ´e desr´esultats du raisonnement

1. Prendre en compte laprovenance initialedes faits 2. Propager laprovenanceau cours du raisonnement

Antoine Amarilli 13

(58)

Objectif

Objectif :Int´egrerles donn ´ees du Web etraisonnersur ces donn ´ees en estimant leurfiabilit´egrˆace `a des annotations deprovenance Leraisonnementet lafiabilit´evont de pair :

• Les donn ´ees d’une source peuvent provenir d’autres sources

• Les r `egles d’int ´egration elles-mˆemes ne sont pasfiables

• Il faut ´etudier la fiabilit ´e desr´esultats du raisonnement

1. Prendre en compte laprovenance initialedes faits

(59)

Provenance existante des donn´ees

Wikidata : Plus de40Mfaits ont une source (pr `es de 50%)

OpenStreetMaps : >40Mpoints et>120Mvoies avec source (>35%)

Autres indices : Historiquedes faits,utilisateursqui ont ´edit ´e

Antoine Amarilli 14

(60)

Provenance existante des donn´ees

Wikidata : Plus de40Mfaits ont une source (pr `es de 50%)

OpenStreetMaps : >40Mpoints et>120Mvoies avec source (>35%)

Autres indices : Historiquedes faits,utilisateursqui ont ´edit ´e

(61)

Provenance existante des donn´ees

Wikidata : Plus de40Mfaits ont une source (pr `es de 50%)

OpenStreetMaps : >40Mpoints et>120Mvoies avec source (>35%)

Autres indices : Historiquedes faits,utilisateursqui ont ´edit ´e

Antoine Amarilli 14

(62)

Propager la provenance au cours du raisonnement

→Comment d ´efinir laprovenanced’une r ´eponsecertaine?

Donn´ees :

id jour type t1 9 cong ´es t2 10 r ´eunion t3 11 cong ´es

Requˆete logique : Y a-t-il des r ´eunions pendant mes cong ´es ?

R`egle logique : Je ne reviens pas pourun seul jour

Provenance : t1t2t3r`egle?

→G ´en ´eraliser lessemianneaux de provenance[Green et al., 2007] des bases de donn ´ees au raisonnement ?

→Comment calculerefficacementcette provenance

et la repr ´esenter de fac¸onconcise, selon le langage de r `egles ?

(63)

Propager la provenance au cours du raisonnement

→Comment d ´efinir laprovenanced’une r ´eponsecertaine?

Donn´ees :

id jour type t1 9 cong ´es t2 10 r ´eunion t3 11 cong ´es

Requˆete logique : Y a-t-il des r ´eunions pendant mes cong ´es ?

R`egle logique : Je ne reviens pas pourun seul jour

Provenance : t1t2t3r`egle?

→G ´en ´eraliser lessemianneaux de provenance[Green et al., 2007]

des bases de donn ´ees au raisonnement ?

→Comment calculerefficacementcette provenance

et la repr ´esenter de fac¸onconcise, selon le langage de r `egles ?

Antoine Amarilli 15

(64)

Propager la provenance au cours du raisonnement

→Comment d ´efinir laprovenanced’une r ´eponsecertaine?

Donn´ees :

id jour type t1 9 cong ´es t2 10 r ´eunion t3 11 cong ´es

Requˆete logique : Y a-t-il des r ´eunions pendant mes cong ´es ?

R`egle logique : Je ne reviens pas pourun seul jour

Provenance : t1t2t3r`egle?

→G ´en ´eraliser lessemianneaux de provenance[Green et al., 2007]

des bases de donn ´ees au raisonnement ?

→Comment calculerefficacementcette provenance

(65)

Programme de recherche

Raisonner avec la provenance sur les donn ´ees du Web pour l’int ´egration et la fiabilit ´e

1. Provenance symbolique pour le raisonnement

D´efinitionabstraite `a diff ´erents niveaux d’expressivit ´e

Calculetrepr´esentationefficace

2. Propager des relations defiabilit´e `a travers la provenance 3. Calculer des confiancesquantitativeset probabilistes 4. R´eviserles jugements sur les sources primaires

avec des retours utilisateurs, en remontant la provenance

Antoine Amarilli 16

(66)

Application : Compl´eter et v´erifier Wikidata

Ajouter `a Wikidata des faits issus d’autres sourceset lesv´erifier:

R `egles logiquesd´eclaratives: extraction, int ´egration, conflits

→Calculer laprovenanceet estimer lafiabilit´eavec :

• Sources originales(Wikip ´edia, etc.)

(67)

Int´egration

´Equipe DAHU : V´erification en bases de donn´ees

(68)

´Equipe DAHU

Gestion de connaissances distribu´ees : LangageWebdamLog:

• Contrˆole d’acc`esfond ´e sur la provenance

• Gestion decontradictionsetexplicationde r ´eponses Donn´ees du Web : Fondements des bases de donn ´eesgraphe:

• ´Etude de probl `eme de lad´eterminaison de vues

⇒ Ces probl `emes peuvent ˆetrecaptur´esavec la provenance

´etendus, notamment pour g ´erer laconfiance

(69)

R´esum´e

Projet : Raisonner avec la provenance sur les donn´ees du Web pour l’int ´egration et la fiabilit ´e

1. Provenance symbolique pour le raisonnement

D´efinitionabstraite `a diff ´erents niveaux d’expressivit ´e

Calculetrepr´esentationefficace

2. Propager des relations defiabilit´e `a travers la provenance 3. Calculer des confiancesquantitativeset probabilistes 4. R´eviserles jugements sur les sources primaires

avec des retours utilisateurs, en remontant la provenance Th`ese : Tirer parti de la structure des donn ´ees incertaines

[ICALP’15],[LICS’15],[PODS’16]; apr `es-th `ese[IJCAI’16]

Pr´e-doc : `ATel Aviv [ICDT’14]et `aOxford [IJCAI’15]

Antoine Amarilli 19

(70)

Crowdsourcing

Fouille de donn´ees :Trouver des motifsfr´equents Crowdsourcing :Poser des questions `a lafoule

→Questions `a la foule : quelsensembles d’objetssontfr´equents?

nil activity

icdt tour

icdt

tour parthenon piraeus

icdt piraeus icdt

parthenon

parthenon piraeus

• Utiliser unetaxonomiesur les objets

• Les ensembles forment untreillis distributif

• Compromisentre lecoˆutdes questions pos ´ees et lecoˆutde calculer quelles questions poser

(71)

Applicabilit´e pratique de la largeur d’arbre

• Travail avec S. Maniu : les jeux de donn ´ees r ´eels peuvent ˆetrepartiellement d´ecompos´esen arbre

100%

80%

60%

40%

20%

0%

largeur 5 largeur 10 proportion d'arêtes

après décomposition partielle

D ´ecompositionpartielleen arbre dugraphe OSM de Paris

4.3 Mnœuds et5.4 Marˆetes

• Largeur totale521

• Stage de M. Monet : les m ´ethodes `a base d’automates peuvent ˆetreimplant´ees en pratique

• Travail avec M. Monet : compilation efficace en automates pour deslangages restreintsde requˆetes

(72)

R´ef´erences

Courcelle, Bruno (1990). “The Monadic Second-Order Logic of Graphs. I. Recognizable Sets of Finite Graphs”. In :Inf. Comput.

Green, Todd J., Grigoris Karvounarakis, Val Tannen (2007).

“Provenance Semirings”. In :Proc. PODS.

Références

Documents relatifs

In this demonstration paper, we illustrate how to extrapolate on the information extracted from multiple Web sources in order to infer the locations of certain moving objects at

[r]

Discovering new URLs Identifying duplicates Crawling architecture Crawling Complex Content Focused

Answering Keyword Queries Building inverted files Spelling correction Clustering. Indexing

Le droit d’usage d ´efini par la licence autorise un usage `a destination de tout public qui comprend : – le droit de reproduire tout ou partie du document sur support informatique

Le droit d’usage d ´efini par la licence autorise un usage `a destination de tout public qui comprend : – le droit de reproduire tout ou partie du document sur support informatique

Most social networking Web sites (and some other kinds of Web sites) provide APIs to effectively access their content.. Usually a RESTful API,

Compare pages obtained by probing with the error page (by clustering along the DOM tree structure of the pages), to distinguish error pages and result pages.. Confirm the annotation