• Aucun résultat trouvé

Tirer parti de la structure des données incertaines

N/A
N/A
Protected

Academic year: 2022

Partager "Tirer parti de la structure des données incertaines"

Copied!
43
0
0

Texte intégral

(1)

Tirer parti de la structure des données incertaines

Antoine Amarilli 21 avril 2017

(2)

Les quatre ‘V’ des données massives

Volume : données très grandes

Variété : données dans des formats différents Vélocité : données modifiées à grande vitesse Véracité : données incertaines, imprécises, erronées

(3)

Les quatre ‘V’ des données massives

Volume : données très grandes

Variété : données dans des formats différents Vélocité : données modifiées à grande vitesse

Véracité : données incertaines, imprécises, erronées ⇐

(4)
(5)

Exemple : calcul de trajets en métro

(6)

Requête

utilisateur

(7)

Exemple : calcul de trajets en métro

13 6

23 14

(8)

13 6

23 14

Requête

utilisateur Base de

données

(9)

Exemple : calcul de trajets en métro

13 6

23 14

(10)

13 6

23 14

Requête

utilisateur Base de

données Résultat

(11)

Exemple : calcul de trajets en métro

13 6

23 14

(12)
(13)

Exemple : calcul de trajets en métro

(14)
(15)

Exemple : calcul de trajets en métro

(16)
(17)

Exemple : calcul de trajets en métro

(18)

13 6

23 14

(19)

Exemple : calcul de trajets en métro

23 95% 14

5% 60

98%

2% 60

(20)

13 6

5% 60

2% 60

Requête

utilisateur Base de

données

probabiliste

(21)

Exemple : calcul de trajets en métro

13 6

23 95%14

5% 60

98%

2% 60

98% de chances d’être à l’heure

(22)

Problème : difficultés de calcul

Plus court chemin sur un grand graphe :

Algorithmes existants, problème bien étudié

(23)

Problème : difficultés de calcul

50%

90%

42%

37%

90%

83%

78%

72%

Théorie: on ne peut pas espérer fairemieuxen général !

(24)

Problème : difficultés de calcul

50%

90%

42%

37%

90%

83%

78%

72%

Plus court chemin sur un grand grapheprobabiliste:

Énumérer toutes les possibilités :exponentiel

(25)

Problème : difficultés de calcul

50%

90%

42%

37%

90%

83%

78%

72%

(26)

Idée : utiliser la structure des données

(27)

Idée : utiliser la structure des données

→ Plus court chemin :très facilesur ungrand arbre

(28)

Idée : utiliser la structure des données

(29)

Idée : utiliser la structure des données

→ Plus court chemin :très facilesur ungrand arbre

(30)

Idée : utiliser la structure des données

(31)

Idée : utiliser la structure des données

→ Plus court chemin :très facilesur ungrand arbre

(32)

Plus court chemin :très facilesur ungrand arbre

(33)

Résultats de ma thèse

→ Théorème :évaluer desrequêtes expressives est facile sur de grands arbresprobabilistes

→ S’étend auxquasi-arbres(en un sens formel)

→ Borne inférieure :on ne peut pas faire mieux (#P-difficile sans borne sur la largeur d’arbre) Caractériseles conditions sur la structure des données probabilistes qui permettent de les interrogerefficacement

(avec P. Bourhis, P. Senellart — ICALP’15, PODS’16)

(34)

Résultats de ma thèse

→ Théorème :évaluer desrequêtes expressives est facile sur de grands arbresprobabilistes

→ S’étend auxquasi-arbres(en un sens formel)

qui permettent de les interrogerefficacement (avec P. Bourhis, P. Senellart — ICALP’15, PODS’16)

(35)

Résultats de ma thèse

→ Théorème :évaluer desrequêtes expressives est facile sur de grands arbresprobabilistes

→ S’étend auxquasi-arbres(en un sens formel)

→ Borne inférieure :on ne peut pas faire mieux (#P-difficile sans borne sur la largeur d’arbre)

Caractériseles conditions sur la structure des données probabilistes qui permettent de les interrogerefficacement

(avec P. Bourhis, P. Senellart — ICALP’15, PODS’16)

(36)

→ Théorème :évaluer desrequêtes expressives est facile sur de grands arbresprobabilistes

→ S’étend auxquasi-arbres(en un sens formel)

→ Borne inférieure :on ne peut pas faire mieux (#P-difficile sans borne sur la largeur d’arbre) Caractériseles conditions sur la structure des données probabilistes qui permettent de les interrogerefficacement

(avec P. Bourhis, P. Senellart — ICALP’15, PODS’16)

(37)

Perspectives

→ Autres applications :

Explicationde résultats de requêtes par laprovenance

Énumérationefficace de résultats de requêtes (ICALP’17)

Étude plusfinede la complexité (ICDT’17, PODS’17)

→ Autres aspects de l’incertitude étudiés :

Sur leraisonnement sur données incomplètes (avec M. Benedikt, Oxford — IJCAI’15, LICS’15, IJCAI’16)

Sur l’incertitude numériquesur les données de la foule (avec Y. Amsterdamer, T. Milo, Tel Aviv — ICDT’14, ICDT’17)

Merci pour votre attention!

(38)

Perspectives

→ Autres applications :

Explicationde résultats de requêtes par laprovenance

Énumérationefficace de résultats de requêtes (ICALP’17)

Étude plusfinede la complexité (ICDT’17, PODS’17)

→ Autres aspects de l’incertitude étudiés :

Sur leraisonnement sur données incomplètes (avec M. Benedikt, Oxford — IJCAI’15, LICS’15, IJCAI’16)

Sur l’incertitude numériquesur les données de la foule (avec Y. Amsterdamer, T. Milo, Tel Aviv — ICDT’14, ICDT’17)

(39)

Perspectives

→ Autres applications :

Explicationde résultats de requêtes par laprovenance

Énumérationefficace de résultats de requêtes (ICALP’17)

Étude plusfinede la complexité (ICDT’17, PODS’17)

→ Autres aspects de l’incertitude étudiés :

Sur leraisonnement sur données incomplètes (avec M. Benedikt, Oxford — IJCAI’15, LICS’15, IJCAI’16)

Sur l’incertitude numériquesur les données de la foule

(40)

On the Complexity of Mining Itemsets from the Crowd Using Taxonomies.

InICDT.

Amarilli, A., Amsterdamer, Y., Milo, T., and Senellart, P. (2017a).

Top-k Queries on Unknown Values under Order Constraints.

InICDT.

Amarilli, A. and Benedikt, M. (2015a).

Combining Existential Rules and Description Logics.

InIJCAI.

Amarilli, A. and Benedikt, M. (2015b).

Finite Open-World Query Answering with Number Restrictions.

InLICS.

(41)

Références II

Amarilli, A., Benedikt, M., Bourhis, P., and Boom, M. V. (2016a).

Query Answering with Transitive and Linear-Ordered Data.

InIJCAI.

Amarilli, A., Bourhis, P., Jachiet, L., and Mengel, S. (2017b).

A Circuit-Based Approach to Efficient Enumeration.

InICALP.

Amarilli, A., Bourhis, P., Monet, M., and Senellart, P. (2017c).

Combined Tractability of Query Evaluation via Tree Automata and Cycluits.

InICDT.

(42)

Amarilli, A., Bourhis, P., and Senellart, P. (2016b).

Tractable Lineages on Treelike Instances: Limits and Extensions.

InPODS.

Amarilli, A., Monet, M., and Senellart, P. (2017d).

Conjunctive Queries on Probabilistic Graphs: Combined Complexity.

InPODS.

(43)

Crédits photographiques

Transparent 3 :

• plan du métro :https://commons.wikimedia.org/wiki/File:Paris_Metro_map.svg(édité), utilisateur Umx sur Wikimedia Commons, domaine public

• captures d’écran dehttp://lab.vianavigo.com, Stif, reproduites en vertu du droit de citation

• icônes tirées dehttps://openclipart.org/download/163711/database-server.svget http://4vector.com/free- vector/female-user- icon-clip- art-117435

• articles de journaux reproduits en vertu du droit de citation :

http://www.leparisien.fr/transports/

circulation- alternee-a-paris-et-en- banlieue-une- panne-de-rer- et-des- bouchons-06-12- 2016-6419610.php

http:

//www.rtl.fr/actu/societe- faits-divers/paris- le-trafic- totalement-interrompu- gare-du- nord-7786171150

https://www.rerb- leblog.fr/incident-rer- b-sest- passe-matin/

http:

//www.huffingtonpost.fr/2016/12/06/le-rer-b- en-panne- les-voyageurs- nont-pas-eu- dautres-choix- que/

http://www.lexpress.fr/actualite/societe/trafic/

rer-b- en-panne- retards-du-d-circulation-alternee-deuxieme-journee-de-galere_1857905.html

http://www.lemonde.fr/entreprises/article/2016/12/07/

ile-de- france-le- trafic-toujours- interrompu-sur- le-rer-b- en-direction- de-roissy_5044717_1656994.

Transparent 5 :html https://commons.wikimedia.org/wiki/File:Carte_TGV.svg?uselang=fr(édité), utilisateurs Jack ma,

Références

Documents relatifs

Théorème fondamental : toute suite croissante majorée converge vers une limite nie, toute suite croissante non majorée tend vers +∞.. Application à l'étude d'une suite dénie

Listes chaînées: principales opérations Listes chaînées: principales opérations Longueur d'une liste: (récursive). Longueur d'une liste:

 On peut parler des liens de type plusieurs à plusieurs (non défini, ou ( ∞,∞)) cela donne naissance à une troisième table nommée ASSOCIATION contenant les clés des

Ne pas faire comme si cette imprécision n’existait pas, et la gérer de façon aussi rigoureuse que possible, tout au long d’un processus (automatique et humain) qui peut

Toutes les informations sur le tri sont stockées dans des bases de données, certaines tables sont sauvegardées dans les ordinateurs du système d’information non représentés dans

Une nouvelle borne inférieure pour le calcul des niveaux d’énergie

Or la sphère elle-même est la seule variété de courbure sectionnelle constante égale à 1 et de rayon d'injectivité égal au moins à TT , car pour tout quotient fini de cette

Notons que cette technique ne peut pas falsifier la vivacité d'un algorithme global si l'on suppose que, comme tout message de base, un marqueur émis est reçu au bout d'un temps