Lignages efﬁcaces sur les instances quasi-arborescentes : Limites et extensions

(1)

Lignages efficaces sur les instances

quasi-arborescentes : Limites et extensions

Antoine Amarilli¹, Pierre Bourhis², Pierre Senellart¹^,³^,⁴ 17 novembre 2016

1Télécom ParisTech

2CNRS CRIStAL

3National University of Singapore

4École normale supérieure de Paris _1/12

(2)

Comment aller de Porte d’Orléans à Gare du Nord ?

(3)

2/12

(4)

(5)

2/12

(6)

(7)

(Metro|RER)|(Bus|Tram)

2/12

(8)

(9)

50%

(Metro|RER)|(Bus|Tram)

2/12

(10)

50%

(11)

50%

90%

(Metro|RER)|(Bus|Tram)

2/12

(12)

50%

42%

37%

78% 90%

72%

(13)

(Metro|RER)|(Bus|Tram)

50%

90%

42%

37%

90%

83%

78%

72%

Quelle est la probabilité que j'aie mon train ?

2/12

(14)

Définition du problème

Entrée :

? RequêteQ (Metro|RER)*|(Bus|Tram)*

Base de donnéesD(ou graphe)

% Probabilitéssur les faits (ou arêtes) ^50%

Sortie : Laprobabilitéque la requête soit vraie sous cette

distribution (en supposant l’indépendance de tous les événements) Complexité :déjà#P-difficileen les données d’entrée !

(réduction depuis #MONOTONE-SAT)

(15)

Entrée :

distribution (en supposant l’indépendance de tous les événements)

Complexité :déjà#P-difficileen les données d’entrée ! (réduction depuis #MONOTONE-SAT)

3/12

(16)

Entrée :

(réduction depuis #MONOTONE-SAT)

(17)

Entrée :

distribution (en supposant l’indépendance de tous les événements)

Complexité :déjà#P-difficileen les données d’entrée ! (réduction depuis #MONOTONE-SAT)

3/12

(18)

Entrée :

(19)

Rendre le problème faisable avec la largeur d’arbre

Exemple pour la largeur d’arbre :

• Lesarbres ont une largeur de1

• Lescyclesont une largeur de2

• Lesk-cliqueset(k−1)-grillesont une largeur dek−1

→ Quasi-arborescent: lalargeurest bornée par uneconstante

4/12

(20)

(21)

4/12

(22)

(23)

4/12

(24)

(25)

4/12

(26)

(27)

4/12

(28)

(29)

4/12

(30)

(31)

4/12

(32)

(33)

4/12

(34)

(35)

4/12

(36)

• Lesarbresont une largeur de1

(37)

• Lesarbresont une largeur de1

4/12

(38)

Faisabilité sur les instances quasi-arborescentes

(RER|metro)*

|(bus|tram)*

Requête MSO Données de largeur bornée

Théorème

Pour toute requête MSO booléennefixéeqetk∈N, pour une base de données d’entréeDdelargeur≤k avec des annotations probabilistesindépendantes,

on peut calculer entemps linéairela probabilité queDsatisfasseq

(39)

Automate d'arbres (RER|metro)*

|(bus|tram)*

Théorème

5/12

(40)

Automate d'arbres Encodage en arbre

(RER|metro)*

|(bus|tram)*

Théorème

(41)

(RER|metro)*

|(bus|tram)*

Requête MSO Données de

largeur bornée linéaire

[Courcelle] Réponse à la requête

VRAI

Théorème

5/12

(42)

(RER|metro)*

|(bus|tram)*

Théorème

(43)

(RER|metro)*

|(bus|tram)*

Requête MSO

Circuit de provenance

∧

linéaire Données de

largeur bornée

Théorème

5/12

(44)

(RER|metro)*

|(bus|tram)*

Requête MSO

∧

largeur bornée

Probabilité95%

linéaire

Théorème

(45)

(RER|metro)*

|(bus|tram)*

Requête MSO

∧

largeur bornée

Probabilité95%

linéaire

Théorème

5/12

(46)

Autres résultats de faisabilité

• Explication par lacompilation de lignages faisables

→ Le circuit de provenance est uned-DNNF

→ On peut calculer desOBDDen PTIME

• Extension à des événements incertainscorrélés

→ Faisable si les corrélations sont delargeur bornée

→ Par ex., si ellessuivent la structure(arbres probabilistes)

• Extension à dessemianneaux de provenancegénéraux (N[X])

• Liens avec lesrequêtes prudentesde [Dalvi et Suciu, 2012]

→ Les requêtessans inversionse traitent par nos méthodes

(47)

6/12

(48)

(49)

6/12

(50)

Borne inférieure

Que faire si la largeur n’est pas bornée ?

... pas grand-chose. Théorème

Pour toute signaturede grapheσ,

il y a une requête dupremier ordreqtelle que

pour toute famille constructibleI delargeur non bornée,

l’évaluation probabiliste deqsurI est#P-duresous réductions RP

• Largeur non bornée: pour toutk∈N, il y aI_k ∈ I de largeur≥k

• Constructible: étant donnék, on peut calculer une telleI_ken PTIME

• #P-dure sous réductions RP: réduire en PTIME avec haute proba depuis le problème de compter les chemins acceptants d’une machine de Turing nondéterministe PTIME

(51)

Que faire si la largeur n’est pas bornée ? ... pas grand-chose.

Théorème

7/12

(52)

Théorème

(53)

Théorème

7/12

(54)

Idée : mineurs topologiques

• Gest unmineur topologiquedeHsi :

G H

(55)

G H

8/12

(56)

3 1

2

4 3 4

2 1

envoie les sommets vers des sommets

envoie les arêtes vers des chemins qui ne

partagent pas de sommets intermédiaires

G H

(57)

Résultats sur l’extraction de mineurs topologiques

Théorème [Robertson et Seymour, 1986]

Pour tout graphe planaireGde degré≤3,

pour tout grapheHdelargeur suffisamment grande, Gest un mineur topologique deH.

Plus récemment :

Théorème [Chekuri et Chuzhoy, 2014] Il y a une certaine constante c∈Ntelle que

pour tout graphe planaireGde degré≤3etHdelargeur≥ |G|^c, on peut extraireGcommemineur topologiquedeH

en PTIME avec haute proba

9/12

(58)

Résultats sur l’extraction de mineurs topologiques

Théorème [Robertson et Seymour, 1986]

Pour tout graphe planaireGde degré≤3,

pour tout grapheHdelargeur suffisamment grande, Gest un mineur topologique deH.

Plus récemment :

Théorème [Chekuri et Chuzhoy, 2014]

Il y a une certaine constante c∈Ntelle que

pour tout graphe planaireGde degré≤3etHdelargeur≥ |G|^c, on peut extraireGcommemineur topologiquedeH

(59)

Ébauche de la preuve du résultat

• Choisir leproblèmeà partir duquel on réduit :

• Doit être#P-difficilesur les graphes planaires de degré 3

• Doit s’encoder comme unerequête FOq

→ Choix : problème de comptage descouplages de graphe

• Étant donné ungraphe d’entréeG, calculerk··=|G|^c

• Calculer en PTIME uneinstanceI_kdeI de largeur≥k

• Extraire en temps RPGcommemineur topologiquedeI_k

• Construire uneannotation probabilistedeI_k telle que :

• Les arêtes inutiles deIksont éliminées

• L’évaluation pourqdonne la réponsedu problème difficile

→ Facile pour MSO maissubtilpour FO

10/12

(60)

(61)

10/12

(62)

(63)

10/12

(64)

Autres bornes inférieures dans l’article

• Évaluation non-probabilistesur famillescloses par sous-graphe

→ Hypothèse de constructibilitéplus faible(densely unbounded poly-logarithmically)

→ Liens avec [Ganian et al., 2014]

• Comptage de résultatsde requêtes

→ Compter lenombredeXtels queIsatisfasseq(X)

• Taille des représentations delignages

→ Il y a uneunion de requêtes conjonctives avec inégalités(UCQ⁶⁼) qui n’a d’OBDD de taille polynomiale sur aucune famille de graphes de largeur non bornée constructible (au sens faible)

→ Méta-dichotomiesur les UCQ⁶⁼avec cette propriété

(65)

→ Méta-dichotomiesur les UCQ⁶⁼avec cette propriété

11/12

(66)

(67)

Travaux en cours et ultérieurs

• Améliorer laborne inférieure

→ Étendre :aller desgraphesà des instances d’arité arbitraire

→ Restreindre :aller deFOà desUCQ⁶⁼

• Complexitécombinée: actuellementΩ

2²^{. .}^.

2|Q|

× |D|

→ Quelles requêtes peut-on compilerefficacementen automates ?

→ Quand peut-on avoir unecomplexité combinéefaisable ?

• Pour les requêtesnon-booléennes, peut-on énumérer efficacementles résultats ?

→ Énumérationà délai constantconnue pour MSO sur données quasi-arborescentes [Bagan, 2006, Kazana et Segoufin, 2013]

→ Peut-on lereprouverplus simplement sur les d-DNNF ?

Merci pour votre attention !

12/12

(68)

2²^{. .}^.²

|Q|

× |D|

(69)

2²^{. .}^.²

|Q|

× |D|

12/12

(70)

2²^{. .}^.²

|Q|

× |D|

(71)

Références I

Bagan, G. (2006).

Mso queries on tree decomposable structures are computable with linear delay.

InCSL.

Chaudhuri, S. et Vardi, M. Y. (1992).

On the equivalence of recursive and nonrecursive Datalog programs.

InPODS.

Chekuri, C. et Chuzhoy, J. (2014).

Polynomial bounds for the grid-minor theorem.

InSTOC.

(72)

Références II

Courcelle, B. (1990).

The monadic second-order logic of graphs. I. Recognizable sets of finite graphs.

Inf. Comput., 85(1).

Dalvi, N. et Suciu, D. (2012).

The dichotomy of probabilistic inference for unions of conjunctive queries.

JACM, 59(6):30.

Ganian, R., Hliněn`y, P., Langer, A., Obdržálek, J., Rossmanith, P., et Sikdar, S. (2014).

Lower bounds on the complexity of MSO1 model-checking.

(73)

Références III

Green, T. J., Karvounarakis, G., et Tannen, V. (2007).

Provenance semirings.

InPODS.

Kazana, W. et Segoufin, L. (2013).

Enumeration of first-order queries on classes of structures with bounded expansion.

InPODS.

Robertson, N. et Seymour, P. D. (1986).

Graph minors. V. Excluding a planar graph.

J. Comb. Theory, Ser. B, 41(1).

(74)

Crédits pour les illustrations

• Transparent 2:

• https://commons.wikimedia.org/wiki/File:

Paris_Metro_map.svg(recadrée), utilisateur Umx sur Wikimedia Commons, domaine public

• http://www.parisvoyage.com/images/cartoon18.jpg, ParisVoyage, en vertu du droit de citation

• http://www.vianavigo.com/fileadmin/galerie/pdf/CGU_t_.pdf (recadrée), RATP, en vertu du droit de citation

• Transparents 4 and 5:

https://commons.wikimedia.org/wiki/File:

Carte_Transilien_RER_sch%C3%A9matique.svg(modifiée), utilisateur Benjamin Smith sur Wikimedia Commons, licence CC BY-SA 4.0 international.

(75)

Non-probabilistic evaluation

Apply [Chekuri et Chuzhoy, 2014] to method of [Ganian et al., 2014]

for MSOnon-probabilisticquery evaluation (QE):

Théorème

For any arity-2 signatureσ and levelΣ^P_i of the polynomial hierarchy, there is aMSOqueryq_i such that,

for any constructible,subinstance-closed,unbounded-twclassI, the QE problem forQ={q_i}andI isΣ^P_i-hardunder RP reductions

Variant:we also show a result like in [Ganian et al., 2014], with:

• weakerconstructibilityrequirement onI:

→ I isdensely unbounded poly-logarithmically

• strongercomplexity hypothesis:

→ PH does not admit2^o⁽ⁿ⁾-sized circuits

(76)

Non-probabilistic evaluation

Apply [Chekuri et Chuzhoy, 2014] to method of [Ganian et al., 2014]

for MSOnon-probabilisticquery evaluation (QE):

Théorème

For any arity-2 signatureσ and levelΣ^P_i of the polynomial hierarchy, there is aMSOqueryq_i such that,

for any constructible,subinstance-closed,unbounded-twclassI, the QE problem forQ={q_i}andI isΣ^P_i-hardunder RP reductions

Variant:we also show a result like in [Ganian et al., 2014], with:

• weakerconstructibilityrequirement onI:

→ I isdensely unbounded poly-logarithmically

(77)

Lower bound on OBDD representations OBDDfor a queryqon instanceI:

ordered decision diagram on the facts ofIto decide whetherqholds

q:∃x y R(x)∧S(x,y)∧T(y)

R a r1

b r2

c r3

S a a s1

b v s2

b w s3

T v t1

w t2

b t3

r2?

0

1 0

1

0

1

0 1

(78)

q:∃x y R(x)∧S(x,y)∧T(y)

R a r1

b r2

c r3

S a a s1

b v s2

b w s3

T v t1

w t2

b t3

r2?

0

1 0

1

0

1

0 1

(79)

q:∃xy R(x)∧S(x,y)∧T(y)

R a r1

b r2

c r3

S a a s1

b v s2

b w s3

T v t1

w t2

b t3

r2?

0

. . .

0

1

0 1

1

0

1

0 1

(80)

q:∃xyR(x)∧S(x,y)∧T(y)

R a r1

b r2

c r3

S a a s1

b v s2

b w s3

T v t1

w t2

b t3

r2? s2?

0

1

. . . . . .

0 1

1

0

1

0 1

(81)

R a r1

b r2

c r3

S a a s1

b v s2

b w s3

T v t1

w t2

b t3

r2?

0

s2?

0

1

t1? . . .

0 1

1

0

1

0 1

(82)

R a r1

b r2

c r3

S a a s1

b v s2

b w s3

T v t1

w t2

b t3

r2? s2?

0

1

t1? s₃?

0 1 0

1

. . .

0

1

0 1

(83)

R a r1

b r2

c r3

S a a s1

b v s2

b w s3

T v t1

w t2

b t3

r2?

0

s2?

0

1

t1? s₃?

0 1

1

0

1

t2?

0

1

0 1

(84)

Lower bound on OBDD representations (result)

• If we find anOBDDofqonIin PTIME, thenPQEofqonIalso is

→ Showinexistence of poly-size OBDDs(rather thanPQE hardness)

Théorème

For any arity-2 signatureσ, there is aUCQ with inequalities qs.t. for anyIof treewidthdensely unbounded poly-logarithmically, qhasno OBDDs of polynomial sizeon instances ofI

→ Meta-dichotomyon the connected UCQ⁶⁼for which this holds

(85)

Théorème

For any arity-2 signatureσ, there is aUCQ with inequalities qs.t.

for anyIof treewidthdensely unbounded poly-logarithmically, qhasno OBDDs of polynomial sizeon instances ofI

(86)

Théorème

For any arity-2 signatureσ, there is aUCQ with inequalities qs.t.

for anyIof treewidthdensely unbounded poly-logarithmically, qhasno OBDDs of polynomial sizeon instances ofI

(87)

Defining the query

G I_k

1 2 ⇒ ₁ ₂

• In the embedding, edges ofGcan becomelong pathsinI_k

• qmust answer the hard problem onGdespite subdivisions

→ Easy in MSO but tricky inFO!

→ Ourqrestricts to asubset of the worldsof known weight and gives the right answerup to renormalization

(88)

Defining the query

G I_k

1 2 ⇒ ₁ ₂

• In the embedding, edges ofGcan becomelong pathsinI_k

• qmust answer the hard problem onGdespite subdivisions

→ Easy in MSO but tricky inFO!

→ Ourqrestricts to asubset of the worldsof known weight and gives the right answerup to renormalization

(89)

Encoding treelike instances [Chaudhuri et Vardi, 1992]

Instance:

N a b b c c d d e e f

S a c b e

Gaifman graph: a

b

c d

e f

Tree decomp.: a b c b c e c d e e f

Tree encoding: N(a1,a2) N(a2,a3) S(a1,a3) S(a2,a4) N(a3,a1) N(a1,a4)

N(a4,a1)

(90)

Instance:

N a b b c c d d e e f

S a c

Gaifman graph:

a

b

c d

e f

Tree decomp.: a b c b c e c d e e f

N(a4,a1)

(91)

Instance:

N a b b c c d d e e f

S a c b e

Gaifman graph:

a

b

c d

e f

Tree decomp.:

a b c b c e c d e e f

N(a4,a1)

(92)

Instance:

N a b b c c d d e e f

S a c

Gaifman graph:

a

b

c d

e f

Tree decomp.:

a b c b c e c d e e f

Tree encoding:

N(a1,a2) N(a2,a3) S(a1,a3) S(a2,a4) N(a3,a1) N(a1,a4)

N(a4,a1)

(93)

Provenance semirings

• Semiringof positive Boolean functions(PosBool[X],∨,∧,f,t)

• Provenance semirings:[Green et al., 2007]

• Provenance generalized toarbitrary (commutative) semirings

• For queries in thepositive relational algebraand Datalog

→ Our circuits capturePosBool[X]-provenancein this sense

• Thedefinitionsmatch: all subinstances that satisfy the query

• Formonotonequeries, we can constructpositivecircuits

(94)

(95)

(96)

(97)

(98)

Universal provenance

• Universalsemiring of polynomials(N[X],+,×,0,1)

→ The provenance forN[X]can bespecializedto anyK[X]

• Captures manyuseful semirings:

• counting the number ofmatchesof a query

• computing thesecurity levelof a query result

• computing thecostof a query result

(99)

Universal provenance

• Universalsemiring of polynomials(N[X],+,×,0,1)

→ The provenance forN[X]can bespecializedto anyK[X]

• Captures manyuseful semirings:

• counting the number ofmatchesof a query

• computing thesecurity levelof a query result

• computing thecostof a query result

(100)

N[X]-provenance example

R a b x1

b c x₂ d e x3

e d x4

f f x5

∃x y z R(x,y)∧R(y,z)

→ PosBool[X]-provenance:

(x1∧x2)∨(x3∧x4) ∨ x5

→ N[X]-provenance:

(x1×x2) + (x3×x4) + (x4×x3) + (x5×x5)

=x1x2+2x3x4+x²₅

• Definitionof provenance for conjunctive queries:

• Sumover query matches

• Multiplyover matched facts

How isN[X]more expressivethanPosBool[X]?

→ Coefficients:counting multiple matches

→ Exponents:using facts multiple times

(101)

R a b x1

b c x₂ d e x3

e d x4

f f x5

∃x y z R(x,y)∧R(y,z)

(x1∧x2)∨(x3∧x4) ∨ x5

(x1×x2) + (x3×x4) + (x4×x3) + (x5×x5)

=x1x2+2x3x4+x²₅

(102)

R a b x1

b c x₂ d e x3

e d x4

f f x5

∃xyzR(x,y)∧R(y,z)

(x1∧x2)∨(x3∧x4) ∨ x5

(x1×x2) + (x3×x4) + (x4×x3) + (x5×x5)

=x1x2+2x3x4+x²₅

(103)

R a b x1

b c x₂ d e x3

e d x4

f f x5

∃xyzR(x,y)∧R(y,z)

(x1∧x2)

∨(x3∧x4) ∨ x5

(x1×x2)

+ (x3×x4) + (x4×x3) + (x5×x5)

=x1x2+2x3x4+x²₅