Probl` eme du comptage : #CSP - Les probl` emes CSP, #CSP et WCSP

Les probl` emes CSP, #CSP et WCSP

2.3 Probl` eme du comptage : #CSP

a BT D et le choix d’un nouveau cluster racine à chaque redémarrage. Toutefois, cette solution ne remet pas en cause le calcul d’une décomposition peu pertinente en amont de la résolution. Ainsi, nous nous focalisons dans cette thèse sur l’amélioration des méthodes structurelles de résolution d’instances CSP notamment BT D.

2.3 Probl`eme du comptage : #CSP

Ce problème vise à répondre à la question suivante : étant donnée une instance CSP P , combien de solutions admet-elle ? Elle peut en admettre aucune si elle est incohérente ou une ou plusieurs solutions sinon. Nous pouvons, par exemple, vérifier que l’exemple 1 admet 6 solutions. Le problème #CSP a de nombreuses applications en intelligence artificielle comme dans le raisonnement approximatif [Roth, 1996], le diagnostic [Kumar, 2002], la révision des croyances [Darwiche, 2001b], l’inférence probabiliste [Sang et al., 2005; Chavira and Darwiche, 2008; Apsel and Brafman, 2012; Choi et al., 2013], la planification [Palacios et al., 2005; Domshlak and Hoffmann, 2006] et dans d’autres domaines plus éloignés de l’informatique comme la physique statistique [Burton and Steif, 1994] ou la chimie pour la prédiction de la structure d’une protéine [Mann et al., 2007]. L’évaluation du nombre de solutions peut également servir pour guider la recherche en orientant l’heuristique du choix de variables et/ou de valeurs comme dans [Kask et al., 2004; Pesant, 2005; Pesant et al., 2012].

Le problème du comptage est un problème extrêmement difficile d’un point de vue théorique en raison de sa complexité puisqu’il appartient à la classe #P-complet [Valiant, 1979]. Sa difficulté est telle qu’il reste #P-complet même si nous nous restreignons au cas des CSP binaires. Cette difficulté est confirmée par le théorème de Toda qui énonce que P H ⊆ P#P [Toda, 1991]. Des études théoriques ont été réalisées dans le but d’analyser ce problème du point de vue de la complexité théorique en exhibant des classes traitables comme dans [Slivovsky and Szeider, 2013]. D’autres travaux ont analysé leur difficulté par le biais des théorèmes de dichotomie comme dans [Bulatov and Dalmau, 2003; Bulatov, 2008; Dyer and Richerby, 2013]. En pratique, sa résolution est également très difficile. Dans cette partie, nous nous focalisons sur ce problème en insistant sur les méthodes les plus connues pour sa résolution.

2.3.1 M´ethodes de r´esolution

Plusieurs méthodes de résolution ont été proposées. On va surtout se focaliser sur les méthodes structurelles qui nous intéressent le plus dans le cadre de cette thèse.

L’approche naturelle consiste à étendre les algorithmes standards définis pour le pro-blème de décision comme BT à #BT ou M AC et RF L à #M AC et à #RF L. Leur

complexité est en O(r.m.dn). En pratique, ces méthodes peuvent être inefficaces pour le dénombrement des solutions dans certains cas, notamment lorsque le nombre de solutions est très élevé (certaines instances du benchmark que nous utilisons dans la partie contri-butions possèdent plus de 6.10303 solutions). En effet, l’espace de recherche qui doit être visité implique beaucoup de redondances et de recalculs inutiles du nombre d’extensions cohérentes d’une affectation partielle. D’autres algorithmes exacts ont été proposés sans être évalués en pratique comme celui fourni pour les instances CSP binaires dans [Angels-mark and Jonsson, 2003].

Nous nous intéressons d’abord aux méthodes proposées pour le problème #CSP puis aux méthodes proposées pour le problème #SAT. Nous nous focalisons ensuite sur l’ap-proche du comptage après compilation.

2.3.1.1 M´ethodes pour #CSP

Les méthodes structurelles sont pertinentes pour le dénombrement de solutions du fait de la difficulté de ce problème et de la borne de complexité théorique en temps séduisante offerte par ces méthodes.

AND/OR Search Space [Dechter and Mateescu, 2004] La méthode AND/OR Search Space évoquée dans le cadre de la décision peut être facilement adaptée au comptage. En effet, il suffit de remplacer les opérations booléennes par des opérations de somme et de produit. Elle a été comparée avec une méthode de backtrack simple adaptée au comptage. Selon les auteurs, AND/OR Search Space surclasse cette dernière ; elle est bien meilleure en termes de nombre de nœuds développés et en temps d’exécution notamment sur des instances ayant un grand nombre de solutions. D’ailleurs, elles ne sont comparables que pour les problèmes incohérents. Finalement, les auteurs ont montré que leur méthode est capable de s’adapter à des réseaux de plus grande taille (au plus 100 variables) que dans le cas de l’autre méthode.

#BTD [Favier et al., 2009] Les auteurs adaptent l’algorithme BT D au dénombrement exact de solutions. Il se base sur la décomposition arborescente pour identifier les parties indépendantes du graphe. Ainsi, étant donnée une affectationA qui sépare le graphe en plusieurs composantes connexes, le nombre de solutions de chaque composante est calculé indépendamment des autres. Le nombre d’extensions cohérentes de A est le résultat de la multiplication du nombre de solutions de ces composantes. À l’instar de BT D, #BT D exploite des enregistrements afin d’éviter de visiter le même sous-espace de recherche plusieurs fois. Si BT D enregistre des (no)goods, #BT D enregistre pour un sous-problème induit par une affectation donnée le nombre de solutions trouvées. Il s’agit de la notion de #good dont nous rappelons maintenant la définition :

Définition 57 Soient (E, T ) une décomposition arborescente, Ei un cluster et Ej un de ses clusters fils. Un #good de E_i vis-à-vis de E_j est une paire (A[Ei∩ Ej], nb) avecA[Ei∩ E_j] une affectation cohérente de E_i ∩ Ej et nb le nombre de solutions du sous-problème Pj|A[Ei∩ Ej].

Vu son importance dans le cadre de cette thèse, cette méthode sera détaillée dans le chapitre 6.

2.3.1.2 M´ethodes pour #SAT

Beaucoup de méthodes ont été proposées dans le cadre du formalisme SAT [Biere et al., 2009]. Un problème SAT peut être vu comme un problème CSP (X, D, C) tel que toutes les variables sont booléennes ayant deux valeurs possibles 0 (f aux) ou 1 (vrai). À chaque variable x_i sont associés deux littéraux, un positif (x_i) et sa négation ¬xi. x_i et ¬xi ont des valeurs booléennes différentes. Les contraintes sont des clauses, c’est-à-dire des disjonctions de littéraux. Par exemple, x₁∨¬x2∨x3est une clause qui est satisfaite ssi x₁ ← 1 ou x2 ← 0 ou x3 ← 1. Cette représentation est appelée CNF (conjonctive normal form). Le but du problème SAT consiste à satisfaire simultanément toutes les clauses. Une solution du problème SAT est appelé un modèle. L’algorithme de base de résolution du problème SAT est l’algorithme Davis-Putnam-Logemann-Loveland (DPLL) [Davis et al., 1962]. Le problème de comptage en SAT est noté #SAT. Afin d’exploiter les méthodes de comptage de modèles en SAT pour le comptage en CSP, le moyen le plus simple consiste à encoder l’instance CSP en instance SAT. Parmi les encodages les plus connus, nous citons l’encodage direct, l’encodage logarithmique [Walsh, 2000] et l’encodage tuple [Hurley et al., 2016].

CDP Comme pour le problème #CSP, la première approche pour la résolution du problème #SAT consiste à étendre DPLL. Cette extension s’appelle CDP (pour coun-ting Davis-Putnam) et a été proposée dans [Birnbaum and Lozinskii, 1999]. Étant donnée une affectationA (appelée interprétation) de taille k, elle réalise une propagation unitaire qui consiste à supprimer chaque clause de taille 1 en affectant convenablement la variable en question. Elle vérifie ensuite s’il existe une clause vide auquel cas l’affectation courante n’admet aucune extension. Si toutes les clauses sont satisfaites le nombre d’extensions de A est 2n−k vu que les variables restantes peuvent être instanciées d’une fa¸con quelconque. Sinon une k+1-ème variable x_iest choisie. Le nombre d’extensions deA est alors le nombre d’extensions deA ∪ {xi ← 1}+ le nombre d’extensions de A ∪ {xi ← 0}. L’appel initial à CDP part d’une affectation vide. Si la limite de temps est dépassée, CDP retourne une borne inférieure sur le nombre de solutions trouvé pour le sous-espace déjà visité.

relsat (DDP) Une nouvelle méthode DDP (pour decomposing Davis-Putnam) a été ensuite proposée dans [Bayardo and Pehoushek, 2000]. Elle rajoute à CDP une couche d’identification de composantes connexes après la réalisation de la propagation unitaire. Cette étape ressemble à BT D qui sépare les sous-problèmes enracinés en clusters fils E_j d’un cluster E_i suite à l’affectation de ce dernier. CDP peut ainsi calculer le nombre de solutions de chaque composante. En raison de leur indépendance, le nombre d’extensions de A est la multiplication du nombre de solutions de chaque composante. Bien que la détection des composantes connexes ait été jugée assez coûteuse pour le problème SAT, cet effort peut être rentable pour des problèmes plus difficiles comme #SAT. Cet algo-rithme est implémenté dans relsat. relsat exploite plusieurs heuristiques pour la gestion des composantes connexes comme considérer la composante la plus contrainte d’abord ou s’assurer de la satisfiabilité de chaque composante avant de compter toutes les solu-tions. Ces améliorations ont permis à relsat d’avoir une meilleure performance que CDP [Bayardo and Pehoushek, 2000].

cachet Si l’exploitation de l’indépendance permet d’éviter certains calculs redondants, en revanche, DDP n’exploite pas le fait que la même composante connexe peut être induite par une autre affectationA^′. Dans ce cas, DDP effectuera le même calcul autant de fois que cette composante apparaˆıtra. L’algorithme implémenté dans cachet [Sang et al., 2004]

améliore DDP en enregistrant le résultat trouvé pour une composante connexe afin de l’utiliser ultérieurement si besoin.

sharpsat L’inconvénient majeur de l’implémentation de l’enregistrement des solutions pour une composante connexe est le coût en espace. Ce problème est abordé par sharpsat [Thurley, 2006] qui propose plusieurs idées afin de réaliser un enregistrement plus compact. Ces techniques ont permis de réduire massivement l’espace mémoire requis par rapport à cachet et d’augmenter ainsi l’efficacité. En outre, sharpsat utilise des techniques≪ look-ahead≫ plus sophistiquées qui semblent accroˆıtre l’efficacité du comptage du nombre de modèles d’une instance. D’ailleurs, dans [Davies and Bacchus, 2007], Davies et Bacchus ont montré qu’effectuer une analyse plus poussée à chaque nœud de l’arbre de recherche peut rendre le comptage plus rapide. En effet, cela simplifie davantage la formule, per-met de détecter les composantes connexes plus efficacement et peut même augmenter la décomposabilité du problème. Plus récemment, dans [Lagniez and Marquis, 2017b], les auteurs ont montré expérimentalement que l’emploi des techniques de prétraitement plus puissantes et consommant plus de temps pour #SAT que pour SAT est tolérable. En contrepartie, ils permettent de diminuer le temps nécessaire pour le comptage des modèles. 2.3.1.3 Compilation

Une approche différente consiste à compiler la formule CNF ou l’instance CSP en une autre forme logique à partir de laquelle le nombre de modèles pourrait être déduit plus facilement. Dans ce type d’approches, la complexité temporelle est polynomiale par rapport `

a la taille de la nouvelle formule. L’intérêt de la compilation ne se limite pas au comptage. Plus généralement, la formule obtenue doit permettre de répondre plus efficacement à certaines demandes [Darwiche and Marquis, 2001, 2002] initialement NP-difficiles. Comme signalé dans [Freuder and O’Sullivan, 2014], ce problème est particulièrement critique pour les applications en ligne comme dans la configuration des logiciels [Junker, 2006] ou les systèmes de recommandation [Cambazard et al., 2010] où les demandes envoyées à la volée par les utilisateurs doivent être satisfaites en temps réel. La plupart des travaux se sont alors focalisés sur la recherche de nouveaux langages cibles permettant d’offrir de telles garanties comme dans [Subbarayan et al., 2007; Fargier and Marquis, 2009; Darwiche, 2011]. Par la suite, nous présentons quelques langages parmi les plus connus.

(O)BDD Une formule peut être convertie en un BDD (binary decision diagram) [Bryant, 1986]. Il s’agit d’un graphe acyclique orienté et enraciné qui permet de représenter une fonction booléenne. Il comporte deux types de nœuds : deux nœuds terminaux 0 et 1 et des nœuds de décision étiquetés par une variable booléenne. Chaque nœud de décision possède deux fils, un correspond à son affectation par 0 et l’autre correspond à son affectation par 1. Le comptage du nombre de modèles revient à parcourir le BDD à partir du nœud terminal 1. Un BDD est dit ordonné (on parle alors d’OBDD) si les variables apparaˆıssent dans le même ordre dans tous les chemins partant de la racine. Un compilateur visant le langage OBDD est proposé dans [Huang and Darwiche, 2004] où des garanties sur les complexités théoriques sont fournies en plus d’une borne supérieure sur la taille de l’OBDD. En pratique, il a montré son efficacité vis-à-vis des compilateurs traditionnels. d-DNNF (compilateurs c2d, Dsharp et D4) Dans [Darwiche, 2001a], Darwiche présente le compilateur c2d qui transforme la formule CNF en une formule NNF (ne-gative normal form) déterministe et décomposable d-DNNF [Darwiche, 2004]. Une for-mule NNF est une disjonction de conjonctions de littéraux. Elle peut être représentée sous

forme d’un graphe acyclique où l’étiquette de chaque puits (sommet n’ayant pas de fils) est un littéral et les étiquettes des autres sommets sont les opérateurs AND et OR. Elle est dite décomposable si les sous-arbres correspondants aux fils d’un sommet AND sont disjoints au sens de l’ensemble de ses littéraux. Elle est dite déterministe si les sous-arbres correspondants aux fils d’un sommet OR induisent des formules qui ne peuvent pas être satisfaites simultanément. Ces deux propriétés permettent le calcul du nombre de modèles d’une formule en parcourant l’arbre des puits vers la source. Le nombre de modèles as-socié au sommet source est le nombre exact de modèles de la formule. Pour y parvenir, à chaque littéral est associé le nombre 1. Pour chaque sommet AND (resp. OR), le nombre de modèles correspondant est la multiplication (resp. la somme) de nombre de modèles de chacun de ses fils. Dans [Muise et al., 2012], un autre compilateur Dsharp visant le langage d-DNNF est présenté. Selon les auteurs, il est généralement plus rapide que c2d tandis que les formules compilées sont souvent de taille comparable. Finalement, un nouveau com-pilateur CNF vers d-DNNF appelé D4 est proposé dans [Lagniez and Marquis, 2017a]. Les expérimentations conduites montrent que son temps de compilation est généralement inférieur à celui de Dsharp et c2d aussi bien que la taille des formes d-DNNF compilées. Au niveau des instances résolues vis-à-vis du comptage, D4 résout le plus grand nombre d’instances suivi par c2d.

SDD Dans [Darwiche, 2011], Darwiche propose un nouveau compilateur visant le lan-gage (pour Sentential Decision Diagram). L’objectif de ce lanlan-gage est de conserver des propriétés intéressantes du langage OBDD comme la canonicité tout en étant plus général en termes de traitabilité. Il permet également de générer une forme compilée de taille en O(exp(w)) avec w la tree-width de la CNF en entrée qui est plus petite que la path-width sur laquelle se base un OBDD. Notons que OBDD est un sous-ensemble de SDD qui est un sous-ensemble de d-DNNF. En pratique, les expérimentations ont montré que la représentation en SDD est généralement plus compacte que celle en OBDD. À l’instar de OBDD, SDD permet également le comptage de modèles. C’est aussi le cas d’un autre langage sous-ensemble de d-DNNF qui est FBDD [Gergov and Meinel, 1994]. Comme d’autres langages qui sont valides pour le comptage des modèles sans être sous-ensemble de d-DNNF, nous citons le langage EADT (extended affine decision trees) [Koriche et al., 2013].

MDDG (compilateur cn2mddg) Au-delà des formules CNF, pour manipuler des ins-tances CSP et les compiler en langage Decision-DNNF [Oztok and Darwiche, 2014] (lan-gage strictement inclus dans d-DNNF) par exemple, le moyen le plus connu est de suivre un schéma de traduction-compilation. En effet, le réseau de contraintes donné en entrée est d’abord encodé en formule CNF. Ensuite, en exploitant un compilateur comme c2d [Dar-wiche, 2004] ou Dsharp [Muise et al., 2012] nous obtenons une représentation Decision-DNNF. Le premier inconvénient de cette approche réside dans le grand nombre de variables booléennes de la formule CNF générée. En outre, la première étape, i.e. l’encodage, in-duit une perte de la structure initialement présente dans le réseau de contraintes dûe au format CNF. Une approche différente a été alors proposée dans [Koriche et al., 2015]. Dans ce papier, les auteurs proposent le compilateur cn2mddg qui compile directement une instance CSP en langage MDDG (Multivalued decomposable decision graph). MDDG est une extension du langage Decision-DNNF aux domaines non booléens. Notons que le format donné en entrée à cn2mddg est le format XCSP 2.1 [Roussel and Lecoutre, 2009]. Malgré l’augmentation du niveau de généralité obtenu en acceptant des domaines non booléens, les algorithmes polynomiaux utilisés pour l’énumération de solutions, le

comp-tage de solutions ou d’autres problèmes peuvent être trivialement étendus au cas MDDG. Les expérimentations évaluant cn2mddg montrent qu’il est plus robuste du fait qu’il arrive `

a compiler des instances CSP que le schéma traduction-compilation n’y parvient pas. En outre, selon les auteurs, le temps requis pour la compilation de l’instance CSP en MDDG est plus petit que celui nécessaire pour la compilation de CNF en Decision-DNNF. Non seulement du temps est économisé, mais encore, la taille de la représentation MDDG est souvent plus compacte que celle de la représentation d-DNNF. Les auteurs précisent aussi que les techniques implémentées dans le compilateur comme l’heuristique de choix de variables ou les techniques d’enregistrement qui visent à éviter la duplication des sous-parties identiques de la représentation compilée, tirent profit de la structure de l’instance CSP. Cette structure est au contraire beaucoup moins présente dans la formule CNF. Les heuristiques de branchement font l’objet d’une étude [Lagniez et al., 2017] qui montre en particulier que les heuristiques de choix de variables favorisant la décomposabilité du graphe sont prioritaires lorsque le langage MDDG est visé.

2.3.1.4 M´ethodes d’approximation

Les méthodes de comptage exactes attaquent ce problème en explorant exhaustive-ment tout l’espace de recherche. Le fait qu’il soit #P-complet laisse peu d’espoir ainsi pour un passage à grande échelle. En plus, de nombreuses applications du comptage de solutions ne requièrent pas de connaˆıtre le nombre exact de solutions et peuvent se conten-ter d’une approximation de ce nombre exact. C’est ainsi qu’une approche différente est apparue qui consiste à estimer le nombre de solutions plus rapidement. Deux aspects sont considérés : la qualité de l’estimation et la confiance associée à l’estimation reportée. Une méthode approximative associée à #BT D, Approx#BTD, est donnée dans [Favier et al., 2009]. Elle fournit un majorant du nombre de solutions. Les auteurs de [Gogate and Dech-ter, 2008] proposent une méthode qui se base sur une décomposition AND/OR et sur l’échantillonnage de l’espace de recherche. Cette méthode fournit une borne inférieure sur le nombre de solutions avec un intervalle de confiance à pourcentage élevé. Ce type de méthode peut malheureusement fournir une borne inférieure nulle pour de gros problèmes et peut nécessiter un réglage de paramètres très coûteux en temps. Une méthode différente se base sur l’ajout des contraintes XOR en SAT dans [Gomes et al., 2006] et en CSP dans

Dans le document Résolution des problèmes (W)CSP et #CSP par approches structurelles : Calcul et exploitation dynamique de décompositions arborescentes (Page 102-108)