Comparaison de différents modèles de programmation par contraintes pour le clustering conceptuel

(1)

HAL Id: hal-02076396

https://hal.archives-ouvertes.fr/hal-02076396

Submitted on 22 Mar 2019

HAL is a multi-disciplinary open access

archive for the deposit and dissemination of

sci-entific research documents, whether they are

pub-lished or not. The documents may come from

teaching and research institutions in France or

abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est

destinée au dépôt et à la diffusion de documents

scientifiques de niveau recherche, publiés ou non,

émanant des établissements d’enseignement et de

recherche français ou étrangers, des laboratoires

publics ou privés.

Comparaison de différents modèles de programmation

par contraintes pour le clustering conceptuel

Maxime Chabert, Pierre-Antoine Champin, Amélie Cordier, Christine Solnon

To cite this version:

(2)

Actes JFPC 2017

Comparaison de diff´

erents mod`

eles de

programmation par contraintes pour le clustering

conceptuel

Maxime Chabert

1,3∗

_{Pierre-Antoine Champin}

2

_Am´

_{elie Cordier}

2

_{Christine Solnon}

1 1

_{LIRIS, INSA Lyon, Lyon, France}

2

_{LIRIS, Universit´}

_{e Lyon 1, Lyon, France}

3

_{Infologic, Bourg-l`}

_{es-Valence, France}

{pr´

enom.nom}@liris.cnrs.fr

R´esum´e

Le clustering conceptuel permet de partitionner un ensemble d’objets en clusters d’objets similaires, cor-respondant à des concepts formels. Nous présentons une nouvelle approche basée sur la programmation par

5

contraintes, où l’ensemble des concepts formels est ex-trait dans une étape de pré-traitement en utilisant des techniques spécialisées de fouille de données. Nous com-parons l’efficacité de notre approche avec celle de plu-sieurs approches récentes utilisant la programmation par

10

contraintes ou la programmation linéaire en nombres entiers sur des instances classiques d’apprentissage au-tomatique. Nous introduisons également un nouvel en-semble d’instances provenant d’une application réelle, visant à extraire des concepts de paramétrage à partir

15

de séquences de paramétrage d’un progiciel de gestion, et nous évaluons la pertinence des concepts extraits en fonction des critères utilisés dans la définition de la fonc-tion objectif.

Abstract

20

Conceptual clustering allows to partition a set of ob-jects into clusters of similar obob-jects, corresponding to formal concepts. We present a new approach based on constraint programming where formal concepts are ex-tracted in a pre-processing step by using a dedicated

25

data-mining approach. We compare the efficiency of our approach with several recent approaches using constraint programming or integer linear programming on classical machine learning instances. We also introduce a new set of instances coming from a real application case, which

30

aims at extracting setting concepts from an Enterprise Ressource Planning (ERP) software. We assess the rele-vance of extracted concepts depending on criteria used in the objective function.

∗_{Papier doctorant : Maxime Chabert}1,3_{est auteur principal.}

1 Introduction

35

Nous proposons dans cet article de nouveaux mo-dèles à base de contraintes pour résoudre un problème de clustering conceptuel, et nous évaluons ces modèles sur des instances académiques, ainsi que sur un nou-vel ensemble d’instances provenant d’une application

40

réelle visant à automatiser la phase de paramétrage d’un progiciel de gestion (Enterprise Ressource Plan-ning, ERP).

Présentation du contexte applicatif du travail. Les ERP sont des logiciels avec un vaste périmètre

fonc-45

tionnel allant de la gestion commerciale jusqu’à la ges-tion des ateliers de producges-tion et de stockage [8]. Cette amplitude de fonctionnalités rend le processus d’ins-tallation complexe, et une étude récente souligne que 57% des installations d’ERP dépassent le budget et le

50

temps prévus [1]. Nous avons étudié le processus d’ins-tallation du progiciel de gestion Copilote de la société Infologic, spécialisée en agro-alimentaire. Il apparaˆıt que 65% du temps est dédié à la phase de param´ e-trage : cette phase consiste à affecter des valeurs à

55

des paramètres afin de répondre aux besoins du client et à ses spécificités structurelles et organisationnelles [18]. Cette complexité est due au grand nombre de paramètres pouvant interagir entre eux. De plus, plu-sieurs études [14, 2] portant sur le processus

d’instal-60

lation des ERP montrent que le paramétrage n’est pas considéré comme un facteur critique de succès contrai-rement à l’accompagnement au changement ou à la formation des utilisateurs. C’est pourquoi, réduire le temps de paramétrage devient un réel enjeu pour les

(3)

int´egrateurs d’ERP afin d’allouer plus de temps aux phases critiques du processus d’installation.

Pour répondre à cette problématique, nous propo-sons d’analyser une base de paramétrages existants, correspondant à des installations de l’ERP chez

dif-70

férents clients. Notre objectif est d’identifier des s´ e-quences pertinentes de paramétrage afin de les asso-cier à des besoins fonctionnels. Étant donné que beau-coup de besoins se retrouvent chez plusieurs clients, ces séquences de paramétrage pourront être réutilisées

75

durant l’installation de l’ERP chez un nouveau client ayant des besoins similaires.

Pour identifier des séquences pertinentes de param´ e-trage, nous proposons de partitionner la base de pa-ramétrages de fa¸con à regrouper les paramétrages

si-80

milaires. Nous proposons pour cela d’utiliser le cluste-ring conceptuel [12] car cette approche ne pré-suppose pas qu’il existe une fonction de similarité permettant d’évaluer la similarité de deux objets : chaque clus-ter correspond à un concept formel et est décrit par

85

l’ensemble des paramètres communs à tous les para-métrages du cluster.

Présentation des contributions de l’article. Plu-sieurs travaux récents proposent de résoudre des pro-blèmes de clustering conceptuel en utilisant des

ap-90

proches déclaratives telles que la programmation par contraintes (PPC) [4] ou la programmation linéaire en nombres entiers (PLNE) [15]. Ces approches sont particulièrement pertinentes dans notre contexte ap-plicatif du fait de leur souplesse pour ajouter des

95

contraintes ou modifier la fonction objectif : une de nos problématiques majeures est de trouver une fonc-tion objectif et des contraintes permettant d’extraire des concepts de paramétrage pertinents pour les ex-perts métiers.

100

Nous présentons une nouvelle approche basée sur la PPC. Comme proposé dans [15], nous introduisons une étape de pré-traitement pour extraire l’ensemble des concepts formels candidats à l’aide d’un outil dédié au problème de l’extraction de motifs fréquents. Nous

105

proposons d’utiliser la programmation par contraintes pour sélectionner un sous-ensemble de cet ensemble formant une partition optimale, et nous introduisons deux nouveaux modèles ensemblistes pour cela. Nous comparons ces modèles avec ceux de [15] et [4]. Cette

110

comparaison est réalisée sur un ensemble d’instances classiques dans le domaine de l’apprentissage automa-tique. Nous introduisons également un nouveau bench-mark composé d’instances construites à partir de notre base de paramétrages. Enfin, nous comparons d’un

115

point de vue qualitatif la qualit´e des clusterings ob-tenus selon diff´erentes fonctions objectifs.

Organisation de l’article. La section 2 définit formel-lement le problème de clustering conceptuel, et décrit les approches permettant de résoudre ce problème, et

120

plus particulièrement les approches récentes de [15] et [4]. La section3introduit deux nouveaux modèles PPC pour résoudre ce problème, l’un basé sur les clusters, l’autre sur les transactions. Enfin, la section 4 com-pare les différentes approches en termes de passage à

125

l’échelle, et la section5 compare la qualité des solu-tions calculées en fonction des critères considérés dans la fonction objectif.

2 Contexte

2.1 Clustering conceptuel

130

Le clustering conceptuel est une approche de clas-sification non-supervisée qui vise à partitionner un ensemble d’objets en clusters homogènes. La parti-cularité de cette méthode est qu’elle donne, en plus des clusters, une description de chaque cluster sous la

135

forme d’un concept formel.

Soit T un ensemble de m transactions (ou objets), I un ensemble de n items (ou attributs), et R ⊆ T × I une relation binaire qui lie les transactions aux items : (t, i) ∈ R (noté également tRi) traduit le fait qu’une transaction t contient l’item i. Nous supposons que toutes les transactions ont des ensembles d’items dif-férents, i.e.,

∀t, t0 ∈ T , t 6= t0⇒ {i ∈ I : tRi} 6= {i ∈ I : t0Ri}. ´

Etant donné un ensemble E, nous notons P(E) l’en-semble de ses sous-enl’en-sembles, et #E sa cardinalité. Enfin, sans perte de généralité, nous supposons que les transactions sont numérotées de 1 à m et les items

140

de 1 `a n.

L’intention d’un sous-ensemble T ⊆ T de transac-tions est l’ensemble des items contenus dans toutes les transactions de T , i.e.,

intent(T ) = {i ∈ I : ∀t ∈ T, tRi}.

L’extension d’un sous-ensemble I ⊆ I d’items est l’en-semble des transactions qui contiennent tous les items de I, i.e.,

extent(I) = {t ∈ T : ∀i ∈ I, tRi}.

Ces deux op´erateurs induisent une connexion de Galois entre P(T ) et P(I), i.e.,

T ⊆ extent(I) ⇔ I ⊆ intent(T ).

(4)

Table 1 – Jeu de donn´ees transactionnel T i1 i2 i3 i4 t1 1 0 0 1 t2 1 0 1 1 t3 0 1 0 1 t4 0 1 1 0 t5 1 0 1 0

note F l’ensemble de tous les concepts formels. No-tons qu’un concept formel correspond `a un ensemble

145

clos d’items (closed itemset) tel que défini en fouille de données. Par conséquent, l’ensemble F des concepts formels peut être calculé en utilisant un algorithme de recherche de motifs clos fréquents (tel que LCM [19], par exemple), en fixant le seuil de fréquence à 1.

150

En clustering conceptuel, chaque cluster correspond `

a un concept formel, et un clustering est un ensemble de k concepts formels C = {(T1, I1), . . . , (Tk, Ik)} tel

que {T1, . . . , Tk} forme une partition de l’ensemble de

transactions T .

155

La fr´equence d’un cluster (Tj, Ij) est son nombre de

transactions, i.e., f req(Tj, Ij) = #Tj, et sa taille est

son nombre d’items, i.e., taille(Tj, Ij) = #Ij.

Différents critères peuvent être considérés pour d´ e-finir la qualité d’un clustering conceptuel. Dans cet

160

article, nous en consid´erons trois :

1. maximiser la taille minimale d’un cluster, de fa-¸

con `a ´eviter d’avoir des concepts comportant peu d’items ;

2. maximiser la fr´equence minimale d’un cluster, de

165

fa¸con `a ´eviter d’avoir des concepts comportant peu de transactions ;

3. maximiser la somme des tailles des clusters, de fa¸con `a favoriser les concepts comportant un grand nombre d’items.

170

Exemple. La table 1 présente un jeu de données transactionnelles T composé de cinq transactions d´ e-finies sur quatre items. La table 2 donne l’ensemble F des concepts formels de T . Par exemple, le concept c1 est défini par le couple ({i1}, {t1, t2, t5}). Sa fr´

e-175

quence et sa taille sont : f req(c1) = 3 et taille(c1) =

1. C1 = {({i1}, {t1, t2, t5}), ({i2}, {t3, t4})} et C2 =

{({i1}, {t1, t2, t5}), ({i2, i4}, {t3}), ({i2, i3}, {t4})} sont

deux exemples de clusterings de T . Selon le critère considéré, la qualité de C1 (resp. C2) est évaluée à 1

180

(resp. 1), pour le critère de taille minimale d’un clus-ter, 2 (resp. 1), pour le critère de fréquence minimale d’un cluster, et 2 (resp. 5), pour le critère de somme des tailles des clusters.

Table 2 – Ensemble F des concepts formels de T C intent extent fr´eq. taille c1 {i1} {t1, t2, t5} 3 1 c2 {i3} {t2, t4, t5} 3 1 c3 {i1, i3} {t2, t5} 2 2 c4 {i4} {t1, t2, t3} 3 1 c5 {i1, i4} {t1, t2} 2 2 c6 {i1, i3, i4} {t2} 1 3 c7 {i2} {t3, t4} 2 1 c8 {i2, i3} {t4} 1 2 c9 {i2, i4} {t3} 1 2

2.2 Approches d´edi´ees au clustering conceptuel

185

Depuis l’introduction du clustering conceptuel par [12], de multiples approches dédiées à ce problème ont ´

et´e propos´ees.

Plusieurs de ces approches utilisent des heuristiques bas´ees sur des mesures statistiques pour construire

190

des clusters [7] pouvant être organisés en hiérarchie [5,10]. Le système COBWEB [5] s’appuie sur la simi-larité intra-cluster et la dissimilarité inter-cluster pour construire incrémentalement une hiérarchie de clus-ters, l’interprétation conceptuelle des clusters étant

195

alors une étape indépendante de la construction des clusters. Ces deux tâches sont souvent découplées dans des approches plus récentes soit en utilisant des tech-niques de clustering après avoir extrait un ensemble de concepts [16], soit en clusterisant des objets puis

200

en extrayant une description associée à chaque clus-ter [17]. D’autres approches ont introduit l’utilisa-tion de connaissances lors de la construcl’utilisa-tion des clus-ters pour améliorer la pertinence des concepts extraits [13,9,20].

205

La qualité des résultats obtenus par ces approches reste variable tout comme le passage à l’échelle sur de grands volumes de données.

Ces approches d´edi´ees ne permettent pas facilement d’ajouter de nouvelles contraintes, ou de modifier la

210

fonction objectif. Ce point étant particulièrement im-portant dans notre contexte applicatif où nous souhai-tons évaluer la qualité de différents clusterings obtenus en considérant différents critères, nous nous sommes intéressés à des approches déclaratives telles que la

215

PPC et la PLNE.

2.3 PPC pour le clustering conceptuel

Guns a montré dans sa thèse [6] que la PPC fournit un cadre déclaratif permettant de facilement mod´ e-liser différents problèmes de recherche de motifs fr´

e-220

quents, et que les solveurs g´en´eriques de PPC peuvent ˆ

(5)

notamment proposé une modélisation utilisant des va-riables binaires pour exprimer le fait qu’un item ap-partient à l’intention d’un concept associé à un cluster.

225

Dao et al [4] ont proposé un nouveau modèle utilisant des variables ensemblistes, et ont montré que ce mo-dèle ensembliste a de bien meilleures performances en pratique que le modèle binaire. Nous décrivons ici ce modèle ensembliste.

230

Variables. Pour chaque transaction t ∈ T , la variable enti`ere Gtrepr´esente le cluster de t. Le nombre de

clus-ters est défini par une constante k donnée en entrée, et les clusters sont numérotés de 1 à k. Ainsi, chaque variable Gt a pour domaine D(Gt) = [1, k].

235

Pour chaque cluster c ∈ [1, k], la variable ensem-bliste Ec repr´esente l’ensemble des items de

l’inten-tion du concept formel associ´e au cluster c. Le do-maine de Ec est l’ensemble des sous-ensembles de I,

i.e., D(Ec) = P(I).

240

Contraintes. Les symétries (dues au fait que les clus-ters sont interchangeables) sont éliminées en posant une contrainte de précédence [11] :

precede(G, [1, k]).

Cette contrainte assure que la premi`ere transaction appartient au premier cluster (i.e., G1 = 1), et que

∀j ∈ [2, n], ∃l < j, Gl= Gj− 1.

Chaque cluster est contraint à posséder au moins une transaction à l’aide de la contrainte :

atLeast(1, G, k).

La contrainte d’extension est exprim´ee par : ∀c ∈ [1, k], ∀t ∈ T , Gt= c ⇔ Ec ⊆ {i ∈ I|tRi}.

La contrainte d’intention est exprim´ee par : ∀c ∈ [1, k], Ec = ∩t∈T ,Gt=c{i ∈ I|tRi}.

Chaque contrainte d’intention nécessite n contraintes de domaine réifiées pour construire l’ensemble Ic =

245

{t ∈ T |Gt= c}, et une contrainte element ensembliste.

Fonction objectif. Pour maximiser la fréquence mi-nimale des clusters, on introduit une variable entière F devant être maximisée. Son domaine est D(F ) = [1, m], et elle est contrainte à être inférieure ou égale à

250

la fr´equence de chaque cluster c ∈ [1, k] en posant une contrainte atLeast(F, G, c).

Pour maximiser la taille minimale des clusters, on introduit une variable entière T devant être maximisée. Son domaine est D(T ) = [1, n], et elle est contrainte

255

`

a être inférieure ou égale à la taille de chaque cluster c ∈ [1, k] en posant la contrainte T ≤ #Ec.

Si le cas n’a pas été explicitement étudié dans [4], on peut facilement étendre ce modèle pour maximiser la somme des tailles en ajoutant une variable S devant

260

ˆ

etre maximisée. Son domaine est D(S) = nk, et elle est contrainte à être égale à la somme des variables T .

Extension du modèle à un nombre variable de clus-ters. Le modèle introduit dans [4] suppose que le nombre de clusters est fixé par une constante k.

L’ex-265

tension au cas où le nombre de clusters n’est pas connu a priori est relativement triviale : il suffit d’introduire une constante kM ax, fixant le nombre maximal de clusters (si le nombre de clusters n’est pas borné, alors kM ax = m), et de définir k comme une variable

en-270

ti`ere de domaine D(k) = [2, kM ax]. Dans ce cas, la contrainte atLeast(1, G, k) n’a plus de raison d’ˆetre.

2.4 PLNE pour le clustering conceptuel

Ouali et al [15] ont proposé de combiner un outil dédié à l’extraction de motifs fréquents avec la PLNE

275

pour faire du clustering conceptuel : dans une étape de pré-traitement, l’ensemble de tous les concepts formels est calculé en utilisant un outil dédié à ce problème tel que LCM [19] ; la PLNE est utilisée ensuite pour s´ e-lectionner un sous-ensemble de ces concepts qui forme

280

une partition de T et qui optimise la fonction objectif. Plus précisément, soit F l’ensemble de tous les concepts formels calculés en pré-traitement. L’objec-tif est de sélectionner un sous-ensemble de F tel que chaque transaction de T appartienne à exactement un

285

concept formel du sous-ensemble, et optimise un cri-tère donné. Cela est modélisé en PLNE dans [15] de la fa¸con suivante.

Variables. Pour chaque concept formel f ∈ F , on introduit une variable binaire xf telle que xf = 1 ssi

290

le concept formel f est s´electionn´e.

La variable entière k correspond au nombre de concepts sélectionnés.

Contraintes. Pour garantir que l’ensemble des concepts s´electionn´es forme une partition de T on pose, pour chaque transaction t ∈ T , la contrainte :

X

f ∈F

atfxf = 1.

o`u atf = 1 si la transaction t appartient `a l’extension

du concept f .

(6)

Pour contraindre k à être égal au nombre de concepts sélectionnés, on pose la contrainte :

k =X

f ∈F

xf.

Enfin, on peut borner le nombre de concepts s´ elec-tionn´es k en posant la contrainte :

kM in ≤ k ≤ kM ax.

Fonction objectif. Un gain vf est associ´e `a chaque

concept formel f ∈ F : vf est ´egal `a la taille de f . La

fonction objectif `a maximiser est la somme des gains : X

f ∈F

vfxf.

Si le cas n’a pas été explicitement étudié dans [15], on peut facilement étendre le modèle pour maximiser le gain minimal d’un concept. Le gain vf est égal soit à la

taille de f , soit à sa fréquence, selon le critère choisi. Une variable vmin est introduite et est contrainte à

ˆ

etre inférieure ou égale au gain des concepts s´ election-nés en posant, pour chaque concept formel f ∈ F , la contrainte :

vmin≤ vfxf+ M (1 − xf)

où M est une constante positive supérieure au plus grand gain possible. La fonction objectif à maximiser est vmin.

3 Nouveaux mod`

eles PPC

Nous proposons de nous inspirer de l’approche de

300

[15], consistant à extraire dans une phase de pr´ e-traitement l’ensemble F de tous les concepts for-mels avec un outil dédié à ce problème, et nous pro-posons d’évaluer les capacités de la programmation par contraintes pour sélectionner le sous-ensemble de

305

concepts formels formant un clustering optimal. Nous proposons deux modèles utilisant des contraintes ensemblistes : le premier modèle associe une variable entière à chaque cluster (déterminant le concept formel associé au cluster) et pose une

310

contrainte ensembliste de partition sur l’ensemble des extensions des concepts formels associés aux clusters ; le second modèle utilise une variable ensembliste pour représenter le sous-ensemble de clusters sélectionnés et pose des contraintes member et card pour assurer

315

que ce sous-ensemble d´efinit bien une partition.

3.1 Modèle ensembliste basé sur les clusters Variables. Pour chaque cluster c ∈ [1, kM ax], on d´ e-finit une variable entière Gc déterminant le concept

formel associ´e au cluster c. Comme la solution

opti-320

male peut avoir moins de kM ax clusters, on introduit un concept formel vide : ce concept a le numéro 0, et son extension est l’ensemble vide, i.e., extent(0) = ∅. Nous supposons que les concepts formels de F sont numérotés de 1 à p. Par conséquent, le domaine de

325

chaque variable Gc est D(Gc) = [0, p] : si Gc ∈ [1, p],

alors le cluster c correspond au concept formel Gc ; si

Gc= 0 alors le cluster c est vide.

On introduit une variable enti`ere k qui repr´esente le nombre de clusters non vides de la solution, et

330

une autre variable enti`ere kempty qui repr´esente le

nombre de clusters vides de la solution. Leurs do-maines sont, respectivement, D(k) = [2, kM ax] et D(kempty) = [0, kM ax − 2].

Contraintes. Pour éliminer les symétries, dues au fait que les valeurs affectées à deux variables Gi et

Gj peuvent être interchangées, nous contraignons G à

prendre des valeurs croissantes par rapport `a un ordre d´efini sur F . Pour assurer que les extensions des clus-ters forment une partition de l’ensemble des transac-tions, nous posons une contrainte de partition [3] :

partition({extent(Gc)|c ∈ [1, kM ax]}, [1, m])

Pour assurer que le nombre de clusters vides est ´egal `

a kempty, nous posons la contrainte :

count(G, 0, kempty)

Enfin, nous assurons que k est ´egal au nombre de clus-ters non vides `a l’aide de la contrainte :

k + kempty= kM ax.

Fonction objectif. Un gain vf est associ´e `a chaque

concept formel f ∈ F . Selon les cas, ce gain peut être la fréquence ou la taille de f . La fonction objectif à maximiser peut être soit la somme des gains, i.e.,

kM ax

X

c=1

vGc

(et dans ce cas on d´efinit le gain du cluster vide par v0= 0), soit le gain minimal, i.e.,

min

c∈[1,kM ax]

vGc

(et dans ce cas on d´efinit le gain du cluster vide par

335

v0= ∞).

(7)

objectif. Dans les deux cas, les concepts formels sont

340

class´es par ordre d´ecroissant selon leur gain vf. Ainsi,

∀f, f0_{∈ F, f > f}0 _{⇔ v}

f < vf0.

Si le critère considéré est la taille, les solutions tendent à avoir un nombre de clusters proche de kM ax. Nous utilisons un sélecteur qui choisit la borne

345

minimale du domaine comme prochaine valeur pour la variable kempty. De la mˆeme mani`ere, pour chaque

variable Gc, les concepts formels de plus grande taille

sont d’abord choisis. Ainsi, les solutions avec un maxi-mum de clusters non vides sont recherch´ees en premier.

350

Si le critère considéré est la fréquence, les solutions tendent à avoir peu de clusters. Les variables de d´ eci-sion sont uniquement les variables Gc. Nous utilisons la

stratégie first fail qui consiste à sélectionner la variable avec le plus petit domaine comme prochaine variable à

355

instancier. De plus, le s´electeur des variables Gc

choi-sit la borne minimale du domaine comme prochaine valeur. Ainsi, les solutions avec le moins de clusters possibles sont explor´ees en premier.

3.2 Mod`ele ensembliste bas´e sur les transactions

360

Variables. Pour chaque transaction t ∈ T , nous d´ efi-nissons une variable enti`ere Ctd´eterminant le concept

sélectionné dont l’extension contient t : chaque tran-saction t doit appartenir à l’extension d’exactement un concept sélectionné, et l’ensemble des concepts

can-365

didats est l’ensemble des concepts dont l’extension contient t. Ainsi, pour chaque transaction t ∈ T , le domaine de Ctest D(Ct) = {f ∈ F | t ∈ extent(f )}.

Nous définissons une variable ensembliste P d´ eter-minant l’ensemble des concepts sélectionnés : chaque

370

concept appartenant `a P correspond `a un cluster. Le domaine de P est : D(P ) = P(F ).

La variable entière k définit le nombre de clusters de la solution (et donc la cardinalité de P ). Son domaine est : D(k) = [2, kM ax].

375

Contraintes. On assure que, pour chaque transaction t ∈ T , Ctest un ´el´ement de l’ensemble P en posant la

contrainte :

member(Ct, P )

On assure que, pour chaque transaction t ∈ T , il y a exactement un concept formel de P dont l’extension contient t (autrement dit, les extensions des concepts de P forment une partition de l’ensemble des transac-tions) en vérifiant que l’intersection entre P et l’en-semble des concepts dont t appartient à l’extension contient un seul élément, i.e.,

∀t ∈ T , card({f ∈ F | t ∈ extent(f )} ∩ P ) = 1 Enfin, le nombre de clusters de la solution est contraint avec la contrainte card(P ) = k, assurant que

le nombre d’éléments de P est égal à k, i.e., le nombre de clusters est égal à k.

Fonction objectif. Comme pour le modèle précédent,

380

la fonction objectif est d´efinie en associant un gain vf

`

a chaque concept formel f .

Stratégie de recherche. Les concepts formels sont classés par ordre décroissant selon leur gain vf. Les

variables de d´ecision sont uniquement les variables Ct

385

avec une strat´egie first fail. De plus, le s´electeur des variables Ct choisit la borne minimale du domaine

comme prochaine valeur.

4 Comparaison exp´

erimentale des diff´

e-rents mod`

eles

390

Dans cette section, nous comparons l’efficacit´e de nos mod`eles par rapport aux approches de Ouali et al. [15] et de Bich et. al [4].

Protocole expérimental. Toutes les exp´ erimenta-tions ont été menées sur un Intel(R) Core(TM) i7-6700

395

avec 3.40GHz de CPU et 65GB de RAM. Nous avons utilisé LCM [19] pour extraire les concepts formels, Ge-code v4.3 pour les modèles PPC et Cplex v12.7 pour le modèle PLNE. Dans chaque modèle, nous avons fixé kM ax, le nombre de cluster maximal, à m−1, m étant

400

le nombre de transactions de l’instance. Chaque r´ eso-lution a été limitée à deux heures de temps CPU.

Description des instances. Nous avons considéré quatre instances classiques en apprentissage automa-tique et utilisées dans [15] : zoo, vote, tic-tac-toe et

405

mushroom. Nous avons également considéré quatre

Table 3 – Description des jeux de donn´ees : chaque ligne donne successivement le nom du jeu de don-n´ees, le nombre de transactions, le nombre d’items, le nombre de concepts, et le temps (en secondes) mis par LCM pour extraire les concepts.

(8)

Table 4 – Comparaison des temps de résolution : chaque ligne donne successivement le nom de l’instance, et les résultats pour les trois critères à maximiser (taille minimale, fréquence minimale, et somme des tailles). Pour chaque critère, nous donnons les temps CPU (en secondes) des trois modèles PPC (FullCP, CB et TB) et du modèle PLNE (LP). Pour les modèles CB, TB et LP, le temps CPU comprend le temps mis par LCM pour extraire les concepts formels. Le symbole “-” indique que le temps dépasse la limite de 2h.

Instance (1) - Max. taille minimale (2) - Max. fr´equence minimale (3) - Max. somme des tailles

FullCP CB TB LP FullCP CB TB LP FullCP CB TB LP

ERP 1 0,6 0,3 0,0 0,4 0,1 0,2 0,1 0,4 - - - 0,1 ERP 2 6,3 4,8 0,4 3,7 3,5 6,1 0,6 14,4 - - - 1,1 ERP 3 5,9 24,0 2,6 2 356,9 12,0 282,6 6,7 159,9 - - - 7,3 ERP 4 74,6 457,9 35,6 - 1 613,2 - 204,6 - - - - 92,0 zoo 1,7 0,8 0,1 0,2 0,4 0,4 0,1 2,5 - - - 0,2 vote 2885,6 1478,0 46,6 - - - 10,2 - - - - 29,2 tic-tac-toe - - 240,4 484,6 1 115,1 5 982,0 10,1 684,9 - - - 5,7 mushroom - - - 1 577,5 - - - -

-instances construites à partir de notre base de pa-ramétrages. Cette base comporte 400 paramétrages, chaque paramétrage correspondant à une installation de l’ERP Copilote chez un client différent. Chacun de

410

ces paramétrages spécifie les valeurs de près de 450 paramètres (chaque paramètre pouvant prendre un nombre fini de valeurs différentes). Nous avons trans-formé chaque couple paramètre/valeur en un item booléen et extrait quatre instances de tailles diff´

e-415

rentes pour pouvoir ´evaluer plus finement le passage `

a l’échelle des différentes approches considérées. La table3présente les caractéristiques de chaque instance ainsi que le temps d’extraction des concepts formels avec LCM. Nous pouvons remarquer que ce temps d´

e-420

pend du nombre de concepts formels (la complexité de LCM est linéaire par rapport à #F ), et est relative-ment court. Par exemple, les 728 537 concepts formels de l’instance ERP 4 sont extraits en moins de six se-condes.

425

Modèles comparés. Nous avons comparé les deux modèles décrits dans la partie2.2, à savoir l’approche de Ouali et al. [15] (appelée LP) et celle de Dao et al. [4] (appelée FullCP), avec nos deux modèles introduits dans la partie3: le modèle basé sur les clusters (appelé

430

CB) et celui basé sur les transactions (appelé TB). La table 4compare les temps de résolution des dif-férents modèles pour les trois critères d’optimisation considérés. Pour les modèles CB, TB et LP, le temps CPU comprend le temps de pré-traitement (i.e., le

435

temps mis par LCM pour extraire les concepts for-mels).

Temps de résolution pour les critères (1) et (2). Quand le critère considéré est la maximisation du mi-nimum de la taille (1) ou de la fréquence (2), le modèle

440

TB domine tous les autres mod`eles sur l’ensemble des

instances. Il est souvent un ordre de grandeur plus ra-pide que les autres mod`eles. Cependant, il ne trouve pas la solution optimale dans le temps imparti pour l’instance mushroom pour le minimum de la taille (1).

445

Cela s’explique probablement par le nombre de tran-sactions plus important (103) compar´e aux autres ins-tances (de 101 _`_{a 10}2_).

La différence de performance du modèle TB avec le modèle CB est probablement due à l’efficacité de la

450

strat´egie first fail qui permet de choisir la variable Ct

ayant le moins de concepts formels dans son domaine. Dans les deux mod`eles, l’espace des concepts candi-dats (i.e., les concepts dont l’extension n’a aucune transaction appartenant aux extensions des concepts

455

déjà sélectionnés) est réduit de la même manière par la contrainte de partition. En revanche, le modèle TB choisit en priorité les concepts contenus dans la tran-saction ayant le moins de candidats (contrairement au modèle CB), et réduit ainsi efficacement l’espace de

460

recherche pour converger plus rapidement vers la so-lution optimale. De plus, l’heuristique de CB sur le nombre de clusters vides n’est pas toujours efficace, comme par exemple pour tic-tac-toe avec le crit`ere (2). Nous pouvons noter les bonnes performances de

465

FullCP sur les instances ERP : FullCP est capable de résoudre toutes ces instances (pour les critères (1) et (2)), et il est souvent plus rapide que CB et LP. En revanche, il n’est capable de résoudre que la moitié des quatre instances académiques.

470

Enfin, le modèle LP est toujours moins efficace que TB et ne parvient pas à résoudre trois instances (ERP 4, vote et mushroom) pour les critères (1) et (2). Le plus grand nombre de concepts formels de ces instances (105 _{contre 10}4 _{et 10}3_{) explique probablement cette}

475

(9)

Table 5 – Temps CPU (en secondes) pour trouver la solution optimale avec le mod`ele TB quand le crit`ere est la maximisation de la somme des tailles (3).

Instance Temps ERP 1 0,1 ERP 2 1,1 ERP 3 9,4 ERP 4 815,8 zoo 0,3 vote 831,2 tic-tac-toe 930,4

Temps de résolution pour le critère (3). Quand le critère considéré est la maximisation de la somme des tailles, la seule approche capable de résoudre des ins-tances est LP. Les approches PPC ne résolvent aucune

480

instance en moins de deux heures, alors que certaines instances (ERP 1 et zoo) sont r´esolues en moins d’une seconde par la PLNE.

Cependant, nous avons constaté que le modèle TB trouve très rapidement la solution optimale. De fait,

485

pour les huit instances considérées, la première solu-tion trouvée par TB est la solution optimale. Les temps mis pour trouver cette solution sont donnés dans la table5. Ces temps sont inférieurs à 10 secondes pour ERP 1, ERP 2, ERP 3 et zoo, et ils sont inférieurs à

490

1000 secondes pour ERP 4, tic-tac-toe et vote. Ainsi, TB trouve relativement rapidement la solution opti-male mais n’est pas capable de prouver l’optimalité dans la limite de deux heures. Cela provient probable-ment des heuristiques de choix considérées, qui

per-495

mettent de guider la recherche vers les bonnes solu-tions mais ne sont pas efficaces pour prouver l’optima-lit´e.

5 Comparaison de la qualit´

e des solutions

en fonction des crit`

eres

500

Dans cette section, nous comparons les clusterings calculés en fonction des critères considérés dans la fonction objectif.

Mesures de performance. Pour évaluer la qualité des clusterings obtenus, nous avons utilisé deux me-sures classiques de performance, i.e., la similarité intra-cluster (ICS) et la dissimilarité inter-cluster (ICD). La similarité entre deux transactions est d´ e-finie par la fonction s : T × T → [0, 1] telle que s(t, t0) correspond au ratio entre la taille de l’intersection des items de t et t0 et la taille de leur union :

s(t, t0) = #{i ∈ I : tRi ∧ t

0_Ri}

#{i ∈ I : tRi ∨ t0_Ri}

ICS est la similarité moyenne des paires de transac-tions appartenant à un même cluster :

ICS(C1, . . . , Ck) = 1 2 k X i=1 ( X t,t0_∈C_i (s(t, t0)))

Plus ICS est proche de 1, et plus les clusters sont homo-gènes (i.e., deux transactions à l’intérieur d’un même

505

cluster partagent une grande proportion d’items). ´ Evi-demment, cette mesure doit être mise en perspective avec le nombre de transactions dans chaque cluster : une partition où chaque cluster comporte une seule transaction a une valeur ICS égale à 1.

510

ICD est la dissimilarité moyenne des paires de tran-saction appartenant à des clusters différents :

ICD(C1, . . . , Ck) = X 1≤i<j≤k ( X t∈T_Ci,t0_∈T Cj (1 − s(t, t0)))

Plus ICD est proche de 1, et plus les clusters sont bien séparés (i.e., deux transactions appartenant à des clus-ters différents partagent peu d’items). Là encore, cette mesure doit être mise en perspective avec le nombre de clusters : une partition comportant un seul cluster

515

a une valeur ICD ´egale `a 1.

La table6 donne, pour chaque instance, le nombre k de clusters ainsi que les valeurs ICS et ICD des clus-terings optimaux selon chacun des trois critères consi-dérés.

520

´

Evaluation pour les critères liés à la taille. Consid´ e-rons tout d’abord les résultats obtenus lorsque le cri-tère à optimiser est lié à la taille des clusters : (1) maxi-miser la taille minimale ou (3) maximaxi-miser la somme des tailles. Dans ce cas, la fusion de deux clusters ne

525

peut que dégrader la qualité de la solution, et donc les solutions optimales ont tendance à avoir un grand nombre de clusters. En pratique, nous observons que pour toutes les instances considérées, le nombre k de clusters dans la solution optimale pour les critères (1)

530

et (3) est ´egal `a kM ax = m − 1. Autrement dit, tous les clusters ont une seule transaction sauf un qui en a deux. Cela vient du fait que, pour toutes les ins-tances, chaque transaction est un concept formel (au-trement dit, pour chaque transaction tj, il n’existe pas

535

de transaction tk telle que l’ensemble des items de tj

soit strictement inclus dans l’ensemble des items de tk,

et donc extent(intent({tj})) = {tj}). La cons´equence

imm´ediate du fait que les solutions optimales pour les crit`eres (1) et (3) ont m − 1 clusters est que ICS est

540

très proche de 1. Nous observons que pour toutes les instances sauf deux (ERP 3 et zoo) les solutions cal-culées avec les critères (1) et (3) ont des ICS et ICD identiques. Pour ERP 3 et zoo, ICS et ICD sont très proches.

(10)

Table 6 – Comparaison de la qualité des clusters : chaque ligne donne successivement le nom de l’instance, et la valeur de k, ICS et ICD de la solution optimale pour chacun des trois critères considérés ((1) - maximiser la taille minimale, (2) - maximiser la fréquence minimale, et (3) - maximiser la somme des tailles).

Instance (1) - taille min. (2) - fr´eq. min. (3) - somme tailles k ICS ICD k ICS ICD k ICS ICD ERP 1 49 0,9971 0,4956 2 0,5494 0,5409 49 0,9971 0,4956 ERP 2 83 0,9988 0,3769 2 0,6719 0,4220 83 0,9988 0,3769 ERP 3 94 0,9966 0,3429 2 0,7242 0,3876 94 0,9993 0,3311 ERP 4 159 0,9996 0,3424 2 0,7072 0,3945 159 0,9996 0,3424 zoo 58 0.9980 0.5724 2 0,4912 0,5937 58 0,9945 0,5709 tic tac toe 957 0,9996 0,7724 3 0,2919 0,8042 957 0,9996 0,7724 vote 340 0,9997 0,6720 3 0,4279 0,7277 340 0,9997 0,6720 mushroom - - - 2 0,3793 0,7671 - -

-´

Evaluation pour le critère lié à la fréquence. Consi-dérons maintenant les résultats obtenus lorsque le cri-tère à optimiser est (2) maximiser la fréquence mini-male. Dans ce cas, l’éclatement d’un cluster en deux clusters ne peut que dégrader la qualité de la solution,

550

et donc les solutions optimales ont tendance à avoir un petit nombre de clusters. En pratique, toutes les solu-tions optimales ont 2 clusters, sauf tic-tac-toe et vote qui ont 3 clusters. Dans ce cas, ICS est nettement in-férieure à 1 : en moyenne, les transactions d’un même

555

cluster partagent entre 29% (pour tic-tac-toe) et 72% (pour ERP 3) d’items. En contrepartie, ICD est plus importante que pour les critères (1) et (3) qui privi-légient la taille : pour le critère (2), la dissimilarité moyenne de transactions de deux clusters différents

560

varie entre 39% (pour ERP 3 et ERP 4) et 80% (pour tic-tac-toe), tandis que pour les crit`eres (1) et (3), elle varie entre 33% ou 34% (pour ERP 3 et ERP 4) et 77% (pour tic-tac-toe).

6 Conclusion

565

Nous avons proposé une nouvelle approche de clus-tering conceptuel basée sur la programmation par contraintes où l’ensemble des concepts formels est ex-trait dans une étape de pré-traitement. L’évaluation expérimentale montre que notre approche est plus

effi-570

cace en comparaison avec des travaux récents pour des fonctions objectifs maximisant un minimum, obtenant des clusterings de qualité similaire à ceux obtenus en maximisant la somme des tailles des clusters.

Dans cette première série d’expérimentations, nous

575

n’avons pas introduit de contraintes liées à notre appli-cation. En particulier, le nombre k de clusters n’est pas contraint et peut prendre n’importe quelle valeur com-prise entre 2 et m − 1. Les premiers résultats montrent que cela ne permet pas d’extraire des clusters à haute

580

valeur ajout´ee pour les experts : pour les crit`eres (1)

et (3) qui privilégient la taille des clusters, les clusters sont trop nombreux et spécialisés, tandis que pour le critère (2) qui privilégie la fréquence des clusters, ils sont trop peu nombreux et généraux.

585

Aussi prévoyons-nous dans la suite de nos travaux de rechercher des clusterings plus pertinents en explorant plusieurs pistes. Tout d’abord, nous proposons d’´ eva-luer l’intérêt d’ajouter des contraintes sur la fréquence, la taille et/ou le nombre de clusters, ainsi que d’utiliser

590

de nouveaux critères comme l’aire d’un concept, i.e., le produit de sa taille et de sa fréquence, permettant de considérer en même temps ces deux critères.

Par ailleurs, nous proposons d’appliquer it´ erative-ment notre proc´edure de clustering afin de calculer

595

une hi´erarchie de clusterings en adoptant soit une d´ e-marche descendante (partitionner progressivement les clusters en partant d’un unique cluster comportant toutes les transactions) ou ascendante (fusionner pro-gressivement les clusters en partant d’une partition

600

comportant un cluster par transaction).

Enfin, nous souhaitons également adapter notre mo-dèle pour faire du bi-clustering étant donné que dans notre cas d’application, un paramétrage peut contenir plusieurs concepts de paramétrage.

605

R´

ef´

erences

[1] Solutions, p.c. : Panorama consulting solutions re-search report - 2016 erp report, 2016.

[2] M. Munir Ahmad and Ruben Pinedo Cuenca. Critical success factors for erp implementation in

610

smes. Robot. Comput.-Integr. Manuf., 29(3) :104– 111, June 2013.

[3] Christian Bessiere, Emmanuel Hebrard, Brahim Hnich, and Toby Walsh. Disjoint, Partition and Intersection Constraints for Set and Multiset

Va-615

(11)

[4] Thi-Bich-Hanh Dao, Willy Lesaint, and Christel Vrain. Clustering conceptuel et relationnel en pro-grammation par contraintes. In JFPC 2015,

Bor-620

deaux, France, June 2015.

[5] Douglas H. Fisher. Knowledge acquisition via in-cremental conceptual clustering. Mach. Learn., 2(2) :139–172, September 1987.

[6] Tias Guns. Declarative pattern mining using

625

constraint programming. Constraints, 20(4) :492– 493, 2015.

[7] Stephen Jos´e Hanson and Malcolm Bauer. Conceptual clustering, categorization, and poly-morphy. Machine Learning, 3(4) :343–372, 1989.

630

[8] L. Hossain. Enterprise Resource Planning : Global Opportunities and Challenges : Global Opportuni-ties and Challenges. IRM Press, 2001.

[9] A. Hotho and G. Stumme. Conceptual clustering of text clusters. In G. K´okai and J. Zeidler,

edi-635

tors, Proc. Fachgruppentreffen Maschinelles Ler-nen (FGML 2002), pages 37–45, 2002.

[10] Istvan Jonyer, Lawrence B. Holder, and Diane J. Cook. Graph-based hierarchical conceptual clus-tering in structural databases. In Henry A. Kautz

640

and Bruce W. Porter, editors, AAAI/IAAI, page 1078. AAAI Press / The MIT Press, 2000. [11] Yat Chiu Law and Jimmy H. M. Lee. Global

Constraints for Integer and Set Value Precedence, pages 362–376. Springer Berlin Heidelberg, 2004.

645

[12] R.S. Michalski. Knowledge Acquisition Through Conceptual Clustering : A Theoretical Frame-work and an Algorithm for Partitioning Data Into Conjunctive Concepts. Report (University of Illi-nois at Urbana-Champaign. Dept. of Computer

650

Science). Department of Computer Science, Uni-versity of Illinois at Urbana-Champaign, 1980. [13] Brian Neil Mogensen. Goal-oriented

concep-tual clustering : The classifying attribute ap-proach. Coordinated Science Laboratory Report

655

no. UILU-ENG-87-2257, 1987.

[14] Jaideep Motwani, Ram Subramanian, and Pra-deep Gopalakrishna. Critical factors for successful erp implementation : Exploratory findings from four case studies. Comput. Ind., 56(6) :529–544,

660

August 2005.

[15] Abdelkader Ouali, Samir Loudni, Yahia Lebbah, Patrice Boizumault, Albrecht Zimmermann, and Lakhdar Loukil. Efficiently finding conceptual clustering models with integer linear

program-665

ming. In Proceedings of the Twenty-Fifth In-ternational Joint Conference on Artificial Intel-ligence, IJCAI 2016, New York, NY, USA, 9-15 July 2016, pages 647–654, 2016.

[16] Ruggero G. Pensa, C´eline Robardet, and

Jean-670

Fran¸cois Boulicaut. A Bi-clustering Framework for Categorical Data, pages 643–650. Springer Berlin Heidelberg, Berlin, Heidelberg, 2005. [17] Mike Perkowitz and Oren Etzioni. Towards

adap-tive web sites : Conceptual framework and case

675

study. Artificial Intelligence, 118(1) :245 – 275, 2000.

[18] Lionel Robert, Ashley R. Davis, and Alexander McLeod. Erp configuration : Does situation awa-reness impact team performance ? 2011 44th

Ha-680

waii International Conference on System Sciences (HICSS 2011), 00(undefined) :1–8, 2011.

[19] Takeaki Uno, Tatsuya Asai, Yuzo Uchida, and Hi-roki Arimura. An Efficient Algorithm for Enume-rating Closed Patterns in Transaction Databases,

685

pages 16–31. Springer Berlin Heidelberg, 2004. [20] Kiri Wagstaff, Claire Cardie, Seth Rogers, and

Stefan Schr¨odl. Constrained k-means clustering with background knowledge. In Proceedings of the Eighteenth International Conference on Machine

690