Fondements théoriques - : Une approche multi-agents coopératifs pour le clustering de données v

Chapitre IV : Une approche multi-agents coopératifs pour le clustering de données via un

IV.2. Fondements théoriques

Pour atteindre notre but dans le présent chapitre, on doit utiliser quelques techniques, approches, et outils. Dans cette section, nous abordons les fondements théoriques relatifs à l’approche proposée, à savoir : l’ERP, le Data Mining, le Clustering de données, les fonctions de mesure de similarité, et l’algorithme du clustering « K-Means ».

IV.2.1. Progiciels de gestion intégrés (ERP)

La référence (MARKESS, 2013) [12] définit une solution de gestion intégrée, également dénommée ERP (Entreprise Resource Planning) ou PGI comme étant :

 Une solution logicielle paramétrable et modulaire permettant la gestion de plusieurs processus fonctionnels ou opérationnels d’une entreprise (des achats, des approvisionnements, de la GRH, comptable et /ou financière, de la production, des stocks, des ventes, de la relation client, etc.).

 Les processus gérés sont intégrés de manière modulaire (module fonctionnel par module fonctionnel), tout en partageant une base de données unique et centrale.  La solution doit couvrir au moins deux domaines fonctionnels différents (par

exemple, RH et comptabilité/finance, ou encore comptabilité/finance et gestion commerciale…).

A partir de cette définition (MARKESS, 2013), nous remarquons que la centralisation de données sur une grande base de données représente une caractéristique primordiale du système ERP. Celle-ci assure une intégration complète de l’ensemble des processus fonctionnels clés de l’entreprise couvrant les domaines financier, ressources humaines, logistique, production, marketing et vente…etc. [185].

IV.2.2. Data Mining et Clustering de données

Comme nous avons vu dans le chapitre II que le KDD (Knowledge Discovery in Data) représente un processus non-trivial d’extraction des connaissances implicites, précédemment

Data Mining ». [191] et [192]. L’étape de Data Mining est le cœur de ce processus qui permet l’extraction, la découverte des connaissances utiles et des modèles cachés dans des grandes bases de données ou des entrepôts de données. [47].

La technologie de Data Mining utilise plusieurs méthodes et divers algorithmes pour accomplir ses tâches d’extraction des connaissances. Dans le cadre de ce chapitre, nous travaillons sur la tâche de clustering de données dans le but de découvrir de la grande base de données ERP, des groupes des données similaires formant des clusters de données ERP homogènes, non identifiés à l’avance, ayant les mêmes caractéristiques. Les clusters produits doivent contenir des objets partageant un haut degré de similarité (maximisation de la similarité intra-cluster) et avec une minimisation de la similarité inter-cluster. La similarité entre les objets est également mesurée par une fonction de distance, selon le type de données employées.

IV.2.3. Mesure de similarité

La mesure de similarité ou ressemblance (proximité) est une partie importante de la définition de la méthode de clustering. Elle a pour but de définir et formaliser une fonction de similarité, qui permet de mesurer les liens entre les objets (points, images, classes, phonème...), adaptés aux caractéristiques des données utilisées. A cet effet, plusieurs notations comme la similarité, la dissimilarité ou la distance peuvent être utilisées pour mesurer le lien entre les différents objets d’un même ensemble :

1. Similarité : si sa valeur est grande, le lien entre deux objets sera plus fort. 2. Dissimilarité : si sa valeur est petite, le lien entre deux objets sera plus fort.

3. Distance : si les mesures ont des propriétés de non-négativité, réﬂexivité, symétrie et respectent l’inégalité triangulaire, nous utilisons souvent la « distance » comme une mesure de similarité entre les objets.

Dans la littérature, il existe un nombre considérable des fonctions des mesures de distances entre les objets. Elles sont toujours liées au type de données employées telles que les données numériques ou bien les données nominales…etc. Dans ce qui suit, nous présentons quelques fonctions les plus populaires pour mesurer la distance entre deux objets (Xi et Xj) de type numérique (continues ou discrètes) :

 La distance d(Xi,Xj) de Minkowski d’ordre α définie par :

Où m décrit le nombre de données quantitatives discrètes ou continues et α ≥ 1  Si ∞ =1, la distance d(Xi,Xj) est celle de City-block ou Manhattan :

 α = ∞, d(Xi,Xj) est la distance de Chebyshev :

Dans la plupart des cas on utilise la distance euclidienne. Cependant l’utilisation de distance de Manhattan est parfois utile, notamment pour amoindrir l’effet de larges différences dues aux points aberrants, car leurs coordonnées ne sont pas élevées au carré. Les résultats de distance de Manhattan sont similaires dans la plupart des cas à ceux de résultats de distance euclidienne.

IV.2.4. Algorithme K-Means

K-Means est l'algorithme de clustering le plus populaire et le plus utilisé dans la catégorie de l'apprentissage non supervisé. Il a pour but de diviser une population donnée en K groupes homogènes appelés clusters de telle sorte à avoir dans chaque cluster les données qui ont des caractéristiques de similarité forte, et que les clusters entre eux doivent être différents les uns des autres. K-Means est un algorithme du clustering itératif qui permet de minimiser la distance entre les individus et les centres des clusters. Le fonctionnement de l'algorithme k-Means se déroule comme suit [182], [200] et [206] :

Figure IV-1 : Fonctionnement de l’algorithme K-Means

Pendant la première étape, le choix des centres des clusters initiaux est extrêmement important puisqu’il a une influence directe sur le résultat final du Clustering. Il est donc très important de choisir des clusters bien séparés [200]. L'algorithme de base « K-Means » basé sur une initialisation aléatoire. Dans la littérature, il existe des travaux pour améliorer cette étape puisqu'elle influe sur le résultat final du clustering. Dans le reste de ce chapitre nous nous intéressons à modéliser cet algorithme par le paradigme du système Multi-agents afin de distribuer la complexité de traitement du clustering de données ERP entre plusieurs agents autonomes et coopératifs.

1. Choisir k objets formant ainsi k clusters qui représentent la position moyenne des partitions M1(1),…,Mk(1) initiales.

2. (Ré) affecter chaque objet Oj au cluster Ci de centre Mi tel que dist(Oj,Mi) est minimal Ci(t) = {Oj : || Oj ــ Mi(t)|| ≤ || Oj ــ Mi* (t)|| tel que i* = 1,2, …, k}

3. Recalculer Mi de chaque cluster (le barycentre) 4. Aller à l’étape 2 s’il faut faire une affectation

5. Refaire les étapes (2) et (4) jusqu’à ce qu’il n’y est aucun changement du calcul des centres des clusters Ci(t) ou une stabilité des objets.

Figure IV-2 : Organigramme de fonctionnement du K-Means [200]

Dans le document Une approche à base d’agents pour Data Mining à travers un ERP (Page 86-89)