Conception d un outil décisionnel pour la gestion de la relation client dans un site de e-commerce

(1)

ELECTRONIC,

TECHNOLOGIES OF INFORMATION AND TELECOMMUNICATIONS

MARCH 27-31, 2005 – TUNISIA

Conception d’un outil décisionnel pour la gestion de la relation client dans un site de e-commerce

Nazih SELMOUNE

^*

, Saida BOUKHEDOUMA

^*

and Zaia ALIMAZIGHI

^*

*Laboratoire des Systèmes Informatiques(LSI )- USTHB - ALGER [email protected]

[email protected] [email protected]

Résumé

Les entreprises soucieuses de leur progrès tentent à satisfaire continuellement leurs clients potentiels.

L’utilisation du e-commerce, l’essor des technologies liées à l’internet fait naître de nouvelles attentes de la part des clients et des collaborateurs. Ceci oblige ces entreprises à prendre les décisions adéquates en vue de répondre aux exigences de leurs clients, en examinant leur comportement sur son site de e-commerce. L’analyse du marché pour une entreprise donnée repose sur la quantité importante d’informations provenant de son site web marchand. Cette analyse peut se faire en exploitant les entrepôts de données (ED) ou data warehouse (DW) d’une part et les outils de data mining ou de fouille de données pour une classification (profilage) des clients d’autre part, car l’aide à la décision peut nécessiter de comprendre plus profondément les chiffres et les faits de l’entreprise. Le présent article décrit la conception, l’architecture et quelques fonctionnalités d’un outil d’aide à la décision pour la gestion de la relation client sur un site de e-commerce.

Mots clés

E-CRM , Data warehouse, Data Mining, modèle multidimensionnel, OLAP.

1. Introduction

De nombreuses entreprises ont bâti en partie leurs succès grâce à une politique de constante innovation technologique et ont su utiliser les nouvelles technologies, depuis longtemps, pour acquérir de nouveaux marchés et viser de nouveaux clients. De plus en plus sensibilisés au web, ils veulent accéder directement de façon personnalisée et sécurisée, au service de l’entreprise et de ses partenaires.

Partant de ce fait, les entreprises ont senti le besoin et la nécessité de prendre certaines décisions pour répondre aux attentes de ce nouveau type de clients qui se manifeste via ce nouveau canal d’interactions. La connaissance de l’environnement décisionnel est un élément vital dans la prise de décision. Par exemple la connaissance de clients et de leur comportement d’achat constitue un élément décisionnel pour le lancement d’un produit.

L’anayse du marché pour une entreprise donnée aura comme référence les données qui découlent de son site web marchand.

Les entreprises possèdent donc, d’importants volumes de données aux formats généralement hétérogènes, ce qui nécessite l’utilisation d’un outil permettant l’exploitation efficace et performante de ces données pour aider l’entreprise à la prise de décision, d’où la naissance des entrepôts de données (ED) ou data warehouse (DW) (Inmon, 1996b),(Kimball & al, 2000). Cette approche vise à extraire des données de bases de production, à les assembler, par sujet, à les organiser, à les transformer et à les résumer pour l’aide à la décision. L’entrepôt doit pouvoir mémoriser l’histoire de l’entreprise.

Pour mieux connaître sa clientèle, une entreprise peut décider d’effectuer une classification basée sur le comportement des clients. Ceci implique la nécessité de mettre en place des outils de data mining ou fouille de données . Ces outils reposent en général sur des techniques basées sur les

(2)

statistiques, la classification ou l’extraction de règles associatives (Gardarin, 2000).

Le travail présenté dans cet article consiste en la conception et la mise en œuvre d’un outil d’aide à la décision basé sur les techniques de DW et de data mining, susceptible d’assister les entreprises de ventes sur internet , dans la prise de leurs décisions.

La suite du document est organisée comme suit : La section 2 présente les concepts de base du décisionnel, à savoir les entrepôts de données (ED) et le data mining.

La section 3 présente le concept d’aide à la décision dans la gestion de la relation client.

La section 4 décrit la conception de l’outil réalisé pour l’aide à la décision. En effet, elle présente les vues statique et dynamique du système en utilisant quelques diagrammes d’UML, le modèle multidimensionnel selon deux axes ventes et visites. Une description d’un algorithme de groupage est aussi donnée dans cette section. Enfin, quelques figures montrant les principales fonctionnalités de l’outil sont données dans la section 5.

2. Concepts de base des systèmes d’aide à la décision :

Nous présentons dans ce qui suit quelques concepts de base, concernant les systèmes d’aide à la décision et notamment, les entrepôts de données : 2.1 Entrepôt de données (data warehouwse) : Un entrepôt de données (ED) ou data warehouse (DW) se définit selon W. INMON comme étant un ensemble de données intégrées, orientées sujet, non volatiles, gérées dans un environnement de stockage particulier, historisées, résumées, disponibles pour l’interrogation et l’analyse et organisées pour le support d’un processus d’aide à la décision (Bret & al, 2001) .

Les données d’un ED possèdent les caractéristiques suivantes (Teste, 2000) , (Raval & al, 2001) :

Intégrées

Les données de l’entrepôt proviennent de différentes sources éventuellement hétérogènes. L’intégration consiste à résoudre les problèmes d’hétérogénéité des systèmes de stockage, des modèles de données, de sémantique de données.

Orientées sujet

Après leur intégration dans une sorte de source globale, les données sont réorganisées autour de thèmes tels que : client, vendeur, produit…etc.

Chaque décideur d’une entreprise doit disposer d’une vue sur les informations qui lui sont pertinentes, et qui peuvent influer dans ses décisions pour une meilleure exploitation de ces données.

Non volatiles

Tout se conserve, rien ne se perd : cette caractéristique est primordiale dans les ED. En effet, et contrairement aux bases de données classiques, un ED est accessible en ajout ou en consultation uniquement. Les modifications ne sont autorisées que pour des cas particuliers (correction d’erreurs…etc.).

Historisées

La conservation de l’évolution des données dans le temps, constitue une caractéristique majeure des ED. Elle consiste à s’appuyer sur les résultats passés pour la prise de décision et faire des prédictions ; autrement dit, la conservation des données afin de mieux appréhender le présent et d’anticiper le futur.

Résumées

Les informations issues des sources de données doivent être agrégées et réorganisées afin de faciliter le processus de prise de décision.

Disponibles pour l’interrogation et l’analyse

Les utilisateurs doivent pouvoir consulter les données en fonction de leurs droits d’accès.

L’ED doit comporter un module de traitement des requêtes, exprimées dans un langage, doté d’opérateurs puissants, pour l’exploitation de la richesse du modèle.

2.2 Architecture d’un entrepôt de données : L’architecture d’un ED, représentée dans la figure 1, s’articule autour de trois phases : l’intégration, la restructuration, et l’exploitation (Inmon, 1996b).

Figure 1.1 : Architecture d’un entrepôt de données

(3)

Intégration :

Cette première étape, est assez délicate, car elle consiste à extraire et regrouper les données, provenant de sources multiples, et hétérogènes.

Un certain nombre de problèmes est à résoudre à ce niveau : les données doivent être filtrées, triées, homogénéisées et nettoyées.

Structuration :

Cette étape consiste à réorganiser les données, dans des magasins afin de supporter efficacement les processus d’analyse et d’interrogation, et d’offrir aux différents utilisateurs, des vues appropriées à leurs besoins.

Interrogation et Analyse :

L’exploitation de l’entrepôt, pour l’aide à la décision peut se faire de différentes façons, dont :

l’interrogation à travers un langage de requêtes,

La connexion à des composants de report, pour des représentations graphiques et tabulaires,

L’utilisation des techniques OLAP (OnLine Analytical Process ),

L’utilisation des techniques de fouille de données (Data Mining).

2.3 Modèle Multidimensionnel (Bret & al, 2001): Les modèles basés sur le concept multidimensionnel, sont les plus appropriés, à capturer les caractéristiques des DW. Ils permettent en effet, de donner une vision simple, et facilement interprétable par des non informaticiens, et de visualiser les données selon différentes dimensions.

Le modèle multidimensionnel contient deux types d’attributs : les dimensions et les mesures. Les dimensions sont les valeurs numériques que l’on compare, les dimensions sont les points de vue depuis lesquels les mesures peuvent être observées.

La modélisation multidimensionnelle est illustrée par des cubes de données ou des hypercubes.

Les données représentées sur l’hypercube peuvent être sujettes à une analyse OLAP.

Le terme OLAP (OnLine Analytical Process) désigne communément, un ensemble de fonctionnalités qui servent à faciliter l’analyse multidimensionnelle, opérations réalisables sur l’hypercube, parmi lesquelles nous citons : la rotation, la coupe, le pliage et le dépliage (Codd, 1993 ), (Chaudrui,1997).

2.4 La fouille de données (Data mining)

Le data mining fait référence à un ensemble de techniques d’exploration et d’analyse, par des moyens automatiques ou semi-automatiques, d’une masse importante de données dans le but de découvrir des tendances cachées ou des règles significatives (non triviales, implicites et potentiellement utiles) (Gardarin, 2000), (Inmon, 1996a). Les outils de data mining reposent en général, sur des techniques basées sur les statistiques, la classification ou l’extraction de règles associatives.

Objectifs du data mining

Les objectifs du Data Mining peuvent être regroupés dans trois axes importants :

1. Prédiction (What-if) : consiste à prédire les conséquences d’un événement (ou d’une décision), se basant sur le passé.

2. Découverte de règles cachées : découvrir des règles associatives, entre différents événements (Exemple : corrélation entre les ventes de deux produits).

3. Confirmation d’hypothèses : confirmer des hypothèses proposées par les analystes et décideurs, et les doter d’un degré de confiance.

3. Aide à la décision dans le CRM

CRM est un acronyme pour Customer Relationship Management - GRC ou Gestion de la Relation Client en français -.

3.1 Définition CRM :

C’est un terme de l’industrie des systèmes d’information englobant des méthodologies, du software et habituellement des capacités Internet qui aident une entreprise à gérer les relations avec ses clients d’une manière structurée.

mesure

3.2 E-CRM :

L'e-crm est un processus continu d'amélioration de la relation client sur Internet. C’est un domaine en pleine expansion au vu de l’impact d’Internet sur le e-commerce. Voici quelques chiffres justifiant l’intérêt porté à ce domaine (Source: META Group, Business Week, Forrester Research, Jupiter Communication):

Figure 2.1 : Exemple d’un cube de données

(4)

66% des acheteurs potentiels abandonnent le processus d'achat en cours

59% des internautes acheteurs se disent insatisfaits du service client de leur site d'achat

Moins de 5% des visiteurs uniques deviennent clients

En 2004, chaque foyer recevra en moyenne 9 e-mails par jour, 6 visant à fidéliser et 3 à créer de nouveaux clients L'utilisation d'outils de gestion de

campagnes d'e-mail permet de multiplier par quatre le taux d'achat engendré

Les campagnes par e-mail coûtent 80%

moins cher que le publipostage direct classique

4. Conception de l’outil d’aide à la décision OAD

Dans ce qui suit, nous présentons la conception de notre outil d’aide à la décision, associé, à un site de e-commerce. Deux volets constituent notre solution, le premier est consacré à l’analyse multidimensionnelle, et le second, à l’utilisation d’une technique de fouille de données basée sur un algorithme de groupage .

Nous utiliserons des diagrammes UML, pour illustrer les aspects statiques, dynamiques et fonctionnels de notre conception.

4.1 Diagrammes de cas d’utilisation :

Le commerçant, étant l’acteur principal. Les cas d’utilisation de base qui vont être mis en évidence pour l’assister dans la prise de décision seront :

Accéder à l’OAD.

Visualiser les données en cube (choisir un magasin de données).

Appliquer les opérations OLAP sur le cube de données.

Appliquer les techniques du data mining.

4.2 Diagrammes de séquence:

Dans cette phase, et après identification des cas d’utilisation, et des scénarios associés à chaque cas, nous les représentons à l’aide des diagrammes de séquence :

Figure 4.2 : Diagramme de séquence « Visualiser les cubes de données »

Figure 4.1 : Diagramme des use case de l’OAD

Figure 4.3 : Diagramme de séquence

« Appliquer les opérateurs OLAP »

(5)

Figure 4.5 : Diagramme de séquence

« Appliquer algorithme de data mining »

4.2 Diagrammes de classes participantes (DCP) :

Figure 4.7 : DCP du cas d'utilisation

« Appliquer opérateur OLAP » La phase suivante, consiste à identifier l’ensemble

des diagramme de classes participantes :

Classe d’interface

Classe de contrôle

Figure 4.8 : DCP du cas d'utilisation « Appliquer un algorithme de data mining»

Figure 4.6 : DCP du cas d'utilisation

« visualiser les données en cube »

(6)

4.4 Modèle multidimensionnel :

Le premier module de l’OAD, est consacré à l’analyse multidimensionnelle des données issues d’un site de e-commerce.

Les magasins de données choisis, depuis lesquels le décideur visualise les cubes de données sont les magasins ventes et visites.

Les tables de faits et de dimensions des deux magasins sont structurés selon les deux schémas en étoile présentés ci-dessous :

4.5 Module de Data Mining

Le deuxième module de l’OAD, est basé sur un algorithme de groupage (Gardarin, 2000), permettant de construire des groupes de clients en fonction de critères de similarité.

Avant de détailler le fonctionnement de l’algorithme de groupage, il faut éclaircir certains points et rappeler quelques définitions de base utilisées dans les étapes de calcul des groupes d’individus.

Représentation des clients

Les clients sont représentés par des vecteurs de , où n et le nombre de variables (dimensions) selon lesquelles on perçoit le client. On associe à chaque client, un vecteur.

ℜ

n

(

n^j

)

^t

j

x x

x =

₁

. . .

On considère que chaque individu est muni d’un poids pi avec pi > 0 et

∑ = 1

.

i

p

i

Nuage d’individus

Dans l’espace des individus, l’ensemble N = {

x

_i

/ x

_i

∈ ℜ

ⁿ, pi > 0 et } est appelé nuage d’individus.

= 1

∑

i

p

i

Centre de gravité

Le centre de gravité g d’un nuage N ou encore le

« Barycentre » des points Xi (ou Xi et le i^ème individu du nuage N) affectés aux poids pi est donné par la formule suivante :

i n

i

x

p

g *

1

∑

=

qui s’écrit :

⎟⎟

⎟ ⎟

⎟

⎠

⎞

⎜⎜

⎜ ⎜

⎜

⎝

⎛

=

⎟ ⎟

⎠

⎞

⎜ ⎜

⎝

⎛

= ∑

=

p p i

i

n

i i

x x

x x p g

. . . .

. .

*

1 1

1

Où

∑

=

ⁿ

i

j i i

j

p x

x

1

*

est la moyenne de la j^ième variable.

Inertie du nuage

L’inertie d’un nuage d’individus N par rapport à un point (individu)

X ∈ ℜ

ⁿ est la quantité notée par :

) , (

* )

(

²

1

x x d p N

I

_i

n

i i

x

∑

=

Où est

la distance entre X

) ,

2

( x x d

_i

i et X.

) ( N

I

_x mesure la dispersion du nuage autour de x.

Remarques

− Le poids pi dans notre cas est identique pour tous les individus et est égal à

N 1

.

− Pour l’algorithme de groupage nous avons utilisé la distance euclidienne qui est donnée par la formule suivante :

∑

=

−

= ⁿ

i

i y

x y

x d

1

) (

) ,

( Avec x et y deux

vecteurs de

ℜ

ⁿ

Figure 4.10 : schéma en étoile du magasin de données des ventes

Figure 4.11 : Schéma en étoile du magasin de données des visites

(7)

− Si

x = g

centre de gravité du nuage N alors est appelée inertie du nuage.

) ( ) ( N

x

= I N

I

_g

− L’inertie est minimale au point g.

Algorithme de groupage

Principe général :

L’algorithme consiste à grouper les clients selon un critère bien déterminé par exemple : par catégorie d’achats (i.e le vecteur x représentant la quantité achetée de chaque produit).

L’entrée de l’algorithme est le nombre k de groupes (représentant les catégories de clients). Une fois le nombre de groupes saisi, l’algorithme choisit arbitrairement k clients comme centres « initiaux » des k groupes.

Début

L’étape suivante consiste à calculer la distance entre chaque individu (client) et les k centres ; la plus petite distance est retenue pour inclure cet individu dans le groupe ayant le centre le plus proche.

Choisir le nombre k de groupes

Choisir k individus comme centres initiaux des k groupes

Une fois tous les individus groupés, on aura k sous-nuages disjoints du nuage total. Pour chaque groupe (sous-nuage), l’algorithme calcule le nouveau centre de gravité.

L’algorithme s’arrête lorsque les groupes construits deviennent stables.

5. Implémentation et mise en œuvre :

5.1 Architecture du système :

L’architecture montre l’ensemble des composants, outils et matériels interconnectés permettant d’obtenir une architecture simple et évolutive.

Comme illustré dans la figure 5.1, l’architecture est composée de parties différentes.

La première partie constitue l’interface du site web marchand de l’entreprise. Les clients qui se connectent au site et ayant déjà effectué une identification pourraient effectuer différentes actions durant leurs visites telles que le passage d’une commande, la consultation et/ou la modification de leurs paniers, etc. Ces actions vont se traduire par une génération des données sous format xml. Le commerçant, au niveau de son entreprise se connecte au site pour télécharger ces fichiers xml qui seront récupérés par l’outil d’aide à la décision (livré au commerçant lors de génération de son site), pour être enfin stockés

Figure 5.1 : Architecture du système Tous les individus

sont groupés i <= k i := 2 ;

d := distance entre l’individu et le 1^er centre l’individu ∈ au 1^er groupe ;

i := i + 1 ;

tmp:= distance entre l’individu et le k^èmecentre ;

tmp < d

L’individu ∈ au k^ème groupe ; Ou

i

Non

Nombre d’itération > 1

Recalculer les centres des différents groupes ;

Non Les groupes sont

stables

Pour chaque individu faire

Non

Fin

Non

Figure 4.12 : Organigramme de l’algorithme de groupage

(8)

dans l’entrepôt de données après conversion au format relationnel.

Figure 5.4 : Choix des dimensions Figure 5.2 : Téléchargement des données XML

à partir du site marchand

5.2 Analyse multidimensionnelle :

L’analyse multidimensionnelle, consiste dans un premier temps à choisir un magasin de données parmi ceux proposés, ainsi que les dimensions et les mesures à prendre en compte.

Figure 5.6 : Représentation multidimensionnelle Figure 5.3: Choix du magasin de données

(9)

Il est alors possible d’appliquer les différentes opérations OLAP, telles que : pliage, dépliage, rotation…etc.

5.3 Module de data mining :

L'objet de cette analyse est de regrouper les individus en fonction de leurs actions et de renseignements propres aux personnes. L'intérêt est de former des groupes de personnes ayant des comportements similaires. Dans un premier temps, à des fins d'analyse (qui sont mes visiteurs ? quelles sont les pages les plus visités ? les produits les plus visités ?) et dans un second temps à des fins d'anticipation (proposer le produit le plus adapté à un individu).

Le décideur va donc donner en entrée le nombre k de groupes, pour valider ensuite son choix, le résultat de cette opération est affiché sous forme de rapports imprimables à la demande du décideur.

Conclusion

Le travail présenté dans cet article consiste en la conception et la réalisation d’un outil d’aide à la décision dans la gestion de la relation client sur internet. L’intérêt principal d’un tel outil est d’offrir aux décideurs une meilleure vision de leurs clients leur permettant ainsi, une meilleure gestion de leurs entreprises. Comme perspective à ce travail, nous proposons un enrichissement du module data mining en intégrant d’autres techniques de classification telles que les réseaux de neurones.

Remerciements :

nous tenons à remercier Mrs K. ALLOUN & O. CHOUIB pour leur contribution dans la réalisation de l’outil.

Références

(Bret & al, 2001) : Groupe EVOLUTION. F. Bret. T.

Cruanees. I. Guessarian. E. Metais. M-C. Rousset. S.

Schwer. O. Teste. G. Zurfluh, Ingénerie des systèmes d’information , édition HERMES, 2001

(Chaudrui,1997) : S. Chaudhuri , Data Warehousing and OLAP for Decision Support (Microsoft Research, Redmont), SIGMOD AZ, USA, 1997.

(Codd, 1993) : E. F. Codd, Providing OLAP to user- analysts: an IT mandate, Technical Report, E. F. Codd and associates, 1993.

(Gardarin, 2000) : Georges Gardarin, Internet,Intranet et bases de données, Edition DUNOD, 2000.

(Inmon,1996a) : W. H. Inmon, The Data Warehouse and Data Mining , communication of the ACM, , Vol. 39, N° 11, Novembre 1996

(Inmon,1996b) :W. Inmon. Building the Data Warehouse. QED Technical Publishing Group, Wellesley, Massachusetts, U.S.A., 1996

Figure 5.7 : Application d’une opération OLAP

Figure 5.9 : Rapport du résultat du groupage

Figure 5.8 : Application de la technique de groupage

(10)

(Jarke & al,2000) : Matthias Jarke, Thomas List, Jörg Köller, The Challenge of Process Data Warehousing, 26th International Conference on Very Large Databases, Caire, Egypt, 2000

(Kimball & al, 2000) : R. Kimball, L. Reeves, M. Ross, W. Thornthwaite, Concevoir et déployer un data warehouse, Editions Eyrolles, 2000

(Ravat & al, 2001) : Frank Ravat, Olivier Teste, Gilles Zurfluh : Modélisation et extraction de données pour un entrepôt objet , Université Paul Sabatier (Toulouse III), IRIT (Institut de Recherche en informatique de Toulouse), équipe SIG, Toulouse, France 2001

(Teste, 2000) : Olivier Teste, Modélisation et Manipulation d’Entrepôts de Données Complexes et Historisés, Thèse de Doctorat de l’université Paul Sabatier, Décembre 2000.