Les systèmes d’ECD

Chapitre 1 : Etat de l’art sur les Systèmes interactifs d’aide à la décision

Données brutes Données sélectionnées Données pré traitées Données transformées Connaissance Phase 4: Data Mining

Phase 1: Sélection

Phase 2: Pré traitement Phase 3: Transformation

Phase 5: Evaluation &

interprétation ^Décision

Chapitre 1 : Etat de l’art sur les Systèmes interactifs d’aide à la décision

1.4. Extraction de Connaissances à partir de Données

1.4.2 Les systèmes d’ECD

L’Extraction de Connaissance à partir de Données (ECD en français, KDD

en Anglais) est

aussi connue sous les noms suivants : fouille de données, data mining (forage de données) et

exploration de données [Zhu et al. 07]. C’est un domaine de recherche qui se situe à

l’intersection de nombreuses disciplines comme l’apprentissage automatique, la

reconnaissance de formes, les bases de données, les statistiques, la représentation de

connaissances, l’intelligence artificielle ou encore les systèmes experts.

Grâce aux techniques en ECD [Kantardzic 03], les bases de données volumineuses deviennent

potentiellement des sources riches et fiables pour la génération et la validation de

connaissances. La fouille de données (Data Mining) constitue la phase centrale du processus,

et consiste à appliquer des algorithmes d’apprentissage sur les données afin d’en extraire des

modèles (patterns).

1.4.2.1 Processus d’ECD

L'Extraction de Connaissances à partir de Données est un processus interactif et itératif

d'analyse d’une grande quantité de données brutes afin d'en extraire des connaissances

pouvant être exploitables par un utilisateur-analyste [Fayyad et al. 96] [Fayyad et al. 01]

[Kodratoff et al. 01]. L’interactivité est liée aux différents choix que l’utilisateur est amené à

effectuer. L’itérativité est liée au fait que l’ECD est composée de plusieurs étapes et que

l’utilisateur peut décider de revenir en arrière à tout moment si les résultats ne lui conviennent

pas. La Figure 1.4 présente le processus d’ECD tel qu’il a été présenté par [Lefébure et al.

01]. Ce processus est décomposé en huit tâches distinctes qui sont décrites ci-après :

Figure 1.4 :le processus d’extraction de connaissances à partir de données

1. poser le problème : avant d’engager une action, il faut d’abord bien définir le

problème ainsi que son contexte.

2. recherche des données : elle consiste à identifier les informations et les sources,

vérifier leur qualité ainsi que leur facilité d’accès (documents papier, supports

électroniques, fichiers internes ou externes, Data Warehouse ou Data Mart, etc.).

3. sélection des données : les données ayant un rapport avec l’analyse demandée sont

retrouvées dans la base.

4. nettoyage des données : le nettoyage des données a pour objectif de corriger des

inexactitudes ou erreurs de données.

5. transformation des données : les données sont regroupées, normalisées, et

transformées dans un format qui les prépare à la fouille.

6. fouille de données : elle est définie comme l’art d’extraire des connaissances à

partir des données. Il s’agit d’appliquer des méthodes intelligentes dans le but

d’extraire des motifs.

7. évaluation du résultat : elle consiste à mesurer l’intérêt des patterns générés.

L’évaluation est généralement qualitative (facilité de compréhension du résultat) et

quantitative (tel que l’intervalle de confiance

, etc.).

8. intégration de la connaissance : elle consiste à implanter le modèle dans un

système informatique. Des techniques de visualisation sont utilisées pour présenter

clairement à l’utilisateur le savoir extrait des données.

Les systèmes d’ECD sont des systèmes décisionnels basés sur un processus d’ECD. Il

s’agit de développer des systèmes d’information orientés vers la décision. Tout décideur ayant

à prendre des décisions doit pouvoir accéder aux données de l’entreprise, doit pouvoir traiter

ces données, extraire la connaissance pertinente de ces données pour prendre les "meilleures"

décisions. Les techniques de fouille de données (les algorithmes de segmentation, les règles

d’association, les arbres de décision, les réseaux de neurones, etc. [Wesphal et al. 98]), sont

proposées selon le problème à résoudre. Il peut s’agir de méthodes de structuration ou de

classification [Berkhin 02], d’explication ou de prédiction [Zighed et al. 02].

1.4.2.2 Les principaux algorithmes d’ECD

Il existe un grand nombre d’algorithmes et techniques d’ECD dans la littérature, nous

présentons dans cette section ceux qui nous semblent les plus couramment employées

[Lefébure et al. 01] :

1. Apprentissage fondé sur l’explication (EBL pour Explanation Based Learning) :

l’apprentissage est fondé sur des explications dérivées d’une théorie (généralement

incomplète) fournie en entrée. Cette forme d’apprentissage repose sur des déductions

pour expliquer les données à partir de la théorie et sur des arbres de décision pour

générer de la nouvelle connaissance.

2. Apprentissage statistique (STL pour Statistical Learning) : c’est un apprentissage qui

repose sur des opérations statistiques telles que la classification bayésienne ou la

régression pour apprendre à partir de données.

L’intervalle de confiance traduit la zone d’incertitude relative au résultat d’une question d’enquête utilisant une

méthode d’échantillonnage probabiliste (échantillon aléatoire).

3. Apprentissage par réseaux neuronaux (NNL pour Neuronal Network Learning) : un

réseau de neurones est défini par un ensemble d’unités de traitement qui peuvent être

des unités soit d’entrée, soit de sortie, soit cachées. L’apprentissage s’effectue par

l’injection de cas en entrée et par la mesure des conclusions en sortie.

4. Apprentissage par algorithmes génétiques (GAL pour Genetic Algorithm

Learning) : les algorithmes génétiques sont des procédures de recherche basées sur la

dynamique de la génétique biologique. Ils comprennent trois opérateurs : la sélection,

la combinaison et la mutation, qui sont appliqués à des générations successives

d’ensembles de données.

5. Apprentissage par similarité (SBL pour Similarity Based Learning) : ces techniques

utilisent des indicateurs de similarité pour regrouper des données ou des observations