Chapitre 1 : Etat de l’art sur les Systèmes interactifs d’aide à la décision
1.4. Extraction de Connaissances à partir de Données
1.4.2 Les systèmes d’ECD
L’Extraction de Connaissance à partir de Données (ECD en français, KDD
3en Anglais) est
aussi connue sous les noms suivants : fouille de données, data mining (forage de données) et
exploration de données [Zhu et al. 07]. C’est un domaine de recherche qui se situe à
l’intersection de nombreuses disciplines comme l’apprentissage automatique, la
reconnaissance de formes, les bases de données, les statistiques, la représentation de
connaissances, l’intelligence artificielle ou encore les systèmes experts.
Grâce aux techniques en ECD [Kantardzic 03], les bases de données volumineuses deviennent
potentiellement des sources riches et fiables pour la génération et la validation de
connaissances. La fouille de données (Data Mining) constitue la phase centrale du processus,
et consiste à appliquer des algorithmes d’apprentissage sur les données afin d’en extraire des
modèles (patterns).
1.4.2.1 Processus d’ECD
L'Extraction de Connaissances à partir de Données est un processus interactif et itératif
d'analyse d’une grande quantité de données brutes afin d'en extraire des connaissances
pouvant être exploitables par un utilisateur-analyste [Fayyad et al. 96] [Fayyad et al. 01]
[Kodratoff et al. 01]. L’interactivité est liée aux différents choix que l’utilisateur est amené à
effectuer. L’itérativité est liée au fait que l’ECD est composée de plusieurs étapes et que
l’utilisateur peut décider de revenir en arrière à tout moment si les résultats ne lui conviennent
pas. La Figure 1.4 présente le processus d’ECD tel qu’il a été présenté par [Lefébure et al.
01]. Ce processus est décomposé en huit tâches distinctes qui sont décrites ci-après :
Données brutes Données sélectionnées Données pré traitées Données transformées Connaissance Phase 4: Data Mining
Patterns
Phase 1: Sélection
Phase 2: Pré traitement Phase 3: Transformation
Phase 5: Evaluation &
interprétation Décision
Figure 1.4 :le processus d’extraction de connaissances à partir de données
1. poser le problème : avant d’engager une action, il faut d’abord bien définir le
problème ainsi que son contexte.
2. recherche des données : elle consiste à identifier les informations et les sources,
vérifier leur qualité ainsi que leur facilité d’accès (documents papier, supports
électroniques, fichiers internes ou externes, Data Warehouse ou Data Mart, etc.).
3. sélection des données : les données ayant un rapport avec l’analyse demandée sont
retrouvées dans la base.
4. nettoyage des données : le nettoyage des données a pour objectif de corriger des
inexactitudes ou erreurs de données.
5. transformation des données : les données sont regroupées, normalisées, et
transformées dans un format qui les prépare à la fouille.
6. fouille de données : elle est définie comme l’art d’extraire des connaissances à
partir des données. Il s’agit d’appliquer des méthodes intelligentes dans le but
d’extraire des motifs.
7. évaluation du résultat : elle consiste à mesurer l’intérêt des patterns générés.
L’évaluation est généralement qualitative (facilité de compréhension du résultat) et
quantitative (tel que l’intervalle de confiance
4, etc.).
8. intégration de la connaissance : elle consiste à implanter le modèle dans un
système informatique. Des techniques de visualisation sont utilisées pour présenter
clairement à l’utilisateur le savoir extrait des données.
Les systèmes d’ECD sont des systèmes décisionnels basés sur un processus d’ECD. Il
s’agit de développer des systèmes d’information orientés vers la décision. Tout décideur ayant
à prendre des décisions doit pouvoir accéder aux données de l’entreprise, doit pouvoir traiter
ces données, extraire la connaissance pertinente de ces données pour prendre les "meilleures"
décisions. Les techniques de fouille de données (les algorithmes de segmentation, les règles
d’association, les arbres de décision, les réseaux de neurones, etc. [Wesphal et al. 98]), sont
proposées selon le problème à résoudre. Il peut s’agir de méthodes de structuration ou de
classification [Berkhin 02], d’explication ou de prédiction [Zighed et al. 02].
1.4.2.2 Les principaux algorithmes d’ECD
Il existe un grand nombre d’algorithmes et techniques d’ECD dans la littérature, nous
présentons dans cette section ceux qui nous semblent les plus couramment employées
[Lefébure et al. 01] :
1. Apprentissage fondé sur l’explication (EBL pour Explanation Based Learning) :
l’apprentissage est fondé sur des explications dérivées d’une théorie (généralement
incomplète) fournie en entrée. Cette forme d’apprentissage repose sur des déductions
pour expliquer les données à partir de la théorie et sur des arbres de décision pour
générer de la nouvelle connaissance.
2. Apprentissage statistique (STL pour Statistical Learning) : c’est un apprentissage qui
repose sur des opérations statistiques telles que la classification bayésienne ou la
régression pour apprendre à partir de données.
4