• Aucun résultat trouvé

Un Outil d’extraction de connaissances à partir des données : DataMiner 1.0

N/A
N/A
Protected

Academic year: 2022

Partager "Un Outil d’extraction de connaissances à partir des données : DataMiner 1.0"

Copied!
2
0
0

Texte intégral

(1)

Un Outil d’extraction de connaissances à partir des données : DataMiner 1.0

Mme Louni S., Me Adjiri R. et Me Zeghichi R.

Laboratoire des Logiciels de base, CERIST.

3, Rue des frères Aissiou Ben Aknoun Alger, Algérie.

Email : louni@tassili.cerist.dz

1. Introduction

Les faibles coûts des machines en terme de stockage et de puissance de calcul et le développement des techniques informatiques ont encouragé les entreprises et les organisations à accumuler de grandes masses de données qui sont souvent sous exploitées alors qu’elles peuvent renfermer des connaissances stratégiques que des experts peuvent ignorer.

Ces réservoirs de données représentent une importante mine d’informations que les entreprises doivent exploiter et explorer pour découvrir des informations pertinentes et utiles à des fins de prédiction et de prise de décisions. Les mécanismes de Data Mining (DM) ou encore de Knowledge Discovery in Databases (KDD) sont alors mis en place pour répondre à ce besoin à travers un nouveau domaine de recherche qui se situe au carrefour de plusieurs disciplines à savoir : les bases de données, l’apprentissage automatique et les statistiques.

2. Problématique

Le problème de recherche ou de découverte de relations, de liens et de règles générales à partir d’instances de données est devenu un problème très populaire et fait en général référence aux machines d’apprentissage (learning machine) [Kodratoff 93] et aux techniques de découverte de Dépendances Fonctionnelles [Mannila 94]. La différence essentielle entre ces deux méthodes, est le domaine d’application. L’apprentissage (avec par exemple les arbres de décision et les réseaux de neurones) classifie les exemples et offre ainsi un moyen très important pour faire de la prédiction et de la prise de décision, alors que les techniques d’extraction de dépendances fonctionnelles infèrent des dépendances fonctionnelles valides ou non valides, certaines ou incertaines à partir de relations et offre ainsi un moyen efficace d’aide dans la conception du schéma de bases de données ou encore peuvent être utilisées dans le domaine du reverse engineering.

3. Objectif et motivation

Les outils de datamining construisent des modèles de manière plus ou moins interactive avec l’utilisateur. A l’extrême, on trouve des produits presse-bouton qui s’adressent à des non-spécialistes.

Les produits intermédiaires proposent généralement une certaine interaction avec l’utilisateur tant dans le paramétrage de l’apprentissage que pendant la recherche du modèle. A l’autre extrême, les techniques statistiques requièrent un maniement par des statisticiens professionnels, bien que certains outils commencent à évoluer vers une meilleure convivialité et une assistance à l’utilisateur accrue (Clementine [Clementine], DBMiner2.0 [DBMiner]).

La lisibilité ou la puissance ? Notre objectif essentiel a été d’offrir un modèle présentant un bon pouvoir de prédiction et une bonne lisibilité des résultats. Il existe un compromis entre clarté du modèle et pouvoir prédictif. Plus un modèle est simple, plus il sera facile à comprendre, mais moins il sera

(2)

capable de prendre en compte des dépendances subtiles ou trop variées (non linéaires). La figure 1 [Lefébure 98] illustre ce compromis. Les arbres de décision sont très faciles à interpréter. Néanmoins, ces techniques ne reconnaissent que des frontières nettes de discrimination. L’existence de relations d’interdépendances entre les variables conduit à une diminution de la performance du modèle. Les réseaux de neurones, par leur capacité à intégrer les relations entre les variables, présentent un pouvoir prédictif élevé. Néanmoins, ce progrès entraîne une perte de lisibilité, compte tenu de la complexité du modèle mathématique sous-jacent.

Cette relative antinomie entre lisibilité et puissance a un impact fort sur le type d’utilisateurs. Ainsi, les arbres de décision, de par leur forte lisibilité, s’adressent davantage à des utilisateurs métier. Au contraire, les réseaux de neurones ou bayésiens nécessitent des experts de la modélisation.

Figure 1 : Le Compromis entre lisibilité et prédiction

Il est important à noter qu’il est indispensable de disposer dans un outil de Data Mining de plusieurs techniques d’extraction de relations et de connaissances afin de réussir à modéliser le plus grand nombre de problèmes qui puissent se présenter. Pour ce qui est de l’extraction de connaissances par apprentissage, un compromis a été pris d’offrir aussi bien un modèle de réseaux de neurones qu’un modèle à base d’arbre de décision.

Ainsi, notre objectif a été de concevoir et de réaliser un outil prototype d’extraction de connaissances à partir de bases de données relationnelles, pouvant être utilisé aussi bien dans le domaine de la prédiction et de la prise de décision que dans le domaine de la conception de base de données.

Le système offre deux grandes fonctionnalités :

- L’aptitude d’extraire des dépendances fonctionnelles (DFs) valides et non valides, qui peuvent être

utilisées par les concepteurs de bases de données durant la conception du schéma conceptuel de bases de données ou encore dans le domaine du « reverse engineering » par l’analyse de bases de données existantes, ou enfin dans le domaine de la sécurité des bases de données pour le contrôle de l’inférence dans les bases de données[ldb1][1]

. L’algorithme Bottom_up [Savnik 93] a été amélioré et mis en œuvre.

- L’aptitude à établir des prédictions à partir d’apprentissages automatiques à base d’arbres de

décision [Kodratoff 93] et de réseaux de neurones [Davalo 93].

Notre motivation essentielle a été de mettre en pratique nos connaissances dans ce nouveau domaine et les algorithmes étudiés et proposés.

4. Description de DataMiner1.0

Références

Documents relatifs

Lorsque l’on tient compte de la correspondance entre les blocs, la re- cherche de motifs fréquents sur chacune des 2 bases nous indique que les réactions transformant une

Il se trouve que la méthodologie proposée dans ce travail (arbres de décision E 2 M ), conserve cette incertitude épisté- mique pendant tout le processus d’apprentissage (voir

Les r´eseaux d’interactions prot´eine-prot´eine sont donc des voisi- nages, de mˆeme que le sont les relations de cooccurrence de prot´eines et m´etabolites dans les

Les mesures synchronisées de vitesse et de pression pariétale d’une part, puis de vitesse et de pression acoustique d’autre part, effectuées durant le temps de maniement du volet

Dans cet article nous proposons un nouveau paradigme de gestion collaborative et incrémentale pour la construction de connaissances basé sur la participation de plusieurs

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 7.. Le

Il distingue ensuite cinq figures de la transtextualité : L'intertextualité est « une relation de coprésence entre deux ou plusieurs textes, c'est à –dire […] par la

The main underlying idea of this paper is to derive the error estimates for approximate solutions of problem ( 1.1 )–( 1.5 ) obtained by time and space discretization by using