Data-Mining, Fouille et extraction de données, Master2, Dr Mourad Loukam
CHAPITRE I : INTRODUCTIONAU DATA-MINING
1.1 Q
U'
EST CE QUE LED
ATA-
MINING?
Le Data Mining (fouille de données) est un discipline située au croisement de la statistique et des technologies de l’information (bases de données, intelligence artificielle, apprentissage etc.) dont le but est de découvrir des connaissances (ou structures) dans de vastes ensembles de données.
Définition (Fayyad et Shapiro) :
Le datamining est "l’extraction d’informations intéressantes (non triviales, implicites, préalablement inconnues et potentiellement utiles) à partir de grandes bases de données".
"Data Mining is the nontrivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns in data”.
La métaphore du Data Mining signifie qu’il y a des trésors ou pépites cachés sous des montagnes de données que l’on peut découvrir avec des outils spécialisés (Gilbert Saporta).
1.2 Q
U’
EST CE QUI A FAVORISE LE DEVELOPPEMENT DU DATA-
MINING?
La naissance du Data Mining a été favorisé par :
• L’évolution des SGBD vers l’informatique décisionnelle avec les entrepôts de données (Data Warehouse).
• La constitution de giga bases de données : transactions de cartes de crédit, appels téléphoniques, factures de supermarchés, … etc.
• Plus grande disponibilité des données grâce aux réseaux (intranet et internet).
• Développement de méthodes diverses (intelligence artificielle, machine learning, …) pour résoudre des problèmes de data-mining.
1.3 B
UT DU DATAMININGLe Data Mining cherche des structures de deux types : modèles et patterns
Pattern : une structure caractéristique possédée par un petit nombre d’observations: niche de clients à forte valeur, ou au contraire des clients à haut risque.
2
Les méthodes pour l'extraction des patterns peuvent être : la classification, visualisation par réduction de dimension (Analyse par composantes principales (ACP), règles d’association, etc.
Modèles : Construire des modèles a toujours été une activité des statisticiens. Un modèle est un résumé global des relations entre variables, permettant de comprendre des phénomènes, et d’émettre des prévisions.
1.4 D
OMAINES D'
APPLICATIONLe datamining intéresse trois types de populations :
• Les scientifiques : pour comprendre certains phénomènes.
• Les analystes : pour produire des rapports pour les décideurs.
• Les décideurs : pour l’aide à la décision.
Les principaux secteurs utilisant les méthodes du datamining sont :
Les banques, Les télécommunications, Le e-commerce, Les études scientifiques, Le marketing Les assurances, … etc.
Par exemple, une entreprise commerciale utilise le datamining pour améliorer la gestion de la relation client. L'objectif est : on ne veut plus seulement savoir : « combien de clients ont acheté tel produit pendant telle période ?», mais on veut savoir « quel est leur profil ? », « quels autres produits les intéresseront ? ».
1.5 P
ROCESSUS D'
UND
ATA-M
INING:
Le schéma ci-après résume le processus général d’un système de Data-mining.
Fig 1. Processus général d’un système de Data-mining
On peut résumer ainsi ce processus :
3
• Création d’un ensemble de données (sélection) qui intéressent le problème étudié.
• Nettoyage et pré-traitement des données, pour les rendre exploitables.
• Transformation des données initiales pour les rendre modélisables (généralement on les présente sous forme de matrices, vecteurs, sacs de mots, …)
• Choix de la méthode et de l’algorithme du data-mining préconisés pour le problème étudié (classification, régression, association, clustering, …).
• Datamining: Recherche des motifs (patterns) et modèles résultats de l’étude.
• Evaluation du système : calculer sa précision par comparaison des résultats par rapport à des données de référence (benchmark).
• Utilisation des connaissances extraites.
1.6 M
ETHODES UTILISEES END
ATA-
MINING:
Plusieurs méthodes ont été appliquées au Data-mining, nous pouvons citer entre autres : Les règles d'association, Les arbres de décision, La régression, le clustering, les supports vecteurs (SVM), Maximum Entropy, ... etc.
Une étude faite en 2011 a montré que certaines méthodes sont plus utilisées que d'autres (voir schéma).
Fig 2. Aperçu des principales méthodes utilisées en Data-mining
4
1.7 A
PPRENTISSAGE SUPERVISES ET NON SUPERVISESLes modèles utilisés en Data-mining utilisent l’apprentissage afin d'implémenter et entrainer des algorithmes afin qu’ils puissent aux-mêmes faire des prédictions sur une large quantité de données. On distingue deux types d'apprentissages : supervisé ou non supervisé.
Dans le cas de l’apprentissage supervisé, la robustesse de l’algorithme dépendra de la précision de son entrainement. Un algorithme apprenant des contenues supervisés produit une carte interne qui permet sa réutilisation pour classifier de nouvelles quantités de données.
Prenons l’exemple d’un algorithme qui détecte les visages, un utilisateur devra lui montrer ce qu’est un visage et ce qui ne l’est pas afin qu’il puisse apprendre et prédire si les prochaines photos le sont ou non. En résumé, l’algorithme apprend sur des exemples, dans le cas de cette utilisation les exemples ont besoin d’être étiqueté afin d’assurer l’efficacité de son apprentissage.
Dans le cas de l’apprentissage non-supervisé, il n’y a pas besoin de l’intervention d’un être humain, car l’algorithme va par lui-même comprendre comment différencier un visage d’un paysage en cherchant leurs corrélations. Étant donné qu’un algorithme ne peut pas tout simplement savoir ce qui constitue un visage, la méthode non-supervisé va donc partitionner et classer les données dans des groupes homogènes (“clustering”).