• Aucun résultat trouvé

connaissances « intéressantes » ou des motifs  (patterns) à partir d’une grande quantité de 

N/A
N/A
Protected

Academic year: 2022

Partager "connaissances « intéressantes » ou des motifs  (patterns) à partir d’une grande quantité de "

Copied!
29
0
0

Texte intégral

(1)

Data Mining = Knowledge Discovery in Databases (KDD) = Fouille de données

• Définition : é

Processus ou méthode qui extrait des Processus ou méthode qui extrait des 

connaissances « intéressantes » ou des motifs  (patterns) à partir d’une grande quantité de 

données.

Connaissances

données.

F ill

Evaluation

Sélection &

transformation

Fouille

Intégration

Données pertinentes

transformation

Nettoyage

Intégration

Entrepôt de données Bases de 

données,  fichiers, etc.

(2)

Au programme

S i i d i i

• Statistiques descriptives

• Prétraitement des données

• Prétraitement des données

• Caractérisation

• Classification et prédiction

• Clustering St ti ti

• Statistiques

• Règles d’association g

• Cubes de données et OLAP (On‐Line A l ti l P i )

Analytical Processing)

(3)

Motivation

• Masses de données 

Š Outils automatisés de collecte de données

Š Outils automatisés de collecte de données

Š Maturité des SGBD

Š Entrepôts de données (data warehouses et information repositories) e Génomes (complets) P bMed données d’e pression

Š ex : Génomes (complets), PubMed, données d’expression

• Données vs. connaissances

• Solution : entrepôts de données et data mining

Š Data warehousing and on‐line analytical processing (OLAP)

Extraction de connaissances (règles régularités motifs contraintes) à partir

Š Extraction de connaissances (règles, régularités, motifs, contraintes) à partir  de grosses bases de données

(4)

Un déluge de données mais peu de connaissances

Comment analyser  ces données ?

(5)

Recherche de motifs intéressants

YPEL1 TBX5 BMP4 BMP4 NKX2.5

gènes connus séquences modèles gènes connus

candidats

domaines

fusion

régulation annotations

fusion

interactions expression expression

(6)

Evolution

• 1960 :

Š Systèmes de gestion de fichiers, collection de données, bases de y g , , données (modèle réseau)

• 1970 :

• 1970 : 

Š Émergence du modèle relationnel et de son implémentation

• 1980 : 

SGBD l ti l dèl é ( l ti l ét d OO

Š SGBD relationnels, modèles avancés (relationnel étendu, OO,  déductif, etc.) et orientés application (spatial, scientifique)

• 1990 : 

Š Data mining et entrepôts de données multimédia et Web

Š Data mining et entrepôts de données, multimédia, et Web

(7)

Qu’est ce que le data mining ?

D t i i (dé t d i d l b d

• Data mining (découverte de connaissances dans les bases de  données) :       

Š Extraction d’informations ou de motifs intéressants (non triviaux implicites

Š Extraction d informations ou de motifs intéressants (non triviaux, implicites,  inconnus auparavant et potentiellement utiles) à partir de grandes bases de  données

• Autres appellations : 

Š Data mining : est‐ce judicieux ?

l d di ( i i ) i d b ( ) k l d i

Š Knowledge discovery (mining) in databases (KDD), knowledge extraction,  data/pattern analysis, information harvesting, business intelligence, etc.

• Ce qui n’est pas du data miningCe qui n est pas du data mining

Š (Deductive) query processing

Š Systèmes expertsy p

(8)

Data Mining : union de disciplines variées

Bases de 

Statistiques

données Statistiques

D t Mi i

Apprentissage

Vi l i

Data Mining

pp e t ssage

automatique Visualsation

S i d Autres

disciplines Science de

l’information

(9)

Pour quoi faire ?

l d b d d é id à l dé i i

• Analyse des bases de données et aide à la décision

Š

Analyse du marché et management y g

ƒ

cible marketing, gestion de la relation client, analyse du panier de la ménagère segmentation du marché

panier de la ménagère, segmentation du marché

Š

Analyse de risques et management

ƒ

Prévisions, fidélisation du client, mises en avant 

améliorées, contrôle qualité, analyses de compétitivité

Š

Détection des fraudes et management

• Bio informatique

• Bio‐informatique

• Autres applications

Š

Text mining (news group, email, documents, PubMed) et Web

Web

Š

Intelligent query answering

(10)

Analyse du marché

• Quelles sources de données ?

Š Transactions bancaires (CB), coupons de réduction, service ( ), p , clients (plaintes), et aussi les études publiques de style de vie

• Cible marketing

• Cible marketing

Š Trouver des groupes « modèles » de clients qui partagent les  mêmes caractéristiques : intérêts, revenus, habitudes de 

consommation, etc.

• Déterminer les profils d’achat des clients au cours du  ttemps

Š Ex : compte joint après le mariage

• Cross‐market analysis

A i i / él i d d i

Š Associations/corrélations des ventes entre produits

Š Prédictions basées sur les associations d’information

(11)

Analyse du marché (suite)

• Profils client

Š Quels types de clients achètent quels produits (clustering ou

Š Quels types de clients achètent quels produits (clustering ou  classification)

• Identifier les besoins des clients

Š Identifier les meilleurs produits pour des clients différents

Š Utiliser la prédiction pour trouver quels facteurs vont attirer des

Š Utiliser la prédiction pour trouver quels facteurs vont attirer des  nouveaux clients

• Fournir une synthèse de l’information

R l idi i l ié

Š Rapports multidimensionnels variés

Š Rapports statistiques (tendance générale des données et pp q ( g variation)

(12)

Détection de fraude

li i

• Applications

Š carte bancaire

• Approche

Š Utiliser les données d’historique pour construire des modèles de

Š Utiliser les données d historique pour construire des modèles de  comportements frauduleux puis rechercher par data mining des  instances similaires

instances similaires

• Exemples

Š Assurances : détecter les groupes de personnes qui déclarent  des accidents/vols pour les indemnités

Š Blanchiment d’argent : détecter les transactions suspectes (US  Treasury's Financial Crimes Enforcement Network)

Š Assurance maladie : détecter les patients professionnels et les  docteurs associés

(13)

Bio‐informatique

• Sources de données

• Sources de données

Š

Séquences (ADN, acides aminés)

Š

Structures tri dimensionnelle (PDB)

Š

Structures tri‐dimensionnelle (PDB)

Š

Puces à ADN (expression, aCGH)

Š

Interaction protéiques

Š

Interaction protéiques

Š

réseau métabolique

Š

régulation génétique

Š

régulation génétique

Š

PubMed

• Applications

• Applications

Š

Prédiction de structure 3D

Prédiction des séquence codantes

Š

Prédiction des séquence codantes

Š

Prédiction de fonction, d’interaction, de localisation, … Découverte de motifs sur/sous représentés répétitions

Š

Découverte de motifs sur/sous représentés, répétitions

Š

Analyse de données d’expression Aide a diagnostic

Š

Aide au diagnostic

Š

Méthodes de classification, clustering, etc.

(14)

Autres applications

• Astrophysique

Š

JPL and the Palomar Observatory discovered 22 quasars

Š

JPL and the Palomar Observatory discovered 22 quasars  with the help of data mining

• Organisation de sites Web

Š

Algorithmes de data mining appliqués aux journaux  d’accès aux pages commerciales afin d’identifier les  p g préférences et les comportements des clients et 

d’analyser les performances du marketing Web et d analyser les performances du marketing Web et 

l’organisation du site. Ex: IBM Surf‐Aid, GoogleAnalytics

(15)

Étapes impliquées dans le processus de découverte de connaissances

A ti d d i d’ li ti

• Apprentissage du domaine d’application :

Š Connaissances nécessaires et buts de l’application

• Création du jeu de données cible : sélection des données

• Création du jeu de données cible : sélection des données

• Nettoyage et prétraitement des données (jusqu’à 60% du travail !)

Réd ti t t f ti d d é

• Réduction et transformation des données

Š Trouver les caractéristiques utiles, dimensionnalité/réduction des variables

• Choix des fonctionnalités data mining

• Choix des fonctionnalités data mining 

Š synthèse, classification, régression, association, clustering

• Choix des algorithmes

• Choix des algorithmes

• Data mining : recherche de motifs (patterns) intéressants

É l ti d tif t é t ti d i

• Évaluation des motifs et représentation des connaissances

Š visualisation, transformation, élimination des motifs redondants, etc.

• Utilisation des connaissances découvertes

• Utilisation des connaissances découvertes

(16)

Data mining: a KDD process

Connaissances

Evaluation

Fouille

Sélection &

transformation

Données pertinentes

Nettoyage

Intégration

Bases de  données

Entrepôt de données

données,  fichiers, etc.

(17)

Data Mining and Business Intelligence

Increasing potential to support to support

business decisions End User

Making Decisions

Business Analyst Data Presentation

Visualization Techniques

Data Analyst Data Mining

Information Discovery

D E l i

Data Exploration

Statistical Analysis, Querying and Reporting

Data Warehouses / Data Marts OLAP, MDA DBA

Data Warehouses / Data Marts Data Sources

Paper, Files, Information Providers, Database Systems, OLTPp , , f , y ,

(18)

Architecture of a Typical Data Mining System

Graphical user interface

Pattern evaluation Graphical user interface

Data mining engine Pattern evaluation

Database or data  warehouse server

g g

Knowledge‐base

Data cleaning & data integration Filtering

warehouse server

Data  Warehouse Databases

(19)

Quelles sortes de données

• Fichiers plats

• Fichiers plats

• Bases de données relationnelles

• Entrepôts de données (data warehouses)

• Bases de données transactionnelles

• Bases de données transactionnelles

• Bases de données avancées et entrepôts de 

d é (d i )

données (data repositery)

Š

Bases de données orientées objets, et  j , relationnelles objets

Š

Spatiales

Š

Spatiales

Š

Données temporelles

Š

Textes et multimédia

Š

WWW WWW

(20)

Fonctionnalités

• Description de concepts : Caractérisation et discrimination

Š

Généraliser résumer et contraster les données

Š

Généraliser, résumer, et contraster les données  caractéristiques, ex : régions sèches vs. humides

• Association

(

corrélation et causalité)

Š

Association multidimensionnelle vs

Š

Association multidimensionnelle vs. 

monodimensionnelle

Š âge(X, “20..29”) ^ revenu(X, “20..29K”) → achète(X, “PC”)  [support = 2%, confiance = 60%]

Š contient(T, “PC”) → contient(x, “logiciel”) [1%, 75%]

(21)

Fonctionnalités (suite)

• Classification et Prédiction

Š Trouver des modèles (fonctions) qui décrivent et distinguent des ( ) q g classes ou concepts pour la prédiction future

Š ex : séquences codantes aide au diagnostic

Š ex : séquences codantes, aide au diagnostic

Š Présentation: arbre de décision, règles de classification, réseaux  de neurones

Š Prédiction: Prédire des valeurs inconnues ou manquantes

• Clustering

d l édéfi i l d é f d

Š Pas de classes prédéfinies : grouper les données pour former des  classes nouvelles, ex : familles de protéines basées sur la 

similarité des séquences

Š Principe : maximiser la similarité intra‐classe et minimiser la p similarité inter‐classes

(22)

Fonctionnalités (suite)

• Outlier analysis

Š Outlier: un objet qui se distingue du comportement général des

Š Outlier: un objet qui se distingue du comportement général des  données

Š Peut être considéré comme du bruit ou une exception Util à l dét ti d f d t é è t

Š Utile à la détection de fraudes et évènements rares

• Analyse des tendances et de l’évolution Analyse des tendances et de l évolution

Š Tendance et déviation :  analyse de régression

Š Découverte de motifs séquentiels, analyse de périodicité

A l b é l i il ité

Š Analyses basées sur la similarité

• Autres analyses basées sur des motifs ou sur des Autres analyses basées sur des motifs ou sur des 

statistiques

(23)

Est‐ce que tous les patterns découverts sont intéressants ?

Pb: Un système de data mining peut générer des milliers de patterns

Š Approches suggérées : centré sur l’utilisateur, basé sur des requêtes

Mesures du niveau d’intérêt : un motif est intéressant si il est : 

Š facile à comprendre par un humainp p

Š valide sur des nouvelles données ou données test avec un certain degré de certitude

Š potentiellement utilepotentiellement utile

Š nouveau

Š ou encore s’il sert à valider une hypothèse que l’utilisateur cherche à confirmer

Š ou encore s il sert à valider une hypothèse que l utilisateur cherche à confirmer

Mesures objective vs. subjective :

Š Objective : basée sur des statistiques et sur les structures des motifs, ex : support,  confiance

Š Subjective : basée sur les sentiments de l’utilisateur, ex : inattendu, nouveau

(24)

Peut‐on trouver tous les motifs intéressants et seulement ceux là ?

• Complétude : trouver tous les patterns intéressants

Š Est‐ce qu’un système peut trouver tous les patterns intéressants ?

Š Est ce qu un système peut trouver tous les patterns intéressants ?

Š Association vs. classification vs. clustering

• Optimisation : trouver seulement les patterns intéressants

E t ’ tè t t l t l tt

Š Est ce qu’un système peut trouver seulement les patterns  intéressants ?

Š Approches

ƒ Générer tous les patterns et filtrer ceux intéressants

ƒ Générer tous les patterns et filtrer ceux intéressants

ƒ Générer seulement des patterns intéressants

(25)

Schéma de classification des systèmes de data mining

• Fonctionnalité générale

Š Descriptif

Š Descriptif 

Š Prédictif

• Vues différentes, classifications différentes

Š Types de bases de données à fouiller (relationnelles ou OO. Texte  ou multimédia)

ou multimédia) 

Š Types de connaissances à découvrir (association, clustering)

Š Types de techniques utilisées (automatique, guidée par  l’utilisateur exploratoire)

l utilisateur, exploratoire)

Š Types d’applications spécifiques

(26)

Classification des systèmes de data mining (suite)

T d b d d é

Types de bases de données

Š Relationnelles, transactionnelles, orientée objet, relationnelle  objet, spatial, temporelles, texte, multimédia, WWW, etc.

Types de connaissances à découvrir

Š Caractérisation, discrimination, association, classification,  clustering, tendance, déviation et outlier analysis, etc.g y

Š Fonctions Multiples/intégrées et data mining sur plusieurs  niveaux

Techniques utilisées

Š Orienté bases de données entrepôt de données (OLAP)

Š Orienté bases de données, entrepôt de données (OLAP),  apprentissage automatique(machine learning), statistiques,  visualisation réseaux de neurones etc

visualisation, réseaux de neurones, etc.

Applications spécifiques

télé i ti b l d f d Bi i f ti b

Š télécommunication, banque, analyse de fraude, Bio‐informatique, bourse,  Web mining, Weblog, etc.

(27)

Principaux défis en data mining (1)

• Méthodologie et interactions utilisateur

Š Fouille de différents types de connaissances dans les bases de données

Š Fouille interactive à des niveaux multiples d’abstraction

Š Incorporation de connaissances a priorip p (background knowledge)( g g )

Š Langages de requêtes pour le data mining

Š Expression et visualisation des résultatsExpression et visualisation des résultats

Š Prise en compte du bruit ou de données manquantes/incomplètes

Š Évaluation des patterns : le problème du niveau d’intérêt

Š Évaluation des patterns : le problème du niveau d intérêt

• Performance et mise à l’échelle

Effi i é i à l’é h ll d l i h d d i i

Š Efficacité et mise à l’échelle des algorithmes de data mining

Š Parallélisation, distributivité et possibilités incrémentales des méthodes de  f ill

fouille

(28)

Principaux défis en data mining (2)

ié à l di i é d d d é

• Liées à la diversité des types de données

ŠDonnées relationnelles et types complexes

ŠBases de données hétérogènes et systèmes global d’information  (WWW)

( )

• Liées aux applications et aux nouvelles connaissances

A li ti

ŠApplications

ƒ Création d’outils domaine‐spécifique

ƒ Intelligent query answering

ƒ Contrôle de processus et aide à la décisionp

ŠIntégration des connaissances découvertes avec celles existantes :  problème de fusion des connaissances

p

ŠProtection des données : sécurité, intégrité, et données privées  (informatique et libertés données cliniques)

(informatique et libertés, données cliniques)

(29)

Bilan

i i dé d if i é à i d

• Data mining: découverte de motifs intéressants à partir de  données massives

• Évolution naturelle des technologies des bases de  données large demande beaucoup d’applications données, large demande, beaucoup d applications

Le processus de découverte implique le nettoyage, 

l’intégration, la sélection, la transformation et la fouille  des données, suivies de l’évaluation des motifs extraits  et de leur représentation

• La fouille peut s’effectuer sur une grande variété

• La fouille peut s effectuer sur une grande variété  d’entrepôt de données

• Fonctionnalités : caractérisation, discrimination, 

association, classification, clustering, analyse des 

tendances et des outliers, etc.

Références

Documents relatifs

Dans ce chapitre, nous avons introduit la notion de MO et nous avons montré que les MO permettaient de modéliser de nombreux problèmes d'extraction de motifs : skypatterns,

Nous montrons, au travers de l’application ` a la d´ecouverte de fragments mol´ecu- laires toxicophores, comment les contraintes souples de seuil permettent d’extraire des

Lorsque l’on tient compte de la correspondance entre les blocs, la re- cherche de motifs fréquents sur chacune des 2 bases nous indique que les réactions transformant une

Lorsque la solution proposée satisfait l’utilisateur, les connaissances acquises sont mémorisées dans la base de connaissances d’adaptation CA du système de façon à pouvoir

Précisément, une solution de MMP est une matrice cohérente avec les contraintes et maximale pour l’exclusion forte relativement aux contraintes de domaine et de coefficients, i.e.,

Comme on constate depuis de nombreuses années une croissance de la multiplicité des outils de communication et de collaboration (C&C) – e.g. les outils de messagerie,

Il distingue ensuite cinq figures de la transtextualité : L'intertextualité est « une relation de coprésence entre deux ou plusieurs textes, c'est à –dire […] par la

The main underlying idea of this paper is to derive the error estimates for approximate solutions of problem ( 1.1 )–( 1.5 ) obtained by time and space discretization by using