• Aucun résultat trouvé

Fouille de données ( Data Mining ) - Un tour d’horizon -

N/A
N/A
Protected

Academic year: 2022

Partager "Fouille de données ( Data Mining ) - Un tour d’horizon -"

Copied!
325
0
0

Texte intégral

(1)

O

Laboratoire d’Informatique

Fondamentale de Lille OPACOPAC

Fouille de données ( Data Mining ) - Un tour d’horizon -

E-G. Talbi

talbi@lifl.fr

(2)

Introduction au Data Mining Introduction au Data Mining

ƒ Définition du Data Mining

ƒ Pourquoi le Data Mining ?

ƒ Description du processus KDD (Knowledge Data Discovery)

ƒ Applications

ƒ Tâches et Techniques du Data Mining

(3)

Qu’est-ce que le DM ? Qu’est-ce que le DM ?

ƒ Processus inductif, itératif et interactif de découverte dans les BD larges de modèles de données valides, nouveaux, utiles et

compréhensibles.

ƒ Itératif : nécessite plusieurs passes

ƒ Interactif : l’utilisateur est dans la boucle du processus

ƒ Valides : valables dans le futur

ƒ Nouveaux : non prévisibles

ƒ Utiles : permettent à l’utilisateur de prendre des décisions

ƒ Compréhensibles : présentation simple

(4)

Notion d’induction [Peirce 1903]

ƒ Abduction : diagnostic médical, ...

ƒ Toutes les voitures ont 4 roues

ƒ La Peugeot 206 a 4 roues

ƒ ==> La Peugeot 206 est une voiture

ƒ Déduction : Raisonnement qui conclut à partir de

prémisses et d’hypothèses à la vérité d’une proposition en usant des règles d’inférence

ƒ Toutes les voitures ont 4 roues

ƒ La Peugeot 206 est une voiture

ƒ ==> La Peugeot 206 a 4 roues

(5)

Notion d’induction [Peirce 1903]

ƒ Induction : Généralisation d’une observation ou d’un raisonnement établis à partir de cas singuliers.

ƒ Utilisée en Data mining (tirer une conclusion à partir d ’une série de faits, pas sûre à 100%)

ƒ La clio a 4 roues, La Peugeot 106 a 4 roues, La BMW M3 a 4 roues, La Mercedes 190 a 4 roues

ƒ ==> Toutes les voitures ont 4 roues

(6)

Motivations (1) Motivations (1)

ƒ Explosion des données

ƒ Masse importante de données (millions de milliards d’instances) : elle double tous les 20 mois.

ƒ BD très larges - Very Large Databases (VLDB)

ƒ Données multi-dimensionnelles (milliers d’attributs)

ƒ BD denses

ƒ Inexploitables par les méthodes d’analyse classiques

ƒ Collecte de masses importantes de données (Gbytes/heure)

ƒ Données satellitaires, génomiques (micro-arrays, …), simulations scientifiques, etc.

ƒ Besoin de traitement en temps réel de ces données

(7)

Motivations (2) Motivations (2)

ƒ Améliorer la productivité

ƒ Forte pression due à la concurrence du marché

ƒ Brièveté du cycle de vie des produits

ƒ Besoin de prendre des décisions stratégiques efficaces

ƒ Exploiter le vécu (données historiques) pour prédire le futur et anticiper le marché

ƒ individualisation des consommateurs (dé-massification).

ƒ Croissance en puissance/coût des machines capables

ƒ de supporter de gros volumes de données

ƒ d’exécuter le processus intensif d’exploration

ƒ hétérogénéité des supports de stockage

(8)

Motivations (3) Motivations (3)

Mount 43174371950 79%/ 02 631963 47358 93%/us

F ile E dit L oc ateV iew H elp

1234567

0 100 200 300 400

500 EDCBA

Network

Traffic Help

Internet Internet

Storage Storage Storage

Storage Storage Storage

Storage Storage

Storage StorageStorageStorage Storage Storage Storage

Storage Storage Storage

Storage Storage Storage

Storage Storage Storage

Masse importante de données – supports hétérogènes

(9)

Le processus de découverte de connaissances Le processus de découverte de connaissances

ƒ Data mining : coeur de KDD (Knowledge Data Discovery).

Data MiningData Mining

Collecte, Nettoyage, Intégration

Collecte, Nettoyage, Intégration

Préparation des données Préparation

des données d’apprentissageDonnées WarehouseData

Vérification &

Evaluation Vérification &

Evaluation Sources de

données

Modèles, Patterns

(10)

Démarche méthodologique (1) Démarche méthodologique (1)

ƒ Comprendre l’application

ƒ Connaissances a priori, objectifs, etc.

ƒ Sélectionner un échantillon de données

ƒ Choisir une méthode d’échantillonnage

ƒ Nettoyage et transformation des données

ƒ Supprimer le «bruit» : données superflues, marginales, données manquantes, etc.

ƒ Effectuer une sélection d’attributs, réduire la dimension du problème, etc.

ƒ Appliquer les techniques de fouille de données

ƒ Choisir le bon algorithme

(11)

Démarche méthodologique (2) Démarche méthodologique (2)

ƒ Visualiser, évaluer et interpréter les modèles découverts

ƒ Analyser la connaissance (intérêt)

ƒ Vérifier sa validité (sur le reste de la base de données)

ƒ Réitérer le processus si nécessaire

ƒ Gérer la connaissance découverte

ƒ La mettre à la disposition des décideurs

ƒ L’échanger avec d’autres applications (système expert, …)

ƒ etc.

(12)

Data Mining et aide à la décision Data Mining et aide à la décision

Potentiel de support

de décision Utilisateur(s)

Décideur(s) Analyste(s) de données

Administrateur de Bases de données

Prise de décisions

Présentation des connaissances

Techniques de visualisation Data Mining

Découverte de connaissances Exploration de données

(OLAP, ...)

(Statistiques, Requêtes, ...) Data Warehouses

Sources de données

(Papier, Fichiers, Fournisseurs d’information, SGBD, …)

(13)

Objectifs Objectifs

ƒ Développer des techniques et systèmes efficaces et extensibles pour l’exploration de :

ƒ BD larges et multi-dimensionnelles

ƒ Données distribuées

ƒ Faciliter l’utilisation des systèmes de DM

ƒ Limiter l’intervention de l’utilisateur

ƒ Représentation simple de la connaissance

ƒ Visualisation sous forme exploitable

(14)

Communautés impliquées Communautés impliquées

ƒ Intelligence artificielle et apprentissage

ƒ Bases de données

ƒ Analyse de données (statistiques)

ƒ Visualisation

ƒ Recherche opérationnelle et optimisation

ƒ Informatique parallèle et distribuée

ƒ Etc.

(15)

Data Mining et Statistiques Data Mining et Statistiques

ƒ Data mining : Exploratoire, Data-driven modeling

ƒ Statistiques : Confirmatoire, User-driven modeling

ƒ Distribution d ’une seule variable : moyenne, médiane, variance, écart-type, …

ƒ Explorer les relation entre variables : coefficient de corrélation, …

ƒ Découverte de la cause des relations entre de nombreuses variables est assez complexe.

ƒ test du X2, ...

ƒ Réseaux bayésiens (probabilités conditionnelles)

(16)

Découverte de modèles fonctionnels

ƒ Méthodes de régression :

ƒ régression linéaire : Y = aX+ b (a, b : valeurs réelles)

ƒ Rapide et efficace (valeurs réelles)

ƒ Insuffisante pour l ’analyse d’espace multidimentionnel Nombre de

petits commerçants

Nombre de grandes surfaces

* *

**

*

*

*

(17)

Découverte de modèles fonctionnels

ƒ Kernel regression : découvrir graphiquement la fonction à utiliser, peut être une courbe

ƒ Techniques statistiques inadéquates : nombre de facteurs important, modèles non linéaires.

Nombre de

petits commerçants

*

* *

* *

*

* Nombre de grandes

surfaces

(18)

Domaines d’application Domaines d’application

Marketing

BDD Marketing

Data

Warehousing

KDD &

Data Mining

ƒƒ Prise de décision basée Prise de décision basée sur de nouvelles

sur de nouvelles connaissances connaissances

ƒƒ Ex., impact sur le Ex., impact sur le marketing

marketing

ƒƒ Le rôle et l’importance du Le rôle et l’importance du KDD et DM est de plus en KDD et DM est de plus en

plus important plus important

ƒƒ Mais le DM n’est pas Mais le DM n’est pas seulement dans le

seulement dans le marketing...

marketing...

(19)

Domaines d’application Domaines d’application

ƒ Marketing direct : population à cibler (âge, sexe, profession, habitation, région, …) pour un

publipostage.

ƒ Gestion et analyse des marchés : Ex. Grande

distribution : profils des consommateurs, modèle d ’achat, effet des périodes de solde ou de

publicité, « panier de la ménagère »

ƒ Détection de fraudes : Télécommunications, ...

ƒ Gestion de stocks : quand commander un produit, quelle quantité demander, …

ƒ Analyse financière : maximiser l ’investissement de portefeuilles d ’actions.

(20)

Domaines d’application Domaines d’application

ƒ Gestion et analyse de risque : Assurances, Banques (crédit accordé ou non)

ƒ Compagnies aériennes

ƒ Bioinformatique et Génome : ADN mining, …

ƒ Médecine et pharmacie :

ƒ Diagnostic : découvrir d ’après les symptomes du patient sa maladie

ƒ Choix du médicament le plus approprié pour guérir une maladie donné

ƒ Web mining, text mining, etc.

(21)

Exemple 1 - Marketing Exemple 1 - Marketing

ƒƒ Vous êtes gestionnaireVous êtes gestionnaire marketing d’un marketing d’un opérateur

opérateur de de télécommunicationstélécommunications mobiles :

mobiles :

ƒ Les clients recoivent un téléphone gratuit (valeur 150€) avec un contrat d’un an ; vous payer une commission de vente de 250€ par contrat

ƒ Problème : Taux de renouvellement (à la fin du contrat) est de 25%

ƒ Donner un nouveau téléphone à toute

personne ayant expirer son contrat coûte cher.

ƒ Faire revenir un client après avoir quitter est difficile et coûteux.

(22)

Exemple 1 - Marketing Exemple 1 - Marketing

ƒƒ Trois mois avant Trois mois avant

l’expiration du contrat l’expiration du contrat, , prédire

prédire les clients qui les clients qui vontvont quitter :quitter :

ƒ Si vous voulez les garder, offrir un nouveau

téléphone.

Yippee!

Je reste ! Yippee!

Je reste !

(23)

Exemple 2 - Assurances Exemple 2 - Assurances

ƒƒ Vous êtesVous êtes un agent un agent d’assurance

d’assurance et et vous vous devez définir

devez définir un un

paiement mensuel adapté paiement mensuel adapté à un

à un jeunejeune de 18 de 18 ansans qui a qui a acheté une

acheté une Ferrari.Ferrari.

ƒƒ Qu’est ce qu’il fautQu’est ce qu’il faut faire faire

?? Oh, oui!

J’aime ma Ferrari!

Oh, oui!

J’aime ma Ferrari!

(24)

Exemple 2 - Assurances Exemple 2 - Assurances

ƒƒ AnalyserAnalyser les donnéesles données de tousde tous les les clients de la

clients de la compagniecompagnie. .

ƒƒ La probabilité d’avoirLa probabilité d’avoir un accident un accident est basée sur

est basée sur … ?… ?

ƒ Sexe du client (M/F) et l’âge

ƒ Modèle de la voiture, âge, adresse, ....

ƒ etc.

ƒƒ SiSi la probabilité d’avoirla probabilité d’avoir un un accident

accident est supérieureest supérieure à la à la moyenne

moyenne, , initialiserinitialiser la mensualité la mensualité suivant

suivant les les risquesrisques. .

(25)

Exemple 3 – Banque - Télécom Exemple 3 – Banque - Télécom

ƒƒ Vous êtesVous êtes à à l’étrangerl’étranger et et quelqu’un

quelqu’un a volé votrea volé votre carte de carte de crédir ou votre

crédir ou votre mobile …mobile …

ƒƒ compagnies bancairescompagnies bancaires ……

ƒ Utiliser les données historiques pour construire un modèle de comportement frauduleux et utiliser le data mining pour identifier des instances

similaires.

ƒƒ compagnies téléphoniquescompagnies téléphoniques ……

ƒ Analyser les “patterns” qui dérivent du comportement attendu (destinataire, durée, etc.)

(26)

Exemple 4 - Web Exemple 4 - Web

ƒƒ Les logs des Les logs des accésaccés Web Web sont sont analysés

analysés pour … pour …

ƒ Découvrir les préférences des utilisateurs

ƒ Améliorer l’organisation du site Web

ƒƒ De De manière similairemanière similaire … …

ƒ L’analyse de tous les types d’informations sur les logs

ƒ Adaptation de l’interface utilisateur/service

bonne

de surfing!

bonne

expérience de surfing!

expérience

(27)

Paramètres d’un processus KDD Paramètres d’un processus KDD

Technique ? Format, Type ?

Data MiningData Mining

Données

d’apprentissage Tâche ?

Modèles,

Patterns Type de

représentation ?

(28)

Les données

ƒ Valeurs des champs des enregistrements des tables de l’entropot (base de données)

ƒ Types :

ƒ Données discrètes : données binaires (sexe, …), données énumératives (couleur, …), énumératives ordonnées (réponses 1:très satisfait, 2:satisfait,

…).

ƒ Données continues : données entières ou réelles (âge, salaire, …)

ƒ Dates

ƒ Données textuelles

ƒ Pages/liens web, Multimédia, …

(29)

Tâches du Data Mining Tâches du Data Mining

ƒ

Classification

ƒ

Clustering (Segmentation)

ƒ

Recherche d’associations

ƒ

Recherche de séquences

ƒ

Détection de déviation

(30)

Classification Classification

ƒ Elle permet de prédire si une instance de donnée est membre d’un groupe ou d’une classe prédéfinie.

ƒ Classes

ƒ Groupes d’instances avec des profils particuliers

ƒ Apprentissage supervisé : classes connues à l’avance

ƒ Applications : marketing direct (profils des consommateurs), grande distribution (classement des clients), médecine

(malades/non malades), etc.

ƒ Exemple : les acheteurs de voitures de sport sont de jeunes citadins ayant un revenu important

(31)

Clustering (Segmentation) Clustering (Segmentation)

ƒ Partitionnement logique de la base de données en clusters

ƒ Clusters : groupes d’instances ayant les mêmes caractéristiques

ƒ Apprentissage non supervisé (classes inconnues)

ƒ Pb : interprétation des clusters identifiés

ƒ Applications : Economie (segmentation de marchés), médecine (localisation de tumeurs dans le cerveau), etc.

(32)

Règles d’association Règles d’association

ƒ Corrélations (ou relations) entre attributs (méthode non supervisée)

ƒ Applications : grande distribution, gestion des stocks, web (pages visitées), etc.

ƒ Exemple

ƒ BD commerciale : panier de la ménagère

ƒ Articles figurant dans le même ticket de caisse

ƒ Ex : achat de riz + vin blanc ==> achat de poisson

ƒ Achats bières et couches-culottes (USA, Week-end)

(33)

Recherche de séquences Recherche de séquences

ƒ Recherche de séquences

ƒ Liaisons entre événements sur une période de temps

ƒ Extension des règles d’association

ƒ Prise en compte du temps (série temporelle)

ƒ Achat Télévision ==> Achat Magnétoscope d’ici 5 ans

ƒ Applications : marketing direct (anticipation des

commandes), bioinformatique (séquences d’ADN), bourse (prédiction des valeurs des actions)

ƒ Exemple

ƒ BD commerciale (ventes par correspondance)

ƒ Commandes de clients

ƒ Ex : 60% des consommateurs qui commandent la bière

«Mort subite» commandent de l’aspro juste après

Q Séquences d’AND : ACGTC est suivie par GTCA après un gap de 9, avec une probabilité de 30%

(34)

Détection de déviation Détection de déviation

ƒ Instances ayant des caractéristiques les plus différentes des autres

ƒ Basée sur la notion de distance entre instances

ƒ Expression du problème

ƒ Temporelle : évolution des instances ?

ƒ Spatiale : caractéristique d’un cluster d’instances ?

ƒ Applications

ƒ Détection de fraudes (transactions avec une carte bancaire inhabituelle en telemarketing)

ƒ Caractéristiques

ƒ Problème d’interprétation : bruit ou exception (donc connaissance intéressante)

(35)

Illustration Illustration

Point isolé

(36)

Techniques utilisées

ƒ K-moyennes, A-priori, K-NN

ƒ Réseaux de neurones

ƒ Algorithmes génétiques

ƒ Chaînes de Markov cachées

ƒ Arbres de décision

ƒ Réseaux bayesiens

ƒ Soft computing : ensembles flous

ƒ …

(37)

Résumé - Introduction

ƒƒ Data mining : Data mining : découverte automatiquedécouverte automatique de de modèles modèles intéressants

intéressants à à partir d’ensemblepartir d’ensemble de de donnéesdonnées de de grande taille

grande taille

ƒƒ KDD (knowledge data discovery) est un processus :KDD (knowledge data discovery) est un processus :

ƒ Pré-traitement (Pre-processing)

ƒ Data mining

ƒ Post-traitement (Post-processing)

ƒƒ Pour le data mining, utilisation de différents …Pour le data mining, utilisation de différents …

ƒ Base de données (relationelle, orientée objet, spatiale, WWW, …)

ƒ Connaissances (classification, clustering, association, …)

ƒ Techniques (apprentissage, statistiques, optimisation, …)

ƒ Applications (génomique, télécom, banque, assurance, distribution, …)

(38)

Travaux pratiques :

Cadre du travail

(39)

WEKA 3.2

Waikato Environment for Knowledge Analysis

http://www.cs.waikato.ac.nz/ml/weka/

http://www.lifl.fr/~jourdan

(40)

WEKA

ƒ Logiciel gratuit disponible sur le web :

http://www.cs.waikato.ac.nz/ml/weka/

ƒ Plate forme logicielle en Java tournant sous :

ƒ Windows

ƒ Linux

ƒ Facile à prendre en main

(41)

WEKA

ƒ Interface en ligne de commande

ƒ Explorer (interface graphique)

ƒ Filtre

ƒ Apprentissage (clustering, classification, ...)

ƒ Sélection d’attributs

ƒ Visualisateur de données et de résultats

ƒ Expérimenter (environnement d’expérience)

ƒ Test d’une méthode spécifique sur un ensemble de données avec des critères variés pour la

comparaison de résultats

(42)

WEKA

ƒ En entrée : fichiers, base de données, Url

ƒ En sortie : affichage des résultats, sortie des résultats dans des fichiers, visualisation

graphique …

Exemple de

visualisation après une classification : une couleur

représente une classe

(43)

Weka - Explorer

Les fonctions disponibles :

ƒ Filtre et Preprocess sur les données

ƒ Classification

ƒ Clustering

ƒ Règles d’association

ƒ Sélection d’attributs

ƒ Visualisateur

(44)

Plan du cours

ƒ Clustering

ƒ Classification

ƒ Règles d’association

ƒ Outils pour le Data Mining

PlanPlan

(45)

Clustering

(Segmentation)

(46)

Clustering - Plan Clustering - Plan

Sommaire Sommaire

ƒƒ Problèmatique duProblèmatique du clusteringclustering

ƒƒ ApplicationsApplications

ƒƒ SimilaritéSimilarité et types de et types de donnéesdonnées

ƒƒ MéthodesMéthodes de clusteringde clustering

ƒƒ MéthodesMéthodes de partitionnementde partitionnement

ƒƒ Méthodes hiérarchiquesMéthodes hiérarchiques

ƒƒ MéthodesMéthodes par voisinagepar voisinage densedense

ƒƒ Application Application réelleréelle en en génomiquegénomique

ƒƒ RésuméRésumé

(47)

Problèmatique Problèmatique

ƒ Soient N instances de données à k attributs,

ƒ Trouver un partitionnement en c clusters (groupes) ayant un sens ( Similitude )

ƒ Affectation automatique de “labels” aux clusters

ƒ c peut être donné, ou “découvert”

ƒ Plus difficile que la classification car les classes ne sont pas connues à l’avance (non supervisé)

ƒ Attributs

Numériques (distance bien définie)

Enumératifs ou mixtes (distance difficile à définir)

(48)

Qualité d’un clustering Qualité d’un clustering

ƒ Une bonne méthode de clustering produira des clusters d’excellente qualité avec : avec :

ƒ Similarité intra intra - - classe classe importante

ƒ Similarité inter inter - - classe classe faible

ƒ La qualité qualité d’un clustering dépend de :

ƒ La mesure de similarité utilisée

ƒ L’implémentation de la mesure de similarité

ƒ La qualité d’une méthode qualité d’une méthode de clustering est

évaluée par son abilité à découvrir certains

ou tous les “patterns” cachés.

(49)

Objectifs du clustering Objectifs du clustering

Minimiser les distances intra-cluster

Minimiser les distances

intra-cluster Maximiser les distances inter-clusters

Maximiser les distances inter-clusters

(50)

Exemples d’applications

ƒƒ Marketing Marketing :: segmentation du marché en découvrant des groupes de clients distincts à partir de bases de doneées d’achats.

ƒƒ EnvironnementEnvironnement :: identification des zones terrestres similaires (en termes d’utilisation) dans une base de données d’observation de la terre.

ƒƒ Assurance:Assurance: identification de groupes d’assurés distincts associés à un nombre important de déclarations.

ƒƒ PlanificationPlanification de villesde villes :: identification de groupes d’habitations suivant le type d’habitation, valeur, localisation géographique, …

ƒ Médecine : Localisation de tumeurs dans le cerveau

ƒ Nuage de points du cerveau fournis par le neurologue

ƒ Identification des points définissant une tumeur

(51)

Exemple: segmentation de marchés

Exemple: segmentation de marchés

(52)

Mesure de la similarité Mesure de la similarité

ƒ Il n’y a pas de définition unique de la similarité entre objets

ƒ Différentes mesures de distances d(x,y)

ƒ La définition de la similarité entre objets dépend de :

ƒ Le type des données considérées

ƒ Le type de similarité recherchée

(53)

Choix de la distance Choix de la distance

ƒ Propriétés d’une distance :

ƒ Définir une distance sur chacun des champs

ƒ Champs numériques : d(x,y) = |x-y|, d(x,y)= |x-y|/dmax (distance normalisée).

ƒ Exemple : Age, taille, poids, …

) , ( )

, ( )

, ( 4.

) , ( )

, ( 3.

iff 0 )

, ( 2.

0 )

, ( 1.

z y d y

x d z

x d

x y d y

x d

y x

y x d

y x d

+

=

=

=

(54)

Distance – Données numériques Distance – Données numériques

ƒ Combiner les distances : Soient x=(x1,…,xn) et y=(y1, …,yn)

ƒ Exemples numériques :

ƒ Distance euclidienne :

ƒ Distance de Manhattan :

ƒ Distance de Minkowski :

k=1 : distance de Manhattan.

k=2 : distance euclidienne

=

=

n

i

x

i

y

i

y x d

1

) , (

( )

=

=

n

i

i

i

y

x y

x d

1

)

2

, (

q n q

i

x

i

y

i

y x

d ( , ) =

=1

(55)

Choix de la distance Choix de la distance

ƒ Champs discrets :

ƒ Données binaires : d(0,0)=d(1,1)=0, d(0,1)=d(1,0)=1

ƒ Donnée énumératives : distance nulle si les valeurs sont égales et 1 sinon.

ƒ Donnée énumératives ordonnées : idem. On peut définir une distance utilisant la relation d’ordre.

ƒ Données de types complexes : textes, images, données génétiques, ...

(56)

Distance – Données binaires Distance – Données binaires

Object j

p d

b c a sum

d c d

c

b a b

a

sum

+ +

+ + 0

1

0 Table de contingencecontingence 1

((dissimilaritédissimilarité))

Object i

ƒƒ Coefficient de correspondanceCoefficient de correspondance simplesimple (similarité invariante, si la variable binaire est symétrique) :symétrique

ƒƒ Coefficient de JaccardCoefficient de Jaccard (similarité non invariante, si la variable binaire est asymétrique):asymétrique

d c

b

a b c

j i

d ( , ) = + ++ +

c b

a b c j

i

d ( , ) = + + +

(57)

Distance – Données binaires Distance – Données binaires

Exemple

Exemple : dissimilarité entre variables binaires

• Table de patients

• 8 attributs, avec

ƒ Sexe un attribut symétrique, et

ƒ Les attributs restants sont asymétriques (test VIH, …)

Nom Sexe Fièvre Toux Test-1 Test-2 Test-3 Test-4 Jack M Y N P N N N Mary F Y N P N P N Jim M Y P N N N N

(58)

Distance – Données binaires Distance – Données binaires

ƒ Les valeurs Y et P sont initialisées à 1, et la valeur N à 0.

ƒ Calculer la distance entre patients, basée sur le coefficient de Jaccard.

75 . 2 0

1 1

2 ) 1

, (

67 . 1 0

1 1

1 ) 1

, (

33 . 1 0

0 2

1 ) 0

, (

+ = +

= +

+ = +

= +

+ = +

= +

mary jim

d

jim jack

d

mary jack

d

(59)

Distance – Données énumératives Distance – Données énumératives

ƒ G énéralisation énéralisation des variables binaires, avec avec plus de 2

plus de 2 états, e.g., rouge, jaune, bleu, vert états

ƒ Méthode 1: correpondance correpondance simple simple

ƒ ƒ m: # de correspondances m: , , p: # total de p:

variables

p m j p

i

d ( , ) = −

(60)

Distance – Données mixtes Distance – Données mixtes

ƒ Exemple : (Age, Propriétaire résidence principale, montant des mensualités en cours)

ƒ x=(30,1,1000), y=(40,0,2200), z=(45,1,4000)

ƒ d(x,y)=sqrt( (10/15)2 + 12 + (1200/3000)2) = 1.27

ƒ d(x,z)= sqrt( (15/15)2 + 02 + (3000/3000)2) = 1.41

ƒ d(y,z)= sqrt( (5/15)2 + 12 + (1800/3000)2) = 1.21

ƒ plus proche voisin de x = y

ƒ Distances normalisées.

ƒ Sommation : d(x,y)=d1(x1,y1) + … + dn(xn,yn)

(61)

Données mixtes – Exemple 1 Données mixtes – Exemple 1

ƒ Base de données « Cancer du sein »

http://www1.ics.uci.edu/~mlearn/MLSummary.html

ƒ #instances = 286 (Institut Oncologie, Yugoslavie)

ƒ # attributs = 10

ƒ Classe : no-recurence-events, recurrence-events

ƒ Age : 10-19, 20-29, 30-39, 40-49, …, 90-99

ƒ Menopause : Lt40, Ge40, premeno

ƒ Taille de la tumeur : 0-4, 5-9, 10-14, …, 55-59

ƒ Inv-nodes : 0-2, 3-5, 6-8, …, 36-39 (ganglions lymphatiques)

ƒ Node-caps : Oui, Non

ƒ Deg-malig : 1, 2, 3 (Dégré de malignité)

ƒ Sein : Gauche, Droit

ƒ Breast-quad : left-up, left-low, right-up, right-low, central

ƒ Irradiation : Oui, Non

(62)

Données mixtes – Exemple 2 Données mixtes – Exemple 2

ƒ Base de données « Diabète » : Diagnostic (OMS) http://www1.ics.uci.edu/~mlearn/MLSummary.html

ƒ #instances = 768 (Arizona, USA)

ƒ # attributs = 8

ƒ Nombre de grossesses

ƒ Concentration du taux de glucose dans le plasma

ƒ Pression sanguine diastolique (mm Hg)

ƒ Epaisseur de la graisse du triceps (mm)

ƒ Taux d’insuline après 2 heures (repas) (mu U/ml)

ƒ Indice de masse corporelle (poids en kg / (taille en m)^2)

ƒ Fonction « Diabete pedigree »

ƒ Age (ans)

ƒ Classe (Positif ou Négatif)

(63)

Méthodes de Clustering Méthodes de Clustering

ƒ Méthode de partitionnement (K- moyennes)

ƒ Méthodes hiérarchiques (par agglomération)

ƒ Méthode par voisinage dense

ƒ

Caractéristiques

ƒ Apprentissage non supervisé (classes inconnues)

ƒ Pb : interprétation des clusters identifiés

(64)

Méthodes de clustering - Caractéristiques Méthodes de clustering - Caractéristiques

ƒ ƒ Extensibilité Extensibilité

ƒ ƒ Abilité Abilité à à traiter différents traiter différents types de

types de données données

ƒ ƒ Découverte Découverte de clusters de de clusters de différents formes

différents formes

ƒ ƒ Connaissances requises Connaissances requises

( ( paramètres paramètres de de l’algorithme l’algorithme ) )

ƒ ƒ Abilité Abilité à à traiter traiter les les données données bruitées

bruitées et et isolées isolées . .

(65)

Algorithme des k-moyennes (K-means) Algorithme des k-moyennes (K-means)

ƒ Entrée : un échantillon de m enregistrements x1, …, xm

ƒ 1. Choisir k centres initiaux c1, …, ck

ƒ 2. Répartir chacun des m enregistrements dans le groupe i dont le centre ci est le plus proche.

ƒ 3. Si aucun élément ne change de groupe alors arrêt et sortir les groupes

ƒ 4. Calculer les nouveaux centres : pour tout i, ci est la moyenne des éléments du groupe i.

ƒ Aller en 2.

(66)

Illustration (1) Illustration (1)

Centres initiaux

(67)

Illustration (2) Illustration (2)

Nouveaux centres

(68)

Illustration (3) Illustration (3)

Centres finaux

(69)

Algorithme des k-moyennes : Exemple Algorithme des k-moyennes : Exemple

ƒ 8 points A, …, H de l ’espace euclidéen 2D. k=2 (2 groupes)

ƒ Tire aléatoirement 2 centres : B et D choisis.

points Centre D(2,4), B(2,2)

Centre D(2,4), I(27/7,17/7)

Centre J(5/3,10/3), K(24/5,11/5)

A(1,3) B D J

B(2,2) B I J

C(2,3) B D J

D(2,4) D D J

E(4,2) B I K

F(5,2) B I K

G(6,2) B I K

H(7,3) B I K

(70)

K-moyennes : Avantages K-moyennes : Avantages

ƒƒ RelativementRelativement extensible dans le extensible traitement d’ensembles de taille importante

ƒƒ Relativement efficaceRelativement efficace : O(t.k.n), où n représente # objets, k # clusters, et t # iterations.

Normalement, k, t << n.

ƒ Produit généralement un optimum local ; un optimum global peut être obtenu en utilisant d’autres

techniques telles que :

algorithmes génétiques, …

(71)

K-moyennes : Inconvénients K-moyennes : Inconvénients

ƒƒ ApplicableApplicable seulement dans le cas où la moyenne des objets est définie

ƒƒ BesoinBesoin dede spécifierspécifier k, le nombre de clusters, a priori

ƒƒ IncapableIncapable de traiter les données bruitées (noisy).

ƒƒ NonNon adaptéadapté pour découvrir des

clusters avec structures non-convexes, et des clusters de tailles différentes

ƒ Les points isolés sont mal gérés

(doivent-ils appartenir obligatoirement à un cluster ?) - probabiliste

(72)

K-moyennes : Variantes K-moyennes : Variantes

ƒ Sélection des centres initiaux

ƒ Calcul des similarités

ƒ Calcul des centres (K-medoids : [Kaufman

& Rousseeuw’87] )

ƒ GMM : Variantes de K-moyennes basées sur les probabilités

ƒ K-modes : données catégorielles [Huang’98]

ƒ K-prototype : données mixtes (numériques et catégorielles)

(73)

Méthodes hiérarchiques

ƒƒ Une méUne méthode hiéthode hiérarchiquerarchique ::

construit une hiérarchie de clusters, non seulement une partition unique des objets.

ƒ Le nombre de clusters k n’est pas exigé comme donnée

ƒ Utilise une matrice de distances comme critère de clustering

ƒ Une condition de terminaison peut être utilisée (ex. Nombre de

clusters)

(74)

Méthodes hiérarchiques

ƒ Entrée : un échantillon de m enregistrements x1, …, xm

ƒ 1. On commence avec m clusters (cluster = 1 enregistrement)

ƒ 2. Grouper les deux clusters les plus « proches ».

ƒ 3. S’arrêter lorsque tous les enregistrements sont membres d’un seul groupe

ƒ 4. Aller en 2.

(75)

Arbre de clusters : Exemple

Step 0 Step 1 Step 2 Step 3 Step 4

b d c e

a a b

d e

c d e

a b c d e

(76)

Arbre de clusters

ƒ Résultat : Graphe hiérarchique qui peut être coupé à un niveau de dissimilarité pour former une partition.

ƒ La hiérarchie de clusters est

représentée comme un arbre de clusters, appelé dendrogrammedendrogramme

ƒ Les feuilles de l’arbre représentent les objets

ƒ Les noeuds intermédiaires de l’arbre représentent les clusters

(77)

Distance entre clusters

ƒ Distance entre les centres des clusters (Centroid Method)

ƒ Distance minimale entre toutes les paires de données des 2 clusters (Single Link Method)

ƒ Distance maximale entre toutes les paires de données des 2 clusters (Complete Link Method)

ƒ Distance moyenne entre toutes la paires d’enregistrements (Average Linkage)

{ ( , )}

min )

,

(i j , d x y

d = xCi yCj

{ ( , )}

max )

,

(i j , d x y

d = xCi yCj

{ ( , )}

) ,

(i j avg , d x y

d = xCi yCj

(78)

Méthodes hiérarchiques : Avantages

ƒƒ ConceptuellementConceptuellement simplesimple

ƒƒ PropriétésPropriétés théoriquesthéoriques sont bien connuesconnues

ƒ Quand les clusters sont groupés, lala décisiondécision estest définitive

définitive => => lele nombrenombre d’alternatives

d’alternatives différentesdifférentes àà à examiner est réduitréduit

(79)

Méthodes hiérarchiques : Inconvénients

ƒƒ GroupementGroupement de clusters est définitif

définitif => décisions =>

erronnées sont impossiblesimpossibles àà modifier

modifier ultérieurement

ƒ Méthodes nonnon extensiblesextensibles pour des ensembles de

données de grandes tailles

(80)

Méthodes basées sur la densité

ƒ Pour ce types de problèmes, l’utilisation de mesures de similarité (distance) est moins efficace que

l’utilisation de densité de voisinage.

(81)

Méthodes basées sur la densité

ƒ Minimiser la distance inter-clusters n’est pas toujours un bon critère pour reconnaître des

«formes » (applications géographiques, reconnaissance de formes – tumeurs, …).

Dist=18

Dist=15.3

(82)

Méthodes basées sur la densité (1)

ƒ Soit d* un nombre réel positif

ƒ Si d(P,Q)<=d*, Alors P et Q appartiennent au même cluster

ƒ Si P et Q appartiennent au même cluster, et

d(Q,R)<=d*, Alors P et R appartiennent au

même cluster

(83)

Méthodes basées sur la densité (2)

ƒ Soit e* un nombre réel positif

ƒ Un point P est dense ssi |{Q/d(P,Q)<=d*}|>=e*

ƒ Si P et Q appartiennent au même cluster, et d(Q,R)<=d* et Q est dense, Alors P et R

appartiennent au même cluster

ƒ Les points non-denses sont appelés points de

« bordure ».

ƒ Les points en dehors des clusters sont

appelés « bruits ».

(84)

Méthodes basées sur la densité

d* e*=4

P Q S R

• Points noirs sont denses ; les autres ne sont pas denses

• Pour montrer que P et S appartiennent au même cluster, il suffit de montrer que P et R appartiennent au même cluster. Pour le

montrer pour P et R, il suffit de le montrer pour P et Q …

(85)

Méthodes basées sur la densité

ƒ Deux clusters sont trouvés

ƒ Deux points sont des « bruits »

ƒ Trois points sont des « bordures »

(86)

Etude de cas réel : Génomique

Sélection d’attributs + Clustering

LIFL : Equipe OPAC

I.B.L

(87)

Le contexte

ƒ Génopole de Lille : Aspect génétique des maladies multifactorielles

ƒ Collaboration avec l’I.B.L. (Institut de Biologie de Lille) laboratoire des

maladies multifactorielles (UPRES-A 8090) : diabète, obésité

ƒ Génération de gros volumes de données : outil d’aide à l’interprétation des

résultats

(88)

Etudes de l’IBL

ƒ Etudes de type familial (parents, enfants) – Prélévement d’ADN

ƒ Analyse de liaison : co-transmission d’un gène

ƒ Comparaison de gènes entre paires d’individus d’une même famille

Objectif :

Localiser un ou plusieurs gènes de

prédisposition pour la maladie

(89)

Problème posé

ƒ Très grand nombre de données générées

ƒ (~ 1 000 points de comparaison, 200 familles)

ƒ Méthodes statistiques limitées pour étudier la corrélation entre gènes

Besoin d’un outil d’extraction

de connaissances : Data Mining

(90)

Contexte

Hypothèses de travail :

ƒ un cas particulier de Data Mining

ƒ les données fournies par l’IBL contiennent de nombreux attributs

ƒ existence de données manquantes ou incertaines

ƒ contexte d ’apprentissage non supervisé Objectif :

ƒ connaître les classes d ’attributs provoquant la maladie

ƒ connaître les corrélations entre les attributs

(91)

Méthodologie adoptée

Réalisation :

• d’une sélection d ’attributs : Réduire le nombre d ’attributs pour améliorer la classification

d’un clustering

Sélection

d ’attributs Clustering

m attributs N>>m

N attributs

Classes

(92)

K-moyennes

ƒ Sans sélection d ’attributs :

ƒ

400 attributs pour 200 objets,

ƒ temps de calcul > 7500 min. (>125 h.),

ƒ résultats inexploitables

ƒ Avec sélection d ’attributs :

ƒ une dizaine d ’attributs pour 200 objets,

ƒ temps de calcul entre 3 minutes et 15 minutes,

ƒ résultats exploitables.

(93)

Workshop GAW11 de 1998

ƒ Données simulées dont on connaît les résultats

ƒ Résultats à trouver :

A B D

C E1

(94)

Résultats

Résultats obtenus sur le workshop GAW11 de 1998

ƒ Exemple d ’ensembles d ’attributs sélectionnés (Support trouvé > 0.65) :

ƒ 81 85, 402 407, 224 229 (Locus C) , 308 313, 190 195, 374 379 (Locus B)

ƒ Exemple de clustering E1 C

Classe 1

E2 B

Classe 2

(95)

Conclusion

ƒ Bilan

ƒ Compréhension et modélisation d ’un problème complexe

ƒ Sélection d ’attributs : sélection de locus impliqués dans la maladie

ƒ Clustering : les ensembles finaux sont

trouvés lorsqu ’il y a peu d ’erreurs dans le

choix des attributs sélectionnés

(96)

Clustering – Résumé (1)

ƒƒ Le clustering groupeLe clustering groupe des des objetsobjets en se

en se basant sur leurs basant sur leurs similarités

similarités. .

ƒƒ Le clustering possède plusieursLe clustering possède plusieurs applications

applications. .

ƒƒ La mesureLa mesure de similarité peut de similarité peut être calculée

être calculée pour pour différentsdifférents types de

types de donnéesdonnées. .

ƒƒ La sélectionLa sélection de la mesurede la mesure de de similarité dépend

similarité dépend des des données données utilisées

utilisées et le type de similarité et le type de similarité recherchée

recherchée. .

(97)

Clustering – Résumé (2)

ƒƒ Les Les méthodesméthodes de clustering de clustering peuvent être classées

peuvent être classées en :en :

ƒƒ MéthodesMéthodes dede

partitionnement partitionnement,,

ƒƒ MéthodesMéthodes hiérarchiques, hiérarchiques,

ƒƒ MéthodesMéthodes à à densitédensité de de voisinage

voisinage. .

ƒƒ Plusieurs Plusieurs travauxtravaux de de recherche

recherche sursur le clustering le clustering en en courscours et en perspective. et en perspective.

ƒƒ PlusieursPlusieurs applications en applications en perspective

perspective : : GénomiqueGénomique, , Environnement

Environnement, …, …

(98)

Références

ƒ M. R. Anderberg. Cluster Analysis for Applications.

Academic Press, 1973.

ƒ P. Arabie, L. J. Hubert, and G. De Soete. Clustering and Classification. World Scientific, 1996

ƒ A. K. Jain and R. C. Dubes. Algorithms for Clustering Data. Prentice Hall, 1988

ƒ L. Kaufman and P. J. Rousseeuw. Finding Groups in Data: an Introduction to Cluster Analysis. John Wiley & Sons, 1990.

(99)

Classification

(100)

Sommaire Sommaire

Sommaire Sommaire

ƒƒ DéfinitionDéfinition

ƒƒ Validation d’uneValidation d’une classification classification (accuracy)

(accuracy)

ƒƒ KK--NN (plus NN (plus proches voisinsproches voisins))

ƒƒ ArbresArbres de décisionde décision

ƒƒ RéseauxRéseaux de de neuronesneurones

ƒƒ Autres méthodesAutres méthodes de de classification

classification

ƒƒ Etude de cas réelEtude de cas réel : : Protéomique

Protéomique

ƒƒ RésuméRésumé

(101)

Classification Classification

ƒ Elle permet de prédire si un élément est membre d’un groupe ou d ’une catégorie donné.

ƒ Classes

ƒ Identification de groupes avec des profils particuliers

ƒ Possibilité de décider de l’appartenance d’une entité à une classe

ƒ Caractéristiques

ƒ Apprentissage supervisé : classes connues à l’avance

ƒ Pb : qualité de la classification (taux d’erreur)

ƒ Ex : établir un diagnostic (si erreur !!!)

(102)

Classification

Classification - - Applications Applications

Applications Applications

ƒƒ Accord de créditAccord de crédit

ƒƒ Marketing cibléMarketing ciblé

ƒƒ Diagnostic médicalDiagnostic médical

ƒƒ Analyse de l’effet d’un Analyse de l’effet d’un traitement

traitement

ƒƒ Détection de fraudes Détection de fraudes fiscales

fiscales

ƒƒ etc.etc.

(103)

Processus

Processus à à deux étapes deux étapes

processus processus à 2 étapes à 2 étapes

Etape 1 : Etape 1 :

Construction du modèle Construction du modèle à partir de l’ensemble

d’apprentissage (training set)

Etape 2 : Etape 2 :

Utilisation du modèle Utilisation du modèle : tester la précision du

modèle et l’utiliser dans la classification de nouvelles données

(104)

Construction

Construction du modèle du modèle

ƒƒ Chaque instance est supposée Chaque instance appartenir à une classe

prédéfinie

ƒ La classe d’une instance est

déterminée par l’attribut ”classe”

ƒ L’ensemble des instances

d’apprentissage est utilisé dans la construction du modèle

ƒ Le modèle est représenté par des règles de classification, arbres de décision, formules

mathématiques, ...

Etape 1 Etape 1

(105)

Utilisation du modèle Utilisation du modèle

Etape 2 Etape 2

ƒƒ Classification de nouvellesClassification de nouvelles instances ou instances

instances ou instances inconnuesinconnues

ƒƒ Estimer le taux d’erreur du Estimer le taux d’erreur du modèle

modèle

ƒ la classe connue d’une instance test est comparée avec le

résultat du modèle

ƒ Taux d’erreur = pourcentage de tests incorrectement classés par le modèle

(106)

Validation de la Classification Validation de la Classification

(accuracy) (accuracy)

Estimation des

Estimation des taux d’erreurs taux d’erreurs : :

ƒƒ PartitionnementPartitionnement : apprentissage et test (ensemble de données important)

ƒ Utiliser 2 ensembles indépendents, e.g.,

ensemble d’apprentissage (2/3), ensemble test (1/3)

Apprentissage Dt Validation D\Dt

(107)

Validation de la Classification Validation de la Classification

(accuracy) (accuracy)

ƒƒ Validation croiséeValidation croisée (ensemble de données modéré)

ƒ Diviser les données en k sous-ensembles

ƒ Utiliser k-1 sous-ensembles comme données

d’apprentissage et un sous-ensemble comme données test

ƒƒ Bootstrapping : n instances test aléatoires (ensemble de Bootstrapping données réduit)

D1 D2 D3 D4

D1 D2 D3 D4 D1 D2 D3 D4 D1 D2 D3 D4 D1 D2 D3 D4

Références

Documents relatifs

Les éléments de réponse vont servir à résoudre des problèmes de recherche d’information, de classification, de recommandation, et d’ingénierie des connaissances (représentation

Dans cette UE, la fouille de données est considérée comme une extension plutôt naturelle des processus d’interrogation de bases de données (y compris l’analyse de

Utilisation des treillis pour la fouille de données environnementales Relations entre pesticides et invertébrés. Construction de treillis pour

(2) Le quantum final d’entrées codées est exactement de 8 bits ; ici, l’unité finale de résultat codé sera deux caractères suivis par deux caractères &#34;=&#34; de bourrage..

intégré : Les données opérationnelles à partir de plusieurs bases de données et sources de données externes sont intégrées dans un entrepôt de données pour fournir une seule base

Ainsi nous avons montré que les méta-données peuvent être intégrées dans la fouille de données et que cette approche d’intégration se révéle être efficace pour améliorer

Le projet &#34;Mégadonnées, données liées et fouille de données pour les réseaux d’assainissement&#34; (MeDo) a pour objectif de tirer profit des mégadonnées disponibles sur le

La méthode la plus typique du data mining est certainement celle des arbres de décision : pour prédire une réponse Y, qu’elle soit numérique ou qualitative, on