• Aucun résultat trouvé

EPF 4 option IAP - Data Mining : Projet

N/A
N/A
Protected

Academic year: 2022

Partager "EPF 4 option IAP - Data Mining : Projet"

Copied!
2
0
0

Texte intégral

(1)

EPF – 4/5ème année - IAP - TP de Data mining - 3 - page 1/2 - Bertrand LIAUDET

PROJET DE DATA MINING ANALYSE COMPLETE AVEC SPSS CLEMENTINE

EPF – 4/ 5ème année - Option Ingénierie d’Affaires et de Projets - Finance Bertrand LIAUDET

Projet de DATA MINING 1

Jeu de données sur le cholestérol ...1 Rendu...2

PROJET DE DATA MINING

Jeu de données sur le cholestérol

1) A partir du fichier de données « cholestérol », faire une étude de data mining : compréhension des données, nettoyage des données, classification, prédiction de variable cible, application à de nouvelles données.

Pour la classification, on utilisera l’analyse en composantes principales et ou analyse factorielle, le K-mean et les réseaux de Kohonen. Pour l’analyse en composantes principales et ou factorielle, on utilisera au moins 3 méthodes.

On interprétera et justifiera les résultats obtenus et particulièrement le choix du nombre de classes.

On essaiera de trouver une interprétation intuitivement compréhensible

Pour la prédiction, on utilisera les règles de décision et les réseaux de neurones. Pour les réseaux de neurones, on prendra les trois méthodes vues en cours.

2) A partir du fichier de données « cholestérol nouveaux patients », appliquer les résultats de la classification et de la prédiction. Analyser les résultats obtenus. Comparer les populations et les répartitions de la variable cible dans le fichier d’origine et dans le nouveau fichier.

Quelques pistes pour l’analyse :

Dans les études sur le cholestérol, on se sert de l’indicateur Na / K (sodium sur potassium), plutôt que des données brutes de Na ou de K.

L’objectif de l’étude est de faire une classification des patients en fonction de leurs caractéristiques et de pouvoir prédire le médicament à prescrire (drug).

On fera attention aux types des variables en fonction des modèles mis en œuvre.

(2)

EPF – 4/5ème année - IAP - TP de Data mining - 3 - page 2/2 - Bertrand LIAUDET

Rendu

La livraison se fera par mail à liaudet.bertrand@wanadoo.fr.

Date limite : dimanche 16 novembre minuit.

Il faut livrer un fichier word et ou pdf ainsi que les flux SPSS-Clementine numérotés de 1 à N. Le rapport fera référence à ces fichiers.

L’ensemble des documents se trouvent dans un dossier compressé dont le nom est : année- DM-noms des membres du binôme.

Références

Documents relatifs

Le 3ème TP a pour objectif de mettre en œuvre la modélisation de règles d’association sur un jeu de données correspondant à des tickets de caisse et une analyse complète sur

Dans cette UE, la fouille de données est considérée comme une extension plutôt naturelle des processus d’interrogation de bases de données (y compris l’analyse de

Dans les années 80-90 le développement des moyens de stockage et de calcul a permis de mettre en œuvre de nouvelles méthodes en analyse de données mais c'est l'approche data

This book is about the tools and techniques of machine learning used in practical data mining for finding, and describing, structural patterns in data.. As with any burgeoning

Research on this problem in the late 1970s found that these diagnostic rules could be generated by a machine learning algorithm, along with rules for every other disease category,

The main body of the book is as follows: Part 1, Data Mining and Knowledge Discovery Process (two Chapters), Part 2, Data Understanding (three Chapters), Part 3, Data

The total number of rules is the largest for discretization based on entropy, used as preprocessing for original data sets, and then the LEM2 algorithm for rule induction.. For

What this means is that our system is initially subjected to a training phase, where it is provided with a corpus of sequences that have been correctly tagged by a human. Based on