EPF – 4/5ème année - IAP - TP de Data mining - 3 - page 1/2 - Bertrand LIAUDET
PROJET DE DATA MINING ANALYSE COMPLETE AVEC SPSS CLEMENTINE
EPF – 4/ 5ème année - Option Ingénierie d’Affaires et de Projets - Finance Bertrand LIAUDET
Projet de DATA MINING 1
Jeu de données sur le cholestérol ...1 Rendu...2
PROJET DE DATA MINING
Jeu de données sur le cholestérol
1) A partir du fichier de données « cholestérol », faire une étude de data mining : compréhension des données, nettoyage des données, classification, prédiction de variable cible, application à de nouvelles données.
Pour la classification, on utilisera l’analyse en composantes principales et ou analyse factorielle, le K-mean et les réseaux de Kohonen. Pour l’analyse en composantes principales et ou factorielle, on utilisera au moins 3 méthodes.
On interprétera et justifiera les résultats obtenus et particulièrement le choix du nombre de classes.
On essaiera de trouver une interprétation intuitivement compréhensible
Pour la prédiction, on utilisera les règles de décision et les réseaux de neurones. Pour les réseaux de neurones, on prendra les trois méthodes vues en cours.
2) A partir du fichier de données « cholestérol nouveaux patients », appliquer les résultats de la classification et de la prédiction. Analyser les résultats obtenus. Comparer les populations et les répartitions de la variable cible dans le fichier d’origine et dans le nouveau fichier.
Quelques pistes pour l’analyse :
Dans les études sur le cholestérol, on se sert de l’indicateur Na / K (sodium sur potassium), plutôt que des données brutes de Na ou de K.
L’objectif de l’étude est de faire une classification des patients en fonction de leurs caractéristiques et de pouvoir prédire le médicament à prescrire (drug).
On fera attention aux types des variables en fonction des modèles mis en œuvre.
EPF – 4/5ème année - IAP - TP de Data mining - 3 - page 2/2 - Bertrand LIAUDET
Rendu
La livraison se fera par mail à liaudet.bertrand@wanadoo.fr.
Date limite : dimanche 16 novembre minuit.
Il faut livrer un fichier word et ou pdf ainsi que les flux SPSS-Clementine numérotés de 1 à N. Le rapport fera référence à ces fichiers.
L’ensemble des documents se trouvent dans un dossier compressé dont le nom est : année- DM-noms des membres du binôme.