• Aucun résultat trouvé

Data Mining

N/A
N/A
Protected

Academic year: 2022

Partager "Data Mining"

Copied!
12
0
0

Texte intégral

(1)

Data Mining

Projets

Françoise Soulié Fogelman francoise@kxen.com

Master MI2 Pro EID - Université Paris 13 Data mining et Business Intelligence FDON

(2)

Liste des projets

1. Projet Cross-Validation8

2. Projet Binning/Banding 6

3. Projet Bootstrap & bagging 10 4. Produits bancaires 4

5. Projet TIS : série temporelle 3 6. Projet Feature Selection Challenge 1

7. Projet Evaluating Predictive Uncertainty Challenge 7

classification

8. Projet Evaluating Predictive Uncertainty Challenge 2

régression

9. Projet Performance Prediction Challenge 9 10.Projet ré-équilibrage de classe 5

Groupe

(3)

Projets

1. Projet Cross-Validation

Fichier CocoaBank.txt

1. Construire un score avec KXEN et écrire un rapport

Sélectionner les 7 à 10 variables les plus significatives

2. Cross-validation

Réaliser un script KXEN pour mettre en œuvre la cross-validation

Utiliser une k-fold cross-validation pour produire 5 modèles Md, utilisant des polynômes de degré d = 1 à 5.

Choisir le meilleur modèle

– En utilisant la technique de cross-validation.

– En utilisant le KI / KR

Écrire un rapport décrivant la méthode, les résultats obtenus et comparer ces résultats à ceux du modèle standard KXEN obtenu en 1/

Référence

Utiliser l’article scientifique décrivant la cross-validation : http://www.autonlab.org/tutorials/overfit10.pdf

Groupe 8

(4)

Projets

2. Projet Binning/Banding

Fichier CocoaBank.txt

1. Construire un score avec KXEN et écrire un rapport 2. Binning et banding

Rechercher des stratégies de binning et banding

Réaliser un script KXEN pour mettre en œuvre binning et banding

Écrire un rapport décrivant la méthode, les résultats obtenus et comparer ces résultats à ceux du modèle standard KXEN obtenu en 1/

Groupe 6

(5)

Projets

3. Projet Bootstrap & bagging

Fichiers

ftp://ftp.ics.uci.edu/pub/machine-learning-databases/

heart-disease, breast-cancer-wisconsin, ionosphere, diabetes

1. Construire un score avec KXEN et écrire un rapport

Pour chacun des 4 ensembles de données

2. Bagging

Réaliser un script KXEN pour mettre en œuvre le bagging

Pour chaque ensemble de données, appliquer le bagging sur un ensemble de k échantillons de boot-strap

– Mettre de côté un échantillon de test

– Tirer les échantillons de boot-strap sur les donénes restantes

Écrire un rapport décrivant la méthode, les résultats obtenus et comparer ces résultats à ceux du modèle standard KXEN obtenu en 1/

Référence

Utiliser l’article scientifique décrivant le bagging http://citeseer.csail.mit.edu/breiman96bagging.html

Groupe 10

(6)

Projets

4. Produits bancaires

Fichier Banking Products.csv

1. Construire un score d'appétence pour la détention de au moins 1, au moins 2 et au moins 3 produits et écrire un rapport

2. Construire un score d'appétence produit et écrire un rapport

1 modèle par produit,

Prévoir pour chaque individu le ou les produits qui doivent être proposés (calcul des probabilités d'appétence) 

Fournir un fichier Excel contenant toutes les données et 2 colonnes supplémentaires

Le produit à proposer (en dehors de celui qu'il possède) et sa probabilité.

3. Utiliser les résultats de 1. pour affiner les propositions obtenues en 2.

4. Faire une segmentation selon la valeur Client (par exemple en utilisant la variable : tot_amt_balance). Même question que 2.

5. Comparer les résultats obtenus par les différentes méthodes

Groupe 4

(7)

Projets

5. Projet TIS : série temporelle

Fichier bicup2006english.xls

http://www.tis.cl/2006//futurosTalleres/2006/Taller_1/BICUP2006-ENGLISH/?Ta ller_12006

1. Construire un modèle de prévisions temporelles avec KTS et écrire un rapport

2. Comment enrichir ce modèle en utilisant des variables supplémentaires : Jour de la semaine, numéro de jour … ? 3. Que se passe-t-il si on demande des prévisions à 1, 2 ou 3

jours (court terme) versus moyen terme (10, 11, 12 jours?) ou long terme (> 15 jours)

4. Que se passe-t-il si au lieu de travailler au 1/4 d'heure, nous travaillons à la 1/2 heure ou à l'heure?

5. Comparer les résultats obtenus par les différentes méthodes

Groupe 3

(8)

Projets

6. Projet Feature Selection Challenge

Site du challenge

http://www.nipsfsc.ecs.soton.ac.uk/datasets/

1. Choisir un des problèmes proposés

2. Construire un score avec KXEN et écrire un rapport

3. Comparer les résultats obtenus à ceux des concurrents du challenge

Groupe 1

(9)

Projets

7. Projet Evaluating Predictive Uncertainty Challenge

Site du challenge

http://predict.kyb.tuebingen.mpg.de/pages/home.php

1. Choisir un des problèmes proposés (classification) 2. Construire un score avec KXEN et écrire un rapport

3. Comparer les résultats obtenus à ceux des concurrents du challenge

Groupe 7

(10)

Projets

8. Projet Evaluating Predictive Uncertainty Challenge

Site du challenge

http://predict.kyb.tuebingen.mpg.de/pages/home.php

1. Choisir un des problèmes proposés (régression)

2. Construire un score avec KXEN et écrire un rapport

3. Comparer les résultats obtenus à ceux des concurrents du challenge

Groupe 2

(11)

Projets

9. Projet Performance Prediction Challenge

Site du challenge

http://www.modelselect.inf.ethz.ch/

1. Choisir un des problèmes proposés

2. Construire un score avec KXEN et écrire un rapport

3. Comparer les résultats obtenus à ceux des concurrents du challenge

Groupe 9

(12)

Projets

10. Projet ré-équilibrage de classe

Fichier CocoaBank.txt

1. Construire un score avec KXEN et écrire un rapport

Déterminer le nombre de cas positifs (1) et négatifs (0)

2. Ré-équilibrage

Construire un échantillon comprenant P cas positifs et N cas négatifs de la façon suivante

– On prend tous les cas positifs (p) et on pondère chaque cas par un poids w

» Ceci est équivalent à prendre P = pw

– Tirer N = P cas négatifs parmi les cas négatifs disponibles

Réaliser un script KXEN pour mettre en œuvre cet échantillonnage (pour w = 1 à 30)

Produire 30 modèles Mw, pour chaque w.

Écrire un rapport décrivant la méthode, les résultats obtenus et comparer ces résultats à ceux du modèle standard KXEN obtenu en 1/

Groupe 5

Références

Documents relatifs

Par ailleurs, certains ont envisagé la possibilité de modifier la formule de µ: en effet, il est plutôt rare que la durée d’une tâche soit asymétrique avec le mode m à droite,

de facteurs fixes qui résultent des conditions topographlques, de la nature du sol et de la végétation qui le couvre, et aussi de facteurs variables tels que les variations de

- Exploiter la carte géologique au millionième dans le secteur du Mont Viso et dans la région des Alpes Franco-Italiennes afin d’identifier des marqueurs d’une suture

L’insémination artificielle chez les Ovins est largement répandue dans certains pays possédant de très grands troupeaux. Cependant, les résultats publiés sont

Mais pour passer de ces bilans bruts à une évaluation comparée de l’altération chimique, il faut tenir compte des autres transferts de matière qui peuvent

Cette Chaire de recherche a été créée pour promouvoir la recherche sur le cancer au NB et augmenter la masse critique de chercheurs dans la province. Les taux de mortalité associés

Le niveau des 2 classes est le même mais la classe n°1 est plus homogène que la

La norme XP 07- 020 n'impose pas un nombre de chiffres significatifs pour l'expression de l'incertitude mais précise que compte tenu des conditions d'évaluation