• Aucun résultat trouvé

TP5

N/A
N/A
Protected

Academic year: 2022

Partager "TP5"

Copied!
1
0
0

Texte intégral

(1)

Universit´e Paris Nanterre

Master2 ISEFAR Data Mining - Classification

TP5 : R´ egression logistique pour la classification

Exercice 1 On consid`ere la classification des emails selon une classe binaire (spam, non-spam).

On dispose de 58 variables par email et l’´etiquette vaut 0 ou 1. On notexla matrice des donn´ees de taille n×d avec n= 4601 et d= 57et on note yle vecteur d’´etiquettes de taille n= 4601.

1. Donn´ees (´echantillon not´e D) :

T´el´echarger le package kernlab. Consid´erer et regarder les donn´ees spam de la libraire kernlab grˆace aux commandes

library(kernlab)

data(spam); str(spam); dim(spam)

x <- spam[ ,1:57] ; y <- as.numeric(spam[,58])-1 D <- cbind(x,y) ; n <- nrow(spam)

2. Utiliser l’´echantillon D et consid´erer 75% de points pour faire l’apprentissage et 25 % de points pour faire le test (i.e. donner Dtrain et Dtest).

3. Construire un mod`ele puis pr´edire ou classifier dans les pointsDtestgrˆace aux commandes fit.glm <- glm(Dtrain[,58]~., data = Dtrain[,1:57], family=binomial) score.glm <- predict(fit.glm, Dtest[,1:57], type="response")

class.glm <- as.numeric( score.glm >= 0.5)

4. Utiliser votre logicielR pour calculer la matrice de confusion pour un seuil fix´e `a 0.5.

5. Calculer la proportion de vrais positifs (PVP) et de vrais n´egatives (PVN), respectivement, pour un seuil fix´e `a 0.5 grˆace aux commandes

sum( score.glm >= 0.5 & Dtest[,58]==1)/sum(Dtest[,58]==1) sum( score.glm < 0.5 & Dtest[,58]==0)/sum(Dtest[,58]==0)

6. Calculer la proportion de faux posififs (PFP) pour un seuil fix´e `a 0.5.

7. Tracer la courbe ROC associ´ee `a la m´ethode r´egression logistique.

On vous rappelle que la courbe ROC correspond `a la proportion de vrais positifs (PVP) en fonction de la proportion de faux positifs (PFP). Elle est obtenue en faisant varier le seuil de d´ecision.

Remarque : N’h´esite pas `a regarder la doc. Vous pouvez voir par exemple sur wikipedia (ROC curve) ou dans une autre source. Attention la d´efinition de la courbe ROC n’est pas unique. Dans le livre Elements of Statistical Learning de Hastie et al., elle correspond `a la PVP en fonction de la proportion de vrais n´egatifs (PVN) (page 277-278). L’utilisation pour la comparaison de mod`eles reste cependant la mˆeme.

8. Donner l’erreur empirique. Donner ´egalement l’erreur par validation crois´ee.

1

Références

Documents relatifs

Cette caract´ erisation concerne essentiellement trois points : le mode de cr´ eation du signal dans l’´ echantillon, les sources de contraste endog` enes dans diff´ erents

a) il consid`ere l’intersection de tous les espaces L p sur l’espace de Wiener au lieu de consid´erer uniquement l’espace de Hilbert L 2 , si bien que l’ensemble des fonctions

Faire un programme qui calcule l’int´egrale d’une fonction donn´ee `a l’aide de la m´ethode des rectangles, des trap`ezes, de Simpson et de Gauss `a deux points. Tracer le

Faire un programme qui calcule l’int´egrale d’une fonction donn´ee `a l’aide de la m´ethode des rectangles, des trap`ezes, de Simpson et de Gauss `a deux points.. Tracer

Faire un programme qui calcule l’int´egrale d’une fonction donn´ee `a l’aide de la m´ethode des rectangles, des trap`ezes, de Simpson et de Gauss `a deux points. Tracer le

Indication : on pourra consid´erer les droites tangentes `a la courbe aux points P et Q.. 3- On suppose que char ( k )

Ainsi, mˆeme si pour la validation de notre mod`ele d’imputation multiple nous aurons besoin d’appliquer une m´ethode de survie sp´ecifique, nous choisissons de consid´erer

Cette caract´ erisation concerne essentiellement trois points : le mode de cr´ eation du signal dans l’´ echantillon, les sources de contraste endog` enes dans diff´ erents