• Aucun résultat trouvé

TP5

N/A
N/A
Protected

Academic year: 2022

Partager "TP5"

Copied!
1
0
0

Texte intégral

(1)

Universit´e Paris Nanterre

Master2 ISEFAR Data Mining - Classification

TP5 : R´ egression logistique pour la classification

Exercice 1 On consid`ere la classification des emails selon une classe binaire (spam, non-spam).

On dispose de 58 variables par email et l’´etiquette vaut 0 ou 1. On notexla matrice des donn´ees de taille n×d avec n= 4601 et d= 57et on note yle vecteur d’´etiquettes de taille n= 4601.

1. Donn´ees (´echantillon not´e D) :

T´el´echarger le package kernlab. Consid´erer et regarder les donn´ees spam de la libraire kernlab grˆace aux commandes

library(kernlab)

data(spam); str(spam); dim(spam)

x <- spam[ ,1:57] ; y <- as.numeric(spam[,58])-1 D <- cbind(x,y) ; n <- nrow(spam)

2. Utiliser l’´echantillon D et consid´erer 75% de points pour faire l’apprentissage et 25 % de points pour faire le test (i.e. donner Dtrain et Dtest).

3. Construire un mod`ele puis pr´edire ou classifier dans les pointsDtestgrˆace aux commandes fit.glm <- glm(Dtrain[,58]~., data = Dtrain[,1:57], family=binomial) score.glm <- predict(fit.glm, Dtest[,1:57], type="response")

class.glm <- as.numeric( score.glm >= 0.5)

4. Utiliser votre logicielR pour calculer la matrice de confusion pour un seuil fix´e `a 0.5.

5. Calculer la proportion de vrais positifs (PVP) et de vrais n´egatives (PVN), respectivement, pour un seuil fix´e `a 0.5 grˆace aux commandes

sum( score.glm >= 0.5 & Dtest[,58]==1)/sum(Dtest[,58]==1) sum( score.glm < 0.5 & Dtest[,58]==0)/sum(Dtest[,58]==0)

6. Calculer la proportion de faux posififs (PFP) pour un seuil fix´e `a 0.5.

7. Tracer la courbe ROC associ´ee `a la m´ethode r´egression logistique.

On vous rappelle que la courbe ROC correspond `a la proportion de vrais positifs (PVP) en fonction de la proportion de faux positifs (PFP). Elle est obtenue en faisant varier le seuil de d´ecision.

Remarque : N’h´esite pas `a regarder la doc. Vous pouvez voir par exemple sur wikipedia (ROC curve) ou dans une autre source. Attention la d´efinition de la courbe ROC n’est pas unique. Dans le livre Elements of Statistical Learning de Hastie et al., elle correspond `a la PVP en fonction de la proportion de vrais n´egatifs (PVN) (page 277-278). L’utilisation pour la comparaison de mod`eles reste cependant la mˆeme.

8. Donner l’erreur empirique. Donner ´egalement l’erreur par validation crois´ee.

1

Références

Documents relatifs

Nous r´ esumons ici un algorithme qui permet de transformer toute matrice en une matrice en forme ´ echelonn´ ee (r´ eduite).. Cet algorithme utilise les op´

Pour chacune des questions, une seule des propositions est correcte.. L’espace est rapport´e ` a un

Cette question est assez libre dans sa résolution, on peut imaginer faire un tableau de valeurs comme dans la question 1, et lire les résultats mais c’est assez long..

4- Quelles sont les couleurs attribuables aux atomes suivants :a) le carbone ; b) l’hydrogène ;c)le souffre ; d) l’azote. c) Une molécule est un assemblage d’ions positifs. d)

• Pour les étudiants de nationalité française : obligation de visa pour stage hors UE de plus de 90 jours (vérifier auprès du consulat du pays d’accueil en France pour les

I/ Fonction trigonométrique. 2°) Déterminer la parité de f et montrer que f est périodique de période 2. En déduire un intervalle d’étude approprié. 3°) Etudier les

Partie II : Utilisation des connaissances 10 points Exercice 1: Le tableau ci-dessous représente la quantité des gaz contenus dans l’air inspiré et dans l’air expiré.. * Le

Les particules de taille fine sont emportées sur de longues distances ……………………… C'est une étendue d'eau généralement peu profonde séparée de la mer par une