Universit´e Paris Nanterre La D´efense
Master2 ISEFAR Data Mining - Classification
TP4 : M´ ethodes lin´ eaires pour la classification (2` eme partie)
L’objectif ce TP est de faire la classification supervis´ee `a l’aide de l’analyse discriminante lin´eaire (linear discriminant analysis en anglais) et l’analyse discriminante quadratique (quadratic discriminant analysis en anglais). Nous allons utiliser les fonctionsldaetqdade la librairieMASS.
Exercice 1 Nous consid´erons les donn´ees iris (d´ej`a ´etudi´e dans le TP1 et dans le TP2). Dans cet exercice, adapter au besoin les commandes des TPs pr´ec´edents.
1. Donn´ees :
(a) Utiliser la longueur, la largeur du p´etale et sepale en faisant bien attention de con- sid´erer cette fois-ci les trois types d’iris : iris setose, iris versicolor et iris virginica (b) Taper la commande set.seed(1) puis construire les ensembles D; Dtrain et Dval
(prendre 80% des donn´ees pour entrainer le classifieur et 20% pour estimer l’erreur).
2. Analyse discriminante lin´eaire et quadratique :
(a) Effectuer l’analyse discriminante lin´eaire (resp. quadratique) sur l’ensemble des donn´ees d’apprentissage Dtrain. Suggestion : utiliser les fonctions lda et qda du package MASS (voir ensuite l’aide du R)
(b) Visualiser les sorties de qda Dtrain et lda Dtrain puis donner les estimations des proportions du m´elange ainsi que des moyennes des composantes du m´elange.
(c) Taux d’erreur (avec Dval) : Commencer par evaluer le classifieur dans tous les pointsxde Dtestavec la m´ethode ADL et ADQ. Donner les taux d’erreurs obtenus par les m´ethodes ADL et ADQ. A vous de jouer!
(d) Estimer l’erreur par validation crois´ee (K-Fold cross validation). A vous de jouer ! Exercice 2 Nous consid´erons les donn´ees spam. On note D la matrice des donn´ees de taille n×davec n= 4601 etd= 58 (les premi`eres 57 colonnes corresponds aux variables explicatives et la derni`ere colonne les ´etiquettes). Faire la classification `a l’aide de la r´egression
Exercice 3 Supposons que l’on ait 2 classes c1 et c2 pour lesquelles la densit´e de probabilit´e de x∈R2, conditionnelle `a la classeci,i= 1,2, est normale de param`etresµi et Σi
p(x|ci) = 1
2π|Σi|12 exp
−1
2(x−µi)TΣ−1i (x−µi)
, i= 1,2 avec µi =E[x|ci] et Σi =E[(x−µi)(x−µi)T|ci].
Nous disposons d’un ´echantillon{(x1, y1),(x2, y2), . . . ,(xn, yn)} de tailleno`uxi ∈Rdcorre- spond aux variables explicatives etyi ∈ {1,2} `a la classe que l’on cherche `a pr´edire.
1. Montrer que la fonction discriminante a la forme
gi(x) =xTΦix+xTφi+αi, i= 1,2 1
avec
Φi = −1 2Σ−1i , φi = Σ−1i µi, αi = −1
2µTi Σ−1i µi−1
2log|Σi|+ logP(ci).
2. Pour l’´echantillon de taillen= 8
{((3,4),1),((3,8),1),((2,6),1),((4,6),1),((3,0),2),((1,−2),2),((5,−2),2),((3,−4),2)}
la surface s´eparatrice (fronti`ere de d´ecision) est donn´ee par x(2)= 3.514−1.125x(1)+ 0.1875(x(1))2 o`u on a not´e x= (x(1), x(2)).
(a) Expliquer bri`evement (sans faire les calculs) comment on obtient cette fronti`ere de d´ecision.
(b) Estimer l’erreur empirique de ce classifieur.
2