TP4

(1)

Universit´e Paris Nanterre La D´efense

Master2 ISEFAR Data Mining - Classification

TP4 : M´ ethodes lin´ eaires pour la classification (2` eme partie)

L’objectif ce TP est de faire la classification supervisée à l’aide de l’analyse discriminante linéaire (linear discriminant analysis en anglais) et l’analyse discriminante quadratique (quadratic discriminant analysis en anglais). Nous allons utiliser les fonctionsldaetqdade la librairieMASS.

Exercice 1 Nous considérons les données iris (déjà étudié dans le TP1 et dans le TP2). Dans cet exercice, adapter au besoin les commandes des TPs précédents.

1. Donn´ees :

(a) Utiliser la longueur, la largeur du p´etale et sepale en faisant bien attention de consid´erer cette fois-ci les trois types d’iris : iris setose, iris versicolor et iris virginica (b) Taper la commande set.seed(1) puis construire les ensembles D; Dtrain et Dval

(prendre 80% des donn´ees pour entrainer le classifieur et 20% pour estimer l’erreur).

2. Analyse discriminante lin´eaire et quadratique :

(a) Effectuer l’analyse discriminante lin´eaire (resp. quadratique) sur l’ensemble des donn´ees d’apprentissage Dtrain. Suggestion : utiliser les fonctions lda et qda du package MASS (voir ensuite l’aide du R)

(b) Visualiser les sorties de qda Dtrain et lda Dtrain puis donner les estimations des proportions du m´elange ainsi que des moyennes des composantes du m´elange.

(c) Taux d’erreur (avec Dval) : Commencer par evaluer le classifieur dans tous les pointsxde Dtestavec la m´ethode ADL et ADQ. Donner les taux d’erreurs obtenus par les m´ethodes ADL et ADQ. A vous de jouer!

(d) Estimer l’erreur par validation croisée (K-Fold cross validation). A vous de jouer ! Exercice 2 Nous considérons les données spam. On note D la matrice des données de taille n×davec n= 4601 etd= 58 (les premières 57 colonnes corresponds aux variables explicatives et la dernière colonne les étiquettes). Faire la classification à l’aide de la régression

Exercice 3 Supposons que l’on ait 2 classes c₁ et c₂ pour lesquelles la densité de probabilité de x∈R², conditionnelle à la classeci,i= 1,2, est normale de paramètresµi et Σi

p(x|c_i) = 1

2π|Σ_i|¹² exp

−1

2(x−µ_i)^TΣ⁻¹_i (x−µ_i)

, i= 1,2 avec µi =E[x|c_i] et Σi =E[(x−µi)(x−µi)^T|c_i].

Nous disposons d’un échantillon{(x₁, y₁),(x₂, y₂), . . . ,(x_n, y_n)} de taillenoùx_i ∈R^dcorre- spond aux variables explicatives etyi ∈ {1,2} à la classe que l’on cherche à prédire.

1. Montrer que la fonction discriminante a la forme

g_i(x) =x^TΦ_ix+x^Tφ_i+α_i, i= 1,2 1

(2)

avec

Φ_i = −1 2Σ⁻¹_i , φ_i = Σ⁻¹_i µ_i, αi = −1

2µ^T_i Σ⁻¹_i µi−1

2log|Σ_i|+ logP(ci).

2. Pour l’´echantillon de taillen= 8

{((3,4),1),((3,8),1),((2,6),1),((4,6),1),((3,0),2),((1,−2),2),((5,−2),2),((3,−4),2)}

la surface séparatrice (frontière de décision) est donnée par x⁽²⁾= 3.514−1.125x⁽¹⁾+ 0.1875(x⁽¹⁾)² où on a noté x= (x⁽¹⁾, x⁽²⁾).

(a) Expliquer brièvement (sans faire les calculs) comment on obtient cette frontière de décision.

(b) Estimer l’erreur empirique de ce classifieur.

2