• Aucun résultat trouvé

TP4

N/A
N/A
Protected

Academic year: 2022

Partager "TP4"

Copied!
2
0
0

Texte intégral

(1)

Universit´e Paris Nanterre La D´efense

Master2 ISEFAR Data Mining - Classification

TP4 : M´ ethodes lin´ eaires pour la classification (2` eme partie)

L’objectif ce TP est de faire la classification supervis´ee `a l’aide de l’analyse discriminante lin´eaire (linear discriminant analysis en anglais) et l’analyse discriminante quadratique (quadratic discriminant analysis en anglais). Nous allons utiliser les fonctionsldaetqdade la librairieMASS.

Exercice 1 Nous consid´erons les donn´ees iris (d´ej`a ´etudi´e dans le TP1 et dans le TP2). Dans cet exercice, adapter au besoin les commandes des TPs pr´ec´edents.

1. Donn´ees :

(a) Utiliser la longueur, la largeur du p´etale et sepale en faisant bien attention de con- sid´erer cette fois-ci les trois types d’iris : iris setose, iris versicolor et iris virginica (b) Taper la commande set.seed(1) puis construire les ensembles D; Dtrain et Dval

(prendre 80% des donn´ees pour entrainer le classifieur et 20% pour estimer l’erreur).

2. Analyse discriminante lin´eaire et quadratique :

(a) Effectuer l’analyse discriminante lin´eaire (resp. quadratique) sur l’ensemble des donn´ees d’apprentissage Dtrain. Suggestion : utiliser les fonctions lda et qda du package MASS (voir ensuite l’aide du R)

(b) Visualiser les sorties de qda Dtrain et lda Dtrain puis donner les estimations des proportions du m´elange ainsi que des moyennes des composantes du m´elange.

(c) Taux d’erreur (avec Dval) : Commencer par evaluer le classifieur dans tous les pointsxde Dtestavec la m´ethode ADL et ADQ. Donner les taux d’erreurs obtenus par les m´ethodes ADL et ADQ. A vous de jouer!

(d) Estimer l’erreur par validation crois´ee (K-Fold cross validation). A vous de jouer ! Exercice 2 Nous consid´erons les donn´ees spam. On note D la matrice des donn´ees de taille n×davec n= 4601 etd= 58 (les premi`eres 57 colonnes corresponds aux variables explicatives et la derni`ere colonne les ´etiquettes). Faire la classification `a l’aide de la r´egression

Exercice 3 Supposons que l’on ait 2 classes c1 et c2 pour lesquelles la densit´e de probabilit´e de x∈R2, conditionnelle `a la classeci,i= 1,2, est normale de param`etresµi et Σi

p(x|ci) = 1

2π|Σi|12 exp

−1

2(x−µi)TΣ−1i (x−µi)

, i= 1,2 avec µi =E[x|ci] et Σi =E[(x−µi)(x−µi)T|ci].

Nous disposons d’un ´echantillon{(x1, y1),(x2, y2), . . . ,(xn, yn)} de tailleno`uxi ∈Rdcorre- spond aux variables explicatives etyi ∈ {1,2} `a la classe que l’on cherche `a pr´edire.

1. Montrer que la fonction discriminante a la forme

gi(x) =xTΦix+xTφii, i= 1,2 1

(2)

avec

Φi = −1 2Σ−1i , φi = Σ−1i µi, αi = −1

Ti Σ−1i µi−1

2log|Σi|+ logP(ci).

2. Pour l’´echantillon de taillen= 8

{((3,4),1),((3,8),1),((2,6),1),((4,6),1),((3,0),2),((1,−2),2),((5,−2),2),((3,−4),2)}

la surface s´eparatrice (fronti`ere de d´ecision) est donn´ee par x(2)= 3.514−1.125x(1)+ 0.1875(x(1))2 o`u on a not´e x= (x(1), x(2)).

(a) Expliquer bri`evement (sans faire les calculs) comment on obtient cette fronti`ere de d´ecision.

(b) Estimer l’erreur empirique de ce classifieur.

2

Références

Documents relatifs

Id ´ee : si a d ´esigne un axe de projection, les k centres de gravit ´e doivent ˆetre le plus s ´epar ´es possible alors que l’inertie de chaque nuage projet ´e issu de E k

D´ eterminer le taux de mauvais classement, de vrais positifs (la sensibilit´ e), de vrais n´ egatifs (la sp´ ecificit´ e) de la m´ ethode LDA par la m´ ethode de validation crois´

Les figures 5 et 6 représentent le premier plan de l’Analyse Factorielle Discriminante Conditionnelle (voir fin du paragraphe 3.2) obtenu à l’issu de la

suivante : pour un patient du premier groupe, cette observation correspond à la première apparition de l’effet secondaire; pour un patient du second groupe, elle est

L’analyse factorielle discriminante est ´etendue aux donn´ees multi-voie, c’est-`a-dire aux donn´ees pour lesquelles plusieurs modalit´es ont ´et´e observ´ees pour

Naive Bayes with density estimation.. Example:

1°) Entre les deux classes actuelles q et q', en lesquelles sont ré- partis les individus de I, peut-on dans E placer une cloison du type fixé (e.g. hyperplane : il est essentiel

Afin de s’en affranchir, ont ´ et´ e r´ ealis´ ees des analyses discriminantes concernant trois mesures de la s´ ev´ erit´ e de l’allergie ` a l’arachide : le score du TPO,