Universit´e Paris Nanterre
Master2 ISEFAR Data Mining - Classification
TP3 : M´ ethodes lin´ eaires pour la classification (1` ere partie)
Exercice 1
1. Simulation d’un m´elange de vecteurs Gaussien `a 3 classes dans R2 (a) Taper les commandes suivantes
n <- 500; p1 <- 0.2; p2 <- 0.3; p3 <- 0.5;
mu1 <- c(1,2); mu2 <-c(6,6); mu3 <-c(6,-2)
Sigma1 <- diag(c(3,1)); Sigma2 <- diag(c(1,2)); Sigma3 <- diag(c(1.5,2)) (b) Simuler des donn´ees dans R2 issues d’un m´elange de 3 vecteurs gaussien et nommer
cet ´echantillon D (adapter les commandes du TP1). Tracer les trois ensembles de points sur un mˆeme graphique.
(c) Changer les param`etres et tracer le trois ensemble de points sur un mˆeme graphique.
A vous de jouer!
2. R`egle de d´ecision de Bayes, fronti`eres de d´ecision et classifieur de Bayes : (a) Donner une grille de points r´eguli`erement espac´es dans le plan (de taille50 ×50) et
nommer cette grille Grid (adapter les commandes du TP2).
(b) Que fait la matrice P ci-dessous ? (visualiser chaque commande sur la console deR).
A <- cbind(p1*dmvnorm(Grid,mu1,Sigma1),p2*dmvnorm(Grid,mu2,Sigma2), p3*dmvnorm(Grid,mu3,Sigma3))
B<- apply(Z,1,sum) P <- A/B
(c) Superposer, sur la figure fait dans la partie 1(c), les fronti`eres de Bayes (d) Quel semble ˆetre la nature des r`egles de d´ecision : Lin´eaire ou Quadratique ? 3. Estimation
(a) Utiliser l’´echantillon D de la partie 1(b). Supposer que vous ne connaissez pas les param`etres du m´elangepi,muiet Sigmaipour i=1,2,3.
(b) Estimer le taux d’erreur `a l’aide de la validation crois´ee (n’oubliez pas d’estimer les param`etres du m´elange)
1