BNP-PCA et classiication non supervisée - Modèles bayésiens pour l’identification de représenta

Nous illustrons la lexibilité du modèle BNP-PCA en couplant l’estima- tion du sous-espace avec une tâche de classiication non supervisée. En efet, la plupart des chaînes de traitement de classiication non supervi- sée commencent par une étape de réduction de la dimension. On espère qu’intégrer l’estimateur de la partition sur tous les sous-espaces va per- metre d’améliorer les performances. On rappelle qu’une partie entière du chapitre3est consacrée aux modèles de mélange bayésiens.

Modèle. Supposons que la distribution des coeicients X est bien décrite dans un sous-espace par un mélange de deux lois normales

∀n, xn∼πN (µ0, ∆0) + (1−π)N (µ1, ∆1), (4.45)

où chaque Gaussienne décrit une classe. Les vecteurs µi = [µi,1, . . . , µi,k]T

et ∆i = diag(δ2_i,1, . . . δ_i,k2 )pour i ∈ {0, 1}sont respectivement les vec-

teurs moyennes et matrices de covariances de chaque loi normale. On appelle ℓ = [ℓ1, . . .ℓN]le vecteur de variables latentes induit par le

modèle de mélange. Le labelℓ_nvaut 0 ou 1 selon que l’observation y_n

appartient à la classeC0ouC1.

Des lois a priori vagues conjuguées sont choisies pour les hyperpara- mètres µi, ∆iet ℓ. Pour tout entier n de J1, NK et tout k

µ_i,k ∼ N(0_{, s}2 ) (4.46) δ_i,k2 ∼sIG(aδ, bδ ) (4.47) ℓ_n_|_π _∼_πδ₁_{+ (}₁₋_π₎_δ₂ (4.48) π ∼ U([0, 1]), (4.49)

où s = 10 est choisi grand devant la variance des données ain de faire oice d’a priori vague. Notons que choisir des lois non informatives de type Jefreys est à nouveau interdit pour conserver l’intégrabilité de la loi a posteriori.

Estimateur. On rappelle que l’objectif n’est pas d’estimer la dimension mais de proposer un estimateur des labels intégré sur tous les sous- espaces. On utilisera dans cete expérience, un estimateurMAPmdes label déini par

∀n, bℓ_n₌_{arg max}

m∈{0, 1}

P[ℓ_n₌_m_|_Y]_, (4.50)

y q - 133 Pour annuler les problèmes de commutation d’étiquetes inhérents à ce

type de modèle, on traite les itérations de l’algorithme de Gibbs comme recommandé dans Marin et Robert (2007) (Partie 6-4). En particulier, on suppose que les deux points les plus éloignés en distance euclidienne, notés A et B, appartiennent à deux classes diférentes. On atribue au point A la classeC0, et au point B la classeC1. Pour chaque itération de l’algorithme

de Gibbs, on change les labels tels que tous les points appartenant aux mêmes classes que les points A et B soient respectivement dans les classes

C0etC1.

Protocole. La méthode est illustrée sur un sous-ensemble de MNIST, un jeu de données de chifres manuscrits disponibleen ligne. Ce jeu de don- nées est construit à partir des 200 premières images des chifres 6 et 7, pour un total de 400 images (voir igure4.7-a et -b). Chaque observation est initialement une image 28×28 représentant le chifre 6 ou 7. On sup- prime les pixels de variance nulle, ce qui correspond grossièrement aux contours de l’image (voir igure4.7-c). Les pixels restants sont concaténés dans un vecteur de taille 572.

(a) (b)

(c)

F 4.7 : (a) et (b) Une image des chifres 6 et 7 de MNIST.

(c) Pixels du jeux de données correspon- dant aux pixels de variance nulle, non retenus. Une image contient 784 pixels, mais seul 572 pixels sont de variance non nulle.

Notre méthode est comparée à deux algorithmes. Le premier algorithme, appelé, GMM-EM pour Gaussian Mixture Model EM, est unespérance-

maximisation (EM)pour les modèles de mélange. Le second algorithme,

nommé GMM-MCMC pour Gaussian Mixture Model MCMC, est le modèle de mélange bayésien décrit dans Marin et Robert (2007) (Chapitre 6), associé à un estimateurMAPmsimilaire à celui donné équation (4.50), approché sur 10000 itérations.

Pour illustrer l’efet de la réduction de la dimension, on réalise plusieurs jeux de données en projetant les observations sur les K premiers vecteurs de l’ACP, pour K = 1 . . . 200. On fait tourner les algorithmes GMM-EM et GMM-MCMC sur les données projetées pour chaque valeur de K. En revanche, on lance notre méthode sur le jeux de données complet.

La partition oracle des données est connue pour MNIST. On utilise cete connaissance pour mesurer les performances des algorithmes à travers un taux d’erreur de partitionnement, déini par

τp= # observations mal classées

# observations . (4.51) La igure4.8résume l’ensemble des résultats de classiication. On observe

Notons que l’écart de performances observé entre les algorithmes GMM-EM et GMM-MCMC pourrait être réduit en renforçant l’implémentation de GMM- MCMC.

que GMM-EM GMM-MCMC ont un comportement similaire : les deux méthodes sont performantes lorsque les données sont projetées sur un espace de faible dimension (moins de 1% d’erreur pour GMM-EM et 1.9% pour GMM-MCMC lorsque K = 7). Une transition de phase apparaît lorsque la dimension du sous-espace augmente : entre les dimensions 30 et 50 pour GMM-MCMC et entre 80 et 140 pour GMM-EM. Au delà de la transition de phase, les performances se dégradent signiicativement. En comparaison, la méthode que nous proposons ateint 1.5% d’erreur de partitionnement sans traitement préalable des données. À titre d’indica- tion, nous indiquons par des droites les dimensions les plus explorées par l’algorithme . On constate que la marginale concentre 70% de sa masse

20 40 60 80 100 120 140 160 180 K 0 10 20 30 40 50 labelling error (%) 0.15 0.55 GMM-MCMC GMM-EM BNP-PCA F 4.8 : Erreur de partitionnement τp des algorithmes GMM-EM (bleu foncé) et GMM-MCMC (bleu clair) sur 400 images extraites de MNIST, en fonction de K, la dimension de l’espace de projection des observations. Les deux intervallesoranges indiquent les dimensions pour lesquelles notre algorithme est resté 70% du temps.

entre les états K ∈ [3, 18]et K ∈ [83, 130]. Le premier intervalle corres-

pond aux dimensions ou les deux algorithmes paramétriques ateignent les meilleurs performances. Le second intervalle est en revanche plus diicile à interpréter.

Pour conclure, on a montré dans cete partie que le modèle BNP-PCA peut être légèrement modiié pour intégrer la réduction de la dimension à une autre tâche, telle que la classiication non supervisée. Malgré la modi- ication, la loi a posteriori reste conjuguée et l’algorithme de Gibbs change peu. Les résultats expérimentaux ont montré que la méthode BNP-PCA est capable de proposer un estimateur du partitionnement des données intégré sur l’ensemble des sous-espace complètement non supervisé : il n’y a pas de paramètres à régler ni pour la dimension du sous-espace sur lequel projeter les données ni pour le partitionnement. Cet estimateur ateint malgré le peu d’itérations des performances comparables à des modèles de mélange de gaussiennes pour lesquels on a projeté les données sur un sous-espace pertinent.

Dans le document Modèles bayésiens pour l’identification de représentations antiparcimonieuses et l’analyse en composantes principales bayésienne non paramétrique (Page 133-135)