• Aucun résultat trouvé

2.4 Classification des données de grande dimension

2.4.5 Classification dans des sous-espaces

Une récente extension de la classification traditionnelle consiste à rechercher les sous-espaces dans lesquels vivent les données de chacun des groupes. En effet, le phénomène de l’espace vide nous a permis de nous convaincre qu’un espace de dimensionpest quasiment vide et que les données se trouvent dans des sous-espaces de dimension inférieure. De plus, il est assez naturel de penser que les données provenant de classes différentes vivent dans des sous-espaces différents. Etrangement, cette approche a plutôt été développée dans le cadre de la classification non-supervisée (clustering). Par conséquent, ce paragraphe sera principalement présenté dans le cadre du clustering. Les méthodes de subspace clustering peuvent être divisées en deux grandes familles de méthodes : d’une part, les méthodes heuristiques qui recherchent les dimensions permettant d’obtenir le meilleur clustering et, d’autre part, les méthodes basées sur des modèles de mélange qui modélisent le fait que les données vivent dans des sous-espaces.

Méthodes heuristiques

De nombreuses méthodes de subspace clustering utilisent des techniques heuristiques de re-cherche pour identifier les sous-espaces des classes. Parmi ces méthodes, on peut distinguer deux types d’algorithmes de recherche des sous-espaces : les méthodes de recherche dites « bottom-up » et

celles dites « top-down ». Les méthodes dites « bottom-up » utilisent des histogrammes pour sélection-ner les dimensions permettant de séparer efficacement les groupes. CLIQUE[3] fut l’un des premiers algorithmes « bottom-up » proposés pour rechercher des groupes dans des sous-espaces de l’espace original. D’autre part, les techniques de recherche de type « top-down » sont des méthodes itératives qui, partant de l’espace entier comme solution initiale, pondèrent à chaque itération les dimensions ne semblant pas contenir de groupe. La première méthode de ce type fut Proclus [2] qui évalue à chaque itération la qualité du clustering en calculant la distance moyenne entre les centres des groupes. Une vue d’ensemble des méthodes heuristiques est disponible dans [68].

Méthodes basées sur des mélanges de factor analyzers

Dans le même temps, de nombreuses méthodes basées sur les mélanges de factor analyzers ont vu le jour. Ces méthodes génératives proposent de se placer dans les espaces propres des classes afin de prendre en compte le fait que les données vivent dans des sous-espaces de faible dimension. Pour cela, elles se basent sur le modèle de l’analyse factorielle [44]. Une vue d’ensemble de ces méthodes est notamment disponible dans [75]. Une évaluation d’une partie des méthodes présentées ci-dessous est faite dans [63].

Le modèle de l’analyse factorielle Ce modèle suppose que les observations sont des réalisations

indépendantes d’un vecteur aléatoire X, de dimensionp, qui est la combinaison de la transformation d’une variable latenteY, non observée, de dimensiond < pet d’un terme d’erreurǫ:

X =HY +µ+ǫ.

La variable latenteYj est appelée le « facteur » et est supposée suivre une loi normaleN(0, Id), où Idest la matrice identité de taille d. La matriceH, de taillep×d, est une matrice de transformation contenant les poids des facteurs. L’erreurǫest quant à elle supposée suivre une loi normaleN(0, D)

où la matricep×pde covarianceDest diagonale :

D= diag(σ12, ..., σp2).

Sous ces hypothèses, le vecteur aléatoireXsuit une loi normaleN(µ,Σ), où la matrice de covariance

Σà la forme suivante :

Σ =HHt+D.

Ainsi, l’estimation de la matriceΣne requiert que l’estimation depd−d(d−1)/2 +pparamètres.

Mélange de factor analyzers Rubin et al. [78], puis Ghahramani et al. [40] et McLachlan et al. [59],

ont proposé d’utiliser ce modèle de variables latentes pour modéliser chacun des groupes et d’utiliser l’algorithme EM pour estimer les paramètres du modèle. La densité f(., θi),i= 1, ..., k, de chacun

des groupes est alors supposée être celle d’une loi normaleN(µii), où la matrice de covarianceΣi

a la forme suivante :

Σi=HiHit+Di.

Ainsi, le nombre de paramètres à estimer à chaque étape de l’algorithme EM est contrôlé par la dimensiondde l’espace latent. McLachlan et al. [59] ont notamment appliqué ce modèle de mélange pour la classification automatique de puces ADN.

Mélange de principal component analyzers Si l’on fait l’hypothèse supplémentaire queD=σ2Ip,

oùIpest la matrice identité de dimensionp, alors l’analyse factorielle se réduit à l’analyse en compo-santes principales (cf. paragraphe 2.4.2). Cela a été en particulier montré par Tipping et Bishop [87]. L’utilisation du mélange de principal component analyzers pour la classification non-supervisée a en-suite été proposée simultanément par Roweis [77] et Tipping et al. [88]. Ce mélange suppose donc que la densitéf(., θi),i= 1, ..., k, de chacun des groupes est celle d’une loi normaleN(µii), où la matrice de covarianceΣià la forme suivante :

Σi =HiHiti2Ip.

Tipping et al. ont notamment appliqué cette technique à la compression d’images par regroupement des zones d’images similaires. Ces derniers ont également utilisé dans [11] cette modélisation en combinaison avec une approche hiérarchique pour la visualisation de données de grande dimension. La modélisation par mélange de principal component analyzers a également été considérée dans [13] pour le cas de la classification automatique de données de dissimilarité et par Moghadam et al. [64] dans le cadre supervisé pour la reconnaissance de visages.

Le sous-espace de discrimination de Flury et al.

Dans le cadre supervisé, Flury et al. [34] ont proposé une méthode de discrimination sous la contrainte que toutes les différences entre les populations ont lieu dans un sous-espace de dimension d < p. Cette méthode est basée sur le modèle DSM (Discrimination Subspace Model) et est un classi-fieur intermédiaire entre la discrimination quadratique (QDA) et la discrimination linéaire (LDA). Le modèle DSM combine, comme le mélange de factor analyzers, les idées de réduction de dimension et de contraintes sur le modèle. Pour simplifier, Flury et al. ont considéré uniquement le cas de deux classes. Dans ce cas, le modèle DSM suppose queX est un vecteur de dimensionp distribué selon une loi normaleN(µii)pour laième population, i = 1,2, et qu’il existe une matricep×p non singulièreQ= [ ˜Q: ¯Q], oùQ˜etQ¯sont respectivement de taillep×detp×(p−d), et telle que :

(i) QtΣiQsoit diagonale pouri= 1,2, (ii) Q¯tΣ1Q¯ = ¯QtΣ2Q,¯

Chapitre

3

Modèles de mélange gaussien pour les

données de grande dimension

Dans ce chapitre, nous mènerons tout d’abord au paragraphe3.1une analyse critique des solutions proposées jusqu’alors pour résoudre le problème de la classification des données de grande dimen-sion et, sur cette base, nous proposerons une approche qui exploite les bienfaits de la dimendimen-sion. Au cours du paragraphe 3.2, nous proposerons une re-paramétrisation du modèle de mélange gaussien permettant de combiner les idées de réduction de dimension et de modèles parcimonieux. Cette re-paramétrisation donnera naissance à un modèle de mélange gaussien qui sera baptisé [aijbiQidi], du nom de ses paramètres, et dont la complexité sera contrôlée par la dimension intrinsèque des données. En suivant l’approche de Celeux et Govaert [21], nous verrons au paragraphe3.3qu’en contraignant les paramètres du modèle [aijbiQidi], celui-ci générera une famille de modèles allant du modèle le plus général au modèle le plus parcimonieux. Enfin, au paragraphe 3.4, nous montrerons que notre modélisation permet une approche unifiée de la classification des données de grande dimension dans le cadre gaussien. Pour cela, nous étudierons les liens existants entre les modèles proposés dans ce chapitre et les modèles gaussiens classiques.

3.1 Motivation de notre approche

Nous avons vu au chapitre2que la majorité des méthodes d’apprentissage souffre du « fléau de la dimension » et voit leur performance décroître quand la dimension des observations augmente. Nous allons tout d’abord analyser les principales limites des solutions existantes aux problèmes posés par la grande dimension des données en classification. Cette analyse nous permettra ensuite d’élaborer une approche adaptée à la classification de telles données dans le cadre du modèle de mélange gaussien en exploitant les « bienfaits de la dimension ».

0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1

FIG. 3.1 – Un des « dangers » de la réduction de dimension dans le cadre de la classification.