HAL Id: hal-00940613
https://hal.archives-ouvertes.fr/hal-00940613
Preprint submitted on 2 Feb 2014
HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.
Classification de données mixtes par un modèle de mélange de copules gaussiennes.
Matthieu Marbac, Christophe Biernacki, Vincent Vandewalle
To cite this version:
Matthieu Marbac, Christophe Biernacki, Vincent Vandewalle. Classification de données mixtes par
un modèle de mélange de copules gaussiennes.. 2014. �hal-00940613�
Classification de donn´ ees mixtes par un mod` ele de m´ elange de copules gaussiennes.
Matthieu Marbac 1 & Christophe Biernacki 2 & Vincent Vandewalle 3
1 DGA & Inria Lille, matthieu.marbac-lourdelle@inria.fr
2 Universit´ e Lille 1 & CNRS & Inria Lille, Christophe.Biernacki@math.univ-lille1.fr
3 Universit´ e Lille 2 EA 2694 & Inria Lille, vincent.vandewalle@univ-lille2.fr
R´ esum´ e. Nous proposons un mod` ele de m´ elange de copules gaussiennes pour la classi- fication non supervis´ ee de donn´ ees mixtes. Les marginales de chaque composante sont des distributions standard, ce qui facilite l’interpr´ etation des classes. Les corr´ elations intra- classe, quant ` a elles, sont prises en compte au travers des copules gaussiennes qui estiment un coefficient de corr´ elation, par couple de variables et par classe, ayant des propri´ et´ es de robustesse. De plus, les copules gaussiennes permettent de visualiser les donn´ ees par classe. Dans un cadre bay´ esien, l’estimateur du maximum a posteriori est obtenu par un
´ echantillonneur de Gibbs permettant d’explorer efficacement l’espace des param` etres. La classification d’un jeu de donn´ ees m´ edical illustre notre mod` ele.
Mots-cl´ es. Classification, copules gaussiennes, donn´ ees mixtes, mod` eles de m´ elanges.
Abstract. We propose a mixture model of Gaussian copulas to cluster mixed data sets. The margins of each component are classical distributions facilitating the interpre- tation of the classes. The intra-class correlations are taken into account by the Gaussian copulas which estimate one coefficient of correlation, per class, for each couple of variables, having robustness properties. Furthermore, Gaussian copulas allow to visualize the indivi- duals per class. In a Bayesian framework, the maximum a posteriori estimate is obtained via a Gibbs sampler allowing efficient exploration of the parameter space. The model is illustrated by a medical data set clustering.
Keywords. Clustering, Gaussian copula, mixed data, mixture models.
1 Introduction
Avec le d´ eveloppement de l’informatique, les donn´ ees ` a analyser se sont complexifi´ ees.
En particulier, elles comportent souvent plusieurs types de variables (donn´ ees mixtes). Le
clustering est un outil permettant d’extraire l’information des donn´ ees car il regroupe les
individus en classes caract´ eristiques. Il peut ˆ etre conduit par des m´ ethodes probabilistes qui
mod´ elisent le processus de g´ en´ eration des donn´ ees. En consid´ erant qu’une classe regroupe
les individus issus de la mˆ eme distribution de probabilit´ e, l’approche classique consiste ` a
utiliser un mod` ele de m´ elange fini de distributions param´ etriques (McLachlan and Peel,
2000), permettant ainsi une interpr´ etation facile des classes. Cependant, il existe peu de distributions multivari´ ees lorsque les donn´ ees sont mixtes.
Le mod` ele des classes latentes, en faisant l’hypoth` ese de l’ind´ ependance des variables conditionnellement ` a la classe, permet de r´ esoudre ce probl` eme puisqu’il n’utilise que des distributions univari´ ees. Compos´ e de distributions standard pour les marginales de chaque composante, il r´ esume chaque classe par ses param` etres marginaux. Cependant, il souffre de biais s´ ev` eres lorsque les donn´ ees sont effectivement corr´ el´ ees au sein d’une classe.
Le mod` ele propos´ e a alors pour but de conserver des distributions standard pour les marginales de chaque composante tout en relˆ achant l’hypoth` ese d’ind´ ependance condi- tionnelle. Comme les copules permettent de d´ efinir de mani` ere dissoci´ ee le mod` ele de d´ ependance et la nature des distributions marginales (Hoff, 2007), on propose tout d’abord d’utiliser un mod` ele de m´ elange de copules gaussiennes car elles permettent, d’une part, de mod´ eliser la d´ ependance intra-classe par une matrice de corr´ elation robuste et, d’autre part, de visualiser les donn´ ees par classe. Ensuite, on choisira des distributions de la famille exponentielle pour les marginales des composantes car leur interpr´ etation est facile.
Cet article est organis´ e de la mani` ere suivante. La partie 2 introduit le nouveau mod` ele de d´ ependance dont les propri´ et´ es principales sont pr´ esent´ ees dans la partie 3. La partie 4 traite des probl´ ematiques d’estimation des param` etres et de choix de mod` ele, dans un cadre bay´ esien. Une illustration du mod` ele, sur un jeu de donn´ ees m´ edical, est propos´ ee dans la partie 5. La partie 6 conclut ce travail et discute de ses extensions futures.
2 Mod` ele de m´ elange de copules gaussiennes
Mod` ele de m´ elange Soit le vecteur de d variables mixtes x = (x 1 , . . . , x d ) ∈ X dont les d c premiers ´ el´ ements correspondent aux variables continues not´ ees x c , et dont les d − d c autres correspondent aux variables discr` etes (enti` eres, ordinales et binaires) not´ ees x d . Les donn´ ees x sont suppos´ ees issues d’un m´ elange ` a g distributions param´ etriques dont la fonction de distribution de probabilit´ e (fdp) est
p(x; θ) =
g
X
k=1
π k p(x; α k ), (1)
o` u θ = (π, α) regroupe l’ensemble des param` etres. Le vecteur π = (π 1 , . . . , π g ) rassemble les proportions de chaque classe k not´ ees π k , avec 0 < π k ≤ 1 et P g
k=1 π k = 1, tandis que le vecteur α = (α 1 , . . . , α g ) regroupe les param` etres de chaque composante k not´ es α k . D´ ependances intra-classe et fonctions de r´ epartition Les copules d´ eterminent les d´ ependances au travers des fonctions de r´ epartition (fdr). Le mod` ele suppose que la composante k suit une copule gaussienne de matrice de corr´ elation Γ k dont la fdr s’´ ecrit
P (x; α k ) = Φ d (Φ −1 1 (u 1 k ), . . . , Φ −1 1 (u d k ); 0, Γ k ), (2)
o` u u j k = P (x j ; β kj ) est la valeur de la fdr de la marginale j , pour la composante k, pa- ram´ etr´ ee par β kj et o` u α k = (β k , Γ k ), avec β k = (β k1 , . . . , β kd ). Les fonctions Φ d (.; 0, Γ k ) et Φ 1 (.) correspondent respectivement aux fdr de N d (0, Γ k ) et de N 1 (0, 1).
Un vecteur latent continu sachant la classe Le mod` ele de m´ elange de copules gaussiennes peut alors s’exprimer ` a partir de deux vecteurs latents : un vecteur qualitatif utilisant un codage condens´ e z ∈ {1, . . . , g} indiquant l’appartenance des individus aux classes et un vecteur gaussien y = (y 1 , . . . , y d ) ∈ R d . En effet, si y|z ∼ N d (0, Γ z ) et que
∀j = 1, . . . , d, x j = P −1 (Φ 1 (y j ); β zj ) alors la composante z est une copule gaussienne. On en d´ eduit le mod` ele g´ en´ eratif suivant en trois ´ etapes :
– ´ echantillonnage de la classe : z ∼ M(π 1 , . . . , π g ) – ´ echantillonnage de la copule : y|z ∼ N d (0, Γ z )
– calcul des donn´ ees observ´ ees : x|z, y est d´ eterministe ∀j x j = P −1 (Φ 1 (y j ); β zj ).
Fonction de distribution de probabilit´ e Pour chaque composante, nous utilisons les marginales suivantes car elles facilitent l’interpr´ etation du mod` ele et sont d’estimation simple : gaussiennes (x j continue), de Poisson (x j enti` ere), multinomiales (x j binaires ou ordinales). L’application P −1 (Φ 1 (y j ); β zj ) est alors bijective si 1 ≤ j ≤ d c et injective sinon. En notant y c les d c premiers ´ el´ ements de y et y d les d − d c derniers ´ el´ ements de y, on d´ efinit l’espace des ant´ ec´ edents de x d pour la classe k par D k = D d k
c+1 × . . . × D k d o` u D j k = {y j : x j = P −1 (Φ 1 (y j ); β zj )}, 1 ≤ j ≤ d. Ainsi, la fdp de la composante k s’´ ecrit
p(x; θ k ) = φ d
c(y c ; 0, Γ kcc ) Q d
cj=1 σ kj Z
D
kφ d
d(y d ; µ d k , Σ d k )dy d , (3)
o` u σ kj est l’´ ecart-type de la gaussienne j de la composante k, o` u Γ k =
Γ kcc Γ kcd Γ kdc Γ kdd
est d´ ecompos´ ee en sous-matrices, par exemple Γ kcc est la sous-matrice compos´ ee des d c premi` eres lignes et colonnes de Γ k , o` u µ d k = Γ kdc Γ −1 kcc y c k et o` u Σ d k = Γ kdd − Γ kdc Γ −1 kcc Γ kcd .
3 Propri´ et´ es du mod` ele
En faveur de composantes interpr´ etables Chaque classe est r´ esum´ ee par sa propor- tion, par les param` etres de ses distributions marginales et par la matrice des corr´ elations de la copule quantifiant la d´ ependance intra-classe entre chaque couple de variables. Ainsi, en notant ν kj = card(β kj ) le nombre de param` etres de la marginale j pour la composante k , le mod` ele n´ ecessite ν = (g − 1) + g( d(d−1) 2 ) + P g
k=1
P d
j=1 ν kj param` etres.
Des coefficients de corr´ elations uniformis´ es La copule gaussienne de chaque classe
fournit un coefficient de corr´ elation robuste. En effet, dans le cas continu, il est ´ egal
`
a la borne sup´ erieure des coefficients de corr´ elation obtenus par toutes transformations monotones de ces variables (Klaassen and Wellner, 1997). De plus, dans le cas de variables discr` etes, il est ´ egale au coefficient de corr´ elation polychorique (Olsson, 1979).
Visualisation des donn´ ees par classe On utilise les param` etres du mod` ele pour effectuer une repr´ esentation des individus par classe. Pour une classe fix´ ee, cela consiste ` a faire une ACP sur l’espace de la copule gaussienne, ce qui revient ` a faire la d´ ecomposition spectrale de Γ k . Les individus sont repr´ esent´ es par les coordonn´ ees de E [y|x, z = k; α k ] sur le plan factoriel comme illustr´ e par la figure 1. Les individus issus de la classe k suivent une loi normale centr´ ee dans le plan ACP et sont donc “proches” de l’origine, tandis que ceux issus d’une autre classe, ne sont pas d’esp´ erance nulle et s’en retrouvent “´ eloign´ es”.
−5 0 5
5101520
variable continue
variable entière
x3=1 x3=0 zi=1 zi=2
−2 0 2 4 6
−4−2024
inertie: 51.86%
inertie: 31.14%
Figure 1 – Exemple d’un m´ elange de copule gaussienne ` a deux composantes avec une variable continue (abscisse), une enti` ere (ordonn´ ee) et une binaire (symbole), et de sa visualisation des individus, avec les param` etres la classe 1, sur le premier plan ACP.
4 Estimation des param` etres et choix de mod` ele
Estimation bay´ esienne des param` etres A partir d’un ´ ` echantillon x = (x 1 , . . . , x n ) de n individus i.i.d., on introduit le vecteur latent qualitatif z = (z 1 , . . . , z n ) et les vecteurs latents gaussiens y = (y i ; i = 1, . . . , n). L’estimateur du maximum a posteriori ( map ) est obtenu par l’´ echantillonneur de Gibbs, ayant p(θ|x) comme loi stationnaire. Une de ses it´ erations se d´ eroule selon les quatre ´ etapes suivantes :
z|x, y, θ (4)
π|x, y, z (5)
∀(k, j) (β kj , y j )|x, y \j , z, θ \kj (6)
∀k Γ k |x, y, z, (7)
o` u y \j est l’´ echantillon gaussien y priv´ e de la variable j et o` u θ \kj le vecteur θ priv´ e des param` etres de la marginale j de la composante k. Les ´ equations (4) et (5) sont classiques.
L’´ equation (6) se fait par un algorithme de M´ etropolis-Hastings comme propos´ e par Pitt et al. (2006). Cependant, les distributions ´ etant de la famille exponentielle, on utilise les priors non informatifs de Jeffreys pour d´ efinir p(β kj |x j , z) comme distribution proposale, car plus la d´ ependance intra-classe sera faible, plus elle sera proche de la distribution a posteriori. Enfin, l’´ equation (7), comme propos´ e par Hoff (2007), consiste ` a simuler une matrice de covariance par une distribution de Wishart que l’on normalise ensuite.
Choix de mod` ele par un crit` ere bay´ esien Ici, le probl` eme du choix de mod` ele est confin´ e au choix du nombre de classes. L’´ echantillonneur de Gibbs permet d’obtenir l’estimateur du maximum a posteriori pour un nombre fix´ e de classes. Ainsi, on peut appliquer un crit` ere bic pour s´ electionner le nombre de classes.
5 Application
Les donn´ ees On souhaite classifier un jeu de donn´ ees (Czerniak and Zarzycki, 2003) d´ ecrivant 120 patients par cinq variables binaires (naus´ ees fr´ equentes Nau, douleur lom- baires Lom, envies pressantes d’uriner Pre, douleurs en urinant Uri, brˆ ulure de l’ur` etre Bru) et une variable continue (temp´ erature du patient Tem).
R´ esultats Au vu du crit` ere bic , le mod` ele le mieux adapt´ e poss` ede deux composantes.
La classe 1, majoritaire (π 1 = 0, 56), regroupe les individus ayant une temp´ erature nor- male, une absence de naus´ ee (non = 0, 98) et peu de douleurs lombaires (non = 0, 59). La classe 2, minoritaire (π 2 = 0, 44), regroupe les individus ayant davantage de probl` emes pour ces trois variables. Si les trois autres variables semblent tr` es peu discriminantes au vu de leurs param` etres marginaux (valeurs tr` es proches pour les deux classes), elles in- terviennent dans la r` egle de classification ` a travers les corr´ elations intra-classe (classe 1 : Nau-Uri = −0, 34, Lum-Uri = −0, 65 ; classe 2 : Nau-Uri = 0, 71, Lum-Uri = 0, 42). Les deux variables les plus discriminantes sont la pr´ esence de naus´ ees et la temp´ erature. Ceci est illustr´ e par la figure 2, o` u l’on constate que les fdp de la variable temp´ erature se che- vauchent tr` es peu. De plus, l’axe 2 de l’ACP construit avec les param` etres de la classe 1, qui est tr` es discriminant, est fortement corr´ el´ e avec la variable temp´ erature.
6 Conclusion
Nous avons, ` a travers l’application pr´ ec´ edente, montr´ e l’int´ erˆ et du mod` ele de m´ elange
de copules gaussiennes pour la classification de donn´ ees mixtes. Celui-ci permet de classi-
fier des donn´ ees de diff´ erentes natures mais ordonn´ ees (n´ ecessit´ e d’avoir une fdr). L’exten-
sion au cas des donn´ ees qualitatives non binaires est ` a l’´ etude. Le mod` ele actuel donnera
lieu ` a un package R prochainement. Enfin, remarquons que le mod` ele peut aussi ˆ etre utilis´ e en classification semi-supervis´ ee et supervis´ ee.
Température
Densité
36 37 38 39 40 41
0.0 0.1 0.2 0.3 0.4
−2 −1 0 1 2
−2 0 2 4 6
Inertie: 44.36%
Iner tie: 19.57%
z^
i=1
z^
i=2