• Aucun résultat trouvé

Classification de données mixtes par un modèle de mélange de copules gaussiennes.

N/A
N/A
Protected

Academic year: 2021

Partager "Classification de données mixtes par un modèle de mélange de copules gaussiennes."

Copied!
7
0
0

Texte intégral

(1)

HAL Id: hal-00940613

https://hal.archives-ouvertes.fr/hal-00940613

Preprint submitted on 2 Feb 2014

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Classification de données mixtes par un modèle de mélange de copules gaussiennes.

Matthieu Marbac, Christophe Biernacki, Vincent Vandewalle

To cite this version:

Matthieu Marbac, Christophe Biernacki, Vincent Vandewalle. Classification de données mixtes par

un modèle de mélange de copules gaussiennes.. 2014. �hal-00940613�

(2)

Classification de donn´ ees mixtes par un mod` ele de m´ elange de copules gaussiennes.

Matthieu Marbac 1 & Christophe Biernacki 2 & Vincent Vandewalle 3

1 DGA & Inria Lille, matthieu.marbac-lourdelle@inria.fr

2 Universit´ e Lille 1 & CNRS & Inria Lille, Christophe.Biernacki@math.univ-lille1.fr

3 Universit´ e Lille 2 EA 2694 & Inria Lille, vincent.vandewalle@univ-lille2.fr

R´ esum´ e. Nous proposons un mod` ele de m´ elange de copules gaussiennes pour la classi- fication non supervis´ ee de donn´ ees mixtes. Les marginales de chaque composante sont des distributions standard, ce qui facilite l’interpr´ etation des classes. Les corr´ elations intra- classe, quant ` a elles, sont prises en compte au travers des copules gaussiennes qui estiment un coefficient de corr´ elation, par couple de variables et par classe, ayant des propri´ et´ es de robustesse. De plus, les copules gaussiennes permettent de visualiser les donn´ ees par classe. Dans un cadre bay´ esien, l’estimateur du maximum a posteriori est obtenu par un

´ echantillonneur de Gibbs permettant d’explorer efficacement l’espace des param` etres. La classification d’un jeu de donn´ ees m´ edical illustre notre mod` ele.

Mots-cl´ es. Classification, copules gaussiennes, donn´ ees mixtes, mod` eles de m´ elanges.

Abstract. We propose a mixture model of Gaussian copulas to cluster mixed data sets. The margins of each component are classical distributions facilitating the interpre- tation of the classes. The intra-class correlations are taken into account by the Gaussian copulas which estimate one coefficient of correlation, per class, for each couple of variables, having robustness properties. Furthermore, Gaussian copulas allow to visualize the indivi- duals per class. In a Bayesian framework, the maximum a posteriori estimate is obtained via a Gibbs sampler allowing efficient exploration of the parameter space. The model is illustrated by a medical data set clustering.

Keywords. Clustering, Gaussian copula, mixed data, mixture models.

1 Introduction

Avec le d´ eveloppement de l’informatique, les donn´ ees ` a analyser se sont complexifi´ ees.

En particulier, elles comportent souvent plusieurs types de variables (donn´ ees mixtes). Le

clustering est un outil permettant d’extraire l’information des donn´ ees car il regroupe les

individus en classes caract´ eristiques. Il peut ˆ etre conduit par des m´ ethodes probabilistes qui

mod´ elisent le processus de g´ en´ eration des donn´ ees. En consid´ erant qu’une classe regroupe

les individus issus de la mˆ eme distribution de probabilit´ e, l’approche classique consiste ` a

utiliser un mod` ele de m´ elange fini de distributions param´ etriques (McLachlan and Peel,

(3)

2000), permettant ainsi une interpr´ etation facile des classes. Cependant, il existe peu de distributions multivari´ ees lorsque les donn´ ees sont mixtes.

Le mod` ele des classes latentes, en faisant l’hypoth` ese de l’ind´ ependance des variables conditionnellement ` a la classe, permet de r´ esoudre ce probl` eme puisqu’il n’utilise que des distributions univari´ ees. Compos´ e de distributions standard pour les marginales de chaque composante, il r´ esume chaque classe par ses param` etres marginaux. Cependant, il souffre de biais s´ ev` eres lorsque les donn´ ees sont effectivement corr´ el´ ees au sein d’une classe.

Le mod` ele propos´ e a alors pour but de conserver des distributions standard pour les marginales de chaque composante tout en relˆ achant l’hypoth` ese d’ind´ ependance condi- tionnelle. Comme les copules permettent de d´ efinir de mani` ere dissoci´ ee le mod` ele de d´ ependance et la nature des distributions marginales (Hoff, 2007), on propose tout d’abord d’utiliser un mod` ele de m´ elange de copules gaussiennes car elles permettent, d’une part, de mod´ eliser la d´ ependance intra-classe par une matrice de corr´ elation robuste et, d’autre part, de visualiser les donn´ ees par classe. Ensuite, on choisira des distributions de la famille exponentielle pour les marginales des composantes car leur interpr´ etation est facile.

Cet article est organis´ e de la mani` ere suivante. La partie 2 introduit le nouveau mod` ele de d´ ependance dont les propri´ et´ es principales sont pr´ esent´ ees dans la partie 3. La partie 4 traite des probl´ ematiques d’estimation des param` etres et de choix de mod` ele, dans un cadre bay´ esien. Une illustration du mod` ele, sur un jeu de donn´ ees m´ edical, est propos´ ee dans la partie 5. La partie 6 conclut ce travail et discute de ses extensions futures.

2 Mod` ele de m´ elange de copules gaussiennes

Mod` ele de m´ elange Soit le vecteur de d variables mixtes x = (x 1 , . . . , x d ) ∈ X dont les d c premiers ´ el´ ements correspondent aux variables continues not´ ees x c , et dont les d − d c autres correspondent aux variables discr` etes (enti` eres, ordinales et binaires) not´ ees x d . Les donn´ ees x sont suppos´ ees issues d’un m´ elange ` a g distributions param´ etriques dont la fonction de distribution de probabilit´ e (fdp) est

p(x; θ) =

g

X

k=1

π k p(x; α k ), (1)

o` u θ = (π, α) regroupe l’ensemble des param` etres. Le vecteur π = (π 1 , . . . , π g ) rassemble les proportions de chaque classe k not´ ees π k , avec 0 < π k ≤ 1 et P g

k=1 π k = 1, tandis que le vecteur α = (α 1 , . . . , α g ) regroupe les param` etres de chaque composante k not´ es α k . D´ ependances intra-classe et fonctions de r´ epartition Les copules d´ eterminent les d´ ependances au travers des fonctions de r´ epartition (fdr). Le mod` ele suppose que la composante k suit une copule gaussienne de matrice de corr´ elation Γ k dont la fdr s’´ ecrit

P (x; α k ) = Φ d−1 1 (u 1 k ), . . . , Φ −1 1 (u d k ); 0, Γ k ), (2)

(4)

o` u u j k = P (x j ; β kj ) est la valeur de la fdr de la marginale j , pour la composante k, pa- ram´ etr´ ee par β kj et o` u α k = (β k , Γ k ), avec β k = (β k1 , . . . , β kd ). Les fonctions Φ d (.; 0, Γ k ) et Φ 1 (.) correspondent respectivement aux fdr de N d (0, Γ k ) et de N 1 (0, 1).

Un vecteur latent continu sachant la classe Le mod` ele de m´ elange de copules gaussiennes peut alors s’exprimer ` a partir de deux vecteurs latents : un vecteur qualitatif utilisant un codage condens´ e z ∈ {1, . . . , g} indiquant l’appartenance des individus aux classes et un vecteur gaussien y = (y 1 , . . . , y d ) ∈ R d . En effet, si y|z ∼ N d (0, Γ z ) et que

∀j = 1, . . . , d, x j = P −11 (y j ); β zj ) alors la composante z est une copule gaussienne. On en d´ eduit le mod` ele g´ en´ eratif suivant en trois ´ etapes :

– ´ echantillonnage de la classe : z ∼ M(π 1 , . . . , π g ) – ´ echantillonnage de la copule : y|z ∼ N d (0, Γ z )

– calcul des donn´ ees observ´ ees : x|z, y est d´ eterministe ∀j x j = P −1 (Φ 1 (y j ); β zj ).

Fonction de distribution de probabilit´ e Pour chaque composante, nous utilisons les marginales suivantes car elles facilitent l’interpr´ etation du mod` ele et sont d’estimation simple : gaussiennes (x j continue), de Poisson (x j enti` ere), multinomiales (x j binaires ou ordinales). L’application P −11 (y j ); β zj ) est alors bijective si 1 ≤ j ≤ d c et injective sinon. En notant y c les d c premiers ´ el´ ements de y et y d les d − d c derniers ´ el´ ements de y, on d´ efinit l’espace des ant´ ec´ edents de x d pour la classe k par D k = D d k

c

+1 × . . . × D k d o` u D j k = {y j : x j = P −11 (y j ); β zj )}, 1 ≤ j ≤ d. Ainsi, la fdp de la composante k s’´ ecrit

p(x; θ k ) = φ d

c

(y c ; 0, Γ kcc ) Q d

c

j=1 σ kj Z

D

k

φ d

d

(y d ; µ d k , Σ d k )dy d , (3)

o` u σ kj est l’´ ecart-type de la gaussienne j de la composante k, o` u Γ k =

Γ kcc Γ kcd Γ kdc Γ kdd

est d´ ecompos´ ee en sous-matrices, par exemple Γ kcc est la sous-matrice compos´ ee des d c premi` eres lignes et colonnes de Γ k , o` u µ d k = Γ kdc Γ −1 kcc y c k et o` u Σ d k = Γ kdd − Γ kdc Γ −1 kcc Γ kcd .

3 Propri´ et´ es du mod` ele

En faveur de composantes interpr´ etables Chaque classe est r´ esum´ ee par sa propor- tion, par les param` etres de ses distributions marginales et par la matrice des corr´ elations de la copule quantifiant la d´ ependance intra-classe entre chaque couple de variables. Ainsi, en notant ν kj = card(β kj ) le nombre de param` etres de la marginale j pour la composante k , le mod` ele n´ ecessite ν = (g − 1) + g( d(d−1) 2 ) + P g

k=1

P d

j=1 ν kj param` etres.

Des coefficients de corr´ elations uniformis´ es La copule gaussienne de chaque classe

fournit un coefficient de corr´ elation robuste. En effet, dans le cas continu, il est ´ egal

(5)

`

a la borne sup´ erieure des coefficients de corr´ elation obtenus par toutes transformations monotones de ces variables (Klaassen and Wellner, 1997). De plus, dans le cas de variables discr` etes, il est ´ egale au coefficient de corr´ elation polychorique (Olsson, 1979).

Visualisation des donn´ ees par classe On utilise les param` etres du mod` ele pour effectuer une repr´ esentation des individus par classe. Pour une classe fix´ ee, cela consiste ` a faire une ACP sur l’espace de la copule gaussienne, ce qui revient ` a faire la d´ ecomposition spectrale de Γ k . Les individus sont repr´ esent´ es par les coordonn´ ees de E [y|x, z = k; α k ] sur le plan factoriel comme illustr´ e par la figure 1. Les individus issus de la classe k suivent une loi normale centr´ ee dans le plan ACP et sont donc “proches” de l’origine, tandis que ceux issus d’une autre classe, ne sont pas d’esp´ erance nulle et s’en retrouvent “´ eloign´ es”.

−5 0 5

5101520

variable continue

variable entière

x3=1 x3=0 zi=1 zi=2

−2 0 2 4 6

−4−2024

inertie: 51.86%

inertie: 31.14%

Figure 1 – Exemple d’un m´ elange de copule gaussienne ` a deux composantes avec une variable continue (abscisse), une enti` ere (ordonn´ ee) et une binaire (symbole), et de sa visualisation des individus, avec les param` etres la classe 1, sur le premier plan ACP.

4 Estimation des param` etres et choix de mod` ele

Estimation bay´ esienne des param` etres A partir d’un ´ ` echantillon x = (x 1 , . . . , x n ) de n individus i.i.d., on introduit le vecteur latent qualitatif z = (z 1 , . . . , z n ) et les vecteurs latents gaussiens y = (y i ; i = 1, . . . , n). L’estimateur du maximum a posteriori ( map ) est obtenu par l’´ echantillonneur de Gibbs, ayant p(θ|x) comme loi stationnaire. Une de ses it´ erations se d´ eroule selon les quatre ´ etapes suivantes :

z|x, y, θ (4)

π|x, y, z (5)

∀(k, j) (β kj , y j )|x, y \j , z, θ \kj (6)

∀k Γ k |x, y, z, (7)

(6)

o` u y \j est l’´ echantillon gaussien y priv´ e de la variable j et o` u θ \kj le vecteur θ priv´ e des param` etres de la marginale j de la composante k. Les ´ equations (4) et (5) sont classiques.

L’´ equation (6) se fait par un algorithme de M´ etropolis-Hastings comme propos´ e par Pitt et al. (2006). Cependant, les distributions ´ etant de la famille exponentielle, on utilise les priors non informatifs de Jeffreys pour d´ efinir p(β kj |x j , z) comme distribution proposale, car plus la d´ ependance intra-classe sera faible, plus elle sera proche de la distribution a posteriori. Enfin, l’´ equation (7), comme propos´ e par Hoff (2007), consiste ` a simuler une matrice de covariance par une distribution de Wishart que l’on normalise ensuite.

Choix de mod` ele par un crit` ere bay´ esien Ici, le probl` eme du choix de mod` ele est confin´ e au choix du nombre de classes. L’´ echantillonneur de Gibbs permet d’obtenir l’estimateur du maximum a posteriori pour un nombre fix´ e de classes. Ainsi, on peut appliquer un crit` ere bic pour s´ electionner le nombre de classes.

5 Application

Les donn´ ees On souhaite classifier un jeu de donn´ ees (Czerniak and Zarzycki, 2003) d´ ecrivant 120 patients par cinq variables binaires (naus´ ees fr´ equentes Nau, douleur lom- baires Lom, envies pressantes d’uriner Pre, douleurs en urinant Uri, brˆ ulure de l’ur` etre Bru) et une variable continue (temp´ erature du patient Tem).

R´ esultats Au vu du crit` ere bic , le mod` ele le mieux adapt´ e poss` ede deux composantes.

La classe 1, majoritaire (π 1 = 0, 56), regroupe les individus ayant une temp´ erature nor- male, une absence de naus´ ee (non = 0, 98) et peu de douleurs lombaires (non = 0, 59). La classe 2, minoritaire (π 2 = 0, 44), regroupe les individus ayant davantage de probl` emes pour ces trois variables. Si les trois autres variables semblent tr` es peu discriminantes au vu de leurs param` etres marginaux (valeurs tr` es proches pour les deux classes), elles in- terviennent dans la r` egle de classification ` a travers les corr´ elations intra-classe (classe 1 : Nau-Uri = −0, 34, Lum-Uri = −0, 65 ; classe 2 : Nau-Uri = 0, 71, Lum-Uri = 0, 42). Les deux variables les plus discriminantes sont la pr´ esence de naus´ ees et la temp´ erature. Ceci est illustr´ e par la figure 2, o` u l’on constate que les fdp de la variable temp´ erature se che- vauchent tr` es peu. De plus, l’axe 2 de l’ACP construit avec les param` etres de la classe 1, qui est tr` es discriminant, est fortement corr´ el´ e avec la variable temp´ erature.

6 Conclusion

Nous avons, ` a travers l’application pr´ ec´ edente, montr´ e l’int´ erˆ et du mod` ele de m´ elange

de copules gaussiennes pour la classification de donn´ ees mixtes. Celui-ci permet de classi-

fier des donn´ ees de diff´ erentes natures mais ordonn´ ees (n´ ecessit´ e d’avoir une fdr). L’exten-

sion au cas des donn´ ees qualitatives non binaires est ` a l’´ etude. Le mod` ele actuel donnera

(7)

lieu ` a un package R prochainement. Enfin, remarquons que le mod` ele peut aussi ˆ etre utilis´ e en classification semi-supervis´ ee et supervis´ ee.

Température

Densité

36 37 38 39 40 41

0.0 0.1 0.2 0.3 0.4

−2 −1 0 1 2

−2 0 2 4 6

Inertie: 44.36%

Iner tie: 19.57%

z^

i=1

z^

i=2

Figure 2 – Histogramme et fdp des composantes avec l’estimateur du map pour la variable temp´ erature et nuage de points sur le 1er plan ACP pour la classe 1.

R´ ef´ erences

J. Czerniak and H. Zarzycki. Application of rough sets in the presumptive diagnosis of urinary system diseases. Artifical Inteligence and Security in Computing Systems, ACS’2002 9th International Conference Proceedings, pages 41–51, 2003.

P.D. Hoff. Extending the rank likelihood for semiparametric copula estimation. The Annals of Applied Statistics, pages 265–283, 2007.

C.A.J. Klaassen and J.A. Wellner. Efficient estimation in the bivariate normal copula model : normal margins are least favourable. Bernoulli, 3(1) :55–77, 1997.

G.J. McLachlan and D. Peel. Finite mixutre models. Wiley Series in Probability and Statistics : Applied Probability and Statistics, Wiley-Interscience, New York, 2000.

U. Olsson. Maximum likelihood estimation of the polychoric correlation coefficient. Psy- chometrika, 44(4) :443–460, 1979.

M. Pitt, D. Chan, and R. Kohn. Efficient Bayesian inference for Gaussian copula regression

models. Biometrika, 93(3) :537–554, 2006.

Références

Documents relatifs

The first aim of this study is to document the prevalence of comorbid diagnoses of mental health disorders in the administrative databanks of universal public health insurance

Lacaze, “Fast convergence reconstruction formulas for periodic nonuniform sampling of order 2,” in IEEE International Conference on Acoustics, Speech and Signal Processing

Finalement, deux problèmes sont à résoudre de façon concomitante : la classification des données, c'est-à-dire leur allocation aux différents modèles locaux, et l'estimation

Monsieur CASTAGNA Pierre Professeur, Université de Nantes Monsieur LE LANN Jean-Marc Professeur, INP-ENSIACET.

Shifting her focus from modes of insertion when the image functions in absentia, to moments when the work of the iconotext is performed in praesentia, Louvel illuminates cases when

L’emballement thermique est un phénomène bien connu en génie des procédés. Au niveau d’une batterie, on assiste à un emballement thermique lorsque l’énergie dégagée par

Lieux et pratiques dévotionnelles dans les vallées du moyen et.. haut

Anesthésie-Réanimation Cardiologie Anesthésie-Réanimation Ophtalmologie Neurologie Néphrologie Pneumo-phtisiologie Gastro-Entérologie Cardiologie Pédiatrie Dermatologie