Mise en oeuvre de l'échantillonneur de Gibbs pour le modèle des blocs latents

(1)

HAL Id: hal-01090349

https://hal.inria.fr/hal-01090349

Submitted on 3 Dec 2014

HAL

is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire

HAL, est

destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Mise en oeuvre de l’échantillonneur de Gibbs pour le modèle des blocs latents

Vincent Brault, Gilles Celeux, Christine Keribin

To cite this version:

Vincent Brault, Gilles Celeux, Christine Keribin. Mise en oeuvre de l’échantillonneur de Gibbs pour le modèle des blocs latents. 46èmes journées de statistique de la SFdS, SFdS, Jun 2014, Rennes, France.

�hal-01090349�

(2)

Mise en oeuvre de l’´ echantillonneur de Gibbs pour le mod` ele des blocs latents

Vincent Brault

^(1,2)

& Gilles Celeux

⁽²⁾

& Christine Keribin

^(1,2)

1

Laboratoire de Math´ ematiques UMR 8628, Universit´ e Paris-Sud, F-91405 Orsay cedex

2

INRIA Saclay ˆ Ile de France Projet select , Bat 425, Universit´ e Paris-Sud, F-91405 Orsay cedex

R´ esum´ e. Les mod` eles de m´ elanges peuvent ˆ etre utilis´ es pour r´ esoudre le probl` eme de la classification non supervis´ ee simultan´ ee d’un ensemble d’objets et d’un ensemble de variables. Le mod` ele des blocs latents d´ efinit une loi pour chaque croisement de classe d’objets et de classe de variables, et les observations sont suppos´ ees ind´ ependantes condi- tionnellement au choix des classes d’objets et de variables. Mais il n’est pas possible de factoriser la loi jointe conditionnelle des labels rendant impossible le calcul de l’´ etape d’estimation de l’algorithme EM. Diff´ erents algorithmes existent pour contourner cette difficult´ e, notamment V EM , un EM variationnel, propos´ e par Govaert et Nadif (2008), l’algorithme SEM de Keribin et al (2010) ou encore d’un point de vue bay´ esien, l’algo- rithme V -Bayes propos´ e par Keribin et al (2012).

D’un point de vue th´ eorique, l’´ echantillonneur de Gibbs (Keribin et al (2012)) permet de simuler la loi a posteriori exacte alors que d’autres algorithmes sont oblig´ es de faire des approximations. D’un point de vue pratique, la question de l’atteinte de la stationnarit´ e pour la chaˆıne g´ en´ er´ ee en est un point d´ elicat. Dans cet expos´ e, nous ´ etudions la statis- tique de Brooks-Gelman (1998) comme crit` ere d’arrˆ et pour le mod` ele des blocs latents et en proposons des am´ eliorations pour diminuer le temps de convergence.

Mots-cl´ es. Analyse de donn´ ees et data mining - ´ Echantillonnage de Gibbs - Statis- tique bay´ esienne - Classification crois´ ee

Abstract. Mixture models can be used to deal with the simultaneous clustering of a set of objects and a set of variables. The latent block model defines a distribution for each combinaison of an object cluster and a variable cluster, and the data is supposed to be independent, given the object and the variable clusters. But the factorization of the joint distribution of the labels, conditionally to the observed data, is not tractable, and the E-step of the EM algorithm cannot be performed. To solve this problem, the variational EM has been proposed by Govaert and Nadif (2008), the SEM algorithm by Keribin and al (2010) and the V -Bayes algorithm by Keribin and al (2012).

In theory, the Gibbs sampler (Keribin et al (2012)) samples the exact a posteriori law while

some algorithms use an approximation. In practice, the problem is to determine when the

chain begins to be stationary. In this presentation, we study the Brooks-Gelman statistic

(3)

(1998) as stop criterion for the latent block model and propose some improvement to decrease the convergence period.

Keywords. Data mining - Gibbs sampling - Bayesian methods – Co-clustering

1 Introduction

Soit x = (x

_ij

)

_i=1,...,n_et_j=1,...,d

∈ {1, . . . , r}

^n×d

une matrice de donn´ ees cat´ egorielles de dimension n × d mettant en relation n objets (observations) et d variables (attributs).

Chaque case x

_ij

peut prendre des niveaux h non ordonn´ es allant de 1 ` a r. L’objectif est d’op´ erer des permutations sur les lignes et sur les colonnes pour obtenir une r´ eorganisation faisant apparaˆıtre des blocs contrast´ es. La partition z d’un ´ echantillon {1, . . . , n} en g classes est repr´ esent´ ee par la matrice de classification (z

_ik

, i = 1, . . . , n, k = 1, . . . g) o` u z

_ik

= 1 si i appartient ` a la classe k et 0 sinon. De fa¸con similaire, la partition w d’un ´ echantillon {1, . . . , d} en m classes est repr´ esent´ ee par la matrice de classification (w

_j`

, j = 1, . . . , d, ` = 1, . . . m) o` u w

_j`

= 1 si j appartient ` a la classe ` et 0 sinon. La probabilit´ e d’appartenance pour une ligne i ` a la classe k sera not´ ee π

_k

(et ρ

_`

celle de l’ap- partenance d’une colonne ` a la classe `). Les variables al´ eatoires sont not´ ees en majuscule et la somme sur une ligne d’une matrice (a

_ij

) est repr´ esent´ ee par a

_.j

= P

i

a

_ij

. Enfin, nous notons (v

_ijh

) le tableau de dimension trois avec v

_ijh

valant 1 si la case x

_ij

vaut h et 0 sinon.

Pour r´ esoudre ce probl` eme de classification, Govaert et Nadif (2008) ont propos´ e un algorithme EM variationnel (V EM ), Keribin et al (2010) ont ´ etudi´ e un algorithme sto- chastique appel´ e SEM et Keribin et al (2012) ont propos´ e des algorithmes bay´ esiens. En th´ eorie, l’´ echantillonneur de Gibbs (Keribin et al (2012)) estime la probabilit´ e a posteriori exacte p(z, w, θ|x) mais, en pratique, l’´ evaluation du moment o` u la chaˆıne a atteint la stationnarit´ e s’av` ere difficile. Dans cet expos´ e, nous ´ etudions diff´ erents crit` eres d’arrˆ et bas´ es sur la statistique de Brooks-Gelman (1998) et les comparerons en terme de qualit´ e de classification et de temps de convergence.

2 Pr´ esentation du mod` ele des blocs latents

Chaque coefficient x

_ij

de la matrice x est le r´ esultat du tirage d’une variable al´ eatoire X

_ij

. D` es que z et w sont fix´ es, la densit´ e conditionnelle de la variable X

_ij

appartenant au bloc (k, `) est ϕ(.; α

_k`

). Comme dans l’analyse en classes latentes, nous supposons l’ind´ ependance conditionnelle des n × d variables X

_ij

sachant le couple (z, w) :

f(x|z, w; θ) = Y

i,j,k,`

ϕ(x

_ij

; α

_k`

)

^z^ik^w^j`

.

(4)

Le mod` ele des blocs latents peut ˆ etre d´ efini comme un mod` ele de m´ elange f (x; θ) = X

(z,w)∈Z×W

p(z; θ)p(w; θ)f (x|z, w; θ)

o` u Z et W repr´ esentent les ensembles de toutes les affectations possibles z de {1, . . . , n}

et w de {1, . . . , d}.

Dans le cas des donn´ ees cat´ egorielles, nous d´ efinissons le param` etre θ = (π, ρ, α

_k`

; k = 1, . . . g, ` = 1, . . . , m), o` u π = (π

₁

, . . . , π

_g

) et ρ = (ρ

₁

, . . . , ρ

_m

), pour obtenir le mod` ele des blocs latents cat´ egoriels :

f (x; θ) = X

(z,w)∈Z×W

Y

i,k

π

^z_k^ik

Y

j,`

ρ

^w_`^j`

Y

i,j,k,`

ϕ(x

_ij

; α

_k`

)

^z^ik^w^j`

o` u α

_k`

= α

^h_k`

h=1,...,r

∈ [0, 1]

^r

avec P

r

h=1

α

^h_k`

= 1 et ϕ(x

_ij

; α

_k`

) = Q

r

h=1

α

^h_k`

vijh

.

L’impossibilit´ e de factoriser la loi jointe empˆ eche le calcul num´ erique de la logvraisem- blance et le calcul des lois conditionnelles n´ ecessaires ` a l’algorithme EM. Diff´ erents algo- rithmes ont donc recours ` a des approximations pour contourner ces difficult´ es.

3 Echantillonneur de ´ Gibbs

Dans un cadre bay´ esien (voir figure 1), le principe de l’´ echantillonneur de Gibbs est l’obtention d’une chaˆıne de Markov de loi stationnaire la loi a posteriori exacte p(z, w, θ|x).

Nous proposons les lois a priori suivantes (voir Keribin et al. (2013)) : π ∼ D(4, . . . , 4), ρ ∼ D(4, . . . , 4) et α

k`

∼ D(1, . . . , 1).

-

? ?

S S

S S w

/

n d

nd gm

π 4 ρ

z

i

w

j

x

_ij

α

_kl

1 Figure 1 – Repr´ esentation sch´ ematique du mod` ele bay´ esien.

L’algorithme s’´ ecrit :

(5)

Echantillonneur de ´ Gibbs :

It´ erations successives du sch´ ema de Gibbs :

1. Simulation de z

^(c+1)

suivant la loi p(z|x, w

^(c)

; θ

^(c)

).

2. Simulation de w

^(c+1)

suivant la loi p(w|x, z

^(c+1)

; θ

^(c)

).

3. Simulation de π

^(c+1)

suivant la loi π|z

^(c+1)

∼ D

z

_.1^(c+1)

+ 4, . . . , z

.g^(c+1)

+ 4 . 4. Simulation de ρ

^(c+1)

suivant la loi ρ|w

^(c+1)

∼ D

w

^(c+1)_.1

+ 4, . . . , w

^(c+1).m

+ 4 . 5. Simulation de α

^(c+1)

suivant la loi

α

_k`

|x, z

^(c+1)

, w

^(c+1)

∼ D

N

_k`;z,w¹ ^(c+1)

+ 1, . . . , N

_k`;z,w^r ^(c+1)

+ 1 avec N

_k`;z,w^h ^(c+1)

= P

ij

z

_ik^(c+1)

w

_j`^(c+1)

v

_ijh

le nombre de h dans le bloc (k, `).

L’´ echantillonneur de Gibbs propose une m´ ethode de simulation de la loi exacte a posteriori, celle-ci ´ etant ind´ ependante de l’initialisation choisie. En revanche, il n´ ecessite de trouver un crit` ere pour d´ eterminer l’atteinte de la stationnarit´ e, c’est-` a-dire le moment

`

a partir duquel la chaˆıne est simul´ ee suivant la loi a posteriori vis´ ee.

4 Crit` ere d’atteinte de la stationnarit´ e

Pour savoir quand la chaˆıne g´ en´ er´ ee par l’´ echantillonneur de Gibbs a atteint la station- narit´ e, nous proposons d’utiliser la statistique de Brooks-Gelman (voir Brooks et Gelman (1998)). Pour chaque composante de chaque param` etre (not´ e ξ), nous simulons τ chaˆınes en parall` ele de longueur M et nous calculons, apr` es un temps de chauffe, la statistique de la mani` ere suivante :

1. Pour chaque chaˆıne ξ

ι

=

ξ

_ι¹

, . . . , ξ

_ι^M

, calcul de la diff´ erence δ

ι

entre les quantiles empiriques de niveau 97.5% et 2.5%.

2. Calcul de la diff´ erence ∆ entre les quantiles empiriques de niveau 97.5% et 2.5%

pour l’´ echantillon complet {ξ

₁

, . . . , ξ

_τ

}.

3. Estimation de la statistique de Brooks-Gelman : R b

_BG

= ∆

δ ¯ o` u ¯ δ =

¹_τ

P

τ

ι=1

δ

_ι

est la moyenne empirique des δ

_ι

.

(6)

Figure 2 – Affichage des trajectoires de 10 chaˆınes pour l’un des param` etre π

_k

. Avant la ligne rouge se trouvent 20% des it´ erations.

Ce calcul est effectu´ e ` a chaque fois que les τ chaˆınes poss` edent un multiple de M it´ erations.

Si R b

_BG

est inf´ erieure ` a 1.2, l’algorithme s’arrˆ ete.

Pour l’´ echantillonneur de Gibbs propos´ e dans le cadre du mod` ele des blocs latents, nous ajoutons deux am´ eliorations. Sur la figure 2, les chaˆınes 1, 3, 6, 7, 8 et 10 ont atteint la stationnarit´ e. En revanche, la chaˆıne 2 semble ˆ etre prise dans un maximum local ; tant qu’elle n’en sera pas sortie, la chaˆıne globale ne sera pas stationnaire. De mˆ eme, les chaˆınes 4, 5 et 10 l’ont quitt´ e apr` es un nombre d’it´ erations compris entre 1500 et 2000 et il faudra attendre un grand nombre d’it´ erations pour contrecarrer l’effet n´ egatif sur la convergence de ces premi` eres it´ erations.

Pour ´ eliminer ces probl` emes, au moment du calcul de R b

_BG

et si celle ci est trop grande, nous proposons :

— de calculer, pour chaque ι, la statistique R b

^−ι_BG

sur le mˆ eme principe mais en enlevant la chaˆıne ι,

— de calculer la statistique R b

^−20%_BG

en enlevant pour chaque chaˆıne les 0, 2M premi` eres it´ erations,

— de calculer, pour chaque ι, la statistique R b

^−(ι,20%)_BG

en couplant les deux points pr´ ec´ edents.

En contrepartie, nous comparons ces statistique ` a la valeur 1.05 afin d’assurer que l’´ echan-

tillonneur de Gibbs ait bien converg´ e. Malgr´ e cette restriction, nous montrerons que les

(7)

am´ eliorations permettent de diminuer le temps de convergence sans d´ egrader la qualit´ e des r´ esultats.

5 Conclusion

Jusqu’` a pr´ esent, pour le mod` ele des blocs latents, l’´ echantillonneur de Gibbs a ´ et´ e utilis´ e avec un nombre d’it´ erations fix´ e ` a l’avance. Nous comparerons cette proc´ edure avec celle utilisant la statistique de Brooks-Gelman et avec les diff´ erentes am´ eliorations propos´ ees en terme de qualit´ e de classement et de temps sur des donn´ ees simul´ ees et r´ eelles.

Bibliographie

[1] Govaert, G. et Nadif M. (2008) Block clustering with Bernoulli mixture models : Comparison of different approaches. Computational Statistics & Data Analysis, 52, 3233–

3245.

[2] Keribin, C., Celeux, G. et Govaert, G. (2010) Estimation d’un mod` ele ` a blocs latent par l’algorithme SEM. 42

^◦

journ´ ees de Statistique, SFdS, Marseille, France, mai 2010.

[3] Keribin, C., Brault, V., Celeux, G. et Govaert, G. (2012) Estimation and Selection for the Latent Block Model on Categorical Data. Rapport de recherche RR-8264, INRIA.

[4] Brooks, S.P.Gelman, A. (1998) General Methods for Monitoring Convergence of Ite- rative Simulations. Journal of Computational and Graphical Statistics, 15, 434-455.