HAL Id: hal-01090349
https://hal.inria.fr/hal-01090349
Submitted on 3 Dec 2014
HAL
is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire
HAL, estdestinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.
Mise en oeuvre de l’échantillonneur de Gibbs pour le modèle des blocs latents
Vincent Brault, Gilles Celeux, Christine Keribin
To cite this version:
Vincent Brault, Gilles Celeux, Christine Keribin. Mise en oeuvre de l’échantillonneur de Gibbs pour le modèle des blocs latents. 46èmes journées de statistique de la SFdS, SFdS, Jun 2014, Rennes, France.
�hal-01090349�
Mise en oeuvre de l’´ echantillonneur de Gibbs pour le mod` ele des blocs latents
Vincent Brault
(1,2)& Gilles Celeux
(2)& Christine Keribin
(1,2)1
Laboratoire de Math´ ematiques UMR 8628, Universit´ e Paris-Sud, F-91405 Orsay cedex
2
INRIA Saclay ˆ Ile de France Projet select , Bat 425, Universit´ e Paris-Sud, F-91405 Orsay cedex
R´ esum´ e. Les mod` eles de m´ elanges peuvent ˆ etre utilis´ es pour r´ esoudre le probl` eme de la classification non supervis´ ee simultan´ ee d’un ensemble d’objets et d’un ensemble de variables. Le mod` ele des blocs latents d´ efinit une loi pour chaque croisement de classe d’objets et de classe de variables, et les observations sont suppos´ ees ind´ ependantes condi- tionnellement au choix des classes d’objets et de variables. Mais il n’est pas possible de factoriser la loi jointe conditionnelle des labels rendant impossible le calcul de l’´ etape d’estimation de l’algorithme EM. Diff´ erents algorithmes existent pour contourner cette difficult´ e, notamment V EM , un EM variationnel, propos´ e par Govaert et Nadif (2008), l’algorithme SEM de Keribin et al (2010) ou encore d’un point de vue bay´ esien, l’algo- rithme V -Bayes propos´ e par Keribin et al (2012).
D’un point de vue th´ eorique, l’´ echantillonneur de Gibbs (Keribin et al (2012)) permet de simuler la loi a posteriori exacte alors que d’autres algorithmes sont oblig´ es de faire des approximations. D’un point de vue pratique, la question de l’atteinte de la stationnarit´ e pour la chaˆıne g´ en´ er´ ee en est un point d´ elicat. Dans cet expos´ e, nous ´ etudions la statis- tique de Brooks-Gelman (1998) comme crit` ere d’arrˆ et pour le mod` ele des blocs latents et en proposons des am´ eliorations pour diminuer le temps de convergence.
Mots-cl´ es. Analyse de donn´ ees et data mining - ´ Echantillonnage de Gibbs - Statis- tique bay´ esienne - Classification crois´ ee
Abstract. Mixture models can be used to deal with the simultaneous clustering of a set of objects and a set of variables. The latent block model defines a distribution for each combinaison of an object cluster and a variable cluster, and the data is supposed to be independent, given the object and the variable clusters. But the factorization of the joint distribution of the labels, conditionally to the observed data, is not tractable, and the E-step of the EM algorithm cannot be performed. To solve this problem, the variational EM has been proposed by Govaert and Nadif (2008), the SEM algorithm by Keribin and al (2010) and the V -Bayes algorithm by Keribin and al (2012).
In theory, the Gibbs sampler (Keribin et al (2012)) samples the exact a posteriori law while
some algorithms use an approximation. In practice, the problem is to determine when the
chain begins to be stationary. In this presentation, we study the Brooks-Gelman statistic
(1998) as stop criterion for the latent block model and propose some improvement to decrease the convergence period.
Keywords. Data mining - Gibbs sampling - Bayesian methods – Co-clustering
1 Introduction
Soit x = (x
ij)
i=1,...,netj=1,...,d∈ {1, . . . , r}
n×dune matrice de donn´ ees cat´ egorielles de dimension n × d mettant en relation n objets (observations) et d variables (attributs).
Chaque case x
ijpeut prendre des niveaux h non ordonn´ es allant de 1 ` a r. L’objectif est d’op´ erer des permutations sur les lignes et sur les colonnes pour obtenir une r´ eorganisation faisant apparaˆıtre des blocs contrast´ es. La partition z d’un ´ echantillon {1, . . . , n} en g classes est repr´ esent´ ee par la matrice de classification (z
ik, i = 1, . . . , n, k = 1, . . . g) o` u z
ik= 1 si i appartient ` a la classe k et 0 sinon. De fa¸con similaire, la partition w d’un ´ echantillon {1, . . . , d} en m classes est repr´ esent´ ee par la matrice de classification (w
j`, j = 1, . . . , d, ` = 1, . . . m) o` u w
j`= 1 si j appartient ` a la classe ` et 0 sinon. La probabilit´ e d’appartenance pour une ligne i ` a la classe k sera not´ ee π
k(et ρ
`celle de l’ap- partenance d’une colonne ` a la classe `). Les variables al´ eatoires sont not´ ees en majuscule et la somme sur une ligne d’une matrice (a
ij) est repr´ esent´ ee par a
.j= P
i
a
ij. Enfin, nous notons (v
ijh) le tableau de dimension trois avec v
ijhvalant 1 si la case x
ijvaut h et 0 sinon.
Pour r´ esoudre ce probl` eme de classification, Govaert et Nadif (2008) ont propos´ e un algorithme EM variationnel (V EM ), Keribin et al (2010) ont ´ etudi´ e un algorithme sto- chastique appel´ e SEM et Keribin et al (2012) ont propos´ e des algorithmes bay´ esiens. En th´ eorie, l’´ echantillonneur de Gibbs (Keribin et al (2012)) estime la probabilit´ e a posteriori exacte p(z, w, θ|x) mais, en pratique, l’´ evaluation du moment o` u la chaˆıne a atteint la stationnarit´ e s’av` ere difficile. Dans cet expos´ e, nous ´ etudions diff´ erents crit` eres d’arrˆ et bas´ es sur la statistique de Brooks-Gelman (1998) et les comparerons en terme de qualit´ e de classification et de temps de convergence.
2 Pr´ esentation du mod` ele des blocs latents
Chaque coefficient x
ijde la matrice x est le r´ esultat du tirage d’une variable al´ eatoire X
ij. D` es que z et w sont fix´ es, la densit´ e conditionnelle de la variable X
ijappartenant au bloc (k, `) est ϕ(.; α
k`). Comme dans l’analyse en classes latentes, nous supposons l’ind´ ependance conditionnelle des n × d variables X
ijsachant le couple (z, w) :
f(x|z, w; θ) = Y
i,j,k,`
ϕ(x
ij; α
k`)
zikwj`.
Le mod` ele des blocs latents peut ˆ etre d´ efini comme un mod` ele de m´ elange f (x; θ) = X
(z,w)∈Z×W
p(z; θ)p(w; θ)f (x|z, w; θ)
o` u Z et W repr´ esentent les ensembles de toutes les affectations possibles z de {1, . . . , n}
et w de {1, . . . , d}.
Dans le cas des donn´ ees cat´ egorielles, nous d´ efinissons le param` etre θ = (π, ρ, α
k`; k = 1, . . . g, ` = 1, . . . , m), o` u π = (π
1, . . . , π
g) et ρ = (ρ
1, . . . , ρ
m), pour obtenir le mod` ele des blocs latents cat´ egoriels :
f (x; θ) = X
(z,w)∈Z×W
Y
i,k
π
zkikY
j,`
ρ
w`j`Y
i,j,k,`
ϕ(x
ij; α
k`)
zikwj`o` u α
k`= α
hk`h=1,...,r
∈ [0, 1]
ravec P
rh=1
α
hk`= 1 et ϕ(x
ij; α
k`) = Q
rh=1
α
hk`vijh.
L’impossibilit´ e de factoriser la loi jointe empˆ eche le calcul num´ erique de la logvraisem- blance et le calcul des lois conditionnelles n´ ecessaires ` a l’algorithme EM. Diff´ erents algo- rithmes ont donc recours ` a des approximations pour contourner ces difficult´ es.
3 Echantillonneur de ´ Gibbs
Dans un cadre bay´ esien (voir figure 1), le principe de l’´ echantillonneur de Gibbs est l’obtention d’une chaˆıne de Markov de loi stationnaire la loi a posteriori exacte p(z, w, θ|x).
Nous proposons les lois a priori suivantes (voir Keribin et al. (2013)) : π ∼ D(4, . . . , 4), ρ ∼ D(4, . . . , 4) et α
k`∼ D(1, . . . , 1).
-
? ?
S S
S S w
/
n d
nd gm
π 4 ρ
z
iw
jx
ijα
kl1
Figure 1 – Repr´ esentation sch´ ematique du mod` ele bay´ esien.
L’algorithme s’´ ecrit :
Echantillonneur de ´ Gibbs :
It´ erations successives du sch´ ema de Gibbs :
1. Simulation de z
(c+1)suivant la loi p(z|x, w
(c); θ
(c)).
2. Simulation de w
(c+1)suivant la loi p(w|x, z
(c+1); θ
(c)).
3. Simulation de π
(c+1)suivant la loi π|z
(c+1)∼ D
z
.1(c+1)+ 4, . . . , z
.g(c+1)+ 4 . 4. Simulation de ρ
(c+1)suivant la loi ρ|w
(c+1)∼ D
w
(c+1).1+ 4, . . . , w
(c+1).m+ 4 . 5. Simulation de α
(c+1)suivant la loi
α
k`|x, z
(c+1), w
(c+1)∼ D
N
k`;z,w1 (c+1)+ 1, . . . , N
k`;z,wr (c+1)+ 1 avec N
k`;z,wh (c+1)= P
ij
z
ik(c+1)w
j`(c+1)v
ijhle nombre de h dans le bloc (k, `).
L’´ echantillonneur de Gibbs propose une m´ ethode de simulation de la loi exacte a posteriori, celle-ci ´ etant ind´ ependante de l’initialisation choisie. En revanche, il n´ ecessite de trouver un crit` ere pour d´ eterminer l’atteinte de la stationnarit´ e, c’est-` a-dire le moment
`
a partir duquel la chaˆıne est simul´ ee suivant la loi a posteriori vis´ ee.
4 Crit` ere d’atteinte de la stationnarit´ e
Pour savoir quand la chaˆıne g´ en´ er´ ee par l’´ echantillonneur de Gibbs a atteint la station- narit´ e, nous proposons d’utiliser la statistique de Brooks-Gelman (voir Brooks et Gelman (1998)). Pour chaque composante de chaque param` etre (not´ e ξ), nous simulons τ chaˆınes en parall` ele de longueur M et nous calculons, apr` es un temps de chauffe, la statistique de la mani` ere suivante :
1. Pour chaque chaˆıne ξ
ι=
ξ
ι1, . . . , ξ
ιM, calcul de la diff´ erence δ
ιentre les quantiles empiriques de niveau 97.5% et 2.5%.
2. Calcul de la diff´ erence ∆ entre les quantiles empiriques de niveau 97.5% et 2.5%
pour l’´ echantillon complet {ξ
1, . . . , ξ
τ}.
3. Estimation de la statistique de Brooks-Gelman : R b
BG= ∆
δ ¯ o` u ¯ δ =
1τP
τι=1