3.6 R´esum´e
4.1.1 Description du principe d’Information Bottleneck
Tishby et al. (1999) introduisent le principe d’Information Bottleneck comme un probl`e- me de communication avec pertes. La probl´ematique li´ee `a ce principe est de produire une quantification d’une variable X sous la contrainte d’une distorsion particuli`ere. La contrainte est que la quantification doit conserver le plus possible d’information contenue dans une troisi`eme variable al´eatoire Y . En termes de communication, nous souhaitons
72 4. EXTRACTION D’INFORMATION DESSTISPAR COMPRESSION AVEC PERTES
faire passer le plus d’information possible que X poss`ede par rapport `a Y au travers d’un goulot d’´etranglement form´e par la quantification. En termes d’extraction d’information, si Y repr´esente une information a priori importante, alors ce principe permet d’extraire de X l’information d’importance. Nous notons ˜X la repr´esentation compacte de l’infor- mation d’importance contenue dans X. La mesure des pertes entre X et ˜X correspond alors `a la perte d’information d’importance occasionn´ee par la quantification et s’exprime par :
D(X, ˜X) = I(X, Y )− I( ˜X, Y ) (4.1)
Dans le cadre de la th´eorie d´ebit-distorsion, le principe s’exprime alors comme : min
p(˜x|x), ˜X
I(X, ˜X) s.c. D(X, ˜X)≤ D (4.2)
o `u ˜X est l’espace de reproduction. Plus clairement, ce principe veut transmettre le mi- nimum d’information contenue dans X tout en conservant le maximum d’information contenue dans Y . Cette minimisation admet une repr´esentation lagrangienne comme l’Eq. 3.89 et s’exprime par :
min
p(˜x|x), ˜X
I( ˜X, X) + βnI(X, Y )− I( ˜X, Y )o (4.3) Dans cette minimisation, l’information mutuelle I(X, Y ) est constante car elle ne d´epend pas des arguments de minimisation. Cela implique que cette quantit´e d’information est connue a priori. Par cons´equent, nous pouvons supprimer ce terme de minimisation et r´e´ecrire le principe IB dans sa formulation courante :
min
p(˜x|x), ˜X
I( ˜X, X)− βI( ˜X, Y ) (4.4)
o `u p(X) et p(Y | X) sont connues a priori. Nous donnons une repr´esentation abstraite de la r´epartition de l’information en fonction du param`etre β dans la Figure 4.1. Quand β tend vers 0 la quantit´e d’information port´ee par ˜X est nulle. Au contraire, quand β est grand, l’information port´ee par ˜X tend `a recouvrir celle de X. On se rapproche d’un compression sans perte.
Nous avons vu que cette formulation est ´equivalente `a la d´efinition d’une courbe d´ebit- distorsion. Pour pouvoir appliquer les m´ethodes de quantification pr´esent´ees au§3.4.2, nous montrons que la distorsion est une divergence de Bregman.
4.1.2 Equations consistantes
Banerjee et al. (2004b) d´emontrent que la mesure de pertes de l’Eq. 4.1 peut s’expri- mer sous la forme d’une divergence de Bregman. Alors le principe d’Information Bottle- neck peut ˆetre trait´e comme une minimisation d’une fonction d´ebit-distorsion g´en´erale. Pour commencer, nous faisons l’hypoth`ese que Y et ˜X sont ind´ependants connaissant X. Cette supposition s’explique par le fait que connaissant X, l’information de Y ne d´epend plus d’une sous partie de l’information de X contenue dans ˜X, puisque celle-ci est d´ej`a connue. Cette supposition se traduit par la relation markovienne Y ↔ X ↔ ˜X et se traduit statistiquement par :
4.1. LE PRINCIPE D’Information Bottleneck 73 X X˜ Y X ˜ X Y β
FIG. 4.1 –Nous donnons une repr´esentation abstraite de l’information sous forme d’ensembles. L’information mutuelle I(X, Y ) correspond `a l’intersection des deux ensembles X et Y . Nous
pr´esentons l’´evolution de l’information ˜X quand β augmente. Quand β → ∞, l’ensemble ˜X a
tendance `a recouvrir X, ce qui donne une distorsion s’approchant de 0.
A partir de cette hypoth`ese r´ealiste, nous donnons une formulation ´equivalente de la fonction de pertes :
D(X, ˜X) = I(X, Y )− I( ˜X, Y ) (4.6)
= X
y,x
p(y, x) logp(y| x) p(y) −
X
y,˜x
p(y, ˜x) logp(y| ˜x) p(y) = X y,˜x,x p(x, ˜x, y) logp(y| x) p(y| ˜x) = X y,˜x,x p(˜x, y| x)p(x) logp(y| x) p(y| ˜x) = X y,˜x,x
p(˜x| x)p(y | x)p(x) log p(y| x) p(y| ˜x) = X ˜ x,x p(˜x, x)X y
p(y| x) log p(y| x) p(y| ˜x) = EX, ˜XhdKL(p(Y | X) | p(Y | ˜X))
i
(4.7) Nous avons vu que la divergence de Kullback-Leibler est une divergence de Bregman pour les espaces d-Simplex dans le Tableau 3.1. Pour satisfaire ces conditions, Banerjee et al. (2004a) introduisent une variable Z (respectivement ˜Z) prenant ses valeurs dans l’espace des probabilit´es conditionnellesZ = {p(Y | x)}x∈X (respectivement ˜Z = {p(Y | ˜x)}x∈ ˜˜ X)
qui est un espace d-Simplex. Comme Z et ˜Z sont des statistiques suffisantes, il devient ´evident de consid´erer que p(X, ˜X) = p(Z, ˜Z), p(X) = p(Z) et p( ˜X) = p( ˜Z). Alors, le prin- cipe IB (Eq. 4.3) se r´e´ecrit comme une probl`eme d´ebit-distorsion classique en prenant comme mesure de pertes la divergence de Kullback-Leibler :
min
p(˜z|z), ˜Z
I( ˜Z, Z) + βEZ, ˜ZhdKL(Z| ˜Z)
i
74 4. EXTRACTION D’INFORMATION DESSTISPAR COMPRESSION AVEC PERTES
Par cons´equent, nous pouvons calculer les trois ´equations consistantes d´ecrites au§3.4.2.1. Nous r´e´ecrivons les ´equations Eq. 3.92, Eq. 3.94 et Eq. 3.97 :
p(˜z| z) = p(˜z) N (z, β)e −βdKL(z,˜z) (4.9) N (z, β) = X ˜ z p(˜z)e−βdKL(z,˜z) p(˜z) = X z p(˜z| z)p(z) (4.10) ˜ z = X z p(z | ˜z)z (4.11)
A partir de ces ´equations, il est d´esormais possible d’utiliser l’algorithme Esp´erance- Maximisation, pour calculer la courbe d´ebit-distorsion et r´esoudre le probl`eme du prin- cipe IB en donnant un minimum local. Connaissant les liens entre X et Z, les ´equations consistantes pr´ec´edentes se r´e´ecrivent sous la forme donn´ee par Tishby et al. (1999) :
p(˜x| x) = p(˜x) N (x, β)e
−β Pyp(y|x) logp(y|x)p(y|˜x)
(4.12) N (x, β) = X
˜ x
p(˜x)e−β Pyp(y|x) logp(y|x)p(y|˜x) p(˜x) = X x p(˜x| x)p(x) (4.13) p(y| ˜x) = X x p(x| ˜x)p(y | x) (4.14)
Nous pouvons noter que l’espace de reproduction ˜X n’est pas calcul´e et que celui-ci est implicite. En effet, l’espace de reproduction est appr´ehend´e par les d´ependances qui le lient `a l’information v´ehicul´ee par Y . En termes d’indexation, la minimisation de ce principe donne les probabilit´es d’assignement, c’est-`a-dire un clustering flou, o `u les cen- tro¨ıdes des clusters sont repr´esent´es par les distributions conditionnelles p(y| ˜x).
En prenant les distributions qui v´erifient les ´equations consistantes p∗(˜x | x), p∗(˜x) et p∗(y | ˜x), la fonction d´ebit-distorsion param´etrique s’´ecrit comme suit. Tout d’abord, nous donnons la fonction de d´ebit param´etr´ee par β :
R(β) = I(X, ˜X) = X x,˜x p∗(˜x| x)p(x) logp ∗(˜x| x) p∗(˜x) (4.15)
La fonction de distorsion s’´ecrit quant `a elle par :
D(β) = EX, ˜XhdKL(p(Y | X) | p(Y | ˜X)) i = X x,˜x p∗(˜x| x)p(x)X y
p(y| x) log p(y| x)
p∗(y| ˜x) (4.16)
Ces deux quantit´es repr´esentent une quantit´e d’information. Aussi quand l’une diminue l’autre augmente et vice versa. Ces deux mesures nous permettent de quantifier l’infor- mation qui est conserv´ee ou extraite en rapport `a l’information d’importance perdue.
4.1. LE PRINCIPE D’Information Bottleneck 75
Entr´ees : l’ensemble des fonctions {p(Y | xi)}ni=1, la divergence de Bregman Dφ, le
nombre de groupes k, le param`etre β et la distribution{p(xi)}ni=1
Sorties: l’ensemble des fonctions{p(Y | ˜xi)}ki=1, les probabilit´es{{p(ˆxi | xj)}ki=1}nj=1
et{p(˜xi)}ki=1
Initialisation: choisir les sorties quelconques telles qu’elles respectent l’int´egration `a 1. whileconvergence do ´etape de Maximisation for j = 1to n do for i = 1to k do p(˜xi | xj) = p(˜xi)e −βP
y p(y|xj ) logp(y|xj )p(y|˜xi) P ˜ xp(˜x)e−βd(xj ,˜ x) end for end for for i = 1to k do p(˜xi) =Pxp(˜xi | x)p(x) end for ´etape d’Esp´erance for i = 1to k do p(Y | ˜xi) =Pxp(x| ˜xi)p(Y | x) end for end while
Algorithm 2 –Algorithme Esp´erance-Maximisation pour le calcul de la courbe d´ebit-distorsion li´ee au principe IB. Cet algorithme permet de calculer un point de la courbe en fonction du pa- ram`etre de compromis β.