• Aucun résultat trouvé

Description du principe d’Information Bottleneck

3.6 R´esum´e

4.1.1 Description du principe d’Information Bottleneck

Tishby et al. (1999) introduisent le principe d’Information Bottleneck comme un probl`e- me de communication avec pertes. La probl´ematique li´ee `a ce principe est de produire une quantification d’une variable X sous la contrainte d’une distorsion particuli`ere. La contrainte est que la quantification doit conserver le plus possible d’information contenue dans une troisi`eme variable al´eatoire Y . En termes de communication, nous souhaitons

72 4. EXTRACTION D’INFORMATION DESSTISPAR COMPRESSION AVEC PERTES

faire passer le plus d’information possible que X poss`ede par rapport `a Y au travers d’un goulot d’´etranglement form´e par la quantification. En termes d’extraction d’information, si Y repr´esente une information a priori importante, alors ce principe permet d’extraire de X l’information d’importance. Nous notons ˜X la repr´esentation compacte de l’infor- mation d’importance contenue dans X. La mesure des pertes entre X et ˜X correspond alors `a la perte d’information d’importance occasionn´ee par la quantification et s’exprime par :

D(X, ˜X) = I(X, Y )− I( ˜X, Y ) (4.1)

Dans le cadre de la th´eorie d´ebit-distorsion, le principe s’exprime alors comme : min

p(˜x|x), ˜X

I(X, ˜X) s.c. D(X, ˜X)≤ D (4.2)

o `u ˜X est l’espace de reproduction. Plus clairement, ce principe veut transmettre le mi- nimum d’information contenue dans X tout en conservant le maximum d’information contenue dans Y . Cette minimisation admet une repr´esentation lagrangienne comme l’Eq. 3.89 et s’exprime par :

min

p(˜x|x), ˜X

I( ˜X, X) + βnI(X, Y )− I( ˜X, Y )o (4.3) Dans cette minimisation, l’information mutuelle I(X, Y ) est constante car elle ne d´epend pas des arguments de minimisation. Cela implique que cette quantit´e d’information est connue a priori. Par cons´equent, nous pouvons supprimer ce terme de minimisation et r´e´ecrire le principe IB dans sa formulation courante :

min

p(˜x|x), ˜X

I( ˜X, X)− βI( ˜X, Y ) (4.4)

o `u p(X) et p(Y | X) sont connues a priori. Nous donnons une repr´esentation abstraite de la r´epartition de l’information en fonction du param`etre β dans la Figure 4.1. Quand β tend vers 0 la quantit´e d’information port´ee par ˜X est nulle. Au contraire, quand β est grand, l’information port´ee par ˜X tend `a recouvrir celle de X. On se rapproche d’un compression sans perte.

Nous avons vu que cette formulation est ´equivalente `a la d´efinition d’une courbe d´ebit- distorsion. Pour pouvoir appliquer les m´ethodes de quantification pr´esent´ees au§3.4.2, nous montrons que la distorsion est une divergence de Bregman.

4.1.2 Equations consistantes

Banerjee et al. (2004b) d´emontrent que la mesure de pertes de l’Eq. 4.1 peut s’expri- mer sous la forme d’une divergence de Bregman. Alors le principe d’Information Bottle- neck peut ˆetre trait´e comme une minimisation d’une fonction d´ebit-distorsion g´en´erale. Pour commencer, nous faisons l’hypoth`ese que Y et ˜X sont ind´ependants connaissant X. Cette supposition s’explique par le fait que connaissant X, l’information de Y ne d´epend plus d’une sous partie de l’information de X contenue dans ˜X, puisque celle-ci est d´ej`a connue. Cette supposition se traduit par la relation markovienne Y ↔ X ↔ ˜X et se traduit statistiquement par :

4.1. LE PRINCIPE D’Information Bottleneck 73 X X˜ Y X ˜ X Y β

FIG. 4.1 –Nous donnons une repr´esentation abstraite de l’information sous forme d’ensembles. L’information mutuelle I(X, Y ) correspond `a l’intersection des deux ensembles X et Y . Nous

pr´esentons l’´evolution de l’information ˜X quand β augmente. Quand β → ∞, l’ensemble ˜X a

tendance `a recouvrir X, ce qui donne une distorsion s’approchant de 0.

A partir de cette hypoth`ese r´ealiste, nous donnons une formulation ´equivalente de la fonction de pertes :

D(X, ˜X) = I(X, Y )− I( ˜X, Y ) (4.6)

= X

y,x

p(y, x) logp(y| x) p(y) −

X

y,˜x

p(y, ˜x) logp(y| ˜x) p(y) = X y,˜x,x p(x, ˜x, y) logp(y| x) p(y| ˜x) = X y,˜x,x p(˜x, y| x)p(x) logp(y| x) p(y| ˜x) = X y,˜x,x

p(˜x| x)p(y | x)p(x) log p(y| x) p(y| ˜x) = X ˜ x,x p(˜x, x)X y

p(y| x) log p(y| x) p(y| ˜x) = EX, ˜XhdKL(p(Y | X) | p(Y | ˜X))

i

(4.7) Nous avons vu que la divergence de Kullback-Leibler est une divergence de Bregman pour les espaces d-Simplex dans le Tableau 3.1. Pour satisfaire ces conditions, Banerjee et al. (2004a) introduisent une variable Z (respectivement ˜Z) prenant ses valeurs dans l’espace des probabilit´es conditionnellesZ = {p(Y | x)}x∈X (respectivement ˜Z = {p(Y | ˜x)}x∈ ˜˜ X)

qui est un espace d-Simplex. Comme Z et ˜Z sont des statistiques suffisantes, il devient ´evident de consid´erer que p(X, ˜X) = p(Z, ˜Z), p(X) = p(Z) et p( ˜X) = p( ˜Z). Alors, le prin- cipe IB (Eq. 4.3) se r´e´ecrit comme une probl`eme d´ebit-distorsion classique en prenant comme mesure de pertes la divergence de Kullback-Leibler :

min

p(˜z|z), ˜Z

I( ˜Z, Z) + βEZ, ˜ZhdKL(Z| ˜Z)

i

74 4. EXTRACTION D’INFORMATION DESSTISPAR COMPRESSION AVEC PERTES

Par cons´equent, nous pouvons calculer les trois ´equations consistantes d´ecrites au§3.4.2.1. Nous r´e´ecrivons les ´equations Eq. 3.92, Eq. 3.94 et Eq. 3.97 :

p(˜z| z) = p(˜z) N (z, β)e −βdKL(z,˜z) (4.9) N (z, β) = X ˜ z p(˜z)e−βdKL(z,˜z) p(˜z) = X z p(˜z| z)p(z) (4.10) ˜ z = X z p(z | ˜z)z (4.11)

A partir de ces ´equations, il est d´esormais possible d’utiliser l’algorithme Esp´erance- Maximisation, pour calculer la courbe d´ebit-distorsion et r´esoudre le probl`eme du prin- cipe IB en donnant un minimum local. Connaissant les liens entre X et Z, les ´equations consistantes pr´ec´edentes se r´e´ecrivent sous la forme donn´ee par Tishby et al. (1999) :

p(˜x| x) = p(˜x) N (x, β)e

−β Pyp(y|x) logp(y|x)p(y|˜x)

(4.12) N (x, β) = X

˜ x

p(˜x)e−β Pyp(y|x) logp(y|x)p(y|˜x) p(˜x) = X x p(˜x| x)p(x) (4.13) p(y| ˜x) = X x p(x| ˜x)p(y | x) (4.14)

Nous pouvons noter que l’espace de reproduction ˜X n’est pas calcul´e et que celui-ci est implicite. En effet, l’espace de reproduction est appr´ehend´e par les d´ependances qui le lient `a l’information v´ehicul´ee par Y . En termes d’indexation, la minimisation de ce principe donne les probabilit´es d’assignement, c’est-`a-dire un clustering flou, o `u les cen- tro¨ıdes des clusters sont repr´esent´es par les distributions conditionnelles p(y| ˜x).

En prenant les distributions qui v´erifient les ´equations consistantes p∗(˜x | x), p∗(˜x) et p∗(y | ˜x), la fonction d´ebit-distorsion param´etrique s’´ecrit comme suit. Tout d’abord, nous donnons la fonction de d´ebit param´etr´ee par β :

R(β) = I(X, ˜X) = X x,˜x p∗(˜x| x)p(x) logp ∗x| x) p∗x) (4.15)

La fonction de distorsion s’´ecrit quant `a elle par :

D(β) = EX, ˜XhdKL(p(Y | X) | p(Y | ˜X)) i = X x,˜x p∗(˜x| x)p(x)X y

p(y| x) log p(y| x)

p∗(y| ˜x) (4.16)

Ces deux quantit´es repr´esentent une quantit´e d’information. Aussi quand l’une diminue l’autre augmente et vice versa. Ces deux mesures nous permettent de quantifier l’infor- mation qui est conserv´ee ou extraite en rapport `a l’information d’importance perdue.

4.1. LE PRINCIPE D’Information Bottleneck 75

Entr´ees : l’ensemble des fonctions {p(Y | xi)}ni=1, la divergence de Bregman Dφ, le

nombre de groupes k, le param`etre β et la distribution{p(xi)}ni=1

Sorties: l’ensemble des fonctions{p(Y | ˜xi)}ki=1, les probabilit´es{{p(ˆxi | xj)}ki=1}nj=1

et{p(˜xi)}ki=1

Initialisation: choisir les sorties quelconques telles qu’elles respectent l’int´egration `a 1. whileconvergence do ´etape de Maximisation for j = 1to n do for i = 1to k do p(˜xi | xj) = p(˜xi)e −βP

y p(y|xj ) logp(y|xj )p(y|˜xi) P ˜ xp(˜x)e−βd(xj ,˜ x) end for end for for i = 1to k do p(˜xi) =Pxp(˜xi | x)p(x) end for ´etape d’Esp´erance for i = 1to k do p(Y | ˜xi) =Pxp(x| ˜xi)p(Y | x) end for end while

Algorithm 2 –Algorithme Esp´erance-Maximisation pour le calcul de la courbe d´ebit-distorsion li´ee au principe IB. Cet algorithme permet de calculer un point de la courbe en fonction du pa- ram`etre de compromis β.