Description du principe d’Information Bottleneck

3.6 R´esum´e

4.1.1 Description du principe d’Information Bottleneck

Tishby et al. (1999) introduisent le principe d’Information Bottleneck comme un problè- me de communication avec pertes. La problématique liée à ce principe est de produire une quantification d’une variable X sous la contrainte d’une distorsion particulière. La contrainte est que la quantification doit conserver le plus possible d’information contenue dans une troisième variable aléatoire Y . En termes de communication, nous souhaitons

72 4. EXTRACTION D’INFORMATION DESSTISPAR COMPRESSION AVEC PERTES

faire passer le plus d’information possible que X possède par rapport à Y au travers d’un goulot d’étranglement formé par la quantification. En termes d’extraction d’information, si Y représente une information a priori importante, alors ce principe permet d’extraire de X l’information d’importance. Nous notons ˜X la représentation compacte de l’information d’importance contenue dans X. La mesure des pertes entre X et ˜X correspond alors à la perte d’information d’importance occasionnée par la quantification et s’exprime par :

D(X, ˜X) = I(X, Y )_{− I( ˜}X, Y ) (4.1)

Dans le cadre de la th´eorie d´ebit-distorsion, le principe s’exprime alors comme : min

p(˜x|x), ˜X

I(X, ˜X) s.c. D(X, ˜X)≤ D (4.2)

o `u ˜X est l’espace de reproduction. Plus clairement, ce principe veut transmettre le minimum d’information contenue dans X tout en conservant le maximum d’information contenue dans Y . Cette minimisation admet une repr´esentation lagrangienne comme l’Eq. 3.89 et s’exprime par :

min

p(˜x|x), ˜X

I( ˜X, X) + βnI(X, Y )_{− I( ˜}X, Y )o (4.3) Dans cette minimisation, l’information mutuelle I(X, Y ) est constante car elle ne dépend pas des arguments de minimisation. Cela implique que cette quantité d’information est connue a priori. Par conséquent, nous pouvons supprimer ce terme de minimisation et réécrire le principe IB dans sa formulation courante :

min

p(˜x|x), ˜X

I( ˜X, X)_{− βI( ˜}X, Y ) (4.4)

o ù p(X) et p(Y | X) sont connues a priori. Nous donnons une représentation abstraite de la répartition de l’information en fonction du paramètre β dans la Figure 4.1. Quand β tend vers 0 la quantité d’information portée par ˜X est nulle. Au contraire, quand β est grand, l’information portée par ˜X tend à recouvrir celle de X. On se rapproche d’un compression sans perte.

Nous avons vu que cette formulation est équivalente à la définition d’une courbe débit- distorsion. Pour pouvoir appliquer les méthodes de quantification présentées au§3.4.2, nous montrons que la distorsion est une divergence de Bregman.

4.1.2 Equations consistantes

Banerjee et al. (2004b) démontrent que la mesure de pertes de l’Eq. 4.1 peut s’expri- mer sous la forme d’une divergence de Bregman. Alors le principe d’Information Bottle- neck peut être traité comme une minimisation d’une fonction débit-distorsion générale. Pour commencer, nous faisons l’hypothèse que Y et ˜X sont indépendants connaissant X. Cette supposition s’explique par le fait que connaissant X, l’information de Y ne dépend plus d’une sous partie de l’information de X contenue dans ˜X, puisque celle-ci est déjà connue. Cette supposition se traduit par la relation markovienne Y ↔ X ↔ ˜X et se traduit statistiquement par :

4.1. LE PRINCIPE D’Information Bottleneck 73 X X˜ Y X ˜ X Y β

FIG. 4.1 –Nous donnons une repr´esentation abstraite de l’information sous forme d’ensembles. L’information mutuelle I(X, Y ) correspond `a l’intersection des deux ensembles X et Y . Nous

pr´esentons l’´evolution de l’information ˜X quand β augmente. Quand β → ∞, l’ensemble ˜X a

tendance `a recouvrir X, ce qui donne une distorsion s’approchant de 0.

A partir de cette hypothèse réaliste, nous donnons une formulation équivalente de la fonction de pertes :

D(X, ˜X) = I(X, Y )_{− I( ˜}X, Y ) (4.6)

= X

y,x

p(y, x) logp(y| x) p(y) −

y,˜x

p(y, ˜x) logp(y| ˜x) p(y) = X y,˜x,x p(x, ˜x, y) logp(y| x) p(y| ˜x) = X y,˜x,x p(˜x, y_{| x)p(x) log}p(y| x) p(y| ˜x) = X y,˜x,x

p(˜x| x)p(y | x)p(x) log p(y| x) p(y| ˜x) = X ˜ x,x p(˜x, x)X y

p(y| x) log p(y| x) p(y| ˜x) = E_{X, ˜}_XhdKL(p(Y | X) | p(Y | ˜X))

(4.7) Nous avons vu que la divergence de Kullback-Leibler est une divergence de Bregman pour les espaces d-Simplex dans le Tableau 3.1. Pour satisfaire ces conditions, Banerjee et al. (2004a) introduisent une variable Z (respectivement ˜Z) prenant ses valeurs dans l’espace des probabilit´es conditionnellesZ = {p(Y | x)}x∈X (respectivement ˜Z = {p(Y | ˜x)}_{x∈ ˜}_˜ _X)

qui est un espace d-Simplex. Comme Z et ˜Z sont des statistiques suffisantes, il devient évident de considérer que p(X, ˜X) = p(Z, ˜Z), p(X) = p(Z) et p( ˜X) = p( ˜Z). Alors, le principe IB (Eq. 4.3) se réécrit comme une problème débit-distorsion classique en prenant comme mesure de pertes la divergence de Kullback-Leibler :

min

p(˜z|z), ˜Z

I( ˜Z, Z) + βE_{Z, ˜}_ZhdKL(Z| ˜Z)

74 4. EXTRACTION D’INFORMATION DESSTISPAR COMPRESSION AVEC PERTES

Par conséquent, nous pouvons calculer les trois équations consistantes décrites au§3.4.2.1. Nous réécrivons les équations Eq. 3.92, Eq. 3.94 et Eq. 3.97 :

p(˜z| z) = p(˜z) N (z, β)e −βdKL(z,˜z) _(4.9) N (z, β) = X ˜ z p(˜z)e−βdKL(z,˜z) p(˜z) = X z p(˜z| z)p(z) (4.10) ˜ z = X z p(z _{| ˜z)z} (4.11)

A partir de ces équations, il est désormais possible d’utiliser l’algorithme Espérance- Maximisation, pour calculer la courbe débit-distorsion et résoudre le problème du principe IB en donnant un minimum local. Connaissant les liens entre X et Z, les équations consistantes précédentes se réécrivent sous la forme donnée par Tishby et al. (1999) :

p(˜x_{| x) =} p(˜x) N (x, β)e

−β P_yp(y|x) logp(y|x)_p(y|˜_x)

(4.12) N (x, β) = X

˜ x

p(˜x)e−β Pyp(y|x) logp(y|x)p(y|˜x) p(˜x) = X x p(˜x_{| x)p(x)} (4.13) p(y_{| ˜x) =} X x p(x_{| ˜x)p(y | x)} (4.14)

Nous pouvons noter que l’espace de reproduction ˜X n’est pas calculé et que celui-ci est implicite. En effet, l’espace de reproduction est appréhendé par les dépendances qui le lient à l’information véhiculée par Y . En termes d’indexation, la minimisation de ce principe donne les probabilités d’assignement, c’est-à-dire un clustering flou, o ù les cen- tro¨ıdes des clusters sont représentés par les distributions conditionnelles p(y| ˜x).

En prenant les distributions qui vérifient les équations consistantes p∗(˜x _{| x), p}∗(˜x) et p∗(y | ˜x), la fonction débit-distorsion paramétrique s’écrit comme suit. Tout d’abord, nous donnons la fonction de débit paramétrée par β :

R(β) = I(X, ˜X) = X x,˜x p∗(˜x_{| x)p(x) log}p ∗_(˜_x_{| x)} p∗_(˜_x) (4.15)

La fonction de distorsion s’´ecrit quant `a elle par :

D(β) = E_{X, ˜}_XhdKL(p(Y | X) | p(Y | ˜X)) i = X x,˜x p∗(˜x| x)p(x)X y

p(y| x) log p(y| x)

p∗_(y_{| ˜x)} (4.16)

Ces deux quantités représentent une quantité d’information. Aussi quand l’une diminue l’autre augmente et vice versa. Ces deux mesures nous permettent de quantifier l’information qui est conservée ou extraite en rapport à l’information d’importance perdue.

4.1. LE PRINCIPE D’Information Bottleneck 75

Entr´ees : l’ensemble des fonctions {p(Y | xi)}ni=1, la divergence de Bregman Dφ, le

nombre de groupes k, le param`etre β et la distribution{p(xi)}ni=1

Sorties: l’ensemble des fonctions{p(Y | ˜xi)}ki=1, les probabilit´es{{p(ˆxi | xj)}ki=1}nj=1

et{p(˜xi)}ki=1

Initialisation: choisir les sorties quelconques telles qu’elles respectent l’intégration à 1. whileconvergence do étape de Maximisation for j = 1to n do for i = 1to k do p(˜xi | xj) = p(˜xi)e −βP

Algorithm 2 –Algorithme Espérance-Maximisation pour le calcul de la courbe débit-distorsion liée au principe IB. Cet algorithme permet de calculer un point de la courbe en fonction du pa- ramètre de compromis β.

Dans le document Joint Information Extraction and Compression of Satellite Image Time Series (Page 80-84)