• Aucun résultat trouvé

3.6 R´esum´e

4.1.4 Recuit simul´e

Nous avons pr´ecis´e dans les paragraphes pr´ec´edents que l’algorithme it´eratif d’Esp´er- ance-Maximisation permet de converger vers un minimum local du lagrangien. Pour

76 4. EXTRACTION D’INFORMATION DESSTISPAR COMPRESSION AVEC PERTES

r´esoudre ce probl`eme, les m´ethodes par recuit simul´e (Rose, 1998) permettent de conver- ger vers des minimums globaux en passant d’´etats stables en ´etats stables. Ces algo- rithmes d´ependent d’un param`etre de temp´erature T qui passe contin ˆument de l’infini vers la temp´erature absolue 0, ce qui fait varier les ´etats du syst`emes en suivant les mi- nima globaux d’une fonction d’´energie. Cette id´ee a ´et´e motiv´ee pour la premi`ere fois par l’observation de processus de recuit en physique mol´eculaire. En effet, certains syst`emes peuvent ˆetre transform´es dans leurs ´etats de plus basse ´energie en descendant graduel- lement la temp´erature. Rose (1998) montre que le probl`eme de la minimisation d´ebit- distorsion rentre dans le cadre du recuit simul´e o `u la fonction d’´energie est le lagrangien (Eq. 4.3) et le param`etre de temp´erature est inversement proportionnel au multiplicateur de Lagrange, tel que T = 1/β. Ainsi, le param`etre β varie de 0 vers l’infini en faisant varier les ´etats du syt`eme. La courbe d´ebit-distorsion est calcul´ee compl`etement en obte- nant contin ˆument des minima globaux.

Lors du recuit simul´e, la temp´erature doit ˆetre abaiss´ee avec pr´ecaution pour ´eviter des sauts d’´etats stables et se retrouver dans des minima locaux. Par exemple, pour la minimi- sation d´ebit-distorsion, il y a des transitions de phases qui ne doivent pas ˆetre rat´ees. Ces phases sont directement li´ees au nombre effectif d’´el´ements de l’espace de reproduction calcul´e. Et quand la temp´erature diminue, la taille effective de l’espace de reproduction augmente. Par cons´equent, pour simuler ces transitions d’un ´etat stable associ´e `a β1vers

un ´etat stable β2de plus basse ´energie, la diff´erence entre les deux param`etres ne doit pas

exc´eder une certaine limite. Cette limite garantit que la transition n’omet pas de phase, ainsi ´evitant un minimum local.

Une fonction d’´energie libre est associ´ee `a chaque ´etat du syst`eme. Dans notre cas, la fonction d’´energie libreF est d´efinie comme le lagrangien li´e `a β et calcul´e pour les pro- babilit´es qui v´erifient les ´equations consistantes Eq .4.12 et Eq .4.13. Elle correspond `a l’´energie r´esiduelle d’un ´etat. Aussi pour un β fix´e, cette ´energie doit ˆetre minimale.

F = R(β) + βD(β) (4.17) = X x,˜x p(˜x, x) logp(˜x)e −βdKL(p(Y |x)|p(Y |˜x)) N (x, β)p(˜x) + βD(β) = −X x,˜x

p(˜x, x) [log N (x, β) + βdKL(p(Y | x) | p(Y | ˜x))] + βD(β)

= X

x

p(x) log N (x, β) (4.18)

En cons´equence, nous souhaitons traquer les ´energies libres minimales en mˆeme temps que la temp´erature est abaiss´ee. Pour commencer, quand le syst`eme est dans son ´etat ini- tial (β = 0), les probabilit´es d’assignement sont uniformes, et l’espace de reproduction contient un seul ´el´ement identifiable qui correspond `a la moyenne de l’espace d’entr´ee. Les k ´el´ements de l’espace de reproduction fusionnent en un seul ´el´ement. Ainsi, nous nous retrouvons avec une information mutuelle I(X, ˜X) nulle et une distorsion maxi- male. Quand β croˆıt, certains ´el´ements de l’espace de reproduction se s´eparent et se diff´erencient. Cette s´eparation correspond `a une transition de phase. Pour conserver l’´energie libre du syst`eme, l’espace de reproduction est modifi´e tel que :

∂F

∂ ˜X = 0 (4.19)

La transition ne fait pas varier l’´energie libre du syst`eme. Cette condition est ´equivalente `a l’´equation consistante Eq. 3.97. D’autre part, le Hessien de cette fonction d’´energie doit

4.1. LE PRINCIPE D’Information Bottleneck 77

ˆetre d´efini positif pour toutes perturbations du syst`eme ou de l’espace de reproduction. Cette condition implique que la fonction a atteint un minimum et non une forme de selle. Nous obtenons la condition suivante :

H(F) = ∂

2F

∂ ˜X2 ≥ 0 (4.20)

Les transitions de phases apparaissent quand l’´egalit´e est atteinte dans Eq. 4.20. Par cons´equent, quand le syst`eme est dans un ´etat stable donn´e, l’in´egalit´e pr´ec´edente nous donne une borne sur l’augmentation du param`etre de compromis β. Ainsi en limitant l’augmentation de β, nous contr ˆolons la transition de phase avant de converger vers le nouvel ´etat stable suivant. Dans le cas du principe IB, cette limite n’a pas ´et´e calcul´ee et nous donnons ici les ´equations qui permettent de calculer le multiplicateur de Lagrange critique pour chaque ´etat stable.

Premi`erement, nous donnons l’expression du Hessien de la fonction d’´energie libre. Pour rendre le calcul plus pratique, nous effectuerons les calculs avec les notations utilisant Z et ˜Z tel que la fonction d’´energie libre s’´ecrit :

F = −X

z

p(z) log N (z, β) (4.21)

Nous donnons pour commencer le gradient de l’´energie libre par rapport `a un ˜z particu- lier :

∇z˜F = β

X

z

p(z)p(˜z| z)∇z˜dKL(z, ˜z) (4.22)

o `u le gradient de la divergence de Kullback-Leibler est donn´e par l’´equation suivante en indexant les vecteurs z = [z1, ...zn]T et ˜z = [˜z1, ...˜zn]T :

∇˜zdKL(z, ˜z) = · −z1 ˜ z1 , ...−zn ˜ zn ¸T (4.23) Pour calculer les ´el´ements du Hessien, nous consid´erons deux r´ealisations diff´erentes de

˜

Z que nous notons ˜zi et ˜zj. Alors nous pouvons calculer la d´eriv´ee partielle suivante

n´ecessaire au calcul du Hessien : ∂2F ∂ ˜zj∂ ˜zi = β 2X z p(z)p(˜zi| z)p(˜zj | z)(∇z˜jdKL(z, ˜zj)∇z˜idKL(z, ˜zi) T ) (4.24)

Cette d´eriv´ee partielle est en fait une matrice carr´ee de taille n×n en rapport avec la taille des vecteurs ˜z. Dans le cas o `u ˜zj = ˜zi= ˜z, c’est `a dire que la d´eriv´ee seconde est calcul´ee

par rapport `a la mˆeme variable, celle-ci s’exprime par : ∂2F ∂ ˜z2 = β 2X z p(z)p(˜z| z)2(z˜dKL(z, ˜z)∇z˜dKL(z, ˜z)T) + βX z p(z)p(˜z| z){∂ 2d KL(z, ˜z) ∂ ˜z2 − β(∇z˜dKL(z, ˜z)∇z˜idKL(z, ˜z i)T)} (4.25)

Cette d´eriv´ee seconde est aussi une matrice carr´ee de taille n× n. Alors, le Hessien qui est une matrice form´ee des d´eriv´ees partielles, est constitu´e de matrices carr´ees. Si k est le nombre d’´el´ements de l’ensemble ˜Z, alors le Hessien s’´ecrit :

H(F) = ½ ∂2F ∂ ˜zj∂ ˜zi ¾ 1≤i,j≤k (4.26)

78 4. EXTRACTION D’INFORMATION DESSTISPAR COMPRESSION AVEC PERTES

Cette matrice est sym´etrique par construction et elle est de taille kn× kn car chacun de ses ´el´ements est une matrice carr´ee. Nous d´eveloppons, dans le cas de la divergence de Kullback-Leibler, les matrices repr´esentant ses d´eriv´ees secondes partielles :

∇z˜jdKL(z, ˜zj)∇˜zidKL(z, ˜zi) T = {zlzm ˜ zljz˜i m }1≤l,m≤n (4.27) ∂2dKL(z, ˜z) ∂ ˜z2 = diag{ zi ˜ zi2}1≤i≤n (4.28)

Il suffit de remplacer les matrices pr´ec´edentes dans les ´equations Eq. 4.24 et Eq. 4.25 pour calculer les d´eriv´ees partielles. A partir de cette d´efinition du Hessien, nous vou- lons maintenant d´eterminer un β critique o `u une transition se produit. Un β critique implique que det(H) = 0. Pour d´eterminer les param`etres qui satisfont cette condition, nous introduisons deux matrices A, B pour d´ecomposerH. Comme dans Eq. 4.26, nous notons A ={ai,j}1≤i,j≤ket B ={bi,j}1≤i,j≤k. Les ´el´ements de A sont d´efinis par :

ai,j = (P zp(z)p(˜zi| z)p(˜zj | z)(∇z˜jdKL(z, ˜zj)∇z˜idKL(z, ˜zi)T) , si i6= j P zp(z)p(˜zi| z)(p(˜zi| z) − 1)(∇z˜idKL(z, ˜zi)∇z˜idKL(z, ˜zi)T) , si i = j (4.29) Les ´el´ements de B sont quant `a eux d´efinis par :

bi,j = ( 0 , si i6= j P zp(z)p(˜z| z) ∂2d KL(z,˜z) ∂ ˜z2 , si i = j (4.30) Cette derni`ere matrice B est diagonale puisqu’elle est compos´ee de sous matrices diago- nales d´efinies dans Eq. 4.28. Ces deux matrices permettent de red´efinir le Hessien sous la forme suivante :

H(F) = β2A + βB (4.31)

Comme B est diagonale d’´el´ements non nuls, elle est inversible. Nous pouvons alors donner l’´egalit´e suivante sur le d´eterminant du Hessien :

det(H(F)) = β2nkdet(B) det(B−1A +Id

β ) (4.32)

Ainsi pour trouver le param`etre critique βcen supposant que celui-ci est non nul, il suffit

de r´esoudre l’´equation :

det(B−1A +Id

β ) = 0 (4.33)

Nous observons que−1/βc fait partie des valeurs propres de la matrice B−1A. Pour ne

manquer aucune transition de phases, nous prenons βc tel que la diff´erence entre β et βc

soit la plus petite. Cela revient `a prendre βc =−1/λmaxo `u λmaxest la plus grande valeur

propre en valeur absolue.

En conclusion, `a partir d’un ´etat stable li´e `a un param`etre β, nous avons une formula- tion analytique pour calculer le param`etre de compromis suivant βc et ainsi changer de

phase. Ensuite le syst`eme se stabilise dans ce nouvel ´etat li´e `a βc. Cette proc´edure permet

de converger vers des minima globaux pour chaque ´etat. Nous d´ecrivons par la suite l’algorithme qui d´ecoule du recuit simul´e.

4.2. CARACTERISATION DE L´ ’INFORMATION D’IMPORTANCE 79