• Aucun résultat trouvé

Quantification vectorielle et clustering

3.4 Compression avec pertes et extraction d’information

3.4.2 Quantification vectorielle et clustering

La quantification vectorielle est le moyen le plus simple d’impl´ementer la th´eorie d´ebit-distorsion. En effet, Blahut (1972) montre qu’`a partir de l’´equation d´ebit-distorsion, il est possible de calculer la fonction de codage-d´ecodage statistique. Nous d´ecrivons dans un premier temps les ´equations consistantes li´ees `a la fonction d´ebit-distorsion. Puis, dans un second temps nous pr´esentons l’algorithme de l’Esp´erance-Maximisation qui permet de calculer la fonction it´erativement.

3.4.2.1 Equations consistantes

Blahut (1972) montre que l’Eq. 3.86 peut se r´e´ecrire sous la forme lagrangienne sui- vante : min p( ˆX|X), ˆX I(X, ˆX) + βEX, ˆX[d(X, ˆX)] +X x γx X ˆ x p(ˆx| x) (3.89) o `u la minimisation se fait sur l’espace de reproduction et la probabilit´e conditionnelle. Le dernier terme du lagrangien correspond `a la contrainte implicite sur l’int´egration `a un des probabilit´es conditionnelles. Cette formulation nous permet d’obtenir une pa- ram´etrisation de la courbe d´ebit-distorsion qui d´epend du param`etre de Lagrange β. Nous noterons par la suiteL le terme `a minimiser. Premi`erement, Blahut (1972) montre que la d´erivation du lagrangien par rapport `a la probabilit´e conditionnelle donne :

L

∂p(ˆx| x) = 0⇒ log

p(ˆx| x)

p(ˆx) =−βd(x, ˆx) − γx (3.90) Cette ´equation se r´e´ecrit de la mani`ere suivante :

p(ˆx| x) = p(ˆx)e−βd(x,ˆx)−γx (3.91) Comme γx est la constante de normalisation, cette probabilit´e conditionnelle peut se

r´e´ecrire : p(ˆx| x) = p(ˆx) Z(x, β)e −βd(x,ˆx) (3.92) Z(x, β) = X ˆ x p(ˆx)e−βd(x,ˆx) (3.93)

58 3. FONDEMENTS THEORIQUES´

Domaine φ(x) Dφ(x, ˆx) Divergence

R x2 (x

− y)2 pertes quadratique

{0, 1} x log x + (1− x) log (1 − x) x logx

y + (1− x) log 1−x

1−y pertes logistique

R− {0} | x | max{0, −2signe(y)x} pertes de Hinge

Rd kxk2

kx − yk2

distance Euclidienne

Rd xTAx (x− y)TA(x− y) distance de Mahalanobis

d-Simplex Pdi=1xilog xi Pdi=1xilogxxij KL-divergence

R+

− log x x

y − log

x

y − 1 distance de Itakura-Saito

TAB. 3.1 –Quelques divergences de Bregman associ´ees `a leur fonction g´en´eratrice. La distance Euclidienne, tr`es employ´ee, fait partie de ces divergences tout comme la divergence de Kullback- Leibler.

De plus, par la loi de Bayes, on peut ´ecrire la distribution de ˆx en fonction de la probabilit´e conditionnelle par :

p(ˆx) =X

x

p(ˆx| x)p(x) (3.94)

Ces deux ´equations Eq. 3.92 et Eq. 3.94 constituent les deux premi`eres ´equations consis- tantes li´ees `a la courbe d´ebit-distorsion. Nous notons que ces deux ´equations sont in- triqu´ees, ce qui rend leur calcul difficile.

Maintenant, d´erivons le lagrangien par rapport `a l’espace de reproduction ˆX . Le seul terme qui d´epend d’un petite variation du mot de code x est la fonction de distance.

L ∂ ˆx = 0⇒ X x p(x, ˆx)∂d(x, ˆx) ∂ ˆx = 0 (3.95)

La r´esolution de cette derni`ere ´equation d´epend de la fonction de pertes choisie. N´eanmo- ins, Banerjee et al. (2004b) introduisent la classe des divergences de Bregman, pour les- quelles l’´equation peut ˆetre r´esolue. Nous pr´esentons d’abord la d´efinition d’une di- vergence de Bregman. Soit une fonction φ : X 7→ R qui est strictement convexe et diff´erentiable. De plus, on suppose que X est un espace vectoriel muni d’un produit scalaire < ., . >. Alors, la divergence de Bregman associ´ee `a la fonction φ est positive et d´efinie par :

Dφ(x, ˆx) = φ(x)− φ(ˆx)− < x − ˆx, ∇φ(ˆx) > (3.96)

Alors, Banerjee et al. (2004b) prouvent que la solution de l’Eq. 3.95 ne d´epend pas du choix de la divergence et elle correspond `a la moyenne conditionn´ee de l’ensemble des observations :

ˆ

x = EX|ˆx[X] =X

x

p(x| ˆx)x (3.97)

Cette derni`ere formule est la troisi`eme ´equation consistante qui est intriqu´ee avec les deux autres ´equations. L’introduction de la mesure de Bregman, permet d’obtenir les solutions du probl`eme pour plusieurs mesures de pertes classiques qui sont des diver- gences de Bregman. Le Tableau 3.1 r´esume quelques divergences connues. Ces trois ´equa- tions consistantes Eq. 3.92, Eq. 3.94 et Eq. 3.97 garantissent que la borne d´ebit-distorsion est atteinte. Supposons, que l’on veuille s’approcher de cette borne avec une fonction d’assignement p(ˆx | x) d´eterministe. Cela revient `a choisir pour chaque r´ealisation x, le mot de code ou la reconstruction g◦ f(x) le plus probable :

g◦ f(x) = max

ˆ

x p(ˆx)e

3.4. COMPRESSION AVEC PERTES ET EXTRACTION D’INFORMATION 59

Ainsi, la probabilit´e conditionnelle p( ˆX | X) suit la d´efinition donn´ee dans l’Eq. 3.87. Cet assignement d´eterministe permet de construire des groupes o `u chacun d’entre eux est attach´e `a un ˆx. D´enotons ces groupes par C(ˆx) ={x ∈ X , g ◦ f(x) = ˆx}. Alors, la seconde ´equation consistante Eq. 3.94, se r´e´ecrit :

p(ˆx) = X

x∈C(ˆx)

p(x) (3.99)

Enfin, la troisi`eme ´equation Eq. 3.97, correspond `a calculer la moyenne de chaque groupe pour calculer leur centre de gravit´e.

ˆ x = 1 p(ˆx) X x∈C(ˆx) p(x)x (3.100)

Ces trois ´equations consistantes permettent de d´eterminer la fonction de codage-d´ecodage qui se rapproche au plus de la courbe d´ebit-distorsion. Nous notons, que dans certains cas, l’espace des observations n’est pas un espace vectoriel et la mesure de pertes n’est plus une divergence de Bregman. Dans, ce cas la moyenne est approxim´ee par une m´ediane (Kaufman & Rousseeuw, 1990), en esp´erant que cette approximation minimise la fonc- tion de pertes d. Alors, le mot de code ˆx est choisi dans l’ensemble C(ˆx) tel que :

ˆ x = arg min y∈C(ˆx) X x∈C(ˆx) d(x, y)p(x) (3.101)

Cette derni`ere proc´edure, cherche `a calculer l’objet m´edian qui est le plus proche en moyenne de tous les autres. Comme nous l’avons vu, ces ´equations consistantes sont intriqu´ees et ne peuvent ˆetre inf´er´ees en mˆeme temps. Nous pr´esentons dans le chapitre suivant, une m´ethode qui permet de r´esoudre ces ´equations de mani`ere it´erative.

3.4.2.2 Algorithme d’Esp´erance-Maximisation

Dempster et al. (1977) introduisent l’algorithme d’Esp´erance-Maximisation pour le calcul d’un m´elange de lois statistiques. Notre lagrangienL d´epend uniquement de p( ˆX| X) et deX . Le but final de la minimisation du lagrangien est de trouver la probabilit´e optimale qui donnera un point de la courbe d´ebit-distorsion en fonction du param`etre de Lagrange β.

L’algorithme Esp´erance-Maximisation consiste `a fixer un des deux param`etres tour `a tour dans le but de calculer l’autre en s’aidant des ´equations consistantes. Banerjee et al. (2004a) utilise cette m´ethode pour calculer les inconnus du probl`eme de minimisation. La premi`ere ´etape de l’algorithme est l’Esp´erance et consiste `a fixer la probabilit´e d’as- signement p( ˆX | X) et p( ˆX). Ainsi, l’ensemble des mots de code ˆX est obtenu par l’Eq. 3.97. La seconde ´etape est la Maximisation et elle consiste `a fixer ˆX , pour obtenir succes- sivement p( ˆX | X) et p( ˆX) via les ´equations Eq. 3.92 et Eq. 3.94. Dans notre cas, ce n’est pas tout `a fait une maximisation, mais dans le cas d’un assignement d´eterministe cette ´etape le devient. Alors, en it´erant ces deux ´etapes successivement, Banerjee et al. (2004a) prouvent que l’algorithme converge vers un minimum local deL. L’algorithme est d´ecrit plus pr´ecis´ement dans Algorithm 1. Dans cet algorithme, nous voyons que nous pouvons restreindre la taille de l’espace des repr´esentants ˆX `a k ´el´ements. Il faut r´egler conjoin- tement k et β pour obtenir la sortie souhait´ee. Il est souhaitable de prendre k = n, pour

60 3. FONDEMENTS THEORIQUES´

Entr´ees: l’ensembleX = {xi}ni=1, la divergence de Bregman Dφ, le nombre de groupes

k et la distribution{p(xi)}ni=1

Sorties: l’ensemble ˆX = {ˆxi}ki=1, les probabilit´es{{p(ˆxi| xj)}ki=1}nj=1et{p(ˆxi)}ki=1

Initialisation : choisir les sorties quelconques telles qu’elles respectent l’int´egration `a 1. whileconvergence do ´etape de Maximisation for j = 1to n do for i = 1to k do p(ˆxi | xj) = p(ˆxi)e −βd(xj ,ˆxi) P ˆ xp(ˆx)e−βd(xj ,ˆx) end for end for for i = 1to k do p(ˆxi) =Pxp(ˆxi | x)p(x) end for ´etape d’Esp´erance for i = 1to k do ˆ xi =Pxp(x| ˆxi)x end for end while

Algorithm 1 –Algorithme Esp´erance-Maximisation pour le calcul de la courbe d´ebit-distorsion

calculer la courbe d´ebit-distorsion, puisque dans le cas o `u k < n il n’est pas possible d’obtenir un codage sans perte. L’autre param`etre β r`egle le compromis qu’il y a entre le d´ebit et les pertes. Quand β → 0, les pertes deviennent grandes et le d´ebit petit. Au contraire, quand β → ∞, on se rapproche d’un codage sans perte. Une fois que l’algo- rithme a converg´e, les sorties p∗( ˆX∗, X), p∗( ˆX∗), ˆX∗ sont accessibles et il est possible de calculer un point de la fonction d´ebit-distorsion associ´e au param`etre de Lagrange β.

R(β) = X x,ˆx∗ p∗(ˆx∗ | x)p(x) logp ∗x| x) p∗x) (3.102) D(β) = X x,ˆx∗ p∗(ˆx∗ | x)p(x)Dφ(x, ˆx∗) (3.103)

Si nous prenons k < n et β >> 1, nous retombons sur l’algorithme des k-moyennes floues (Bezdek, 1981). D’autre part, nous avons vu au chapitre pr´ec´edent que nous pou- vons nous restreindre aux fonctions d’assignement d´eterministe. Dans ce cas, en prenant β >> 1 et k < n, l’algorithme pr´esent´e devient ´equivalent `a l’algorithme des k-moyennes (MacQueen, 1965) et `a l’algorithme de Lloyd-Max (Gray & Neuhoff, 1998) qui sont des algorithmes de groupage et de quantification.

Enfin, ce type d’algorithme converge vers un minimum local. Pour r´esoudre ce probl`eme, des m´ethodes par recuit simul´e (Rose, 1998) peuvent ˆetre employ´ees pour garantir la convergence vers un minimum global. Nous pr´esenterons cette m´ethodes ult´erieurement.

3.5. COMPLEXITE DE´ KOLMOGOROV COMME MESURE DE L’INFORMATION 61 compression avec pertes d1(.,.) d2(.,.) d3(.,.) X X1 X2 X3 ^ ^ ^ R

FIG. 3.6 – Ce sch´ema repr´esente sch´ematiquement l’information contenue dans la variable X. D’autre part, il est clair que l’information extraite dans ˆXid´epend de la distorsion di(., .) choisie. A un mˆeme d´ebit, plusieurs types d’information peuvent ˆetre extraits.