• Aucun résultat trouvé

13.2.1

Entropie différentielle et information mutuelle

La notion d’entropie peut se généraliser au cas où la variable aléatoire considérée s est à va- leurs dans RJ et non pas dans un ensemble discret CN. La notion équivalente dans ce cas est celle d’entropie différentielle. Supposons une fois de plus qu’on connaisse la densité de probabi-

13.2. THÉORIE DÉBIT-DISTORSION 173

lité p (s | θ) de s. L’entropie différentielle de s, notée h (s), est donnée par :

h (s) = − ˆ

s∈RJ

p (s | θ) log p (s | θ) ds

= −Es[log p (s | θ)] . (13.2.1)

Compte tenu du fait que je me concentrerai bientôt exclusivement sur le cas des densités gaussiennes pour lequel 13.2.1 est défini, je supposerai que cette intégrale existe. J’utiliserai souvent le terme d’entropie pour désigner l’entropie différentielle lorsque le contexte est clair. Comme on le voit, la définition 13.2.1 de l’entropie différentielle de variables à valeurs continues est similaire à celle 13.1.1 de l’entropie de variables discrètes. En particulier, on peut montrer qu’une translation

laisse l’entropie différentielle inchangée.

Cependant, leurs propriétés diffèrent significativement. En particulier, l’entropie différentielle d’une variable aléatoire continue peut être négative. De plus, le théorème du codage de source 13.1.3 ne se généralise pas tel quel dans le cas continu.

On peut montrer que l’entropie d’une variable aléatoire distribuée selon une loi gaussienne multi- variée de matrice de covariance K est donnée (en bits) par :

h (s) = 1

2log2 

(2πe)J|K|, (13.2.2)

où |K| est le déterminant de K.

L’information mutuelle I (s, x) entre deux variables aléatoires continues à valeurs dans RJ se définit de la même manière qu’en 13.1.6 :

I (s, x) = h (s) − h (s | x) . (13.2.3)

Une propriété intéressante de cette quantité est qu’elle est toujours positive, même dans le cas de variables aléatoires continues :

I (s, x) ≥ 0.

L’information mutuelle I (s, x) entre deux variables s et x dans le cas continu peut être in- terprétée de la même manière que dans le cas discret comme quantifiant la réduction moyenne d’incertitude qu’apporte l’observation de l’une sur l’autre. Pour le montrer, je vais considérer l’exemple suivant, important pour la suite de cet exposé.

Exemple. Soient s et x deux variables aléatoires conjointement gaussiennes et corrélées, telle que x est la somme de s avec bruit additif  gaussien :

x = s + .

La distribution jointe de s et x est donnée par :  s x  ∼ N  0 0  ,  σ2 s σ2s σ2 s σ2s+ σ2   ,

On peut utiliser les résultats 2.2.8 exploités déjà de très nombreuses fois dans cet exposé pour montrer que la distribution a posteriori de s étant donné x est :

s | x ∼ N  σs2 σ2 s+ σ2 x, σ 2 sσ2 σ2 s+ σ2  .

Calculons à présent l’information mutuelle I (s, x) entre s et x en utilisant l’expression 13.2.2 de l’entropie différentielle d’une variable aléatoire gaussienne :

I (s, x) = h (s) − h (s | x) =  1 2log 2πeσ 2 s  − 1 2log 2πe σ2 sσ2 σ2 s+ σ2  (13.2.4) = −1 2log  σ2  σ2 s+ σ2  , (13.2.5)

où j’ai utilisé en 13.2.4 le fait que l’entropie différentielle est invariante par translation. Comme on le voit à l’examen de 13.2.5, si la variance σ2

 du bruit additif devient très grande devant celle de s, alors l’information mutuelle entre s et x tend vers 0. Dans le cas contraire, elle grandit jusqu’à

devenir infinie si x = s.

13.2.2

fonction débit-distorsion

Soit s une variable aléatoire à valeurs dans RJdont on connaît la densité de probabilité p (s | Θ) et soit

sL = [s1, . . . , sL]

un ensemble de L réalisations indépendantes de cette variable aléatoire, c’est-à-dire tel que :

p sL| Θ = L Y

l=1

p (sl| Θ) .

Supposons qu’un observateur connaisse cet ensemble sL de L réalisations indépendantes de s et qu’il souhaite transmettre ces valeurs à un tiers. Dans la mesure où chacune de ces variables est

réelle, il n’est pas possible dans le cas général de le faire sans erreur en un temps fini5. C’est ce

qui explique le fait que le cas des variables aléatoires continues ne se règle pas de la même manière que celui des variables discrètes par un théorème de codage de source sans perte analogue à 13.1.3. Cependant, des solutions apparaissent si on est prêt à accepter une distorsion dans la recons- truction du message transmis. Par exemple, on peut considérer que pour l’application envisagée, il sera suffisant de connaître les 10 premières décimales de chaque sl plutôt que sa valeur réelle. Dans ce cas, la situation devient radicalement différente, puisqu’on est prêt à se contenter d’une reconstruction

sL = [s

1, . . . , sL]

qui ne prend qu’un nombre fini de valeurs possibles (ici, 1011Lpour L variables comprises entre 0

et 1 dont on souhaite les 10 premières décimales).

Ces considérations justifient d’introduire une opération de quantification, par laquelle on asso- cie au message initial sL

à valeurs dans RJL

un message quantifiésL, qui prend ses valeurs dans un ensemble discret CL

J de points de reconstructions, avec CJ ⊂ RJ un ensemble discret de réels. Présenté de cette manière, l’objectif de la théorie débit-distorsion devient de déterminer quel débit on peut espérer atteindre pour le transfert de sL si on se donne une distorsion moyenne maximale à respecter entre le message original et sa reconstruction. Pour formaliser ces deux objectifs contradictoires, je vais préciser successivement ce qu’on entend par distorsion et par débit :

– On introduit une fonction de distorsion dLsL, sL qui quantifie l’écart entre le message original sLà transmettre et sa reconstruction sL. Il s’agit d’une grandeur positive qui s’annule si ses deux opérandes sont égales. On peut définir des fonctions de distorsion de nombreux types, mais il est classique de se limiter à celles qui s’expriment sous la forme :

dLsL, sL= L X

l=1

d (sl, sl) ,

13.2. THÉORIE DÉBIT-DISTORSION 175

c’est-à-dire qui peuvent se décomposer comme la somme des L distorsions individuelles des échantillons du message. Le premier objectif de l’opération de quantification sera de garantir que lim

L→∞

1

Ld

LsL, sLsoit inférieur à une certaine distorsion D donnée :

lim L→∞

1

Ld

LsL, sL≤ D (13.2.6)

– Par ailleurs, on appellera débit le nombre moyen de bits par échantillon nécessaire à la trans- mission de sL. Si Rtot est le débit total, on définira le débit moyen par symbole par R = Rtot

L . Le deuxième objectif de l’opération de quantification sera de permettre un débit R minimal. Étant donnée la distribution p (s | Θ) de la source, on définira la fonction débit-distorsion R (D) comme indiquant pour chaque distorsion D le débit moyen par symbole minimal requis asymptoti- quement pour transmettre une séquence de réalisations indépendantes avec une distorsion moyenne inférieure ou égale à D.

Pour définir formellement cette fonction débit-distorsion [120, 89], il est nécessaire de définir l’étape de quantification par laquelle on assigne un échantillon quantifié s à une réalisation s de la source. En toute généralité, elle peut se définir comme une probabilité conditionnelle p (s | s). Au

cas où une reconstruction s est associée de manière déterministe à une réalisation s selon :

s = Q {s} , (13.2.7) cette probabilité devient triviale : p (s | s) = δ (s, Q {s}).

A présent, si on désigne par B (D) l’ensemble des quantifications qui permettent une distorsion

moyenne inférieure à D :

B (D) = {p (s | s) | E [d (s | s)] ≤ D} , (13.2.8) alors le théorème du débit-distorsion indique que :

R (D) = inf

p(s|s)∈B(D)I (s, s) . (13.2.9)

Pour une quantification p (s | s) donnée, si elle appartient à B (D), elle produit par construc-

tion 13.2.8 une distorsion moyenne inférieure à D. Par ailleurs, les reconstructions s qu’elle pro- duit ne peuvent pas être transmis avec un débit moyen inférieur à I (s, s). En effet, le théorème du codage de source 13.1.3 indique que ce débit est minoré par l’entropie H (¯s). Or, cette entropie

vérifie :

H (s)H (¯s) − H (s | s)

= I (s, s) (13.2.10)

et I (s, s) constitue donc bien une borne inférieure au débit possible. Dans le cas où la quantification est déterministe 13.2.7, on a H (s | s) = 0 et cette borne est stricte. La réciproque est en revanche moins immédiate, qui établit que R (D) constitue une borne inférieure au débit moyen nécessaire à l’encodage de séquences asymptotiquement longues. J’admettrai ce résultat fort de la théorie du codage de source. On démontre par ailleurs que la fonction de débit-distorsion est décroissante en fonction de D.

Un autre résultat très important que j’admettrai aussi est que si elle est une borne inférieure aux débits qu’on peut espérer pour une distorsion donnée, on démontre qu’il existe des procédures déterministes de quantification du type de 13.2.7 capables de l’atteindre. Malheureusement, les preuves impliquées ne sont pas constructives et la mise au point de procédures de quantification permettant de se rapprocher de la borne reste un domaine de recherche important. De plus, ces résultats tiennent surtout asymptotiquement, c’est-à-dire lorsque la longueur L des séquences à coder devient suffisante.

Une autre grandeur théorique importante reliée à la fonction débit-distorsion R (D) est la fonction distorsion-débit D (R) : elle indique pour un débit R donné quelle distorsion minimale on peut espérer atteindre asymptotiquement par une procédure de quantification. On montre que

13.2.3

Le cas gaussien scalaire pour une distorsion quadratique

La fonction débit-distorsion 13.2.9 définit une borne inférieure au débit qu’on peut espérer atteindre asymptotiquement pour le codage de séquences de réalisations indépendantes d’une va- riable aléatoire s continue, dont on connaît la densité de probabilité p (s | Θ). Comme le suggère sa définition 13.2.9, elle ne s’exprime en général pas sous la forme d’une expression analytique simple. Il y a cependant certains cas où une expression simple de la fonction débit-distorsion est dis- ponible. Fort opportunément pour nous, c’est ce qui se passe si s est une variable gaussienne et si le critère de distorsion d est l’erreur quadratique. Puisque c’est précisément le cas pratique qui va nous intéresser, je donne ici les résultats correspondants.

Dans le cas d’une variable aléatoire gaussienne scalaire (J = 1) de variance σ2, on montre [120]

que la fonction débit-distorsion prend une forme simple, ainsi que la fonction distorsion-débit :

R (D) = (1 2log  σ2 D  si D ≤ σ2 0 si D ≥ σ2 (13.2.11) D (R) = σ2exp (−2R) . (13.2.12)

On constate que le débit moyen nécessaire pour transmettre la valeur d’une variable gaussienne avec une distorsion supérieure à sa variance est nul. Ceci se comprend aisément dans la mesure où la variance se définit comme la distorsion de la variable autour de sa moyenne. Si D ≥ σ2, il suffit

de toujours choisir la moyenne comme reconstruction et on obtient une quantification qui respecte la contrainte. Aucun débit n’est alors nécessaire, si on suppose moyenne et variance connues au décodeur. Les fonctions R (D) et D (R) d’une variable gaussienne scalaire sont représentées en échelle semi-logarithmique sur la figure 13.2.

10−4 10−2 100 0 1 2 3 4 5 distorsion moyenne D débit R(D), bits 0 2 4 6 8 10 10−8 10−6 10−4 10−2 100 distorsion moyenne D débit R(D), bits

Figure 13.2: fonctions débit-distorsion R (D) (à gauche) et distorsion-débit D (R) (à droite) pour une variable aléatoire gaussienne scalaire de variance σ2= 1, avec une échelle logarithmique pour D.

On a simplement D (R) = 1

R(D). Il est possible en théorie d’atteindre asymptotiquement n’importe quel couple (D, R) au-dessus de ces fonctions.

13.2.4

Le cas vectoriel gaussien pour une distorsion quadratique

Considérons à présent le cas d’une variable gaussienne vectorielle s = [s1, . . . , sJ]>. Je suppose pour commencer que tous les sj sont indépendants, de variance σj2. On montre [120] que dans ce cas, la fonction de débit-distorsion R (D) s’obtient par :

R = J X j=1 Rj = J X j=1 max 0,1 2log σ2 j D ! (13.2.13)