• Aucun résultat trouvé

Convergence vers le minimum de distorsion

Relation entre divergences de Bregman et familles exponentielles

1.4. Choix d’un bon quantificateur

1.5.1. Convergence vers le minimum de distorsion

Supposons qu’il existe une table de codage c?n qui réalise le minimum de la distorsion empirique Wn,c). Pour évaluer la qualité du quantificateur corres-pondant, nous nous intéressons à la « vraie » distorsion W(µ,c), prise en c=c?n. Plus précisément, il s’agit de déterminer si W(µ,c?n) s’approche de la distorsion minimale W?(µ) lorsque le nombre d’observations n devient grand.

Remarque 1.5.1. Dans tout ce qui suit, c?n pourrait être remplacé par un δn -minimiseur de la distorsion empirique, c’est-à-dire une table de codage cn telle queWn,cn)< W?n) +δn, avec limn+δn= 0.

En supposant l’existence de c?, on a

W(µ,c?n)−W?(µ) =W(µ,c?n)−W(µ,c?)

=W(µ,c?n)−Wn,c?n) +Wn,c?n)−W(µ,c?)

W(µ,c?n)−Wn,c?n) +Wn,c?)−W(µ,c?)

≤2 sup

cir(C)k|Wn,c)W(µ,c)|

Pour montrer que W(µ,c?n) converge vers W?(µ), il suffit donc de prouver que la quantité supcir(C)k|Wn,c)W(µ,c)| tend vers 0 lorsque n tend vers l’infini.

Comme dans la section précédente, nous distinguons le cas fini-dimensionnel (Théorème1.5.1) du cas général1.5.2).

1.5. Convergence

Théorème 1.5.1 (Cas fini-dimensionnel). Supposons que C est inclus dans un espace affine de dimension finie et que les propriétés suivantes sont vérifiées :

1. La divergence de Bregman dφ,·) est continue sur C ×ir(C).

2. Pour tout x∈ C et tout z˜∈C, limzir(C)˜zdφ(x, z) = +∞. 3. Pour tout x∈ C, limkzk→+dφ(x, z) = +∞.

4. Pour tout x∈ C, la fonction y7→dφ(x, y) est convexe sur ir(C).

Alors, si c?n est un minimiseur de la distorsion empirique, on a

nlim+W(µ,c?n) =W?(µ) p.s.

Remarquons que l’existence de c?n (et c?) est assurée sous ces hypothèses.

D’après la définition de φ, la condition 1 pourrait être remplacée par la conti-nuité de (x, y)7→ Dyφ(xy). Comme nous l’avons mentionné plus haut, l’hypo-thèse 4 n’est pas vérifiée pour toute divergence de Bregman.

Démonstration du Théorème 1.5.1. Il s’agit de prouver queWn,·) converge uni-formément vers W(µ,·) en dehors d’un ensemble de probabilité nulle. La méthode employée est à nouveau inspirée de Sabin et Gray [175]. Comme dans la démons-tration du Théorème 1.4.1, nous définissons la divergence de Bregman dφ,·) sur C ×C˜, où ˜C est le compactifié d’Alexandroff de C. Les hypothèses entraînent que la fonction ainsi prolongée dφ,·) est continue. D’après la Proposition 1.8.2 de l’Annexe 1.8.3, comme ˜Ck est compact, il suffit de montrer que si (cn)nN est une suite de points de ˜Ck convergeant vers c, alors

nlim+Wn,cn) =W(µ,c) p.s.

D’après un théorème de Varadarayan (voir par exemple Dudley [79, Théorème 11.4.1]), la mesure empirique µn converge étroitement versµpresque sûrement. Le Théorème de Représentation de Skorohod (Dudley [79, Théorème 11.7.2]) assure l’existence de variables aléatoiresY etYn définies sur un même espace de probabi-lité telles queY soit de loiµ,Ynde loiµn, etYnconverge versY presque sûrement.

Comme la fonction prolongée dφ,·) est continue, minj=1,...,kdφ(xn, cnj) converge vers minj=1,...,kdφ(x, cj) lorsque (xn,cn) converge vers (x,c). Ainsi, lorsque cn converge vers c, minj=1,...,kdφ(Yn, cnj) converge presque sûrement (et donc en loi) vers minj=1,...,kdφ(Y, cj). De plus, pour tout c, dφ(Yn, c) converge vers dφ(Y, c) presque sûrement, donc aussi en loi.

Si pour tout j = 1, . . . , k, on a cj = ω ou cjC, alors W(µ,c) = +∞. Par ailleurs, d’après le Lemme de Fatou,

lim inf

n+ Wn,cn) = lim inf

n+ E

j=1...,kmin dφ(Yn, cnj)

≥E

j=1...,kmin dφ(Y, cj)

=W(µ,c).

Donc, limn+Wn,cn) = +∞=W(µ,c).

Sinon, soit cm un élément de c appartenant à ir(C). Il existe dans ir(C) un polyèdre convexe régulier centré encm, contenant lescnm pourn assez grand (par exemple, un hypercube de dimension s centré encm, oùs désigne la dimension du sous-espace affine engendré par ir(C)). Soit V l’ensemble fini de ses sommets. La fonction y7→dφ(x, y) étant supposée convexe, on a, pourn assez grand,

j=1,...,kmin dφ(x, cnj)≤dφ(x, cnm)≤ X

v∈V

dφ(x, v). (1.7)

Par la loi forte des grands nombres, presque sûrement, pour tout v ∈ V, E[dφ(Yn, v)] =

Z

dφ(x, v)dµn(x) = 1 n

Xn i=1

dφ(Xi, v) tend lorsque n→+∞ vers

E[dφ(X, v)] = E[dφ(Y, v)].

D’aprèsBillingsley [34, Théorème 3.6], pour toutv ∈ V, lesdφ(Yn, v) sont uniformé-ment intégrables. Ceci implique, par l’inégalité (1.7), que les minj=1,...,kdφ(Yn, cnj) sont également uniformément intégrables. Par [34, Théorème 3.5], Wn,cn) = E[minj=1,...,kdφ(Yn, cnj)] tend donc presque sûrement versE[minj=1,...,kdφ(Y, cj)] = W(µ,c).

Pour passer à la dimension quelconque, nous supposons que P{X ∈ CR} = 1, comme pour l’existence d’un quantificateur optimal.

Théorème 1.5.2 (Cas général). Supposons que pour tout x ∈ C, y 7→ dφ(x, y) est faiblement semi-continue inférieurement, de sorte qu’il existe un minimiseur c?n de la distorsion empirique. S’il existe R > 0 tel que P{X ∈ CR}= 1, et M = M(φ, R)≥0 tel que, pour tout c∈ CR, kDcφk ≤M, alors

nlim+W(µ,c?n) =W?(µ) p.s.

et

nlim+E[W(µ,c?n)] = W?(µ).

Démonstration. Comme P{X ∈ CR} = 1, les centroïdes restent dans le convexe fermé borné CR comme le montre la preuve du Théorème 1.4.2. Soient Y de loi

1.5. Convergence

µ et Yn de loi µn les variables aléatoires données par le Théorème de Skorohod (Dudley [79, Théorème 11.7.2]). Alors, pour toute table de codagec,

Wn,c)W(µ,c) =E 0. Par le Lemme de Fatou,

lim inf

Ceci termine la démonstration du premier point.

Pour la seconde assertion, l’inégalité suivante montre qu’il suffit de prouver que Ehsupc∈Ck

R(W(µn,c)W(µ,c))i tend vers 0 lorsque n tend vers l’infini (voir Devroye, Györfi et Lugosi [71]) :

E[W(µ,c?n)]− inf

De plus,

E[φ(Yn)]−E[φ(Y)] = 1 n

Xn i=1

φ(Xi)−E[φ(X)], et en prenant l’espérance par rapport aux Xi, on a

E1 n

Xn i=1

φ(Xi)−E[φ(X)]

= 0.

Il reste à montrer que l’espérance (par rapport aux Xi) de EkYnYk tend vers 0 lorsque n tend vers l’infini, ce qui découle du théorème de convergence dominée, car EkYYnk tend vers 0 presque sûrement d’après ce qui précède et, de plus, EkYnYk ≤2R. Finalement,

nlim+E

"

sup

c∈CRk

(W(µn,c)W(µ,c))

#

= 0.

Remarquons que les convergences

nlim+W(µ,c?n) =W?(µ) p.s.

et

nlim+E[W(µ,c?n)] =W?(µ)

ont toujours lieu dès queφest le carré de la norme de l’espace de Banach séparable et réflexif E (Biau, Devroye et Lugosi [32]).

Remarque 1.5.2 (Divergences de Bregman ponctuelles). En remplaçant la fonction strictement convexe φ par x 7→ R f(x)dm et l’application linéaire Dcφ par x 7→

R xf0(c)dm dans la démonstration du Théorème 1.5.2, on obtient le résultat de convergence de la distorsion pour une divergence de Bregman ponctuelle.

Explicitons les résultats d’existence d’un quantificateur optimal et de conver-gence de la distorsion sur quelques exemples.

Exemple 1.5.1 1. Distance de Kullback-Leibler généralisée en dimension 1. Ici, E = R, C =R+ et dφ(x, y) = xlnxy −(x−y). Soit x ∈ C. La fonction y 7→

xlnxy−(x−y) est continue et convexe surir(C) =R+(sa dérivée seconde est

x

y2 ≥0) et tend vers +∞en 0 et en +∞. Donc il existe un quantificateur dont la table de codage réalise le minimum de la distorsion W(µ,c) (Théorème 1.4.1) ainsi qu’un quantificateur empirique optimal (Corollaire 1.4.2). En outre, sic?n minimise la distorsion empirique, la convergence presque sûre de W(µ,c?n) vers W?(µ) est garantie (Théorème1.5.1).

1.5. Convergence

2. Perte exponentielle. Soient C =E =R etφ(x) =ex, ce qui donnedφ(x, y) = exey−(x−y)ey. La fonction y7→exey−(x−y)ey est continue surR. SiP{|X| ≤R}= 1, le Théorème1.4.2 assure l’existence d’un quantificateur optimal, et comme φ0(x) =exeR sur [−R, R], W(µ,c?n) converge presque sûrement et dans L1 vers W?(µ) par le Théorème 1.5.2.

3. Distance euclidienne au carré. Lorsque dφ,·) est le carré de la distance eucli-dienne, l’existence d’un quantificateur optimal et la convergence presque sûre etL1 de la distorsion sont assurées (cas particulier des normes hilbertiennes).

4. Distance de Kullback-Leibler entre mesures de probabilité discrètes. Ici,E =Rd et C = (R+)d. Soit Sd1 le simplexe de dimension d − 1. Pour (x, y) ∈ [C ×ir(C)]∩ Sd21, dφ(x, y) = Pd`=1x`lnxy`

`. La fonction y = (y1, . . . , yd) 7→

Pd

`=1x`lnxy`

` est continue et convexe sur Sd1 ∩ (R+)d et tend vers +∞ lorsque l’un des y` tend vers 0. Donc il existe un quantificateur optimal et l’on a convergence presque sûre de la distorsion.

5. NormeL2 au carré. SoitC =E =L2([0,1],dt) etdφ(x, y) =R01(x(t)−y(t))2dt.

Comme il s’agit d’une norme hilbertienne, l’existence d’un minimiseur de la distorsion et la convergence sont garanties.

6. Distance de Kullback-Leibler généralisée. SoitE =L2([0,1],dt). On a ˜df(x, y) =

R1

0[x(t) lnx(t)y(t)+y(t)−x(t)]dt(définition ponctuelle). La fonctiony7→d˜f(x, y) est semi-continue inférieurement et convexe donc semi-continue inférieure-ment pour la topologie faible. Supposons que P{r≤ kXk ≤R}= 1 (r >0).

Alors, il existe un quantificateur optimal. De plus, on a convergence presque sûre et L1 de la distorsion.