• Aucun résultat trouvé

Existence d’un minimiseur de la distorsion

Relation entre divergences de Bregman et familles exponentielles

1.4. Choix d’un bon quantificateur

1.4.2. Existence d’un minimiseur de la distorsion

X` j=1

E[dφ(X, cj)|XSj]µ(Sj)

X` j=1

E[dφ(X, c0j)|XSj]µ(Sj)

=E[dφ(X, q0(X))]

=W(µ, q0),

d’où le résultat annoncé, puisque la Proposition 1.4.1 entraîne c0j =E[X|XSj] pour toutj = 1, . . . , `.

Remarque 1.4.3 (Divergences de Bregman ponctuelles). Les propriétés énoncées dans les Lemmes 1.4.1 et 1.4.2 s’adaptent au cas d’une divergence de Bregman ponctuelle ˜df.

Dans la section suivante, nous allons voir que sous certaines conditions, l’exis-tence d’un quantificateur optimal est assurée. En pratique, trouver un minimiseur exact de la distorsion est un problème que l’on ne peut résoudre en temps polyno-mial, mais les Lemmes1.4.1et 1.4.2montrent que la solution peut être approchée à l’aide d’un algorithme itératif, reposant sur deux étapes, au cours desquelles la table de codage et la partition sont actualisées successivement. Il s’agit, pour le carré de la distance euclidienne, de l’algorithme des k-means (Lloyd [132], Stein-haus [174]), que Linde, Buzo et Gray [129]généralisent à certaines autres mesures de distorsion, et que les deux lemmes permettent d’étendre aux divergences de Bregman. Explicitons l’algorithme, lorsqueµest inconnue, c’est-à-dire dans le cas du clustering. A partir d’une table de codage initiale {c0,1, . . . , c0,`}, C est parti-tionné en cellules de VoronoiS0,1, . . . , S0,`en affectant chaque donnéeXi au centre c0,j le plus proche au sens de la divergence de Bregman considérée. Ensuite, les nouveaux centresc1,1, . . . , c1,`sont calculés en effectuant la moyenne desXi tombés dans la celluleSj, et ces deux étapes sont itérées, jusqu’au moment où la table de codage demeure inchangée, ce qui signifie qu’un minimum local a été atteint.

1.4.2. Existence d’un minimiseur de la distorsion

Nous cherchons à présent des conditions qui garantissent l’existence d’un quanti-ficateur optimalq?, c’est-à-dire tel queW(µ, q?) =W?(µ). D’après ce qui précède, nous savons qu’un quantificateur optimal est à rechercher parmi les quantifica-teurs des plus proches voisins. Unk-quantificateur des plus proches voisinsqétant caractérisé par sa table de codage c = (c1, . . . , ck), notre but est de démontrer

1.4. Choix d’un bon quantificateur

Figure 1.2.: Etapes de l’algorithme des k-means.

l’existence d’une table de codage c? optimale, autrement dit une table de codage c? telle que

W(µ,c?) =W?(µ).

Le fait que le minimum de la distorsion soit atteint repose sur un argument de compacité. Nous distinguons le cas fini-dimensionnel (Théorème 1.4.1) du cas général (Théorème 1.4.2). En dimension finie, nous démontrons le résultat en uti-lisant une idée deSabin et Gray [165], basée sur la compactification d’Alexandroff.

Les résultats utiles liées à la compacité sont rappelés en Annexe1.8.3, ainsi que la définition et quelques propriétés des fonctions semi-continues inférieurement.

Théorème 1.4.1 (Cas fini-dimensionnel). Supposons que C est inclus dans un sous-espace affine de dimension finie et que la divergence de Bregmandφ,·)vérifie les propriétés suivantes :

1. Pour tout x∈ C, la fonction y 7→dφ(x, y) est semi-continue inférieurement sur ir(C).

2. Pour tout (x, y) ∈ C ×ir(C), dφ(x, y) ≤ lim infzir(C)˜zdφ(x, z) pour tout

˜ zC.

3. Pour tout (x, y)∈ C ×ir(C), dφ(x, y)≤lim infkzk→+dφ(x, z).

Alors, il existe une table de codage optimale c?, c’est-à-dire telle que W(µ,c?) =W?(µ).

Remarquons que l’hypothèse 1 n’est pas restrictive, car y7→dφ(x, y) est conti-nue pour la plupart des divergences de Bregman usuelles. Comme φ et y 7→Dyφ sont continues sur ir(C), cette condition pourrait être remplacée par la semi-continuité inférieure de y7→Dyφ(y). Le rôle des hypothèses 2 et 3 est d’empêcher un possible minimiseur de se trouver à l’infini. Observons enfin que la condition 3 est vide lorsque C est borné. Dans ce cas, C est compact, et l’existence d’une table de codage optimale se démontre facilement sans recourir à la compactification d’Alexandroff.

Démonstration. En posant dφ(x,z) = lim inf˜ zz˜Cdφ(x, z) pour tout x ∈ C et tout ˜zC, dφ,·) se prolonge en une fonction semi-continue inférieurement C → [0,+∞]. On compactifie C en lui ajoutant un point à l’infini ω. Notons C˜=C ∪ {ω}le compactifié d’Alexandroff deC. D’après le Théorème de Tychonoff (Théorème1.8.3 de l’Annexe 1.8.3), le produit ˜Ck est lui aussi compact. On pose, pour toutx∈ C, dφ(x, ω) = limkzk→+dφ(x, z). D’après les hypothèses, pour tout x ∈ C, y 7→ dφ(x, y) de ˜C dans [0,+∞] est semi-continue inférieurement, ce qui signifie que l’ensemble de niveau {c∈C˜, dφ(x, c)≤λ} est fermé pour toutλ ∈R. Comme {c ∈ C˜k,minj=1,...,kdφ(x, cj) ≤ λ} = Skj=1{c ∈ C˜k, dφ(x, cj) ≤ λ}, les

1.4. Choix d’un bon quantificateur

ensembles de niveau de c 7→ minj=1,...,kdφ(x, cj) sont fermés également, et ainsi, cette fonction est semi-continue inférieurement. Alors, pour tout c∈C˜k,

lim inf

c0c W(µ,c0) = lim inf

c0c

Z

j=1,...,kmin dφ(x, c0j)dµ(x)

Z

lim inf

c0c min

j=1,...,kdφ(x, c0j)dµ(x)

Z

j=1,...,kmin dφ(x, cj)dµ(x)

=W(µ,c),

où la première inégalité découle du Lemme de Fatou et la seconde de la semi-continuité inférieure de la fonctionc7→minj=1,...,kdφ(x, cj). Ainsi,c7→W(µ,c) est semi-continue inférieurement sur le compact ˜C et donc y atteint son minimum en une table de codagec?. Par les hypothèses 2 et 3, on peut supposer quec?ir(C)k, quitte à remplacer les composantes appartenant àC ou égales àωpar des éléments deir(C). Finalement, l’existence d’une table de codage optimalec? est établie.

Lorsque l’espaceE est potentiellement de dimension infinie et C est un convexe quelconque de E, nous ne pouvons pas procéder de la même manière. En effet, la compactification d’Alexandroff s’applique aux espaces localement compacts alors que le Théorème de Riesz affirme qu’un espace vectoriel normé de dimension infinie n’est jamais localement compact (Théorème 1.8.2 de l’Annexe 1.8.3). Cependant, commeE est réflexif, un convexe fermé borné deE est compact pour la topologie faible σ(E, E0) (Corollaire 1.8.2). De plus, une fonction faiblement semi-continue inférieurement atteint sont minimum sur un ensemble faiblement compact. Donc, si nous savons d’avance que c? est à rechercher dans un ensemble compact pour la topologie faible, il suffit d’une hypothèse de continuité pour assurer l’existence du minimum. Désormais, CRir(C) désigne un convexe fermé (borné) inclus dans B(0, R) = {xE,kxk ≤ R}, la boule fermée de centre 0 et de rayon R > 0.

Une propriété intéressante qui sera utilisée est que, siX ∈ CR, alors par projection (Proposition 1.3.8), si c? existe, on a aussi c? ∈ CR.

Exemple 1.4.1 Voici quelques exemples de classes de variables aléatoires à valeurs dans l’espace de Banach E (de dimension infinie) telles que

P{kXk ≤R}= 1. (1.6)

1. Variable aléatoire tronquée. Pour toute variable aléatoire X à valeurs dans E, la variable X1{kXk≤R}, R >0, vérifie l’hypothèse (1.6).

2. Série dans un espace de Hilbert. Si E est un espace de Hilbert (séparable) et (ψk)k1 désigne une base hilbertienne de E, les variables aléatoires de la forme P+k=1Akψk, où P+k=1A2kR2, conviennent.

3. Fonctions bruitées. Les variables aléatoires modélisant l’évolution temporelle de quantités physiques mesurées avec un bruit fournissent un autre exemple.

Si X est la somme d’une fonction g, kgk ≤ M, et d’une variable aléatoire ε, centrée et à support compact, modélisant le bruit, la condition (1.6) est satisfaite.

Théorème 1.4.2 (Cas général). Supposons qu’il existe un réel R > 0 tel que P{X ∈ CR}= 1et que, pour toutx∈ C, y7→dφ(x, y)est faiblement semi-continue inférieurement. Alors, il existe unk-quantificateur des plus proches voisins de table de codage optimale c?, c’est-à-dire

W(µ,c?) =W?(µ).

Exemple 1.4.1. Comme exemples de fonctions semi-continues inférieurement pour la topologie faible σ(E, E0), on peut citer les fonctions convexes semi-continues inférieurement pour la norme (Corollaire1.8.1).

Puisque la topologie faible et la topologie forte coïncident en dimension finie (Remarque1.8.2), le mot “faiblement” dans le Théorème 1.4.2peut être omis siE est de dimension finie.

Démonstration du Théorème 1.4.2. L’hypothèse P{X ∈ CR} = 1 entraîne qu’il suffit de chercher un minimiseur c? de la distorsion sur CRk. En effet, d’après la Proposition1.3.8, on a

cir(C), dφ(X, c)≥dφ(X, c),

c désigne la projection de Bregman de c sur CR. Par conséquent, pour toute table de codagec, en notantc= (c1, . . . , ck) le vecteur des projections surCR, on a E[minj=1,...,kdφ(X, cj)]≥ E[minj=1,...,kdφ(X, cj)], c’est-à-dire W(µ,c)W(µ,c), ce qui montre que l’on réduit la distorsion en projetant sur le convexe fermé borné CR. CommeE est réflexif,CRest compact pour la topologie faibleσ(E, E0), doncCRk

également. Montrons queW(µ,·) est faiblement semi-continue inférieurement. Par hypothèse, pour toutx∈ C,dφ(x,·) est semi-continue inférieurement pour la topo-logie faible, ce qui signifie que les ensembles de niveau {c∈ CR, dφ(x, c)≤λ}, λ∈ R, sont faiblement fermés. Puisque {c ∈ CRk,minj=1,...,kdφ(x, cj)≤λ}=Skj=1{c ∈ CRk, dφ(x, cj)≤λ}, les ensembles de niveau de la fonctionc 7→minj=1,...,kdφ(x, cj) sont eux aussi faiblement fermés et ainsi elle est faiblement semi-continue inférieu-rement. Si c0 converge faiblement vers c, on a

lim inf

c0c W(µ,c0) = lim inf

c0c

Z

j=1,...,kmin dφ(x, c0j)dµ(x)

Z lim inf

c0c min

j=1,...,kdφ(x, c0j)dµ(x)

Z

j=1,...,kmin dφ(x, cj)dµ(x) =W(µ,c),

1.4. Choix d’un bon quantificateur

où la première inégalité découle du lemme de Fatou et la seconde de la semi-continuité de c 7→ minj=1,...,kdφ(x, cj). Il en résulte que W(µ,·) est faiblement semi-continue inférieurement sur un ensemble faiblement compact, ce qui implique qu’elle y atteint sa borne inférieure. Autrement dit, il existe c? ∈ CRk, tel que W(µ,c?) =W?(µ).

Remarque 1.4.4 (Divergences de Bregman ponctuelles). Le Théorème 1.4.2 se dé-montre de la même manière pour une divergence de Bregman ponctuelle ˜df.

Lorsque nous avons seulement CRir(C)6= 0 (au lieu de CRir(C)), notons que si φ est une fonction de Legendre, le projeté d’un élément de ir(C) appartient à ir(C) (Remarque 1.3.6), de sorte qu’il est encore possible d’utiliser la projection de Bregman pour démontrer l’existence d’un quantificateur optimal, à condition de pouvoir prolonger les fonctions y 7→ d(x, y) en des fonctions faiblement semi-continues inférieurement sur le convexe fermé borné CR∩ C.

Le Lemme1.4.3ci-dessous, dont la preuve est donnée dans l’Annexe 1.7, assure que dans le cas particulier oùdφ,·) est la distance au carré induite par le produit scalaire d’un espace de Hilbert, chercher un quantificateur optimal revient à le chercher sur une boule.

Lemme 1.4.3. Soitdφune divergence de Bregman. On suppose que la différentielle seconde de φ : E → R est uniformément coercive, c’est-à-dire qu’il existe m = m(φ) > 0 tel que pour tout c, Dc2φ(x, x)mkxk2, et qu’il existe M = M(φ) tel que pour tout c, on ait kD2cφk ≤M. Alors,

cinfEkW(µ,c) = inf

cBRkW(µ,c) pour un certain R >0.

Le Théorème1.4.2 admet par conséquent le corollaire suivant.

Corollaire 1.4.1. Soit E un espace de Hilbert. Si φ=k · k2, il existe un quantifi-cateur optimal associé à la divergence de Bregman dφ,·).

La dernière partie de cette section est consacrée à la question de l’existence d’un quantificateur empirique optimal. En d’autres termes, nous cherchons un minimiseur c?n de la distorsion empirique

Wn,c) = 1 n

Xn i=1

j=1,...,kmin dφ(Xi, cj).

Comme le support de la mesure empiriqueµncontient au plusnpoints, il est inclus dans une boule fermée BR. Ainsi, le Théorème 1.4.2 entraîne le résultat suivant.

Corollaire 1.4.2. Supposons que pour tout x ∈ C, y 7→ dφ(x, y) est faiblement semi-continue inférieurement. Alors, il existe une table de codage optimale c?n.

Comme précédemment, le mot « faiblement » peut être omis dès que E est de dimension finie.

Démonstration du Corollaire 1.4.2. Le support de la mesure empirique µn, formé d’au plus n points, est contenu dans une boule fermée BR. Donc, par projection, comme dans la démonstration du Théorème 1.4.2, il suffit de chercher la table de codage optimale dans cette boule. L’existence de c?n résulte de la compacité faible deBR, comme pour le Théorème 1.4.2.

1.5. Convergence