• Aucun résultat trouvé

Quantification et clustering

1. Quantification et clustering avec des divergences de Bregman ∗

1.3. Divergences de Bregman

1.3.1. Définition et exemples dans R d

Définir une divergence de Bregman nécessite d’introduire la notion d’intérieur relatif d’un ensemble convexe (voir Rockafellar [161, Section 7]).

Définition 1.3.1. On appelle intérieur relatif d’un convexe non videC deRd, noté ir(C),l’intérieur de C relativement à l’enveloppe affine deC (plus petit sous-espace affine contenant C).

Remarque 1.3.1. Alors que l’intérieur d’un convexe est souvent vide, l’intérieur relatif d’un convexe non vide C de Rd est non vide (et a la même dimension que C), d’où l’intérêt d’introduire cette notion.

La Figure 1.1 donne l’exemple d’un convexe d’intérieur non vide dans R2 qui est d’intérieur vide dans R3. En effet, cet objet peut contenir une boule de R2, mais pas une boule de R3.

Intérieur

[A]

[B]

Figure 1.1.: Un convexe qui est [A] d’intérieur non vide dans R2 et [B] d’intérieur vide dansR3.

Nous noteronsC la frontière relative du convexe C, c’est-à-dire le complémen-taire deir(C) dans son adhérence C.

Définition 1.3.2. Soient C ⊂ Rd un convexe et φ : C → R une fonction stricte-ment convexe, différentiable sur ir(C). La divergence de Bregman associée

dφ:C ×ir(C)→[0,+∞[ est définie par

dφ(x, y) = φ(x)φ(y)− hxy,φ(y)i,

,·i désigne le produit scalaire de Rd etφ(y) le gradient de φ au point y.

Remarque 1.3.2. On peut noter que la fonction φ est de classe C1 sur ir(C), car elle y est convexe et différentiable (voir par exemplePhelps [154]). De même, pour toutyir(C), les fonctionsx7→dφ(x, y), dont nous verrons plus loin qu’elles sont convexes, sont C1 sur ir(C).

La distance euclidienne au carré et d’autres distances usuelles sont des cas particuliers de divergence de Bregman. Voici tout d’abord quelques exemples de divergences obtenues lorsque d = 1, mentionnés en particulier par Banerjee et al. [17] et Nielsen et al. [149]. Dans ces exemples ainsi que tous les suivants (en dimension plus grande), nous vérifions que φ possède les propriétés requises, en particulier la stricte convexité, et présentons les calculs qui mènent à la divergence de Bregman dφ,·) associée.

Exemple 1.3.1 1. Distance euclidienne au carré en dimension 1. SoientC =Ret φdéfinie parφ(x) = x2. On aφ0(x) = 2xetφ00(x) = 2, d’où la différentiabilité et la stricte convexité de φ. La divergence de Bregman associée est définie, pour tout (x, y)∈R2, par

dφ(x, y) =x2y2−2y(x−y)

= (x−y)2 .

On retrouve donc, en dimension 1, le carré de la distance euclidienne.

2. Avec un exposant α≥2. Soit C =R+. On peut choisir plus généralement φ telle que φ(x) = xα avec α ≥ 2 un entier. On a φ0(x) = αxα1 et φ00(x) = α(α−1)xα2, donc φ est strictement convexe. Soit (x, y) ∈ R+×R+. On obtient la divergence de Bregman

dφ(x, y) = xαyααyα1(x−y)

= xα+ (α−1)yααxyα1 .

1.3. Divergences de Bregman

3. Distance de Kullback-Leibler généralisée en dimension 1. Prenons C = R+, et φ définie par φ(x) = xlnx. On a φ0(x) = 1 + lnx et φ00(x) = x1. Soit (x, y)∈R+×R+. La divergence de Bregman obtenue est la suivante :

dφ(x, y) =xlnxylny−(x−y)(lny+ 1)

= xlnx

y −(x−y). 4. Perte logistique. Soient C = [0,1] et φ définie par

φ(x) = xlnx+ (1−x) ln(1x).

On a φ0(x) = ln(x)−ln(1−x) et φ00(x) = 1x+11x. Ainsi, pour tout (x, y)∈ [0,1]×]0,1[,

dφ(x, y) =xlnx+ (1−x) ln(1x)ylny−(1−y) ln(1y)

−(x−y)(lny−ln(1−y))

= xlnx

y + (1−x) ln 1−x 1−y

!

. Plus généralement, si N ∈N etC = [0, N],

φ(x) =xlnx+ (N −x) ln(Nx) conduit, pour tout (x, y)∈[0, N]×]0, N[, à

dφ(x, y) = xlnx

y + (N −x) ln Nx Ny

!

.

5. Distance de Itakura-Saito. Soit C = R+ et soit φ l’entropie de Burg, c’est-à-dire φ(x) = −lnx. On a φ0(x) = −x1, φ00(x) = x12, et, pour tout (x, y) ∈ (R+)2,

dφ(x, y) =−lnx+ lny+1

y(x−y)

= x

y −lnx y −1.

6. Exponentielle.En prenantC =Retφdéfinie parφ(x) =ex, on a la divergence de Bregman sur R2

dφ(x, y) = exey −(x−y)ey .

7. Divergence de type Hellinger. Soient C = [−1,1] et φ définie par φ(x) =

−√

1−x2. On a φ0(x) = 1x

x2 et φ00(x) = (1x12)3/2, ce qui montre que φ est strictement convexe. Appelée divergence de type Hellinger parNielsen et al.[149], la divergence associée est, pour tout (x, y)∈[−1,1]×]−1,1[,

dφ(x, y) =−√

1−x2+q1−y2−(x−y) y

√1−y2

= 1−xy

√1−y2 −√

1−x2 .

La fonction de perte suivante est « presque » une divergence de Bregman.

8. Hinge Loss. Soit C =R, et soit φ la fonction valeur absolue : φ(x) =|x|. La fonctionφ n’est pas dérivable en 0, et elle est convexe, mais pas strictement convexe. On a

φ0(x) =

(−1 si x <0 1 si x >0. En écrivant, pour tout (x, y)∈R2,

dφ(x, y) = |x| − |y| −φ0(y)(x−y)

= (−2 signe(y)x)+,

a+ = max(0, a), on obtient une perte Hinge Loss, qui n’est pas une vraie divergence de Bregman, puisque la fonction valeur absolue n’est pas strictement convexe.

Dans les exemples suivants, l’espace ambiant est Rd. Notons qu’à partir des divergences de Bregman unidimensionnelles, nous pouvons obtenir des divergences de Bregman surRd en sommant sur les coordonnées.

Exemple 1.3.2 1. Distance euclidienne au carré. SoientC =Rd etφ définie par φ(x) =kxk2. La fonction φ est strictement convexe et différentiable sur Rd. Pour tout (x, y)∈(Rd)2,

dφ(x, y) =kxk2− kyk2− hxy,φ(y)i

=kxk2− kyk2− hxy,2yi

= kxyk2 .

On obtient ainsi le carré de la distance euclidienne.

1.3. Divergences de Bregman

2. Distance de Mahalanobis. Soient C = Rd, A une matrice symétrique définie positive et φ définie par φ(X) =tXAX, où tX désigne le vecteur transposé deX. Calculons la différentielle de φ au point Y notée DYφ. On a

Lorsque la matriceA est l’inverse d’une matrice de covariance, la divergence de Bregman obtenue est appelée distance de Mahalanobis.

3. Distance de Kullback-Leibler entre deux mesures positives discrètes. Soit C = (R+)d. Un élémentx∈ C est un vecteur constitué dedcomposantes positives.

La fonction φ définie par φ(x) = Pd`=1x`lnx` est différentiable sur ir(C) et strictement convexe. La divergence de Bregman obtenue avec ce choix de φ est la distance de Kullback-Leibler généralisée ou I-divergence : pour tout (x, y)∈ C ×ir(C),

4. Distance de Kullback-Leibler entre deux mesures de probabilité discrètes. Soit C = (R+)d. On définit à nouveau φ par φ(x) = Pd`=1x`lnx`. Si l’on se restreint au simplexe Sd1 de dimension d − 1, c’est-à-dire aux vecteurs constitués de d composantes positives x1, . . . , xd telles que Pd`=1x` = 1, qui correspondent à des mesures de probabilité discrètes, la divergence de Bregman obtenue est la (vraie) distance de Kullback-Leibler : pour tout

(x, y)∈[C ×ir(C)]∩ Sd21,

Pour obtenir également des mesures de distorsion qui puissent s’appliquer à des courbes, nous considérons ici des divergences de Bregman en dimension infinie (Alber et Butnariu [4], Frigyik, Srivastava et Gupta [89]). La définition suivante est la généralisation naturelle de la définition d’une divergence de Bregman en dimension finie : le produit scalaire entre le gradient de φ en y et le vecteur xy est remplacé par la différentielle de Fréchet deφ au point y appliquée à xy.

L’intérieur relatif ir(C) peut être défini de manière similaire au cas de la di-mension finie (Définition 1.3.1), en prenant l’adhérence de l’enveloppe affine du convexe C. Il existe également d’autres notions d’intérieur relatif dans un espace de Banach de dimension infinie, appelées pseudo-intérieur relatif et quasi-intérieur relatif (voir Borwein et Goebel [38]).

Définition 1.3.3 (Divergence de Bregman fonctionnelle). Soit E un espace de Banach séparable, C ⊂ E un convexe et soit φ : C → R strictement convexe, de classe C2 sur ir(C). La divergence de Bregman associée est définie par

dφ(x, y) =φ(x)φ(y)Dyφ(xy) avec Dyφ la différentielle de φ en y.

Observons que si nous travaillons dans (E,h·,·i), espace de Hilbert, la même notation qu’en dimension finie peut être utilisée.

Remarque 1.3.3. Il paraît raisonnable de construire des divergences de Bregman fonctionnelles en intégrant certaines divergences de Bregman unidimensionnelles.

Les divergences de Bregmanponctuelles(Jones et Byrne [111],Csiszár [56]) consti-tuent un cas particulier de divergences de Bregman fonctionnelles qui sont juste-ment de ce type. Pour m une mesure σ-finie et f une fonction dérivable et stric-tement convexe sur ]0,+∞[, la divergence de Bregman fonctionnelle ponctuelle