• Aucun résultat trouvé

Information : entropies, divergences et moyennes

N/A
N/A
Protected

Academic year: 2021

Partager "Information : entropies, divergences et moyennes"

Copied!
77
0
0

Texte intégral

(1)Information : entropies, divergences et moyennes Michèle Basseville. To cite this version: Michèle Basseville. Information : entropies, divergences et moyennes. [Rapport de recherche] PI-1020, 1996, pp.76. �inria-00490399�. HAL Id: inria-00490399 https://hal.inria.fr/inria-00490399 Submitted on 8 Jun 2010. HAL is a multi-disciplinary open access archive for the deposit and dissemination of scientific research documents, whether they are published or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.. L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés..

(2) I. IN ST IT UT. DE. E U Q TI A M R. ET. ES M È ST Y S. E N. RE CH ER C H E. R. IN F O. I. S. S IRE O T ÉA AL. A. PUBLICATION INTERNE No 1020. INFORMATION: ENTROPIES, DIVERGENCES ET MOYENNES. ISSN 1166-8687. ` MICHELE BASSEVILLE. IRISA CAMPUS UNIVERSITAIRE DE BEAULIEU - 35042 RENNES CEDEX - FRANCE.

(3)

(4) ´ : (33) 99 84 71 00 – Fax : (33) 99 84 71 71 Tel.. Information: entropies, divergences et moyennes Michele Basseville *. Theme 4 | Simulation et optimisation de systemes complexes Projet AS Publication interne n 1020 | Mai 1996 | 74 pages. Resume : Apres avoir rappel

(5) e l'importance, en traitement du signal, de concepts issus de la th

(6) eorie de l'in-. formation, on r

(7) epertorie des proc

(8) ed

(9) es constructifs entre des notions telles que entropies, divergences, moyennes, projections. On introduit deux grandes classes de divergences et on en discute l'intersection. Mots-cle : Information, entropie, divergence, distance, m

(10) etrique associ

(11) ee, valeur moyenne, axiomatique.. (Abstract: pto) Ces notes de lecture resultent partiellement de discussions avec Jean-Francois Cardoso (Telecom. Paris/Cnrs). *. Irisa/Cnrs. { basseville@irisa.fr. CENTRE NATIONAL DE LA RECHERCHE SCIENTIFIQUE. Centre National de la Recherche Scientifique (URA 227) Universit´e de Rennes 1 – Insa de Rennes. Institut National de Recherche en Informatique et en Automatique – unit e´ de recherche de Rennes.

(12) Information: entropies, divergences and mean values. Abstract: The design concepts of divergences are of interest because of the key role they play in statistical inference and signal processing. We distinguish two dierent classes of divergences built on entropies. They are compared using the associated quadratic dierential metrics, mean values and projections. Key-words: Information, entropy, divergence, distance, associated metric, mean value, axiomatic..

(13) Information: entropies, divergences et moyennes. 3. Notations et operateurs Les op

(14) erateurs concernant les fonctions h (ou f),   qui interviennent dans les di

(15) erentes constructions (sections 2.1 et 2.2), les

(16) equations fonctionnelles caract

(17) eristiques (chapitre 3), et les propri

(18) et

(19) es des entropies et divergences, sont 154] : { conjugaison : u ! 1 ; u, { translation : u ! u + , { dilatation : u ! u, { fonction dilatee : (0.1) f(u) =  f(u) +  induisant une propri

(20) et

(21) e d'invariance des entropies non int

(22) egrales (section 2.4), { fonction translatee :  = f(u) +  u +  f(u) (0.2) induisant une propri

(23) et

(24) e d'invariance des f-divergences int

(25) egrales (section 2.5), { fonction miroir :   =uf 1 f(u) (0.3) u intervenant dans la propri

(26) et

(27) e de sym

(28) etrie des f-divergences int

(29) egrales (section 2.5) a noter aussi que :  h 1 = ; (u) = ; h(u) u u intervient dans les caract

(30) erisations fonctionnelles des entropies (chapitre 3), et que ses propri

(31) et

(32) es inuent sur les algorithmes de reconstruction { fonctions d'information 3, 109] : h(u) = ;h(u) ; h(1 ; u) (0.4) et :  u 1 ; u f(u v) = v f v + (1 ; v) f 1 ; v (0.5) v

(33) eri!ant des

(34) equations fonctionnelles caract

(35) eristiques 3, 109] (chapitre 3), { autres fonctions 105, 154]:  a(u) = (2 ; u) f 2 ;u u  u b(u) = 12 (2 ; u) f 22 + ;u { dierence de Jensen :. Jh (u v) = h(u + (1 ; )v) ; h(u) ; (1 ; )h(v). intervenant dans la d

(36) e!nition de l'information mutuelle (section 2.3), un proc

(37) ed

(38) e constructif de divergences (section 2.2) et ses extensions (section 4.2), et les

(39) equations fonctionnelles (chapitre 3).. PI n 1020.

(40) 4. Michele Basseville. { dierentielle de G^ateaux (ou d

(41) eriv

(42) ee directionnelle) :  d H(P + tR) = lim H(P + tR) ; H(P) = H0 (P)  R  H(P : R) = dt t=0 t!0 t. (0.6). intervenant dans la d

(43) e!nition de la distance de Bregman (section 2.2),. Transformee de Legendre-Fenchel. Pour toute fonction f : Rm !] ;1 +1, on d

(44) e!nit la transform

(45) ee de Lengendre (ou Fenchel) 138, 23] par :. f  (u) = supm (< t u > ;f(t)) t2R m f  est convexe sur R , et est dite aussi duale convexe de f. Si f est convexe et semi-continue inf

(46) erieurement, alors f  = f. Si f est di

(47) erentiable, on a de plus :. (0.7). f  (u) =< f 0 ;1(u) u > ;f(f 0 ;1 (u)). f  0 = f 0 ;1 f(u) + f  (f 0 (u)); < u f 0 (u) >= 0. (0.8). Irisa.

(48) Information: entropies, divergences et moyennes. 5. Chapitre 1. Introduction On donne, en guise de motivation, quelques exemples de concepts de la th

(49) eorie de l'information intervenant dans la formalisation et la r

(50) esolution de problemes de traitement de signal. Puis on indique comment le document est organis

(51) e.. 1.1 Motivations: information et signal Citons, en vrac et de maniere non exhaustive, quelques problemes ou interviennent de maniere cruciale des notions d'information. Les statistiques exhaustives (qui conservent l'information, de Fisher, mais aussi bien d'autres) jouent un r^ole-clef en estimation et en d

(52) etection (tests d'hypotheses), et il en est de m^eme de la question des distances (ou divergences). Il serait d'ailleurs int

(53) eressant de mettre en

(54) evidence de maniere explicite les propri

(55) et

(56) es de ces notions qui sont propres au cas Gaussien, propres aux parametres de translation, ou g

(57) en

(58) erales. L'information de Kullback (ou entropie relative) est sous-jacente a l'identi!cation par maximum de vraisemblance, a des criteres de s

(59) election de modeles, a la reconstruction par maximum d'entropie. L'information de Fisher fournit la pr

(60) ecision optimale de tout estimateur. L'information (ou distance) de Kullback intervient dans les probabilit

(61) es d'erreur des d

(62) etecteurs par rapport de vraisemblance, et aussi dans le retard a la d

(63) etection optimal en d

(64) etection s

(65) equentielle de ruptures pour cette raison, elle est utilis

(66) ee pour d

(67) e!nir la d

(68) etectabilit

(69) e d'un changement de modele. L'entropie joue par ailleurs un r^ole-clef dans des m

(70) ethodes d'analyse spectrale. Elle intervient dans la r

(71) esolution de problemes inverses, et l'information est omni-pr

(72) esente dans les techniques bay

(73) esiennes de r

(74) egularisation. E

(75) videmment la quanti!cation de l'information est au coeur des problemes de compression et aussi de fusion de donn

(76) ees.. 1.2 Organisation du document On examine les deux principales notions d'information concernant des lois de probabilit

(77) e : 1. l'entropie ou mesure d'information, not

(78) ee H, 2. la divergence ou gain d'information, not

(79) ee I ou D, ainsi que les liens qui les unissent. On

(80) etudie en particulier les relations entre plusieurs proc

(81) ed

(82) es constructifs de divergences a partir d'entropies (et r

(83) eciproquement). On d

(84) ecrit aussi l'information mutuelle. La plupart des concepts d

(85) ecrits valent dans un contexte non-parametrique. Leur application a des lois param

(86) etr

(87) ees donne lieu a des objets (e.g. distances entre vecteurs de parametres) et propri

(88) et

(89) es (e.g. la m

(90) etrique et son

(91) eventuelle invariance par changement de param

(92) etrisation) suppl

(93) ementaires. Le chapitre 2 est consacr

(94) e a l'introduction des deux classes de divergences. On commence par distinguer, a la section 2.1, deux formes fonctionnelles d'entropies, int

(95) egrales et non int

(96) egrales, et une classe de divergences, dites f-divergences, not

(97) ees I, dont on peut dire qu'elles sont formellement identiques aux entropies (entropies relatives). De nombreux exemples d'entropies et de f-divergences sont d

(98) ecrits en d

(99) etail dans les sections 2.4 et 2.5, ainsi que le lien crucial avec l'information de Fisher et l'exhaustivit

(100) e. PI n 1020.

(101) 6. Michele Basseville. Ensuite, a la section 2.2, on d

(102) ecrit les J C D K L-divergences qui se d

(103) eduisent d'entropies a partir de proc

(104) ed

(105) es constructifs distincts. Ce sont la J-divergence bas

(106) ee sur la di

(107) erence de Jensen, la distance a la Cherno C bas

(108) ee sur une maximisation de celle-ci, la distance de Bregman D bas

(109) ee sur la di

(110) erentielle de G^ateaux, et les K et L-divergences bas

(111) ees sur des analogies avec des expressions alternatives de l'information de Kullback. Puis, a la section 2.3, on s'int

(112) eresse a l'information mutuelle. Les caract

(113) erisations axiomatiques et les

(114) equations fonctionnelles li

(115) ees a toutes ces notions sont discut

(116) ees dans le chapitre 3. Le chapitre 4 discute de notions de moyennes (ou m

(117) elanges) et d'extensions possibles de divergences. A la section 4.1, on s'int

(118) eresse aux moyennes sous-jacentes explicitement aux entropies et f-divergences, et aux moyennes d

(119) e!nies comme des projections au sens de distances telles que f-divergences et distances de Bregman. Ensuite, on utilise ces moyennes g

(120) en

(121) eralis

(122) ees pour construire, a la section 4.2, des extensions de la di

(123) erence de Jensen et de la distance de Bregman. Ce jeu permet permet d'introduire le rayon d'information et une notion de capacit

(124) e. Le chapitre 5 contient des aspects g

(125) eom

(126) etriques. Les propri

(127) et

(128) es g

(129) eom

(130) etriques des entropies et des divergences, au sens de la g

(131) eom

(132) etrie di

(133) erentielle de l'espace des lois, sont principalement la m

(134) etrique di

(135) erentielle quadratique qui peut leur ^etre associ

(136) ee, ses

(137) eventuelles propri

(138) et

(139) es d'invariance, et donc le lien des entropies et divergences avec l'information de Fisher. Elles sont discut

(140) ees a la section 5.1. Avec les moyennes et projections de la section 4.1, elles sont un des outils pour

(141) etudier l'intersection { non vide { des di

(142) erentes classes de divergences, ainsi qu'on le montre dans la section 5.2. En!n, de nombreux exemples d'entropies et de divergences concernant les familles exponentielles et les cas Gaussiens (variables scalaires ou vectorielles et processus) sont donn

(143) es en annexe.. Irisa.

(144) 7. Information: entropies, divergences et moyennes. Chapitre 2. Entropies et construction de deux classes de divergences On d

(145) e!nit deux classes de divergences, toutes deux construites a partir de fonctionnelles d'entropies, bien qu'a partir de propri

(146) et

(147) es di

(148) erentes. La premiere classe contient les divergences d

(149) e!nies comme

(150) etant des entropies relatives. La deuxieme contient des distances dont la construction repose sur la concavit

(151) e de la fonctionnelle d'entropie consid

(152) er

(153) ee.. 2.1 Entropies et f -divergences (Classe 1) On introduit plusieurs types d'entropies et les f-divergences (ou entropies relatives) qui leur sont associ

(154) ees.. 2.1.1 Entropies. On considere deux formes fonctionnelles d'entropies, int

(155) egrales et non int

(156) egrales, et on donne trois exemples.. Entropies integrales et non integrales Remarquons d'embl

(157) ee que les entropies sont toujours d

(158) e!nies d'une. maniere relative a une mesure de reference . On considere les formes fonctionnelles int

(159) egrales et non int

(160) egrales suivantes 3]. Les entropies int

(161) egrales sont d

(162) e!nies par 1 :  Z (2.1) Hh ( ) = ; h d d d  Z d Hg ( ) = d (2.2) d g ; ln d d. ou h est le plus souvent convexe, et h et g sont li

(163) ees par : h(u) = g(u) = =. ;  ou h (u) = u h u1 est la fonction miroir de h.. ;u g(; ln u) ;eu h(e;u) ;h(eu). 1. Noter que 141] considere une forme integrale dierente:. H ( )=; S. Z. . d d S ln d d. . d. ou S est un operateur lineaire, par exemple l'identite pour Shannon, et la derivee seconde pour Fisher. Noter aussi la denition de la concentration d'une mesure 79] : Z q ( ) = h (j (t)j) d (t) h. ou  est la fonction caracteristique de . PI n 1020 . .

(164) 8. Michele Basseville. Les entropies non int

(165) egrales sont d

(166) e!nies par :. H ( ) =. Z d d   d  d  d  = ; ln G ( ) Z d d. ; ln ;1. H ( ) = ;1. d  ou  et  sont strictement monotones, et li

(167) ees par :. ; ln d. d. (2.3) (2.4). (u) = (; ln u) (u) = (e;u ) ;1 (u) = ; ln ;1 (u). Le passage d'une forme int

(168) egrale a une forme non int

(169) egrale peut ^etre eectu

(170) e a l'aide de : (u) = ; h(u) u  = ;h u1 (u) = g(u) modulo les propri

(171) et

(172) es d'invariance des formes fonctionnelles d'entropies par transformation des fonctions f g  

(173) evoqu

(174) ees plus loin. On en montre un exemple pour les entropies d'ordre

(175) pour lesquelles ces relations sont di

(176) erentes.. Exemples Les quatre formes fonctionnelles valent en particulier pour l'entropie de Shannon :. Z d d. ln H1 ( ) = ; d d d. (2.5). qui correspond a : h(u) = h1 (u) g(u) = g1 (u) (u) = 1 (u) (u) = 1 (u). = u ln u = u = u  1   = ; ln u = h1(u) = ;h1 u L'exemple le plus connu d'entropie int

(177) egrale est l'entropie d'ordre

(178) de Havrda-Charvat :   Z H ( ) =

(179) ;1 1 1 ; d (x) d (x) d (x) (

(180) 6= 1) qui correspond a : h(u) = h (u) =

(181) ;1 1 (u ; u)   g(u) = g(u) =

(182) ;1 1 1 ; e;(;1)u. (2.6) (2.7) (2.8). Elle admet comme cas particulier l'entropie de Shannon : lim H ( ) = H1 ( ) !1 . Pour

(183) = 2, il s'agit de l'indice de diversit

(184) e de Gini 122]. L'exemple le plus connu d'entropie non int

(185) egrale est l'entropie d'ordre

(186) de Renyi :  Z eH ( ) = ; 1 ln d (x) d (x)

(187) ;1 d (x). (2.9). Irisa.

(188) 9. Information: entropies, divergences et moyennes Tab. 2.1 { Les trois fonctions h   et les entropies d'ordre

(189) .. Cas g

(190) en

(191) eral. Entropies d'ordre

(192). (u) = (; ln u). (u) =  (; ln u). (u) = ; h(uu) ;  = ;h u1. (u) = ;(

(193) ; 1) ; hu(u) + 1 ;  = (

(194) ; 1) h u1 + 1. (u) = ;eu h(e;u ) = ;h(eu ). (u) = ;(

(195) ; 1) (;eu h (e;u )) + 1 = (

(196) ; 1) h(eu ) + 1. h(u) = ;u (u). h(u) = ; ;1 1 (;u  (u)) ; ;u 1. . 1(u) = ;h01 (u) + 1. . (u) = 1 (

(197) ; 1) h0 (u) + 1]. h(u) = ;u (; ln u) h(u) = ; ;1 1 (;u  (; ln u)) ; ;u 1 (

(198) 6= 1) qui correspond a :. (u) =  (u) = e;(;1)u (u) =  (u) = u;1. (2.10) (2.11). Elle admet comme cas particulier l'entropie de Shannon :. lim He ( ) = H1 ( ) !1 . Son importance, en particulier pour le codage, est r

(199) esum

(200) ee par la propri

(201) et

(202) e :. ;

(203) He +1 (P) = ln E.   ln P (X)  e. En d'autres termes, l'entropie de R

(204) enyi n'est autre que le logarithme de la fonction caract

(205) eristique (ou fonction g

(206) en

(207) eratrice des moments m.g.f.) ou encore la fonction g

(208) en

(209) eratrice des cumulants de ln P(X). Le tableau 2.1 met en

(210) evidence les relations entre les formes d'entropies d'ordre

(211) . On donne d'autres exemples d'entropies a la section 2.4.. 2.1.2. f -divergences Les f-divergences ont

(212) et

(213) e propos

(214) ees vers 1965 ind

(215) ependamment par Ali-Silvey 11] et Csisz

(216) ar 51], puis red

(217) ecouvertes par Aka$%ke 8] et Zaka$%-Ziv 165] dans la d

(218) ecennie suivante. Les f-divergences entre une mesure. et une mesure , que l'on peut introduire pour chaque forme fonctionnelle d'entropie (2.1)-(2.3), sont d

(219) e!nies 11, 51, 6, 165, 53, 117] par : I(  ) = ;H ( ) (2.12) On notera Ih (ou If ), I , I les divergences ainsi associ

(220) ees aux entropies Hh , H , H . Pour certaines divergences d'ordre

(221) , cette d

(222) e!nition vaut a un coe&cient multiplicatif pres. On en d

(223) ecrit a la section 2.5 de tres nombreux exemples, recouvrant la plupart des distances utilis

(224) ees. On peut d'ailleurs s'

(225) etonner, au vu de l'identit

(226) e formelle (2.12) entre entropies et f-divergences, qu'il y ait eu dans la litt

(227) erature si peu d'entropies introduites en regard du nombre de f-divergences. PI n 1020.

(228) 10. Michele Basseville. Dans le cas de lois admettant une densit

(229) e, on peut

(230) evidemment aussi

(231) ecrire une f-divergence entre deux lois P et Q en consid

(232) erant leurs densit

(233) es p et q par rapport a une m^eme mesure de r

(234) ef

(235) erence . On verra plus loin que les f-divergences, qui sont homogenes de degr

(236) e 1, ne d

(237) ependent pas du choix de cette mesure de r

(238) ef

(239) erence , contrairement aux entropies dont elles d

(240) ecoulent. On verra aussi que, dans le cas param

(241) etrique, les f-divergences sont

(242) etroitement li

(243) ees a l'information de Fisher. En!n, on montrera que la dualit

(244) e convexe joue un r^ole a deux niveaux pour les f-divergences int

(245) egrales : une propri

(246) et

(247) e de dualit

(248) e sur f caract

(249) erisant des f-divergences particulieres, une propri

(250) et

(251) e de dualit

(252) e sur If en tant que fonction sur l'espace des mesures. f -divergences integrales Une f-divergence int

(253) egrale, associ

(254) ee a une entropie int

(255) egrale Hh , s'

(256) ecrit : Z d  Ih (  ) = h d d. La forme usuelle d'une f-divergence 52] :   Z (2.13) If (P Q) = f qp q d = EQ f qp correspond donc bien a : f(u) = h(u) On impose en g

(257) en

(258) eral la condition f(1) = 0 pour assurer que If (P P ) = 0. L'exemple le plus connu de f-divergence int

(259) egrale est l'information de Kullback ou entropie relative, qui se d

(260) eduit de l'entropie de Shannon (2.5) par la d

(261) e!nition (2.12): Z d d. K (  ) = d ln (2.14) d d. et qui correspond a : h(u) = h1(u) = u lnu En terme des densit

(262) es : Z K(P Q) = p ln p d q Un autre exemple connu est la I -divergence de Csisz

(263) ar, appel

(264) ee aussi 2 -divergence d'ordre

(265) , d

(266) e!nie par 105, 154, 117]: Z;  (2.15) R(P Q) =

(267) (

(268) 1; 1) pq1; ;

(269) p ; (1 ;

(270) )q d Z;  =

(271) (

(272) 1; 1) pq1; ; 1 d (2.16). et qui correspond a :. Du constat de ce que :. 8 1 (u ;

(273) u +

(274) ; 1)

(275) 6= 0 1 < (;1) f(u) = r(u) = : ; ln u + u ; 1

(276) =0 u ln u ; u + 1

(277) =1. (2.17). r(u) =

(278) 1 (h (u) ; u + 1) (

(279) 6= 0) on d

(280) eduit que l'on pourrait

(281) evidemment appeler aussi cette divergence : information d'ordre

(282) de Havrda-Charv

(283) at par la correspondance (2.12) avec l'entropie (2.6). f -divergences non integrales De m^eme, une f-divergence non int

(284) egrale, associ

(285) ee a une entropie non int

(286) egrale H , s'

(287) ecrit :   Z d d ; 1 I (  ) = ; d. d  ; ln d  I (P Q) = ;;1 EQ pq  ; ln qp. Irisa.

(288) 11. Information: entropies, divergences et moyennes. L'exemple le plus connu de f-divergence non int

(289) egrale est l'information de Renyi, qui se d

(290) eduit de l'entropie de R

(291) enyi (2.9) par la d

(292) e!nition (2.12) :  Z (2.18) Re (  ) =

(293) ;1 1 ln d (x) d (x) d (x) et qui correspond a : (u) =  (u) = e;(;1)u et : (u) = (u) = u;1 En termes des densit

(294) es, l'information de R

(295) enyi s'

(296) ecrit 2 : Z Re  (P Q) =

(297) ;1 1 ln p(x) q1;(x) d (x) Dans certaines r

(298) ef

(299) erences, et exceptionnellement dans la suite, l'information de R

(300) enyi est d

(301) e!nie avec un facteur multiplicatif 1=

(302) suppl

(303) ementaire. On notera 52, 56] qu'elle est li

(304) ee a la fonction caract

(305) eristique (fonction g

(306) en

(307) eratrice des moments) du logarithme du rapport de vraisemblance ln QP ((XX )) par :. . . P (X ). . P (X ). EP e ln Q X = e Re. On en d

(308) eduit que :. (. ).  (PQ). 1+. (2.19). . ln EP e ln Q X =

(309) Re 1+ (P Q) autrement dit que l'information de R

(310) enyi n'est autre, a une constante pres, que la seconde fonction caract

(311) eristique, ou fonction g

(312) en

(313) eratrice des cumulants, du logarithme du rapport de vraisemblance ln PQ((XX)) . Ceci laisse entrevoir son r^ole en test d'hypotheses et classi!cation pour le calcul de probabilit

(314) es d'erreur 28, 155]. De nombreux autres exemples de telles f-divergences int

(315) egrales et non int

(316) egrales sont discut

(317) es en d

(318) etail a la section 2.5. (. ). 2.2 Autres divergences associ ees a une entropie (Classe 2). Suivant 41], on d

(319) e!nit maintenant des proc

(320) ed

(321) es constructifs de divergences a partir d'une entropie H, distincts de (2.12). On d

(322) e!nit ainsi quatre divergences entre lois: D J K L. Les divergences D et J sont d

(323) e!nies a partir de la di

(324) erentielle de G^ateaux et de la di

(325) erence de Jensen respectivement. Elles ne requierent pas que l'entropie H soit de la forme int

(326) egrale (2.1). Les divergences K et L, d

(327) e!nies par analogie avec des expressions alternatives de Kullback, ne valent que pour des entropies int

(328) egrales. L'identit

(329) e de D et J est une caract

(330) erisation de l'entropie quadratique 125]. De plus, on montre a la section 5.2, en utilisant les m

(331) etriques associ

(332) ees, que certaines divergences peuvent ^etre caract

(333) eris

(334) ees par l'identit

(335) e de ce type de construction avec les f-divergences, comme indiqu

(336) e au tableau 5.1. En outre, comme d

(337) eja indiqu

(338) e a la section 2.4, l'identit

(339) e de la f-divergence If et de la L-divergence permet de construire de nouvelles entropies, par la solution (5.27) de (5.24). Remarquons pour commencer que la di

(340) erence des entropies : H(Q) ; H(P) ne d

(341) e!nit pas un gain d'information (ou divergence) satisfaisant, pour la simple raison qu'elle n'est pas toujours positive.. 2.2.1 Dierentielle de G^ateaux et dierence de Jensen. On d

(342) e!nit d'abord la di

(343) erentielle de G^ateaux et la di

(344) erence de Jensen n

(345) ecessaires a la d

(346) e!nition des divergences D et J.. R 2. La quantite p (x) q1; (x) d(x) est appelee integrale de Hellinger. Cette integrale, et donc l'information de Renyi, s'evalue aisement dans le cas de martingales (processus et champs aleatoires) 155]. PI n 1020 . .

(347) 12. Michele Basseville. 2.2.1.1 Dierentielle de G^ateaux. La di

(348) erentielle de G^ateaux est d

(349) e!nie par:  H(P + tR) ; H(P) = H0 (P)  R  H(P : R) = dtd H(P + tR) = tlim ! 0 t t=0 Dans le cas d'une fonctionnelle d'entropie int

(350) egrale (2.40):. Z. (2.20).  Hh (P : R) = ; h0 (p(x)) r(x) d (x). (2.21). J(H )(P Q) = H(P + (1 ; )Q) ;  H(P) ; (1 ; ) H(Q). (2.22). 2.2.1.2 Dierence de Jensen Soit 0    1:. Dans le cas d'une fonctionnelle d'entropie int

(351) egrale, a cause de (2.41), on a: pour h (u) =  h(u) +  u +  J(h ) (P Q) =  J(h ) (P Q). (2.23). 2.2.2 Divergences associees a des entropies non necessairement integrales. On d

(352) e!nit maintenant la distance de Bregman et la J-divergence, qui sont d

(353) e!nies pour toutes les formes d'entropies, int

(354) egrales ou non. On montre le r^ole jou

(355) e par l'op

(356) erateur de moyenne arithm

(357) etique dans le lien entre ces deux divergences.. 2.2.2.1 Distance de Bregman ou divergence dirigee. Cette classe de distances a

(358) et

(359) e introduite par Bregman pour la programmation convexe en 1967 38].. De

(360) nition Pour une fonctionnelle d'entropie su&samment r

(361) eguliere, la distance de Bregman ou divergence dirig

(362) ee est d

(363) e!nie par 125]: DH (P Q) = H(Q) ; H(P) +  H(Q : P ; Q) (2.24) ou  H(Q : P ; Q) est d

(364) e!nie en (2.20) et (2.21). Remarquer que cette divergence est identique a la

(365) -divergence d'Amari 13]. Noter que DH (P Q) n'est pas n

(366) ecessairement sym

(367) etrique 3. Dans le cas d'une entropie int

(368) egrale, elle est appel

(369) ee divergence dirig

(370) ee par Rao voir plus loin. Tout comme l'entropie, la distance de Bregman d

(371) epend de la mesure de r

(372) ef

(373) erence, et sera not

(374) ee DH (P Q) si besoin est. Pour l'entropie de Shannon H = H1 , on retrouve l'information de Kullback : (2.25) DH (P Q) = K (P Q) 1. Proprietes Bregman comme derivee a l'origine de Jensen. . @ J( ) (P Q) DH (P Q) = @ H  =0. (2.26). Jensen comme moyenne de Bregman 125] Lorsque H est strictement concave, du fait de la lin

(375) earit

(376) e de l'op

(377) erateur di

(378) erentiel de G^ateaux, la di

(379) erence de Jensen s'

(380) ecrit comme la moyenne des distances de Bregman entre chaque loi et le barycentre des lois: J(H )(P Q) =  DH (P P + (1 ; )Q) + (1 ; ) DH (Q P + (1 ; )Q) (2.27) Il est important de souligner que le barycentre des lois qui intervient ici est celui qui correspond a la moyenne arithmetique, et pas a la moyenne 'h ou ' sous-jacente a l'entropie H. 3. En fait, la symetrie de D caracterise les entropies quadratiques 125]. H. Irisa.

(381) 13. Information: entropies, divergences et moyennes. Autres relations 125] @ J( ) (P Q) = D ((1 + )P ; Q P + (1 ; )Q) H @ H ;H(P + (1 ; )Q) + H((1 + )P ; Q) + H(Q) ; H(P) @ J( ) (P Q) = K (P P + (1 ; )Q) ; K (Q P + (1 ; )Q) @ H 1. 2.2.2.2 J-divergence de Rao. D'usage courant en anthropologie, g

(382) en

(383) etique, biologie, elle est d

(384) e!nie par Rao 122]:  JH (P Q) = J(1H =2)(P Q) = H P +2 Q ; 12 H(P) ; 12 H(Q) Elle est appel

(385) ee aussi rayon d'information 146, 56], car elle est

(386) egale a ce rayon d'information dans le cas particulier ou l'on considere n = 2 lois et ceci en donne une autre justi!cation, puisque le rayon d'information n'est autre que l'exposant de Gallager qui joue un r^ole important en codage. Le rayon d'information est d

(387) e!ni plus loin lorsque l'on discute les extensions de cette J-divergence.. 2.2.3 Divergences associees a des entropies integrales 2.2.3.1 Distance de Bregman ou distorsion projective La distorsion projective est d

(388) e!nie en 84] par :. Z. Dh(P Q) = dh (p q) d (x) ou: et donc, d'apres (2.21):. dh (p q) = h(p) ; h(q) ; h0 (q) (p ; q). Dh (P Q) = Hh (Q) ; Hh (P) + Hh (Q : P ; Q) ou Hh est d

(389) e!nie en (2.40). Elle est identique a la distance de Bregman DH (2.24).. (2.28). Elle est invariante par transformation lin

(390) eaire . D h(u)+ u+ =  Dh Remarque D = Dh satisfait l'

(391) egalit

(392) e triangulaire: D(R P ) = D(R P) + D(P P ) (8P 2 P ) ou P = arg Pmin 2P D(R P) Ceci est faux 84] pour les distances D de la forme f-divergence non int

(393) egrale (2.88) dans le cas ou g(u) 6= u, et. donc en particulier pour l'information de R

(394) enyi (2.90), la distance de Bhattacharrya ou celle de Matusita.. 2.2.3.2 J K L-divergences de Rao. Elles ont

(395) et

(396) e introduites par Rao 41] : { J-divergence : elle s'

(397) ecrit maintenant:.  Z 1 1 p + q Jh(P Q) = 2 h(p) + 2 h(q) ; h 2 d (x). { K-divergence : elle est d

(398) e!nie par analogie avec (2.70) ou h(u) = u lnu:  Z h(p) h(q) Kh (P Q) = (p ; q) p ; q d (x) PI n 1020. (2.29). (2.30).

(399) 14. Michele Basseville. { L-divergence : elle est d

(400) e!nie par analogie avec (2.69) ou h(u) = u lnu:   Z p q Lh (P Q) = p h p + q h q d (x). (2.31). La notation n'est pas completement stabilis

(401) ee puisque, outre les perturbations introduites en 106], en 44] la L-divergence est appel

(402) ee K-divergence. Voir 42] pour propri

(403) et

(404) es (positivit

(405) e, convexit

(406) e, in

(407) egalit

(408) es) des J K L-divergences en fonction des propri

(409) et

(410) es de h. En particulier: 4 Jh  Kh , ; h(u) u convexe Noter qu'une L-divergence est une f-divergence, pour f donn

(411) ee en (5.24), ainsi qu'on le montre a la section 5.2.. 2.2.3.3 Distance de Bregman et J K L-divergences d'ordre

(412) Pour h = h , on note D, et J K  L (dites J K L-divergences d'ordre

(413) ):. Z. 1. Z.

(414). Z. ;

(415) ; 1 pq;1 d (x)

(416) ; 1 Z p + q p + q 

(417) 1 J(P Q) =

(418) ; 1 d (x) 2 ; 2 Z K(P Q) =

(419) ;1 1 (p ; q)(p;1 ; q;1) d (x)  Z;  pq1; + q p1; d (x) ; 2 L(P Q) =

(420) ;1 1 D(P Q) =. q d (x) +. p d (x). (2.32) (2.33). D1(P Q) = K (P Q) K1 (P Q) = K(P Q) L1(P Q) = K(P Q)

(421) K (P Q) = D (P Q) + D(Q P). ;. . (2.34). (

(422) ; 1) L = e(;1) Re  +Re ; ; 2 (2.35) ou Re  est l'information d'ordre

(423) de R

(424) enyi (2.90). e  sont homogenes de degr

(425) e 1 tout comme les f-divergences If (2.63), et que, pour On note que L et R

(426) 6= 1, D J K ne le sont pas. Ceci a une cons

(427) equence sur les m

(428) etriques associ

(429) ees voir plus loin. (1. ). 2.2.3.4 Divergence et entropie quadratique 125] Pour l'entropie quadratique Q (2.62), on a les relations : J(Q )(P Q) = 4  (1 ; ) JQ(P Q) DQ(P Q) = 4 JQ(P Q) autrement dit la distance de Bregman et la J-divergence sont identiques.. (2.36). R

(430) eciproquement, ceci fournit une caract

(431) erisation de l'entropie quadratique : J(H ) (P Q) = g( 1 ; ) JH (P Q) ou g sym

(432) etrique , H = Q On donnera une autre caract

(433) erisation de l'entropie quadratique au chapitre 3.. 2.3 Information mutuelle 51, 3, 49, 74, 75, 154].. Irisa.

(434) 15. Information: entropies, divergences et moyennes. 2.3.1 Information mutuelle de Shannon. 142, 154] L'information mutuelle ou information de Shannon entre 2 variables al

(435) eatoires X1 et X2 est l'entropie relative (ou information de Kullback) entre la loi jointe P(x1 x2) et le produit des lois P1(x1 ) P2(x2 ): I1(X1 X2) = K (P P1 P2) (2.37) = H1 (P1) + H1 (P2 ) ; H1 (P ) = H1 (X1 ) + H1 (X2 ) ; H1 (X1  X2) (2.38) = H1 (X2 ) ; H1 (X2 jX1 ) = H1 (X1 ) ; H1 (X1 jX2 ) (2.39). 2.3.2 Extensions. On peut imaginer

(436) etendre la d

(437) e!nition pr

(438) ec

(439) edente : { Soit en changeant d'entropie dans (2.38): IH (X1 X2) = H(X1 ) + H(X2) ; H(X1 X2) { noter qu'avec cette d

(440) e!nition, on a IH (X X) = H(X), i.e. 75] l'entropie d'une variable aleatoire est l'information qu'elle porte sur elle-m^eme, ce qui est bien confortable { Soit 51, 154] en changeant de divergence dans (2.37): ID (X1 X2) = D(P P1 P2) Pour D = V (distance en variation), on obtient le coe&cient de H$oding, et pour D = R (2-divergence) on obtient le « mean square contingency » de Pearson 154, 126] pour D = If , on obtient la f-information de Csisz

(441) ar 51, 52] pour D = Re  , on a l'information mutuelle d'ordre

(442) de Csisz

(443) ar 52, 56]. { Soit m^eme 152] en changeant de d

(444) e!nition de l'entropie conditionnelle dans (2.39). { ou encore 52] en d

(445) e!nissant: Hf (X) = IIf (X X) et: IHf (X1 X2) = Hf (X2) ; Hf (X2jX1) Noter que IHe (X1 X2) 6= IRe (X1 X2) 56]. 2.3.3 Conditionnement et additivite. L'information de Kullback possede la propri

(446) et

(447) e de d

(448) ecomposition additive par conditionnement (dite de chain rule 49]) : K (PX X  QX X ) = K (PX  QX ) + EX (K (PX jX  QX jX )) La seule autre f-divergence qui possede cette propri

(449) et

(450) e semble ^etre l'information de R

(451) enyi (2.90) dans le cas Gaussien (voir a la !n). En eet, pour les f-divergences int

(452) egrales, une condition n

(453) ecessaire est que :   q q  f px jx pqx = f pqx + f px jx x x jx x x jx i.e. compte tenu de (2.64): f(u) = ;

(454) ln u (

(455) > 0) Pour les f-divergences non int

(456) egrales, il faut de m^eme que : (u + v) = (u) (v) ;1 (uv) = ;1 (u) + ;1 (v) soit (u) = e;u . 1. PI n 1020. 2. 1. 2. 1. 1. 1. 2. 2. 1. 1. 1. 2. 1. 2. 1. 1. 1. 2. 1. 1. 2. 1.

(457) 16. Michele Basseville. 2.4 Exemples d'entropies. On considere des fonctionnelles d'entropie H (P), pas n

(458) ecessairement concaves. La d

(459) ependance vis-a-vis de la mesure de r

(460) ef

(461) erence sera omise lorsqu'il n'en r

(462) esultera pas d'ambigu$%t

(463) e. Comme indiqu

(464) e en introduction, on distingue trois formes fonctionnelles d'entropie, l'une int

(465) egrale, les deux autres pas.. 2.4.1 Fonctionnelle d'entropie integrale 2.4.1.1 De

(466) nition et proprietes d'invariance. Soit h une fonction convexe, souvent de classe C 2 : Th ! R, ou T0 = 0 1] Th R+ . L'entropie int

(467) egrale d'une loi de probabilit

(468) e P relative a une mesure est d

(469) e!nie par :. Z. Hh (P ) = ; h(p(x)) d (x) ou la densit

(470) e p = dP d est a valeurs dans Th . En vertu de (4.31), on a la propri

(471) et

(472) e : pour h(u) =  h(u) +  u. (2.40). Hh  (P) =  Hh (P) ; . (2.41). 2.4.1.2 Exemple: entropie d'ordre

(473) de Havrda-Charvat Entropie d'ordre 1 et dualite L'entropie de Shannon, dite aussi entropie ou mesure d'information d'ordre 1, s'

(474) ecrit :. H1 (P ) =. ;. Z. p(x) ln p(x) d (x)  1 = EP ln p(X). (2.42) (2.43). Elle est de forme int

(475) egrale pour :. h(u) = h1 (u) = u ln u et l'eet du changement de mesure de r

(476) ef

(477) erence s'exprime par :. 0 d. H1 0 (P ) = H1 (P) + EP ln d. En!n, un calcul direct de Lagrangien permet de montrer que, consid

(478) er

(479) ee comme fonction d'une densit

(480) e de probabilit

(481) e, l'opposee de l'entropie de Shannon est la fonction duale d'un log. m.g.f. (logarithme d'une fonction g

(482) en

(483) eratrice des moments) 59]: Z (;H1 ) (q) = ln eq d. (2.44). Entropie d'ordre

(484) L'entropie d'ordre

(485) de Havrda-Charv

(486) at, dite aussi mesure d'information d'ordre

(487) , est l'entropie int

(488) egrale correspondant a la fonction h 78] : 8 1 (u ; u) (

(489) 6= 1) < ;1 h (u) = : u lnu (

(490) = 1) d

(491) e!nie pour

(492) 2 R. Cette fonction satisfait : h00 (u) =

(493) u;2 h  (u) =

(494) ;1 1 (u1; ; 1)   ln 1 + (

(495) ; 1) h  (u) = (1 ;

(496) ) ln u h (u) =. (2.45). (2.46) (2.47).  (

(497) ; 1)u + 1  ;. 1.

(498). (2.48). Irisa.

(499) 17. Information: entropies, divergences et moyennes. La fonction g associ

(500) ee est :. g(u) =

(501) ;1 1 (1 ; e;(;1)u) Pour simpli!er, on note H = Hh  cette entropie qui s'

(502) ecrit :. 8 1 ;1 ; R p(x) d (x) (

(503) 6= 1) < ;1 H (P ) = : R ; p(x) ln p(x) d (x) (

(504) = 1). (2.49). Pour

(505) = 1, on retrouve l'entropie de Shannon H1 , et pour

(506) = 2, il s'agit de l'indice de diversit

(507) e de Gini 122]. Cette entropie admet une autre expression 109]:  Z p(x)  H (P) = F (x) h F(x) d (x) ou : Zx F(x) = p(y) d (y). ;1. est la fonction de r

(508) epartition, et h est la fonction d'information associ

(509) ee a h : h(u) = h(u) + h (1 ; u) =

(510) ;1 1 u + (1 ; u) ; 1] Cette expression peut ^etre utile en !abilit

(511) e pour des dur

(512) ees de vie.. Operateur de moyenne L'op

(513) erateur de moyenne (4.8) associ

(514) e a l'entropie de Havrda-Charv

(515) at est : '(h) (p) =

(516) 1 1. ;. X n 1;. P ou l'on suppose toujours les poids normalis

(517) es: ni=1 i = 1.. i=1. i pi ;1. !. (2.50). 2.4.1.3 Entropies deduites des f -divergences integrales. L'

(518) ecriture des formes int

(519) egrales d'entropies (2.1) et de f-divergences associ

(520) ees (2.12) permet de d

(521) e!nir, a partir d'une f-divergence int

(522) egrale quelconque entre une loi et une mesure de r

(523) ef

(524) erence , une entropie int

(525) egrale de la loi par : Hf ( ) = ;If (  ) soit encore : Z Hf (P) = ; f(p(x)) d (x). pour l'une quelconque des fonctions f list

(526) ees plus loin. Par exemple, l'entropie qui correspond a la distance (ou divergence) de Hellinger est :. HH (P) =. Zp. p(x) d (x) ; 1. qui n'est autre que la moiti

(527) e de l'entropie de Havrda-Charv

(528) at d'ordre 1=2. De m^eme, l'entropie qui correspond a la 2 -divergence est : Z 1 Hr (P) = 2 (p(x) ; 1)2 d (x) qui n'est autre que la moiti

(529) e de l'entropie de Havrda-Charv

(530) at d'ordre 2.. 2.4.2 Fonctionnelles d'entropie non integrales. On considere maintenant les formes non int

(531) egrales (2.4)-(2.3).. PI n 1020.

(532) 18. Michele Basseville. 2.4.2.1 De

(533) nition et proprietes d'invariance. On d

(534) e!nit des entropies non int

(535) egrales d'une loi P relativement a une mesure de r

(536) ef

(537) erence par 52, 3]:. H (P ) = ;1 H (P ) =. Z. p(x) (; ln p(x)) d (x). ; ln ;1. Z. . p(x) (p(x)) d (x). . (2.51) (2.52). ou  et  sont strictement monotones, et souvent de classe C 2 , et : (u) = (; ln u) On d

(538) eduit de (4.29)-(4.30) que les entropies H (P) H (P ) sont inchang

(539) ees par dilatation de   : pour (u) =  (u) +  H (P ) = H (P) (2.53) (2.54) pour (u) =  (u) +  H (P ) = H (P). 2.4.2.2 Exemple: entropie d'ordre

(540) de Renyi. Comme on l'a d

(541) eja indiqu

(542) e, l'entropie de Shannon (2.42) peut ^etre

(543) ecrite sous ces formes fonctionnelles non int

(544) egrales a l'aide de : (u) = 1 (u) = u et : (u) = 1(u) = ; ln u L'entropie d'ordre

(545) de R

(546) enyi 130, 52, 49] est l'entropie de forme fonctionnelle (2.51) correspondant a la fonction  :  (u) = e;(;1)u (2.55) et a la fonction  : (u) = u;1 (2.56) Pour simpli!er, on note He  = H  = H  cette entropie qui s'

(547) ecrit : 8 ; 1 ln R p(x) d (x) (

(548) 2 R  6= 1) > + > ;1. > > > < ; R p(x) ln p(x) d (x) (

(549) = 1) He  (P) = > ln (fx : p(x) > 0g) (

(550) = 0) > > > : ; ln maxx p(x) (

(551) = 1). (2.57). L'entropie d'ordre 0 a

(552) et

(553) e introduite par Hartley en 1920 et semble avoir

(554) et

(555) e la premiere mesure d'information 4]. Selon R

(556) enyi et Csisz

(557) ar 130, 52], l'entropie d'ordre

(558) a

(559) et

(560) e introduite par Sch$utzenberger en 1953 141] elle a

(561) et

(562) e reprise par R

(563) enyi en 1961. N

(564) eanmoins Parzen et Vajda 117, 155] a&rment que l'information de R

(565) enyi n'est autre qu'une divergence propos

(566) ee par Bhattacharrya en 1943 30]. Pour

(567) 6= 1, cette entropie n'est pas de e  est strictement convexe 28]. Par contre, pour

(568) > 1, He  n'est ni concave la forme (2.40). Pour 0 <

(569)  1, H ni convexe en g

(570) en

(571) eral 28, 122]. Cependant, pour tout

(572) , He  est pseudo-concave. L'entropie de R

(573) enyi possede l'importante propri

(574) et

(575) e d'^etre li

(576) ee a la fonction caract

(577) eristique de ln P(X) (ce qui laisse entrevoir son r^ole en codage) par 46, 52, 56] :     E e ln P (X ) = e; He   (P ) = +1 He +1 (P) (2.58) Autrement dit, l'oppose de l'entropie de Renyi { et non pas sa fonction duale { est un log. m.g.f. :   ;

(578) He +1 (P) = ln E e ln P (X) L'entropie de R

(579) enyi est li

(580) ee a l'entropie de Havrda-Charv

(581) at par : (1 ;

(582) ) He  (P) = ln1 ; (

(583) ; 1) H (P)] soit: H ( ) = ;1 (1 ; (

(584) ; 1)Hh ( )) +1. Irisa.

(585) 19. Information: entropies, divergences et moyennes. Operateurs de moyenne Les op

(586) erateurs de moyenne (4.7) et (4.9) correspondant a l'entropie de R

(587) enyi sont : n X 1 ( ) ' (u) =

(588) 1 ln i e;(;1)ui i=1. ; ;. et :. '() (p) =. X n i=1. tandis que la -average probability (4.10) est :. i pi ;1. ! ; 1. 1. (2.60). X ! ; n  1. G(p) =. (2.59). i=1. pi. 1. (2.61). Les relations

(589) etablissant le lien avec l'op

(590) erateur de moyenne (2.50) sous-jacent a l'entropie de Havrda-Charv

(591) at dierent des relations (4.12)-(4.13) du cas g

(592) en

(593) eral, a cause du lien entre les trois fonctions h    r

(594) esum

(595) e au tableau 2.1, qui est distinct du cas g

(596) en

(597) eral discut

(598) e dans l'introduction. Ces relations s'

(599) ecrivent dans le cas pr

(600) esent :. . . '() (; ln p : : : ; lnpn) = ;1 1 ; (

(601) ; 1) '(h) (p)   '() (p) = ; 1 1 ; (

(602) ; 1) '(h) (p). Par contre, le lien entre  et 

(603) etant inchang

(604) e, la relation (4.20) vaut toujours :. '() (; ln p : : : ; ln pn) = ; ln '() (p : : : pn) Lorsque

(605) tend vers l'in!ni, l'entropie de R

(606) enyi correspond a l'op

(607) erateur de moyenne particulier qu'est le sup 146]. (Ceci remarque permet de donner une interpr

(608) etation de la distance en variation de Kolmogorov en termes d'information). On utilisera ces notions de moyenne sous-jacentes aux entropies d'ordre

(609) pour d

(610) e!nir, a la section 4.2, le rayon d'information comme extension de la di

(611) erence de Jensen.. 2.4.2.3 Entropies deduites des f -divergences non integrales. L'

(612) ecriture des formes non int

(613) egrales d'entropies (2.4)-(2.3) et de f-divergences associ

(614) ees (2.12) permet de d

(615) e!nir, a partir d'une f-divergence non int

(616) egrale quelconque entre une loi et une mesure de r

(617) ef

(618) erence , une entropie non int

(619) egrale de la loi par : H ( ) = ;I (  ) H ( ) = ;I (  ) soit encore :. H (P) = ;1. Z. . p(x) (; ln p(x)) d (x). H (P) = ; ln ;1. Z. . p(x) (p(x)) d (x). pour l'une quelconque des fonctions   list

(620) ees dans le tableau 2.3. p Par exemple, l'entropie qui correspond a la distance (ou divergence) de Bhattacharrya ((u) = ;1= u) est :. H (P) = 2 ln. Zp. p(x) d (x). qui n'est autre que l'entropie de R

(621) enyi d'ordre 1=2. De m^eme, l'entropie qui correspond a l'information d'ordre

(622) de R

(623) enyi est : Z 1 H  (P ) = ;

(624) ; 1 ln p (x) d (x) qui n'est autre que l'entropie de R

(625) enyi d'ordre

(626) . PI n 1020.

(627) 20. Michele Basseville. 2.4.3 Generalisations. On discute plusieurs types de g

(628) en

(629) eralisations.. 2.4.3.1 Par l'axiomatique pure. De nombreuses entropies ont

(630) et

(631) e introduites dans la litt

(632) erature 3, 109, 152]. Par exemple, les entropies :. R p+ ;1 d (x)  H (P ) = ;

(633) ; 1 1 ; R p d (x) R eH(P ) = ; 1 ln pR+ ;1 d (x)

(634) ;1 p d (x) Z 1. ;. H (P ) =. p +1 ln p d (x). sont extraites des 25 entropies di

(635) erentes list

(636) ees dans 152]. Selon 52], ces entropies n'ont jamais donn

(637) e lieu a autre chose que des justi!cations purement axiomatiques, et non pragmatiques ou op

(638) erationnelles, et n'ont donc qu'un int

(639) er^et r

(640) eduit.. 2.4.3.2 Entropie quadratique. Par contre, l'entropie quadratique:. Q(P ) = ;. Z XX. q(x y) p(x) p(y) d (x) d (y). (2.62). ou q(x x) = 0, a

(641) et

(642) e introduite par Rao 125, 124, 102]. Elle est int

(643) eressante : { par au moins trois de ses caract

(644) erisations (chapitre 3) : d'une part, l'identit

(645) e de deux proc

(646) ed

(647) es constructifs de divergences (par di

(648) erentielle de G^ateaux et par di

(649) erence de Jensen, i.e. D et J), et la sym

(650) etrie de D d'autre part, la positivit

(651) e de toutes les di

(652) erences de Jensen successives { parce que la m

(653) etrique di

(654) erentielle quadratique qui lui est associ

(655) ee est, comme celle de Fisher, invariante par changement sur le parametre et sur la variable. Sa concavit

(656) e est donn

(657) ee par la condition : q est un noyau d

(658) e!ni positif. , Q concave. A titre d'exemple, pour X = R, q(x y) = (x ; y)2 redonne la variance comme mesure de diversit

(659) e 123] :. Z. XX. (x ; y)2 p(x) p(y) d (x) d (y) = 2 var(P ). Un autre exemple concerne X = R2, q(x y) = (x1 ; y1)2 + (x2 ; y2 )2 .. 2.4.3.3 Entropie associee a une f -divergence symetrique. On peut aussi d

(660) e!nir des entropies a partir de f-divergences particulieres, par des proc

(661) ed

(662) es autres que la d

(663) e!nition (2.12). Nous en donnons deux exemples.. Par identite de procedes constructifs de divergences Comme on le montre plus loin en cherchant les f-divergences qui sont aussi une L-divergence de Rao, a toute f-divergence telle que la fonction convexe f. satisfasse (5.25), on peut associer une famille d'entropies par r

(664) esolution de (5.24) :  p 1 1 h(u) = 2 f(u) +  u h(u) ; h u ou h est n'importe quelle fonction convexe d

(665) e!nie sur 0 1 et nulle en dehors.. Irisa.

(666) 21. Information: entropies, divergences et moyennes. 2.4.3.4 Entropie associee a une information mutuelle. On peut aussi imaginer d

(667) e!nir une entropie a partir d'une information mutuelle par la relation 52, 19] : Hf (X) = IIf (X X) C'est ce que propose Arimoto 19] pour une entropie d

(668) e!nie par un inf, qui lui fait retrouver le rayon d'information de Sibson (section 4.2).. 2.5 Exemples de f -divergences On d

(669) ecrit en d

(670) etail les f-divergences (2.12), int

(671) egrales ou non, propos

(672) ees dans la litt

(673) erature. En particulier, on distingue un certain nombre de divergences d'ordre

(674) . On donne ensuite un contre-exemple de divergence d'ordre

(675) qui n'est pas une f-divergence. On examine ensuite, dans le cas param

(676) etrique, la relation

(677) etroite entre les f-divergences et l'information de Fisher et l'exhaustivit

(678) e. On termine par un certain nombre d'in

(679) egalit

(680) es entre ces distances, permettant d'a&rmer quand l'une est plus !ne que l'autre.. 2.5.1. f -divergences integrales. 2.5.1.1 De

(681) nition. Dans le cas de lois de probabilit

(682) e P Q admettant des densit

(683) es p q par rapport a une mesure de r

(684) ef

(685) erence , on les d

(686) e!nit 11, 51, 6, 165, 53, 117] par :  Z  (2.63) If (P Q) = EQ f pq = f pq q d (x) ou f est continue et convexe sur 0 +1, souvent de classe C 2 . On impose de plus : f(1) = 0 pour garantir If (P P) = 0 (2.64) f 00 (1) > 0 pour la m

(687) etrique (2.65) Il convient de noter que les f-divergences { qui sont homogenes de degr

(688) e 1 { ne dependent pas de la mesure de reference. De ce point de vue, on peut dire que la comparaison de telles mesures de distance se r

(689) eduit a la comparaison de fonctions convexes. Comme d

(690) eja annonc

(691) e en introduction, les f-divergences possedent les propri

(692) et

(693) es d'invariance suivantes :  = f(u) +  u +  If (P Q) = If (P Q) +  +  pour f(u) (2.66)   = uf 1  If (P Q) = If (Q P) pour f(u) (2.67) u En!n, comme on l'a d

Figure

Tab. 2.1 { Les trois fonctions h et les entropies d'ordre  . Cas general Entropies d'ordre
Tab. 2.2 { f -divergences integrales.
Tab. 2.3 { Fonctions  , et leurs fonctions duale et inverse.
Tab. 2.5 { f -divergences non integrales.
+3

Références

Documents relatifs

Colorier une partie du cochon qui porte le même résultat.. Le joueur qui a entièrement colorié son cochon en premier

Complète les carrés magiques pour que toutes les lignes, toutes les colonnes et toutes les diagonales obtiennent la

[r]

Les camarades de jeu retiennent la position des cartes pour former plus facilement de nouvelles paires. Pour l’impression du

Dans cette série d’exercices, on cherchera à déterminer la section du solide par un plan parallèle à une

[r]

[r]

[r]