Chapitre 2 : Th´eorie de l’information

(1)

Probabilit´ es

Chapitre 2 : Th´eorie de l’information

Lucie Le Briquer

Sommaire

1 Introduction et motivation 1

2 Entropie dans le cas discret 2

3 Entropie : cas g´en´eral 5

4 Conditionnement 9

4.1 Cas discret . . . 9 4.2 Plus g´en´eralement . . . 11

5 Sous-additivit´e de l’entropie 12

6 In´egalit´es de Sobolev Logarithmique 13

6.1 Mesure produit Bernoulli . . . 14 6.2 ISL-gaussienne . . . 16

1 Introduction et motivation

Pour l’instant on a toujours considéré une somme de v.a. réelles indépendantes. On aimerait faire un peu pareil pour les mesures. Reprenons X₁, ..., X_n v.a. indépendantes à valeurs dans {1, ..., r}de loiµ.

A chaque` Xi, on peut associer une mesure al´eatoire qui estSX_i. S_X_i est une v.a. `a valeurs dans l’espace des mesures sur{1, ..., r}.

SX_i: Ω−→ P({1, ..., r}) ω−→S_X_i_(ω)

E(SX_i) =X

(r´ealisation deSX_i)×P(r´ealisation)

=S1P(Xi = 1) +...+SrP(Xi=r)

=µ Prenonsµn=_n¹Pn

k=1SX_k somme de v.a. ind´ependantes de mˆeme loi.

(2)

Si on voulait ´etudier la d´eviation deµn autour deµ, il nous faudrait une sorte de distance qui nous permettrait de comparer les mesures. Mais dans un premier temps, comment comprendre une mesure ?

Exemple.

X de loi uniforme sur {1, ...,32}. Si on veut deviner le num´ero choisi parX, on a besoin de 5 questions binaires (5 bits), en faisant une dichotomie.

H(X) =−

32

X

i=1

p(i) log₂(p(i)) =−log₂ 1

32

= 5 Et si on n’avait pas la loi uniforme ?

Par exemple, on a une course `a 8 chevaux, ayant une proba de gagner chacun{¹₂,¹₄,¹₈,₁₆¹,₆₄¹,₆₄¹,₆₄¹,₆₄¹}.

Si on procède comme avant on a besoin de 3 questions. Ici on a intérêt à demander si le premier cheval a gagné d’abord.

Le nombre de bits moyen est 1×¹₂+ 2×¹₄+ 3×¹₈+ 4×₁₆¹ + 6×4×₆₄¹ = 2 Or :

−

8

X

i=1

p(i) log₂(p(i)) = 2 Est-ce une co¨ıncidence ? D’o`u vient le log ?

Shannon a voulu modéliser l’information donnée par un évènement ; ceci est lié à sa probabilité.

Ainsi, Shannon a voulu associer à chaque évènementE une fonctionh(E) qui dépend deP(E) et qui donne l’information découlant de la réalisation de cet évènement.

– h(E) doit être décroissante enP(E) ; plus un évènement est récurrent moins sa réalisation ramène de l’information

– h(E) = 0 lorsqueP(E) = 1 ; puisque si on sait queE est vrai alors sa r´ealisation ne nous rapporte aucune information

– siE et F ind´ependants on doit avoirh(E∩F) =h(E) +h(F) La fonctionh(E) = log

1 P(E)

vérifie ces propriétés. hest l’information d’un évènementE.

2 Entropie dans le cas discret

X v.a. `a valeurs dans un ensemble d´enombrableK de loiP(X=x) =px ∀x∈K.

L’entropie de Shannon (ou juste entropie) est d´efinie par : H(X) =E(−lnp(X)) = X

x∈K

p_xln 1

px

avec la convention 0×ln(0) = 0 D´efinition 1(entropie de Shannon)

(3)

Remarques.

– On a vu que l’entropie approche le nombre de bits pour d´ecrire la v.a.

– Plus l’entropie est grande, plus il y a de l’incertitude ; ainsi B ¹₂

est la Bernouilli ayant la plus grande entropie

– On a choisi le log en base e au lieu du log en base 2. Cela ne change rien, toutes les entropies sont proportionnelles.

H(X) = ln(2)H2(X) o`u H2 est l’entropie en base 2 – On a toujoursH(X)≥0 car 0≤p_x≤1

SoientP etQdeux probabilités sur un ensemble dénombrableKet soientp, qleurs fonctions de masse. On définit l’entropie relative entreP etQ(oudistance de Kullback-Leibler) par :

D(P||Q) =X

x∈K

p(x) ln p(x)

q(x)

siP est absolument continue par rapport `a Qet +∞sinon.

(avec la convention 0×ln

0 q

= 0 etpln ^p₀

= +∞) D´efinition 2(entropie relative)

Remarques.

– D n’est pas vraiment une distance, elle n’est pas symétrique et ne vérifie pas l’inégalité triangulaire

– Dmesure l’erreur de supposer que la loi d’une v.a. estqalors qu’en r´ealit´e elle estp

On a toujoursD(P||Q)≥0 avec égalité ssip(x) =q(x)∀x∈K Théorème 1 (inégalité de l’information)

Preuve.

SoitS= Supp(P) ={x∈K|p(x)>0}

−D(P||Q) =−X

x∈S

p(x) ln p(x)

q(x)

=X

x∈S

p(x) ln q(x)

p(x)

≤ln(X

x∈S

p(x)q(x)

p(x))≤ln 1 = 0 Sip(x) =q(x)∀x∈K alorsD(P||Q) = 0

Pour la réciproque, on sait que log est strictement concave, ainsi on a égalité si ^q(x)_p(x) = cste∀x∈S etS =K donc⇒ ^q(x)_p(x) = cste∀x∈K⇒q(x) =p(x)∀x∈K

(4)

X `a valeurs dans un ensemble d´enombrableK. Alors :

H(X)≤ln|K| avec ´egalit´e ssiX suit la loi uniforme Corollaire 2

Preuve.

SoitQloi uniforme etP la loi deX. On sait queD(P||Q)≥0 D(P||Q) = X

x∈K

p(x) lnp(x) q(x) = X

x∈K

p(x) ln(p(x))−X

x∈K

p(x) ln(q(x)

|{z}

=_−K¹

)

DoncD(P||Q) =−H(X) + ln(|K|)≥0 doncH(X)≤ln|K|

avec égalité ssiX suit la loi uniforme par le théorème précédent.

X, Y v.a. discrètes à valeurs dans K et Lrespectivement. L’entropie jointée H(X, Y) est l’entropie du couple (X, Y).

L’information mutuelle entreX et Y est l’entropie relative du coupleP(X,Y) et du produit des lois marginalesPX⊗PY surK×L

I(X, Y) =D(P(X,Y)||PX⊗PY) = X

x∈K y∈L

P(X,Y)(x, y) ln

P(X,Y)(x, y) P^X(x)P^Y(y)

D´efinition 3(entropie joint´ee)

Remarques.

– I(X, Y) =H(X) +H(Y)−H(X, Y)

– I(X, Y) ≥ 0 ⇒ H(X, Y) ≤H(X) +H(Y) avec égalité ssiX et Y sont indépendantes ; c’est la propriété de sous-additivité de l’entropie de Shannon

– I(X, Y) repr´esente l’information qu’on gagne surX connaissant Y – I(X, Y) =I(Y, X)

Plus tard, on d´efinira les entropies conditionnellesH(X|Y) =H(X, Y)−H(Y)

(5)

3 Entropie : cas g´ en´ eral

On noteφ(x) =xlnxd´efinie sur [0; +∞[ avec la conventionφ(0) = 0

Etant donn´´ ef une fonction positive etµune mesure surR. Alors : Entµ(f) =

Z

φ(f)dµ−φ Z

f dµ

= Z

flnf dµ− Z

f dµ

ln Z

f dµ D´efinition 4(entropie fonctionnelle)

Remarques.

– Si on ne sp´ecifie pas la mesure, cela sous-entend que c’est par rapport `a la mesure de Lebesgue

– Entµ(f)≥0 carφconvexe + Jensen

(Ω,A, P) un espace de probabilit´e etY une v.a. positive telle queE(Y)<+∞. On d´efinit : Ent(Y) =E(φ(Y))−φ(E(Y)) =E(Y lnY)−E(Y) ln(E(Y))

D´efinition 5(entropie d’une v.a. ≥0)

Remarques.

– Ent(Y)≥0 par Jensen

– Ent(Y)<+∞ssiE(φ(Y))<+∞

– Ent(cste) = 0

– Ent(λY) =λEnt(Y) ∀λ≥0

– Dans la littérature, on définit l’entropie d’une v.a. comme étant l’entropie fonctionnelle de sa densité

L’entropie relative deQpar rapport àP est donnée parD(Q||P) = Ent(Y) siQabsoluement continue par rapport àP et +∞sinon.

O`uY est obtenue comme suit : – Y de loiP etE(Y) = 1

– ∀A∈ A, Q(A) =E(Y1A), on ´ecrit alorsQ=Y P D´efinition 6(entropie relative)

(6)

Remarque.

En fait, ce qu’on est en train de dire est que siQ P alors par Radon-Nikodym, ∃f ≥0 tel que ∀A ∈ A Q(A) =R

Af dP et on d´efinit alors D(Q||P) comme l’entropie fonction de f par rapport `a P i.e. Ent_P(f)

Remarque.

Ceci généralise le cas discret. Si Ω dénombrable,P etQdeux probabilités sur Ω : Y(ω) =

( _q(ω)

p(ω) sip(ω)>0 0 sinon

On retrouve donc la d´efinition qu’on avait avant.

1. Y v.a. positive sur (Ω,A, P) telle queE(φ(Y))<+∞. Alors : Ent(Y) = sup

u∈U E(uY) o`uU ={uv.a. sur Ω tqE(e^u) = 1}

2. D’autre part, si uest telle queE(uY)≤Ent(Y) alorsE(eû)≤1 Théorème 2 (formule de dualité de l’entropie)

Remarque.

On peut tout ´enoncer pour l’entropie fonctionnelle : 1. ∀f ≥0 et∀µmesure surR

Entµ(f) = sup

g∈U

Z f gdµ o`uU ={g fonction surRtq R

e^gdµ= 1}

2. pareil

Preuve.

1. Ici on a pu faire ce changement careûP et aussi une probabilité puisqueEP(eû) = 1.

Pour l’´egalit´e, on prend utelle que ^Y

E(Y) =eû comme E(eû) = Ê^(Y⁾

E(Y) = 1 alors u∈ U et

e^−uY E(Y) = 1.

Donc Ent_e^−u_P(e^−u ^Y

E(Y)) = 0 et du coupE(uY) = Ent(Y).

Si E(uY)≤Ent(Y) ∀Y ≥0,E(Y) = 1 alorsE(e^u)≤1

(7)

2. Soitutelle queE(uY)≤ Ent(Y)

=E(YlnY)

∀Y ≥0,E(Y) = 1

Y = e^u

E(e^u) ∼E(ue^u)

E(e^u) ≤E( e^u

E(e^u)ln e^u

E(eû))∼E(ueû)≤E(eûlneû)−E(eû) lnE(eû)

⇒E(eû) ln(E(eû))≤0∼E(eû)≤1

Ici il manquerait que φ(Y) est int´egrable mais rien ne garantit ¸ca du coup on rendYn =

e^min(u,n)

E(e^min(u,n)) pour lequel E(φ(Yn))< +∞. On utilise le mˆeme raisonnement pour d´eduire

∀n,E(e^min(u,n))≤1, par le théorème de convergence monotone⇒E(eû)≤1

Remarque.

On peut reformuler la conclusion :

Ent(Y) = sup

T∈{v.a.≥0}E(Y[logT −log(E(T))]) en ´ecrivante^u= ^T

E(T)

P etQdeux probabilit´es sur Ω. Alors : D(Q||P) = sup

Z

[EQ(Z)−log(EPe^Z)]

o`u le sup est pris sur lesZ tels queEP(e^Z)<+∞

Corollaire 3

Preuve.

Si Q n’est pas absolument continue par rapport `a P ⇒ ∃A ∈ A tel que P(A) = 0 mais Q(A)>0

prenons∀n Zn=n1A, EQ(Zn) =Q(A)>0, EP(e^Zⁿ) = 1

e^Zⁿ=e¹^Aⁿ ∼EQ(Zn)−log_P(E(e^Zⁿ)) =nQ(A) −→

n→+∞+∞

siQP,D(Q||P) = Ent_dQ

dP

= sup

T

E







dQ dP[logT

| {z }

=Z

−log(E(T))

| {z }

=Ee(Z)

]







Si f est une fonction, la transform´ee de Legendre est : f^∗(t) = sup

λ∈R

{λt−f(λ)}

D´efinition 7(transform´ee de Legendre)

(8)

Pour X v.a., on note ΛX(λ) = logMX(λ)

Z v.a. centr´ee de loiP tqM_Z(λ)<+∞ ∀λ. Alors :

∀t >0, Λ^∗_Z(t) = inf

Q{D(Q||P),E^Q(Z)≥t}

Corollaire 8

Preuve.

λ_Z∗(t) = sup

λ∈R

{λt−Λ_Zλ}

Montrons d’abord que sup

λ∈R

{λt−Λ_Z(λ)} ≤ inf

Q:EQ(Z)≥t{D(Q||P)}

Soitλ∈R, etQtqEQ(Z)≥t D(Q||P) = sup

Y;EP(e^Y)<+∞

[EQ(Y)−log(EP(e^Y))] corollaire pr´ec´edent Donc :

D(Q||P)≥λEQ(Z)−log(EP(e^λZ))≥λt−Λ_Z(t) Il reste à montrer l’égalité. Prenons ^dQ_dP = ê^λZ

E(e^λZ) avecλ= Λ⁰_Z⁻¹(t) Il faut queEQ(Z)≥t ; maisEQ(Z) =EP

e^λZZ E(e^λZ)

= Λ⁰_Z(λ) =t D(Q||P) = Ent

dQ dP

= 1

E(e^λZ)[E(e^λZλZ)−E(e^λZ) ln(E(e^λZ))] =λΛ⁰_Z(λ)−Λ_Z(λ) =λt−Λ_Z(λ)

Remarques.

– EQ(Z)≥t⇔Q∈Γ ={µ|Eµ(Z)≥t},Q=δZ doncδZ ∈Γ veut direZ ≥t

– Rappelons nous le phénomène de concentration du premier chapitre. Inégalité de Chernoff :

P(X ≥t)≤ inf

λ>0{exp(−λt)M_X(λ)}= exp(−sup

λ>0

{λtΛ_X(λ)}) = exp(−Λ^∗_X(t)) AinsiZ≥tcorrespond àδZ ∈Γ et Λ^∗_Z(t) correspond à inf{D(Q||P);Q∈P}qui correspond en gros àd(P,Γ)

– Reprenons l’exemple du d´ebut de chapitre. X1, ..., Xn ind´ependantes de loi P, notons Pn= ¹_nPn

i=1δX_n alors :

1 n

n

X

i=1

Xi ≥t⇔Pn∈Γ

Avant on avait tiré avantage du fait que la concentration était contrôlée par MS_n(λ) = Qn

i=1MX_i(λ) o`u Sn =Pn

i=1Xi. Ici la concentration dépendra de d(Pn,Γ) ou encore de D(Q||Pn) pourQ∈Γ. On aimerait que l’entropie satisfasse des propriétés de tensorisation commeMX.

(9)

Cours du 10 mars

Remarque.

Pour toute fonction positivef, et toute mesure µ Entµf =

Z

flnf dµ− Z

f dµln Z

f dµ Siµest une proba alors Entµf ≥0.

Dans la littérature on définit l’entropie d’une densitéf (R

f dµ= 1) par−flnf dµ.

4 Conditionnement

4.1 Cas discret

(Ω,A,P) un espace de probabilité. Soit B ∈ A tq P(B) ≥ 0. On définit la probabilité conditionnelle sachantB par :

P(A|B) =P(A∩B)

P(B) ∀A∈ A D´efinition 8(probabilit´e conditionnelle)

Remarque.

Si X est int´egrable, E[X|B] = ^E^(X.1^B⁾

P(B) . On peut d´efinir l’esp´erance conditionnelle d’une v.a.

X sachant une autre v.a. Y. SiY est à valeurs dans un espace dénombrable E et E⁰ ={y ∈ E |P(Y =y)>0}, on définit :

E[X|Y =y] = E(X.1_{Y_=y})

P(Y =y) y∈E⁰

X ∈L¹(Ω,A,P). L’esp´erance conditionnellle deX sachantY est la v.a. d´efinie par : E[X|Y] =ϕ(Y)

O`u :

ϕ(y) =

E[X|Y =y] siy∈E⁰ 0 sinon

D´efinition 9(esp´erance conditionnelle)

(10)

Exemple.

Ω ={1, ...,6},P({i}) =¹₆

Y(ω) =

1 siω est impair 0 sinon

PourX(ω) =ω :

E[X|Y = 1] = E(X.1_Y₌₁)

P(Y = 1) = (1 + 3 + 5)¹₆

1 2

= 3

E[X|Y = 0] = E(X.1Y=0)

P(Y = 0) = (2 + 4 + 6)¹₆

1 2

= 4

Remarques.

– E[X|Y] est donc une v.a. qui estσ(Y)−mesurable

– on peut changer la définition de ϕsur E\E⁰, on obtiendrait des v.a. p.s. égales car E\E⁰ est négligeable

– Z =E[X|Y] ; Z(y) =E[X|Y =y]

– On a toujoursE|E[X|Y]| ≤E|X| (doncE[X|Y]∈L¹(Ω,A,P)) – SiZ v.a. σ(Y)−mesurable (born´ee) alors :

E(ZX) =E[Z E[X|Y]]

Proposition 8

Preuve.

– Pour le premier point :

E|E[X|Y]|= X

y∈E⁰

P(Y =y).|E[X|Y =y]|

= X

y∈E⁰

P(Y =y).|E(X.1_Y_=y)|

P(Y =y)

= X

y∈E⁰

|E(X.1_Y_=y)|

≤E|X|

(11)

– Z =ψ(Y) avecψborn´ee

E[ψ(Y).E[X|Y]] = X

y∈E⁰

P(Y =y).ψ(y).E[X|Y =y]

= X

y∈E⁰

P(Y =y).ψ(y).E(X.1Y=y) P(Y =y)

= X

y∈E⁰

ψ(y).E(X.1Y=y)

=E



 X

y∈E⁰

X.ψ(y).1Y=y





=E(Xψ(Y)

| {z }

Z

)

4.2 Plus g´ en´ eralement

X ∈L¹(Ω,A, P) etBsous-tribu deA. Il existe uneunique v.a. ∈L¹(Ω,B, P) not´eeE[X|B]

telle que :

∀B ∈ B, E[X.1_B] =E[E[X|B].1_B] Ou aussi∀Z B−mesurable on aE(XZ) =E[E[X|B]Z]

Si Y v.a., on d´efinit E[X|Y] =E[X|σ(Y)]

Théorème 9 (et définition)

Preuve.

1. Existence :

Supposons que X≥0 (sinon on écritX=X⁺−X⁻ et puis on refait la même chose pour X⁺ etX⁻). On définitQune mesure surBcomme :

∀B∈ B, Q(B) =E[X.1B]

On a QP sur (Ω,B). Alors d’apr`es Radon-Nikodym ∃Xe B−mesurable tq :

∀B∈ B, Q(B) =E[X.1e B]

On aXe ∈L¹(Ω,B, P) (en prenantB = Ω et utilisant queX ∈L¹). On prendE[X|B] =Xe 2. Unicit´e : soitX⁰ etX⁰⁰ ∈L¹(Ω,B, P) telles que∀ B∈ BE[X⁰.1B] =E[X⁰⁰.1B]

PrenonsB={X⁰> X⁰⁰} B−mesurable carX⁰ etX⁰⁰ le sont, alors : E(X⁰−X⁰⁰)1_{X0−X⁰⁰>0}= 0 ⇒ P(X⁰−X⁰⁰>0) = 0 et idem pour X⁰⁰−X⁰ doncX⁰=X⁰⁰

(12)

1. SiX estB−mesurable,E[X|B] =X 2. X−→E[X|B] est lin´eaire

3. E[E[X|B]] =E(X)

4. SiX ≥X⁰ alorsE[X|B]≥E[X⁰|B]

5. X et Y sont ind´ependantes ssi ∀h, E[h(X)|Y] =E(h(X))

6. On a Jensen pour tout fonction f convexe positive : f(E[X|Y])≤E[f(X)|Y] Propri´et´e 10

Pour finir, ´enon¸cons le cadre des variables dansL² qui donnera une bonne intuition.

Si X∈L²(Ω,A, P) alorsE[X|B] est la projection orthogonale deX surL²(Ω,B, P) Th´eor`eme 11

Preuve.

E (E[X|B])²

≤E[E[X²|B]]<+∞ainsiE[X|B]∈L²(Ω,B, P)

E[X|B] est la projection orthogonale deXsurL²(Ω,B, P) veut dire que pour toutZ∈L²(Ω,B, P) on a :

Z⊥X−E[X|B] ⇒ E(Z.(X−E[X|B])) = 0 ⇒ E(ZX) =E[Z.E[X|B]]

qui est la d´efinition de l’esp´erance conditionnelle.

5 Sous-additivit´ e de l’entropie

Le théorème suivant sera la clé pour établir des inégalités de concentration.

X1, ..., Xn v.a. ind´ependantes, Y =f(X1, ..., Xn) une fonction mesurable tqφ(Y) =YlnY est int´egrable

Pour touti≤n,E⁽ⁱ⁾est l’esp´erance conditionnelle par rapport `a : X⁽ⁱ⁾= (X₁, ..., X_i−1, X_i+1, ..., X_n) (E⁽ⁱ⁾=E[.|X1, ..., X_i−1, X_i+1, ..., X_n]).

Ent⁽ⁱ⁾=E⁽ⁱ⁾φ(Y)−φ(E⁽ⁱ⁾Y) on a alors Ent(Y)≤E(Pn

i=1Ent⁽ⁱ⁾Y)

Théorème 12(sous-additivité de l’entropie)

(13)

Preuve.

NotonsEi[.] =E[.|X1...Xi] doncE0=Eet EnY =Y

EntY =EYlnY −EYlnEY =E(YlnY −Y lnEY) =E(Y(lnY −lnEY)) lnY −lnEY = lnEnY −lnE0Y =

n

X

i=1

ln(EiY)−ln(Ei−1Y) Donc :

Y(lnY −lnEY) =

n

X

i=1

Y(ln(EⁱY)−ln(Ei−1Y)) Formule de dualit´e de l’entropie→ Ent(Y) = sup

T≥0E(Y(lnT−lnET)) PrenonsT =EiT →Ent⁽ⁱ⁾(Y)≥E⁽ⁱ⁾Y(ln(EiY)−ln(E⁽ⁱ⁾EiY))

E⁽ⁱ⁾EiY =E(i)E[Y|X1, ..., Xi]

=E[E[Y|X1, ..., Xi]|X1, ..., X_i−1, Xi+1, ..., Xn]

Z est une fonction de X₁, ..., X_i et les (X_j)_j sont ind´ependants donc Z est ind´ependante de X_i+1, ..., X_n.

→E⁽ⁱ⁾EiY =E[E[Y|X1, ..., X_i]|X1, ..., X_i−1]

=E[Y|X1, ..., X_i−1] =Ei−1Y

→E⁽ⁱ⁾EiY ≥E⁽ⁱ⁾Y(lnEiY −lnEi−1Y) E

n

X

i=1

Ent⁽ⁱ⁾Y

!

≥E

n

X

i=1

E⁽ⁱ⁾Y(lnEiY −lnEi−1Y)

!

≥E

n

X

i=1

Y(lnEiY −lnEi−1Y)

!

= EntY

6 In´ egalit´ es de Sobolev Logarithmique

Soitµ mesure de probabilité surRⁿ. On dit que µsatisfait une inégalité de Sobolev Loga- rithmique (ISL(c)) avec constantec >0 si :

∀f :Rⁿ −→R on a Entµ(f²)≤c Z

|∇f|²dµ

De mˆeme, siX est un vecteur al´eatoire deR²de loiµ, il satisfait une ISL(c) si:

Ent(f²(X))≤cE(k5fk²₂(X)) Définition 10 (inégalité de Sobolev Logarithmique)

(14)

Remarques.

– Plus généralement, on peut définir ISL pour un espace quelconque muni d’une proba µ, quitte à trouver une bonne notion de gradient et|.|

– Une inégalité du même esprit est l’inégalité de Poincaré où la conclusion est : Varµ(f)≤c

Z

|∇f|²dµ O`u Var_µ(f) =R

f²dµ−(R f dµ)²

– On a log-Sobolev ⇒Poincar´e

6.1 Mesure produit Bernoulli

Posons Ωn = {−1,1}ⁿ le cube discret dans Rⁿ. Soit σn la mesure uniforme sur Ωn. On a

∀x∈ Ωn, σn({x}) = ₂¹n. On peut voir σn comme la mesure produit σn =σ^Nⁿ , où σ({1}) = σ({−1}) = ¹₂ mais aussi comme la loi du vecteur aléatoire ξ = (ξ1, ..., ξn) où les ξi sont i.i.d (Rademacher).

On aimerait définir une ISL pourσ_n. Définissons d’abord une métrique:

∀x, y∈Ω_n, d(x, y) =|{i≤n, x_i6=y_i}|=

n

X

i=1

1_{x_i_6=y_i_}

On appelle cette distance la distance de Hamming. Elle mesure le nombre d’arêtes à traverser sur le cube pour passer dexày.

Notonsτi leflip de lai^ieme coordonn´ee : τi(x) = (x1, ..., x_i−1,−xi, xi+1, ..., xn). On a :

d(x, y) =k⇔il y ak flips `a effectuer pour passer dex`ay⇔ ∃i1, ...ik distincts t.qy=τi_k◦...◦τi₁(x) On dira quexety sontvoisins et on notex∼ysi ∃i∈Nt.qy=τ_i(x).

D´efinissons maintenant la norme. Pour f : Ω_n→Retx∈Ω_n, posons:

k5fk²(x) = 1 2

X

y o`uy∼x

(f(y)−f(x))²

(5f.5g)(x) =1 2

X

y o`uy∼x

(f(y)−f(x))(g(y)−g(x)) (5est une notation)

Soit x ∈ Ω_n et i ≤ n. On note ˆx_i = (x₁, ..., x_i−1, x_i+1, ..., x_n) ∈ Ω_n−1. Fixons ˆx_i. Soit f : Ω_n→R.

On d´efinitfxˆ_i : Ω→R, x7→fxˆ_i(x) =f(x1, ..., xi−1, x, xi+1, ..., xn).

(15)

Pourx∈Ωn, on pose :

k5ifik²(x) =k5fxˆ_ik²(x) =1

2(fxˆ_i(1)−fxˆ_i(−1))²= 1

2(f(x)−f(τi(x)))² Ainsi, on ak5fk²(x) =Pn

i=1k5ifik²(x). (Comme pour le gradient usuel).

(Ωn, σn) satisfait ISL1 i.e

∀g: Ωn→R, Entσ_n(g²)≤ Z

k5gk²(x)dσn(x)

i.e siξ= (ξ1, ..., ξn) o`u lesξisont des Rademacher, Ent(g²(ξ))≤E(k5gk²(ξ)).

Th´eor`eme 13

Preuve.

Soitg: Ωn→R. Par sous-additivit´e de l’entropie, on a : Entσ_n(g²)≤

n

X

i=1

Z

Entσ₁(g²_x_ˆ_i)dσn

Notons ˆgxi =gipour simplifier les notations.

D’autre part, on ak5gk²(x) =Pn

i=1k5igik²(x).

Ainsi, il suffit de montrer que:

n

X

i=1

Z

Entσ₁(g_i²)dσn≤ Z ⁿ

X

i=1

k5igik²(x)dσn

Montrons que : ∀i∈ {1, .., n},R

Ent_σ₁(g_i²)dσ_n ≤R

k5ig_ik²(x)dσ_n.

Le problème se réduit ainsi à montrer l’ISL₁ en dimension 1 (pour (Ω, σ₁)).

Soitg: Ω→R. On a : Z

k5gk²(x)dσ1= 1

2(g(1)−g(−1))²=1

2(a−b)² Ent_σ(g²) =

Z

Φ(g²)dσ−Φ Z

g²dσ

= 1

2a²lna²+1

2b²lnb²−a²+b² 2 ln

a²+b² 2

Ainsi, il faut montrer que :

∀a, b∈R,(a−b)²≥a²lna²+b²lnb²−(a²+b²) ln

a²+b² 2

L’inégalité étant symétrique enaetb, supposons quea≥b. Or, on a||a| − |b|| ≤ |a−b|. Il nous suffit donc de montrer que :

pour a≥b≥0,(|a| − |b|)²≥a²lna²+b²lnb²−(a²+b²) ln

a²+b² 2

Fixonsb≥0. Posonsh(a) =a²lna²+b²lnb²−(a²+b²) ln(^a²^+b₂ ²)−(a−b)². On a :

(16)

– h(b) = 0 – h⁰(b) = 0 – hest concave

Donchest négative. D’où le résultat.

6.2 ISL-gaussienne

Soit γn la mesure gaussienne sur Rⁿ(de densit´e ¹

(2π)ⁿ2 exp(−^|x|₂²)). Alors, γn (ou (Rⁿ, γn, norme euclidienne)) v´erifie(nt) ISL2

i.e∀f :Rⁿ→Rcontinuement diff´erentiable, on a : Ent_γ_n(f²)≤2

Z

k5fk²₂dγ_n i.e sig est un vecteur gaussien (g∼ N(0, IdRⁿ)), alors:

Ent(f²(g))≤2E Z

k5fk²(g) Th´eor`eme 14

Preuve.

Comme dans la preuve précédente, il suffit de montrer l’inégalité en dimension 1. Dans l’exercice 2 du TD 5, on a montré que : ∀f :R→Runiformément bornée et pourξ1, ..., ξndes Rademacher i.i.d, on a :

lim

n sup

n

X

i=1

E

"

f

S˜_n+1−ξ_i

√n

−f

S˜_n−1 +ξ_i

√n 2#

= 4E(f⁰(X)²) o`u ˜S_n= ^√¹_nPn

i=1ξ_i etX ∼ N(0,1).

Ainsi, d’apr`es l’ISL discret, on a, en posantg(ξ1, .., ξn) =f( ˜Sn) : Ent(g²(ξ)) = Ent(f²( ˜S_n))

≤E(k5gk²(ξ))

≤1 2E(

n

X

i=1

g(ξ1, ..., ξ_i−1,1, ξi+1, ..., ξn)−g(ξ1, ...,−1, ..., ξn)2

≤1 2E

n

X

i=1

f

S˜_n+1−ξi

√n

−f

S˜_n−1 +ξi

√n

²!

Enfin, d’apr`es le TCL, on a :

Ent(f²( ˜Sn))→Ent(f²(X)) où X∼ N(0,1). D’où le résultat.