• Aucun résultat trouvé

Chapitre 2 : Th´eorie de l’information

N/A
N/A
Protected

Academic year: 2022

Partager "Chapitre 2 : Th´eorie de l’information"

Copied!
16
0
0

Texte intégral

(1)

Probabilit´ es

Chapitre 2 : Th´eorie de l’information

Lucie Le Briquer

Sommaire

1 Introduction et motivation 1

2 Entropie dans le cas discret 2

3 Entropie : cas g´en´eral 5

4 Conditionnement 9

4.1 Cas discret . . . 9 4.2 Plus g´en´eralement . . . 11

5 Sous-additivit´e de l’entropie 12

6 In´egalit´es de Sobolev Logarithmique 13

6.1 Mesure produit Bernoulli . . . 14 6.2 ISL-gaussienne . . . 16

1 Introduction et motivation

Pour l’instant on a toujours consid´er´e une somme de v.a. r´eelles ind´ependantes. On aimerait faire un peu pareil pour les mesures. Reprenons X1, ..., Xn v.a. ind´ependantes `a valeurs dans {1, ..., r}de loiµ.

A chaque` Xi, on peut associer une mesure al´eatoire qui estSXi. SXi est une v.a. `a valeurs dans l’espace des mesures sur{1, ..., r}.

SXi: Ω−→ P({1, ..., r}) ω−→SXi(ω)

E(SXi) =X

(r´ealisation deSXi)×P(r´ealisation)

=S1P(Xi = 1) +...+SrP(Xi=r)

=µ Prenonsµn=n1Pn

k=1SXk somme de v.a. ind´ependantes de mˆeme loi.

(2)

Si on voulait ´etudier la d´eviation deµn autour deµ, il nous faudrait une sorte de distance qui nous permettrait de comparer les mesures. Mais dans un premier temps, comment comprendre une mesure ?

Exemple.

X de loi uniforme sur {1, ...,32}. Si on veut deviner le num´ero choisi parX, on a besoin de 5 questions binaires (5 bits), en faisant une dichotomie.

H(X) =−

32

X

i=1

p(i) log2(p(i)) =−log2 1

32

= 5 Et si on n’avait pas la loi uniforme ?

Par exemple, on a une course `a 8 chevaux, ayant une proba de gagner chacun{12,14,18,161,641,641,641,641}.

Si on proc`ede comme avant on a besoin de 3 questions. Ici on a int´erˆet `a demander si le premier cheval a gagn´e d’abord.

Le nombre de bits moyen est 1×12+ 2×14+ 3×18+ 4×161 + 6×4×641 = 2 Or :

8

X

i=1

p(i) log2(p(i)) = 2 Est-ce une co¨ıncidence ? D’o`u vient le log ?

Shannon a voulu mod´eliser l’information donn´ee par un ´ev`enement ; ceci est li´e `a sa probabilit´e.

Ainsi, Shannon a voulu associer `a chaque ´ev`enementE une fonctionh(E) qui d´epend deP(E) et qui donne l’information d´ecoulant de la r´ealisation de cet ´ev`enement.

– h(E) doit ˆetre d´ecroissante enP(E) ; plus un ´ev`enement est r´ecurrent moins sa r´ealisation ram`ene de l’information

– h(E) = 0 lorsqueP(E) = 1 ; puisque si on sait queE est vrai alors sa r´ealisation ne nous rapporte aucune information

– siE et F ind´ependants on doit avoirh(E∩F) =h(E) +h(F) La fonctionh(E) = log

1 P(E)

v´erifie ces propri´et´es. hest l’information d’un ´ev`enementE.

2 Entropie dans le cas discret

X v.a. `a valeurs dans un ensemble d´enombrableK de loiP(X=x) =px ∀x∈K.

L’entropie de Shannon (ou juste entropie) est d´efinie par : H(X) =E(−lnp(X)) = X

x∈K

pxln 1

px

avec la convention 0×ln(0) = 0 D´efinition 1(entropie de Shannon)

(3)

Remarques.

– On a vu que l’entropie approche le nombre de bits pour d´ecrire la v.a.

– Plus l’entropie est grande, plus il y a de l’incertitude ; ainsi B 12

est la Bernouilli ayant la plus grande entropie

– On a choisi le log en base e au lieu du log en base 2. Cela ne change rien, toutes les entropies sont proportionnelles.

H(X) = ln(2)H2(X) o`u H2 est l’entropie en base 2 – On a toujoursH(X)≥0 car 0≤px≤1

SoientP etQdeux probabilit´es sur un ensemble d´enombrableKet soientp, qleurs fonctions de masse. On d´efinit l’entropie relative entreP etQ(oudistance de Kullback-Leibler) par :

D(P||Q) =X

x∈K

p(x) ln p(x)

q(x)

siP est absolument continue par rapport `a Qet +∞sinon.

(avec la convention 0×ln

0 q

= 0 etpln p0

= +∞) D´efinition 2(entropie relative)

Remarques.

– D n’est pas vraiment une distance, elle n’est pas sym´etrique et ne v´erifie pas l’in´egalit´e triangulaire

– Dmesure l’erreur de supposer que la loi d’une v.a. estqalors qu’en r´ealit´e elle estp

On a toujoursD(P||Q)≥0 avec ´egalit´e ssip(x) =q(x)∀x∈K Th´eor`eme 1 (in´egalit´e de l’information)

Preuve.

SoitS= Supp(P) ={x∈K|p(x)>0}

−D(P||Q) =−X

x∈S

p(x) ln p(x)

q(x)

=X

x∈S

p(x) ln q(x)

p(x)

≤ln(X

x∈S

p(x)q(x)

p(x))≤ln 1 = 0 Sip(x) =q(x)∀x∈K alorsD(P||Q) = 0

Pour la r´eciproque, on sait que log est strictement concave, ainsi on a ´egalit´e si q(x)p(x) = cste∀x∈S etS =K donc⇒ q(x)p(x) = cste∀x∈K⇒q(x) =p(x)∀x∈K

(4)

X `a valeurs dans un ensemble d´enombrableK. Alors :

H(X)≤ln|K| avec ´egalit´e ssiX suit la loi uniforme Corollaire 2

Preuve.

SoitQloi uniforme etP la loi deX. On sait queD(P||Q)≥0 D(P||Q) = X

x∈K

p(x) lnp(x) q(x) = X

x∈K

p(x) ln(p(x))−X

x∈K

p(x) ln(q(x)

|{z}

=−K1

)

DoncD(P||Q) =−H(X) + ln(|K|)≥0 doncH(X)≤ln|K|

avec ´egalit´e ssiX suit la loi uniforme par le th´eor`eme pr´ec´edent.

X, Y v.a. discr`etes `a valeurs dans K et Lrespectivement. L’entropie joint´ee H(X, Y) est l’entropie du couple (X, Y).

L’information mutuelle entreX et Y est l’entropie relative du coupleP(X,Y) et du produit des lois marginalesPX⊗PY surK×L

I(X, Y) =D(P(X,Y)||PX⊗PY) = X

x∈K y∈L

P(X,Y)(x, y) ln

P(X,Y)(x, y) PX(x)PY(y)

D´efinition 3(entropie joint´ee)

Remarques.

– I(X, Y) =H(X) +H(Y)−H(X, Y)

– I(X, Y) ≥ 0 ⇒ H(X, Y) ≤H(X) +H(Y) avec ´egalit´e ssiX et Y sont ind´ependantes ; c’est la propri´et´e de sous-additivit´e de l’entropie de Shannon

– I(X, Y) repr´esente l’information qu’on gagne surX connaissant Y – I(X, Y) =I(Y, X)

Plus tard, on d´efinira les entropies conditionnellesH(X|Y) =H(X, Y)−H(Y)

(5)

3 Entropie : cas g´ en´ eral

On noteφ(x) =xlnxd´efinie sur [0; +∞[ avec la conventionφ(0) = 0

Etant donn´´ ef une fonction positive etµune mesure surR. Alors : Entµ(f) =

Z

φ(f)dµ−φ Z

f dµ

= Z

flnf dµ− Z

f dµ

ln Z

f dµ D´efinition 4(entropie fonctionnelle)

Remarques.

– Si on ne sp´ecifie pas la mesure, cela sous-entend que c’est par rapport `a la mesure de Lebesgue

– Entµ(f)≥0 carφconvexe + Jensen

(Ω,A, P) un espace de probabilit´e etY une v.a. positive telle queE(Y)<+∞. On d´efinit : Ent(Y) =E(φ(Y))−φ(E(Y)) =E(Y lnY)−E(Y) ln(E(Y))

D´efinition 5(entropie d’une v.a. ≥0)

Remarques.

– Ent(Y)≥0 par Jensen

– Ent(Y)<+∞ssiE(φ(Y))<+∞

– Ent(cste) = 0

– Ent(λY) =λEnt(Y) ∀λ≥0

– Dans la litt´erature, on d´efinit l’entropie d’une v.a. comme ´etant l’entropie fonctionnelle de sa densit´e

L’entropie relative deQpar rapport `aP est donn´ee parD(Q||P) = Ent(Y) siQabsoluement continue par rapport `aP et +∞sinon.

O`uY est obtenue comme suit : – Y de loiP etE(Y) = 1

– ∀A∈ A, Q(A) =E(Y1A), on ´ecrit alorsQ=Y P D´efinition 6(entropie relative)

(6)

Remarque.

En fait, ce qu’on est en train de dire est que siQ P alors par Radon-Nikodym, ∃f ≥0 tel que ∀A ∈ A Q(A) =R

Af dP et on d´efinit alors D(Q||P) comme l’entropie fonction de f par rapport `a P i.e. EntP(f)

Remarque.

Ceci g´en´eralise le cas discret. Si Ω d´enombrable,P etQdeux probabilit´es sur Ω : Y(ω) =

( q(ω)

p(ω) sip(ω)>0 0 sinon

On retrouve donc la d´efinition qu’on avait avant.

1. Y v.a. positive sur (Ω,A, P) telle queE(φ(Y))<+∞. Alors : Ent(Y) = sup

u∈U E(uY) o`uU ={uv.a. sur Ω tqE(eu) = 1}

2. D’autre part, si uest telle queE(uY)≤Ent(Y) alorsE(eu)≤1 Th´eor`eme 2 (formule de dualit´e de l’entropie)

Remarque.

On peut tout ´enoncer pour l’entropie fonctionnelle : 1. ∀f ≥0 et∀µmesure surR

Entµ(f) = sup

g∈U

Z f gdµ o`uU ={g fonction surRtq R

egdµ= 1}

2. pareil

Preuve.

1. Ici on a pu faire ce changement careuP et aussi une probabilit´e puisqueEP(eu) = 1.

Pour l’´egalit´e, on prend utelle que Y

E(Y) =eu comme E(eu) = E(Y)

E(Y) = 1 alors u∈ U et

e−uY E(Y) = 1.

Donc Ente−uP(e−u Y

E(Y)) = 0 et du coupE(uY) = Ent(Y).

Si E(uY)≤Ent(Y) ∀Y ≥0,E(Y) = 1 alorsE(eu)≤1

(7)

2. Soitutelle queE(uY)≤ Ent(Y)

=E(YlnY)

∀Y ≥0,E(Y) = 1

Y = eu

E(eu) ∼E(ueu)

E(eu) ≤E( eu

E(eu)ln eu

E(eu))∼E(ueu)≤E(eulneu)−E(eu) lnE(eu)

⇒E(eu) ln(E(eu))≤0∼E(eu)≤1

Ici il manquerait que φ(Y) est int´egrable mais rien ne garantit ¸ca du coup on rendYn =

emin(u,n)

E(emin(u,n)) pour lequel E(φ(Yn))< +∞. On utilise le mˆeme raisonnement pour d´eduire

∀n,E(emin(u,n))≤1, par le th´eor`eme de convergence monotone⇒E(eu)≤1

Remarque.

On peut reformuler la conclusion :

Ent(Y) = sup

T∈{v.a.≥0}E(Y[logT −log(E(T))]) en ´ecrivanteu= T

E(T)

P etQdeux probabilit´es sur Ω. Alors : D(Q||P) = sup

Z

[EQ(Z)−log(EPeZ)]

o`u le sup est pris sur lesZ tels queEP(eZ)<+∞

Corollaire 3

Preuve.

Si Q n’est pas absolument continue par rapport `a P ⇒ ∃A ∈ A tel que P(A) = 0 mais Q(A)>0

prenons∀n Zn=n1A, EQ(Zn) =Q(A)>0, EP(eZn) = 1

eZn=e1An ∼EQ(Zn)−logP(E(eZn)) =nQ(A) −→

n→+∞+∞

siQP,D(Q||P) = EntdQ

dP

= sup

T

E

dQ dP[logT

| {z }

=Z

−log(E(T))

| {z }

=Ee(Z)

]

Si f est une fonction, la transform´ee de Legendre est : f(t) = sup

λ∈R

{λt−f(λ)}

D´efinition 7(transform´ee de Legendre)

(8)

Pour X v.a., on note ΛX(λ) = logMX(λ)

Z v.a. centr´ee de loiP tqMZ(λ)<+∞ ∀λ. Alors :

∀t >0, ΛZ(t) = inf

Q{D(Q||P),EQ(Z)≥t}

Corollaire 8

Preuve.

λZ∗(t) = sup

λ∈R

{λt−ΛZλ}

Montrons d’abord que sup

λ∈R

{λt−ΛZ(λ)} ≤ inf

Q:EQ(Z)≥t{D(Q||P)}

Soitλ∈R, etQtqEQ(Z)≥t D(Q||P) = sup

Y;EP(eY)<+∞

[EQ(Y)−log(EP(eY))] corollaire pr´ec´edent Donc :

D(Q||P)≥λEQ(Z)−log(EP(eλZ))≥λt−ΛZ(t) Il reste `a montrer l’´egalit´e. Prenons dQdP = eλZ

E(eλZ) avecλ= Λ0Z−1(t) Il faut queEQ(Z)≥t ; maisEQ(Z) =EP

eλZZ E(eλZ)

= Λ0Z(λ) =t D(Q||P) = Ent

dQ dP

= 1

E(eλZ)[E(eλZλZ)−E(eλZ) ln(E(eλZ))] =λΛ0Z(λ)−ΛZ(λ) =λt−ΛZ(λ)

Remarques.

– EQ(Z)≥t⇔Q∈Γ ={µ|Eµ(Z)≥t},Q=δZ doncδZ ∈Γ veut direZ ≥t

– Rappelons nous le ph´enom`ene de concentration du premier chapitre. In´egalit´e de Chernoff :

P(X ≥t)≤ inf

λ>0{exp(−λt)MX(λ)}= exp(−sup

λ>0

{λtΛX(λ)}) = exp(−ΛX(t)) AinsiZ≥tcorrespond `aδZ ∈Γ et ΛZ(t) correspond `a inf{D(Q||P);Q∈P}qui correspond en gros `ad(P,Γ)

– Reprenons l’exemple du d´ebut de chapitre. X1, ..., Xn ind´ependantes de loi P, notons Pn= 1nPn

i=1δXn alors :

1 n

n

X

i=1

Xi ≥t⇔Pn∈Γ

Avant on avait tir´e avantage du fait que la concentration ´etait contrˆol´ee par MSn(λ) = Qn

i=1MXi(λ) o`u Sn =Pn

i=1Xi. Ici la concentration d´ependra de d(Pn,Γ) ou encore de D(Q||Pn) pourQ∈Γ. On aimerait que l’entropie satisfasse des propri´et´es de tensorisation commeMX.

(9)

Cours du 10 mars

Remarque.

Pour toute fonction positivef, et toute mesure µ Entµf =

Z

flnf dµ− Z

f dµln Z

f dµ Siµest une proba alors Entµf ≥0.

Dans la litt´erature on d´efinit l’entropie d’une densit´ef (R

f dµ= 1) par−flnf dµ.

4 Conditionnement

4.1 Cas discret

(Ω,A,P) un espace de probabilit´e. Soit B ∈ A tq P(B) ≥ 0. On d´efinit la probabilit´e conditionnelle sachantB par :

P(A|B) =P(A∩B)

P(B) ∀A∈ A D´efinition 8(probabilit´e conditionnelle)

Remarque.

Si X est int´egrable, E[X|B] = E(X.1B)

P(B) . On peut d´efinir l’esp´erance conditionnelle d’une v.a.

X sachant une autre v.a. Y. SiY est `a valeurs dans un espace d´enombrable E et E0 ={y ∈ E |P(Y =y)>0}, on d´efinit :

E[X|Y =y] = E(X.1{Y=y})

P(Y =y) y∈E0

X ∈L1(Ω,A,P). L’esp´erance conditionnellle deX sachantY est la v.a. d´efinie par : E[X|Y] =ϕ(Y)

O`u :

ϕ(y) =

E[X|Y =y] siy∈E0 0 sinon

D´efinition 9(esp´erance conditionnelle)

(10)

Exemple.

Ω ={1, ...,6},P({i}) =16

Y(ω) =

1 siω est impair 0 sinon

PourX(ω) =ω :

E[X|Y = 1] = E(X.1Y=1)

P(Y = 1) = (1 + 3 + 5)16

1 2

= 3

E[X|Y = 0] = E(X.1Y=0)

P(Y = 0) = (2 + 4 + 6)16

1 2

= 4

Remarques.

– E[X|Y] est donc une v.a. qui estσ(Y)−mesurable

– on peut changer la d´efinition de ϕsur E\E0, on obtiendrait des v.a. p.s. ´egales car E\E0 est n´egligeable

– Z =E[X|Y] ; Z(y) =E[X|Y =y]

– On a toujoursE|E[X|Y]| ≤E|X| (doncE[X|Y]∈L1(Ω,A,P)) – SiZ v.a. σ(Y)−mesurable (born´ee) alors :

E(ZX) =E[Z E[X|Y]]

Proposition 8

Preuve.

– Pour le premier point :

E|E[X|Y]|= X

y∈E0

P(Y =y).|E[X|Y =y]|

= X

y∈E0

P(Y =y).|E(X.1Y=y)|

P(Y =y)

= X

y∈E0

|E(X.1Y=y)|

≤E|X|

(11)

– Z =ψ(Y) avecψborn´ee

E[ψ(Y).E[X|Y]] = X

y∈E0

P(Y =y).ψ(y).E[X|Y =y]

= X

y∈E0

P(Y =y).ψ(y).E(X.1Y=y) P(Y =y)

= X

y∈E0

ψ(y).E(X.1Y=y)

=E

 X

y∈E0

X.ψ(y).1Y=y

=E(Xψ(Y)

| {z }

Z

)

4.2 Plus g´ en´ eralement

X ∈L1(Ω,A, P) etBsous-tribu deA. Il existe uneunique v.a. ∈L1(Ω,B, P) not´eeE[X|B]

telle que :

∀B ∈ B, E[X.1B] =E[E[X|B].1B] Ou aussi∀Z B−mesurable on aE(XZ) =E[E[X|B]Z]

Si Y v.a., on d´efinit E[X|Y] =E[X|σ(Y)]

Th´eor`eme 9 (et d´efinition)

Preuve.

1. Existence :

Supposons que X≥0 (sinon on ´ecritX=X+−X et puis on refait la mˆeme chose pour X+ etX). On d´efinitQune mesure surBcomme :

∀B∈ B, Q(B) =E[X.1B]

On a QP sur (Ω,B). Alors d’apr`es Radon-Nikodym ∃Xe B−mesurable tq :

∀B∈ B, Q(B) =E[X.1e B]

On aXe ∈L1(Ω,B, P) (en prenantB = Ω et utilisant queX ∈L1). On prendE[X|B] =Xe 2. Unicit´e : soitX0 etX00 ∈L1(Ω,B, P) telles que∀ B∈ BE[X0.1B] =E[X00.1B]

PrenonsB={X0> X00} B−mesurable carX0 etX00 le sont, alors : E(X0−X00)1{X0−X00>0}= 0 ⇒ P(X0−X00>0) = 0 et idem pour X00−X0 doncX0=X00

(12)

1. SiX estB−mesurable,E[X|B] =X 2. X−→E[X|B] est lin´eaire

3. E[E[X|B]] =E(X)

4. SiX ≥X0 alorsE[X|B]≥E[X0|B]

5. X et Y sont ind´ependantes ssi ∀h, E[h(X)|Y] =E(h(X))

6. On a Jensen pour tout fonction f convexe positive : f(E[X|Y])≤E[f(X)|Y] Propri´et´e 10

Pour finir, ´enon¸cons le cadre des variables dansL2 qui donnera une bonne intuition.

Si X∈L2(Ω,A, P) alorsE[X|B] est la projection orthogonale deX surL2(Ω,B, P) Th´eor`eme 11

Preuve.

E (E[X|B])2

≤E[E[X2|B]]<+∞ainsiE[X|B]∈L2(Ω,B, P)

E[X|B] est la projection orthogonale deXsurL2(Ω,B, P) veut dire que pour toutZ∈L2(Ω,B, P) on a :

Z⊥X−E[X|B] ⇒ E(Z.(X−E[X|B])) = 0 ⇒ E(ZX) =E[Z.E[X|B]]

qui est la d´efinition de l’esp´erance conditionnelle.

5 Sous-additivit´ e de l’entropie

Le th´eor`eme suivant sera la cl´e pour ´etablir des in´egalit´es de concentration.

X1, ..., Xn v.a. ind´ependantes, Y =f(X1, ..., Xn) une fonction mesurable tqφ(Y) =YlnY est int´egrable

Pour touti≤n,E(i)est l’esp´erance conditionnelle par rapport `a : X(i)= (X1, ..., Xi−1, Xi+1, ..., Xn) (E(i)=E[.|X1, ..., Xi−1, Xi+1, ..., Xn]).

Ent(i)=E(i)φ(Y)−φ(E(i)Y) on a alors Ent(Y)≤E(Pn

i=1Ent(i)Y)

Th´eor`eme 12(sous-additivit´e de l’entropie)

(13)

Preuve.

NotonsEi[.] =E[.|X1...Xi] doncE0=Eet EnY =Y

EntY =EYlnY −EYlnEY =E(YlnY −Y lnEY) =E(Y(lnY −lnEY)) lnY −lnEY = lnEnY −lnE0Y =

n

X

i=1

ln(EiY)−ln(Ei−1Y) Donc :

Y(lnY −lnEY) =

n

X

i=1

Y(ln(EiY)−ln(Ei−1Y)) Formule de dualit´e de l’entropie→ Ent(Y) = sup

T≥0E(Y(lnT−lnET)) PrenonsT =EiT →Ent(i)(Y)≥E(i)Y(ln(EiY)−ln(E(i)EiY))

E(i)EiY =E(i)E[Y|X1, ..., Xi]

=E[E[Y|X1, ..., Xi]|X1, ..., Xi−1, Xi+1, ..., Xn]

Z est une fonction de X1, ..., Xi et les (Xj)j sont ind´ependants donc Z est ind´ependante de Xi+1, ..., Xn.

→E(i)EiY =E[E[Y|X1, ..., Xi]|X1, ..., Xi−1]

=E[Y|X1, ..., Xi−1] =Ei−1Y

→E(i)EiY ≥E(i)Y(lnEiY −lnEi−1Y) E

n

X

i=1

Ent(i)Y

!

≥E

n

X

i=1

E(i)Y(lnEiY −lnEi−1Y)

!

≥E

n

X

i=1

Y(lnEiY −lnEi−1Y)

!

= EntY

6 In´ egalit´ es de Sobolev Logarithmique

Soitµ mesure de probabilit´e surRn. On dit que µsatisfait une in´egalit´e de Sobolev Loga- rithmique (ISL(c)) avec constantec >0 si :

∀f :Rn −→R on a Entµ(f2)≤c Z

|∇f|2

De mˆeme, siX est un vecteur al´eatoire deR2de loiµ, il satisfait une ISL(c) si:

Ent(f2(X))≤cE(k5fk22(X)) D´efinition 10 (in´egalit´e de Sobolev Logarithmique)

(14)

Remarques.

– Plus g´en´eralement, on peut d´efinir ISL pour un espace quelconque muni d’une proba µ, quitte `a trouver une bonne notion de gradient et|.|

– Une in´egalit´e du mˆeme esprit est l’in´egalit´e de Poincar´e o`u la conclusion est : Varµ(f)≤c

Z

|∇f|2dµ O`u Varµ(f) =R

f2dµ−(R f dµ)2

– On a log-Sobolev ⇒Poincar´e

6.1 Mesure produit Bernoulli

Posons Ωn = {−1,1}n le cube discret dans Rn. Soit σn la mesure uniforme sur Ωn. On a

∀x∈ Ωn, σn({x}) = 21n. On peut voir σn comme la mesure produit σnNn , o`u σ({1}) = σ({−1}) = 12 mais aussi comme la loi du vecteur al´eatoire ξ = (ξ1, ..., ξn) o`u les ξi sont i.i.d (Rademacher).

On aimerait d´efinir une ISL pourσn. D´efinissons d’abord une m´etrique:

∀x, y∈Ωn, d(x, y) =|{i≤n, xi6=yi}|=

n

X

i=1

1{xi6=yi}

On appelle cette distance la distance de Hamming. Elle mesure le nombre d’arˆetes `a traverser sur le cube pour passer dex`ay.

Notonsτi leflip de laiieme coordonn´ee : τi(x) = (x1, ..., xi−1,−xi, xi+1, ..., xn). On a :

d(x, y) =k⇔il y ak flips `a effectuer pour passer dex`ay⇔ ∃i1, ...ik distincts t.qy=τik◦...◦τi1(x) On dira quexety sontvoisins et on notex∼ysi ∃i∈Nt.qy=τi(x).

D´efinissons maintenant la norme. Pour f : Ωn→Retx∈Ωn, posons:

k5fk2(x) = 1 2

X

y o`uy∼x

(f(y)−f(x))2

(5f.5g)(x) =1 2

X

y o`uy∼x

(f(y)−f(x))(g(y)−g(x)) (5est une notation)

Soit x ∈ Ωn et i ≤ n. On note ˆxi = (x1, ..., xi−1, xi+1, ..., xn) ∈ Ωn−1. Fixons ˆxi. Soit f : Ωn→R.

On d´efinitfxˆi : Ω→R, x7→fxˆi(x) =f(x1, ..., xi−1, x, xi+1, ..., xn).

(15)

Pourx∈Ωn, on pose :

k5ifik2(x) =k5fxˆik2(x) =1

2(fxˆi(1)−fxˆi(−1))2= 1

2(f(x)−f(τi(x)))2 Ainsi, on ak5fk2(x) =Pn

i=1k5ifik2(x). (Comme pour le gradient usuel).

(Ωn, σn) satisfait ISL1 i.e

∀g: Ωn→R, Entσn(g2)≤ Z

k5gk2(x)dσn(x)

i.e siξ= (ξ1, ..., ξn) o`u lesξisont des Rademacher, Ent(g2(ξ))≤E(k5gk2(ξ)).

Th´eor`eme 13

Preuve.

Soitg: Ωn→R. Par sous-additivit´e de l’entropie, on a : Entσn(g2)≤

n

X

i=1

Z

Entσ1(g2xˆi)dσn

Notons ˆgxi =gipour simplifier les notations.

D’autre part, on ak5gk2(x) =Pn

i=1k5igik2(x).

Ainsi, il suffit de montrer que:

n

X

i=1

Z

Entσ1(gi2)dσn≤ Z n

X

i=1

k5igik2(x)dσn

Montrons que : ∀i∈ {1, .., n},R

Entσ1(gi2)dσn ≤R

k5igik2(x)dσn.

Le probl`eme se r´eduit ainsi `a montrer l’ISL1 en dimension 1 (pour (Ω, σ1)).

Soitg: Ω→R. On a : Z

k5gk2(x)dσ1= 1

2(g(1)−g(−1))2=1

2(a−b)2 Entσ(g2) =

Z

Φ(g2)dσ−Φ Z

g2

= 1

2a2lna2+1

2b2lnb2−a2+b2 2 ln

a2+b2 2

Ainsi, il faut montrer que :

∀a, b∈R,(a−b)2≥a2lna2+b2lnb2−(a2+b2) ln

a2+b2 2

L’in´egalit´e ´etant sym´etrique enaetb, supposons quea≥b. Or, on a||a| − |b|| ≤ |a−b|. Il nous suffit donc de montrer que :

pour a≥b≥0,(|a| − |b|)2≥a2lna2+b2lnb2−(a2+b2) ln

a2+b2 2

Fixonsb≥0. Posonsh(a) =a2lna2+b2lnb2−(a2+b2) ln(a2+b2 2)−(a−b)2. On a :

(16)

– h(b) = 0 – h0(b) = 0 – hest concave

Donchest n´egative. D’o`u le r´esultat.

6.2 ISL-gaussienne

Soit γn la mesure gaussienne sur Rn(de densit´e 1

(2π)n2 exp(−|x|22)). Alors, γn (ou (Rn, γn, norme euclidienne)) v´erifie(nt) ISL2

i.e∀f :Rn→Rcontinuement diff´erentiable, on a : Entγn(f2)≤2

Z

k5fk22n i.e sig est un vecteur gaussien (g∼ N(0, IdRn)), alors:

Ent(f2(g))≤2E Z

k5fk2(g) Th´eor`eme 14

Preuve.

Comme dans la preuve pr´ec´edente, il suffit de montrer l’in´egalit´e en dimension 1. Dans l’exercice 2 du TD 5, on a montr´e que : ∀f :R→Runiform´ement born´ee et pourξ1, ..., ξndes Rademacher i.i.d, on a :

lim

n sup

n

X

i=1

E

"

f

n+1−ξi

√n

−f

n−1 +ξi

√n 2#

= 4E(f0(X)2) o`u ˜Sn= 1nPn

i=1ξi etX ∼ N(0,1).

Ainsi, d’apr`es l’ISL discret, on a, en posantg(ξ1, .., ξn) =f( ˜Sn) : Ent(g2(ξ)) = Ent(f2( ˜Sn))

≤E(k5gk2(ξ))

≤1 2E(

n

X

i=1

g(ξ1, ..., ξi−1,1, ξi+1, ..., ξn)−g(ξ1, ...,−1, ..., ξn)2

≤1 2E

n

X

i=1

f

n+1−ξi

√n

−f

n−1 +ξi

√n

2!

Enfin, d’apr`es le TCL, on a :

Ent(f2( ˜Sn))→Ent(f2(X)) o`u X∼ N(0,1). D’o`u le r´esultat.

Références

Documents relatifs

C’est supérieur à 1 cm, donc on ne peut pas dire qu’on a estimé la taille moyenne avec une erreur inférieure à 1 cm pour ce niveau de confiance.. Pour obtenir une estimation

L’anisotropie d’un matériau cristallisé peut avoir deux origines : une origine cristalline (les cristaux eux-mêmes sont anisotropes, leur orientation dans la pièce n’est

Comme il n'y a pas d'autre point xe dans cet intervalle la suite décroit et diverge vers −∞.. L'intervalle ]c µ , 0[

Comme il n'y a pas d'autre point xe dans cet intervalle la suite décroit et diverge vers −∞.. L'intervalle ]c µ , 0[

[r]

[r]

Que peut-on dire du quadrilatère formé par ces 4

[r]