Probabilit´ es
Chapitre 2 : Th´eorie de l’information
Lucie Le Briquer
Sommaire
1 Introduction et motivation 1
2 Entropie dans le cas discret 2
3 Entropie : cas g´en´eral 5
4 Conditionnement 9
4.1 Cas discret . . . 9 4.2 Plus g´en´eralement . . . 11
5 Sous-additivit´e de l’entropie 12
6 In´egalit´es de Sobolev Logarithmique 13
6.1 Mesure produit Bernoulli . . . 14 6.2 ISL-gaussienne . . . 16
1 Introduction et motivation
Pour l’instant on a toujours consid´er´e une somme de v.a. r´eelles ind´ependantes. On aimerait faire un peu pareil pour les mesures. Reprenons X1, ..., Xn v.a. ind´ependantes `a valeurs dans {1, ..., r}de loiµ.
A chaque` Xi, on peut associer une mesure al´eatoire qui estSXi. SXi est une v.a. `a valeurs dans l’espace des mesures sur{1, ..., r}.
SXi: Ω−→ P({1, ..., r}) ω−→SXi(ω)
E(SXi) =X
(r´ealisation deSXi)×P(r´ealisation)
=S1P(Xi = 1) +...+SrP(Xi=r)
=µ Prenonsµn=n1Pn
k=1SXk somme de v.a. ind´ependantes de mˆeme loi.
Si on voulait ´etudier la d´eviation deµn autour deµ, il nous faudrait une sorte de distance qui nous permettrait de comparer les mesures. Mais dans un premier temps, comment comprendre une mesure ?
Exemple.
X de loi uniforme sur {1, ...,32}. Si on veut deviner le num´ero choisi parX, on a besoin de 5 questions binaires (5 bits), en faisant une dichotomie.
H(X) =−
32
X
i=1
p(i) log2(p(i)) =−log2 1
32
= 5 Et si on n’avait pas la loi uniforme ?
Par exemple, on a une course `a 8 chevaux, ayant une proba de gagner chacun{12,14,18,161,641,641,641,641}.
Si on proc`ede comme avant on a besoin de 3 questions. Ici on a int´erˆet `a demander si le premier cheval a gagn´e d’abord.
Le nombre de bits moyen est 1×12+ 2×14+ 3×18+ 4×161 + 6×4×641 = 2 Or :
−
8
X
i=1
p(i) log2(p(i)) = 2 Est-ce une co¨ıncidence ? D’o`u vient le log ?
Shannon a voulu mod´eliser l’information donn´ee par un ´ev`enement ; ceci est li´e `a sa probabilit´e.
Ainsi, Shannon a voulu associer `a chaque ´ev`enementE une fonctionh(E) qui d´epend deP(E) et qui donne l’information d´ecoulant de la r´ealisation de cet ´ev`enement.
– h(E) doit ˆetre d´ecroissante enP(E) ; plus un ´ev`enement est r´ecurrent moins sa r´ealisation ram`ene de l’information
– h(E) = 0 lorsqueP(E) = 1 ; puisque si on sait queE est vrai alors sa r´ealisation ne nous rapporte aucune information
– siE et F ind´ependants on doit avoirh(E∩F) =h(E) +h(F) La fonctionh(E) = log
1 P(E)
v´erifie ces propri´et´es. hest l’information d’un ´ev`enementE.
2 Entropie dans le cas discret
X v.a. `a valeurs dans un ensemble d´enombrableK de loiP(X=x) =px ∀x∈K.
L’entropie de Shannon (ou juste entropie) est d´efinie par : H(X) =E(−lnp(X)) = X
x∈K
pxln 1
px
avec la convention 0×ln(0) = 0 D´efinition 1(entropie de Shannon)
Remarques.
– On a vu que l’entropie approche le nombre de bits pour d´ecrire la v.a.
– Plus l’entropie est grande, plus il y a de l’incertitude ; ainsi B 12
est la Bernouilli ayant la plus grande entropie
– On a choisi le log en base e au lieu du log en base 2. Cela ne change rien, toutes les entropies sont proportionnelles.
H(X) = ln(2)H2(X) o`u H2 est l’entropie en base 2 – On a toujoursH(X)≥0 car 0≤px≤1
SoientP etQdeux probabilit´es sur un ensemble d´enombrableKet soientp, qleurs fonctions de masse. On d´efinit l’entropie relative entreP etQ(oudistance de Kullback-Leibler) par :
D(P||Q) =X
x∈K
p(x) ln p(x)
q(x)
siP est absolument continue par rapport `a Qet +∞sinon.
(avec la convention 0×ln
0 q
= 0 etpln p0
= +∞) D´efinition 2(entropie relative)
Remarques.
– D n’est pas vraiment une distance, elle n’est pas sym´etrique et ne v´erifie pas l’in´egalit´e triangulaire
– Dmesure l’erreur de supposer que la loi d’une v.a. estqalors qu’en r´ealit´e elle estp
On a toujoursD(P||Q)≥0 avec ´egalit´e ssip(x) =q(x)∀x∈K Th´eor`eme 1 (in´egalit´e de l’information)
Preuve.
SoitS= Supp(P) ={x∈K|p(x)>0}
−D(P||Q) =−X
x∈S
p(x) ln p(x)
q(x)
=X
x∈S
p(x) ln q(x)
p(x)
≤ln(X
x∈S
p(x)q(x)
p(x))≤ln 1 = 0 Sip(x) =q(x)∀x∈K alorsD(P||Q) = 0
Pour la r´eciproque, on sait que log est strictement concave, ainsi on a ´egalit´e si q(x)p(x) = cste∀x∈S etS =K donc⇒ q(x)p(x) = cste∀x∈K⇒q(x) =p(x)∀x∈K
X `a valeurs dans un ensemble d´enombrableK. Alors :
H(X)≤ln|K| avec ´egalit´e ssiX suit la loi uniforme Corollaire 2
Preuve.
SoitQloi uniforme etP la loi deX. On sait queD(P||Q)≥0 D(P||Q) = X
x∈K
p(x) lnp(x) q(x) = X
x∈K
p(x) ln(p(x))−X
x∈K
p(x) ln(q(x)
|{z}
=−K1
)
DoncD(P||Q) =−H(X) + ln(|K|)≥0 doncH(X)≤ln|K|
avec ´egalit´e ssiX suit la loi uniforme par le th´eor`eme pr´ec´edent.
X, Y v.a. discr`etes `a valeurs dans K et Lrespectivement. L’entropie joint´ee H(X, Y) est l’entropie du couple (X, Y).
L’information mutuelle entreX et Y est l’entropie relative du coupleP(X,Y) et du produit des lois marginalesPX⊗PY surK×L
I(X, Y) =D(P(X,Y)||PX⊗PY) = X
x∈K y∈L
P(X,Y)(x, y) ln
P(X,Y)(x, y) PX(x)PY(y)
D´efinition 3(entropie joint´ee)
Remarques.
– I(X, Y) =H(X) +H(Y)−H(X, Y)
– I(X, Y) ≥ 0 ⇒ H(X, Y) ≤H(X) +H(Y) avec ´egalit´e ssiX et Y sont ind´ependantes ; c’est la propri´et´e de sous-additivit´e de l’entropie de Shannon
– I(X, Y) repr´esente l’information qu’on gagne surX connaissant Y – I(X, Y) =I(Y, X)
Plus tard, on d´efinira les entropies conditionnellesH(X|Y) =H(X, Y)−H(Y)
3 Entropie : cas g´ en´ eral
On noteφ(x) =xlnxd´efinie sur [0; +∞[ avec la conventionφ(0) = 0
Etant donn´´ ef une fonction positive etµune mesure surR. Alors : Entµ(f) =
Z
φ(f)dµ−φ Z
f dµ
= Z
flnf dµ− Z
f dµ
ln Z
f dµ D´efinition 4(entropie fonctionnelle)
Remarques.
– Si on ne sp´ecifie pas la mesure, cela sous-entend que c’est par rapport `a la mesure de Lebesgue
– Entµ(f)≥0 carφconvexe + Jensen
(Ω,A, P) un espace de probabilit´e etY une v.a. positive telle queE(Y)<+∞. On d´efinit : Ent(Y) =E(φ(Y))−φ(E(Y)) =E(Y lnY)−E(Y) ln(E(Y))
D´efinition 5(entropie d’une v.a. ≥0)
Remarques.
– Ent(Y)≥0 par Jensen
– Ent(Y)<+∞ssiE(φ(Y))<+∞
– Ent(cste) = 0
– Ent(λY) =λEnt(Y) ∀λ≥0
– Dans la litt´erature, on d´efinit l’entropie d’une v.a. comme ´etant l’entropie fonctionnelle de sa densit´e
L’entropie relative deQpar rapport `aP est donn´ee parD(Q||P) = Ent(Y) siQabsoluement continue par rapport `aP et +∞sinon.
O`uY est obtenue comme suit : – Y de loiP etE(Y) = 1
– ∀A∈ A, Q(A) =E(Y1A), on ´ecrit alorsQ=Y P D´efinition 6(entropie relative)
Remarque.
En fait, ce qu’on est en train de dire est que siQ P alors par Radon-Nikodym, ∃f ≥0 tel que ∀A ∈ A Q(A) =R
Af dP et on d´efinit alors D(Q||P) comme l’entropie fonction de f par rapport `a P i.e. EntP(f)
Remarque.
Ceci g´en´eralise le cas discret. Si Ω d´enombrable,P etQdeux probabilit´es sur Ω : Y(ω) =
( q(ω)
p(ω) sip(ω)>0 0 sinon
On retrouve donc la d´efinition qu’on avait avant.
1. Y v.a. positive sur (Ω,A, P) telle queE(φ(Y))<+∞. Alors : Ent(Y) = sup
u∈U E(uY) o`uU ={uv.a. sur Ω tqE(eu) = 1}
2. D’autre part, si uest telle queE(uY)≤Ent(Y) alorsE(eu)≤1 Th´eor`eme 2 (formule de dualit´e de l’entropie)
Remarque.
On peut tout ´enoncer pour l’entropie fonctionnelle : 1. ∀f ≥0 et∀µmesure surR
Entµ(f) = sup
g∈U
Z f gdµ o`uU ={g fonction surRtq R
egdµ= 1}
2. pareil
Preuve.
1. Ici on a pu faire ce changement careuP et aussi une probabilit´e puisqueEP(eu) = 1.
Pour l’´egalit´e, on prend utelle que Y
E(Y) =eu comme E(eu) = E(Y)
E(Y) = 1 alors u∈ U et
e−uY E(Y) = 1.
Donc Ente−uP(e−u Y
E(Y)) = 0 et du coupE(uY) = Ent(Y).
Si E(uY)≤Ent(Y) ∀Y ≥0,E(Y) = 1 alorsE(eu)≤1
2. Soitutelle queE(uY)≤ Ent(Y)
=E(YlnY)
∀Y ≥0,E(Y) = 1
Y = eu
E(eu) ∼E(ueu)
E(eu) ≤E( eu
E(eu)ln eu
E(eu))∼E(ueu)≤E(eulneu)−E(eu) lnE(eu)
⇒E(eu) ln(E(eu))≤0∼E(eu)≤1
Ici il manquerait que φ(Y) est int´egrable mais rien ne garantit ¸ca du coup on rendYn =
emin(u,n)
E(emin(u,n)) pour lequel E(φ(Yn))< +∞. On utilise le mˆeme raisonnement pour d´eduire
∀n,E(emin(u,n))≤1, par le th´eor`eme de convergence monotone⇒E(eu)≤1
Remarque.
On peut reformuler la conclusion :
Ent(Y) = sup
T∈{v.a.≥0}E(Y[logT −log(E(T))]) en ´ecrivanteu= T
E(T)
P etQdeux probabilit´es sur Ω. Alors : D(Q||P) = sup
Z
[EQ(Z)−log(EPeZ)]
o`u le sup est pris sur lesZ tels queEP(eZ)<+∞
Corollaire 3
Preuve.
Si Q n’est pas absolument continue par rapport `a P ⇒ ∃A ∈ A tel que P(A) = 0 mais Q(A)>0
prenons∀n Zn=n1A, EQ(Zn) =Q(A)>0, EP(eZn) = 1
eZn=e1An ∼EQ(Zn)−logP(E(eZn)) =nQ(A) −→
n→+∞+∞
siQP,D(Q||P) = EntdQ
dP
= sup
T
E
dQ dP[logT
| {z }
=Z
−log(E(T))
| {z }
=Ee(Z)
]
Si f est une fonction, la transform´ee de Legendre est : f∗(t) = sup
λ∈R
{λt−f(λ)}
D´efinition 7(transform´ee de Legendre)
Pour X v.a., on note ΛX(λ) = logMX(λ)
Z v.a. centr´ee de loiP tqMZ(λ)<+∞ ∀λ. Alors :
∀t >0, Λ∗Z(t) = inf
Q{D(Q||P),EQ(Z)≥t}
Corollaire 8
Preuve.
λZ∗(t) = sup
λ∈R
{λt−ΛZλ}
Montrons d’abord que sup
λ∈R
{λt−ΛZ(λ)} ≤ inf
Q:EQ(Z)≥t{D(Q||P)}
Soitλ∈R, etQtqEQ(Z)≥t D(Q||P) = sup
Y;EP(eY)<+∞
[EQ(Y)−log(EP(eY))] corollaire pr´ec´edent Donc :
D(Q||P)≥λEQ(Z)−log(EP(eλZ))≥λt−ΛZ(t) Il reste `a montrer l’´egalit´e. Prenons dQdP = eλZ
E(eλZ) avecλ= Λ0Z−1(t) Il faut queEQ(Z)≥t ; maisEQ(Z) =EP
eλZZ E(eλZ)
= Λ0Z(λ) =t D(Q||P) = Ent
dQ dP
= 1
E(eλZ)[E(eλZλZ)−E(eλZ) ln(E(eλZ))] =λΛ0Z(λ)−ΛZ(λ) =λt−ΛZ(λ)
Remarques.
– EQ(Z)≥t⇔Q∈Γ ={µ|Eµ(Z)≥t},Q=δZ doncδZ ∈Γ veut direZ ≥t
– Rappelons nous le ph´enom`ene de concentration du premier chapitre. In´egalit´e de Chernoff :
P(X ≥t)≤ inf
λ>0{exp(−λt)MX(λ)}= exp(−sup
λ>0
{λtΛX(λ)}) = exp(−Λ∗X(t)) AinsiZ≥tcorrespond `aδZ ∈Γ et Λ∗Z(t) correspond `a inf{D(Q||P);Q∈P}qui correspond en gros `ad(P,Γ)
– Reprenons l’exemple du d´ebut de chapitre. X1, ..., Xn ind´ependantes de loi P, notons Pn= 1nPn
i=1δXn alors :
1 n
n
X
i=1
Xi ≥t⇔Pn∈Γ
Avant on avait tir´e avantage du fait que la concentration ´etait contrˆol´ee par MSn(λ) = Qn
i=1MXi(λ) o`u Sn =Pn
i=1Xi. Ici la concentration d´ependra de d(Pn,Γ) ou encore de D(Q||Pn) pourQ∈Γ. On aimerait que l’entropie satisfasse des propri´et´es de tensorisation commeMX.
Cours du 10 mars
Remarque.
Pour toute fonction positivef, et toute mesure µ Entµf =
Z
flnf dµ− Z
f dµln Z
f dµ Siµest une proba alors Entµf ≥0.
Dans la litt´erature on d´efinit l’entropie d’une densit´ef (R
f dµ= 1) par−flnf dµ.
4 Conditionnement
4.1 Cas discret
(Ω,A,P) un espace de probabilit´e. Soit B ∈ A tq P(B) ≥ 0. On d´efinit la probabilit´e conditionnelle sachantB par :
P(A|B) =P(A∩B)
P(B) ∀A∈ A D´efinition 8(probabilit´e conditionnelle)
Remarque.
Si X est int´egrable, E[X|B] = E(X.1B)
P(B) . On peut d´efinir l’esp´erance conditionnelle d’une v.a.
X sachant une autre v.a. Y. SiY est `a valeurs dans un espace d´enombrable E et E0 ={y ∈ E |P(Y =y)>0}, on d´efinit :
E[X|Y =y] = E(X.1{Y=y})
P(Y =y) y∈E0
X ∈L1(Ω,A,P). L’esp´erance conditionnellle deX sachantY est la v.a. d´efinie par : E[X|Y] =ϕ(Y)
O`u :
ϕ(y) =
E[X|Y =y] siy∈E0 0 sinon
D´efinition 9(esp´erance conditionnelle)
Exemple.
Ω ={1, ...,6},P({i}) =16
Y(ω) =
1 siω est impair 0 sinon
PourX(ω) =ω :
E[X|Y = 1] = E(X.1Y=1)
P(Y = 1) = (1 + 3 + 5)16
1 2
= 3
E[X|Y = 0] = E(X.1Y=0)
P(Y = 0) = (2 + 4 + 6)16
1 2
= 4
Remarques.
– E[X|Y] est donc une v.a. qui estσ(Y)−mesurable
– on peut changer la d´efinition de ϕsur E\E0, on obtiendrait des v.a. p.s. ´egales car E\E0 est n´egligeable
– Z =E[X|Y] ; Z(y) =E[X|Y =y]
– On a toujoursE|E[X|Y]| ≤E|X| (doncE[X|Y]∈L1(Ω,A,P)) – SiZ v.a. σ(Y)−mesurable (born´ee) alors :
E(ZX) =E[Z E[X|Y]]
Proposition 8
Preuve.
– Pour le premier point :
E|E[X|Y]|= X
y∈E0
P(Y =y).|E[X|Y =y]|
= X
y∈E0
P(Y =y).|E(X.1Y=y)|
P(Y =y)
= X
y∈E0
|E(X.1Y=y)|
≤E|X|
– Z =ψ(Y) avecψborn´ee
E[ψ(Y).E[X|Y]] = X
y∈E0
P(Y =y).ψ(y).E[X|Y =y]
= X
y∈E0
P(Y =y).ψ(y).E(X.1Y=y) P(Y =y)
= X
y∈E0
ψ(y).E(X.1Y=y)
=E
X
y∈E0
X.ψ(y).1Y=y
=E(Xψ(Y)
| {z }
Z
)
4.2 Plus g´ en´ eralement
X ∈L1(Ω,A, P) etBsous-tribu deA. Il existe uneunique v.a. ∈L1(Ω,B, P) not´eeE[X|B]
telle que :
∀B ∈ B, E[X.1B] =E[E[X|B].1B] Ou aussi∀Z B−mesurable on aE(XZ) =E[E[X|B]Z]
Si Y v.a., on d´efinit E[X|Y] =E[X|σ(Y)]
Th´eor`eme 9 (et d´efinition)
Preuve.
1. Existence :
Supposons que X≥0 (sinon on ´ecritX=X+−X− et puis on refait la mˆeme chose pour X+ etX−). On d´efinitQune mesure surBcomme :
∀B∈ B, Q(B) =E[X.1B]
On a QP sur (Ω,B). Alors d’apr`es Radon-Nikodym ∃Xe B−mesurable tq :
∀B∈ B, Q(B) =E[X.1e B]
On aXe ∈L1(Ω,B, P) (en prenantB = Ω et utilisant queX ∈L1). On prendE[X|B] =Xe 2. Unicit´e : soitX0 etX00 ∈L1(Ω,B, P) telles que∀ B∈ BE[X0.1B] =E[X00.1B]
PrenonsB={X0> X00} B−mesurable carX0 etX00 le sont, alors : E(X0−X00)1{X0−X00>0}= 0 ⇒ P(X0−X00>0) = 0 et idem pour X00−X0 doncX0=X00
1. SiX estB−mesurable,E[X|B] =X 2. X−→E[X|B] est lin´eaire
3. E[E[X|B]] =E(X)
4. SiX ≥X0 alorsE[X|B]≥E[X0|B]
5. X et Y sont ind´ependantes ssi ∀h, E[h(X)|Y] =E(h(X))
6. On a Jensen pour tout fonction f convexe positive : f(E[X|Y])≤E[f(X)|Y] Propri´et´e 10
Pour finir, ´enon¸cons le cadre des variables dansL2 qui donnera une bonne intuition.
Si X∈L2(Ω,A, P) alorsE[X|B] est la projection orthogonale deX surL2(Ω,B, P) Th´eor`eme 11
Preuve.
E (E[X|B])2
≤E[E[X2|B]]<+∞ainsiE[X|B]∈L2(Ω,B, P)
E[X|B] est la projection orthogonale deXsurL2(Ω,B, P) veut dire que pour toutZ∈L2(Ω,B, P) on a :
Z⊥X−E[X|B] ⇒ E(Z.(X−E[X|B])) = 0 ⇒ E(ZX) =E[Z.E[X|B]]
qui est la d´efinition de l’esp´erance conditionnelle.
5 Sous-additivit´ e de l’entropie
Le th´eor`eme suivant sera la cl´e pour ´etablir des in´egalit´es de concentration.
X1, ..., Xn v.a. ind´ependantes, Y =f(X1, ..., Xn) une fonction mesurable tqφ(Y) =YlnY est int´egrable
Pour touti≤n,E(i)est l’esp´erance conditionnelle par rapport `a : X(i)= (X1, ..., Xi−1, Xi+1, ..., Xn) (E(i)=E[.|X1, ..., Xi−1, Xi+1, ..., Xn]).
Ent(i)=E(i)φ(Y)−φ(E(i)Y) on a alors Ent(Y)≤E(Pn
i=1Ent(i)Y)
Th´eor`eme 12(sous-additivit´e de l’entropie)
Preuve.
NotonsEi[.] =E[.|X1...Xi] doncE0=Eet EnY =Y
EntY =EYlnY −EYlnEY =E(YlnY −Y lnEY) =E(Y(lnY −lnEY)) lnY −lnEY = lnEnY −lnE0Y =
n
X
i=1
ln(EiY)−ln(Ei−1Y) Donc :
Y(lnY −lnEY) =
n
X
i=1
Y(ln(EiY)−ln(Ei−1Y)) Formule de dualit´e de l’entropie→ Ent(Y) = sup
T≥0E(Y(lnT−lnET)) PrenonsT =EiT →Ent(i)(Y)≥E(i)Y(ln(EiY)−ln(E(i)EiY))
E(i)EiY =E(i)E[Y|X1, ..., Xi]
=E[E[Y|X1, ..., Xi]|X1, ..., Xi−1, Xi+1, ..., Xn]
Z est une fonction de X1, ..., Xi et les (Xj)j sont ind´ependants donc Z est ind´ependante de Xi+1, ..., Xn.
→E(i)EiY =E[E[Y|X1, ..., Xi]|X1, ..., Xi−1]
=E[Y|X1, ..., Xi−1] =Ei−1Y
→E(i)EiY ≥E(i)Y(lnEiY −lnEi−1Y) E
n
X
i=1
Ent(i)Y
!
≥E
n
X
i=1
E(i)Y(lnEiY −lnEi−1Y)
!
≥E
n
X
i=1
Y(lnEiY −lnEi−1Y)
!
= EntY
6 In´ egalit´ es de Sobolev Logarithmique
Soitµ mesure de probabilit´e surRn. On dit que µsatisfait une in´egalit´e de Sobolev Loga- rithmique (ISL(c)) avec constantec >0 si :
∀f :Rn −→R on a Entµ(f2)≤c Z
|∇f|2dµ
De mˆeme, siX est un vecteur al´eatoire deR2de loiµ, il satisfait une ISL(c) si:
Ent(f2(X))≤cE(k5fk22(X)) D´efinition 10 (in´egalit´e de Sobolev Logarithmique)
Remarques.
– Plus g´en´eralement, on peut d´efinir ISL pour un espace quelconque muni d’une proba µ, quitte `a trouver une bonne notion de gradient et|.|
– Une in´egalit´e du mˆeme esprit est l’in´egalit´e de Poincar´e o`u la conclusion est : Varµ(f)≤c
Z
|∇f|2dµ O`u Varµ(f) =R
f2dµ−(R f dµ)2
– On a log-Sobolev ⇒Poincar´e
6.1 Mesure produit Bernoulli
Posons Ωn = {−1,1}n le cube discret dans Rn. Soit σn la mesure uniforme sur Ωn. On a
∀x∈ Ωn, σn({x}) = 21n. On peut voir σn comme la mesure produit σn =σNn , o`u σ({1}) = σ({−1}) = 12 mais aussi comme la loi du vecteur al´eatoire ξ = (ξ1, ..., ξn) o`u les ξi sont i.i.d (Rademacher).
On aimerait d´efinir une ISL pourσn. D´efinissons d’abord une m´etrique:
∀x, y∈Ωn, d(x, y) =|{i≤n, xi6=yi}|=
n
X
i=1
1{xi6=yi}
On appelle cette distance la distance de Hamming. Elle mesure le nombre d’arˆetes `a traverser sur le cube pour passer dex`ay.
Notonsτi leflip de laiieme coordonn´ee : τi(x) = (x1, ..., xi−1,−xi, xi+1, ..., xn). On a :
d(x, y) =k⇔il y ak flips `a effectuer pour passer dex`ay⇔ ∃i1, ...ik distincts t.qy=τik◦...◦τi1(x) On dira quexety sontvoisins et on notex∼ysi ∃i∈Nt.qy=τi(x).
D´efinissons maintenant la norme. Pour f : Ωn→Retx∈Ωn, posons:
k5fk2(x) = 1 2
X
y o`uy∼x
(f(y)−f(x))2
(5f.5g)(x) =1 2
X
y o`uy∼x
(f(y)−f(x))(g(y)−g(x)) (5est une notation)
Soit x ∈ Ωn et i ≤ n. On note ˆxi = (x1, ..., xi−1, xi+1, ..., xn) ∈ Ωn−1. Fixons ˆxi. Soit f : Ωn→R.
On d´efinitfxˆi : Ω→R, x7→fxˆi(x) =f(x1, ..., xi−1, x, xi+1, ..., xn).
Pourx∈Ωn, on pose :
k5ifik2(x) =k5fxˆik2(x) =1
2(fxˆi(1)−fxˆi(−1))2= 1
2(f(x)−f(τi(x)))2 Ainsi, on ak5fk2(x) =Pn
i=1k5ifik2(x). (Comme pour le gradient usuel).
(Ωn, σn) satisfait ISL1 i.e
∀g: Ωn→R, Entσn(g2)≤ Z
k5gk2(x)dσn(x)
i.e siξ= (ξ1, ..., ξn) o`u lesξisont des Rademacher, Ent(g2(ξ))≤E(k5gk2(ξ)).
Th´eor`eme 13
Preuve.
Soitg: Ωn→R. Par sous-additivit´e de l’entropie, on a : Entσn(g2)≤
n
X
i=1
Z
Entσ1(g2xˆi)dσn
Notons ˆgxi =gipour simplifier les notations.
D’autre part, on ak5gk2(x) =Pn
i=1k5igik2(x).
Ainsi, il suffit de montrer que:
n
X
i=1
Z
Entσ1(gi2)dσn≤ Z n
X
i=1
k5igik2(x)dσn
Montrons que : ∀i∈ {1, .., n},R
Entσ1(gi2)dσn ≤R
k5igik2(x)dσn.
Le probl`eme se r´eduit ainsi `a montrer l’ISL1 en dimension 1 (pour (Ω, σ1)).
Soitg: Ω→R. On a : Z
k5gk2(x)dσ1= 1
2(g(1)−g(−1))2=1
2(a−b)2 Entσ(g2) =
Z
Φ(g2)dσ−Φ Z
g2dσ
= 1
2a2lna2+1
2b2lnb2−a2+b2 2 ln
a2+b2 2
Ainsi, il faut montrer que :
∀a, b∈R,(a−b)2≥a2lna2+b2lnb2−(a2+b2) ln
a2+b2 2
L’in´egalit´e ´etant sym´etrique enaetb, supposons quea≥b. Or, on a||a| − |b|| ≤ |a−b|. Il nous suffit donc de montrer que :
pour a≥b≥0,(|a| − |b|)2≥a2lna2+b2lnb2−(a2+b2) ln
a2+b2 2
Fixonsb≥0. Posonsh(a) =a2lna2+b2lnb2−(a2+b2) ln(a2+b2 2)−(a−b)2. On a :
– h(b) = 0 – h0(b) = 0 – hest concave
Donchest n´egative. D’o`u le r´esultat.
6.2 ISL-gaussienne
Soit γn la mesure gaussienne sur Rn(de densit´e 1
(2π)n2 exp(−|x|22)). Alors, γn (ou (Rn, γn, norme euclidienne)) v´erifie(nt) ISL2
i.e∀f :Rn→Rcontinuement diff´erentiable, on a : Entγn(f2)≤2
Z
k5fk22dγn i.e sig est un vecteur gaussien (g∼ N(0, IdRn)), alors:
Ent(f2(g))≤2E Z
k5fk2(g) Th´eor`eme 14
Preuve.
Comme dans la preuve pr´ec´edente, il suffit de montrer l’in´egalit´e en dimension 1. Dans l’exercice 2 du TD 5, on a montr´e que : ∀f :R→Runiform´ement born´ee et pourξ1, ..., ξndes Rademacher i.i.d, on a :
lim
n sup
n
X
i=1
E
"
f
S˜n+1−ξi
√n
−f
S˜n−1 +ξi
√n 2#
= 4E(f0(X)2) o`u ˜Sn= √1nPn
i=1ξi etX ∼ N(0,1).
Ainsi, d’apr`es l’ISL discret, on a, en posantg(ξ1, .., ξn) =f( ˜Sn) : Ent(g2(ξ)) = Ent(f2( ˜Sn))
≤E(k5gk2(ξ))
≤1 2E(
n
X
i=1
g(ξ1, ..., ξi−1,1, ξi+1, ..., ξn)−g(ξ1, ...,−1, ..., ξn)2
≤1 2E
n
X
i=1
f
S˜n+1−ξi
√n
−f
S˜n−1 +ξi
√n
2!
Enfin, d’apr`es le TCL, on a :
Ent(f2( ˜Sn))→Ent(f2(X)) o`u X∼ N(0,1). D’o`u le r´esultat.