Probabilit´ es
Chapitre 3 : Concentration de la mesure
Lucie Le Briquer
Sommaire
1 Introduction 1
2 Fonctions de concentration 3
3 Concentration ensembliste et concentration des fonctions Lipschitziennes 4
4 De log-Sobolev `a la concentration 6
5 Vecteurs gaussiens 7
6 Applications : op´erateurs et matrices Gaussiennes 9
1 Introduction
On travaille surRn en ayant en tˆete quenest grand. On noteB2nla boule Euclidienne de rayon 1 (Bn2 ={kxk2≤1}).
Un calcul (en TD) vous montrera que si on cherche le rayonrn>0 tel que Vol(rnB2n) = 1 alors rn∼c√
n(o`uc est une constante nm´erique.)
rn
r
Vol(B) = 1. Sir < rn, Vol(rBn2) = Vol(rr
nB) = (rr
n)n−−−−−−→
n−→+∞ 0 Si par exempler= (1−ε)rn avecε∈[0,1] on a (rr
n)n∼(1−ε)n−−−−−−→
n−→+∞ 0 tr`es vite.
La boule de rayon (1−ε)rn est de volume presque nul (en grande dimension). Toute la masse est concentr´ee dans une couronne finie.
RegardonsBn∞= [−1,1]n. DansBn∞il y a des points de la forme (±1, ...,±1) qui sont `a distance (Euclidienne) √
n de l’origine, donc tr`es ´eloign´es de l’origine. D’autre part, on a des points comme (1,0, ...,0) qui sont `a distance 1 de l’origine.
Vol(B∞n) = 2n
r < rn∼√
n Vol((rBn2)∩ B∞n)≤Vol(rB2n)−−−−−−→
n−→+∞ 0 Ainsi toute la masse du cube est concentr´ee autour des sommets.
SoitA ⊆Rn compact. D´efinissons l’´epaissitdeAcomme : At={x∈Rn|d(x,A)< t}
=A+tBn2
={x+ty|x∈ Aety∈ B2n}
SoitA ⊆Rn, soit Bla boule Euclidienne ayant le mˆeme volume queA(Vol(A) = Vol(B)) Vol(At)1/n= Vol(A+tBn2)1/n
≥Vol(A)1/n+ Vol(tB2n)1/n Brunn-Minkowski (TD)
= Vol(B)1/n+ Vol(tBn2)1/n SiB=rBn2 (i.e. Best de rayonr)
Vol(At) =rVol(Bn2)1/n+tVol(B2n)1/n
= (r+t)Vol(Bn2)1/n
= Vol((r+t)Bn2
| {z }
Bt
)1/n
On a montr´e que Vol(At)1/n≥Vol(Bt)1/n Si on d´efinit Vol(∂A) = lim inf
t→0
Vol(A+tBn2)−Vol(A)
t , on vient de montrer que Vol(∂A) ≥Vol(∂B) (o`u Bboule Euclidienne de mˆeme volume queA).
A volume fix´` e, les boules Euclidiennes sont celles qui ont la plus petite mesure de bord. On appelle ceci in´egalit´e isop´erim´etrique.
Ici on a travaill´e sur Rn, avec la m´etrique Euclidienne et la mesure de Lebesgue, on pourrait
´
etudier ce ph´enom`ene dans d’autres cas.
Donnons un autre exemple : prenonsSn−1la sph`ere unit´e deRn. On munitSn−1de la m´etrique g´eod´esique (i.e. d(x, y) correspond au plus petit arc les reliant).
Il existe une unique mesure surSn−1 invariante par rotation.
On d´efinit pourA⊆Sn−1:
˜
σ= Vol({tu|t∈[0,1], u∈A}) On prendµ= σ(S˜ σ˜n−1) mesure de probabilit´e.
Ph´enom`ene isop´erim´etrique d´emontr´e par L´evy : “ `A mesure fix´ee, les coupes sph´eriques sont celles qui ont le plus petit p´erim`etre.”
∀A⊆Sn−1, etB une coupe sph´erique telle queµ(A) =µ(B) alorsµ(At)≥µ(Bt).
Ainsi siAest telle queµ(A)≥ 12 alors en prenantB au moins une demi-sph`ere, et en calculant on trouve :
µ(ACt)≤e−(n−1)t
2 2
On voit le lien entre in´egalit´e isop´erim´etrique et ph´enom`ene de concentration.
SiAa beaucoup de masse (≥12), alors d`es qu’on s’´eloigne deA, la masse d´ecroˆıt tr`es rapidement.
2 Fonctions de concentration
Un triplet (X, d, µ) est un espace m´etrique de probabilit´e (epm) si (X, d) est un espace m´etrique etµest une probabilit´e.
D´efinition 1(espace m´etrique de probabilit´e)
Remarque.
La tribu bor´elienne surX est la plus petite tribu engendr´ee par les ouverts deX.
Exemples.
– Sn−1 muni de la m´etrique g´eod´esique et de la probabilit´eµd´efinie dans l’introduction – Rn muni de la m´etrique Euclidienne et de la mesure Gaussienneγn
– Ωn muni de la m´etrique de Hamming et de la mesure uniformeσn
Si (X, d) est un espace m´etrique, on d´efinit ler-voisinage de tout ensembleA⊆X par : Ar={x∈X |d(x, A)< r}
et doncACr ={x∈X |d(x, AC)≥r}
D´efinition 2(r-voisinage)
Soit (X, d, µ) un espace m´etrique de probabilit´e. La fonction de concentration α(X,d,µ) de (X, d, µ) est donn´ee par :
∀r >0, α(X,d,µ)(r) = sup
µ(ACr)| A⊆X, µ(A)≥ 1 2
D´efinition 3(fonction de concentration)
Remarques.
– La fonction de concentration est la meilleure (la plus petite) fonction α:R+−→R+ telle que∀ ⊆X et∀r≥0, µ(ACr)≤α(r), µ(A)≥12
– Si r >Diam(X, d) = sup{d(x, y)| x, y∈X} alorsα(X,d,µ)(r) = 0 – Si r−→+∞on devrait avoirα(X,d,µ)(r)−→0
– α(X,d,µ)sert juste `a majorerµ(ACr). On s’int´eresse alors `a trouver des majorations deαet non la calculer explicitement.
– On notera parfoisαµ `a la place deα(X,d,µ)
(X, d, µ) a une concentration Gaussienne (respectivement exponentielle) si∃c, C >0 (con- stantes) telles que :
α(X,d,µ)(r)≤Ce−cr2 (respectivement α(X,d,µ)(r)≤Ce−cr) D´efinition 4(concentration Gaussienne / exponentielle)
3 Concentration ensembliste et concentration des fonctions Lipschitziennes
Remarque.
Pour (X, d) un EPM,f :X −→Rest Lipschitzienne si∃c telle que :
∀x, y∈X, |f(x)−f(y)| ≤cd(x, y)
On d´efinitkfkLip la meilleure (plus petite) constante c pour laquelle on a cette relation. f est 1-Lipschitzienne sikfkLip≤1
Si f estµ-int´egrable on dit quemf ∈Rest une m´ediane def si : µ({f ≤mf})≥1
2 et µ({f ≥mf})≥ 1 2 D´efinition 5(m´ediane)
(X, d, µ) EMP avec une fonction de concentrationαµ
Alors∀f :X −→RLip de m´edianemf, on a :
µ({f ≤mf−r})≤αµ
r kfkLip
!
et µ({f ≥mf+r})≤αµ
r kfkLip
!
Ainsi :
µ({|f−mf| ≥r})≤2αµ
r kfkLip
!
Proposition 1(conc. ensembliste⇒conc. des fonctions Lip autour de la m´ediane)
Preuve.
On peut supposer que kfkLip = 1. SoitA={f ≤mf}, par d´efinition demf, on a µ(A)≥ 12. CalculonsAr :
Ar={x∈X|d(x, A)< r} ⊂ {x∈X|f(x)< mf+r}
DoncAcr⊃ {x∈X, f(x)≥mf+r}. Concentration ensembliste⇒µ(Acr)≤α(r). Les autres cas s’en d´eduisent de mani`ere similaire.
(X, d, µ) un e.m.p etα:R+→R+tel que∀f :X→Rlipschitzienne de m´edianemf,∀r >0 on a :
µ({f ≥mf+r})≤α r
kfkLip
Alors pour toutA⊆X tel que µ(A)≥ 12, on a
∀r >0, µ(Acr)≤α(r) Ainsiα(X,d,µ)≤α
Proposition 2(r´eciproque)
Preuve.
Soit A ⊆ X tel que µ(A) ≥ 12. On prend f(x) = d(x, A), alors f est 1-Lip (par l’in´egalit´e triangulaire).
Ar={x|d(x, A)< r}={f < r} et A⊆ {f = 0}
µ(A)≥12 ⇒µ({f = 0})≥12 ⇒0 est une m´ediane de f
µ(Acr) =µ({f ≥r}) =µ({f ≥mf+r})≤α(r)
(X, d, µ) e.m.p etα:R+→R+tel que ∀f Lip, on a : µ
f ≥
Z
f dµ+r
≤α r
kfkLip
,∀r≥0 Alors,∀A⊆X tel queµ(A)>0, on a :
µ(Acr)≤α(µ(A)r) Ainsi, siαd´ecroissante, on aα(X,d,µ)≤α(r2)
Proposition 3
Preuve.
SoitA⊆X,µ(A)>0. Soitr >0. PrenonsFr(x) =min(d(x, A), r) qui est 1-Lip.
Z
Frdµ= Z
Ac
Frdµ≤rµ(Ac)
µ(Acr) =µ({F ≥r}) =µ({F ≥rµ(Ac) +rµ(A)})≤µ
{F ≥ Z
F dµ+rµ(A)}
Doncµ(Ac)≤α(rµ(A))
4 De log-Sobolev ` a la concentration
(Rn,k.k2, µ) emp satisfaisant ILSc alors :
∀f 1−lipschitzienne, µ
f ≥ Z
f dµ+r
≤e−r2/c
en particulier, l’espace a une concentration Gaussienne.
Th´eor`eme
Preuve.
Soitf 1-Lipschitzienne ; on peut supposer que f est diff´erentiable et que|∇f| ≤1. Soitλ∈R etg(x) = expλf(x)
2
.
ISLc `a g Entµ(g2)≤c Z
|∇g|2dµ
Ent(g2) = Z
g2lng2dµ− Z
g2dµln Z
g2dµ
= Z
λf eλfdµ− Z
eλfdµln Z
eλfdµ
A finir.`
L’espace Gaussien a une concentration Gaussienne. Plus pr´ecis´ement :
∀f 1−lipschitzienne, µ
f ≥ Z
f dµ+r
≤e−r2/2 Corollaire
∀f :{−1,1}n−→R, on d´efinit : v= max
x∈{−1,1}n
1 2
n
X
i=1
(f(x)−f(τi(x)))2
On a
σn
f ≥ Z
f dσn+r
≤e−r2/v σn mesure uniforme sur le cube discret.
Th´eor`eme
Cours du 31 mars
5 Vecteurs gaussiens
On dit queX ∈Rn est un vecteur gaussien si∀θ∈Sn−1, < θ|X >est une gaussienne.
D´efinition 6(vecteur gaussien)
SiX = (X1, . . . , Xn) avec{Xi}ind´ependantes gaussiennes, alorsX est un vecteur gaussien.
Proposition 4
Preuve.
∀θ∈Sn−1,< θ|X >=Pn
i=1θiXiest une somme de gaussiennes ind´ependantes donc est gaussien.
Remarque.
X Gaussien standard⇒ses coordonn´ees sont Gaussiennes ind´ependantes.
On appelle covariance du vecteurX = (X1, . . . , Xn) la matrice Σ∈ MnRd´efinie par Σi,j= Cov(Xi, Xj)
D´efinition 7(covariance)
Remarque.
Σ est sym´etrique et a pour diagonale les variances.
Pour simplifier, on va supposer queX est centr´ee : (E(Xi, Xj)){i,j}=E(XtX) est donc positive.
X vecteur al´eatoire de matrice de covariance Σn×n. A k×n. AlorsAX vecteur gaussien de matrice de covarianceAΣAk.
Proposition
Amatrice sym´etrique d´efinie positive. Alors la loi du vecteur Gaussien centr´e de matrice de covarianceA a une densit´e / mesure de Lesbesgue de Rn donn´ee par :
1 (√
2π)k√
detAexp
−1
2 < A−1x, x >
Proposition
X Gaussien centr´e dansRn, matrice de covariance Σ. Siθ1, θ2sont 2 directions∈Sn−1alors
< X, θ1>et< X, θ2>sont ind´ependates ssiθ1⊥θ2 (⇔cov(< X, θ1>, < θ2, X >) = 0).
Proposition
Cours du 7 avril
6 Applications : op´ erateurs et matrices Gaussiennes
Gune matriceN×ndont les entr´ees sont des variables al´eatoires Gaussiennes i.i.d. N(0,1).
On peut aussi voirGcomme un vecteur Gaussien dansRnN. G:Rn−→RN
On cherche l’action de l’applicationG. Regardons Gcomme un op´erateur : G:l2n−→lN2
o`u ln2 = (Rn,k.k2)
∀x∈Sn−1:
Gx=
N
X
i=1
< x, Li(G)> ei=
...
< x, Li(G)>
...
N
Gxest un vecteur Gaussien standard (i.e. N(0, Id)) car : E(< Li(G), x >) = 0 E(< Li(G), x >2) =kxk22= 1 doncGxa des entr´ees ind´ependantes ∼ N(0,1)⇒Gx∼ N(0, IdRN).
Si on s’int´eresse `aGen tant qu’op´erateur del2dansl2on aimerait trouver αet β tels que :
∀x∈Rn, αkxk2≤ kGxk2≤βkxk2
E(kGxk22) =
N
X
i=1
E(< Li(G), x >2) =Nkxk22 or E(kGxk22) =E(xtGtGx)
De plus :
GtG=
... ... L1(G) LN(G)
... ...
. . . L1(G) . . .
. . . LN(G) . . .
=
N
X
i=1
Li(G)Li(G)t
Donc :
E(GtG) =
N
X
i=1
E(Li(G)Li(G)t)
=
N
X
i=1
Cov(Li(G))
=N IdRn
Leβ correspond `a la norme deGo`u : kGk=kGk2→2= sup
kxk2≤1
kGxk2= sup
kxk2≤1
p< Gx, Gx >= sup
kxk2≤1
p< G∗Gx, x >=λmax((G∗G)1/2)
De la mˆeme fa¸conαcorrespondrait `a : inf
kxk2=1kGxk2=λmin((G∗G)1/2)
Etant donn´´ ee une matrice A de N ×n, on d´efinit les valeurs singuli`eres de A (et on note si(A)) les valeurs propres de (A∗A)1/2
D´efinition 8(valeurs singuli`eres)
Remarques.
– siAest sym´etrique, les valeurs singuli`eres deAsont les valeurs absolues des valeurs propres.
– les valeurs singuli`eres sont une interpr´etation g´eom´etrique puisqu’on vient de voir que
∀x∈Rn :
smin(A)kxk2≤ kAxk2≤smax(A)kxk2 – Ainjective ⇔smin(A)>0
du coup si n > N, smin(A) = 0 et le nombre de valeurs singuli`eres non nulles est ´egal au rang deA
Supposons que n≤N, on a :
smin(A)BN2 ⊆AB2N ⊆smax(A)B2N
(siy∈AB2n,y=Axavecx∈B2n donckAxk2≤smax(A) d’o`uy=Ax∈smax(A)B2N sismin(A) = 0, rien `a dire ; sinonAest inversible, on fait comme au dessus)
Le nombre de conditionnement deAest :
κ(A) =smax(A) smin(A) D´efinition 9(nombre de conditionnement)
Remarque.
– siκ(A) = 1 alorsAest multiple d’une isom´etrie (i.e. application qui conserve les normes) – si κ(A) est proche de 1 (ou d’une constante = ne d´epend pas de la dimension) on dit que
Aest bien conditionn´ee
Reprenons G. On aE(G∗G) = N IdRn donc en moyenne Gest une isom´etrie. Montrons main- tenant queGest une isom´etrie avec une grande probabilit´e `a l’aide des in´egalit´es de concentration.
G N×nGaussienne. On note : m=
Z
RN
kxkdγN(x) o`u k.k est n’importe quelle norme
=E(kgk) o`ug∼ N(0, IdRN)
=E(kGuk) ∀u∈Sn−1
Soitb >0 tqk.k ≤bk.k2. Alors∀S ensemble fini deRn, on a :
P({∀y∈S,(1−ε)mkyk2≤ kGyk ≤(1 +ε)mkyk2})≥1−2|S|exp
−m2ε2 4b2
Proposition 5
Preuve.
∀y ∈ Sn−1, posons Ey = {| kGyk −mkyk2| > εmkyk2} = {| kGyk −E(kGyk)| > εm}. On cherche `a montrer que :
P
\
y∈S
Ey
≥1−2|S|exp
−m2ε2 4b2
(RN, γN,k.k2) est un espace Gaussien (il a une concentration Gaussienne). Soitf :
RN −→ R x 7−→ kxk estb-Lipschitzienne. Donc :
γN
f(x)− Z
f dγN
> r
≤2 exp
−r2 2b2
Donc :
P(Ey) =P({| kGyk −mkyk2|> εmkyk2})≤2 exp
−ε2m2 2b2
D’o`u :
P
[
y∈S
Ey
≤2|S|exp
−ε2m2 2b2
Remarques.
– ceci redonne le lemme de Johnson-Linderstrauss – sik.k=k.k , alorsb= 1 etm=Ekyk
≤(E(kyk2)1/2
de l’ordre de√ n
Retour `a notre but : estimer les valeurs singuli`eres deG. On aimerait que : (1−ε)≤smin(G)≤smax(G)≤1 +ε
(1−ε)≤ inf
s∈Sn−1kGxk2≤ sup
s∈Sn−1
kGxk2≤1 +ε
Pour ε >0, on dit qu’un ensemble finiS⊆Sn−1 est unδ-r´eseau deSn−1 si :
∀x∈Sn−1,∃y∈S tq kx−yk2≤δ D´efinition 10 (r´eseau)
∀δ >0, on peut trouverS unδ-r´eseau tel que |S| ≤ 1 +2δn Lemme 6
Preuve.
S = {y1, ..., ys} ⊂ Sn−1 un ensemble δ-s´epar´e (i.e. ∀i 6= j,kyi−yjk2 > δ) et maximal (i.e.
∀y∈Sn−1,S∪ {y}n’est pas δ-s´epar´e).
S maximal⇒S est unδ-r´eseau
•
•
• •
Les boulesB(yi, δ/2) sont disjointes.
s
[
i=1
B(yi, δ/2)⊆ B(0,1 +δ/2)
Vol
s
[
i=1
B(yi, δ/2)
!
≤Vol(B(0,1 +δ/2))
s
X
i=1
Vol(B(yi, δ/2))≤Vol(B(0,1 +δ/2)) sVol(B2(0, δ/2))≤Vol(B2(0,1 +δ/2))
G N×navecn < cN o`uc1 est une constante. On a : P
c1√
n≤smin(G)≤smax(G)≤c2√ n
≥1−e−cN o`uc1, c2 sont des constantes universelles. DoncGest bien conditionn´ee.
Th´eor`eme 7
Preuve.
Soitε∈[0,1].
(1−ε)m≤smin(G)≤smax(G)≤(1 +ε)m o`u m=E(kgk2) o`ug∼ N(0, IdRN)
⇔ | kGxk2−m| ≤ε ∀x∈Sn−1 On doit montrer que :
Γ =P ∃x∈Sn−1/| kGxk2−m|> εm
est petite
≤P ∃x∈Sn−1/| kGxk2−m|> εmet kGk ≤(1 +ε)m
+P(kGk>(1 +ε)m)
SoitS unδ-r´eseau deSn−1(δsp´ecifi´e plus tard). Soitx∈Sn−1tel que| kGxk2−m|> εm. Soit y∈S tl quekx−yk2≤δ
| kGyk2−m|=| kGx−G(x−y)k2−m|
≥ | kGxk2−m| − kG(x−y)k2
≥εm−(1 +ε)mδ d’o`u | kGyk2−m|>(ε−(1 +ε)δ)m De plus :
kGk ≤(1 +ε)⇒ ∃x∈Sn−1tq kGk=kGyk ≥(1 +ε)m
Soity∈S tel quekx−yk2≤δ,kGyk=kGx−G(x−y)k ≥ kGxk − kGkδ= (1−δ)kGxk.
Donc : Γ≤P
∃y∈S/| kGyk2−m|>(ε−(1 +ε)δ)m +P
∃y∈S/kGyk2−m≥(1 +ε)(1−δ)m
Prenonsδ=ε/3 (on a modifi´e une in´egalit´e, prendre un bon delta) Γ≤2X
y∈S
P
| kGyk2−1| ≥ εm 3
Pareil que dans la proposition : on trouveN =n(ε) pour avoir presque une isom´etrie.
E= (Rn,k.k) ;κ(E) = mb2
o`ubest la constante de Lipschitz dek.kpar rapport `a k.k2et m=R
kxkdγn(x). Alors :
∀ε∈[0,1],on a :
lκ2 1+ε,→ E avec κ= cε2
ln(1 +1ε)κ(E) i.e. ∃T :Rn −→Rκtel que :
(1−ε)Bκ2 ⊆T(BE)⊆(1 +ε)B2κ Th´eor`eme 8 (Dvoretsty)
Remarque.
∀K convexe, sym, compacte d’int´erieur non vide (1−ε)Bκ2 ⊆K∪ F
dimκ⊆1 +εBκ2 κ(E)≥logn