Chapitre 3 : Concentration de la mesure

(1)

Probabilit´ es

Chapitre 3 : Concentration de la mesure

Lucie Le Briquer

Sommaire

1 Introduction 1

2 Fonctions de concentration 3

3 Concentration ensembliste et concentration des fonctions Lipschitziennes 4

4 De log-Sobolev `a la concentration 6

5 Vecteurs gaussiens 7

6 Applications : op´erateurs et matrices Gaussiennes 9

1 Introduction

On travaille surRⁿ en ayant en tˆete quenest grand. On noteB₂ⁿla boule Euclidienne de rayon 1 (Bⁿ₂ ={kxk₂≤1}).

Un calcul (en TD) vous montrera que si on cherche le rayonrn>0 tel que Vol(rnB₂ⁿ) = 1 alors rn∼c√

n(o`uc est une constante nm´erique.)

rn

r

Vol(B) = 1. Sir < rn, Vol(rBⁿ₂) = Vol(_r^r

nB) = (_r^r

n)ⁿ−−−−−−→

n−→+∞ 0 Si par exempler= (1−ε)rn avecε∈[0,1] on a (_r^r

n)ⁿ∼(1−ε)ⁿ−−−−−−→

n−→+∞ 0 tr`es vite.

La boule de rayon (1−ε)r_n est de volume presque nul (en grande dimension). Toute la masse est concentr´ee dans une couronne finie.

(2)

RegardonsBⁿ_∞= [−1,1]ⁿ. DansBⁿ_∞il y a des points de la forme (±1, ...,±1) qui sont `a distance (Euclidienne) √

n de l’origine, donc très éloignés de l’origine. D’autre part, on a des points comme (1,0, ...,0) qui sont à distance 1 de l’origine.

Vol(B_∞ⁿ) = 2ⁿ

r < r_n∼√

n Vol((rBⁿ₂)∩ B_∞ⁿ)≤Vol(rB₂ⁿ)−−−−−−→

n−→+∞ 0 Ainsi toute la masse du cube est concentr´ee autour des sommets.

SoitA ⊆Rⁿ compact. D´efinissons l’´epaissitdeAcomme : At={x∈Rⁿ|d(x,A)< t}

=A+tBⁿ₂

={x+ty|x∈ Aety∈ B₂ⁿ}

SoitA ⊆Rⁿ, soit Bla boule Euclidienne ayant le mˆeme volume queA(Vol(A) = Vol(B)) Vol(A_t)^1/n= Vol(A+tBⁿ₂)^1/n

≥Vol(A)^1/n+ Vol(tB₂ⁿ)^1/n Brunn-Minkowski (TD)

= Vol(B)^1/n+ Vol(tBⁿ₂)^1/n SiB=rBⁿ₂ (i.e. Best de rayonr)

Vol(At) =rVol(Bⁿ₂)^1/n+tVol(B₂ⁿ)^1/n

= (r+t)Vol(Bⁿ₂)^1/n

= Vol((r+t)Bⁿ₂

| {z }

Bt

)^1/n

On a montr´e que Vol(A_t)^1/n≥Vol(B_t)^1/n Si on d´efinit Vol(∂A) = lim inf

t→0

Vol(A+tBⁿ₂)−Vol(A)

t , on vient de montrer que Vol(∂A) ≥Vol(∂B) (o`u Bboule Euclidienne de mˆeme volume queA).

A volume fix´` e, les boules Euclidiennes sont celles qui ont la plus petite mesure de bord. On appelle ceci inégalité isopérimétrique.

Ici on a travaill´e sur Rⁿ, avec la m´etrique Euclidienne et la mesure de Lebesgue, on pourrait

´

etudier ce ph´enom`ene dans d’autres cas.

Donnons un autre exemple : prenonsSⁿ⁻¹la sphère unité deRⁿ. On munitSⁿ⁻¹de la métrique géodésique (i.e. d(x, y) correspond au plus petit arc les reliant).

Il existe une unique mesure surSⁿ⁻¹ invariante par rotation.

On d´efinit pourA⊆Sⁿ⁻¹:

˜

σ= Vol({tu|t∈[0,1], u∈A}) On prendµ= _σ(S_˜ ^σ^˜n−1) mesure de probabilit´e.

Phénomène isopérimétrique démontré par Lévy : “ À mesure fixée, les coupes sphériques sont celles qui ont le plus petit périmètre.”

∀A⊆Sⁿ⁻¹, etB une coupe sph´erique telle queµ(A) =µ(B) alorsµ(A_t)≥µ(B_t).

(3)

Ainsi siAest telle queµ(A)≥ ¹₂ alors en prenantB au moins une demi-sph`ere, et en calculant on trouve :

µ(A^C_t)≤e⁻^(n−1)t

2 2

On voit le lien entre inégalité isopérimétrique et phénomène de concentration.

SiAa beaucoup de masse (≥¹₂), alors dès qu’on s’éloigne deA, la masse décroˆıt très rapidement.

2 Fonctions de concentration

Un triplet (X, d, µ) est un espace métrique de probabilité (epm) si (X, d) est un espace métrique etµest une probabilité.

Définition 1(espace métrique de probabilité)

Remarque.

La tribu bor´elienne surX est la plus petite tribu engendr´ee par les ouverts deX.

Exemples.

– Sⁿ⁻¹ muni de la métrique géodésique et de la probabilitéµdéfinie dans l’introduction – Rⁿ muni de la métrique Euclidienne et de la mesure Gaussienneγn

– Ω_n muni de la m´etrique de Hamming et de la mesure uniformeσ_n

Si (X, d) est un espace m´etrique, on d´efinit ler-voisinage de tout ensembleA⊆X par : Ar={x∈X |d(x, A)< r}

et doncA^C_r ={x∈X |d(x, A^C)≥r}

D´efinition 2(r-voisinage)

Soit (X, d, µ) un espace métrique de probabilité. La fonction de concentration α_(X,d,µ) de (X, d, µ) est donnée par :

∀r >0, α_(X,d,µ)(r) = sup

µ(A^C_r)| A⊆X, µ(A)≥ 1 2

D´efinition 3(fonction de concentration)

(4)

Remarques.

– La fonction de concentration est la meilleure (la plus petite) fonction α:R+−→R+ telle que∀ ⊆X et∀r≥0, µ(A^C_r)≤α(r), µ(A)≥¹₂

– Si r >Diam(X, d) = sup{d(x, y)| x, y∈X} alorsα_(X,d,µ)(r) = 0 – Si r−→+∞on devrait avoirα_(X,d,µ)(r)−→0

– α_(X,d,µ)sert juste à majorerµ(A^C_r). On s’intéresse alors à trouver des majorations deαet non la calculer explicitement.

– On notera parfoisαµ `a la place deα_(X,d,µ)

(X, d, µ) a une concentration Gaussienne (respectivement exponentielle) si∃c, C >0 (constantes) telles que :

α_(X,d,µ)(r)≤Ce^−cr² (respectivement α_(X,d,µ)(r)≤Ce^−cr) D´efinition 4(concentration Gaussienne / exponentielle)

3 Concentration ensembliste et concentration des fonctions Lipschitziennes

Remarque.

Pour (X, d) un EPM,f :X −→Rest Lipschitzienne si∃c telle que :

∀x, y∈X, |f(x)−f(y)| ≤cd(x, y)

On d´efinitkfk_Lip la meilleure (plus petite) constante c pour laquelle on a cette relation. f est 1-Lipschitzienne sikfk_Lip≤1

Si f estµ-int´egrable on dit quem_f ∈Rest une m´ediane def si : µ({f ≤mf})≥1

2 et µ({f ≥mf})≥ 1 2 D´efinition 5(m´ediane)

(5)

(X, d, µ) EMP avec une fonction de concentrationαµ

Alors∀f :X −→RLip de m´edianemf, on a :

µ({f ≤mf−r})≤αµ

r kfk_Lip

!

et µ({f ≥mf+r})≤αµ

r kfk_Lip

!

Ainsi :

µ({|f−mf| ≥r})≤2αµ

r kfk_Lip

!

Proposition 1(conc. ensembliste⇒conc. des fonctions Lip autour de la m´ediane)

Preuve.

On peut supposer que kfk_Lip = 1. SoitA={f ≤m_f}, par d´efinition dem_f, on a µ(A)≥ ¹₂. CalculonsA_r :

A_r={x∈X|d(x, A)< r} ⊂ {x∈X|f(x)< m_f+r}

DoncA^c_r⊃ {x∈X, f(x)≥mf+r}. Concentration ensembliste⇒µ(A^c_r)≤α(r). Les autres cas s’en d´eduisent de mani`ere similaire.

(X, d, µ) un e.m.p etα:R+→R+tel que∀f :X→Rlipschitzienne de m´edianem_f,∀r >0 on a :

µ({f ≥m_f+r})≤α r

kfkLip

Alors pour toutA⊆X tel que µ(A)≥ ¹₂, on a

∀r >0, µ(A^c_r)≤α(r) Ainsiα_(X,d,µ)≤α

Proposition 2(r´eciproque)

Preuve.

Soit A ⊆ X tel que µ(A) ≥ ¹₂. On prend f(x) = d(x, A), alors f est 1-Lip (par l’in´egalit´e triangulaire).

A_r={x|d(x, A)< r}={f < r} et A⊆ {f = 0}

µ(A)≥¹₂ ⇒µ({f = 0})≥¹₂ ⇒0 est une m´ediane de f

µ(A^c_r) =µ({f ≥r}) =µ({f ≥mf+r})≤α(r)

(6)

(X, d, µ) e.m.p etα:R+→R+tel que ∀f Lip, on a : µ

f ≥

Z

f dµ+r

≤α r

kfkLip

,∀r≥0 Alors,∀A⊆X tel queµ(A)>0, on a :

µ(A^c_r)≤α(µ(A)r) Ainsi, siαd´ecroissante, on aα_(X,d,µ)≤α(^r₂)

Proposition 3

Preuve.

SoitA⊆X,µ(A)>0. Soitr >0. PrenonsFr(x) =min(d(x, A), r) qui est 1-Lip.

Z

Frdµ= Z

A^c

Frdµ≤rµ(A^c)

µ(A^c_r) =µ({F ≥r}) =µ({F ≥rµ(A^c) +rµ(A)})≤µ

{F ≥ Z

F dµ+rµ(A)}

Doncµ(A^c)≤α(rµ(A))

4 De log-Sobolev ` a la concentration

(Rⁿ,k.k2, µ) emp satisfaisant ILSc alors :

∀f 1−lipschitzienne, µ

f ≥ Z

f dµ+r

≤e^−r²^/c

en particulier, l’espace a une concentration Gaussienne.

Th´eor`eme

Preuve.

Soitf 1-Lipschitzienne ; on peut supposer que f est diff´erentiable et que|∇f| ≤1. Soitλ∈R etg(x) = exp_λf(x)

2

.

ISL_c `a g Ent_µ(g²)≤c Z

|∇g|²dµ

Ent(g²) = Z

g²lng²dµ− Z

g²dµln Z

g²dµ

= Z

λf e^λfdµ− Z

e^λfdµln Z

e^λfdµ

(7)

A finir.`

L’espace Gaussien a une concentration Gaussienne. Plus pr´ecis´ement :

∀f 1−lipschitzienne, µ

f ≥ Z

f dµ+r

≤e^−r²^/2 Corollaire

∀f :{−1,1}ⁿ−→R, on d´efinit : v= max

x∈{−1,1}ⁿ

1 2

n

X

i=1

(f(x)−f(τ_i(x)))²

On a

σ_n

f ≥ Z

f dσ_n+r

≤e^−r²^/v σ_n mesure uniforme sur le cube discret.

Th´eor`eme

Cours du 31 mars

5 Vecteurs gaussiens

On dit queX ∈Rⁿ est un vecteur gaussien si∀θ∈Sⁿ⁻¹, < θ|X >est une gaussienne.

D´efinition 6(vecteur gaussien)

SiX = (X1, . . . , Xn) avec{Xi}ind´ependantes gaussiennes, alorsX est un vecteur gaussien.

Proposition 4

Preuve.

∀θ∈Sⁿ⁻¹,< θ|X >=Pn

i=1θiXiest une somme de gaussiennes ind´ependantes donc est gaussien.

(8)

Remarque.

X Gaussien standard⇒ses coordonn´ees sont Gaussiennes ind´ependantes.

On appelle covariance du vecteurX = (X1, . . . , Xn) la matrice Σ∈ MnRd´efinie par Σi,j= Cov(Xi, Xj)

D´efinition 7(covariance)

Remarque.

Σ est sym´etrique et a pour diagonale les variances.

Pour simplifier, on va supposer queX est centr´ee : (E(X_i, X_j))_{i,j}=E(X^tX) est donc positive.

X vecteur al´eatoire de matrice de covariance Σn×n. A k×n. AlorsAX vecteur gaussien de matrice de covarianceAΣA^k.

Proposition

Amatrice symétrique définie positive. Alors la loi du vecteur Gaussien centré de matrice de covarianceA a une densité / mesure de Lesbesgue de Rⁿ donnée par :

1 (√

2π)^k√

detAexp

−1

2 < A⁻¹x, x >

Proposition

X Gaussien centr´e dansRⁿ, matrice de covariance Σ. Siθ₁, θ₂sont 2 directions∈Sⁿ⁻¹alors

< X, θ1>et< X, θ2>sont ind´ependates ssiθ1⊥θ2 (⇔cov(< X, θ1>, < θ2, X >) = 0).

Proposition

(9)

Cours du 7 avril

6 Applications : op´ erateurs et matrices Gaussiennes

Gune matriceN×ndont les entr´ees sont des variables al´eatoires Gaussiennes i.i.d. N(0,1).

On peut aussi voirGcomme un vecteur Gaussien dansR^nN. G:Rⁿ−→R^N

On cherche l’action de l’applicationG. Regardons Gcomme un op´erateur : G:l₂ⁿ−→l^N₂

o`u lⁿ₂ = (Rⁿ,k.k₂)

∀x∈Sⁿ⁻¹:

Gx=

N

X

i=1

< x, Li(G)> ei=





 ...

< x, Li(G)>

...







N

Gxest un vecteur Gaussien standard (i.e. N(0, Id)) car : E(< L_i(G), x >) = 0 E(< Li(G), x >²) =kxk²₂= 1 doncGxa des entr´ees ind´ependantes ∼ N(0,1)⇒Gx∼ N(0, Id_RN).

Si on s’intéresse àGen tant qu’opérateur del₂dansl₂on aimerait trouver αet β tels que :

∀x∈Rⁿ, αkxk₂≤ kGxk₂≤βkxk₂

E(kGxk²₂) =

N

X

i=1

E(< L_i(G), x >²) =Nkxk²₂ or E(kGxk²₂) =E(x^tG^tGx)

De plus :

G^tG=







... ... L1(G) LN(G)

... ...













. . . L1(G) . . .

. . . LN(G) . . .







=

N

X

i=1

Li(G)Li(G)^t

Donc :

E(G^tG) =

N

X

i=1

E(Li(G)Li(G)^t)

=

N

X

i=1

Cov(L_i(G))

=N Id_Rⁿ

(10)

Leβ correspond `a la norme deGo`u : kGk=kGk_2→2= sup

kxk₂≤1

kGxk₂= sup

kxk₂≤1

p< Gx, Gx >= sup

kxk₂≤1

p< G^∗Gx, x >=λmax((G^∗G)^1/2)

De la mˆeme fa¸conαcorrespondrait `a : inf

kxk₂=1kGxk₂=λmin((G^∗G)^1/2)

Etant donn´´ ee une matrice A de N ×n, on d´efinit les valeurs singuli`eres de A (et on note si(A)) les valeurs propres de (A^∗A)^1/2

D´efinition 8(valeurs singuli`eres)

Remarques.

– siAest sym´etrique, les valeurs singuli`eres deAsont les valeurs absolues des valeurs propres.

– les valeurs singulières sont une interprétation géométrique puisqu’on vient de voir que

∀x∈Rⁿ :

smin(A)kxk₂≤ kAxk₂≤smax(A)kxk₂ – Ainjective ⇔smin(A)>0

du coup si n > N, smin(A) = 0 et le nombre de valeurs singuli`eres non nulles est ´egal au rang deA

Supposons que n≤N, on a :

smin(A)B^N₂ ⊆AB₂^N ⊆smax(A)B₂^N

(siy∈AB₂ⁿ,y=Axavecx∈B₂ⁿ donckAxk₂≤smax(A) d’o`uy=Ax∈smax(A)B₂^N sismin(A) = 0, rien `a dire ; sinonAest inversible, on fait comme au dessus)

Le nombre de conditionnement deAest :

κ(A) =smax(A) smin(A) D´efinition 9(nombre de conditionnement)

Remarque.

– siκ(A) = 1 alorsAest multiple d’une isom´etrie (i.e. application qui conserve les normes) – si κ(A) est proche de 1 (ou d’une constante = ne d´epend pas de la dimension) on dit que

Aest bien conditionn´ee

(11)

Reprenons G. On aE(G^∗G) = N Id_Rn donc en moyenne Gest une isométrie. Montrons main- tenant queGest une isométrie avec une grande probabilité à l’aide des inégalités de concentration.

G N×nGaussienne. On note : m=

Z

R^N

kxkdγN(x) o`u k.k est n’importe quelle norme

=E(kgk) o`ug∼ N(0, Id_RN)

=E(kGuk) ∀u∈Sⁿ⁻¹

Soitb >0 tqk.k ≤bk.k₂. Alors∀S ensemble fini deRⁿ, on a :

P({∀y∈S,(1−ε)mkyk₂≤ kGyk ≤(1 +ε)mkyk₂})≥1−2|S|exp

−m²ε² 4b²

Proposition 5

Preuve.

∀y ∈ Sⁿ⁻¹, posons E_y = {| kGyk −mkyk₂| > εmkyk₂} = {| kGyk −E(kGyk)| > εm}. On cherche `a montrer que :

P





\

y∈S

E_y



≥1−2|S|exp

−m²ε² 4b²

(R^N, γN,k.k₂) est un espace Gaussien (il a une concentration Gaussienne). Soitf :

R^N −→ R x 7−→ kxk estb-Lipschitzienne. Donc :

γ_N

f(x)− Z

f dγ_N

> r

≤2 exp

−r² 2b²

Donc :

P(Ey) =P({| kGyk −mkyk₂|> εmkyk₂})≤2 exp

−ε²m² 2b²

D’o`u :

P



 [

y∈S

Ey



≤2|S|exp

−ε²m² 2b²

Remarques.

– ceci redonne le lemme de Johnson-Linderstrauss – sik.k=k.k , alorsb= 1 etm=Ekyk

≤(E(kyk²)^1/2

de l’ordre de√ n

(12)

Retour `a notre but : estimer les valeurs singuli`eres deG. On aimerait que : (1−ε)≤smin(G)≤smax(G)≤1 +ε

(1−ε)≤ inf

s∈Sⁿ⁻¹kGxk₂≤ sup

s∈Sⁿ⁻¹

kGxk₂≤1 +ε

Pour ε >0, on dit qu’un ensemble finiS⊆Sⁿ⁻¹ est unδ-r´eseau deSⁿ⁻¹ si :

∀x∈Sⁿ⁻¹,∃y∈S tq kx−yk₂≤δ D´efinition 10 (r´eseau)

∀δ >0, on peut trouverS unδ-r´eseau tel que |S| ≤ 1 +²_δⁿ Lemme 6

Preuve.

S = {y1, ..., ys} ⊂ Sⁿ⁻¹ un ensemble δ-s´epar´e (i.e. ∀i 6= j,kyi−yjk₂ > δ) et maximal (i.e.

∀y∈Sⁿ⁻¹,S∪ {y}n’est pas δ-s´epar´e).

S maximal⇒S est unδ-r´eseau

•

• •

Les boulesB(yi, δ/2) sont disjointes.

s

[

i=1

B(y_i, δ/2)⊆ B(0,1 +δ/2)

Vol

s

[

i=1

B(yi, δ/2)

!

≤Vol(B(0,1 +δ/2))

s

X

i=1

Vol(B(yi, δ/2))≤Vol(B(0,1 +δ/2)) sVol(B2(0, δ/2))≤Vol(B2(0,1 +δ/2))

(13)

G N×navecn < cN o`uc1 est une constante. On a : P

c₁√

n≤s_min(G)≤s_max(G)≤c₂√ n

≥1−e^−cN o`uc1, c2 sont des constantes universelles. DoncGest bien conditionn´ee.

Th´eor`eme 7

Preuve.

Soitε∈[0,1].

(1−ε)m≤smin(G)≤smax(G)≤(1 +ε)m o`u m=E(kgk₂) o`ug∼ N(0, Id_R_N)

⇔ | kGxk₂−m| ≤ε ∀x∈Sⁿ⁻¹ On doit montrer que :

Γ =P ∃x∈Sⁿ⁻¹/| kGxk₂−m|> εm

est petite

≤P ∃x∈Sⁿ⁻¹/| kGxk₂−m|> εmet kGk ≤(1 +ε)m

+P(kGk>(1 +ε)m)

SoitS unδ-réseau deSⁿ⁻¹(δspécifié plus tard). Soitx∈Sⁿ⁻¹tel que| kGxk₂−m|> εm. Soit y∈S tl quekx−yk₂≤δ

| kGyk₂−m|=| kGx−G(x−y)k₂−m|

≥ | kGxk₂−m| − kG(x−y)k₂

≥εm−(1 +ε)mδ d’o`u | kGyk₂−m|>(ε−(1 +ε)δ)m De plus :

kGk ≤(1 +ε)⇒ ∃x∈Sⁿ⁻¹tq kGk=kGyk ≥(1 +ε)m

Soity∈S tel quekx−yk₂≤δ,kGyk=kGx−G(x−y)k ≥ kGxk − kGkδ= (1−δ)kGxk.

Donc : Γ≤P

∃y∈S/| kGyk₂−m|>(ε−(1 +ε)δ)m +P

∃y∈S/kGyk₂−m≥(1 +ε)(1−δ)m

Prenonsδ=ε/3 (on a modifié une inégalité, prendre un bon delta) Γ≤2X

y∈S

P

| kGyk₂−1| ≥ εm 3

Pareil que dans la proposition : on trouveN =n(ε) pour avoir presque une isom´etrie.

(14)

E= (Rⁿ,k.k) ;κ(E) = ^m_b²

o`ubest la constante de Lipschitz dek.kpar rapport `a k.k₂et m=R

kxkdγn(x). Alors :

∀ε∈[0,1],on a :

l^κ₂ ^1+ε,→ E avec κ= cε²

ln(1 +¹_ε)κ(E) i.e. ∃T :Rⁿ −→R^κtel que :

(1−ε)B^κ₂ ⊆T(BE)⊆(1 +ε)B₂^κ Th´eor`eme 8 (Dvoretsty)

Remarque.

∀K convexe, sym, compacte d’int´erieur non vide (1−ε)B^κ₂ ⊆K∪ F

dimκ⊆1 +εB^κ₂ κ(E)≥logn