Mesures empiriques et distances dans P(E) lorsque E est un compact

w_LP(X, Y) := inf{ε >0; ∃σ∈S_N/ ♯{i,|x_i−y_σ(i)|> ε}< N ε},

et on appelle “distance” de Monge-Kantorovich-Wasserstein (MKW) la fonction wp ainsi définie sur E^N et E^N/S_N, et “distance” de Levy-Prokorov la fonction w_LP ainsi définie sur E^N et E^N/S_N. On note également w₀ =w_LP.

1.2 Mesures empiriques et distances dans P(E) lorsque E est un compact.

subsec:MFG-1

Dans cette section nous supposerons toujours (sauf mention explicite du contraire) que E ⊂ R^d est un compact. Commen¸cons par d´efinir l’application canonique “mesure empirique” qui est l’objet fondamental permettant de passer de la suite d’espaces E^N `a l’espace fixe P(E)⊃ PN(E).

def:MesureEmpirique Définition 1.2.4 Soit E un espace polonais (ou juste mesurable). Etant donnée la va-riable/l’état X = (x₁, ..., x_n) ∈ E^N, on définit la mesure empirique µ^N_X ∈ P(E) associée par

µ^N_X(dx) := 1 N

XN i=1

δ_x_i(dx)∈P(E).

On d´efinit ainsi une application Π^N_E :E^N → P(E). Mieux, en notant PN(E) l’ensemble des mesures empiriques de la forme ci-dessus (N masses de Dirac de poids 1/N), on d´efinit une application bijective

Π^N_E : E^N/S_N → PN(E), X7→µ^N_X.

On munit P(E) d’une distance D métrisant sa topologie/convergence faible. On va voir dans cette section que Π^N_E est alors un homéomorphisme de (E^N/S_N, w_p) dans (PN(E), D). C’est même une isométrie lorsque PN(E) est muni d’une distance de trans-port convenable, ce que nous verrons dans la section subsec:MFG-3

1.4.

Nous allons donc maintenant rappeler la définition de l’espace P(E), exhiber deux distances sur P(E) et établir quelques propriétés deP(E).

L’espace P(E). On définit l’espace M¹(E) des mesures de Radon sur E comme étant l’espace dual de l’espaceC(E) des fonctions continues muni de la norme de la convergence uniforme, on note M¹(E) = (C(E))^′. Comme C(E) est un espace de Banach, M¹(E) est également un espace de Banach lorsqu’il est muni de la norme duale “de la variation totale”

∀Λ∈M¹(E) kΛkT V := sup

ϕ∈C(E),kϕk≤1|hΛ, ϕi|.

De plus, pour tout Λ∈M¹(E) il existe une unique d´ecomposition Λ = Λ₊−Λ₋, Λ_±≥0, kΛkT V =kΛ₊kT V +kΛ₋kT V,

où la positivité Λ_±≥0 signifie queϕ∈C(E),ϕ≥0, impliquehΛ, ϕi ≥0. On noteM₊¹(E) le cône des “mesures de Radon positives”.

D’autre part, on définit l’ensemble M₊¹(E) des“mesures de Borel positives finies” sur E comme l’ensemble des fonctions d’ensemble σ-additives sur la tribuB_E à valeurs dans R₊. Soit donc µ∈ M₊¹(E) si µ:B_E → R₊, µ(∅) = 0 et pour toute famille (A_i)_i_∈_I finie ou dénombrable deB_E deux à deux disjointesA_i 6=A_j si i, j∈I et i6=j, on a

µ[

i∈I

A_i

i∈I

µ(A_i).

A une telle mesureµ ∈M₊¹(E), on peut associer une intégrale de Lebesgue définie pour les fonctions mesurables et positives, pour toutes les fonctions intégrables et donc, en particulier, pour toutes les fonctions continues (et bornées). On définit ainsi

I_µ:C(E)→R, ϕ7→I_µ(ϕ) =hI_µ, ϕi:=

ϕ dµ= Z

ϕ(x)µ(dx).

L’applicationI_µ est linéaire, positive et bornée, c’est donc un élément deM₊¹(E), et kIµkT V = sup

ϕ∈C(E),kϕk≤1

ϕ dµ =

dµ=µ(E).

th:RieszMarkovCompact Théorème 1.2.5 (Riesz-Markov) Lorsque E est compact, on a la réciproque : pour tout Λ∈M₊¹(E) il existe un unique ρ∈M₊¹(E) tel que

∀ϕ∈C(E), hΛ, ϕi=I_ρ(ϕ).

Ainsi, l’application M₊¹(E) →M₊¹(E), ρ →I_ρ, est bijective et on peut identifier M₊¹(E) et M₊¹(E). On note d´esormais I_ρ=ρ.

De la même manière on caractérise l’ensemble des mesures de probabilités grâce aux deux définitions équivalentes suivantes

P(E) ={Λ∈M₊¹(E), hΛ,1i= 1}={µ∈M₊¹(E), µ(E) = 1}. En d´efinissantM¹(E) l’ensemble des mesures de Borel sign´ees par

M¹(E) ={µ₊−µ₋, µ_±∈M₊¹(E)}, on généralise la notion d’intégrale en posant

I_µ(f) = Z

f(x)µ(dx) :=

f(x)µ₊(dx)− Z

f(x)µ₋(dx)

pour toute fonction f ∈ L¹(E,B_E,|µ|) où |µ| = µ₊+µ₋ est une mesure de Borel po-sitive. Grâce à la décomposition des mesures de Radon en différence de mesures de Ra-don positives et grâce au théorème de Riesz-Markov on a également que l’application

M¹(E)→ M¹(E),ρ →Iρ, est bijective et on peut identifierM¹(E) et M¹(E). On note toujoursI_ρ=ρ. Ainsi, on a

∀ρ∈M¹(E) |ρ|(E) = kρkT V := sup

ϕ∈C(E),kϕk≤1

ϕ dρ

:= inf{µ₊(E) +µ₋(E); µ_±≥0, µ₊−µ₋=ρ}

où donc ici|ρ|=ρ₊+ρ₋avecρ_±est la décomposition de Hahn deρobtenue en choisissant ρ_± ≥ 0 étrangères (∃A tel que ρ+(A) = 0 et ρ₋(E\A) = 0) dans la classe des mesures η_±≥0 vérifiantρ=η₊−η₋.

Convergence faible dans P(E). Lorsque E est compact, on dit qu’une suite (µn) de P(E) converge faiblement vers µ∈P(E), on noteµ_n⇀ µ, si

∀ϕ∈C(E) Z

ϕ dµ_n → Z

ϕ dµ.

Il s’agit bien sˆur ici de la (trace surP(E) de la) convergence faible ∗ σ(M¹(E), C(E)).

th:BanachAlaoglu Théorème 1.2.6 (Banach-Alaoglu pour P(E)). On suppose E compact. L’ensemble P(E) est séquentiellement compact au sens de la convergence faible.

Preuve du théorème de Banach-Alaoglu pour P(E). Soit (µ_n) une suite de P(E). D’une part C(E) est séparable et on note (ϕ_k) une famille dénombrable et dense dans C(E).

Alors, par compacité de [−kϕ_kk,kϕ_kk] pour tout k ∈ N^∗ et par le procédé de Cantor d’extraction d’une sous-suite diagonale, il existe une sous-suite (µ_n′) et une suite λ_k ∈R telles que hµ_n′, ϕ_ki → λ_k lorsque n^′ → ∞. Maintenant pour tout ϕ ∈ C(E), on obtient

également qu’il existe λ_ϕ ∈R tel quehµ_n′, ϕi →λ_ϕ lorsquen^′→ ∞ en approchant ϕpar une suite (ϕ_k′). On constante que l’application Λ :C(E) →R, Λ(ϕ) = λ_ϕ est linéaire et positive (donc continue) et Λ(1) = 1. Par le théorème de Riesz-Markov c’est une mesure

de probabilit´e. ⊔⊓

th:densitePN Th´eor`eme 1.2.7 (Krein-Milman pour les mesures). On suppose E compact. Les combinaisons convexes de masses de Dirac sont denses au sens de la convergence faible.

En d’autres termes et plus pr´ecis´ement, (PN(E))_N_≥₁ est dense dans P(E).

Preuve 1 du th´eor`eme th:densitePN

1.2.7. Les masses de Dirac sont les points extr´emaux¹ de P(E).

En effet, si δa = t µ+ (1−t)ν, avec a∈E, t∈ (0,1), µ, ν ∈P(E) alors n´ecessairement suppµ= suppν ={a}, et doncµ=ν =δ_a. Inversement, si µ∈P(E) et µn’est pas une masse de Dirac, alors il existeϕ∈C(E), 0≤ϕ≤1 telle queµ(ϕ)>0 etµ(1−ϕ)>0, de sorte que l’on peut ´ecrire µsous la forme d’une combinaison convexe

µ=µ(ϕ) ([µ(ϕ)]⁻¹ϕ µ) + (1−µ(ϕ)) ([µ(1−ϕ)]⁻¹(1−ϕ)µ),

et donc µ n’est pas un point extrémal. Il suffit alors d’appliquer le Théorème ^thKMabsA.3.5 de Krein-Milman.

Preuve 2 du th´eor`eme th:densitePN

1.2.7. Comme E est compact, pour tout k, il existe N_k ∈ N et (x^k_i)1≤i≤N_k une suite de E tels que E ⊂ ∪B(x^k_i,1/k), puis il existe une suite (ϕ^k_i)

1voir la D´efinitionKMdef1

A.3.3 pour la d´efinition d’un point extr´emal

de partitions de l’unité dans C(E) associée au recouvrement par les B(x^k_i,1/k). Plus précisément, il existeϕ^k_i ∈C(E), 1≤i≤N_k, telles que suppϕ^k_i ⊂B(x^k_i,1/k), 0≤ϕ^k_i ≤1 et PN_k

i=1ϕ^k_i = 1. Pour construire de telles fonctions dans le cas E ⊂ R^d (dans le cas g´en´eral consulter un cours de topologie) on choisitN_k et (x^k_i)₁_≤_i_≤_N_k tels que de plusE ⊂

∪B(x^k_i,1/(2k)), on consid`ere un noyau de convolution 0≤ γ ∈ C(R^d), suppγ ⊂B(0,1), Rγ = 1, on note γ_ε(x) =ε⁻^dγ(x/ε) et on d´efinit

ϕ^k_i := φ^k_i PN_k

j=1φ^k_j, φ^k_j =1_B(xk

i,1/(2k))∗γ_1/(2k). On pose maintenant

µ_k :=

N_k

i=1

µ(ϕ^k_i)δ_xk i. Pour toutψ∈C(E) on a alors

hµ_k, ψi=

N_k

i=1

µ(ϕ^k_i)ψ(x^k_i) =hµ, ψ^ki avec ψ^k :=

N_k

i=1

ψ(x^k_i)ϕ^k_i. Or, pour toutx∈E, on a

ψ(x)−ψ^k(x) =

i=1

(ψ(x)−ψ(x^k_i))ϕ^k_i(x)

≤

i=1

sup

1≤i≤Nk

kψ−ψ(x^k_i)kL^∞(B(x^k_i,1/k))ϕ^k_i(x)≤ω(1/k)→0 lorsquek→ ∞, où ω désigne un module de continuité de ψ, i.e. ω ∈C(R₊),ω(s) >0 si s 6= 0. On en déduit bien que hµ_k, ψi → hµ, ψi. Pour établir la densité de (PN(E))_N_≥₁ dansP(E) il suffit enfin d’approcherµ_k par un élément µ_k,N de PN(E) en rempla¸cant les coefficients µ(ϕ^k_i) par [N µ(ϕ^k_i)]/N pour tout 2 ≤ i ≤ N et en rempla¸cant le coefficient µ(ϕ^k₁) par ce qu’il faut de sorte que µ_k,N soit de masse 1. ⊔⊓ Distances sur P(E). L’objectif est maintenant de définir deux métriques sur P(E) telles que la notion de convergence associée soit la convergence faible définie plus haut. On note Lip(E) l’espace des fonctions Lipschitziennes surE et Lip₁(E) l’espace des fonctions Lipschitziennes surE de constante de Lipschitz inférieure à 1 :

ϕ∈Lip₁(E) si, et seulement si, |ϕ(y)−ϕ(x)| ≤d_E(x, y) ∀x, y∈E.

On noteM₀¹(E) le sous-espace (ferm´e) des mesures de Radon de masse nulle : µ∈M₀¹(E) si, et seulement si,µ∈M¹(E) et

dµ= 0.

def&lem:distKR Lemme 1.2.8 (i) Pour tout µ∈M₀¹(E) on d´efinit kµkKR:= sup

ϕ dµ; ϕ∈Lip₁(E)

L’application µ 7→ kµkKR est une norme sur M₀¹(E), appel´ee norme de Kantorovich-Rubinstein, et donc l’application P(E)×P(E)→R₊, (µ, ν)7→D_KR(µ, ν) :=kµ−νkKR

d´efinit une distance sur P(E).

(ii) Soit R >0 tel queE ⊂B(0, R). Pour tout µ∈M₀¹(E) on a kµkKR ≤RkµkT V.

(iii) Pour tout X, Y ∈E^N on a ineq:KRW1

ineq:KRW1 (1.2.3) kµ^N_X−µ^N_YkKR ≤w₁(X, Y).

Preuve du lemme def&lem:distKR

1.2.8 . La vérification de (i) ne pose pas de difficulté dès que l’on sait que Lip(E) est dense dans C(E). Lorsque E ⊂ R^d on peut procéder par régularisation par convolution. Dans le cas général, on utilise le théorème A.2.2 de Stone-Weierstrass.^thStoneW (ii) On écrit pour tout ϕ∈Lip₁(E)

ϕ dµ = Z

(ϕ(x)−ϕ(0)) (µ₊(dx)−µ₋(dx))

≤ Z

E|x|(µ₊(dx) +µ₋(dx))≤R|µ|(E), et on prend le supr´emum enϕ.

(iii) Pour toutϕ∈Lip₁(E) etσ∈S_N on a

|hµ^N_X −µ^N_Y, ϕi|=

1 N

XN i=1

(ϕ(x_i)−ϕ(y_σ(i))) ≤ 1

N|x_i−y_σ(i)|

d’où on déduit (1.2.3) en prenant le minimum enîneq:KRW1 σ et le suprémum en ϕ. ⊔⊓ lem:topoPE1 Lemme 1.2.9 (i) Etant donnée une suite(ϕ_k)dense dansC(E)et une suite (a_k)de réels

strictement positifs telle que la s´erie ((a_kkϕ_kk)) converge, l’application D(µ, ν) :=

X∞ k=1

a_k|hµ−ν, ϕ_ki|

d´efinit une distance sur P(E).

(ii) De même, si de plus(ϕ_k) est une suite de Lip(E) et si la série((a_kk∇ϕ_kk))converge et est de somme A, alors l’application D définie ci-dessus est encore une distance, et de plus

∀µ, ν∈P(E) D(µ, ν)≤Akµ−νkKR. Preuve du Lemme lem:topoPE1

1.2.9. Traitons seulement (ii), le point (i) se traitant de la mˆeme mani`ere. D’une part, puisqueµ−ν ∈M₀¹(E) et en fixantx₀∈E, on a

D(µ, ν) = X∞ k=1

a_kk∇ϕ_kk |hµ−ν,ϕ_k−ϕ_k(x0) k∇ϕ_kk i| ≤

X∞ k=1

a_kk∇ϕ_kk kµ−νkKR. D’autre part, pour montrer queDest une distance, le seul point qui mérite d’être détaillé est l’implicationD(µ, ν) = 0 entraˆıneµ=ν. Or sous cette hypothèse, on ahµ−ν, ϕ_ki= 0 pour toutk, et si ϕ∈C(E) est une fonction quelconque, il existe une sous-suite (ϕ_k_j) qui converge uniformément versϕet donc également hµ−ν, ϕi= limhµ−ν, ϕ_k_ji= 0. ⊔⊓

theoMK&Cvgce* Théorème 1.2.10 Pour toute suite (µn) de P(E) et tout µ ∈ P(E), il y a équivalence entre

(i) D(µ_n, µ)→0 lorsque n→ ∞ (pour une distance d´efinie comme au lemme lem:topoPE1

1.2.9) ; (ii) kµ_n−µkKR →0 lorsque n→ ∞;

(iii) µ_n ⇀ µau sens de la convergence faible lorsque n→ ∞. Preuve du th´eor`eme theoMK&Cvgce*

1.2.10. On proc`ede en plusieurs ´etapes.

Etape 1. (i) ⇔ (iii) (tr`es classique). Si D(µn, µ) → 0 alors hϕ_k, µn−µi → 0 ∀k. Pour ϕ∈C(E) quelconque, pour toutε >0 et en prenantk tel quekϕ−ϕ_kk< ε, on a

lim sup

n→∞ |hϕ, µn−µi| ≤sup

n kµn−µkT V kϕ−ϕ_kk+ lim

n→∞h|ϕ_k, µn−µi| ≤2ε, puisque kµ_n−µkT V ≤ kµ_nkT V +kµkT V =µ_n(E) +µ(E) = 2. Ainsiµ_n ⇀ µfaiblement.

R´eciproquement, supposons queµ_n ⇀ µfaiblement. Pourε >0 fixonsK tel que X∞

K+1

a_k2kϕ_kk ≤ε,

puis N de sorte quea_k|hϕ_k, µ_n−µi| ≤ε/K pour n≥N etk = 1, ..., K, alors pour tout n≥N

D(µ_n, µ)≤ sup

k=1,...,K

a_k|hµ−µ_n, ϕ_ki|+ X∞ k=K+1

a_k|hµ−µ_n, ϕ_ki| ≤2ε.

Etape 2. (ii)⇒ (iii).Supposons (ii). Pour tout ϕ∈Lip(E) on a

ϕ d(µ_n−µ)

≤ kϕkLipkµ_n−µkKR→0 lorsque k→0.

Par densit´e Lip(E)⊂C(E) on en d´eduit (iii).

Etape 3. (iii) ⇒ (ii). Supposons (iii) et que, par l’absurde, on n’ait pas (ii) : ∃ε > 0 et une sous-suite de (µ_n), toujours not´ee (µ_n), telle que

∀k ∃ϕn∈Lip(E), kϕnkLip≤1 Z

ϕnd(µn−µ)≥ε.

Par le théorème d’Ascoli, il existe une sous-suite de (ϕn), toujours notée (ϕn), et ϕ_∞ ∈ C(E) telles queϕ_n→ϕ_∞ uniformément. On a alors

lim inf Z

ϕ_∞d(µ_n−µ) =

= lim Z

(ϕ_∞−ϕ_n)d(µ_n−µ) + lim inf Z

ϕ_nd(µ_n−µ)≥0 +ε >0,

ce qui contredit la convergence µ_n⇀ µ. ⊔⊓

Dans le document Cours de l’Ecole doctorale EDDIMO : Une introduction aux limites de champ moyen pour des syst`emes de particules - VERSION PROVISOIRE - (Page 22-28)