Du microscopique au macroscopique - Cours de Master 2 EDP-MAD - St´ephane Mischler

(1)

Du microscopique au macroscopique - Cours de Master 2 EDP-MAD - St´ephane Mischler

26 janvier 2010

Chapitre 1. Espaces sym´ etriques.

1 Espace de configurations sym´ etriques, identifi- cation Q

^N

/ S

_N

≈ P

_N

(Q) et l’espace P (Q)

Nous allons exhiber dans cette section un isomorphisme entre l’espace Q^N/S_N des configurations de Q^N symétriques muni d’une distance/norme usuelle et le sous-espace PN(Q) des mesures de probabilités (”empiriques”) constituées de N masses de Dirac (normalisées par un facteur 1/N) muni de la distance de Monge- Kantorovich associée. De part l’injection canonique PN(Q) ⊂ P(Q) cela permet d’identifier Q^N/S_N à un sous-ensemble d’un même espace, donc P(Q), dans lequel un passage N → ∞pourra ensuite être abordé.

1.1 Distances dans Q

^N

et Q

^N

/ S

_N

Soit Q un compact de R^d muni de la distance euclidienne, not´ee |.|. On peut

également considérer un espace métrique compact abstrait (Q, d) avec les modifica- tions immédiates. On définit les distances d’exposantp∈[1,∞) par

dp(x, y) := 1 N

N

X

i=1

|xi−yi|^p

!1/p

et la distance uniforme par

d∞(x, y) := max

1≤i≤N|x_i−yi|.

Lemme 1.1 Pour tout N ≥1 et p∈(1,∞) on a d₁ ≤d_p ≤diam(Q)^1/p^′d^1/p₁ .

(2)

Preuve du Lemme 1.1. D’une part, par l’in´egalit´e de Holder on a d1(x, y) = 1

N

X

i=1

|xi−yi| ≤ 1 N

N

X

i=1

|xi−yi|^p

!1/p N

X

i=1

1

!1/p^′

= 1

N

X

i=1

|x_i−y_i|^p

!1/p

=d_p(x, y).

D’autre part, on a

dp(x, y)^p = 1 N

N

X

i=1

|x_i−yi|^p ≤diam(Q)^p−1 1 N

N

X

i=1

|x_i−yi|.

⊓

⊔ On introduit S_N le groupe des permutations d’un ensemble à N éléments (i.e.

l’ensemble des bijections de {1, ..., N} dans lui-même) et Q^N/S_N l’ensemble des configurations de Q^N indistingables par permutation. On note X, Y ∈ Q^N/S_N les classes d’équivalences deQ^N par la relation d’équivalence d’égalité par permutation.

Pourx= (x_i)∈Q^N,x∈X et y= (y_i)∈Q^N,y ∈Y on a donc

X =Y ssi x ∼ y ssi ∃σ∈S_N x=yσ, o`u (yσ)i :=y_σ(i) ∀i= 1, ..., N.

A une distance d dans Q^N symétrique par permutation (d(x, y) =d(xσ, yσ) ∀x, y ∈ Q^N,σ ∈S_N) on associe une distance, notée ˜d, mais éventuellement encore notée d, en posant

∀X, Y ∈Q^N/S_N d(X, Y˜ ) = inf

x∈X,y∈Y d(x, y) = min

σ∈S_Nd(x, yσ), où dans le dernier terme x, y désignent des éléments quelconques de X, Y.

Lemme 1.2 La distance d˜est effectivement une distance. De plus, si d1 ≤ C d2

alors d˜1 ≤Cd˜2.

Preuve du Lemme 1.2. Pour montrer que ˜d est une distance dans Q^N/S_N il suffit de choisirσi ∈S_N telles que d(x, yσ1) = ˜d(X, Y),d(y, zσ2) = ˜d(Y, Z), de sorte que

d(X, Z)˜ ≤d(x, zσ2◦σ1)≤d(x, yσ1) +d(yσ1, zσ2◦σ1) = ˜d(X, Y) + ˜d(Y, Z).

⊓

⊔ Les distances quotients ˜dp(encore notéesdp!) d’exposantp∈[1,∞) dansQ^N/S_N sont appelées les distances de Monge-Kantorovich (ou Wasserstein) et sont donc définies par

dM K,p(X, Y) := inf

σ∈S_N

1 N

N

X

i=1

|x_i−yσ(i)|^p

!1/p

(3)

et la distance de Monge-Kantorovich uniforme par est d´efinie par dM K,∞(X, Y) := inf

σ∈S_N max

1≤i≤N|xi−yσ(i)|.

Présentons maintenant la distance de Levy-ProkorovdLP parfois utilisée. On définit dansQ^N la distance de Levy-Prokorov par

dLP(x, y) := inf{ε >0; ♯{i,|xi−yi|> ε}< N ε},

Lemme 1.3 La distance de Levy-Prokorov est effectivement une distance et pour tout N ≥1 et p∈[1,∞)on a

d²_LP ≤dp≤(d^p_LP +diam(Q)^pdLP)^1/p . Preuve du Lemme 1.3.On a

dLP(x, y) = inf{ε >0; ♯{i,|xi−yi|> ε} ≤N ε} et ♯{i,|xi−yi|> dLP(x, y)} ≤N dLP(x, y).

Soitx, y ∈Q^N. Pour toutη >0 on a

♯{i,|xi−yi|> dLP(x, y) +η}< N(dLP(x, y) +η), puisque∀ε, ε^′≥0,ε^′ > ε,

♯{i,|xi−yi|> ε}< N ε =⇒ ♯{i, |xi−yi|> ε^′}< N ε^′.

Comme le terme de gauche est constant pour toutη∈[0, ηx,y,ε), avecηx,y,ε>0, on a en passant

`a la limiteη→0

♯{i,|xi−yi|> dLP(x, y)} ≤N dLP(x, y).

Inversement, montrons que siε≥0 satisfait

♯{i,|xi−yi|> ε} ≤N ε

alorsdLP(x, y)≤ε. A nouveau, il existeηx,y,ε>0 tel que pour toutη∈(0, ηx,y,ε)

♯{i,|xi−yi|> ε+η}=♯{i,|xi−yi|> ε} ≤N ε < N(ε+η).

Par définition, on en déduitdLP(x, y)≤ε+η, et on passe à la limiteη→0.

Soit maintenantx, y, z∈Q^N. Si

|xi−zi|> dLP(x, y) +dLP(y, z) =:ε,

dLP(y, z). Ainsi

♯{i;|xi−zi|> ε} ≤ ♯{i;|xi−yi|> dLP(x, y)}+♯{i;|yi−zi|> dLP(y, z)}

≤ N(dLP(x, y) +dLP(y, z)) =N ε, ce qui implique doncdLP(x, z)≤ε.

D’autre part, posons k := ♯A, A :={i;|xi−yi| ≥ dLP(x, y)}. Par d´efinition de dLP(x, y), pour toutε∈(0, εx,y), on ak=♯{i;|xi−yi|> dLP(x, y)−ε} ≥N(dLP(x, y)−ε) et en passant

`a la limiteε→0 il vient k≥N dLP(x, y). On en d´eduit

d1(x, y) = 1 N

N

X

i=1

|xi−yi| ≥ 1 N

X

i∈A

|xi−yi| ≥ k

N dLP(x, y)≥(dLP(x, y))².

(4)

Enfin,

d^p_p(x, y) = 1 N

X

i;|xi−yi|≤dLP(x,y)

|xi−yi|^p+ 1 N

X

i;|xi−yi|>dLP(x,y)

|xi−yi|^p

≤ dLP(x, y)^p+ 1

N ♯{i;|xi−yi|> dLP(x, y)}diam(Q)^p,

et on conclut grâce à l’inégalité♯{i;|xi−yi|> dLP(x, y)} ≤N dLP(x, y) démontrée dans la preuve

du lemme 2. ⊔⊓

DansQ^N/S_N, on d´efinit la distance

dLP(X, Y) := inf{ε >0; ∃σ∈S_N/ ♯{i,|xi−yσ(i)|> ε}< N ε}.

1.2 Distances dans P

N

(Q) et identification Q

^N

/ S

_N

≈ P

N

(Q)

1.2.1 Transport de masses et ensemble des plans de transfert

Ici E désigne un espace polonais muni de sa tribu borélienne et on note P(E) l’espace des mesures de probabilité. Pour µ, ν ∈P(E) on définit

Π(µ, ν) :={π∈P(E×E);

Z

E

dπ(x, y) =dµ(x), Z

E

dπ(x, y) =dν(y)}.

(1.1)

Π(µ, ν) est donc l’ensemble des mesures sur E×E dont les marginales sont µet ν.

On dit que π ∈Π(µ, ν) est un plan de transfert de masses (ou un couplage) deµ à ν. Une fa¸con plus précise d’écrire (1.1) est

∀A∈ B_E, ∀B ∈ B_E π(A×E) =µ(A), π(E×B) =ν(B), ou ´egalement

Z

E×E

[ϕ(x) +ψ(y)]dπ(x, y) = Z

E

ϕ(x)dµ(x) + Z

E

ψ(y)dν(y)

pour tout (ϕ, ψ)∈L¹(dµ)² ouL^∞(dµ)²,Cb(E)², C0(E)². Remarque 1.4 On a toujours µ⊗ν ∈Π(µ, ν).

Etant données une fonction coûtc:E×E →R₊ et deux mesures µ, ν ∈P(E), on définit le coût de transfert du plan π∈ Π(µ, ν) par

I[π] =Ic[π] = Z

E×E

c(x, y)dπ(x, y), (1.2)

et on cherche à minimiser I. On définit le coût optimal (de transfert entre µet ν) T_c(µ, ν) = inf

π∈Π(µ,ν)I[π].

(1.3)

(5)

S’il existe ¯π ∈Π(µ, ν) tel que I[¯π] =Tc(µ, ν), on l’appelle plan de transfert optimal.

Si c(x, y) est une distance sur E, on d´efinit `a l’aide de T_c une distance sur P(E).

Plus généralement et précisément, pour 1≤p <∞ on pose dM K,p(µ, ν) = Tdp(µ, ν)^1/p = inf

π∈Π(µ,ν)Idp(π)^1/p (1.4)

= inf (Z

E×E

|x−y|^pπ(dx, dy) 1/p

, π∈Π(µ, ν) )

.

On montrera dans la section 1.4 que ces quantit´es sont bien des distances surP(E).

Nous allons commencer par traiter le cas, plus simple, de mesures discr`etes sur E.

1.2.2 Masses ponctuelles et distances dans PN(Q)

Remarque 1.5 (i) Si ν =δa, mesure de Dirac ena ∈E, alors Π(µ, δa) ={µ⊗δa}.

En effet, soit π ∈Π(µ, δa). Pour tout A ∈ B_E, B ∈ B_E si a /∈B on a π(A×B) ≤ π(E×B) =δ_a(B) = 0 = (µ⊗δ_a)(A×B). Pour tout A∈ B_E, B ∈ B_E si a∈B on a π(A×B) = π(A×E)−π(A×B^c) =µ(A) = (µ⊗δa)(A×B). Comme la tribu B_E×E est engendrée par l’algèbre des pavés B_E × B_E, on en déduit que π =µ⊗δa.

(ii) Plus g´en´eralement, si π ∈ Π(µ, ν) alors suppπ ⊂suppµ×suppν. En effet, on a par exemple π(E×(suppν)^c) =ν((suppν)^c) = 0.

(iii) Si µ et ν sont discrètes, les mesures de Π(µ, ν) sont des mesures discrètes, portées par suppµ × suppν. En particulier si µ est portée par {a₁, ..., a_p} et ν est portée par {b1, ..., bq}, de sorte que π est portée par {(ai, bj)}1≤i≤p,1≤j≤q. Plus précisémment, si

µ=X

i

µiδai, ν =X

j

νjδbj, π =X

i,j

πi,jδ(ai,bj)

on a p q coefficients d´eterminantsπ et p+q relations de compatibilit´e X

j

πi,j =π({ai} ×Q) =µ({ai}) =µi ∀i, X

i

πi,j =νj ∀j.

(1.5)

On d´efinit PN(Q) l’ensemble des ”mesures de probabilit´e empiriques d’ordre N” par

PN(Q) :=

( ˆ

µ^N_X = 1 N

N

X

i=1

δxi, X = (x1, ..., xN)∈Q^N )

.

On définit B_N l’ensemble des matrices bistochastique comme étant les matrices M vérifiant 0≤Mij ≤1 et

X

j

Mi,j = 1 ∀i, X

i

Mi,j = 1 ∀j.

(1.6)

(6)

Lorsque µ = ˆµ^N_X, ν = ˆµ^N_Y ∈PN(Q) tout plan de transfert π ∈Π(µ^N_X,µˆ^N_Y) peut être représentée par une ”matrice bistochastique” en posant

π=πM =X

i,j

Mi,j

N δ_(x_i_,y_j₎.

Cela est bien sûr une conséquence immédiate de (1.5) si xi 6= xj et yi 6= yj pour tout i 6= j, et cela est également vrai (bien qu’il y aurait bien d’autres fa¸cons de représenter π) dans le cas ”sous-déterminé” où cette condition n’est pas satisfaite.

Exemples 1.6 Dans le cas p=q= 2, on déduit queΠ(µ, ν) est une famille à un paramètre car la matrice des relations de compatibilités est de déterminant nul, et plus précisément de rang 3 : on doit résoudre







1 1 0 0

0 0 1 1

1 0 1 0

0 1 0 1











 γ11

γ12

γ21

γ22





=





 α1

α2

β1

β2





.

Le cas le plus simple o`u α1 = α2 = β1 = β2 = 1/2 donne Π = {π^ε; ε = [0,1/2]}, avec π^ε = ε δ11+ (1/2−ε)δ12+ (1/2−ε)δ21+ε δ22.

Ainsi, lorsqu’on se restraint `a PN(Q), (1.2) devient

∀M ∈ B_N I[πM] = 1 n

X

ij

Mijc(xi, yj) =:I_c,X,Y[M] =I[M].

(1.7)

Le problème de minimisation (1.3)-(1.7) est ainsi un problème de minimisation linéaire sur un ensemble convexe et compact BN ⊂MN×N(R) qui se ”résout” grâce

à la théorie de Krein-Milman qui est relativement élémentaire dans ce cas particulier et que nous exposons ci-dessous. Nous renvoyons à l’annexe pour une présentation plus complète et générale de la théorie de Krein-Milman.

D´efinition 1.7 (i) Soit E un evn et K ⊂E un convexe compact (donc non vide).

On dit que x ∈ K est un point extr´emal de K si pour tout y, z ∈ K, t ∈ (0,1) on a (1−t)y+t z = x implique y = z = x. On note E(K) l’ensemble des points extr´emaux de K.

(ii) On noteP_N l’ensembles des matrices de permutation, c’est-`a-dire l’ensembles des matricesP ∈M_N×N(R) telles qu’il existeσ ∈S_N pour lequel P_ij =δ_iσ(j)= 1 si i=σ(j), = 0 si i6=σ(j).

Le r´esultat suivant permet d’identifier les points extr´emaux de BN.

Théorème 1.8 (de Birkhoff). L’ensembles des points extrémaux deBN est PN. Preuve du théorème 1.8. (i) SiM ∈ B_N alors 0 ≤Mij ≤1. De plus, si les coefficients deM appartiennent à{0,1}, alorsM est un point extrémal puisque pourP, Q∈ B_N

M = 1

2(P +Q) implique Mij = 1

2(Pij +Qij) implique Pij =Qij =Mij.

(7)

Enfin, pour appartenir à BN il faut que pour tout i∈ {1, ..., n} il existe un unique entierσ(i)∈ {1, ..., n}tel queMiσ(i) = 1, pour tous les autresj on aMij = 0 (c’est la première identité dans la définition (1.6)) et que l’applicationσsoit injective, (sinon, en notantj =σ(i) =σ(k),i6=kon aP

ℓMℓj ≥2 ce qui contredit la seconde identit´e dans la d´efinition (1.6)). Cela prouve queσ∈S(n) etMij =δiσ⁻¹(j). Il est clair que l’ensemble des matrices de permutation est compact (puisque fini, de cardinal n!).

Remarque 1.9 On a donc la caract´erisation suivante. PourM ∈ BN il y a ´equivalence entre

(i) M ∈ P_N;

(ii) ∀i ∃J MiJ = 1 (et ∀j 6=J Mij = 0) ; (iii) ∀j ∃I MIj = 1 (et ∀i6=I Mij = 0) ; (iv) ∀i, j Mij ∈ {0,1}.

(ii) Soit M = (Mij) ∈ BN. S’il existe (i0, j0) tel que Mi0,j0 ∈]0,1[ alors (1.6) implique qu’il existe j1, i1, j2, ... tels que Mi0,j1 ∈]0,1[, Mi1,j1 ∈]0,1[, ... . On s’arrˆete au premier ik ou jk tel que ik =iℓ ou jk = jℓ, k > ℓ. On a donc construit une suite d’indices

(iℓ, jℓ), (iℓ, jℓ+1), (iℓ+1, jℓ+1), ..., (ik−1, jk), (ik, jk), dans le premier cas,

(iℓ, jℓ), (iℓ, jℓ+1), (iℓ+1,ℓ+1), ..., (ik−1, jk−1), (ik−1, jk),

dans le second cas, tels que les indices sont tous distincts, sauf aux deux extrˆemes.

Traitons le premier cas (le second est simlilaire : il consiste à tourner dans l’autre sens, d’abord en incrémentant l’ordonnée j puis en incrémentant l’abscisse i). Pour se ramener à un nombre pair d’indices on commence par supprimer (iℓ, jℓ) de la liste, puis en renotant la suite d’indices, on a ainsi construit unk-cycle

S :={(i1, j1), (i2, j1), (i2, j2), ..., (ik, jk−1), (ik, jk), (i1, jk), (i1, j1)}

avec tous les iℓ distincts et tous les jℓ distincts et tels que Mα,β ∈]0,1[ pour tout (α, β)∈S. On d´efinit

ε:= min(M_α,β,1−M_α,β; (α, β)∈S)>0, puis

Pαβ =Mαβ si (i, j)∈/ S, Pαβ =Mαβ + (−1)^ℓ+ℓ^′ε si (α, β) = (iℓ, jℓ^′)∈S, Q_αβ =M_αβ si (i, j)∈/ S, Q_αβ =M_αβ+ (−1)^ℓ+ℓ^′⁺¹ε si (α, β) = (i_ℓ, j_ℓ^′)∈S.

On a donc P = (Pij)∈ BN, Q = (Qij) ∈ BN, M = (P +Q)/2 et P 6= M, Q6= N. Cela prouve que les matrices de permutations sont exactement les points extr´emaux

deB_N. ⊓⊔

Présentons le théorème de Krein-Milman dans le cas deB_N, dont la démonstration découle d’un argument d’approximation.

(8)

Th´eor`eme 1.10 (de Krein-Milman pour BN). On a conv(P_N) =B_N :

pour tout M ∈ B_N il existe une suite (Mn) telle que kM −Mnk →0 et Mn=

In

X

i=1

θn,iPn,i, avec P_n,i∈ P_N, 0≤θ_n,i≤1 et P

iθ_n,i = 1.

Preuve du théorème 1.10. On noteB(N, p) les matrices bistochastiques qui possèdent au moins p coefficients nuls. Les points extrémaux correspondent à B(N, N² −N).

On part de M₁ = M. Dans la construction de la preuve du théorème précédent, si par exemple on a ε := 1 − M_α,_¯β¯ avec ( ¯α,β) = (i¯ ℓ¯, jℓ¯^′) alors P_α,_¯β¯ = 1 et si ε := M_α,_¯β¯ avec ( ¯α,β) = (i¯ ℓ¯, jℓ¯^′) alors en modifiant la définition de P on aura P_α,_¯β¯ = 0. Dans tous les cas, on est capable de montrer que M = (M_2,1 +M_2,2)/2 avec Ma,b∈ BN etM2,1 ∈ B(N,1) ouM2,2 ∈ B(N,1). On recommence, et on obtient M1 = (M3,1+M3,2+M3,3+M3,4)/2² avec au moins une matrice dansB(N,2), deux dans B(N,1) et au pire une seule sans zéro. On note N_i,j le nombre minimum de matrices dansB(N, j) à l’étape i, et la conventionB(N, j) =PN sij ≥N²−N. On a N1,0 = 1, et la convention N1,j = 0 pour j ≥ 1. On obtient alors par récurrence Ni,0 = 1,Ni,j =Ni−1,j−1+Ni−1,j. On a par exemple ainsiNi,1 =i−1,Ni,2 =i(i−1)/2 et surtout Ni,k≤Cki^k pour tout i, k. On en déduit

card(A^c_i)≤

N²−N−1

X

j=1

Ni,j ≤CNi^N²^−N−1,

o`uAi :={k; Mi,k ∈ P_N}. Il vient alors kM − X

k∈Ai

2⁻ⁱMi,k+ X

k∈A^c_i

2⁻ⁱIk=kX

k∈A^c_i

2⁻ⁱMi,k+ X

k∈A^c_i

2⁻ⁱIk ≤C_N^′ i^N² 2ⁱ →0 lorsque i→ ∞ (ou par exemple I ∈ P_N est la matrice identit´e). ⊓⊔

En combinant (1.7), le théorème 1.8 et le théorème 1.10 on obtient Théorème 1.11 Pour tout X, Y ∈Q^N/S_N et tout 1≤p <∞, on a

dM K,p(ˆµX,µˆY) = min

σ∈S_N

1 N

N

X

i=1

|x_i−yσ(i)|^p

!1/p

=dp(X, Y).

En particulier, l’application

(Q^N/S_N, dp)→ (PN(Q), dM K,p), X 7→µˆⁿ_X est un isomorphisme entre espaces m´etriques.

(9)

Preuve du théorème 1.11. D’après (1.7), on a T_c(ˆµ^N_X,µˆ^N_Y) = inf

γ∈Π(ˆµ^N_X,ˆµ^N_Y)I[γ] = inf

π∈BN

I[π].

On a d’une part

M∈BinfN

I[M]≤ inf

P∈PN

I[P] = min

P∈PN

I[P],

puisque PN ⊂ BN et que PN est un ensemble fini. On a d’autre part, pour tout M ∈ B_N et en notant Mn la suite de conv (P_N) construite au th´eor`eme 1.10

I[M] = lim

n→∞I[Mn] = lim

n→∞

In

X

i=1

θn,iI[Pn,i]

≥ lim

n→∞

In

X

i=1

θn,i min

P∈PN

I[P] = min

P∈PN

I[P].

On a donc

T_c(ˆµ^N_X,µˆ^N_Y) = min

P∈PN

I[P] = min

σ∈S_N

1 N

N

X

i=1

c(x_i, y_σ(i)),

et on conclut en choisissant c(x, y) = |y−x|^p. ⊓⊔

1.3 Distances dans P (Q) et topologie faible ∗

On pr´esente maintenant quelques r´esultats fondamentaux concernant les distances de Monge-Kantorovch.

Théorème 1.12 Pour tout 1 ≤ p < ∞, l’application (µ, ν) 7→ dM K,p(µ, ν) définie par (1.4) est une distance sur P(Q)

Preuve du théorème 1.12. a) - Grâce au théorème 5.9 de Stone-Weierstrass on sait que C(Q)⊗C(Q) est dense dans C(Q²). On définit π := µ⊗ν sur C(Q)⊗C(Q) par hπ, ϕ⊗ψi=hµ, ϕi hν, ψipour ϕ⊗ψ ∈C(Q)⊗C(Q), définition que l’on étend

à C(Q)⊗C(Q) par linéarité, puis à C(Q²) par continuité-densité. Il est alors clair queµ⊗ν ∈Πµ,ν, qui est donc non vide. La convexité de Πµ,ν est immédiate. Enfin, si πn⇀ π au sens de la topologie ∗σ(M¹(Q²), C(Q²) et πn ∈Πµ,ν, alors clairement π∈Πµ,ν : Πµ,ν est fermé. Comme P(Q) est compact, il en est de même de Π(µ, ν).

b) - On consid`ere une suite minimisante (π_n) de Π_µ,ν telle que I[π_n]ցinfI[π].

Comme (πn) est born´ee, il existe ¯π ∈ P(Q²) et (πnk) telles que πnk ⇀ π¯ au sens

∗σ(M¹(Q²), C(Q²). Comme Πµ,ν est ferm´e, on a ¯π ∈Πµ,ν. Comme d(., .)∈ C(Q²), l’application

π∈Π(µ, ν) 7→ Ip[π] = Z

X×Y

|x−y|^pdπ(x, y),

(10)

est continue, ce qui implique I[πnk]→I[¯π], et donc dM K,p(µ, ν)^p =T_d_p(µ, ν) = inf

π∈Π(µ,ν)Ip[π] = min

π∈Π(µ,ν)Ip[π]∈[0,∞).

c) - Lorsque ν = µ on introduit le plan de transport ¯π que l’on définit sur les boréliens produits par ¯π(A×B) = µ(A∩B) ∀A, B ∈ B(Q) et que l’on étend à B(Q×Q) par un théorème d’extension. On a ¯π(A×X) =µ(A) et ¯π(X×B) =µ(B) de sorte que ¯π ∈Π(µ, µ). Il est clair que supp ¯π ⊂∆ :={(x, y)∈Q;y =x}puisque (A×B)∩∆ = ∅si, et seulement si, A∩B =∅et donc dans ce casπ(A×B) = 0. On en déduit queI[¯π] = 0 puisquedp = 0 sur ∆, et doncdM K,p(µ, µ) = 0. En conclusion δ(µ, µ)≤I[¯π] = 0 puisque d = 0 sur ∆.

Soyons plus précis. Si µ = ν on définit π : C(Q)⊗C(Q) → R par π(ϕ⊗ψ) = hµ, ϕ ψi pour tout ϕ, ψ∈C(Q). Comme précédemment, il existe ¯π∈P(Q²) tel que ¯π|_C(Q)⊗C(Q) =π. Si (suppϕ⊗ψ)∩∆ =∅, cela signifie queϕ ψ≡0 et donch¯π, ϕ⊗ψi= 0. Pourφ∈C(Q²) qui satisfait φ= 0 sur ∆, on construit une suiteφn ∈C(Q)⊗C(Q) telle queφn →φet (suppφn)∩∆ =∅. On procède de la manière suivante. On fixeε >0 puisnde sorte que (par uniforme continuité)

d(x1, x2) +d(y1, y2)≤3/n implique |φ(x1, y1)−φ(x2, y2)|< ε.

(1.8)

On recouvreQparNnboulesB(xⁿ_j,1/n) et on d´efinitA:={(i, j)∈N²; 1≤i, j≤Nn, d(xⁿ_i, xⁿ_j)≥ 3/n}. On pose enfin

φn(x, y) := X

(i,j)∈A

φ(xⁿ_i, xⁿ_j)ψn,i(x)ψn,j(y), ψn,k(z) = (1/n−d(z, xⁿ_k))+

PNn

ℓ=1(1/n−d(z, xⁿ_ℓ))+

On a alors

- pour tout (i, j) ∈ Aon a (suppψn,i⊗ψn,j)∩∆ = ∅ puisque ψn,i(x)ψn,j(y) >0 implique d(x, y)≥d(xⁿ_i, xⁿ_j)−d(x, xⁿ_j)−d(xⁿ_i, y)≥1/n;

- pour tout (i, j)∈ A/ on a φ(xⁿ_i, xⁿ_j)< ε puisque d(xⁿ_i, xⁿ_j) ≤3/n,φ(xⁿ_i, xⁿ_i) = 0 et il suffit d’utiliser (1.8) avecx1=y1=x2=xⁿ_i ety2=xⁿ_j ;

- enfin, on a

|φn(x, y)−φ(x, y)| ≤

Nn

X

i,j=1

|φ(xⁿ_i, xⁿ_j)−φ(x, y)|ψn,i(x)ψn,j(y)

+ X

(i,j)/∈A

|φ(xⁿ_i, xⁿ_j)|ψn,i(x)ψn,j(y)≤2ε,

puisque ce sont deux combinaisons (”sous”-)convexes de termes tous inférieurs àε. On a donc bien démontré que supp ¯π⊂∆.

d) - Inversement, si dM K,p(µ, ν) = 0, alors en notant ¯π un plan de transport optimal on a Ip[¯π] = d^p_{M K,p}(µ, ν) = 0. Comme dp > 0 sur (Q×Q)\∆ on en d´eduit que supp ¯π ⊂ ∆ et donc R

Q×Q(ϕ(y)−ϕ(x))d¯π(x, y) = 0 pour tout ϕ ∈ C(Q). Il vient

Z

Q

ϕ(x)dµ(x) = Z

Q×Q

ϕ(x)d¯π(x, y) = Z

Q×Q

ϕ(y)d¯π(x, y) = Z

Q

ϕ(y)dν(y) pour toutϕ ∈C(Q) et donc µ=ν.

(11)

e) - Montrons enfin l’inégalité triangulaire. Soient µi ∈ P(Q), i = 1, 2, 3, et soient πij ∈ Π(µi, µj) pour (i, j) = (1,2),(2,3). On définit sur G := {ϕ ∈ C(Q³); ϕ(x) = ϕ12(x1, x2) +ϕ23(x2, x3) ∀x = (x1, x2, x3)∈Q, ϕij ∈ C(Q²)} sous- espace vectoriel de C(Q³) l’application

hL, ϕi:=

Z

Q²

ϕ12dπ12+ Z

Q²

ϕ23dπ23.

Montrons que L ne dépend pas du choix des représentants ϕij de la fonction ϕ et que L est une forme linéaire continue (pour la norme de C(Q³)). En effet, si ϕ12 +ϕ23 = ψ12 +ψ23 alors ϕ12− ψ12 = ψ23− ϕ23 ∈ C(Q) (ne dépend pas des variables x1 et x3) de sorte que

Z

Q²

(ϕ12−ψ12)dπ12 = Z

Q

(ϕ12−ψ12)dµ2

= Z

Q

(ψ23−ϕ23)dµ2 = Z

Q²

(ψ23−ϕ23)dπ23, et donc L(ϕ₁₂+ϕ₂₃) =L(ψ₁₂+ψ₂₃). Pour ϕ =ϕ₁₂+ϕ₂₃∈G, on introduit

ψ12 =ϕ12+ϕ⁻₁₂−ϕ⁻₂₃, ψ23 =ϕ23−ϕ⁻₁₂+ϕ⁻₂₃,

de sorte que ϕ = ψ12 +ψ23, ψ12 = 0 ou ψ23 = 0 l`a o`u les signes de ϕ12 et ϕ23

sont différents, d’où on déduit ψ_ij ≥0 si ϕ ≥ 0, |ϕ| = |ψ₁₂|+|ψ₂₃| et enfin kϕk = kψ12k+kψ23k. On prouve ainsi Lϕ≥0 si ϕ ≥0,

|Lϕ| ≤ |Lψ₁₂|+|Lψ₂₃|

≤ Z

Q²

|ψ₁₂|dπ12+ Z

Q²

|ψ₂₃|dπ23≤ kψ₁₂k+kψ₂₃k=kϕk,

et commeL1 =L(1 + 0) =π12(1) = 1,kLk_G^′ = 1. Par le théorème de Hahn-Banach, on peut étendre L en une forme linéaire continue π sur C(Q³) telle que π|_G = L, kπk_M¹_(Q³₎ =kLkG^′ = 1 et π ≥0 puisque kπ⁺k_M¹ ≥π⁺(1)≥π(1) = 1 de sorte que π⁻ = 0. On a doncπ ∈P(Q³). Par le théorème de représentation de Radon-Riesz il existe une mesure (de probabilité) π∈P(Q³) telle que

Z

Q³

(ϕ12+ϕ23)dπ = Z

Q²

ϕ12dπ12+ Z

Q²

ϕ23dπ23,

en particulier les marginales de π selon les deux premières et les deux dernières variables sont π12 et π23. On définit π13 ∈ P(Q²) sur les boréliens produits par π13(A×B) = π(A ×Q×B) ∀A, B ∈ B(Q) : π13 est la marginale de π suivant la permière et la dernière variable. Il est clair que π13 ∈ Π(µ1, µ3), puisque, par exemple, π13(ϕ⊗1) = π(ϕ⊗1⊗1) = π12(ϕ⊗1) = µ(ϕ) ∀ϕ ∈ C(Q). Enfin, pour

(12)

tout π12, π23 et en construisant π puis π13 comme indiqu´e ci-dessus (on adopte une

écriture sous forme intégrale, pour plus de clarté), on a δ(µ1, µ3) ≤ I[π13] =

Z

Q²

π1,3(dx, dz) = Z

Q³

d(x, z)π(dx, dy, dz)

≤ Z

Q³

d(x, y)π(dx, dy, dz) + Z

Q³

d(y, z)π(dx, dy, dz) =I[π12] +I[π23], et on obtientδ(µ₁, µ₂)≤δ(µ₁, µ₂)+δ(µ₂, µ₃) en prenant l’infimum enπ₁₂etπ₂₃. Plus

”généralement”, en utilisant successivement la propriété de marginale, l’inégalité triangulaire dans Q et l’inégalité triangulaire dans L^p(π) (inégalité de Minkowski), on a

dM K,p(µ1, µ3)≤Ip[π23] = Z

Q²

|x1−x3|^pdπ13

1/p

= Z

Q³

|x1−x3|^pdπ 1/p

≤ Z

Q³

[|x₁−x2|+|x₂−x3|]^pdπ 1/p

≤ Z

Q³

|x₁−x2|^pdπ 1/p

+ Z

Q³

|x₂−x3|^pdπ 1/p

=Ip[π12] +Ip[π23].

En prenant l’infimum à droite sur tous les π12 ∈ Π(µ1, µ2) et π23 ∈ Π(µ2, µ3), on obtient d_{M K,p}(µ₁, µ₃)≤d_{M K,p}(µ₁, µ₂) +d_{M K,p}(µ₂, µ₃). ⊓⊔ Définition 1.13 On note P_p(Q) l’espace P(Q) muni de la distance d_{M K,p} (la distance de Monge-Kantorovich dM K,p est souvent notée Wp).

Th´eor`eme 1.14 (Kantorovich-Rubinstein). Pour p= 1la distance de Monge- Kantorovich est la norme de Kantorovich-Rubinstein :

W₁(µ, ν) = kµ−νk_KR := sup Z

Q

ϕ d(µ−ν), ϕ ∈Lip(Q), kϕk_Lip ≤1

.

On renvoie à [V2] pour la preuve du théorème 1.14.

Lemme 1.15 (i) Etant donnée une suite (ϕk) dense dans C(Q) et une suite (ak) de réels strictement positifs telle que la série((akkϕkk)) converge, l’application

d(µ, ν) :=

∞

X

k=1

ak|hµ−ν, ϕki|

définit une distance sur P(Q). De même, si de plus (ϕk) est une suite de Lip(Q) et si (ak) la suite définie par a⁻¹_k := k∇ϕ_kk(k+ 1)². Alors l’application d définie ci-dessus est encore une distance, et d≤ k.kKR.

(ii) Pour tout 1≤r ≤p <∞ on a W_r ≤ W_p ≤diam(Q)^1/p^′W₁^1/p.

(13)

Preuve du Lemme 1.15. Dans (i), traitons seulement la deuxième hypothèse, la première se traitant de la même manière. En premier lieu, d(µ, ν) < ∞ pour tout µ, ν ∈P(Q) puisque µ−ν est de moyenne nulle, et en fixant x0 ∈Qon a

d(µ, ν) =

∞

X

k=1

1

(k+ 1)²|hµ−ν,ϕk−ϕk(x0) k∇ϕkk i|

≤

∞

X

k=1

1

(k+ 1)² kµ−νkKR ≤ kµ−νkKR.

Maintenant, il suffit de remarquer que si d(µ, ν) = 0 alors µ = ν. En effet, on a hµ− ν, ϕki = 0 pour tout k, et si ϕ ∈ C(Q) est une fonction quelconque, il existe une sous-suite (ϕkj) qui converge uniformément vers ϕ et donc également hµ−ν, ϕi = limhµ−ν, ϕkji = 0. C’est ce qu’il fallait démontrer. La preuve de (ii) est similaire à celle du lemme 1.1 (c’est l’inégalité de Holder). ⊓⊔ Théorème 1.16 Pour toute suite (µn) de P(Q) et toute mesure de probabilitéµ∈ P(Q) et pour tout p∈[1,∞) il y a équivalence entre

(i)d(µ_n, µ)→0lorsquen→ ∞(pour une distance d´efinie comme au lemme 1.15) ; (ii) W_p(µn, µ)→0 lorsque n → ∞;

(iii)µn ⇀ µau sens de la convergence faible∗-σ(M¹(Q), C(Q))lorsquen→ ∞.

Preuve du théorème 1.16. On procède en plusieurs étapes.

Etape 1. (i) ⇔ (iii) (tr`es classique). Si d(µn, µ) → 0 alors hϕk, µn −µi → 0 ∀k.

Pour ϕ ∈C(Q) quelconque, pour tout ε > 0 et en prenant k tel que kϕ−ϕkk< ε on a

lim sup

n→∞

|hϕ, µn−µi| ≤sup

n

kµn−µkM¹kϕ−ϕkk+ lim

n→∞h|ϕk, µn−µi| ≤2ε, puisque kµ_n−µk_M¹ ≤ kµ_nk_M¹ +kµk_M¹ =µn(Q) +µ(Q) = 2. Ainsi µn

⇀ µ∗ faible-

∗. R´eciproquement, supposons que µn ∗

⇀ µ faible-∗. Pour ε > 0 fixons K tel que P∞

K+1ak2kϕ_kk ≤ ε puis N de sorte que ak|hϕ_k, µn−µi| ≤ ε/K pour n ≥ N et k= 1, ..., K, alors pour tout n≥N

d(µn, µ)≤ sup

k=1,...,K

ak|hµ−µn, ϕki|+

∞

X

k=K+1

ak|hµ−µn, ϕki| ≤2ε.

Etape 2. (ii) ⇒ (iii) pour p = 1. Pour tout ϕ ∈ Lip(Q) le th´eor`eme 1.14 implique que

Z

Q

ϕ d(µk−µ)

≤dM K,1(µ, ν)→0 lorsque k →0.

Par densit´e Lip(Q)⊂C(Q) on en d´eduit (iii).

(14)

Etape 3. (iii) ⇒ (ii) pourp= 1. Supposons (iii) et que, par l’absurde, on n’ait pas (ii) : ∃ε >0 et une sous-suite de (µk), toujours not´ee (µk), telle que

∀k ∃ϕk ∈Lip(Q), kϕ_kk_Lip≤1 Z

Q

ϕkd(µk−µ)≥ε.

Par le théorème d’Ascoli, il existe une sous-suite de (ϕk), toujours notée (ϕk), et ϕ_∞ ∈C(Q) telles que ϕ_k →ϕ_∞ uniformément. On a alors

lim inf Z

Q

ϕ∞d(µk−µ) =

= lim Z

Q

(ϕ∞−ϕk)d(µk−µ) + lim inf Z

Q

ϕ∞d(µk−µ)≥0 +ε >0, ce qui contredit la convergence µk⇀ µ.

Etape 4. (ii) pour toutp∈[1,∞). C’est une conséquence du Lemme 1.15 (ii). ⊓⊔ On termine cette section par un résultat classique de densité.

Th´eor`eme 1.17 (Krein-Milman pour les mesures).Les combinaisons convexes de masses de Dirac sont denses au sens de la convergence faible∗-σ(M¹(X), C(X)) dans M¹(X).

Preuve du Théorème 1.17. Première preuve. Les masses de Dirac sont les points extrémaux de P(Q). En effet, si δa = (t µ+ (1−t)ν, t∈ (0,1) avec µ, ν ≥0 alors nécessairement suppµ = suppν = {a}, et donc µ = ν = δ si µ(Q) = ν(Q) = 1.

Inversement, siµ∈P(Q) etµn’est pas une masse de Dirac, alors il existeϕ∈C(Q), 0≤ ϕ ≤1 telle que µ(ϕ)>0 et µ(1−ϕ) >0, de sorte que l’on peut ´ecrire µ sous la forme d’une combinaison convexe

µ=µ(ϕ) (µ(ϕ)⁻¹µ ϕ) + (1−µ(ϕ)) (µ(1−ϕ)⁻¹µ(1−ϕ)),

et doncµ n’est pas un point extrémal. Il suffit alors d’appliquer le théorème 5.4 de Krein-Milman présenté en Annexe.

Deuxième preuve. On peut faire les choses à la main, de la manière suivante. Pour tout k, il existe Nk ∈ N et (x^k_i)1≤i≤Nk une suite de X tels que X ⊂ ∪B(x^k_i,1/k), puis il existe une suite (ϕ^k_i) de C(X) telle que suppϕ^k_i ⊂B(x^k_i,1/k), 0≤ϕ^k_i ≤1 et PNk

i=1ϕ^k_i = 1. On pose

µ_k:=

Nk

X

i=1

µ(ϕ^k_i)δ_x^k

i. Pour toutψ ∈C(X) on a alors

hµ_k, ψi=

Nk

X

i=1

µ(ϕ^k_i)ψ(x^k_i) =hµ, ψ^ki avec ψ^k :=

Nk

X

i=1

ψ(x^k_i)ϕ^k_i.

(15)

Or, pour tout x∈X, on a

ψ(x)−ψ^k(x) =

Nk

X

i=1

(ψ(x)−ψ(x^k_i))ϕ^k_i(x)

≤

Nk

X

i=1

sup

1≤i≤Nk

kψ−ψ(x^k_i)k_L^∞_(B(x^k

i,1/k))ϕ^k_i(x)≤ω(1/k)→0 lorsque k → ∞, où ω désigne un module de continuité de ψ. On en déduit que

hµ_k, ψi → hµ, ψi. ⊓⊔

1.4 Autres distances et interpr´ etation probabiliste

Remarque 1.18 Il faut faire attention avec la distancedMK,∞ puisque dMK,∞

(1− 1

n)δ0+1 nδa, δ0

=a

et pourtant(1−1

n)δ0+ 1

nδa ⇀ δ0. Les résultats suivants sont énoncés dans [L1]

µn, µ≥κ >0, µn ⇀ µ =⇒ dMK,∞(µn, µ)→0, µ∗ρδ >0∀δ >0, µn ⇀ µ =⇒ dMK,∞(µn, µ)→0, µ∗ρδ >0 sur suppµ∀δ >0, dist(suppµn,suppµ)→0, µn ⇀ µ =⇒ dMK,∞(µn, µ)→0.

Remarque 1.19 Dans P(Q)la d´efinition de dLP devient dLP(µ, ν) = inf{ε >0, ∃π∈Π(µ, ν)

Z

E×E

1_|x−y|>επ(dx, dy)< ε}.

Remarque 1.20 On peut ´egalement d´efinir la distance de Zolotarev par Zr(µ, ν) := sup

ϕ∈Λr

Z

R

ϕ d(µ−ν),

pourr >1 où Λr est l’espace des fonctions holdériennes d’exposantr telles que[ϕ]ℓ ≤1 où ℓ est le plus grand entier strictement inférieur àr(ℓ= [r]sir /∈Netℓ=r−1 sir∈N). La propriété remarquable de cette distance est

(Wr)^r≤CrZr.

Remarque 1.21 Soit Ωun espace de probabilité assez grand de sorte qu’il existe des va X et Y (indépendantes) et de loiµet ν pour toutµ, ν∈P(Q). Il est usuel de définir les distances dMK,p

etdLP par leur ”interpr´etation probabiliste”

dMK,p(µ, ν) = inf{(E[|Y −X|^p])^1/p, loi deX=µ, loi deY =ν}

et

dLP(µ, ν) = inf{ε >0; ∃(X, Y); loi deX =µ, loi deY =ν etP(|Y −X|> ε)< ε}.

On remarque alors que les probl`emes d’optimisation suivants sont ´equivalents inf{E[|Y −X|²])} = inf{E(X²) +E(Y²)−2E(XY)}

⇔ supE(XY) ⇔ maximiser la cor´elation de X, Y.

Ainsi pour r´ealiser la distance W2(µ, ν) par une paire de va (X, Y) le pire des choix est de les prendre ind´ependantes, ce qui correspond au plan de transportπ=µ⊗ν.