Du microscopique au macroscopique - Cours de Master 2 EDP-MAD - St´ephane Mischler
26 janvier 2010
Chapitre 1. Espaces sym´ etriques.
1 Espace de configurations sym´ etriques, identifi- cation Q
N/ S
N≈ P
N(Q) et l’espace P (Q)
Nous allons exhiber dans cette section un isomorphisme entre l’espace QN/SN des configurations de QN sym´etriques muni d’une distance/norme usuelle et le sous-espace PN(Q) des mesures de probabilit´es (”empiriques”) constitu´ees de N masses de Dirac (normalis´ees par un facteur 1/N) muni de la distance de Monge- Kantorovich associ´ee. De part l’injection canonique PN(Q) ⊂ P(Q) cela permet d’identifier QN/SN `a un sous-ensemble d’un mˆeme espace, donc P(Q), dans lequel un passage N → ∞pourra ensuite ˆetre abord´e.
1.1 Distances dans Q
Net Q
N/ S
NSoit Q un compact de Rd muni de la distance euclidienne, not´ee |.|. On peut
´egalement consid´erer un espace m´etrique compact abstrait (Q, d) avec les modifica- tions imm´ediates. On d´efinit les distances d’exposantp∈[1,∞) par
dp(x, y) := 1 N
N
X
i=1
|xi−yi|p
!1/p
et la distance uniforme par
d∞(x, y) := max
1≤i≤N|xi−yi|.
Lemme 1.1 Pour tout N ≥1 et p∈(1,∞) on a d1 ≤dp ≤diam(Q)1/p′d1/p1 .
Preuve du Lemme 1.1. D’une part, par l’in´egalit´e de Holder on a d1(x, y) = 1
N
N
X
i=1
|xi−yi| ≤ 1 N
N
X
i=1
|xi−yi|p
!1/p N
X
i=1
1
!1/p′
= 1
N
N
X
i=1
|xi−yi|p
!1/p
=dp(x, y).
D’autre part, on a
dp(x, y)p = 1 N
N
X
i=1
|xi−yi|p ≤diam(Q)p−1 1 N
N
X
i=1
|xi−yi|.
⊓
⊔ On introduit SN le groupe des permutations d’un ensemble `a N ´el´ements (i.e.
l’ensemble des bijections de {1, ..., N} dans lui-mˆeme) et QN/SN l’ensemble des configurations de QN indistingables par permutation. On note X, Y ∈ QN/SN les classes d’´equivalences deQN par la relation d’´equivalence d’´egalit´e par permutation.
Pourx= (xi)∈QN,x∈X et y= (yi)∈QN,y ∈Y on a donc
X =Y ssi x ∼ y ssi ∃σ∈SN x=yσ, o`u (yσ)i :=yσ(i) ∀i= 1, ..., N.
A une distance d dans QN sym´etrique par permutation (d(x, y) =d(xσ, yσ) ∀x, y ∈ QN,σ ∈SN) on associe une distance, not´ee ˜d, mais ´eventuellement encore not´ee d, en posant
∀X, Y ∈QN/SN d(X, Y˜ ) = inf
x∈X,y∈Y d(x, y) = min
σ∈SNd(x, yσ), o`u dans le dernier terme x, y d´esignent des ´el´ements quelconques de X, Y.
Lemme 1.2 La distance d˜est effectivement une distance. De plus, si d1 ≤ C d2
alors d˜1 ≤Cd˜2.
Preuve du Lemme 1.2. Pour montrer que ˜d est une distance dans QN/SN il suffit de choisirσi ∈SN telles que d(x, yσ1) = ˜d(X, Y),d(y, zσ2) = ˜d(Y, Z), de sorte que
d(X, Z)˜ ≤d(x, zσ2◦σ1)≤d(x, yσ1) +d(yσ1, zσ2◦σ1) = ˜d(X, Y) + ˜d(Y, Z).
⊓
⊔ Les distances quotients ˜dp(encore not´eesdp!) d’exposantp∈[1,∞) dansQN/SN sont appel´ees les distances de Monge-Kantorovich (ou Wasserstein) et sont donc d´efinies par
dM K,p(X, Y) := inf
σ∈SN
1 N
N
X
i=1
|xi−yσ(i)|p
!1/p
et la distance de Monge-Kantorovich uniforme par est d´efinie par dM K,∞(X, Y) := inf
σ∈SN max
1≤i≤N|xi−yσ(i)|.
Pr´esentons maintenant la distance de Levy-ProkorovdLP parfois utilis´ee. On d´efinit dansQN la distance de Levy-Prokorov par
dLP(x, y) := inf{ε >0; ♯{i,|xi−yi|> ε}< N ε},
Lemme 1.3 La distance de Levy-Prokorov est effectivement une distance et pour tout N ≥1 et p∈[1,∞)on a
d2LP ≤dp≤(dpLP +diam(Q)pdLP)1/p . Preuve du Lemme 1.3.On a
dLP(x, y) = inf{ε >0; ♯{i,|xi−yi|> ε} ≤N ε} et ♯{i,|xi−yi|> dLP(x, y)} ≤N dLP(x, y).
Soitx, y ∈QN. Pour toutη >0 on a
♯{i,|xi−yi|> dLP(x, y) +η}< N(dLP(x, y) +η), puisque∀ε, ε′≥0,ε′ > ε,
♯{i,|xi−yi|> ε}< N ε =⇒ ♯{i, |xi−yi|> ε′}< N ε′.
Comme le terme de gauche est constant pour toutη∈[0, ηx,y,ε), avecηx,y,ε>0, on a en passant
`a la limiteη→0
♯{i,|xi−yi|> dLP(x, y)} ≤N dLP(x, y).
Inversement, montrons que siε≥0 satisfait
♯{i,|xi−yi|> ε} ≤N ε
alorsdLP(x, y)≤ε. A nouveau, il existeηx,y,ε>0 tel que pour toutη∈(0, ηx,y,ε)
♯{i,|xi−yi|> ε+η}=♯{i,|xi−yi|> ε} ≤N ε < N(ε+η).
Par d´efinition, on en d´eduitdLP(x, y)≤ε+η, et on passe `a la limiteη→0.
Soit maintenantx, y, z∈QN. Si
|xi−zi|> dLP(x, y) +dLP(y, z) =:ε,
alors|xi−yi|+|yi−zi|> dLP(x, y) +dLP(y, z), et donc soit|xi−yi|> dLP(x, y) soit|yi−zi|>
dLP(y, z). Ainsi
♯{i;|xi−zi|> ε} ≤ ♯{i;|xi−yi|> dLP(x, y)}+♯{i;|yi−zi|> dLP(y, z)}
≤ N(dLP(x, y) +dLP(y, z)) =N ε, ce qui implique doncdLP(x, z)≤ε.
D’autre part, posons k := ♯A, A :={i;|xi−yi| ≥ dLP(x, y)}. Par d´efinition de dLP(x, y), pour toutε∈(0, εx,y), on ak=♯{i;|xi−yi|> dLP(x, y)−ε} ≥N(dLP(x, y)−ε) et en passant
`a la limiteε→0 il vient k≥N dLP(x, y). On en d´eduit
d1(x, y) = 1 N
N
X
i=1
|xi−yi| ≥ 1 N
X
i∈A
|xi−yi| ≥ k
N dLP(x, y)≥(dLP(x, y))2.
Enfin,
dpp(x, y) = 1 N
X
i;|xi−yi|≤dLP(x,y)
|xi−yi|p+ 1 N
X
i;|xi−yi|>dLP(x,y)
|xi−yi|p
≤ dLP(x, y)p+ 1
N ♯{i;|xi−yi|> dLP(x, y)}diam(Q)p,
et on conclut grˆace `a l’in´egalit´e♯{i;|xi−yi|> dLP(x, y)} ≤N dLP(x, y) d´emontr´ee dans la preuve
du lemme 2. ⊔⊓
DansQN/SN, on d´efinit la distance
dLP(X, Y) := inf{ε >0; ∃σ∈SN/ ♯{i,|xi−yσ(i)|> ε}< N ε}.
1.2 Distances dans P
N(Q) et identification Q
N/ S
N≈ P
N(Q)
1.2.1 Transport de masses et ensemble des plans de transfert
Ici E d´esigne un espace polonais muni de sa tribu bor´elienne et on note P(E) l’espace des mesures de probabilit´e. Pour µ, ν ∈P(E) on d´efinit
Π(µ, ν) :={π∈P(E×E);
Z
E
dπ(x, y) =dµ(x), Z
E
dπ(x, y) =dν(y)}.
(1.1)
Π(µ, ν) est donc l’ensemble des mesures sur E×E dont les marginales sont µet ν.
On dit que π ∈Π(µ, ν) est un plan de transfert de masses (ou un couplage) deµ `a ν. Une fa¸con plus pr´ecise d’´ecrire (1.1) est
∀A∈ BE, ∀B ∈ BE π(A×E) =µ(A), π(E×B) =ν(B), ou ´egalement
Z
E×E
[ϕ(x) +ψ(y)]dπ(x, y) = Z
E
ϕ(x)dµ(x) + Z
E
ψ(y)dν(y)
pour tout (ϕ, ψ)∈L1(dµ)2 ouL∞(dµ)2,Cb(E)2, C0(E)2. Remarque 1.4 On a toujours µ⊗ν ∈Π(µ, ν).
Etant donn´ees une fonction coˆutc:E×E →R+ et deux mesures µ, ν ∈P(E), on d´efinit le coˆut de transfert du plan π∈ Π(µ, ν) par
I[π] =Ic[π] = Z
E×E
c(x, y)dπ(x, y), (1.2)
et on cherche `a minimiser I. On d´efinit le coˆut optimal (de transfert entre µet ν) Tc(µ, ν) = inf
π∈Π(µ,ν)I[π].
(1.3)
S’il existe ¯π ∈Π(µ, ν) tel que I[¯π] =Tc(µ, ν), on l’appelle plan de transfert optimal.
Si c(x, y) est une distance sur E, on d´efinit `a l’aide de Tc une distance sur P(E).
Plus g´en´eralement et pr´ecis´ement, pour 1≤p <∞ on pose dM K,p(µ, ν) = Tdp(µ, ν)1/p = inf
π∈Π(µ,ν)Idp(π)1/p (1.4)
= inf (Z
E×E
|x−y|pπ(dx, dy) 1/p
, π∈Π(µ, ν) )
.
On montrera dans la section 1.4 que ces quantit´es sont bien des distances surP(E).
Nous allons commencer par traiter le cas, plus simple, de mesures discr`etes sur E.
1.2.2 Masses ponctuelles et distances dans PN(Q)
Remarque 1.5 (i) Si ν =δa, mesure de Dirac ena ∈E, alors Π(µ, δa) ={µ⊗δa}.
En effet, soit π ∈Π(µ, δa). Pour tout A ∈ BE, B ∈ BE si a /∈B on a π(A×B) ≤ π(E×B) =δa(B) = 0 = (µ⊗δa)(A×B). Pour tout A∈ BE, B ∈ BE si a∈B on a π(A×B) = π(A×E)−π(A×Bc) =µ(A) = (µ⊗δa)(A×B). Comme la tribu BE×E est engendr´ee par l’alg`ebre des pav´es BE × BE, on en d´eduit que π =µ⊗δa.
(ii) Plus g´en´eralement, si π ∈ Π(µ, ν) alors suppπ ⊂suppµ×suppν. En effet, on a par exemple π(E×(suppν)c) =ν((suppν)c) = 0.
(iii) Si µ et ν sont discr`etes, les mesures de Π(µ, ν) sont des mesures discr`etes, port´ees par suppµ × suppν. En particulier si µ est port´ee par {a1, ..., ap} et ν est port´ee par {b1, ..., bq}, de sorte que π est port´ee par {(ai, bj)}1≤i≤p,1≤j≤q. Plus pr´ecis´emment, si
µ=X
i
µiδai, ν =X
j
νjδbj, π =X
i,j
πi,jδ(ai,bj)
on a p q coefficients d´eterminantsπ et p+q relations de compatibilit´e X
j
πi,j =π({ai} ×Q) =µ({ai}) =µi ∀i, X
i
πi,j =νj ∀j.
(1.5)
On d´efinit PN(Q) l’ensemble des ”mesures de probabilit´e empiriques d’ordre N” par
PN(Q) :=
( ˆ
µNX = 1 N
N
X
i=1
δxi, X = (x1, ..., xN)∈QN )
.
On d´efinit BN l’ensemble des matrices bistochastique comme ´etant les matrices M v´erifiant 0≤Mij ≤1 et
X
j
Mi,j = 1 ∀i, X
i
Mi,j = 1 ∀j.
(1.6)
Lorsque µ = ˆµNX, ν = ˆµNY ∈PN(Q) tout plan de transfert π ∈Π(µNX,µˆNY) peut ˆetre repr´esent´ee par une ”matrice bistochastique” en posant
π=πM =X
i,j
Mi,j
N δ(xi,yj).
Cela est bien sˆur une cons´equence imm´ediate de (1.5) si xi 6= xj et yi 6= yj pour tout i 6= j, et cela est ´egalement vrai (bien qu’il y aurait bien d’autres fa¸cons de repr´esenter π) dans le cas ”sous-d´etermin´e” o`u cette condition n’est pas satisfaite.
Exemples 1.6 Dans le cas p=q= 2, on d´eduit queΠ(µ, ν) est une famille `a un param`etre car la matrice des relations de compatibilit´es est de d´eterminant nul, et plus pr´ecis´ement de rang 3 : on doit r´esoudre
1 1 0 0
0 0 1 1
1 0 1 0
0 1 0 1
γ11
γ12
γ21
γ22
=
α1
α2
β1
β2
.
Le cas le plus simple o`u α1 = α2 = β1 = β2 = 1/2 donne Π = {πε; ε = [0,1/2]}, avec πε = ε δ11+ (1/2−ε)δ12+ (1/2−ε)δ21+ε δ22.
Ainsi, lorsqu’on se restraint `a PN(Q), (1.2) devient
∀M ∈ BN I[πM] = 1 n
X
ij
Mijc(xi, yj) =:Ic,X,Y[M] =I[M].
(1.7)
Le probl`eme de minimisation (1.3)-(1.7) est ainsi un probl`eme de minimisation lin´eaire sur un ensemble convexe et compact BN ⊂MN×N(R) qui se ”r´esout” grˆace
`a la th´eorie de Krein-Milman qui est relativement ´el´ementaire dans ce cas particulier et que nous exposons ci-dessous. Nous renvoyons `a l’annexe pour une pr´esentation plus compl`ete et g´en´erale de la th´eorie de Krein-Milman.
D´efinition 1.7 (i) Soit E un evn et K ⊂E un convexe compact (donc non vide).
On dit que x ∈ K est un point extr´emal de K si pour tout y, z ∈ K, t ∈ (0,1) on a (1−t)y+t z = x implique y = z = x. On note E(K) l’ensemble des points extr´emaux de K.
(ii) On notePN l’ensembles des matrices de permutation, c’est-`a-dire l’ensembles des matricesP ∈MN×N(R) telles qu’il existeσ ∈SN pour lequel Pij =δiσ(j)= 1 si i=σ(j), = 0 si i6=σ(j).
Le r´esultat suivant permet d’identifier les points extr´emaux de BN.
Th´eor`eme 1.8 (de Birkhoff). L’ensembles des points extr´emaux deBN est PN. Preuve du th´eor`eme 1.8. (i) SiM ∈ BN alors 0 ≤Mij ≤1. De plus, si les coefficients deM appartiennent `a{0,1}, alorsM est un point extr´emal puisque pourP, Q∈ BN
M = 1
2(P +Q) implique Mij = 1
2(Pij +Qij) implique Pij =Qij =Mij.
Enfin, pour appartenir `a BN il faut que pour tout i∈ {1, ..., n} il existe un unique entierσ(i)∈ {1, ..., n}tel queMiσ(i) = 1, pour tous les autresj on aMij = 0 (c’est la premi`ere identit´e dans la d´efinition (1.6)) et que l’applicationσsoit injective, (sinon, en notantj =σ(i) =σ(k),i6=kon aP
ℓMℓj ≥2 ce qui contredit la seconde identit´e dans la d´efinition (1.6)). Cela prouve queσ∈S(n) etMij =δiσ−1(j). Il est clair que l’ensemble des matrices de permutation est compact (puisque fini, de cardinal n!).
Remarque 1.9 On a donc la caract´erisation suivante. PourM ∈ BN il y a ´equivalence entre
(i) M ∈ PN;
(ii) ∀i ∃J MiJ = 1 (et ∀j 6=J Mij = 0) ; (iii) ∀j ∃I MIj = 1 (et ∀i6=I Mij = 0) ; (iv) ∀i, j Mij ∈ {0,1}.
(ii) Soit M = (Mij) ∈ BN. S’il existe (i0, j0) tel que Mi0,j0 ∈]0,1[ alors (1.6) implique qu’il existe j1, i1, j2, ... tels que Mi0,j1 ∈]0,1[, Mi1,j1 ∈]0,1[, ... . On s’arrˆete au premier ik ou jk tel que ik =iℓ ou jk = jℓ, k > ℓ. On a donc construit une suite d’indices
(iℓ, jℓ), (iℓ, jℓ+1), (iℓ+1, jℓ+1), ..., (ik−1, jk), (ik, jk), dans le premier cas,
(iℓ, jℓ), (iℓ, jℓ+1), (iℓ+1,ℓ+1), ..., (ik−1, jk−1), (ik−1, jk),
dans le second cas, tels que les indices sont tous distincts, sauf aux deux extrˆemes.
Traitons le premier cas (le second est simlilaire : il consiste `a tourner dans l’autre sens, d’abord en incr´ementant l’ordonn´ee j puis en incr´ementant l’abscisse i). Pour se ramener `a un nombre pair d’indices on commence par supprimer (iℓ, jℓ) de la liste, puis en renotant la suite d’indices, on a ainsi construit unk-cycle
S :={(i1, j1), (i2, j1), (i2, j2), ..., (ik, jk−1), (ik, jk), (i1, jk), (i1, j1)}
avec tous les iℓ distincts et tous les jℓ distincts et tels que Mα,β ∈]0,1[ pour tout (α, β)∈S. On d´efinit
ε:= min(Mα,β,1−Mα,β; (α, β)∈S)>0, puis
Pαβ =Mαβ si (i, j)∈/ S, Pαβ =Mαβ + (−1)ℓ+ℓ′ε si (α, β) = (iℓ, jℓ′)∈S, Qαβ =Mαβ si (i, j)∈/ S, Qαβ =Mαβ+ (−1)ℓ+ℓ′+1ε si (α, β) = (iℓ, jℓ′)∈S.
On a donc P = (Pij)∈ BN, Q = (Qij) ∈ BN, M = (P +Q)/2 et P 6= M, Q6= N. Cela prouve que les matrices de permutations sont exactement les points extr´emaux
deBN. ⊓⊔
Pr´esentons le th´eor`eme de Krein-Milman dans le cas deBN, dont la d´emonstration d´ecoule d’un argument d’approximation.
Th´eor`eme 1.10 (de Krein-Milman pour BN). On a conv(PN) =BN :
pour tout M ∈ BN il existe une suite (Mn) telle que kM −Mnk →0 et Mn=
In
X
i=1
θn,iPn,i, avec Pn,i∈ PN, 0≤θn,i≤1 et P
iθn,i = 1.
Preuve du th´eor`eme 1.10. On noteB(N, p) les matrices bistochastiques qui poss`edent au moins p coefficients nuls. Les points extr´emaux correspondent `a B(N, N2 −N).
On part de M1 = M. Dans la construction de la preuve du th´eor`eme pr´ec´edent, si par exemple on a ε := 1 − Mα,¯β¯ avec ( ¯α,β) = (i¯ ℓ¯, jℓ¯′) alors Pα,¯β¯ = 1 et si ε := Mα,¯β¯ avec ( ¯α,β) = (i¯ ℓ¯, jℓ¯′) alors en modifiant la d´efinition de P on aura Pα,¯β¯ = 0. Dans tous les cas, on est capable de montrer que M = (M2,1 +M2,2)/2 avec Ma,b∈ BN etM2,1 ∈ B(N,1) ouM2,2 ∈ B(N,1). On recommence, et on obtient M1 = (M3,1+M3,2+M3,3+M3,4)/22 avec au moins une matrice dansB(N,2), deux dans B(N,1) et au pire une seule sans z´ero. On note Ni,j le nombre minimum de matrices dansB(N, j) `a l’´etape i, et la conventionB(N, j) =PN sij ≥N2−N. On a N1,0 = 1, et la convention N1,j = 0 pour j ≥ 1. On obtient alors par r´ecurrence Ni,0 = 1,Ni,j =Ni−1,j−1+Ni−1,j. On a par exemple ainsiNi,1 =i−1,Ni,2 =i(i−1)/2 et surtout Ni,k≤Ckik pour tout i, k. On en d´eduit
card(Aci)≤
N2−N−1
X
j=1
Ni,j ≤CNiN2−N−1,
o`uAi :={k; Mi,k ∈ PN}. Il vient alors kM − X
k∈Ai
2−iMi,k+ X
k∈Aci
2−iIk=kX
k∈Aci
2−iMi,k+ X
k∈Aci
2−iIk ≤CN′ iN2 2i →0 lorsque i→ ∞ (ou par exemple I ∈ PN est la matrice identit´e). ⊓⊔
En combinant (1.7), le th´eor`eme 1.8 et le th´eor`eme 1.10 on obtient Th´eor`eme 1.11 Pour tout X, Y ∈QN/SN et tout 1≤p <∞, on a
dM K,p(ˆµX,µˆY) = min
σ∈SN
1 N
N
X
i=1
|xi−yσ(i)|p
!1/p
=dp(X, Y).
En particulier, l’application
(QN/SN, dp)→ (PN(Q), dM K,p), X 7→µˆnX est un isomorphisme entre espaces m´etriques.
Preuve du th´eor`eme 1.11. D’apr`es (1.7), on a Tc(ˆµNX,µˆNY) = inf
γ∈Π(ˆµNX,ˆµNY)I[γ] = inf
π∈BN
I[π].
On a d’une part
M∈BinfN
I[M]≤ inf
P∈PN
I[P] = min
P∈PN
I[P],
puisque PN ⊂ BN et que PN est un ensemble fini. On a d’autre part, pour tout M ∈ BN et en notant Mn la suite de conv (PN) construite au th´eor`eme 1.10
I[M] = lim
n→∞I[Mn] = lim
n→∞
In
X
i=1
θn,iI[Pn,i]
≥ lim
n→∞
In
X
i=1
θn,i min
P∈PN
I[P] = min
P∈PN
I[P].
On a donc
Tc(ˆµNX,µˆNY) = min
P∈PN
I[P] = min
σ∈SN
1 N
N
X
i=1
c(xi, yσ(i)),
et on conclut en choisissant c(x, y) = |y−x|p. ⊓⊔
1.3 Distances dans P (Q) et topologie faible ∗
On pr´esente maintenant quelques r´esultats fondamentaux concernant les dis- tances de Monge-Kantorovch.
Th´eor`eme 1.12 Pour tout 1 ≤ p < ∞, l’application (µ, ν) 7→ dM K,p(µ, ν) d´efinie par (1.4) est une distance sur P(Q)
Preuve du th´eor`eme 1.12. a) - Grˆace au th´eor`eme 5.9 de Stone-Weierstrass on sait que C(Q)⊗C(Q) est dense dans C(Q2). On d´efinit π := µ⊗ν sur C(Q)⊗C(Q) par hπ, ϕ⊗ψi=hµ, ϕi hν, ψipour ϕ⊗ψ ∈C(Q)⊗C(Q), d´efinition que l’on ´etend
`a C(Q)⊗C(Q) par lin´earit´e, puis `a C(Q2) par continuit´e-densit´e. Il est alors clair queµ⊗ν ∈Πµ,ν, qui est donc non vide. La convexit´e de Πµ,ν est imm´ediate. Enfin, si πn⇀ π au sens de la topologie ∗σ(M1(Q2), C(Q2) et πn ∈Πµ,ν, alors clairement π∈Πµ,ν : Πµ,ν est ferm´e. Comme P(Q) est compact, il en est de mˆeme de Π(µ, ν).
b) - On consid`ere une suite minimisante (πn) de Πµ,ν telle que I[πn]ցinfI[π].
Comme (πn) est born´ee, il existe ¯π ∈ P(Q2) et (πnk) telles que πnk ⇀ π¯ au sens
∗σ(M1(Q2), C(Q2). Comme Πµ,ν est ferm´e, on a ¯π ∈Πµ,ν. Comme d(., .)∈ C(Q2), l’application
π∈Π(µ, ν) 7→ Ip[π] = Z
X×Y
|x−y|pdπ(x, y),
est continue, ce qui implique I[πnk]→I[¯π], et donc dM K,p(µ, ν)p =Tdp(µ, ν) = inf
π∈Π(µ,ν)Ip[π] = min
π∈Π(µ,ν)Ip[π]∈[0,∞).
c) - Lorsque ν = µ on introduit le plan de transport ¯π que l’on d´efinit sur les bor´eliens produits par ¯π(A×B) = µ(A∩B) ∀A, B ∈ B(Q) et que l’on ´etend `a B(Q×Q) par un th´eor`eme d’extension. On a ¯π(A×X) =µ(A) et ¯π(X×B) =µ(B) de sorte que ¯π ∈Π(µ, µ). Il est clair que supp ¯π ⊂∆ :={(x, y)∈Q;y =x}puisque (A×B)∩∆ = ∅si, et seulement si, A∩B =∅et donc dans ce casπ(A×B) = 0. On en d´eduit queI[¯π] = 0 puisquedp = 0 sur ∆, et doncdM K,p(µ, µ) = 0. En conclusion δ(µ, µ)≤I[¯π] = 0 puisque d = 0 sur ∆.
Soyons plus pr´ecis. Si µ = ν on d´efinit π : C(Q)⊗C(Q) → R par π(ϕ⊗ψ) = hµ, ϕ ψi pour tout ϕ, ψ∈C(Q). Comme pr´ec´edemment, il existe ¯π∈P(Q2) tel que ¯π|C(Q)⊗C(Q) =π. Si (suppϕ⊗ψ)∩∆ =∅, cela signifie queϕ ψ≡0 et donch¯π, ϕ⊗ψi= 0. Pourφ∈C(Q2) qui satisfait φ= 0 sur ∆, on construit une suiteφn ∈C(Q)⊗C(Q) telle queφn →φet (suppφn)∩∆ =∅. On proc`ede de la mani`ere suivante. On fixeε >0 puisnde sorte que (par uniforme continuit´e)
d(x1, x2) +d(y1, y2)≤3/n implique |φ(x1, y1)−φ(x2, y2)|< ε.
(1.8)
On recouvreQparNnboulesB(xnj,1/n) et on d´efinitA:={(i, j)∈N2; 1≤i, j≤Nn, d(xni, xnj)≥ 3/n}. On pose enfin
φn(x, y) := X
(i,j)∈A
φ(xni, xnj)ψn,i(x)ψn,j(y), ψn,k(z) = (1/n−d(z, xnk))+
PNn
ℓ=1(1/n−d(z, xnℓ))+
On a alors
- pour tout (i, j) ∈ Aon a (suppψn,i⊗ψn,j)∩∆ = ∅ puisque ψn,i(x)ψn,j(y) >0 implique d(x, y)≥d(xni, xnj)−d(x, xnj)−d(xni, y)≥1/n;
- pour tout (i, j)∈ A/ on a φ(xni, xnj)< ε puisque d(xni, xnj) ≤3/n,φ(xni, xni) = 0 et il suffit d’utiliser (1.8) avecx1=y1=x2=xni ety2=xnj ;
- enfin, on a
|φn(x, y)−φ(x, y)| ≤
Nn
X
i,j=1
|φ(xni, xnj)−φ(x, y)|ψn,i(x)ψn,j(y)
+ X
(i,j)/∈A
|φ(xni, xnj)|ψn,i(x)ψn,j(y)≤2ε,
puisque ce sont deux combinaisons (”sous”-)convexes de termes tous inf´erieurs `aε. On a donc bien d´emontr´e que supp ¯π⊂∆.
d) - Inversement, si dM K,p(µ, ν) = 0, alors en notant ¯π un plan de transport optimal on a Ip[¯π] = dpM K,p(µ, ν) = 0. Comme dp > 0 sur (Q×Q)\∆ on en d´eduit que supp ¯π ⊂ ∆ et donc R
Q×Q(ϕ(y)−ϕ(x))d¯π(x, y) = 0 pour tout ϕ ∈ C(Q). Il vient
Z
Q
ϕ(x)dµ(x) = Z
Q×Q
ϕ(x)d¯π(x, y) = Z
Q×Q
ϕ(y)d¯π(x, y) = Z
Q
ϕ(y)dν(y) pour toutϕ ∈C(Q) et donc µ=ν.
e) - Montrons enfin l’in´egalit´e triangulaire. Soient µi ∈ P(Q), i = 1, 2, 3, et soient πij ∈ Π(µi, µj) pour (i, j) = (1,2),(2,3). On d´efinit sur G := {ϕ ∈ C(Q3); ϕ(x) = ϕ12(x1, x2) +ϕ23(x2, x3) ∀x = (x1, x2, x3)∈Q, ϕij ∈ C(Q2)} sous- espace vectoriel de C(Q3) l’application
hL, ϕi:=
Z
Q2
ϕ12dπ12+ Z
Q2
ϕ23dπ23.
Montrons que L ne d´epend pas du choix des repr´esentants ϕij de la fonction ϕ et que L est une forme lin´eaire continue (pour la norme de C(Q3)). En effet, si ϕ12 +ϕ23 = ψ12 +ψ23 alors ϕ12− ψ12 = ψ23− ϕ23 ∈ C(Q) (ne d´epend pas des variables x1 et x3) de sorte que
Z
Q2
(ϕ12−ψ12)dπ12 = Z
Q
(ϕ12−ψ12)dµ2
= Z
Q
(ψ23−ϕ23)dµ2 = Z
Q2
(ψ23−ϕ23)dπ23, et donc L(ϕ12+ϕ23) =L(ψ12+ψ23). Pour ϕ =ϕ12+ϕ23∈G, on introduit
ψ12 =ϕ12+ϕ−12−ϕ−23, ψ23 =ϕ23−ϕ−12+ϕ−23,
de sorte que ϕ = ψ12 +ψ23, ψ12 = 0 ou ψ23 = 0 l`a o`u les signes de ϕ12 et ϕ23
sont diff´erents, d’o`u on d´eduit ψij ≥0 si ϕ ≥ 0, |ϕ| = |ψ12|+|ψ23| et enfin kϕk = kψ12k+kψ23k. On prouve ainsi Lϕ≥0 si ϕ ≥0,
|Lϕ| ≤ |Lψ12|+|Lψ23|
≤ Z
Q2
|ψ12|dπ12+ Z
Q2
|ψ23|dπ23≤ kψ12k+kψ23k=kϕk,
et commeL1 =L(1 + 0) =π12(1) = 1,kLkG′ = 1. Par le th´eor`eme de Hahn-Banach, on peut ´etendre L en une forme lin´eaire continue π sur C(Q3) telle que π|G = L, kπkM1(Q3) =kLkG′ = 1 et π ≥0 puisque kπ+kM1 ≥π+(1)≥π(1) = 1 de sorte que π− = 0. On a doncπ ∈P(Q3). Par le th´eor`eme de repr´esentation de Radon-Riesz il existe une mesure (de probabilit´e) π∈P(Q3) telle que
Z
Q3
(ϕ12+ϕ23)dπ = Z
Q2
ϕ12dπ12+ Z
Q2
ϕ23dπ23,
en particulier les marginales de π selon les deux premi`eres et les deux derni`eres variables sont π12 et π23. On d´efinit π13 ∈ P(Q2) sur les bor´eliens produits par π13(A×B) = π(A ×Q×B) ∀A, B ∈ B(Q) : π13 est la marginale de π suivant la permi`ere et la derni`ere variable. Il est clair que π13 ∈ Π(µ1, µ3), puisque, par exemple, π13(ϕ⊗1) = π(ϕ⊗1⊗1) = π12(ϕ⊗1) = µ(ϕ) ∀ϕ ∈ C(Q). Enfin, pour
tout π12, π23 et en construisant π puis π13 comme indiqu´e ci-dessus (on adopte une
´ecriture sous forme int´egrale, pour plus de clart´e), on a δ(µ1, µ3) ≤ I[π13] =
Z
Q2
π1,3(dx, dz) = Z
Q3
d(x, z)π(dx, dy, dz)
≤ Z
Q3
d(x, y)π(dx, dy, dz) + Z
Q3
d(y, z)π(dx, dy, dz) =I[π12] +I[π23], et on obtientδ(µ1, µ2)≤δ(µ1, µ2)+δ(µ2, µ3) en prenant l’infimum enπ12etπ23. Plus
”g´en´eralement”, en utilisant successivement la propri´et´e de marginale, l’in´egalit´e triangulaire dans Q et l’in´egalit´e triangulaire dans Lp(π) (in´egalit´e de Minkowski), on a
dM K,p(µ1, µ3)≤Ip[π23] = Z
Q2
|x1−x3|pdπ13
1/p
= Z
Q3
|x1−x3|pdπ 1/p
≤ Z
Q3
[|x1−x2|+|x2−x3|]pdπ 1/p
≤ Z
Q3
|x1−x2|pdπ 1/p
+ Z
Q3
|x2−x3|pdπ 1/p
=Ip[π12] +Ip[π23].
En prenant l’infimum `a droite sur tous les π12 ∈ Π(µ1, µ2) et π23 ∈ Π(µ2, µ3), on obtient dM K,p(µ1, µ3)≤dM K,p(µ1, µ2) +dM K,p(µ2, µ3). ⊓⊔ D´efinition 1.13 On note Pp(Q) l’espace P(Q) muni de la distance dM K,p (la dis- tance de Monge-Kantorovich dM K,p est souvent not´ee Wp).
Th´eor`eme 1.14 (Kantorovich-Rubinstein). Pour p= 1la distance de Monge- Kantorovich est la norme de Kantorovich-Rubinstein :
W1(µ, ν) = kµ−νkKR := sup Z
Q
ϕ d(µ−ν), ϕ ∈Lip(Q), kϕkLip ≤1
.
On renvoie `a [V2] pour la preuve du th´eor`eme 1.14.
Lemme 1.15 (i) Etant donn´ee une suite (ϕk) dense dans C(Q) et une suite (ak) de r´eels strictement positifs telle que la s´erie((akkϕkk)) converge, l’application
d(µ, ν) :=
∞
X
k=1
ak|hµ−ν, ϕki|
d´efinit une distance sur P(Q). De mˆeme, si de plus (ϕk) est une suite de Lip(Q) et si (ak) la suite d´efinie par a−1k := k∇ϕkk(k+ 1)2. Alors l’application d d´efinie ci-dessus est encore une distance, et d≤ k.kKR.
(ii) Pour tout 1≤r ≤p <∞ on a Wr ≤ Wp ≤diam(Q)1/p′W11/p.
Preuve du Lemme 1.15. Dans (i), traitons seulement la deuxi`eme hypoth`ese, la premi`ere se traitant de la mˆeme mani`ere. En premier lieu, d(µ, ν) < ∞ pour tout µ, ν ∈P(Q) puisque µ−ν est de moyenne nulle, et en fixant x0 ∈Qon a
d(µ, ν) =
∞
X
k=1
1
(k+ 1)2|hµ−ν,ϕk−ϕk(x0) k∇ϕkk i|
≤
∞
X
k=1
1
(k+ 1)2 kµ−νkKR ≤ kµ−νkKR.
Maintenant, il suffit de remarquer que si d(µ, ν) = 0 alors µ = ν. En effet, on a hµ− ν, ϕki = 0 pour tout k, et si ϕ ∈ C(Q) est une fonction quelconque, il existe une sous-suite (ϕkj) qui converge uniform´ement vers ϕ et donc ´egalement hµ−ν, ϕi = limhµ−ν, ϕkji = 0. C’est ce qu’il fallait d´emontrer. La preuve de (ii) est similaire `a celle du lemme 1.1 (c’est l’in´egalit´e de Holder). ⊓⊔ Th´eor`eme 1.16 Pour toute suite (µn) de P(Q) et toute mesure de probabilit´eµ∈ P(Q) et pour tout p∈[1,∞) il y a ´equivalence entre
(i)d(µn, µ)→0lorsquen→ ∞(pour une distance d´efinie comme au lemme 1.15) ; (ii) Wp(µn, µ)→0 lorsque n → ∞;
(iii)µn ⇀ µau sens de la convergence faible∗-σ(M1(Q), C(Q))lorsquen→ ∞.
Preuve du th´eor`eme 1.16. On proc`ede en plusieurs ´etapes.
Etape 1. (i) ⇔ (iii) (tr`es classique). Si d(µn, µ) → 0 alors hϕk, µn −µi → 0 ∀k.
Pour ϕ ∈C(Q) quelconque, pour tout ε > 0 et en prenant k tel que kϕ−ϕkk< ε on a
lim sup
n→∞
|hϕ, µn−µi| ≤sup
n
kµn−µkM1kϕ−ϕkk+ lim
n→∞h|ϕk, µn−µi| ≤2ε, puisque kµn−µkM1 ≤ kµnkM1 +kµkM1 =µn(Q) +µ(Q) = 2. Ainsi µn
⇀ µ∗ faible-
∗. R´eciproquement, supposons que µn ∗
⇀ µ faible-∗. Pour ε > 0 fixons K tel que P∞
K+1ak2kϕkk ≤ ε puis N de sorte que ak|hϕk, µn−µi| ≤ ε/K pour n ≥ N et k= 1, ..., K, alors pour tout n≥N
d(µn, µ)≤ sup
k=1,...,K
ak|hµ−µn, ϕki|+
∞
X
k=K+1
ak|hµ−µn, ϕki| ≤2ε.
Etape 2. (ii) ⇒ (iii) pour p = 1. Pour tout ϕ ∈ Lip(Q) le th´eor`eme 1.14 implique que
Z
Q
ϕ d(µk−µ)
≤dM K,1(µ, ν)→0 lorsque k →0.
Par densit´e Lip(Q)⊂C(Q) on en d´eduit (iii).
Etape 3. (iii) ⇒ (ii) pourp= 1. Supposons (iii) et que, par l’absurde, on n’ait pas (ii) : ∃ε >0 et une sous-suite de (µk), toujours not´ee (µk), telle que
∀k ∃ϕk ∈Lip(Q), kϕkkLip≤1 Z
Q
ϕkd(µk−µ)≥ε.
Par le th´eor`eme d’Ascoli, il existe une sous-suite de (ϕk), toujours not´ee (ϕk), et ϕ∞ ∈C(Q) telles que ϕk →ϕ∞ uniform´ement. On a alors
lim inf Z
Q
ϕ∞d(µk−µ) =
= lim Z
Q
(ϕ∞−ϕk)d(µk−µ) + lim inf Z
Q
ϕ∞d(µk−µ)≥0 +ε >0, ce qui contredit la convergence µk⇀ µ.
Etape 4. (ii) pour toutp∈[1,∞). C’est une cons´equence du Lemme 1.15 (ii). ⊓⊔ On termine cette section par un r´esultat classique de densit´e.
Th´eor`eme 1.17 (Krein-Milman pour les mesures).Les combinaisons convexes de masses de Dirac sont denses au sens de la convergence faible∗-σ(M1(X), C(X)) dans M1(X).
Preuve du Th´eor`eme 1.17. Premi`ere preuve. Les masses de Dirac sont les points extr´emaux de P(Q). En effet, si δa = (t µ+ (1−t)ν, t∈ (0,1) avec µ, ν ≥0 alors n´ecessairement suppµ = suppν = {a}, et donc µ = ν = δ si µ(Q) = ν(Q) = 1.
Inversement, siµ∈P(Q) etµn’est pas une masse de Dirac, alors il existeϕ∈C(Q), 0≤ ϕ ≤1 telle que µ(ϕ)>0 et µ(1−ϕ) >0, de sorte que l’on peut ´ecrire µ sous la forme d’une combinaison convexe
µ=µ(ϕ) (µ(ϕ)−1µ ϕ) + (1−µ(ϕ)) (µ(1−ϕ)−1µ(1−ϕ)),
et doncµ n’est pas un point extr´emal. Il suffit alors d’appliquer le th´eor`eme 5.4 de Krein-Milman pr´esent´e en Annexe.
Deuxi`eme preuve. On peut faire les choses `a la main, de la mani`ere suivante. Pour tout k, il existe Nk ∈ N et (xki)1≤i≤Nk une suite de X tels que X ⊂ ∪B(xki,1/k), puis il existe une suite (ϕki) de C(X) telle que suppϕki ⊂B(xki,1/k), 0≤ϕki ≤1 et PNk
i=1ϕki = 1. On pose
µk:=
Nk
X
i=1
µ(ϕki)δxk
i. Pour toutψ ∈C(X) on a alors
hµk, ψi=
Nk
X
i=1
µ(ϕki)ψ(xki) =hµ, ψki avec ψk :=
Nk
X
i=1
ψ(xki)ϕki.
Or, pour tout x∈X, on a
ψ(x)−ψk(x) =
Nk
X
i=1
(ψ(x)−ψ(xki))ϕki(x)
≤
Nk
X
i=1
sup
1≤i≤Nk
kψ−ψ(xki)kL∞(B(xk
i,1/k))ϕki(x)≤ω(1/k)→0 lorsque k → ∞, o`u ω d´esigne un module de continuit´e de ψ. On en d´eduit que
hµk, ψi → hµ, ψi. ⊓⊔
1.4 Autres distances et interpr´ etation probabiliste
Remarque 1.18 Il faut faire attention avec la distancedMK,∞ puisque dMK,∞
(1− 1
n)δ0+1 nδa, δ0
=a
et pourtant(1−1
n)δ0+ 1
nδa ⇀ δ0. Les r´esultats suivants sont ´enonc´es dans [L1]
µn, µ≥κ >0, µn ⇀ µ =⇒ dMK,∞(µn, µ)→0, µ∗ρδ >0∀δ >0, µn ⇀ µ =⇒ dMK,∞(µn, µ)→0, µ∗ρδ >0 sur suppµ∀δ >0, dist(suppµn,suppµ)→0, µn ⇀ µ =⇒ dMK,∞(µn, µ)→0.
Remarque 1.19 Dans P(Q)la d´efinition de dLP devient dLP(µ, ν) = inf{ε >0, ∃π∈Π(µ, ν)
Z
E×E
1|x−y|>επ(dx, dy)< ε}.
Remarque 1.20 On peut ´egalement d´efinir la distance de Zolotarev par Zr(µ, ν) := sup
ϕ∈Λr
Z
R
ϕ d(µ−ν),
pourr >1 o`u Λr est l’espace des fonctions hold´eriennes d’exposantr telles que[ϕ]ℓ ≤1 o`u ℓ est le plus grand entier strictement inf´erieur `ar(ℓ= [r]sir /∈Netℓ=r−1 sir∈N). La propri´et´e remarquable de cette distance est
(Wr)r≤CrZr.
Remarque 1.21 Soit Ωun espace de probabilit´e assez grand de sorte qu’il existe des va X et Y (ind´ependantes) et de loiµet ν pour toutµ, ν∈P(Q). Il est usuel de d´efinir les distances dMK,p
etdLP par leur ”interpr´etation probabiliste”
dMK,p(µ, ν) = inf{(E[|Y −X|p])1/p, loi deX=µ, loi deY =ν}
et
dLP(µ, ν) = inf{ε >0; ∃(X, Y); loi deX =µ, loi deY =ν etP(|Y −X|> ε)< ε}.
On remarque alors que les probl`emes d’optimisation suivants sont ´equivalents inf{E[|Y −X|2])} = inf{E(X2) +E(Y2)−2E(XY)}
⇔ supE(XY) ⇔ maximiser la cor´elation de X, Y.
Ainsi pour r´ealiser la distance W2(µ, ν) par une paire de va (X, Y) le pire des choix est de les prendre ind´ependantes, ce qui correspond au plan de transportπ=µ⊗ν.