Calcul pratique de la distance de Prokhorov

(1)

Statistique et analyse des données

B ÊRNARD -B ÊRTRAND G ÂREL

Calcul pratique de la distance de Prokhorov

Statistique et analyse des données, tome 6, n^o3 (1981), p. 35-46

<http://www.numdam.org/item?id=SAD_1981__6_3_35_0>

L’accès aux archives de la revue « Statistique et analyse des données » implique l’accord avec les conditions générales d’utilisation (http://www.numdam.org/conditions). Toute utilisation commer- ciale ou impression systématique est constitutive d’une infraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.

Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques

http://www.numdam.org/

(2)

.35.

„ istique et Analyse des données 981 - 3 - pp.'34-45

CALCUL PRATIQUE DE LA DISTANCE DE PROKHOROV Bernard - Bertrand GAREL

Faculté des Sciences et des Techniques B.P. 1 1 0 4 - 7 3 0 1 1 CHAMBERY Cedex

Laboratoire IMAG associé au C.N.R.S. (L.A.7) B.P. 53 - 38041 GRENOBLE Cedex

Résumé : Pour calculer la distance de Prokhorov U(P^Q) entre deux probabilités P et Q; on construit deux suites de probabilités (P ) et {Q ) à support fini qui convergent étroitement vers P et Q. Puis on approche II (P>Q) par Jl(P

S

Q ) •

Abstract : P and Q being any two probabilitieSj it seerns to be very difficult to calculate tkeir exact Prokhorov distance JKPjQ). So we approximate this dis- tance 1KP.Q) bu the Prokhorov distance U(P

3

Q ) betueen P and Q where (P ) and

J

^ ri* n n n n

(Q ) are two séquences of probabilities on finite sets which converge weakly towards P and Q respectively.

Mots clés : distance de Prokhorov^ convergence étroite^ programmation linéaire^

algorithme de Ford et Fulkerson.

0 - INTRODUCTION..

Il est admis que le calcul exact de la distance de Prokhorov entre deux probabilités n'est pas chose tacile ; ce qui restreint son utilisation pour des applications.

C'est en 1956 que Prokhorov [6] a introduit cette distance sur l'ensemble M (S) des mesures sur S et qu'il a montré l'équivalence entre la convergence étroi- te et la convergence au sens de cette distance. Elle a été alors utilisée pour étudier des vitesses de convergence- En 1965, Strassen [ 9] a démontré une équi- valence importante de la définition ce qui a permis à Hampel [5] de l'utiliser pour une notion qualitative de robustesse. Plus récemment des liens entre dis- tances entre probabilités et distances entre variables aléatoires ont été établis (cf [11], [10] ) .

(3)

Nous rappelons ici la définition de cette distance dans un cadre général, ainsi que les variantes connues.

Soit (S, d) un espace métrique séparable et complet ; 8(5) sa tribu des boréliens. Soit A un sous ensemble non vide de S. On définit respectivement Ae = {s e S/ 3a eA avec d(s,A)<e) et A£ = 1s £ S/ } a eA avec d(s,A) < e } .

L'ensemble A est ouvert, alors que A " est fermé. Soient P et Q deux probabilités définies sur (S, B[S)). La distance de Prokhorov (cf [6]) est définie par

(1) ÏÏ(P,Q) = inf{e/V A fermé, P(A)<Q(AE) + z) .

Si l'on pose e(A) = inf {ot/P(A) < Q(Aa) + a } , on peut écrire (cf [ 7 ] , et Cil] )

(2) IUP,Q) = sup {e(A)/A fermé}

Si l'on pose B(a) = inf {3/V A ferme P(A) ^ Q(Aa) + g}

on peut écrire (cf.[2] et [83) (3) n(P,Q) - inf{a/B(a) <a} .

Dans les expression* ci-dessus il est possible de remplacer A par A et V A e r m e

par V A € 8(5) sans changer la valeur de II(PfQ) .(cf [2J ou [ 4 ] ) .

La distance de Prokhorov n'est pas invariante par transformation linéaire. Dans un certain nombre de cas, il est possible de calculer sa valeur exacte (cf [ 4 ] , [7] ) . Mais il n'existait pas à notre connaissance un procédé général. C'est pourquoi, nous proposons la méthode suivante. Soient P et Q deux probabilité quel- conques. Nous allons construire deux suites (P ) et Q ) de probabilités à support fini qui convergent étroitement vers P et Q. Puis nous allons calculer II (P ,0 ) pour n suffisamment grand. Ce qui nous donnera une valeur approchée de II(P,Q).

Ce qui suppose d:une part de pouvoir construire (P ) respectivement (Q ) en ayant à chaque instant une information sur II(P , P) (resp. II(Q , Q ) ) . Puis de pouvoir calculer la distance de Prokhorov pour deux lois à supports finis.

Dans une première partie nous allons exposer la résolution théorique de cette méthode et la construction de l'algorithme. La seconde partie sera consacrée à la mise en oeuvre de la méthode et aux exemples.

I - RESOLUTION THEORIQUE DU CALCUL APPROCHE

Nous allons supposer dans ce qui suit que S = fR. Mais la méthode peut s'appli- quer à tout espace métrique séparable et complet. Soient P et Q deux probabilités sur ( IR, JB( IR)). Les constructions de la suite (P ) et l'information sur H(P ,P) nous sont données par le lemme suivant :

4 Lemme (cf Ç 6 3 ) . Soit P une probabilité définie sur (IR, J5( IR)). Soit <j> une fonction mesurable de IR dans IR. Soient ô > 0 et H = (x/|(J>(x) - x| < 6 } . Si P(H) 2: 1 - e alors II(P, P ) < max(£,ô) où P, est la probabilité image de P par ¢.

(4)

.37,

Soit n un entier positif donné. On peut trouver un intervalle fermé borné K ^ |R.

tel que max(P( IR -Kn) , Q( IR - Kn) ) < l/2n.

Soient k . et k les extrémités de cet intervalle et l = k - k . sa lon-

m m max m a x m±n

gpeur- On divise K en [n.£] + 1 = m+1 intervalles disjoints, où [ .] représente la partie entière. Posons 1. = [k . + (j - l)/n, k . + j/n [ j = 1,... ,m

r j min min

I = [ k . + m / n , k ] . S o i t a l o r s X. l e m i l i e u de l ' i n t e r v a l l e I . pour

m+1 min max J J J = I m e t X - = X + - .

7 m+1 m n On définit la fonction <j> par :

V X e I. , (J) (x) = X. j = I,...,m+1 V X e IR - Kⁿ , d>n(x) = Xm + ! .

II est clair que <J> est mesurable et qu'en appliquant le lemme 4 on obtient : 5 Corollaire : Soit P (resp. Q ) la mesure image de P (resp. Q) par <J>n. Alors ÏÏ(P, Pn) < l/2n (resp. II(Q,Qn) < l/2n).

Le problème se résume maintenant au calcul de n ( Pn, (^). Pour y arriver nous utilisons la variante (3) de la définition (1). Soit S^ = {*j>•••>xm+]1• P o u r

8 c S posons Br a = B*J n S . Pour 0 ^ a < 1 donné, il faut tout d'abord calculer B(cO = inf (B/V B € j6(IR), PR(B) < Qn( ^3) + B>.

Posons Pn(xi) = p^^ Q n ^ i1 = qi

|x. - x.i < a

d, . =

sinon pour i,j = l,...,m+l

r i si

^

=

L 0 sir

ément de IR ( m + de composantes (u.)._. + ] »(v.). , 2 <m+ H i 1-J ».-.»mT J J J '»

linéaire définie sur IR ' par W(u,v) = E ( p ^ + qivi)

On notera (u,v) un élément de IR de composantes 1 " ^ ^ % # - # sin+] > ^vj ' j = i,.. ,m+l Soit W(u,v) la forme

6 Lemme (cf [8]) : On a les égalités suivantes

a (a) - inf (B/VB c S

n

, P

n

(B) < Q

n

( ^ f ) + B }

= 1 - Min Ç (p.u- + q.v.)

•m 1 i I X

sous les contraintes : u. > 0 v. S 0 "J ,^^

V i,j i^+Vj > d ^

v. 5: 0 *)

3 }

Indications. : la prenière égalité nous dit simplement qu'on peut se restreindre au support de P et Q . La deuxième égalité est nettement plus importante. On

montre tout d'abord que pour obtenir le minimum de la forme linéaire W sous les contraintes (7) on peut se restreindre aux valeurs de W sur les sommets du cube unité situés dans la zone des contraintes. On construit alors une partition de cet ensemble. Puis on prend le minimum en deux temps : sur chaque élément de la partition. Puis sur l'ensemble des minimums obtenus (cf [ 4 ] ) . On écrit alors la

(5)

valeur de W(u^tv) sous forme d'une différence de probabilités de deux sous- ensembles de S ) .

n

1 otJ En raison de l'espacement des X. de — l'application a • ^ n ^ n ^ e S t c o n s"

tante par morceaux et a des sauts pour des a de la forme — , k « l,...,m. On donne

r n

à a de telles valeurs. Cepandant pour des gains de temps calcul, il est nécessaire de restreindre davantage le champ des valeurs possibles de a. On le fait grâce aux inégalités suivantes : si P et Q sont deux probabilités quelconques et A un Boré- lien donné :

(8) £(A) < ÏÏ(P,Q) < sup |P(A) - Q(A)|

Aej&

On donnera donc à a des valeurs k/n telles que 0 < e(B) < k/n < sup JP (B) - 0 (B)| < 1

BcS n

n

Le minimum de Z(p.u. + q.v.) s'obtient sur ordinateur grâce à l'algorithme de Ford ^{î i} ^{'i î} et Fulkerson(cf [3 3) qui recherche le flot maximum noté F (a) qui peut entrer

w£,max

dans un réseau de conduits. Les caractéristiques de cet algorithme sont décrites en II ci dessous. D'après le lemme 6 on a B(a) « 1 - F«max (a). On cherche alors inf {a/B(a)^ a}. Grâce au programme on trouve :

a - - min{a/a de la forme — tel que B(oO ^ ot}

m m n a = max{a/a de la forme — tel que B(ot) > a}

max n

Alors en remarquant que B(oi) est une fonction décroissante de a, on peut conclure que

(9) inf { a/B(a) ^ a (sans restriction)} = min [a . ; B(ot )î âur la forme des a m i n max Les graphes (10) montrent les deux cas possibles

P;

0

1 ^ l i

T JCJ

X x x '

s • % •

S 1 I I y

« W ^ ' N ^ ^ ^{Aw^ft/A}

Graphes 10

(6)

On peut enfin majorer l'erreur d'estimation grâce aux inégalités n(Pn,Qn) - n(Pn,p) - n(Qn,Q) < n(p,Q) < n(p,Pn) + n ( Pn, on) + n(Qn,Q)

(il) soit |ÏÏ(P,Q) - n(Pⁿ,oⁿ)| < l/n

II - EXEMPLES ET MISE EN OEUVRE

Ie) Soient P et Q les probabilités sur [R définies par f(x) = e"^X. W I J R + U ) et g(x) = \ e"^x/2. fl^+U)

Appelions a le point d'intersection des deux courbes. Alors il est clair que Sup|P(A) - Q(A)| = P[0,a] - Q[0,a] = 0,25. D'autre part on peut calculer faci- lement e [ 0 , a ] ^ 0,202. On a donc, d'après (8) : 0,202 < II(P,Q) < 0,25.

Nous avons choisi n = 100. Alors K = [0; 10,597J ce qui nous donne m+1 = 1060, n

I = [10,59; 10,597] et x _,_. = 10,595. Les probabilités P^ et Q sont définies m+1 m+1 n n

sur un ensemble de 1060 points ; chaque point étant équidistant des deux points qui l'entourent à une distance de 1/100. Le calcul de

i / n

e dx pour i = 1,. .. ,m (i-l)/n

est effectué en double précision, puis multiplié par 2 , produit dont on ne garde 34 que la partie entière et que l'on pose = p. de façon à n'avoir pour p^ que des valeurs entières. 2 représente le plus grand nombre entier qu'il est possible d1

entrer dans l'ordinateur. Nous procéderons de la même manière pour le calcul des q.. La somme des erreurs d'arrondis est dans les deux cas inférieure.à 4 x 10 —8 et n'a aucune influence sur la précision du résultat. Elle a été reportée sur x

p , ainsi que fVï^cft-, e"Xdx. Le calcul de B(a) est effectué en quelques secondes

*m+l n J 10,597 par l'ordinateur.

/

(7)

Pour expliquer les modalités de ce calcul, construisons le graphe suivant

Sur les arcs de ce graphe nous faisons circuler des flots bornés sur chaque arcs par le nombre indiqué entre parenthèse. Montrons que le flot maximum entre

S et P prend pour valeur min E(p.u. + q.v.) sous les contraintes u.>0, v.>0

£ î î i î i * i

Ui + Vi ~ dj..où d.. > 0. En effet le dual de ce problème est

•j J j

i

maximiser E d..x..

i,j iJ iJ

sous les contraintes : E d..x.. £ q. ; E d..x.. < D . i !J 1J J 4 1J 1J *1 x. . > 0

Nous avons d.. - 1 si |i—j J < na d^. = 0 si J i-j| > na

Si d.. = 0, on peut supprimer la variable x.. correspondante.

D'où (D) s'écrit :

f

maximiser E x . .

|i-j| < na et £ x.. S q.

où x.. > 0

|i-j| s na

E x.. < p.

j 1J *

|i-j| ^ na

problème que décrit le graphe ci-dessus si x.. est la valeur du flot allant de X. à Y.,

i a

La c a p a c i t é maximum de l ' a x e S,X. exprime que E x . . £ p . . La c a p a c i t é maxi

fi-Jl

11 x

îmum na

de lfaxe Y..P exprime que E x. . < q.

|i-jl £ na

Pour trouver le flot maximum, on utilise l'algorithme de Ford et Fulkerson (cf[3]

(8)

.41.

qui est suffisamment connu pour que nous n'en fassions qufun descriptif sommaire dans le cas qui nous intéresse. On appelle sommet insaturé : un sommet X. tel que la somme des flots sortants est strictement inférieure, à p.. ou un sommet Y, tel que la somme des flots entrants est strictement inférieure à q.. A chaque itération on cherche une suite d'arcs partant d'un sommet insaturé X pour aller à un sommet

insaturé Y. Cette suite d'arcs est alternée ; les arcs parcourus dans le sens con- traire à l'orientation (du coté Y vers le coté X) doivent porter un flot non nul.

Si une telle suite existe on peut augmenter le flot total. La valeur de 1' augmentation est entière puisqu'obtenue par somme ou soustraction d'entier*» Ceci permet de borner aisément le nombre d'itérations, car le flot maximum est borné par E p, soit 2 . Le nombre d'itérations est en réalité bien inférieur, 34

i x

Au lieu de partir d'un flot nul, il est avantageux de partir d'un flot aussi grand que possible et ce flot nous est fourni par/ï, min(p.ftq.)*

1=1 i* i

On relie cette valeur à l'inégalité (8) de la façon suivante : d'après le lemme 6 et l'inégalité (8)

£max (a) - 1 - B(a) > 1 - sup |P(B) - Q (B)

B n n

= 1 - E(p.-q.) où J ={i/p. > q.}

J2={i/p. < q.}

= (1 - E p ^ + Eqi = Epi + Eqi J i «J | o *•* i

= E min(p q.)

i i i-

Le tableau ci-dessous résume les caractéristiques de notre exemple et les résultats du programme.

Sup|P(A) - Q(A)| = 0,25. Pour x = 1,590182 e( [0,x ] = 0,203888

A ô o n = 100 m+1 = 1060 K = [0; 10,597]

n

a •*

max

«m m

a

.19 .20 .21 .22

F w ^(a)

0,79326 0,79532 0,79735 0,79937

B(à)

0,20614 0,20468 0,20265 0,20063

n

<

^P

n'V

0,20468

(9)

2°) Prenons un deuxième exemple. Dans ce qui suit P et Q sont des lois W(0,a) avec a £ 1. Notons tout d'abord qu'il serait vain d'espérer utiliser la symétrie des densités pour réduire l'étude à Çt . Appelons en effet P

+

et Q

+

la restriction de telles lois à IR et P et Q~ leurs restrictions à lïT. Soient a>0 et en

tel que

P

+

( C O , a ] ) ^ Q

+

( CO,a+

e i

[ ) +

£ l

donc P"( C-a,0]) S Q'(]-a-ei,0]) + Ei alors

P( C-a,+a3) = P

+

**( C0,a]) + P~( [-a,0] < Q*[0,a+**

e i

: + (f [-a-e!,0] + 2e

x

**= Q( C-a,+a f* + 2ei!**

Soient P et Q deux lois normales centrées de variances respectives a\, o\ avec Oi > o

2

. Appelons t

Q

le point d'intersection d'abscisse > 0 des graphes des densi-

tés. Il est facile de voir que

Sun |P(A) - Q ( A ) | = P( [-t

0

, t

0

C ) - Q ( C-t

0

, t

0

C ) et que to nous est fourni par :

^ 4 -

C

xp{- j £ } . , ^ „,

(

**- £ £ ) «* gl _ eKpffi^ - iç)}**

L

° S 7 T

soit t

0

=

ll9

^

l/Oi - \/o\

Si l'on appelle $ la fonction / -^=- e dx qui tabule la loi normale on a : P( C-t

0 i

t

0

E ) - Q( C-t

0

, t

0

C) = 2 [¢(-5-) - * ( ^ ) ] . Si l'on cherche e( [-t

0

, t

0

C)

to tn+G 1 2

on a à résoudre 2$(--H.) - 2 $ ( — ~ — ) « e soit une équation de la forme ¥(e) = e avec l - e

2

¥'(e) = — e qui justifie l'obtention d'une solution par une méthode itérative.

Le tableau 23 nous donne les valeurs numériques des inégalités (8).

Nous avons alors alternativement choisi n = 10 et n = 50. L'intervalle k est n symétrique par rapport à l'origine et nous donnons au tableau la valeur k . On a

^ max alors divisé k en 2( [n.k ] + l) intervalles. On a reporté f^in f(

x

) dx sur p

0

n max • ' —«

et J f (x) dx sur P

2 m +

2 *

C e s

valeurs ainsi que /^ f (x) dx sont calculées

max i~l/n par l'ordinateur au moyen de la formule d'approximation polynomiale (cf [l3). Le

programme a tourné avec des valeurs entières comme dans le cas II l°). Les résul-

tats sont consignes au tableau l A et nous avons pu tracer la courbe I

^e

».

(10)

.43.

o A G o

- H 4-»

CJ 0) CO Vi 0>

u

c

00

o

o <U 4J T3

CM

£3

H <

ES M

g

3É3

en

O U

<

M

GO

u

3 s

bO

-ifc

60

o

( j j

«! o

c +

o

C M O O v O m m o O O N ^ O N — v O * d " O N O N v D — * m O N ~ < t O CM CO *3" m sO \0 vO r^ r**

O m

CM CM

r^ oo m oo oo

CM CM

in co

— co

O N ON

m

O N CM ON

O

ON

m

ON

o

ON

vO

ON

X|CM 0>

— CM n

es

4J

+

O*

CO

C

O CO O p,

CO

O 53

PL,

w <

o-

5

PU

CO D

CO 0>

i — i

n)

co o « m O N *— co m vo ^- <î CM in co

CM *N oo —• co -^- m r^ oo oo o** ON ON O N

CM — O

o m ON vO vO v O ON ON O N

O vO 00 CM 00 CM o co

CM r- co r*-*

00 00

<f in

CM — O

~ — ^D r^. <r ON

<r O N CM

vo vO r^

ON O O C O

co t^ — r-. ON <t m r^ C7N

r^. r^ r^

<t vO CM CM ON CM ON m r^

O co m

ON —

— CO

r^ o o ON ON CM

co

O N O N

m <f oo m ON ON

in o m

o — —

CM CM CM

CO m vO oo

(11)

c

ad

w

< H

§

LO to

U to Ci to

<

H -J

CO

S

cd PU

I M Cû.

P*4

(D co co •

•H X CJ co co S .o co

w

< CO

H

v O p-*

ON ON

co m

p*-

o

ON

o r^ CM

m vo oo m ON <f v? —< vo in \o v o ^{v D}_vo

oo co o m^ON o

CM ON <j-

ON —• <r vo^{P^} p-*

vO CM 00 co

vo m

— O N

<3- co vo

p^

ON ON

co

CM

m m

ON

co

ON <J- fv.

p^ vo o O co r^

—^{ON ON} m <r <r

P^ O N

\0 p«- C O C O O N P^

<* m o m

v D

m

v©

vO CM

P**

v O O N

X vO

CM 00

<r

v O

r- m m ^ o oo vo tn

v O v D

co co o m^ON o

CM ON <!•

ON — <J-

v o r^ r^

O o

<r oo <r

— v O CM

co -d* o oo o o in vo vo

oo —

«^ CM -* ON O 00 vO -^-

vO CO vO O

m co

ON CM

O co co vo o m

- m O

CM m vo <r

CM ro

ON

co

co oo ro —*

o m oo co co co

ON

co

m CM

m <a-

<r o co co

P^ O N o O N

o m oo m

CM CM

ON

CO O ^ON co

o ^ON

-3"

o m ^ON O m

vo m vo m ⁰⁰m

o

vO vO vO vO vO

ON vO

00 00

m

co

p ^ 00 o

co

o

00 00 00

vD CM P** co

o vo vo o

VD ON CM m co oo ^O^{P^ ON}

CM ~ ~

o =

co

o m o

in

o o — m

m

o o o m — m

vo r^. r =

o o o m — ~

oo ON o

(12)

.45,

COURBE 15

Approximation de la distance de Prokhorov entre P *k W(0tI) et Q ^ N(0,o) en fonction de G.

Sup P(A)-Q(A)|

A '

Q75

T T ( P n , Q n )

050 0,25

Oy.

V ri

4 6 S

(13)

Remargue : pour n - 10, a = 3 le flot maximum est obtenu en 26 itérations et le calcul a nécessité 1,94 secondes.

Pour n = 50, O = 3 le flot maximum est obtenu en 125 itérations et le calcul a nécessité 29,94 secondes.

15_E§5?§ï3!iÊ : ^a m^se *en oeuvre de l'algorithme de Ford et Fulkerson n'impose nullement que les points x , ...,x chargés par P soient les mêmes que ceux chargés par Q , ni que les nombres de ces points soient identiques. Le descriptif précédent qui convient particulièrement lorsque P et Q ont des densités de même support, pourra être modifié lorsque les supports sont disjoints ou que l'une au moins des deux lois est discrète. En particulier, lorsque P et Q sont des lois

sur des ensembles finis quelconques, l'algorithme de Ford et Fulkerson permet de calculer la valeur exacte de leur distance et Prokhorov.

Merci à C. LACOTE et B. VAN CUTSEM pour leur aide durant de ce travail.

BIBLIOGRAPHIE

[1 ] ABRAMOWITZ et STEGUM; Handbook of mathematical functions - National bureau of Standards (1970)

[2] DUDLEY R. : A.M.S. vol 39, n°5, 1968, p. 1563-72

[3] FORD et FULKERSON (Algorithme de ) : dans SIMONNARD, programmation linéaire Dunod (1962)

[4] GAREL B.B. : la distance de Prokhorov. Rapport de recherche laboratoire I.M.A.G. (1982.) Sera expédié à toute personne qui en fera la demande.

[5] HAMPEL F.R.;A.M.S. vol. 42, n° 6, 1971, p. 1887-96

[6] PROKHOROV Y. : Theory of Prob. and its Appl. I n° 2, 1956, p. 157-214

[7] REY W.J. ; Draf ç of robust and quasi robust methods ; communication personnelle [8] SCHAY G. : Annals of probability, vol 2, n° I, 1974 p. 163-6.

[9] STRASSEN V. : A;M.S., n° 36, (1965) p. 423-39

[10] SZULGA A. : On minimal metrics in the space of randon variables 13th E.M.S.

WROCLAW.

[11] ZOLOTAREV V. : Theory of prob. ant its Appl. XX, n° 4, 1975, p. 819-32.

Calcul pratique de la distance de Prokhorov

Statistique et analyse des données

B ERNARD -B ERTRAND G AREL