• Aucun résultat trouvé

Monte Carlo Methods and stochastic approximations

N/A
N/A
Protected

Academic year: 2021

Partager "Monte Carlo Methods and stochastic approximations"

Copied!
130
0
0

Texte intégral

(1)

HAL Id: pastel-00001269

https://pastel.archives-ouvertes.fr/pastel-00001269

Submitted on 3 Jun 2005

HAL is a multi-disciplinary open access

archive for the deposit and dissemination of

sci-entific research documents, whether they are

pub-lished or not. The documents may come from

teaching and research institutions in France or

abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est

destinée au dépôt et à la diffusion de documents

scientifiques de niveau recherche, publiés ou non,

émanant des établissements d’enseignement et de

recherche français ou étrangers, des laboratoires

publics ou privés.

Bouhari Arouna

To cite this version:

Bouhari Arouna. Monte Carlo Methods and stochastic approximations. Mathematics [math]. Ecole

des Ponts ParisTech, 2004. English. �pastel-00001269�

(2)

Specialite : PROBABILIT 

ES APPLIQU

 EES

Presentee par Bouhari AROUNA

Pour obtenir le grade de Docteur de l'



Ecole Nationale des Ponts et

Chaussees

Sujet de la these:

Algorithmes Stochastiques et Methodes de

Monte Carlo

Soutenue le 15 Decembre 2004 devant le jury compose de :

Mr Gilles PAGES (President, Professeur Universite Paris VI)

Mr Bernard LAPEYRE (directeur de these, Professeur ENPC)

Mr Denis TALAY (rapporteur, Directeur de Recherche INRIA)

Mr Jean LACROIX (rapporteur, Professeur Universite Paris VI)

Mr Damien LAMBERTON(examinateur, Professeur Universite MLV)

(3)
(4)
(5)
(6)

C'estune vieilletraditionque de remercieraudebut d'un teltravailtous ceux qui,de

loinoude pres, directementouindirectement,ont contribuealerendre possible. c'est

avec mon enthousiasme le plus vif et le plus sincere que je voudrais rendre merite a

tous ceux qui a leur maniere m'ontaidea mener abien cette these.

Jedesire exprimer maprofonde gratitude:

AuProfesseur etamiBernard LAPEYREpour avoiracceptede mesuperviserdurant

cestroisdernieresannees, pour sadisponibiliteetsagenerositeexceptionnellesetpour

sonsoutienconstantpendantlaredactionde cettethese. Aucoursde son exerciseala

directionducermics,ilasucreeruneambianceformidableetgeneratriced'inspirations.

Au Professeur Gilles PAG



ES qui m'a honore en acceptant d'^etre President du jury

de ma these et plus particulierement pour son cours intitule \Martingales et

Algo-rithmes Stochastiques" du D.E.A. \Analyse et Systemes Aleatoires" de l'Universite

de Marne-La-Vallee qui a constituer ma toute premiere experience avec cette notion

mathematiquequi prends de plus en plus d'importance dans lesapplications.

AuxProfesseurs DenisTALAY etJean LACROIX pour avoiracceptelacharge d'^etre

Rapporteurs de ma these. Merci a Denis TALAY pour son inter^et pour mon travail

de these. La semaine que j'ai passee a son invitation, dans son equipe de Sophia

Antipolis a ete, pour moi, extr^emement enrichissante. Merci a Jean LACROIX pour

avoir accepte, sans hesitation cette t^ache, alors m^eme que nos chemins ne s'etaient

jamaiscroises auparavant.

AuProfesseurDamienLAMBERTON etauDocteurStephane TYCquim'onthonore

(7)

Damien pour toutes ses remarques, ses suggestions et ses conseils amicaux, cela m'a

beaucoup encourage;je dismerci al'homme,mais aussia l'enseignant qu'ilaetepour

moi.

Stephane de m'avoiracceptedans son equipe de recherche en nance quantitative ala

BNPPARIBASalors m^eme que je n'avaispas encoresoutenuma these: merci.

Jetiens aremerciertous lesmembres de l'equipeProbabilitesAppliqueesdu Cermics,

notammentJean-FrancoisDELMAS,BenjaminJOURDAIN,JeromeLELONG,Nicola

MORENI, Aurelien ALFONSI, Christophe CHORRO, Julien GUYON, Ralph LA

VI-OLETTE et Antonino ZANETTE, pour leur gentillesse et les discussions stimulantes

quenous avons eues durant ces trois dernieres annees.

Je tiens egalement a remercier tous les autres membres du cermics: Alexandre ERN,

Linda EL ALAOUI, Laetitia ANDRIEU, Kengy BARTY, Jean Philippe

CHANCE-LIER,GuyCOHEN,EricCANCES,YousraGATI,ClaudeLEBRIS,FredericLEGOLL,

Tony LELIEVRE, Francois LODIER ainsi que tous les autres dont je n'ai pas cite le

nom icipour leur ouverture d'espritet leur gentillesse. Nos parties de petanque entre

\thesards" memanquerons beaucoup.

Ce ne serait pas tout a fait correct de ma part de nir sans adresser mes plus vifs

remerciementsaSylvieBERTEetKhadijaELOUALI,lesdeux secretairesdu Cermics

pour m'avoir supporter pendant ces trois annees. Leur t^ache est immense et leur

presence est rassurante pour nous, m^eme si nous ne le leur disons pas souvent. Avec

du recul, je vous dischapeau mesdames.

Je dois un grand merci a tous mes amis, et en particulier a Latyr MBODJ, pour

avoir accepte de relire certaines parties de cette these, durant ses week ends et a sa

compagne Josiane ZOUNGRANA d'avoir supporte, avec souplesse, cette situationou

illui consacre forcement un peu moins de temps.

Je ne pourrais jamais oublier le soutien et l'aide des membres de ma nombreuse et

merveilleuse famille. Et que dire a ma chere et tendre moitie, Emilie NABEDE, elle

qui m'a toujours supporte contre vents et marrees, sinon un sobre et simple merci

(8)

1 Rappels Mathematiques 19

1.1 Contenu du chapitre . . . 19

1.2 Presentation de la methode de Montecarlo . . . 19

1.3 Resultats de Convergence . . . 20

1.3.1 Loi Forte des Grands Nombres et methode de Monte Carlo . . . 20

1.3.2 Theoreme CentralLimite et methode de MonteCarlo . . . 20

1.3.3 Estimation statistiquede l'erreur" n . . . 21

1.4 Martingales etTheoremes limites . . . 23

1.4.1 De nitionet Proprietes . . . 23

1.4.2 Theoremes Limites . . . 23

1.5 AlgorithmesStochastiqueset Projection a la Chen. . . 25

1.5.1 Presentation generale . . . 26

1.5.2 Le cas ou lepas ( n ) n0 decroit vers 0 . . . 28

1.5.3 Methode de Projection ala \Chen" . . . 29

1.5.4 Methode de Projection xe. . . 31

1.5.5 Le cas des AlgorithmesStochastiques a gain constant . . . 32

1.5.6 Methode de Lyapounov pour lesEDO . . . 33

1.5.7 Un resultat general de convergence faible . . . 34

1.6 Deux Lemmes d'Analyse . . . 37

1.7 Exemple d'Options en nance . . . 37

2 Fonctionsd'Importance etApproximationsStochastiques en Finance 39 2.1 Introduction . . . 39

2.2 Cadres mathematique et nancier . . . 40

2.3 Fonction d'Importance . . . 41

2.4 Une procedurede Reduction de Variance . . . 45

2.5 Tests numeriques . . . 48

(9)

2.5.3 Une comparaison avec la methode GHS . . . 58

2.5.4 Modeles a volatilitestochastique. . . 61

2.6 Remarques etpremieres conclusions . . . 63

3 Methode de Monte Carlo Adaptative 65 3.1 Introduction . . . 65

3.2 Motivations . . . 65

3.3 Principaux Resultats . . . 67

3.4 Une procedurede minimisationde variance . . . 72

3.4.1 Applications nancieres . . . 74

3.4.2 Un exemple en abilite . . . 76

3.5 Illustrations numeriques . . . 80

3.5.1 Le modelede Black et Scholes . . . 80

3.5.2 Le modelede Heston . . . 83

3.5.3 Le modelede Cox Ingersoll etRoss . . . 85

3.5.4 L'exemple de la abilite . . . 87

3.6 Quelques remarques pratiques . . . 88

3.7 Methodes de reduction de variancedes Algorithmes Stochastiques . . . 90

3.7.1 Methode des Variables Antithetiques et Fonction d'Importance pour lesobservations . . . 92

3.8 Reduction de Varianceet AlgorithmesStochastiques again constant . . 95

3.8.1 Cadre gaussien . . . 95

3.8.2 Procedure de reduction de variance . . . 97

3.9 Illustration Numerique . . . 98

4 Variance reduction as entropy minimization 105 4.1 Introduction . . . 105

4.2 The ImportanceSamplingparadigm. . . 106

4.3 Variancereduction asentropy minimization . . . 108

4.3.1  2 minimization . . . 108

4.3.2 Kullback-Leiblerminimization . . . 109

4.3.3 Comparison between these distances . . . 111

4.3.4 Delta computation . . . 111

4.4 The Variance Reduction Procedure . . . 112

4.4.1 The MartingaleMonteCarlo Algorithm . . . 113

4.4.2 A stochastic approximation scheme tolearn the optimal drift. . 115

4.4.3 Summary . . . 117

(10)

4.5.2 European Call. . . 118

4.5.3 Asian Call . . . 119

4.5.4 European Basket Call . . . 120

(11)
(12)
(13)
(14)

Introduction

Lebut de ce travail de these est de proposer des techniques de reduction de variance,

facilementimplementables,pour lesmethodes de MonteCarlo. Notre approche sefait

en deux etapes:

 La parametrisationde la loide simulationa travers un changement de tendance

(drift),

 L'utilisation des Algorithmes Stochastiques pour estimer le parametre de drift

optimal.

Nous avons d'abord developpe une implementation sequentielle de la methode, suivie

ensuite d'une implementation adaptative. Cette derniere technique sort du cadre

habitueldesapplications des methodes de MonteCarlo. Nousavons ainsiete amenea

mettreen place eta demontrer des resultats theoriques de convergence qui de nissent

lecadre precis de l'utilisationde cette methode de reduction de variance adaptative.

Voici schematiquement comment se presente les deux approches sequentielle et

adap-tative. Lorsque l'on cherche a calculerlaquantite

E['(X)];

une simulation Monte Carlo s'avere souvent ^etre la seule methode ayant un facteur

\gain/co^ut(tempsde calcul)"raisonnable. C'estlecas, parexemple, lorsqueX est un

vecteuraleatoirede tresgrandedimension (>10). Sil'ondispose d'unerepresentation

parametriquede l'esperance sous laforme:

E[ '(X)] =E[g(;X)]; 2R

d ;

ilest alors natureld'essayer d'identi er un parametreoptimal



quiminimisel'erreur

statistiqueou lavariance

E[g

2

(;X)] E['(X)]

2

del'estimation. LesAlgorithmes(ouApproximations)Stochastiquesde typeRobbins{

Monro sont bien adaptes pour ce type d'optimisation stochastique. Ils permettent

d'obtenir une estimation asympt^otique du parametre 



. Il suÆt ensuite d'utiliser la

LoiForte des Grands Nombres pour estimerl'esperancerecherchee par

1 N N X n=1 g(  ;X n ); ou(X n ) nN

(15)

suite( n

) n0

qui converge presque s^urement vers 



, l'on peut utiliser l'approximation

non standard suivante

E['(X)] ' 1 N N X n=1 g( n 1 ;X n ):

NousobtenonsegalementunTheoremedelaLimiteCentraleetunresultatd'estimation

delavarianceempiriquepourcetteapproximationetdevelopponsainsiunemethodologie

MonteCarlononstandard

1

. Notonsqu'ilestpossiblededemontrerunresultatdetype

Berry Essen pour cette methode de Monte Carlo non standard.

Presentation du Resultat Adaptatif

On veut calculer a l'aide d'une methode de Monte Carlo la quantite E[ '(X)], pour

une fonction (eventuellement vectorielle) ' : R

d

! R suÆsamment integrable et un

vecteur aleatoired dimensionnel X de ni sur un espace probabilise donne (;F;P).

On suppose qu'il existe une transformation

g :R

q

R

d

!R; q1

suÆsamment integrabletelle que:

(A) E[g(;X)]=E['(X)]; 8  2R d : Soit   un point donne de R q et ( n ) n0

une suite de vecteurs aleatoires de nie sur

(;F;P)etconvergeantpresques^urementvers



. Onmontresousdeshypothesesassez

faiblesquesi (X

n )

n0

est une suite de vecteurs aleatoires independants identiquement

distribues selon laloi de X alors:

levecteur aleatoire

S N  = 1 N N X n=1 g( n 1 ;X n )

converge presque s ^urement, quand N tend vers l'in nie, vers l'esperance recherchee

E[ g(



;X)]=E['(X)]:

Sous lesm^emes hypotheses, on montre qu'un theoreme de la limite centrale existe:

1

ledomained'applicationprincipal desresultatstheoriquesdecetravailestla nancenumerique.

(16)

p N[S N E['(X)]] L ! N!+1 N(0; 2 ); avec  2

une matrice de variance-covariance qu'on peut expliciter en fonction de 

 .

Sous des hypotheseslegerement renforcees, on montre l'existence d'intervalles de

con- ance empiriques pour ce theoremede la limite centrale.

Cesresultats,quisontexposesdansleChapitre3,sontalabasedenotremethodologie

d'estimationMonteCarlodanslaquellelavarianceempiriquedel'estimationestreduite

dynamiquement aucours des iterations MonteCarlo.

Mise en uvre de la Methode

L'exemple du cas Gaussien

En nance l'implementation du prix d'une option peut le plus ouvent se ramener au

calcul de E['(X)] ou ' est la fonction de payo de l'option et X = (X

1 ;:::;X d )  N(0;I d

) est un vecteur Gaussien standard. I

d

designe la matrice identite de R

d

. Un

simplechangement de variableentraine l'egalite

E['(X)] =E[g(;X)]; avec g(;x)='(x+)e x 1 2 kk 2 ; 2R d ;

oukxkrepresentelanormeEuclidienned'unvecteurxappartenantaR

d

etxydesigne

leproduitscalairede deuxvecteurs x;y2R

d . OnnoteV()=E[g 2 (;X)] E['(X)] 2 .

On montre sans diÆculteparticulere que si

la fonction de payo '(X) est non nulle et suÆsamment integrable alors la fonction

V() est di erentiableet possede un unique minimum 

 ,

unique solutiondu probleme de recherche du zero du gradient de V

rV()=0:

Acausedelaforme\exponentielle"derV(),l'algorithmedeRobbins{Monroclassique

ne permet pas de resoudre directement cette equation. Pour cela nous utilisons une

methode de projection aleatoire de l'algorithme de Robbins-Monro d^ue a Chen et

Zhu (1986). En exploitant cette methode, on a montre que sous la seule condition

d'integrabilitede lafonction de payo :

(17)

on peut choisir une version ( n

) n0

de l'algorithmede Robbins-Monro convenablement

tronque par la methode de Chen et Zhu qui converge presque s ^urement vers l'unique

racine 



du problemerV()=0, 2R

d .

L'algorithmede Robbins{Monro projetepar cettemethode de Chen est presentedans

lechapitre 1 etle resultat ci-dessus est expose dans leChapitre 2.

Dansce Chapitrenotre motivationaensuiteeted'illustrersur desexemples tiresde la

nance l'inter^etnumerique de l'approximation

E['(X)] ' 1 N N X n=1 g(  ;X n );

encomparantsavarianceestimeeetsonco^ut(entempsdecalcul)acelled'unemethode

deMonteCarlostandardetacelledelamethodedesfonctionsd'importancede

Glasser-man, Heidelberger et Shahabuddin (1999). Ce Chapitre fait l'objet d'un article paru

dans larevue \The Journal of Computational Finance".

Dansle Chapitre 3 nousetudions l'approximation Monte Carlonon standard

E['(X)]' 1 N N X n=1 g( n 1 ;X n ):

Dans la premiere partie de ce chapitre, nous utilisons les algorithmes de Robbins{

Monro a pas decroissant pour developper une methode de Monte Carlo adaptative.

Dans cette methode, la variance est reduite au fur et a mesure des iterations Monte

Carlo pour nalement donnerun estimateur de varianceminimale en un certainsens.

Cettepartiedu Chapitre3 aconstitueun articlepubliedansla revue \Monte Carlo

Methods and Applications".

Dans la deuxieme partie de ce chapitre, nous reprenons les methodes developpees au

chapitre2, en lesadaptant auxalgorithmes stochastiques a pas constants >0 (mais

petits). Lapremiereremarqueafaireest quecesalgorithmesneconvergentpaspresque

s ^urementvers 



maisconvergent enloivers unvecteuraleatoirequ'onpeutecriresous

laforme G=  + p g;

avec g un vecteur gaussien centre. Ainsi la loi du vecteur G se concentre autour de

(18)

(moralement)lefaitqu'on puisseutiliserune realisationdelaloistationnairedes

algo-rithmesstochastiquesapasconstantsalaplacede 



danslesproceduresde reduction

de variance.

Dans le Chapitre 4, nous considerons le probleme de reduction de variance sous un

angledi erent: celuide laminimisation de l'entropie relativeentre une certaine

prob-abilite optimaleet une familleparametrique de probabilites obtenue par le Theoreme

de Girsanov. Nous montrons que ce point de vue conduit (en univers discret) a la

minimisationde la fonction suivante:

V()=E  '(X)  1 2 kk 2 X  ;  2 R d :

Il est clair que cela revientau m^eme de chercher le zero

^

, de lafonction

rV()=E['(X)( X)];  2 R

d :

A cause de la disparition du terme e

X+ 1 2

kk 2

Ce dernier probleme est de loin plus

facilea resoudre que larecherche de zero de la fonction

rV()=E[( X)' 2 (X)e X+ 1 2 kk 2 ]: Manifestementon a ^  = E['(X)] E[X'(X) ]

etl'on peut ainsi simuler

^

 directement.

Mais cette maniere de proceder ne permet pas de mettre en place une methode de

reductionde varianceadaptative. Nousavons doncutilisede nouveau des algorithmes

stochastiques pour estimer

^

. Et nous avons surtout remarque que le parametre

^ 

permettait de construire un estimateur convergeant et consistant du delta de l'option

dont lepayo est '(). Cette possibilitequ'al'algorithmede fournirune estimationde

lacouverture delta

2

de l'option est particulierementinteressante.

2

(19)
(20)

Rappels Mathematiques

1.1 Contenu du chapitre

Dansce chapitrenouspresentonscertainsresultatsetoutilstheoriquesbienconnusqui

nous seront utiles tout au long de cette these. Nous commencons, dans les sections 1

et2, avec une breve presentation des grandes lignes de la methode de Monte Carlo et

les resultats de convergence classique qui de nissent son cadre d'utilisation. Dans la

section 3 nous rappelons les theoremes limites pour martingales que nous utiliserons

dansleschapitressuivants. Parlasuitenousintroduisonslesalgorithmesstochastiques

sous leur formegenerale suivi par des resultats de convergence que nous commentons.

Pour nirnous presentons latechnique de projection xe etlatechnique de projection

aleatoire de Chen qui sont utilisees dans les applications pratiques des algorithmes

stochastiques.

1.2 Presentation de la methode de Monte carlo

Le recours aux methodes de Monte Carlo est tres courant chaque fois que l'on est

confronte au calcul de certaines quantites moyennes. Apres avoir mis ces dernieres

sousformed'esperances, ilreste acalculerdes quantitesde laformeE[ '(X)],ouX est

un vecteur aleatoire et ' une fonction de nie sur R

d

. Pour pouvoir faire ce calcul, il

convientde savoirsimuler une suite (X

n

; n1) de variablesaleatoiresindependantes

selon laloi de X.

Surleplaninformatique,onramenelasimulationd'uneloiarbitraireacelled'unesuite

(21)

approximealors E[ '(X)] par S N = 1 N ['(X 1 )++'(X N )]:

C'est leprincipe des methodes de Monte Carlo.

1.3 Resultats de Convergence

Nous presentons brievement iciles di erents resultats de convergence qui constituent

en pratique la mise en uvre des methodes de Monte carlo. Ces resultats se trouvent

dans tous lestraitesclassiques de probabilite.

1.3.1 Loi Forte des Grands Nombres et methode de Monte

Carlo

Theoreme .1. Si on suppose que E[k'(X)k] < +1 et qu'on dispose d'une suite

(X n

; n 1) de copies independantesde X alors, avec probabilite 1 on a :

lim n!+1 1 n ['(X 1 )++'(X n )]=E['(X)]:

Dansla plupartdes cas ondispose d'uneestimation

" n =E['(X)] 1 n ['(X 1 )++'(X n )] de l'erreurde convergence.

1.3.2 Theoreme Central Limite et methode de Monte Carlo

Theoreme .2. Si on suppose que E[k'(X)k

2 ] <+1 et si on note  2 la variance de '(X), alors : p n  " n

converge en loi vers G;

Getant une variable aleatoire suivant une loi normale centree reduite.

Uneconsequence (entre autres)de ce theoreme est que pour tout a<b :

lim n!+1 P   p n a" n   p n b  = Z b e x 2 2 dx p 2 :

(22)

En pratique une facon standard de mesurer l'erreur de convergence d'une methode

de Monte Carlo est de donner soit l'ecart-type

 p n

de "

n

soit de donner un intervalle

auquelappartientleresultatrecherche avec une con ance(par exemple)de 95%. Cela

conduit,etantdonne que

P(jGj 1:96)'0:95;



al'intervallede con ance suivant:

 S N 1:96  p N ; S N +1:96  p N  :

1.3.3 Estimation statistique de l'erreur "

n

Les considerations precedentes prouvent que l'eÆcacite (ou la abilite des resultats)

d'une methode de Monte Carlo depend de l'ordre de grandeur de la variance 

2 de

la variable aleatoire dont on veut estimer la moyenne. On reprend les notations

precedentes. On rappellequel'objectif est d'evaluer:

c=E['(X)]:

SoitX

1

;X

2

;::: des realisationsindependantes de laloide X. D'apreslaLoiFortedes

GrandsNombres onpeut approcher c par ^cdonne par:

S N = 1 N N X n=1 '(X n );

pour N \suÆsamment grand". Toujours d'apres la Loi Forte des Grands Nombres et

dans le cadre des hypotheses du Theoreme Central Limite, il est bien connu que la

quantite ^  2 = 1 N 1 N X n=1 ('(X n ) S N ) 2

estunestimateursansbiaisdelavariance

2

,appeleevarianceempiriquedel'echantillon.

Onpeut alorsobtenirunintervalledecon anceapproche(par exemple)a95%en

rem-placant dans l'intervalle de con ance fourni par le Theoreme Central Limite  par

^   S N 2 ^  p N ; S N +2 ^  p N  :

(23)

 elle auto-estime son erreur d'approximation (sans pratiquement aucun calcul

supplementaire),

 elle ne depend pas de laregularitede lafonction ',

 et surtout, elle est \presque" insensible ala dimension d du probleme.

Son inconvenient principalest:

 sa vitesse de convergence assez faible(de l'ordre de

C p

N

avec C >0).

Amelioration de la methode de Monte Carlo standard

Pourameliorerlaconvergenced'unemethode deMontecarlo,l'onpeut soitaugmenter

le nombre total de simulations N soit reduire la variance 

2

. Si l'on opte pour une

augmentation de N, pour obtenir une precision supplementaire d'un point l'on doit

multiplier le nombre total de simulations par un facteur de 100 (ce qui devient tres

vite irrealisable compte tenu de la limitation de la puissance des machines). Si l'on

optepourune reductiondelavaleur de,unereductiond'unfacteurde 10signi epar

exemple que le nombre total de simulations requises pour obtenir le m^eme degre de

precision(que pourlamethodedans laquelle n'a pasete reduit)doit ^etre diviserpar

100. C'est ce qui justi e la tres grande importance qui est accordee aux techniques,

dites de reduction de variance, qui cherchent a diminuer la valeur de . Il existe une

grandevarietedecestechniquessouventalafoissimpleseteÆcaces,maisdontlechoix

est speci que auprobleme traite. Lesplus connues (et aussi lesplus classiques) sont

 La technique des variablesde contr^ole,

 La technique des variablesantithetiques,

 La methode de strati cation,

 La methode de conditionnementet

 La methode des fonctions d'importance.

Laderniere methode appelee encore methode d'echantillonnage preferentielconsiste a

ecrire E['(X)]=E  '(Y)f(Y)  f(Y)  ;

ou X et Y ont respectivement les densites f(x)dx et



f(y)dy. Si l'on pose

~

f(Y) =

'(Y)f(Y)=



f(Y), onaura ameliore lamethode de Monte Carlo standard si

(24)

Lesmethodes dereductiondevariancequenousdevelopponsdanscettethese, utilisent

une version parametrique de la technique d'echantillonnage preferentiel. Pour plus de

detail sur les autres methodes de reduction de variance nous citons entre autres les

livres [LPS98] et [MAD02].

1.4 Martingales et Theoremes limites

Apres avoir de ni la notion de martingale, nous exposons brievement dans cette

sec-tion quelques resultats probabilistes importants sur les martingales. Plusieurs livres

fondamentaux exposent en detail, ces notions. Nous citons entre autres les livres de

Williams[WIL95] (pour une initiation),de Neveu [NEV72]et de Hall-Heyde[HH80].

1.4.1 De nition et Proprietes

De nition .1. Soit (M

n )

n0

une suite de variables aleatoiresadaptee aune ltration

(F n ) n0 . On ditque (M n ) n0

est une martingalepar rapporta(F

n ) n0 si pour toutn 0,p:s:: E(M n+1 =F n )=M n :

Remarque .1. Intuitivement, une martingale est une suite aleatoire qui a tendance a

rester constante en moyenne.

Remarque .2. On rappellequ'une esperance conditionnellen'etant de nie que presque

s^urement, toutes les relations ou apparaissent des esperances conditionnelles sont des

relations presque s^ures (p.s. en abrege). Ainsi, m^eme quand on en fera pas mention

explicitement, ellesera sous-entendue.

1.4.2 Theoremes Limites

Le theoreme suivant qui nous sera utile dans la suite est relatif a la convergence des

martingales de puissance a integrable avec 1  a  2. On peut notamment trouver

une preuvede ce theoreme dans le livrede Hallet Heydecite plus haut.

Theoreme .3. Soit(M

n )

n0

unemartingalevectoriellede puissancea integrableavec

1a 2 par rapport a une ltration (F

n ) n0 . Notons n =E(kM n+1 M n k a =F n )<+1; et S n = 0 ++ n :

(25)

1. Sur l'evenementfS 1 <1g, M n !M 1 o u M 1

estune variablealeatoire nie.

2. Sur l'evenement fS

1

=1g on a une loi des grands nombres,

M n S n p:s: !0: Remarque .3. Lorsque a = 2, (S n 1 ) n1

est le processus croissant ou crochet oblique

associealamartingale de carreintegrable(M

n ) n0 etl'on notehMi n =S n 1 . Dansce cas n =E kM n+1 M n k 2 =F n  =E kM n+1 k 2 =F n  kM n k 2 :

Remarque.4. Lapartie1)dutheoremeestleTheoremedeChowclassique. Lapartie2)

en resulte en considerantla nouvellemartingale (martingale transformee de (M

n ) n0 ) N n = n X k=1 (M k M k 1 )=(S k 1 b(lnS k 1 )) 1=a ;

ou b est une fonction veri ant

R +1 1

(1=b(t))dt < +1, et en lui appliquant le resultat

de lapartie 1)et leLemme de Kronecker(que nous rappelons a la n de ce chapitre).

Theoreme .4. Soit (M

n )

n0

une martingale (vectorielle) par rapport a une ltr

a-tion (F

n )

n0

, de carre integrable pour laquelle il existe une suite positive deterministe

(v n

) n0

croissant vers +1 tel que son processus crochet h M i

n veri e: (1) h M i n v n P ! n  2 avec  2

une matrice carree de nie positive;

alors on a la loi forte des grands nombres suivante

M n v n p:s: ! n 0:

Si de plus la condition de Lindberg est veri ee:

(2) 8">0; 1 v n n X k=1 E  kM k M k 1 k 2 1 fkM k M k 1 k" p v k g =F k 1  P ! n 0; alors: M n p v n L ! n N(0; 2 ):

(26)

1.5 Algorithmes Stochastiques et Projection a la

Chen

Il n'est pas necessaire de rappeler ici tous les domaines des sciences appliquees dans

lesquels peuvent intervenir les algorithmes stochastiques. Cela va du calcul

proba-biliste des structures (Mecanique) a l'etude des reseaux de neurones en passant par

l'automatique,l'economieouencorelachimie. L'utilisationde cesalgorithmesdansles

problemesde la nance numeriqueest peudeveloppee. Larecherche des points ouune

fonction reelle V atteint ses minima (avec sa transposition en recherche des maxima

pour la fonction V) argminV =  x; V(x)=inf y fV(y)g  ;

estunproblemetrescourantqu'onramenesouventaceluidelarecherchedel'ensemble

des points ouune fonction h s'annule

h 1

(0) =fx;h(x)=0g;

avec h=rV,legradient de V. Le caractere stochastiquedes procedures de recherche

de zero de hprovient souvent de ce que

 ou bien lesfonctions h et V ne sont observables qu'a des perturbations pres,

 ou bien h est diÆcile a expliciter, mais on sait facilement simuler une quantite

aleatoire quilui est proche \en moyenne".

Il arrive aussi que ce caractere stochastique provienne d'un bruit aleatoire que l'on

utilisepourinterdireal'algorithmedeconvergervers des solutionsaberrantes(minima

locaux, points selles, ...). La forme generale des algorithmes stochastiques pour le

probleme de recherche de zero de h s'ecrit

 n+1 = n n+1 [h( n )+" n+1 ]+ n+1  n+1 : (.1.1)

Lafonctionh est de niesur un ouvert O de R

d

, avaleursdans R

d

. Lespas (ou gains)

de l'algorithme ( n ) n0 et ( n ) n0

sont deux suites deterministes, de nombres reels

strictementpositifsetdecroissants(au senslarge)qu'on peut reglerapriorilibrement.

Lessuites (" n ) n0 et ( n ) n0

sontdes perturbations aleatoiresimposees par le modele.

Par exemple tandis que ("

n )

n0

sera le plus souvent un accroissement de martingale

(i:e: un bruit blanc), (

n )

n0

(27)

NousrenvoyonsauxlivresdeDu oMarie [DUF96]et [DUF97],aceluide Benveniste,

Metivier etPriouret [BMP87], acelui de P ug [PFL96] ouencore aulivretresrecent

de Kushner et Yin [KY03] pour un expose detaille sur le sujet. Il existe egalement

une multitude d'articles sur les proprietes de convergence de tels algorithmes dont on

pourra trouvercertains dans lesreferences bibliographiquesa la n de ce manuscrit.

Dans les cas qui vont nous occuper tout au long de ce travail, l'algorithme considere

pourra toujours semettre sous la forme

 n+1 = n n+1 h( n )+ n+1 " n+1 + n+1 r n+1 ; avec E[" n+1 =F n ] = 0, (F n ) n0

etant une ltration engendree par la suite (

n ) n0 . (r n ) n0

est une suite de termes residuelsqu'il faudra controler.

Dans la suite de cette section, nous presentons plus en detail les algorithmes

stochas-tiques (markovienssur R

d

) et quelques outils permettant l'analyse numerique de leur

comportement entemps longlesresultatsrappelesicinous servironsdanslesprochains

chapitresde cette these.

1.5.1 Presentation generale

On considere une suite de vecteurs aleatoiresde R

d

de nie de facon recursivepar

 0 donne,  n+1 = n n+1 F( n ;X n+1 ); n0: (.1.2)  ( n ) n0

est une suite (decroissante au sens large) de reels positifs , appelee pas

ou gain de l'algorithmestochastique, veri ant

n >0 et X n0 n =+1:  (X n ) n0

est une suite de vecteurs aleatoiresindependants suivant tous la m^eme

loi que X.

 La fonction F()est l'observation de l'algorithme stochastique. C'est un champ

de vecteurs de ni sur R

d R q  a valeurs dans R d et qui veri e 8 2R d ; E[F(;X)]<+1; et  7!F(;) continue dP X p:s:

(28)

estappeleefonctionmoyennedel'algorithme. Lafonctionhestengeneralnumeriquement

diÆciled'acces. Notons quel'on a

E[F( n ;X n+1 )=F n ]=h( n ); (.1.3) avec F n =f 0 ;X i ;0ing. (F n ) n0

est la ltrationproprede (X

n ) n0 (et de  0 ).

On peut reecrire (.1.2) sous laforme

 n+1 = n n+1 h( n )+ n+1 (h( n ) F( n ;X n+1 )); n0: (.1.4) Les termes h( n ) F( n ;X n+1

); n  0 ont une esperance conditionnelle nulle par

rapport a F

n

et sont par ailleurs mesurables par rapport a F

n+1

. Ce sont donc les

accroissements d'une F n martingale (M n ) n0

. Finalement l'algorithme stochastique

(.1.2) s'ecrit  n+1 = n n+1 h( n )+ n+1 M n+1 ; n 0: (.1.5)

Les outils utilises pour etudier cet algorithme di erent selon que le pas (

n )

n0 est

constantou tend vers 0.



n

= >0 :

{ L'algorithme (.1.2) est alors une F

n

cha^nede Markov homogene de

semi-groupede transitionfellerien donnee par

Q

(f)():=E[ f( F(;X))]:

{ Onpeutegalementvoircetalgorithme,via(.1.5),commeunschemad'Euler

de pas de l'equation di erentielle ordinaire associee a lafonction ( h), a

savoir

:

(t)= h((t)) t0; (ODE

h )

auquel l'on a rajoute un bruit M

n+1 .

Dans ce cas, pour suÆsamment petit, le comportement de l'algorithme

sto-chastique (.1.2)est tresproche de celui de lasolutionde (ODE

h ).



n

!0 :

{ Il s'agit alors d'une cha^ne de Markov inhomogene, dont la transition a la

date n est donnee par

E[f( n+1 )=F n ]=Q f( n ):

(29)

{ Ou, via (.1.5), le voir comme un schema d'Euler a pas \decroissant" et

perturbede (ODE

h ).

Dans ce derniercas l'algorithmestochastique(.1.2) permetd'estimer asympt^

oti-quement lasolution de l'equation

h()=0;  2R

d

; (??)

ou h est de nie par (?).

Ilexiste une litteratureabondantesur l'analysenumerique du comportement en temps

long de l'algorithme stochastique (.1.2). Nous allons simplement rappele ici quelques

resultats de convergence qui servirons dans les prochains chapitres. Dans la suite on

utiliseralanotation Y n+1 =F( n ;X n+1 ; n 0. 1.5.2 Le cas ou le pas ( n ) n0 decroit vers 0

L'unedesdiÆcultesdansl'utilisationpratiquedesApproximationsStochastiquesreside

dans lefaitque leurs versions di erentsensiblement d'un domained'applicationsaun

autre. De fait, les criteres theoriques de convergence sont tout aussi nombreux mais

pas toujours evidents a adapter a la situationreelle de l'utilisateur. On peut trouver

une demonstrationdu theoreme ci-dessous dans [DUF97].

Theoreme .5. Sous les hypotheses suivantes

(H 1 ) 9   2R d ; h(  )=0; 8 2R d 6=  ; (   )h()>0; (.1.6) (H 2 ) X n n =+1 et X n 2 n <+1; (.1.7) (H 3 ) 9 C >0; E[kY n+1 k 2 =F n ]<C(1+k n k 2 ) p:s:; (.1.8) l'algorithme (.1.2) ( n ) n0

converge presque s ^urement vers 

 .

Remarque .5. Un point interessant a noter est que la convergence de la suite (

n )

n0

ne depend pas de lavaleur initiale

0 .

Remarque .6. Pour une presentation tres succinte des algorithmes stochastiques, l'on

peut consulter [MD02]. Pour une etude plus appronfondie l'on se reportera par

ex-emple ades livres generaux comme [PFL96], [BMP87], [DUF97] ou [DUF96]. Pour

des discussions plus specialisees il existe une multitude d'articles comme par exemple

(30)

Remarque .7. De toutes leshypotheses du theoreme .5, (H 3

) est de loincelle qui pose

le plus de diÆculte. L'hypothese (H

1

) est ce qu'on appelle une condition de type

Lyapounov. Elle traduit une force de rappel et assure la stabilite de (ODE

h

). Nous

reviendrons plus en detail sur cettenotion plus tard.

Dansle theoreme ci-dessus, si onremplace lacondition (H

3 )par (H 4 ) +1 X n=0 2 n+1 E[kY n+1 k 2 =F n ]c<+1 p:s:; (.1.9)

leresultat reste inchange(voir [BLL86]).

1.5.3 Methode de Projection a la \Chen"

Enpratiqueil est diÆcilede montrer queces conditions sontveri ees commel'illustre

l'exempleunidimensionnel tressimple suivant (emprunte a [CHE02])

F(;x)= ( 10) 3 avec n = 1 n :

Il est clair que dans ce cas l'hypothese (H

3

) du theoreme .5 n'est pas satisfaite. De

plus iln'est pas evident de montrer que (H

4

)est veri ee.

D'ailleurs quelques iterationsdonnent apartir de la valeur initiale 

0 =0  1 =1000;  2 = 485148500;  3 '3:810 25 ;

suggerant du m^eme coup que l'algorithme(dans ce cas) diverge tresrapidement,et la

necessite d'avoirune hypothese d'un type (H

3

)ou (H

4

) mentione ci-dessus. Toutefois

lorsqu'onchoisitlavaleurinitiale

0

del'algorithmede faconquej

0

10j<1,alorsce

dernierconvergeverslasolutionduproblemequiest manifestement



=10. Chen

ob-serveaproposde cet exemplequechoisir lavaleurinitiale

0

dansun voisinageproche

de 10, est en un sens equivalent a considerer les iterations de l'algorithme (

n )

n0  a

partird'un certainrang n

0

. On comprendbien queladiÆcultereside dans lechoixde

ce rang n

0

. Pour contourner le probleme, Chen H-F. (1986) propose une methode de

projections aleatoiresde l'agorithme. La methode est la suivante:

D'abord on generalise l'hypothese de Lyapounov (H

1 ) (H 5 ) 9   2R d ; 9 V :R d

!R; deux fois contin^umentdi erentiable tels que,

V(  )=0; lim kxk!1 V(x)=+1;et8 6=  V()>0; h()rV()>0:

(31)

Remarque .8. A partirde cettehypothese onretrouve ene et(H 1 )avec lafonctionde Lyapounov V()= 1 2 k   k 2 .

Ensuite,onchoisit deux vecteurs distincts

1

et 

2

de R

d

et on xeun reelM >0tels

que max(V( 1 );V( 2 ))<min(M;inf(V();kk>M)): (.1.10)

Remarque .9. Une fois 

1

6= 

2

xes, le choix de M est toujours possible puisque

lim kxk!1

V(x)=+1.

Finalementonconsidere unesuite quelconque(U

n )

n

de reels positifsstrictement

crois-sante, tendant vers l'in ni avec U

0

>> M (dans leur article, les auteurs choisisent

U 0

 M +8 pour les besoins techniques de la preuve qu'ils donnent de leur principal

resultat),pour n 0et 

0

donne, onde nit par recurrence

 n+1 = (  n n+1 Y n+1 si k n n+1 Y n+1 kU (n) ;   n sinon (.1.11) avec (n)= n 1 X k=0 1 fk k k +1 Y k +1 k>U (k ) g ; (0)=0; (.1.12) et   n = (  1 si (n) est pair;  2 si (n) est impair: (.1.13)

Voici comment on peut interpreter cette technique de projection. Alors que (n)

designe le nombre de projections e ectuees aucours des n premieres iterations, U

(n)

represente lataillemaximaleque ne doit pas depasser l'algorithmeauboutde (n+1)

iterations. En e et on voit de (.1.11) que si l'estime de rang (n +1) calculer par

l'algorithme de Robbins{Monro reste dans la sphere fermee de rayon aleatoire U

(n)

alors ilevolue exactementcomme un algorithme de RM classique (.1.2). Par contre si

( n n+1 Y n+1

)sort de cette regionalors l'estimealadate (n+1)est reinitialiseaun

point xedans lepasse, et lalimite de projection est dilatee de U

(n) 

a U

(n)+1

. Dans

cettemethode, onn'imposepas al'algorithme

n

d'^etre aprioriborne. C'estd'ailleurs

letrait le plus remarquable de cette methode de projection d^ue Chen.

Remarque .10. Il fautnoter au passageque l'algorithme(.1.11) peut prendre laforme

(.1.1), avec n =  n , " n+1 = h( n ) Y n+1 et  n+1 = (   n  n + n+1 Y n+1 )1 f k n n+1 Y n+1 k>U (n) g

(32)

Theoreme .6. Supposons que l'hypothese (H 5

) est veri ee. Si la condition suivante

est satisfaite (H 6 ) lim n!+1 n+1 k n 1 X i=0 M i+1 k=0 p:s:; (.1.14)

alors l'algorithme de Robbins-Monro tronque par la methode de Chen (.1.11) converge

presque s ^urement vers 



et le nombre de projections 

n

est presque s ^urement borne.

Ce resultatsera utilisedans le prochain chapitre.

1.5.4 Methode de Projection xe

Comme on l'avu dans l'exemple de la section precedente les iterations d'algorithmes

stochastiques peuvent exploser tres vite. Cela peut provenir d'un mauvais choix de

la structure de l'algorithme dans la modelisation d'un phenomene physique (reel) ou

tout simplement d'un artefact numerique. Un aspect important des applications des

algorithmes stochastiques concerne donc l'attitude a adopter lorsque les valeurs des

iterations deviennent trop grandes. Le probleme est qu'il n'existe pas de procedure

universelle permettant de resoudre ce genre de situation. Neanmoins dans la plupart

dessituationspratiques,lesproblemes rencontrespossedent, enrealite,des bornes

im-plicites (contraintes physiques ou economiques). Il convient alors, en cas de valeurs

excessives, de tronquer les iterations de l'algorithme. Il faut mentionner d'ailleurs

quem^eme dans lecas oul'on a demontrequ'un algorithmestochastique (non borne a

priori)convergefortement,ilesttrescourantquepourcertainsjeuxdeparametres,ses

iterationssuccessivesexplosentnumeriquement. Engeneral,dansl'etudemathematique

de ces algorithmes, on remplace les hypotheses de \bornitudes des iterations

suc-cessives" par diverses hypotheses de stabilite. Alors evidemment cela aboutit a des

developpements mathematiques compliques (beaucoup plus compliques que dans le

cas borne) et interessants (sur le plan de la theorie, voir par exemple, [PAG03]),

mais en pratique, cela n'emp^eche pas de devoir tronquer les iterations successives de

l'algorithmelorsqu'il s'agit de le mettre en uvre numeriquement.

SoitK un compact nonvidede R

d . Unalgorithme stochastique ( n ) n0 projete sur K

sera de ni recursivement par ladonnee de 

0 2 K et par  n+1 = K ( n n+1 Y n+1 ): (.1.15)

On peut reecrire cet algorithme sous la forme

(33)

ou(Z n

) n1

est untermedecorrectionoudeprojectionsurK. Enfaisantappara^treles

observations moyennes h( n ) = E[Y n+1 =F n ], avec F n = fY k ;k ng cet algorithme

luim^eme peut ^etre reecrit sous la forme

 n+1 = n + n+1 h( n )+ n+1 " n+1 + n+1 Z n+1 ; (.1.17) ou " n+1 = Y n+1 + h( n

). Le resultat de convergence suivant sera utilise dans le

Chapitre 3et est d^u aBernard Delyon 2000 (voir[DEL00]).

Theoreme .7. Si  lim n!+1 P n i=1 i " i <+1 et lim n!+1 kZ n k=0; p:s:  Il existe   2 Æ K et une fonction V : R d !R + , convexe, de classe C 1 tels que lim kxk!+1 V(x)=+1; V(  )=0 et rV()h()>0;8 6=  ;

alors l'algorithmestochastiqueprojete(

n )

n0

convergepresques ^urementvers

 .

1.5.5 Le cas des Algorithmes Stochastiques a gain constant

Toute cette partie constitue un condense de resultats connus. Pour la coherence de

notreexpose, ilnous asembleimportantde faireun rappelsommairede ces resultats.

Ils sontessentiellement tires du livrede Kushner et Yin(2003 [KY03]).

Nousavons vu a lasection 1.5.1 que lesalgorithmes a pas constants s'ecrivaient

 n+1 = n h( n )+ " n+1 ; n 0;  0 = 0 ; (.1.18) avec h( n ) =E  Y n+1 =F n  , Y n+1 l'observation de l'algorithmeet " n+1 =h( n ) Y n+1 .

Lorsquelepas >0estsuÆsammentpetit, onpeutmontrerquepournassezgrandla

loide

n

ressembleaunegaussiennedemoyenne



etdematricedevariance-covariance

p

,etantunematricede niepositiveindependantede . End'autrestermespour

assez petit, si 

designe lalimite en loi de (.1.18) alors

 L '   + p G; avec GN(0;):

Ainsi moralement lorsque devient petit, la loi de (.1.18) va se concentrer autour de

 

. On rappelleque 



est solutionde l'equation

(34)

On vamontrer que sous des conditions tres simples,  

est aussi limite d'une solution

de l'equationdi erentielle ordinaire(EDO en abrege)

: (t)= h((t)); (0)= 0 : (EDO h )

La technique la plus couramment utilisee pour etudier la stabilite des solutions des

EDO est lamethode de Lyapounov.

1.5.6 Methode de Lyapounov pour les EDO

Nouscommencons par lade nitiondes fonctionsde Lyapounov

De nition .2. Unefonction V : R

d

!R

+

est dite de Lyapounov sielle est convexe,

de classe C

1

,et veri e lim

kxk!+1

V(x)=+1.

Leprincipede lamethodede Lyapounovest lesuivant(onpeut serepportera[LL61]).

Soit h une fonction de R

d

dans lui m^eme et () une solution de l'EDO (.1.19). On

suppose qu'ilexiste une fonctionde Lyapounov V telle que:

(A4:1) 9 ^ ; 2 R d V( ^ )=0 et V()>086= ^ : et (A4:2) rV(x)h(x)>0 8x 2 R d f ^ g: Pour  >0 sion pose 

=fx; V(x)g alors ilest clair que

d dt [V((t))]=rV((t)) : (t) = rV((t))h((t)) := k((t)) 0 8t0;

etla fonctiont 7!V((t)) est decroissante, d'ou lapropositionsuivante

Proposition 1.5.1. Soit () une solution de l'EDO (.1.19) de condition initiale 

0 .

Sous les hypotheses(A4:1) et (A4:2), on a

(35)

Maintenant commela fonction V est positive ona V((0))V((0)) V((t)) = Z t 0 d dt [V((s))]ds = Z t 0 k((s))ds:

L'applicationx7!k(x)etant ellem^eme positive (et continue), ona

0 Z +1 0 k((t))dtV((0))<+1; et lim t!+1 k((t))=0:

Ce qui donnela propositionsuivante

Proposition 1.5.2. Soit () une solution de l'EDO (.1.19) de condition initiale 

0 .

Sous les hypotheses (A4:1) et (A4:2), si lim

t

(t) designe une valeur d'adherence de

((t)) t0 , alors lim t (t) 2fx 2  ; k(x)=0g;

>0etantchoisi tel que (0) 2

 .

Remarque .11. Sila fonction k est seulement mesurable mais est telle que

8Æ >0;9">0 t:q: jxjÆ )k(x)";

alors laconclusion de laproposition1.5.2 est encorevraie.

Remarque .12. La methode de Lyapounov pour la stabilite des EDO fonctionne bien

lorsque la fonction k s'annuleen des points isoles. Lorsque ce n'est le cas, il convient

d'utiliserun resultatappeleTheoremed'invariance de LaSalle(voir[LL61]) pour s'en

sortir. Dans tous les cas que nous allons rencontrer, la fonction k s'annule en un seul

etunique point note 



etce probleme ne se pose donc pas.

Maintenant nous allons de revisiter un resultat de convergence des algorithmes

sto-chastiques a pas constant. En fait nous nous contenterons de de nir le cadre et de

presenter un premierresultat de convergence.

1.5.7 Un resultat general de convergence faible

Le resultat de convergence que nous enoncons ici est tire de [KY03]. On considere

l'algorithmestochastique projete suivant:

 n+1 = K ( n Y n+1 ); n0;  0 2 K; (.1.20) d

(36)

 Soit un hypercube fermede R d ,  Soit K =fx; q i (x)0; i=1;:::pgoup1 pour i=1;:::p,q i

()est une

fonc-tion reelle de classe C

1 de nie sur R d telle que rq i (x)6=0 siq i (x)=0.

Lesecondcas generaliselepremieretestl'exemplelepluscourammentrencontredans

lesapplications.

Remarque .13. Dans le second cas, il est clair que K est une sous-variete, connexe,

compact etnon vide de R

d .

Les q

i

sont alors ce qu'on appelle les contraintes de l'algorithme. Une contrainte q

i

est dite active en un point x si q

i

(x) = 0. On pose A(x) = fi;q

i

(x)=0g l'ensemble

des indicesdes contraintes activesen x, eton noteC(x) lec^one convexe engendrepar

fy; y=rq

i

(x); i 2 A(x)gl'ensemble des normalesexterieurs en x.

Sionsuppose que pour chaque xtel queA(x)6=;, l'ensemblefrq

i

(x); i 2 A(x)gest

un systeme libre (au sens vectoriel du terme) alors on peut montrer que C(x) = f0g

en tout point x 2 K telque q

i

(x)6=0.

Remarque.14. IlestfaciledevoirquesiK estuneboulefermeedeR

d

alorsC(x)=f0g

en tout point x 2

Æ

K appartenant a l'interieurde K.

On peut toujours reecrire l'algorithme(.1.20) sous la forme

 n+1 = n Y n+1 + Z n+1 ;  0 2 K; (.1.21) ou (Z n ) n1

est un terme de correction ou de projection sur K. On pose F

n = f k ; Y k

; kng latribuengendree par

k

etY

k

pour k n etonfaitleshypotheses

suivantes: (H 7 ) fY n

; n; g est uniformement integrable.

(H 8

) ilexiste des fonctions h

n

() uniformementcontinues en n et et des vecteurs

aleatoires" n tels que:E  Y n+1 =F n  =h n ( n )+" n+1 . (H 9

) ilexiste une fonction continue

 h() telle que8 2 K lim m;n; 1 m P m+n 1 k=n  h n ()  h ()  =0 (H 10 ) lim m;n; 1 m P m+n 1 k=n E  " k+1 =F n  =0 en moyenne.

(37)

Le symbole lim m;n;

signi e que la limite est consideree pour m;n ! +1 et ! 0 de

quelquefaconquece soit. On de nit lesprocessusinterpolesde l'algorithme(.1.21)de

lamanieresuivante:

D'abord pour t = 0,  (0) =  0 et  (t) =  n

sur l'intervalle de temps [n ; n + [.

EnsuiteZ (0)=0etZ (t)= P [t= ] k=0 Z k

pourt>0. [a]designelapartieentiered'un

reela et par convention une somme sur un ensemble d'indice vide est nulle. Et en n

onde nit de maniere analogue leprocessus Y

().

Letheoreme suivant est prouvedans [KY03](page 248).

Theoreme .8. Sous leshypotheses(H

7 )-(H

10

), pour toute famillecroissante d'entiers

(N

)

>0

,pourtoutesous-suitedef

( N +);Z ( N

+); >0g,ilexisteune

sous-suitequenousnoteronsencoref

( N +); Z ( N +); >0getunprocessus((); Z()) telsque ( ( N +); Z ( N +)) L ! !0 (();Z()); avec (t)=(0)+ Z t 0 h((s))ds+Z(t):

De plus il existe un processus integrable z(t) tel que

Z(t)=

Z t

0

z(s)ds et z(t) 2 C((t));

pour presque tout t et !.

Lorsque K =R

d

(i.e. il n'y a pas de projection), si on fait l'hypothese supplementaire

que la suite (

n )

>0

est tendue alors les conclusions ci-dessus sont encore vraies avec

Z(t)0 8t>0. Remarque .15. Lorsque N = 0; 8 > 0 et  (0) =  0 , le resultat de la convergence

faible du Theoreme .8 ci-dessus nous dit que la trajectoire 

() est tres proche de

la trajectoire de la solution de l'EDO

:

(t) =



h((t));(0) = 

0

avec une probabilite

arbitrairementgrande(uniformementparrapportalaconditioninitiale)quand !0.

Remarque .16. Moyennant quelques hypotheses supplementaires, on peut preciser la

vitessedeconvergencefaibleduTheoreme.8ci-dessus(voir[KY03]page319ou[BMP87]

chap.4). En e et onmontre que si

0 = 0 alors ( n  0 (n )) p L ! !0 N(0;);

 etant une matrice de variance-covariance (ne dependant pas de ) et (

0 (t)) t0 la solutionde l'EDO : (t)= 

(38)

1.6 Deux Lemmes d'Analyse

Nousrappelons simplementicideux lemmeselementaires (maisimportants)d'analyse

quiserons utilisesplus tard.

Lemme .9. (Lemme de Cesaro) Soient (u

n )

n0

une suite convergente et (a

n )

n1

une suite de nombres reelspositifs croissant vers l'in ni. Alors la suite de nie par

c n = 1 a n k=n X k=1 (a k a k 1 )u k ; n1;

converge vers lam^emelimite que (u

n )

n0

Lemme .10. (Lemme de Kronecker) Soient (s

n )

n0

une suite positive croissant

vers l'in ni et (x

n )

n0

une suite reelle. On suppose que la serie de terme general

(x n =s n ) converge. Alors 1 s n k=n X k=1 x k !0:

(voir par exemple [WIL95] p.117)

1.7 Exemple d'Options en nance

Une option est un contrat entre deux ou plusieurs contre-parties portant sur un actif

sous-jacent (par exemple une action, un indice, un panier d'indices, une obligation,le

cours du petrole etc...) et qui donne a une des parties une prerogative sur les autres.

Lesoptionslesplus simplesquiexistentsont leCall(opitond'achat) etlePut (option

de vente) sur une action.

Apriori onpeut envisager un nombre in nid'options (l'imaginationde l'hommeetant

sanslimite!). Nousnouscontenteronsicid'ecriretoutsimplementlepayo decertaines

optionsdont lesoptions utilisees pour des illustrations numeriques dans cette these:

 Un Call (resp: Put) europeen de maturite T est une option sur un sous-jacent

S t

,de prixd'exercise (ou strike) K, garantie, ason detenteur, larichesse

max(S T

K;0) (resp: max(K S

T

(39)

 Un Call asiatique de maturite T et de strike K est un Call standard, mais qui

porte sur la moyenne du cours du sous-jacent S entre 0 etT.

Lorsque lamoyenne est continue larichesse nale est donnee par:

(S t ; t 0)=  1 T Z T 0 S t dt K  +

Alors que qu'elle vaut

(S ti ;i=1:::d)=  1 d d X i=1 S ti K  + ;

lorsque lamoyenne est discrete.

 Un Cap sur un taux d'inter^et r

t

, de maturite T, de taux strike K, aux dates

de paiement t 1 < t 2 < ::: < t n et t n+1

= T sur un nominal de L est une

option qui verse a son detenteur le ux L(r

t i

K) +



a chaque date de paiement

t i+1

; i=0;:::;n. Le payo de ce Cap est lasomme de tous les uxactualises

jusqu'a maturite,c'est-a-dire

L n X i=1 i Y j=1 1 (1+r t j ) h (r t i K) + :

 Un Call barriere sur S de maturite T et de strike K donne a son detenteur le

droit d'acheter S

T

au prix K, a condition que le cours de S soit reste dans un

certain domaineD (optionOUT) ouen soitsortie (optionIN) entre 0etT. Par

exemple, avec une barriere haute (UP) larichesse nale s'ecrit:

I S t U (S T K) + :

Toutes ces options (et bien d'autres encore) peuvent ^etre de type americain: dans ce

(40)

Fonctions d'Importance et

Approximations Stochastiques en

Finance

Ce chapitre est l'objet d'un article paru dans la revue \The Journal of

Computa-tional Finance".

2.1 Introduction

L'usagedessimulationsMonteCarlopour l'estimationdu prixde certainsinstruments

nanciers est apparu en 1977 dans un article de P. Boyle. Aujourd'hui encore les

methodes de Monte Carlo restent tres competitifsdans le pricing etla couverture des

produitsderivesen nance, surtoutsi cesproduits sontcomplexesoutoutsimplement

dependentd'unnombreeleved'actifssous-jacents. L'eÆcacited'unemethodedeMonte

Carloetant liee a la variance statistique de l'estimation, l'on essaye, tant que faire se

peut,d'utiliserdestechniques dereduction devariancepourameliorersaprecision. Le

but de ce chapitre, est de presenter l'une de ces techniques. C'est une methode

nou-vellebaseesuruneformulationsimpledelatechniquedesfonctionsd'importanceetsur

l'usagedesalgorithmesstochastiquesdetypeRobbins-Monro. Lesapproximations

sto-chastiques sont, depuislongtemps, largement utilises dans plusieursdomaines des

sci-ences(voirRubinstein etMelamed [RM98] pour plus dedetails), maisleur apparition

en nance numerique est recente (1998, Vazquez-Abad et Dufresne [VD98]). Newton

(1994[NEW94 ])amontrequ'entheoriedansunproblemede pricingen tempscontinu,

latechnique des fonctions d'importancepeut permettre d'avoir un estimateur de

(41)

enuvrecetteapproche,onutilisedoncdesapproximations(plusoumoinsgrossieres)

du prix pour avoir des approximations du drift optimal. L'approche de Glasserman,

Heidelberger et Shahabuddin (1999 [GHS99a] et [GHS99b]) est di erente: Plut^ot que

de considerer un changement de parametre stochastique (en temps continu), ils

limi-tentleursinvestigationsaunchangementdeparametredeterministe ni-dimensionnel.

De fait cette restriction ne rend plus possible l'obtention d'estimateurs, du prix de

l'option, de variance nulle. Dans le papier que les auteurs ont publie a ce sujet, la

methodologie consiste a exhiber {en utilisant des techniques de Grandes Deviations{

une direction d'echantillonnage preferentiel lelong de laquelle une bonne

approxima-tion de la vraie variance de l'estimateur Monte Carlo est minimale. Vazquez-Abad

et Dufresne (1998 [VD98]) d'une part et Su et Fu (2002 [SF02]) d'autre part sont les

premiersacombinerlatechniquedes fonctionsd'importanceetune approximaton

sto-chastique de type gradientstochastique dans une methode de Monte Carloen nance.

L'approche que nous presentons ici est semblable a chacune des approches ci-dessus.

ToutcommeGlasserman,HeidelbergeretShabuddin(1999)nousutilisonslatechnique

des fonctions d'importance dans un cadre (celui du praticien) ou la simulation des

processus sous-jacents se fait a partir d'une suite de vecteurs gaussiens independants.

Maisnotremethodede recherchedeladirectionoptimaled'echantillonnagepreferentiel

est radicalementdi erente. Ellesembleplus proche des travauxde Su et Fu(2002).

L'idee principale de notre approche est d'utiliserune version convenablement adaptee

desalgorithmesdeRobbins-Monropouroptimiserlechoixdeladirectiond'echantillonnage

preferentiel. Bienquelavitessede convergence decetyped'algorithmessoitengeneral

de l'ordre de C=

p

n, leur implementationest directe ettres facile.

La suite de ce chapitre se decompose comme suit: dans la prochaine section nous

presentons brievement le cadre mathematique et nancier suivie, dans la section 3,

d'une introduction rapide de la technique des fonctions d'importance (basee sur le

theoreme de Girsanov). Dans la section 4,nous presentons une methode de reduction

devariancebasee sur l'utilisationdes algorithmesstochastiquescombinee avec la

tech-niquedesfonctionsd'importance. Cettem^emesectioncontientunepreuveduprincipal

resultattheorique de ce chapitre,supportde lamethodologiequenous exposons ici.

2.2 Cadres mathematique et nancier

Nousmodelisonsleprixd'unactifsous-jacentdirectementsouslamesurerisque-neutre

par l'equationdi erentielle stochastique suivante

dS t =S t (rdt+(t;S t )dW t ); S 0 =x; (.2.1)

avec r le taux d'inter^et sans risque, (t;y) la nappe de volatilite de l'actif, W

t un

(42)

d'arbitrage,dans un marche sans frictions, leprix d'une option de payo  (S

t

;tT)

est donnee par laformule(voir par exemple [LL96])

C 0 =E[e rT  (S t ;tT)]; (.2.2)

ouE designel'esperanceprise sous laprobabiliterisque-neutre.

Remarque.17. L'actifsous-jacentSpeut^etremultidimensionnel. Danscecas, chacune

de ses coordonnees veri e une di usion du type (.2.1) et la formule (.2.2) reste vraie

en general.

En pratique, pour evaluer numeriquement une telle esperance, il faut le plus souvent

discretiser le processus de sous-jacent (S

t )

t0

. Nous nous limiteronsau cas oula

sim-ulationdu processus de sous-jacent est simplement gouvernee par une suite de copies

independantes de la loi gaussienne centree reduite. Ce n'est d'ailleurs pas un cas

particulier puisqu'on peut toujours, par une transformation lineaire, ramener le cas

correle a ce cas. Neanmoins, nous devons garder a l'esprit que lorsqu'une solution de

l'equation di erentielle stochastique (.2.1) n'est pas connue, la simulationde la

di u-sion (S

t )

t0

se fait apres une discretisation par un schema numerique de type schema

d'Euler. Nous admettons donc qu'une telle discretisation existe sur une grille de

temps 0=T 0 <T 1 <<T d

=T, qu'elle est acceptable, etnous nous focalisonssur

l'obtention d'estimateursprecis du prixC

0

. Ainsi nous approximons C

0 par ^ C 0 avec ^ C 0 =E[e rT ^ (S T 1 ;:::;S T d )];

quenous pouvons reecrire comme

^ C 0 =E[ (X)]; (.2.3) ou X = (X 1 ;:::;X d )  N(0;I d ) et I d

est la matrice identite de R

d

. La fonction

peut ^etre explicitee apartir de lafonction de payo

^

etde ladiscretisation de S.

Nous nous interessons maintenant a l'evaluation Monte Carlo de (.2.3) par une

tech-nique de fonctions d'importanceparametrique.

2.3 Fonction d'Importance

Latechniquedesfonctionsd'importanceparametriqueconsistea\shifter"laloideXen

luiajoutant un vecteur  =(

1

;:::;

d

) de R

d

. Par un simple changement de variable

sur R

d

(ou une application d'une version elementaire du theoreme de Girsanov), on

peut reecrire (.2.3)sous laforme

^

(43)

avec g(;X)= (X +)e X 1 2 kk 2 ; (.2.5)

kxk et xy designant respectivement la norme Euclidienne d'un vecteur x 2 R

d et

le produit scalaire usuel de deux vecteurs x;y 2 R

d

. La famille (g(;X))

2R d

est

ainsi une famille parametrique d'estimateurs sans biais de

^ C 0

. L'idee naturelle est

d'essayerd'exhiberd'unetellefamillel'estimateurlepluseÆcace i:e:celuialavariance

la plus petite. Dans leur article [GHS99a] Glasserman Heidelberger et Shahabuddin

developpent une procedure de minimisation de la variance de g(;X) en fonction de

. L'idee est de chercher aeliminerla contributionde la partie lineaire de la fonction

ln( ()) a la formation de la variance totale de l'estimation. Par des techniques de

Grandes Deviations ils montrent que cela revient a faire un echantillonnage lelong de

ladirection

^

 de R

d

solution du probleme de recherche de point xe:

rln ()=;  2R

d

t.q. ()>0:

Cette approche consiste en realite a remplacer le vrai probleme de minimisation

sto-chastiqueparunproblemeapprochedeminimisationdeterministe. Lamethodemarche

bien dans le cas de fonctions de payo assez regulieres et pour lesquelles la partie

lineairede ln( ())est preponderante.

Notre premierobjectif est d'etudierdirectementle vraiproblemede minimisationpar

des methodes stochastiques. Sionnote dans la suite H lafonction donnee par

H()=E[g

2

(;X)];

alors leprobleme a resoudre est lesuivant

min 2R

d

H(): (.2.6)

Le resultat qui suit nous permet de convertir ce probleme de minimsation en un

probleme de recherche de zero d'unefonction.

Proposition2.3.1. SupposonsqueP( (X)>0)6=0. Si E(

2a

(X))<1, avec a>1,

alors H est strictement convexe sur R

d et il existe un unique   2R d tel que H(  )=min 2R d H(): (.2.7)

Remarque .18. En ecrivant les conditions d'optimalite de premier ordre pour H on

s'apercoit que leparametre optimal 



est aussi l'unique solutionde l'equation

rH()=0;  2R

d

(44)

Preuve. Un simplechangement de variablemontre que H()=E h 2 (X +)e 2X kk 2 i =E h 2 (X)e X+ 1 2 kk 2 i : Considerons  2R d

telque kkK avec K >0 . Si onpose

F(;x) =( x) 2 (x)e x+ 1 2 kk 2 ;

alors onobtient sans diÆcultel'inegalite suivante

Z jF(;x)je 1 2 kxk 2 dxe K 2 2 Z (K+kxk)e Kkxk e (1 1 a ) 1 2 kxk 2 2 (x)e 1 2a kxk 2 dx:

Maintenant d'apresl'inegalitede Holder, ona

Z jF(;x)je 1 2 kxk 2 dxe K 2 2 Z (K+kxk) a a 1 e aK a 1 kxk e 1 2 kxk 2 dx  1 1 a   Z 2a (x)e 1 2 kxk 2 dx  1 a : Mais E( 2a

(X)) < 1, entraine que la quantite

R jF(;x)je 1 2 kxk 2 dx est bornee des

que kk  K. D'apres le theoreme de Lebesgue, on en deduit que la fonction H est

di erentiable et que

rH()=E[F(;X)] =E  ( X) 2 (X)e X+ 1 2 kk 2  :

Enreiterantcetteargumentation,onmontresansdiÆculteparticulierequeH estdeux

foiscontin^uement di erentiable etque sa matricehessienne est donnee par

Hess H()=E  I d +( X)( X) T  2 (X)e X+ 1 2 kk 2  ; I d

etant la matriceidentitede R

d

. CommeP( (X)>0)6=0 ona 8 u2R

d

f0g, u

T

designantle vecteur transpose de u,

u T Hess H()u=E  kuk 2 +(u( X)) 2  2 (X)e X+ 1 2 kk 2  >0;

(45)

et la matrice hessienne de H est de nie positive. Ainsi la fonction H est strictement

convexe sur R

d

. Pour terminerla preuve il suÆt de montrer que

lim kk!+1 H()=+1: Maisona H()e 1 2 kk 2 E  2 (X)e kkkXk 1 fkXk< kk 4 g  e 1 4 kk 2 E[ 2 (X)1 fkXk< kk 4 g ]:

Ettoujours parce que P( (X)>0)6=0,on voit que lim

kk!+1

H()=+1:



On aaussi lecorollairesuivant

Corollaire .11. Si h() designe lafonction de nie par

h()=rH();  2R d ; (.2.9) alors on a h(  )=0 et 8 2R d ;   6= h()(   )>0; et lacondition de Lyapounov (H 1

) du Theoreme .5 est veri ee.

Preuve. C'estune application directede laformulede la moyenne etde la

Proposi-tion 2.3.1.

Remarque .19. Plut^ot que de resoudre le vrai probleme (.2.7), l'on peut tres bien

chercher a resoudre leprobleme approche suivant

min 2R d ^ H(); avec ^ H():= 1 N N X i=1 F(;X (i) ); ou N 2 N est tres grand et X (1) ;:::;X (N)

est un echantillonde copies independantes

de X. En e et une fois ces trajectoires X

(i)

generees, le probleme approche devient

unprobleme simpled'optimisationdeterministequ'onpeutresoudre pardes methodes

bienconnuesd'Analysenumerique. CetteapprocheestparticulierementeÆcacelorsque

la loide X est a support ni ou m^eme denombrable. Pour plus de precision la dessus

l'on pourra se reporter a [SH00] etaux references qui s'y trouvent.

Laprincipaleideede cettepartiede notretravailde these consisteaexhiberunebonne

(46)

2.4 Une procedure de Reduction de Variance

D'apreslaProposition(2.3.1)etlaRemarque(.18),ilexiste un unique

 2R d telque h( 

)=0. Ce parametre nous fournitegalement l'estimateurMonte Carlog(



;X)de

varianceminimum de la quantite (.2.3), parmi tous lesestimateurs de m^eme forme.

En general, la fonction h est numeriquement inaccessible m^eme dans les cas les plus

simples. Onavu danslechapitreprecedent qu'unalgorithmestochastique delaforme

(.1.2) peut, dans de tels cas, ^etre utilise pour evaluer asympt^otiquement le parametre

 

.

D'apres le Corollaire .11, l'hypothese (H

1

) du Theoreme .5est veri ee. De plus il est

evident que (H

2

) est veri ee pour une large gamme de pas

n

. Si l'on implemente

directement cet algorithme, l'on s'apercoit parfois qu'il diverge tres rapidement. Cela

est d^u,commedans l'exemple de lasection 1.5.3 aufaitqu'une hypothese de laforme

(H 3

) ou(H

4

)est inveri abledans ce cas. En e et

Y n+1 :=F( n ;X n+1 )=( n X n+1 ) 2 (X n+1 )e  n X n+1 + 1 2 k n k 2 ; (.2.10)

est l'observation de l'algorithme. Danscette expression (

n )

n0

represente l'agorithme

stochastique (.1.2) et (X

n )

n0

est une suite i.i.d. de vecteurs gaussiens selon laloi de

X. On rappelleque si F n =f 0 ; X k ; k ng;

ilvient facilementque

E[ Y n+1 =F n ]=h( n ):

On a observe numeriquement que la suite

 (1+k n k 2 ) 1 E[kY n+1 k 2 =F n ]  n0 explose

tres souvent avec n. Ce qu'on peut expliquer par la forme\en exponentielle du carre

de la norme de 

n

" de la suite des observations de l'algorithme. Pour remedier acela,

nousallonsutiliserlamethodede projectionde Chenintroduiteauchapitreprecedent.

Remarque .20. On peut obtenirun theoreme limite centralpour l'algorithme

stochas-tique(.1.2). Uneetudetheorique plus ne de savitesse de convergence montre que la

vitesse optimale ( 1=

p

n) est atteinte pour des pas de convergence decroissant vers

zero comme1=n. Toutefois, en pratique l'on utilise des pas de la forme

n = +n ; >0:

et etant des parametres a regler pour avoir une bonne convergence numerique de

Figure

Figure 2.1: Stabilit e du ratio de variance p
Figure 2.4: Stabilit e du ratio de variance R V pour un Put asiatique  a la monnaie
Figure 2.5: T aux de r eduction de variance p
Tableau 3 R eduction de Variance estim ee pour un Call Asiatique arithm etique sous le
+7

Références

Documents relatifs

Ces m´ethodes sont particuli`erement utilis´ees pour calculer des int´egrales et en physique des par- ticules, o` u des simulations probabilistes permettent d’estimer la forme

the interaction energies are calculated by the Inverse linearized Monte Carlo Method [5].. The Inverse Linearized Monte Carlo

Un exemple d’évaluation de l’incertitude sur une mesure de puissance thermique a été exposé et nous a permis de voir que la méthode numérique de Monte Carlo peut

It is of course possible to generalize the little example from a probability λ = 1/6 to a general value of λ, and from a single spin to a general statistical mechanics problem

This approach can be generalized to obtain a continuous CDF estimator and then an unbiased density estimator, via the likelihood ratio (LR) simulation-based derivative estimation

Montrer que cet estimateur peut s’´ ecrire comme la moyenne empirique de n variables al´ eatoires ind´ ependantes et ´ equidistribu´ ees.. Que nous dit la Loi des

When &amp; 2 − &amp; 1 becomes small, the parameters of the beta distribution decrease, and its (bimodal) density concentrates near the extreme values 0 and 1.. 82) say in

Monte Carlo MC simulation is widely used to estimate the expectation E[X ] of a random variable X and compute a con dence interval on E[X ]... What this talk