HAL Id: pastel-00001269
https://pastel.archives-ouvertes.fr/pastel-00001269
Submitted on 3 Jun 2005
HAL is a multi-disciplinary open access
archive for the deposit and dissemination of
sci-entific research documents, whether they are
pub-lished or not. The documents may come from
teaching and research institutions in France or
abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est
destinée au dépôt et à la diffusion de documents
scientifiques de niveau recherche, publiés ou non,
émanant des établissements d’enseignement et de
recherche français ou étrangers, des laboratoires
publics ou privés.
Bouhari Arouna
To cite this version:
Bouhari Arouna. Monte Carlo Methods and stochastic approximations. Mathematics [math]. Ecole
des Ponts ParisTech, 2004. English. �pastel-00001269�
Specialite : PROBABILIT
ES APPLIQU
EES
Presentee par Bouhari AROUNA
Pour obtenir le grade de Docteur de l'
Ecole Nationale des Ponts et
Chaussees
Sujet de la these:
Algorithmes Stochastiques et Methodes de
Monte Carlo
Soutenue le 15 Decembre 2004 devant le jury compose de :
Mr Gilles PAGES (President, Professeur Universite Paris VI)
Mr Bernard LAPEYRE (directeur de these, Professeur ENPC)
Mr Denis TALAY (rapporteur, Directeur de Recherche INRIA)
Mr Jean LACROIX (rapporteur, Professeur Universite Paris VI)
Mr Damien LAMBERTON(examinateur, Professeur Universite MLV)
C'estune vieilletraditionque de remercieraudebut d'un teltravailtous ceux qui,de
loinoude pres, directementouindirectement,ont contribuealerendre possible. c'est
avec mon enthousiasme le plus vif et le plus sincere que je voudrais rendre merite a
tous ceux qui a leur maniere m'ontaidea mener abien cette these.
Jedesire exprimer maprofonde gratitude:
AuProfesseur etamiBernard LAPEYREpour avoiracceptede mesuperviserdurant
cestroisdernieresannees, pour sadisponibiliteetsagenerositeexceptionnellesetpour
sonsoutienconstantpendantlaredactionde cettethese. Aucoursde son exerciseala
directionducermics,ilasucreeruneambianceformidableetgeneratriced'inspirations.
Au Professeur Gilles PAG
ES qui m'a honore en acceptant d'^etre President du jury
de ma these et plus particulierement pour son cours intitule \Martingales et
Algo-rithmes Stochastiques" du D.E.A. \Analyse et Systemes Aleatoires" de l'Universite
de Marne-La-Vallee qui a constituer ma toute premiere experience avec cette notion
mathematiquequi prends de plus en plus d'importance dans lesapplications.
AuxProfesseurs DenisTALAY etJean LACROIX pour avoiracceptelacharge d'^etre
Rapporteurs de ma these. Merci a Denis TALAY pour son inter^et pour mon travail
de these. La semaine que j'ai passee a son invitation, dans son equipe de Sophia
Antipolis a ete, pour moi, extr^emement enrichissante. Merci a Jean LACROIX pour
avoir accepte, sans hesitation cette t^ache, alors m^eme que nos chemins ne s'etaient
jamaiscroises auparavant.
AuProfesseurDamienLAMBERTON etauDocteurStephane TYCquim'onthonore
Damien pour toutes ses remarques, ses suggestions et ses conseils amicaux, cela m'a
beaucoup encourage;je dismerci al'homme,mais aussia l'enseignant qu'ilaetepour
moi.
Stephane de m'avoiracceptedans son equipe de recherche en nance quantitative ala
BNPPARIBASalors m^eme que je n'avaispas encoresoutenuma these: merci.
Jetiens aremerciertous lesmembres de l'equipeProbabilitesAppliqueesdu Cermics,
notammentJean-FrancoisDELMAS,BenjaminJOURDAIN,JeromeLELONG,Nicola
MORENI, Aurelien ALFONSI, Christophe CHORRO, Julien GUYON, Ralph LA
VI-OLETTE et Antonino ZANETTE, pour leur gentillesse et les discussions stimulantes
quenous avons eues durant ces trois dernieres annees.
Je tiens egalement a remercier tous les autres membres du cermics: Alexandre ERN,
Linda EL ALAOUI, Laetitia ANDRIEU, Kengy BARTY, Jean Philippe
CHANCE-LIER,GuyCOHEN,EricCANCES,YousraGATI,ClaudeLEBRIS,FredericLEGOLL,
Tony LELIEVRE, Francois LODIER ainsi que tous les autres dont je n'ai pas cite le
nom icipour leur ouverture d'espritet leur gentillesse. Nos parties de petanque entre
\thesards" memanquerons beaucoup.
Ce ne serait pas tout a fait correct de ma part de nir sans adresser mes plus vifs
remerciementsaSylvieBERTEetKhadijaELOUALI,lesdeux secretairesdu Cermics
pour m'avoir supporter pendant ces trois annees. Leur t^ache est immense et leur
presence est rassurante pour nous, m^eme si nous ne le leur disons pas souvent. Avec
du recul, je vous dischapeau mesdames.
Je dois un grand merci a tous mes amis, et en particulier a Latyr MBODJ, pour
avoir accepte de relire certaines parties de cette these, durant ses week ends et a sa
compagne Josiane ZOUNGRANA d'avoir supporte, avec souplesse, cette situationou
illui consacre forcement un peu moins de temps.
Je ne pourrais jamais oublier le soutien et l'aide des membres de ma nombreuse et
merveilleuse famille. Et que dire a ma chere et tendre moitie, Emilie NABEDE, elle
qui m'a toujours supporte contre vents et marrees, sinon un sobre et simple merci
1 Rappels Mathematiques 19
1.1 Contenu du chapitre . . . 19
1.2 Presentation de la methode de Montecarlo . . . 19
1.3 Resultats de Convergence . . . 20
1.3.1 Loi Forte des Grands Nombres et methode de Monte Carlo . . . 20
1.3.2 Theoreme CentralLimite et methode de MonteCarlo . . . 20
1.3.3 Estimation statistiquede l'erreur" n . . . 21
1.4 Martingales etTheoremes limites . . . 23
1.4.1 Denitionet Proprietes . . . 23
1.4.2 Theoremes Limites . . . 23
1.5 AlgorithmesStochastiqueset Projection a la Chen. . . 25
1.5.1 Presentation generale . . . 26
1.5.2 Le cas ou lepas ( n ) n0 decroit vers 0 . . . 28
1.5.3 Methode de Projection ala \Chen" . . . 29
1.5.4 Methode de Projection xe. . . 31
1.5.5 Le cas des AlgorithmesStochastiques a gain constant . . . 32
1.5.6 Methode de Lyapounov pour lesEDO . . . 33
1.5.7 Un resultat general de convergence faible . . . 34
1.6 Deux Lemmes d'Analyse . . . 37
1.7 Exemple d'Options en nance . . . 37
2 Fonctionsd'Importance etApproximationsStochastiques en Finance 39 2.1 Introduction . . . 39
2.2 Cadres mathematique etnancier . . . 40
2.3 Fonction d'Importance . . . 41
2.4 Une procedurede Reduction de Variance . . . 45
2.5 Tests numeriques . . . 48
2.5.3 Une comparaison avec la methode GHS . . . 58
2.5.4 Modeles a volatilitestochastique. . . 61
2.6 Remarques etpremieres conclusions . . . 63
3 Methode de Monte Carlo Adaptative 65 3.1 Introduction . . . 65
3.2 Motivations . . . 65
3.3 Principaux Resultats . . . 67
3.4 Une procedurede minimisationde variance . . . 72
3.4.1 Applications nancieres . . . 74
3.4.2 Un exemple en abilite . . . 76
3.5 Illustrations numeriques . . . 80
3.5.1 Le modelede Black et Scholes . . . 80
3.5.2 Le modelede Heston . . . 83
3.5.3 Le modelede Cox Ingersoll etRoss . . . 85
3.5.4 L'exemple de laabilite . . . 87
3.6 Quelques remarques pratiques . . . 88
3.7 Methodes de reduction de variancedes Algorithmes Stochastiques . . . 90
3.7.1 Methode des Variables Antithetiques et Fonction d'Importance pour lesobservations . . . 92
3.8 Reduction de Varianceet AlgorithmesStochastiques again constant . . 95
3.8.1 Cadre gaussien . . . 95
3.8.2 Procedure de reduction de variance . . . 97
3.9 Illustration Numerique . . . 98
4 Variance reduction as entropy minimization 105 4.1 Introduction . . . 105
4.2 The ImportanceSamplingparadigm. . . 106
4.3 Variancereduction asentropy minimization . . . 108
4.3.1 2 minimization . . . 108
4.3.2 Kullback-Leiblerminimization . . . 109
4.3.3 Comparison between these distances . . . 111
4.3.4 Delta computation . . . 111
4.4 The Variance Reduction Procedure . . . 112
4.4.1 The MartingaleMonteCarlo Algorithm . . . 113
4.4.2 A stochastic approximation scheme tolearn the optimal drift. . 115
4.4.3 Summary . . . 117
4.5.2 European Call. . . 118
4.5.3 Asian Call . . . 119
4.5.4 European Basket Call . . . 120
Introduction
Lebut de ce travail de these est de proposer des techniques de reduction de variance,
facilementimplementables,pour lesmethodes de MonteCarlo. Notre approche sefait
en deux etapes:
La parametrisationde la loide simulationa travers un changement de tendance
(drift),
L'utilisation des Algorithmes Stochastiques pour estimer le parametre de drift
optimal.
Nous avons d'abord developpe une implementation sequentielle de la methode, suivie
ensuite d'une implementation adaptative. Cette derniere technique sort du cadre
habitueldesapplications des methodes de MonteCarlo. Nousavons ainsiete amenea
mettreen place eta demontrer des resultats theoriques de convergence qui denissent
lecadre precis de l'utilisationde cette methode de reduction de variance adaptative.
Voici schematiquement comment se presente les deux approches sequentielle et
adap-tative. Lorsque l'on cherche a calculerlaquantite
E['(X)];
une simulation Monte Carlo s'avere souvent ^etre la seule methode ayant un facteur
\gain/co^ut(tempsde calcul)"raisonnable. C'estlecas, parexemple, lorsqueX est un
vecteuraleatoirede tresgrandedimension (>10). Sil'ondispose d'unerepresentation
parametriquede l'esperance sous laforme:
E[ '(X)] =E[g(;X)]; 2R
d ;
ilest alors natureld'essayer d'identier un parametreoptimal
quiminimisel'erreur
statistiqueou lavariance
E[g
2
(;X)] E['(X)]
2
del'estimation. LesAlgorithmes(ouApproximations)Stochastiquesde typeRobbins{
Monro sont bien adaptes pour ce type d'optimisation stochastique. Ils permettent
d'obtenir une estimation asympt^otique du parametre
. Il suÆt ensuite d'utiliser la
LoiForte des Grands Nombres pour estimerl'esperancerecherchee par
1 N N X n=1 g( ;X n ); ou(X n ) nN
suite( n
) n0
qui converge presque s^urement vers
, l'on peut utiliser l'approximation
non standard suivante
E['(X)] ' 1 N N X n=1 g( n 1 ;X n ):
NousobtenonsegalementunTheoremedelaLimiteCentraleetunresultatd'estimation
delavarianceempiriquepourcetteapproximationetdevelopponsainsiunemethodologie
MonteCarlononstandard
1
. Notonsqu'ilestpossiblededemontrerunresultatdetype
Berry Essen pour cette methode de Monte Carlo non standard.
Presentation du Resultat Adaptatif
On veut calculer a l'aide d'une methode de Monte Carlo la quantite E[ '(X)], pour
une fonction (eventuellement vectorielle) ' : R
d
! R suÆsamment integrable et un
vecteur aleatoired dimensionnel X deni sur un espace probabilise donne (;F;P).
On suppose qu'il existe une transformation
g :R
q
R
d
!R; q1
suÆsamment integrabletelle que:
(A) E[g(;X)]=E['(X)]; 8 2R d : Soit un point donne de R q et ( n ) n0
une suite de vecteurs aleatoires denie sur
(;F;P)etconvergeantpresques^urementvers
. Onmontresousdeshypothesesassez
faiblesquesi (X
n )
n0
est une suite de vecteurs aleatoires independants identiquement
distribues selon laloi de X alors:
levecteur aleatoire
S N = 1 N N X n=1 g( n 1 ;X n )
converge presque s ^urement, quand N tend vers l'innie, vers l'esperance recherchee
E[ g(
;X)]=E['(X)]:
Sous lesm^emes hypotheses, on montre qu'un theoreme de la limite centrale existe:
1
ledomained'applicationprincipal desresultatstheoriquesdecetravailestlanancenumerique.
p N[S N E['(X)]] L ! N!+1 N(0; 2 ); avec 2
une matrice de variance-covariance qu'on peut expliciter en fonction de
.
Sous des hypotheseslegerement renforcees, on montre l'existence d'intervalles de
con-ance empiriques pour ce theoremede la limite centrale.
Cesresultats,quisontexposesdansleChapitre3,sontalabasedenotremethodologie
d'estimationMonteCarlodanslaquellelavarianceempiriquedel'estimationestreduite
dynamiquement aucours des iterations MonteCarlo.
Mise en uvre de la Methode
L'exemple du cas Gaussien
En nance l'implementation du prix d'une option peut le plus ouvent se ramener au
calcul de E['(X)] ou ' est la fonction de payo de l'option et X = (X
1 ;:::;X d ) N(0;I d
) est un vecteur Gaussien standard. I
d
designe la matrice identite de R
d
. Un
simplechangement de variableentraine l'egalite
E['(X)] =E[g(;X)]; avec g(;x)='(x+)e x 1 2 kk 2 ; 2R d ;
oukxkrepresentelanormeEuclidienned'unvecteurxappartenantaR
d
etxydesigne
leproduitscalairede deuxvecteurs x;y2R
d . OnnoteV()=E[g 2 (;X)] E['(X)] 2 .
On montre sans diÆculteparticulere que si
la fonction de payo '(X) est non nulle et suÆsamment integrable alors la fonction
V() est dierentiableet possede un unique minimum
,
unique solutiondu probleme de recherche du zero du gradient de V
rV()=0:
Acausedelaforme\exponentielle"derV(),l'algorithmedeRobbins{Monroclassique
ne permet pas de resoudre directement cette equation. Pour cela nous utilisons une
methode de projection aleatoire de l'algorithme de Robbins-Monro d^ue a Chen et
Zhu (1986). En exploitant cette methode, on a montre que sous la seule condition
d'integrabilitede lafonction de payo:
on peut choisir une version ( n
) n0
de l'algorithmede Robbins-Monro convenablement
tronque par la methode de Chen et Zhu qui converge presque s ^urement vers l'unique
racine
du problemerV()=0, 2R
d .
L'algorithmede Robbins{Monro projetepar cettemethode de Chen est presentedans
lechapitre 1 etle resultat ci-dessus est expose dans leChapitre 2.
Dansce Chapitrenotre motivationaensuiteeted'illustrersur desexemples tiresde la
nance l'inter^etnumerique de l'approximation
E['(X)] ' 1 N N X n=1 g( ;X n );
encomparantsavarianceestimeeetsonco^ut(entempsdecalcul)acelled'unemethode
deMonteCarlostandardetacelledelamethodedesfonctionsd'importancede
Glasser-man, Heidelberger et Shahabuddin (1999). Ce Chapitre fait l'objet d'un article paru
dans larevue \The Journal of Computational Finance".
Dansle Chapitre 3 nousetudions l'approximation Monte Carlonon standard
E['(X)]' 1 N N X n=1 g( n 1 ;X n ):
Dans la premiere partie de ce chapitre, nous utilisons les algorithmes de Robbins{
Monro a pas decroissant pour developper une methode de Monte Carlo adaptative.
Dans cette methode, la variance est reduite au fur et a mesure des iterations Monte
Carlo pour nalement donnerun estimateur de varianceminimale en un certainsens.
Cettepartiedu Chapitre3 aconstitueun articlepubliedansla revue \Monte Carlo
Methods and Applications".
Dans la deuxieme partie de ce chapitre, nous reprenons les methodes developpees au
chapitre2, en lesadaptant auxalgorithmes stochastiques a pas constants >0 (mais
petits). Lapremiereremarqueafaireest quecesalgorithmesneconvergentpaspresque
s ^urementvers
maisconvergent enloivers unvecteuraleatoirequ'onpeutecriresous
laforme G= + p g;
avec g un vecteur gaussien centre. Ainsi la loi du vecteur G se concentre autour de
(moralement)lefaitqu'on puisseutiliserune realisationdelaloistationnairedes
algo-rithmesstochastiquesapasconstantsalaplacede
danslesproceduresde reduction
de variance.
Dans le Chapitre 4, nous considerons le probleme de reduction de variance sous un
angledierent: celuide laminimisation de l'entropie relativeentre une certaine
prob-abilite optimaleet une familleparametrique de probabilites obtenue par le Theoreme
de Girsanov. Nous montrons que ce point de vue conduit (en univers discret) a la
minimisationde la fonction suivante:
V()=E '(X) 1 2 kk 2 X ; 2 R d :
Il est clair que cela revientau m^eme de chercher le zero
^
, de lafonction
rV()=E['(X)( X)]; 2 R
d :
A cause de la disparition du terme e
X+ 1 2
kk 2
Ce dernier probleme est de loin plus
facilea resoudre que larecherche de zero de la fonction
rV()=E[( X)' 2 (X)e X+ 1 2 kk 2 ]: Manifestementon a ^ = E['(X)] E[X'(X) ]
etl'on peut ainsi simuler
^
directement.
Mais cette maniere de proceder ne permet pas de mettre en place une methode de
reductionde varianceadaptative. Nousavons doncutilisede nouveau des algorithmes
stochastiques pour estimer
^
. Et nous avons surtout remarque que le parametre
^
permettait de construire un estimateur convergeant et consistant du delta de l'option
dont lepayo est '(). Cette possibilitequ'al'algorithmede fournirune estimationde
lacouverture delta
2
de l'option est particulierementinteressante.
2
Rappels Mathematiques
1.1 Contenu du chapitre
Dansce chapitrenouspresentonscertainsresultatsetoutilstheoriquesbienconnusqui
nous seront utiles tout au long de cette these. Nous commencons, dans les sections 1
et2, avec une breve presentation des grandes lignes de la methode de Monte Carlo et
les resultats de convergence classique qui denissent son cadre d'utilisation. Dans la
section 3 nous rappelons les theoremes limites pour martingales que nous utiliserons
dansleschapitressuivants. Parlasuitenousintroduisonslesalgorithmesstochastiques
sous leur formegenerale suivi par des resultats de convergence que nous commentons.
Pour nirnous presentons latechnique de projectionxe etlatechnique de projection
aleatoire de Chen qui sont utilisees dans les applications pratiques des algorithmes
stochastiques.
1.2 Presentation de la methode de Monte carlo
Le recours aux methodes de Monte Carlo est tres courant chaque fois que l'on est
confronte au calcul de certaines quantites moyennes. Apres avoir mis ces dernieres
sousformed'esperances, ilreste acalculerdes quantitesde laformeE[ '(X)],ouX est
un vecteur aleatoire et ' une fonction denie sur R
d
. Pour pouvoir faire ce calcul, il
convientde savoirsimuler une suite (X
n
; n1) de variablesaleatoiresindependantes
selon laloi de X.
Surleplaninformatique,onramenelasimulationd'uneloiarbitraireacelled'unesuite
approximealors E[ '(X)] par S N = 1 N ['(X 1 )++'(X N )]:
C'est leprincipe des methodes de Monte Carlo.
1.3 Resultats de Convergence
Nous presentons brievement iciles dierents resultats de convergence qui constituent
en pratique la mise en uvre des methodes de Monte carlo. Ces resultats se trouvent
dans tous lestraitesclassiques de probabilite.
1.3.1 Loi Forte des Grands Nombres et methode de Monte
Carlo
Theoreme .1. Si on suppose que E[k'(X)k] < +1 et qu'on dispose d'une suite
(X n
; n 1) de copies independantesde X alors, avec probabilite 1 on a :
lim n!+1 1 n ['(X 1 )++'(X n )]=E['(X)]:
Dansla plupartdes cas ondispose d'uneestimation
" n =E['(X)] 1 n ['(X 1 )++'(X n )] de l'erreurde convergence.
1.3.2 Theoreme Central Limite et methode de Monte Carlo
Theoreme .2. Si on suppose que E[k'(X)k
2 ] <+1 et si on note 2 la variance de '(X), alors : p n " n
converge en loi vers G;
Getant une variable aleatoire suivant une loi normale centree reduite.
Uneconsequence (entre autres)de ce theoreme est que pour tout a<b :
lim n!+1 P p n a" n p n b = Z b e x 2 2 dx p 2 :
En pratique une facon standard de mesurer l'erreur de convergence d'une methode
de Monte Carlo est de donner soit l'ecart-type
p n
de "
n
soit de donner un intervalle
auquelappartientleresultatrecherche avec une conance(par exemple)de 95%. Cela
conduit,etantdonne que
P(jGj 1:96)'0:95;
al'intervallede conance suivant:
S N 1:96 p N ; S N +1:96 p N :
1.3.3 Estimation statistique de l'erreur "
n
Les considerations precedentes prouvent que l'eÆcacite (ou la abilite des resultats)
d'une methode de Monte Carlo depend de l'ordre de grandeur de la variance
2 de
la variable aleatoire dont on veut estimer la moyenne. On reprend les notations
precedentes. On rappellequel'objectif est d'evaluer:
c=E['(X)]:
SoitX
1
;X
2
;::: des realisationsindependantes de laloide X. D'apreslaLoiFortedes
GrandsNombres onpeut approcher c par ^cdonne par:
S N = 1 N N X n=1 '(X n );
pour N \suÆsamment grand". Toujours d'apres la Loi Forte des Grands Nombres et
dans le cadre des hypotheses du Theoreme Central Limite, il est bien connu que la
quantite ^ 2 = 1 N 1 N X n=1 ('(X n ) S N ) 2
estunestimateursansbiaisdelavariance
2
,appeleevarianceempiriquedel'echantillon.
Onpeut alorsobtenirunintervalledeconanceapproche(par exemple)a95%en
rem-placant dans l'intervalle de conance fourni par le Theoreme Central Limite par
^ S N 2 ^ p N ; S N +2 ^ p N :
elle auto-estime son erreur d'approximation (sans pratiquement aucun calcul
supplementaire),
elle ne depend pas de laregularitede lafonction ',
et surtout, elle est \presque" insensible ala dimension d du probleme.
Son inconvenient principalest:
sa vitesse de convergence assez faible(de l'ordre de
C p
N
avec C >0).
Amelioration de la methode de Monte Carlo standard
Pourameliorerlaconvergenced'unemethode deMontecarlo,l'onpeut soitaugmenter
le nombre total de simulations N soit reduire la variance
2
. Si l'on opte pour une
augmentation de N, pour obtenir une precision supplementaire d'un point l'on doit
multiplier le nombre total de simulations par un facteur de 100 (ce qui devient tres
vite irrealisable compte tenu de la limitation de la puissance des machines). Si l'on
optepourune reductiondelavaleur de,unereductiond'unfacteurde 10signiepar
exemple que le nombre total de simulations requises pour obtenir le m^eme degre de
precision(que pourlamethodedans laquelle n'a pasete reduit)doit ^etre diviserpar
100. C'est ce qui justie la tres grande importance qui est accordee aux techniques,
dites de reduction de variance, qui cherchent a diminuer la valeur de . Il existe une
grandevarietedecestechniquessouventalafoissimpleseteÆcaces,maisdontlechoix
est specique auprobleme traite. Lesplus connues (et aussi lesplus classiques) sont
La technique des variablesde contr^ole,
La technique des variablesantithetiques,
La methode de stratication,
La methode de conditionnementet
La methode des fonctions d'importance.
Laderniere methode appelee encore methode d'echantillonnage preferentielconsiste a
ecrire E['(X)]=E '(Y)f(Y) f(Y) ;
ou X et Y ont respectivement les densites f(x)dx et
f(y)dy. Si l'on pose
~
f(Y) =
'(Y)f(Y)=
f(Y), onaura ameliore lamethode de Monte Carlo standard si
Lesmethodes dereductiondevariancequenousdevelopponsdanscettethese, utilisent
une version parametrique de la technique d'echantillonnage preferentiel. Pour plus de
detail sur les autres methodes de reduction de variance nous citons entre autres les
livres [LPS98] et [MAD02].
1.4 Martingales et Theoremes limites
Apres avoir deni la notion de martingale, nous exposons brievement dans cette
sec-tion quelques resultats probabilistes importants sur les martingales. Plusieurs livres
fondamentaux exposent en detail, ces notions. Nous citons entre autres les livres de
Williams[WIL95] (pour une initiation),de Neveu [NEV72]et de Hall-Heyde[HH80].
1.4.1 Denition et Proprietes
Denition .1. Soit (M
n )
n0
une suite de variables aleatoiresadaptee aune ltration
(F n ) n0 . On ditque (M n ) n0
est une martingalepar rapporta(F
n ) n0 si pour toutn 0,p:s:: E(M n+1 =F n )=M n :
Remarque .1. Intuitivement, une martingale est une suite aleatoire qui a tendance a
rester constante en moyenne.
Remarque .2. On rappellequ'une esperance conditionnellen'etant denie que presque
s^urement, toutes les relations ou apparaissent des esperances conditionnelles sont des
relations presque s^ures (p.s. en abrege). Ainsi, m^eme quand on en fera pas mention
explicitement, ellesera sous-entendue.
1.4.2 Theoremes Limites
Le theoreme suivant qui nous sera utile dans la suite est relatif a la convergence des
martingales de puissance a integrable avec 1 a 2. On peut notamment trouver
une preuvede ce theoreme dans le livrede Hallet Heydecite plus haut.
Theoreme .3. Soit(M
n )
n0
unemartingalevectoriellede puissancea integrableavec
1a 2 par rapport a une ltration (F
n ) n0 . Notons n =E(kM n+1 M n k a =F n )<+1; et S n = 0 ++ n :
1. Sur l'evenementfS 1 <1g, M n !M 1 o u M 1
estune variablealeatoirenie.
2. Sur l'evenement fS
1
=1g on a une loi des grands nombres,
M n S n p:s: !0: Remarque .3. Lorsque a = 2, (S n 1 ) n1
est le processus croissant ou crochet oblique
associealamartingale de carreintegrable(M
n ) n0 etl'on notehMi n =S n 1 . Dansce cas n =E kM n+1 M n k 2 =F n =E kM n+1 k 2 =F n kM n k 2 :
Remarque.4. Lapartie1)dutheoremeestleTheoremedeChowclassique. Lapartie2)
en resulte en considerantla nouvellemartingale (martingale transformee de (M
n ) n0 ) N n = n X k=1 (M k M k 1 )=(S k 1 b(lnS k 1 )) 1=a ;
ou b est une fonction veriant
R +1 1
(1=b(t))dt < +1, et en lui appliquant le resultat
de lapartie 1)et leLemme de Kronecker(que nous rappelons a lan de ce chapitre).
Theoreme .4. Soit (M
n )
n0
une martingale (vectorielle) par rapport a une ltr
a-tion (F
n )
n0
, de carre integrable pour laquelle il existe une suite positive deterministe
(v n
) n0
croissant vers +1 tel que son processus crochet h M i
n verie: (1) h M i n v n P ! n 2 avec 2
une matrice carree denie positive;
alors on a la loi forte des grands nombres suivante
M n v n p:s: ! n 0:
Si de plus la condition de Lindberg est veriee:
(2) 8">0; 1 v n n X k=1 E kM k M k 1 k 2 1 fkM k M k 1 k" p v k g =F k 1 P ! n 0; alors: M n p v n L ! n N(0; 2 ):
1.5 Algorithmes Stochastiques et Projection a la
Chen
Il n'est pas necessaire de rappeler ici tous les domaines des sciences appliquees dans
lesquels peuvent intervenir les algorithmes stochastiques. Cela va du calcul
proba-biliste des structures (Mecanique) a l'etude des reseaux de neurones en passant par
l'automatique,l'economieouencorelachimie. L'utilisationde cesalgorithmesdansles
problemesde lanance numeriqueest peudeveloppee. Larecherche des points ouune
fonction reelle V atteint ses minima (avec sa transposition en recherche des maxima
pour la fonction V) argminV = x; V(x)=inf y fV(y)g ;
estunproblemetrescourantqu'onramenesouventaceluidelarecherchedel'ensemble
des points ouune fonction h s'annule
h 1
(0) =fx;h(x)=0g;
avec h=rV,legradient de V. Le caractere stochastiquedes procedures de recherche
de zero de hprovient souvent de ce que
ou bien lesfonctions h et V ne sont observables qu'a des perturbations pres,
ou bien h est diÆcile a expliciter, mais on sait facilement simuler une quantite
aleatoire quilui est proche \en moyenne".
Il arrive aussi que ce caractere stochastique provienne d'un bruit aleatoire que l'on
utilisepourinterdireal'algorithmedeconvergervers des solutionsaberrantes(minima
locaux, points selles, ...). La forme generale des algorithmes stochastiques pour le
probleme de recherche de zero de h s'ecrit
n+1 = n n+1 [h( n )+" n+1 ]+ n+1 n+1 : (.1.1)
Lafonctionh est deniesur un ouvert O de R
d
, avaleursdans R
d
. Lespas (ou gains)
de l'algorithme ( n ) n0 et ( n ) n0
sont deux suites deterministes, de nombres reels
strictementpositifsetdecroissants(au senslarge)qu'on peut reglerapriorilibrement.
Lessuites (" n ) n0 et ( n ) n0
sontdes perturbations aleatoiresimposees par le modele.
Par exemple tandis que ("
n )
n0
sera le plus souvent un accroissement de martingale
(i:e: un bruit blanc), (
n )
n0
NousrenvoyonsauxlivresdeDu oMarie [DUF96]et [DUF97],aceluide Benveniste,
Metivier etPriouret [BMP87], acelui de P ug [PFL96] ouencore aulivretresrecent
de Kushner et Yin [KY03] pour un expose detaille sur le sujet. Il existe egalement
une multitude d'articles sur les proprietes de convergence de tels algorithmes dont on
pourra trouvercertains dans lesreferences bibliographiquesa lan de ce manuscrit.
Dans les cas qui vont nous occuper tout au long de ce travail, l'algorithme considere
pourra toujours semettre sous la forme
n+1 = n n+1 h( n )+ n+1 " n+1 + n+1 r n+1 ; avec E[" n+1 =F n ] = 0, (F n ) n0
etant une ltration engendree par la suite (
n ) n0 . (r n ) n0
est une suite de termes residuelsqu'il faudra controler.
Dans la suite de cette section, nous presentons plus en detail les algorithmes
stochas-tiques (markovienssur R
d
) et quelques outils permettant l'analyse numerique de leur
comportement entemps longlesresultatsrappelesicinous servironsdanslesprochains
chapitresde cette these.
1.5.1 Presentation generale
On considere une suite de vecteurs aleatoiresde R
d
denie de facon recursivepar
0 donne, n+1 = n n+1 F( n ;X n+1 ); n0: (.1.2) ( n ) n0
est une suite (decroissante au sens large) de reels positifs , appelee pas
ou gain de l'algorithmestochastique, veriant
n >0 et X n0 n =+1: (X n ) n0
est une suite de vecteurs aleatoiresindependants suivant tous la m^eme
loi que X.
La fonction F()est l'observation de l'algorithme stochastique. C'est un champ
de vecteurs deni sur R
d R q a valeurs dans R d et qui verie 8 2R d ; E[F(;X)]<+1; et 7!F(;) continue dP X p:s:
estappeleefonctionmoyennedel'algorithme. Lafonctionhestengeneralnumeriquement
diÆciled'acces. Notons quel'on a
E[F( n ;X n+1 )=F n ]=h( n ); (.1.3) avec F n =f 0 ;X i ;0ing. (F n ) n0
est la ltrationproprede (X
n ) n0 (et de 0 ).
On peut reecrire (.1.2) sous laforme
n+1 = n n+1 h( n )+ n+1 (h( n ) F( n ;X n+1 )); n0: (.1.4) Les termes h( n ) F( n ;X n+1
); n 0 ont une esperance conditionnelle nulle par
rapport a F
n
et sont par ailleurs mesurables par rapport a F
n+1
. Ce sont donc les
accroissements d'une F n martingale (M n ) n0
. Finalement l'algorithme stochastique
(.1.2) s'ecrit n+1 = n n+1 h( n )+ n+1 M n+1 ; n 0: (.1.5)
Les outils utilises pour etudier cet algorithme dierent selon que le pas (
n )
n0 est
constantou tend vers 0.
n
= >0 :
{ L'algorithme (.1.2) est alors une F
n
cha^nede Markov homogene de
semi-groupede transitionfellerien donnee par
Q
(f)():=E[ f( F(;X))]:
{ Onpeutegalementvoircetalgorithme,via(.1.5),commeunschemad'Euler
de pas de l'equation dierentielle ordinaire associee a lafonction ( h), a
savoir
:
(t)= h((t)) t0; (ODE
h )
auquel l'on a rajoute un bruit M
n+1 .
Dans ce cas, pour suÆsamment petit, le comportement de l'algorithme
sto-chastique (.1.2)est tresproche de celui de lasolutionde (ODE
h ).
n
!0 :
{ Il s'agit alors d'une cha^ne de Markov inhomogene, dont la transition a la
date n est donnee par
E[f( n+1 )=F n ]=Q f( n ):
{ Ou, via (.1.5), le voir comme un schema d'Euler a pas \decroissant" et
perturbede (ODE
h ).
Dans ce derniercas l'algorithmestochastique(.1.2) permetd'estimer asympt^
oti-quement lasolution de l'equation
h()=0; 2R
d
; (??)
ou h est denie par (?).
Ilexiste une litteratureabondantesur l'analysenumerique du comportement en temps
long de l'algorithme stochastique (.1.2). Nous allons simplement rappele ici quelques
resultats de convergence qui servirons dans les prochains chapitres. Dans la suite on
utiliseralanotation Y n+1 =F( n ;X n+1 ; n 0. 1.5.2 Le cas ou le pas ( n ) n0 decroit vers 0
L'unedesdiÆcultesdansl'utilisationpratiquedesApproximationsStochastiquesreside
dans lefaitque leurs versions dierentsensiblement d'un domained'applicationsaun
autre. De fait, les criteres theoriques de convergence sont tout aussi nombreux mais
pas toujours evidents a adapter a la situationreelle de l'utilisateur. On peut trouver
une demonstrationdu theoreme ci-dessous dans [DUF97].
Theoreme .5. Sous les hypotheses suivantes
(H 1 ) 9 2R d ; h( )=0; 8 2R d 6= ; ( )h()>0; (.1.6) (H 2 ) X n n =+1 et X n 2 n <+1; (.1.7) (H 3 ) 9 C >0; E[kY n+1 k 2 =F n ]<C(1+k n k 2 ) p:s:; (.1.8) l'algorithme (.1.2) ( n ) n0
converge presque s ^urement vers
.
Remarque .5. Un point interessant a noter est que la convergence de la suite (
n )
n0
ne depend pas de lavaleur initiale
0 .
Remarque .6. Pour une presentation tres succinte des algorithmes stochastiques, l'on
peut consulter [MD02]. Pour une etude plus appronfondie l'on se reportera par
ex-emple ades livres generaux comme [PFL96], [BMP87], [DUF97] ou [DUF96]. Pour
des discussions plus specialisees il existe une multitude d'articles comme par exemple
Remarque .7. De toutes leshypotheses du theoreme .5, (H 3
) est de loincelle qui pose
le plus de diÆculte. L'hypothese (H
1
) est ce qu'on appelle une condition de type
Lyapounov. Elle traduit une force de rappel et assure la stabilite de (ODE
h
). Nous
reviendrons plus en detail sur cettenotion plus tard.
Dansle theoreme ci-dessus, si onremplace lacondition (H
3 )par (H 4 ) +1 X n=0 2 n+1 E[kY n+1 k 2 =F n ]c<+1 p:s:; (.1.9)
leresultat reste inchange(voir [BLL86]).
1.5.3 Methode de Projection a la \Chen"
Enpratiqueil est diÆcilede montrer queces conditions sontveriees commel'illustre
l'exempleunidimensionnel tressimple suivant (emprunte a [CHE02])
F(;x)= ( 10) 3 avec n = 1 n :
Il est clair que dans ce cas l'hypothese (H
3
) du theoreme .5 n'est pas satisfaite. De
plus iln'est pas evident de montrer que (H
4
)est veriee.
D'ailleurs quelques iterationsdonnent apartir de la valeur initiale
0 =0 1 =1000; 2 = 485148500; 3 '3:810 25 ;
suggerant du m^eme coup que l'algorithme(dans ce cas) diverge tresrapidement,et la
necessite d'avoirune hypothese d'un type (H
3
)ou (H
4
) mentione ci-dessus. Toutefois
lorsqu'onchoisitlavaleurinitiale
0
del'algorithmede faconquej
0
10j<1,alorsce
dernierconvergeverslasolutionduproblemequiest manifestement
=10. Chen
ob-serveaproposde cet exemplequechoisir lavaleurinitiale
0
dansun voisinageproche
de 10, est en un sens equivalent a considerer les iterations de l'algorithme (
n )
n0 a
partird'un certainrang n
0
. On comprendbien queladiÆcultereside dans lechoixde
ce rang n
0
. Pour contourner le probleme, Chen H-F. (1986) propose une methode de
projections aleatoiresde l'agorithme. La methode est la suivante:
D'abord on generalise l'hypothese de Lyapounov (H
1 ) (H 5 ) 9 2R d ; 9 V :R d
!R; deux fois contin^umentdierentiable tels que,
V( )=0; lim kxk!1 V(x)=+1;et8 6= V()>0; h()rV()>0:
Remarque .8. A partirde cettehypothese onretrouve eneet(H 1 )avec lafonctionde Lyapounov V()= 1 2 k k 2 .
Ensuite,onchoisit deux vecteurs distincts
1
et
2
de R
d
et onxeun reelM >0tels
que max(V( 1 );V( 2 ))<min(M;inf(V();kk>M)): (.1.10)
Remarque .9. Une fois
1
6=
2
xes, le choix de M est toujours possible puisque
lim kxk!1
V(x)=+1.
Finalementonconsidere unesuite quelconque(U
n )
n
de reels positifsstrictement
crois-sante, tendant vers l'inni avec U
0
>> M (dans leur article, les auteurs choisisent
U 0
M +8 pour les besoins techniques de la preuve qu'ils donnent de leur principal
resultat),pour n 0et
0
donne, ondenit par recurrence
n+1 = ( n n+1 Y n+1 si k n n+1 Y n+1 kU (n) ; n sinon (.1.11) avec (n)= n 1 X k=0 1 fk k k +1 Y k +1 k>U (k ) g ; (0)=0; (.1.12) et n = ( 1 si (n) est pair; 2 si (n) est impair: (.1.13)
Voici comment on peut interpreter cette technique de projection. Alors que (n)
designe le nombre de projections eectuees aucours des n premieres iterations, U
(n)
represente lataillemaximaleque ne doit pas depasser l'algorithmeauboutde (n+1)
iterations. En eet on voit de (.1.11) que si l'estime de rang (n +1) calculer par
l'algorithme de Robbins{Monro reste dans la sphere fermee de rayon aleatoire U
(n)
alors ilevolue exactementcomme un algorithme de RM classique (.1.2). Par contre si
( n n+1 Y n+1
)sort de cette regionalors l'estimealadate (n+1)est reinitialiseaun
point xedans lepasse, et lalimite de projection est dilatee de U
(n)
a U
(n)+1
. Dans
cettemethode, onn'imposepas al'algorithme
n
d'^etre aprioriborne. C'estd'ailleurs
letrait le plus remarquable de cette methode de projection d^ue Chen.
Remarque .10. Il fautnoter au passageque l'algorithme(.1.11) peut prendre laforme
(.1.1), avec n = n , " n+1 = h( n ) Y n+1 et n+1 = ( n n + n+1 Y n+1 )1 f k n n+1 Y n+1 k>U (n) g
Theoreme .6. Supposons que l'hypothese (H 5
) est veriee. Si la condition suivante
est satisfaite (H 6 ) lim n!+1 n+1 k n 1 X i=0 M i+1 k=0 p:s:; (.1.14)
alors l'algorithme de Robbins-Monro tronque par la methode de Chen (.1.11) converge
presque s ^urement vers
et le nombre de projections
n
est presque s ^urement borne.
Ce resultatsera utilisedans le prochain chapitre.
1.5.4 Methode de Projection xe
Comme on l'avu dans l'exemple de la section precedente les iterations d'algorithmes
stochastiques peuvent exploser tres vite. Cela peut provenir d'un mauvais choix de
la structure de l'algorithme dans la modelisation d'un phenomene physique (reel) ou
tout simplement d'un artefact numerique. Un aspect important des applications des
algorithmes stochastiques concerne donc l'attitude a adopter lorsque les valeurs des
iterations deviennent trop grandes. Le probleme est qu'il n'existe pas de procedure
universelle permettant de resoudre ce genre de situation. Neanmoins dans la plupart
dessituationspratiques,lesproblemes rencontrespossedent, enrealite,des bornes
im-plicites (contraintes physiques ou economiques). Il convient alors, en cas de valeurs
excessives, de tronquer les iterations de l'algorithme. Il faut mentionner d'ailleurs
quem^eme dans lecas oul'on a demontrequ'un algorithmestochastique (non borne a
priori)convergefortement,ilesttrescourantquepourcertainsjeuxdeparametres,ses
iterationssuccessivesexplosentnumeriquement. Engeneral,dansl'etudemathematique
de ces algorithmes, on remplace les hypotheses de \bornitudes des iterations
suc-cessives" par diverses hypotheses de stabilite. Alors evidemment cela aboutit a des
developpements mathematiques compliques (beaucoup plus compliques que dans le
cas borne) et interessants (sur le plan de la theorie, voir par exemple, [PAG03]),
mais en pratique, cela n'emp^eche pas de devoir tronquer les iterations successives de
l'algorithmelorsqu'il s'agit de le mettre en uvre numeriquement.
SoitK un compact nonvidede R
d . Unalgorithme stochastique ( n ) n0 projete sur K
sera deni recursivement par ladonnee de
0 2 K et par n+1 = K ( n n+1 Y n+1 ): (.1.15)
On peut reecrire cet algorithme sous la forme
ou(Z n
) n1
est untermedecorrectionoudeprojectionsurK. Enfaisantappara^treles
observations moyennes h( n ) = E[Y n+1 =F n ], avec F n = fY k ;k ng cet algorithme
luim^eme peut ^etre reecrit sous la forme
n+1 = n + n+1 h( n )+ n+1 " n+1 + n+1 Z n+1 ; (.1.17) ou " n+1 = Y n+1 + h( n
). Le resultat de convergence suivant sera utilise dans le
Chapitre 3et est d^u aBernard Delyon 2000 (voir[DEL00]).
Theoreme .7. Si lim n!+1 P n i=1 i " i <+1 et lim n!+1 kZ n k=0; p:s: Il existe 2 Æ K et une fonction V : R d !R + , convexe, de classe C 1 tels que lim kxk!+1 V(x)=+1; V( )=0 et rV()h()>0;8 6= ;
alors l'algorithmestochastiqueprojete(
n )
n0
convergepresques ^urementvers
.
1.5.5 Le cas des Algorithmes Stochastiques a gain constant
Toute cette partie constitue un condense de resultats connus. Pour la coherence de
notreexpose, ilnous asembleimportantde faireun rappelsommairede ces resultats.
Ils sontessentiellement tires du livrede Kushner et Yin(2003 [KY03]).
Nousavons vu a lasection 1.5.1 que lesalgorithmes a pas constants s'ecrivaient
n+1 = n h( n )+ " n+1 ; n 0; 0 = 0 ; (.1.18) avec h( n ) =E Y n+1 =F n , Y n+1 l'observation de l'algorithmeet " n+1 =h( n ) Y n+1 .
Lorsquelepas >0estsuÆsammentpetit, onpeutmontrerquepournassezgrandla
loide
n
ressembleaunegaussiennedemoyenne
etdematricedevariance-covariance
p
,etantunematricedeniepositiveindependantede . End'autrestermespour
assez petit, si
designe lalimite en loi de (.1.18) alors
L ' + p G; avec GN(0;):
Ainsi moralement lorsque devient petit, la loi de (.1.18) va se concentrer autour de
. On rappelleque
est solutionde l'equation
On vamontrer que sous des conditions tres simples,
est aussi limite d'une solution
de l'equationdierentielle ordinaire(EDO en abrege)
: (t)= h((t)); (0)= 0 : (EDO h )
La technique la plus couramment utilisee pour etudier la stabilite des solutions des
EDO est lamethode de Lyapounov.
1.5.6 Methode de Lyapounov pour les EDO
Nouscommencons par ladenitiondes fonctionsde Lyapounov
Denition .2. Unefonction V : R
d
!R
+
est dite de Lyapounov sielle est convexe,
de classe C
1
,et verie lim
kxk!+1
V(x)=+1.
Leprincipede lamethodede Lyapounovest lesuivant(onpeut serepportera[LL61]).
Soit h une fonction de R
d
dans lui m^eme et () une solution de l'EDO (.1.19). On
suppose qu'ilexiste une fonctionde Lyapounov V telle que:
(A4:1) 9 ^ ; 2 R d V( ^ )=0 et V()>086= ^ : et (A4:2) rV(x)h(x)>0 8x 2 R d f ^ g: Pour >0 sion pose
=fx; V(x)g alors ilest clair que
d dt [V((t))]=rV((t)) : (t) = rV((t))h((t)) := k((t)) 0 8t0;
etla fonctiont 7!V((t)) est decroissante, d'ou lapropositionsuivante
Proposition 1.5.1. Soit () une solution de l'EDO (.1.19) de condition initiale
0 .
Sous les hypotheses(A4:1) et (A4:2), on a
Maintenant commela fonction V est positive ona V((0))V((0)) V((t)) = Z t 0 d dt [V((s))]ds = Z t 0 k((s))ds:
L'applicationx7!k(x)etant ellem^eme positive (et continue), ona
0 Z +1 0 k((t))dtV((0))<+1; et lim t!+1 k((t))=0:
Ce qui donnela propositionsuivante
Proposition 1.5.2. Soit () une solution de l'EDO (.1.19) de condition initiale
0 .
Sous les hypotheses (A4:1) et (A4:2), si lim
t
(t) designe une valeur d'adherence de
((t)) t0 , alors lim t (t) 2fx 2 ; k(x)=0g;
>0etantchoisi tel que (0) 2
.
Remarque .11. Sila fonction k est seulement mesurable mais est telle que
8Æ >0;9">0 t:q: jxjÆ )k(x)";
alors laconclusion de laproposition1.5.2 est encorevraie.
Remarque .12. La methode de Lyapounov pour la stabilite des EDO fonctionne bien
lorsque la fonction k s'annuleen des points isoles. Lorsque ce n'est le cas, il convient
d'utiliserun resultatappeleTheoremed'invariance de LaSalle(voir[LL61]) pour s'en
sortir. Dans tous les cas que nous allons rencontrer, la fonction k s'annule en un seul
etunique point note
etce probleme ne se pose donc pas.
Maintenant nous allons de revisiter un resultat de convergence des algorithmes
sto-chastiques a pas constant. En fait nous nous contenterons de denir le cadre et de
presenter un premierresultat de convergence.
1.5.7 Un resultat general de convergence faible
Le resultat de convergence que nous enoncons ici est tire de [KY03]. On considere
l'algorithmestochastique projete suivant:
n+1 = K ( n Y n+1 ); n0; 0 2 K; (.1.20) d
Soit un hypercube fermede R d , Soit K =fx; q i (x)0; i=1;:::pgoup1 pour i=1;:::p,q i
()est une
fonc-tion reelle de classe C
1 denie sur R d telle que rq i (x)6=0 siq i (x)=0.
Lesecondcas generaliselepremieretestl'exemplelepluscourammentrencontredans
lesapplications.
Remarque .13. Dans le second cas, il est clair que K est une sous-variete, connexe,
compact etnon vide de R
d .
Les q
i
sont alors ce qu'on appelle les contraintes de l'algorithme. Une contrainte q
i
est dite active en un point x si q
i
(x) = 0. On pose A(x) = fi;q
i
(x)=0g l'ensemble
des indicesdes contraintes activesen x, eton noteC(x) lec^one convexe engendrepar
fy; y=rq
i
(x); i 2 A(x)gl'ensemble des normalesexterieurs en x.
Sionsuppose que pour chaque xtel queA(x)6=;, l'ensemblefrq
i
(x); i 2 A(x)gest
un systeme libre (au sens vectoriel du terme) alors on peut montrer que C(x) = f0g
en tout point x 2 K telque q
i
(x)6=0.
Remarque.14. IlestfaciledevoirquesiK estuneboulefermeedeR
d
alorsC(x)=f0g
en tout point x 2
Æ
K appartenant a l'interieurde K.
On peut toujours reecrire l'algorithme(.1.20) sous la forme
n+1 = n Y n+1 + Z n+1 ; 0 2 K; (.1.21) ou (Z n ) n1
est un terme de correction ou de projection sur K. On pose F
n = f k ; Y k
; kng latribuengendree par
k
etY
k
pour k n etonfaitleshypotheses
suivantes: (H 7 ) fY n
; n; g est uniformement integrable.
(H 8
) ilexiste des fonctions h
n
() uniformementcontinues en n et et des vecteurs
aleatoires" n tels que:E Y n+1 =F n =h n ( n )+" n+1 . (H 9
) ilexiste une fonction continue
h() telle que8 2 K lim m;n; 1 m P m+n 1 k=n h n () h () =0 (H 10 ) lim m;n; 1 m P m+n 1 k=n E " k+1 =F n =0 en moyenne.
Le symbole lim m;n;
signie que la limite est consideree pour m;n ! +1 et ! 0 de
quelquefaconquece soit. On denit lesprocessusinterpolesde l'algorithme(.1.21)de
lamanieresuivante:
D'abord pour t = 0, (0) = 0 et (t) = n
sur l'intervalle de temps [n ; n + [.
EnsuiteZ (0)=0etZ (t)= P [t= ] k=0 Z k
pourt>0. [a]designelapartieentiered'un
reela et par convention une somme sur un ensemble d'indice vide est nulle. Et enn
ondenit de maniere analogue leprocessus Y
().
Letheoreme suivant est prouvedans [KY03](page 248).
Theoreme .8. Sous leshypotheses(H
7 )-(H
10
), pour toute famillecroissante d'entiers
(N
)
>0
,pourtoutesous-suitedef
( N +);Z ( N
+); >0g,ilexisteune
sous-suitequenousnoteronsencoref
( N +); Z ( N +); >0getunprocessus((); Z()) telsque ( ( N +); Z ( N +)) L ! !0 (();Z()); avec (t)=(0)+ Z t 0 h((s))ds+Z(t):
De plus il existe un processus integrable z(t) tel que
Z(t)=
Z t
0
z(s)ds et z(t) 2 C((t));
pour presque tout t et !.
Lorsque K =R
d
(i.e. il n'y a pas de projection), si on fait l'hypothese supplementaire
que la suite (
n )
>0
est tendue alors les conclusions ci-dessus sont encore vraies avec
Z(t)0 8t>0. Remarque .15. Lorsque N = 0; 8 > 0 et (0) = 0 , le resultat de la convergence
faible du Theoreme .8 ci-dessus nous dit que la trajectoire
() est tres proche de
la trajectoire de la solution de l'EDO
:
(t) =
h((t));(0) =
0
avec une probabilite
arbitrairementgrande(uniformementparrapportalaconditioninitiale)quand !0.
Remarque .16. Moyennant quelques hypotheses supplementaires, on peut preciser la
vitessedeconvergencefaibleduTheoreme.8ci-dessus(voir[KY03]page319ou[BMP87]
chap.4). En eet onmontre que si
0 = 0 alors ( n 0 (n )) p L ! !0 N(0;);
etant une matrice de variance-covariance (ne dependant pas de ) et (
0 (t)) t0 la solutionde l'EDO : (t)=
1.6 Deux Lemmes d'Analyse
Nousrappelons simplementicideux lemmeselementaires (maisimportants)d'analyse
quiserons utilisesplus tard.
Lemme .9. (Lemme de Cesaro) Soient (u
n )
n0
une suite convergente et (a
n )
n1
une suite de nombres reelspositifs croissant vers l'inni. Alors la suite denie par
c n = 1 a n k=n X k=1 (a k a k 1 )u k ; n1;
converge vers lam^emelimite que (u
n )
n0
Lemme .10. (Lemme de Kronecker) Soient (s
n )
n0
une suite positive croissant
vers l'inni et (x
n )
n0
une suite reelle. On suppose que la serie de terme general
(x n =s n ) converge. Alors 1 s n k=n X k=1 x k !0:
(voir par exemple [WIL95] p.117)
1.7 Exemple d'Options en nance
Une option est un contrat entre deux ou plusieurs contre-parties portant sur un actif
sous-jacent (par exemple une action, un indice, un panier d'indices, une obligation,le
cours du petrole etc...) et qui donne a une des parties une prerogative sur les autres.
Lesoptionslesplus simplesquiexistentsont leCall(opitond'achat) etlePut (option
de vente) sur une action.
Apriori onpeut envisager un nombre innid'options (l'imaginationde l'hommeetant
sanslimite!). Nousnouscontenteronsicid'ecriretoutsimplementlepayodecertaines
optionsdont lesoptions utilisees pour des illustrations numeriques dans cette these:
Un Call (resp: Put) europeen de maturite T est une option sur un sous-jacent
S t
,de prixd'exercise (ou strike) K, garantie, ason detenteur, larichesse
max(S T
K;0) (resp: max(K S
T
Un Call asiatique de maturite T et de strike K est un Call standard, mais qui
porte sur la moyenne du cours du sous-jacent S entre 0 etT.
Lorsque lamoyenne est continue larichesse nale est donnee par:
(S t ; t 0)= 1 T Z T 0 S t dt K +
Alors que qu'elle vaut
(S ti ;i=1:::d)= 1 d d X i=1 S ti K + ;
lorsque lamoyenne est discrete.
Un Cap sur un taux d'inter^et r
t
, de maturite T, de taux strike K, aux dates
de paiement t 1 < t 2 < ::: < t n et t n+1
= T sur un nominal de L est une
option qui verse a son detenteur le ux L(r
t i
K) +
a chaque date de paiement
t i+1
; i=0;:::;n. Le payo de ce Cap est lasomme de tous les uxactualises
jusqu'a maturite,c'est-a-dire
L n X i=1 i Y j=1 1 (1+r t j ) h (r t i K) + :
Un Call barriere sur S de maturite T et de strike K donne a son detenteur le
droit d'acheter S
T
au prix K, a condition que le cours de S soit reste dans un
certain domaineD (optionOUT) ouen soitsortie (optionIN) entre 0etT. Par
exemple, avec une barriere haute (UP) larichesse nale s'ecrit:
I S t U (S T K) + :
Toutes ces options (et bien d'autres encore) peuvent ^etre de type americain: dans ce
Fonctions d'Importance et
Approximations Stochastiques en
Finance
Ce chapitre est l'objet d'un article paru dans la revue \The Journal of
Computa-tional Finance".
2.1 Introduction
L'usagedessimulationsMonteCarlopour l'estimationdu prixde certainsinstruments
nanciers est apparu en 1977 dans un article de P. Boyle. Aujourd'hui encore les
methodes de Monte Carlo restent tres competitifsdans le pricing etla couverture des
produitsderivesennance, surtoutsi cesproduits sontcomplexesoutoutsimplement
dependentd'unnombreeleved'actifssous-jacents. L'eÆcacited'unemethodedeMonte
Carloetant liee a la variance statistique de l'estimation, l'on essaye, tant que faire se
peut,d'utiliserdestechniques dereduction devariancepourameliorersaprecision. Le
but de ce chapitre, est de presenter l'une de ces techniques. C'est une methode
nou-vellebaseesuruneformulationsimpledelatechniquedesfonctionsd'importanceetsur
l'usagedesalgorithmesstochastiquesdetypeRobbins-Monro. Lesapproximations
sto-chastiques sont, depuislongtemps, largement utilises dans plusieursdomaines des
sci-ences(voirRubinstein etMelamed [RM98] pour plus dedetails), maisleur apparition
en nance numerique est recente (1998, Vazquez-Abad et Dufresne [VD98]). Newton
(1994[NEW94 ])amontrequ'entheoriedansunproblemede pricingen tempscontinu,
latechnique des fonctions d'importancepeut permettre d'avoir un estimateur de
enuvrecetteapproche,onutilisedoncdesapproximations(plusoumoinsgrossieres)
du prix pour avoir des approximations du drift optimal. L'approche de Glasserman,
Heidelberger et Shahabuddin (1999 [GHS99a] et [GHS99b]) est dierente: Plut^ot que
de considerer un changement de parametre stochastique (en temps continu), ils
limi-tentleursinvestigationsaunchangementdeparametredeterministeni-dimensionnel.
De fait cette restriction ne rend plus possible l'obtention d'estimateurs, du prix de
l'option, de variance nulle. Dans le papier que les auteurs ont publie a ce sujet, la
methodologie consiste a exhiber {en utilisant des techniques de Grandes Deviations{
une direction d'echantillonnage preferentiel lelong de laquelle une bonne
approxima-tion de la vraie variance de l'estimateur Monte Carlo est minimale. Vazquez-Abad
et Dufresne (1998 [VD98]) d'une part et Su et Fu (2002 [SF02]) d'autre part sont les
premiersacombinerlatechniquedes fonctionsd'importanceetune approximaton
sto-chastique de type gradientstochastique dans une methode de Monte Carloen nance.
L'approche que nous presentons ici est semblable a chacune des approches ci-dessus.
ToutcommeGlasserman,HeidelbergeretShabuddin(1999)nousutilisonslatechnique
des fonctions d'importance dans un cadre (celui du praticien) ou la simulation des
processus sous-jacents se fait a partir d'une suite de vecteurs gaussiens independants.
Maisnotremethodede recherchedeladirectionoptimaled'echantillonnagepreferentiel
est radicalementdierente. Ellesembleplus proche des travauxde Su et Fu(2002).
L'idee principale de notre approche est d'utiliserune version convenablement adaptee
desalgorithmesdeRobbins-Monropouroptimiserlechoixdeladirectiond'echantillonnage
preferentiel. Bienquelavitessede convergence decetyped'algorithmessoitengeneral
de l'ordre de C=
p
n, leur implementationest directe ettres facile.
La suite de ce chapitre se decompose comme suit: dans la prochaine section nous
presentons brievement le cadre mathematique et nancier suivie, dans la section 3,
d'une introduction rapide de la technique des fonctions d'importance (basee sur le
theoreme de Girsanov). Dans la section 4,nous presentons une methode de reduction
devariancebasee sur l'utilisationdes algorithmesstochastiquescombinee avec la
tech-niquedesfonctionsd'importance. Cettem^emesectioncontientunepreuveduprincipal
resultattheorique de ce chapitre,supportde lamethodologiequenous exposons ici.
2.2 Cadres mathematique et nancier
Nousmodelisonsleprixd'unactifsous-jacentdirectementsouslamesurerisque-neutre
par l'equationdierentielle stochastique suivante
dS t =S t (rdt+(t;S t )dW t ); S 0 =x; (.2.1)
avec r le taux d'inter^et sans risque, (t;y) la nappe de volatilite de l'actif, W
t un
d'arbitrage,dans un marche sans frictions, leprix d'une option de payo (S
t
;tT)
est donnee par laformule(voir par exemple [LL96])
C 0 =E[e rT (S t ;tT)]; (.2.2)
ouE designel'esperanceprise sous laprobabiliterisque-neutre.
Remarque.17. L'actifsous-jacentSpeut^etremultidimensionnel. Danscecas, chacune
de ses coordonnees verie une diusion du type (.2.1) et la formule (.2.2) reste vraie
en general.
En pratique, pour evaluer numeriquement une telle esperance, il faut le plus souvent
discretiser le processus de sous-jacent (S
t )
t0
. Nous nous limiteronsau cas oula
sim-ulationdu processus de sous-jacent est simplement gouvernee par une suite de copies
independantes de la loi gaussienne centree reduite. Ce n'est d'ailleurs pas un cas
particulier puisqu'on peut toujours, par une transformation lineaire, ramener le cas
correle a ce cas. Neanmoins, nous devons garder a l'esprit que lorsqu'une solution de
l'equation dierentielle stochastique (.2.1) n'est pas connue, la simulationde la
diu-sion (S
t )
t0
se fait apres une discretisation par un schema numerique de type schema
d'Euler. Nous admettons donc qu'une telle discretisation existe sur une grille de
temps 0=T 0 <T 1 <<T d
=T, qu'elle est acceptable, etnous nous focalisonssur
l'obtention d'estimateursprecis du prixC
0
. Ainsi nous approximons C
0 par ^ C 0 avec ^ C 0 =E[e rT ^ (S T 1 ;:::;S T d )];
quenous pouvons reecrire comme
^ C 0 =E[ (X)]; (.2.3) ou X = (X 1 ;:::;X d ) N(0;I d ) et I d
est la matrice identite de R
d
. La fonction
peut ^etre explicitee apartir de lafonction de payo
^
etde ladiscretisation de S.
Nous nous interessons maintenant a l'evaluation Monte Carlo de (.2.3) par une
tech-nique de fonctions d'importanceparametrique.
2.3 Fonction d'Importance
Latechniquedesfonctionsd'importanceparametriqueconsistea\shifter"laloideXen
luiajoutant un vecteur =(
1
;:::;
d
) de R
d
. Par un simple changement de variable
sur R
d
(ou une application d'une version elementaire du theoreme de Girsanov), on
peut reecrire (.2.3)sous laforme
^
avec g(;X)= (X +)e X 1 2 kk 2 ; (.2.5)
kxk et xy designant respectivement la norme Euclidienne d'un vecteur x 2 R
d et
le produit scalaire usuel de deux vecteurs x;y 2 R
d
. La famille (g(;X))
2R d
est
ainsi une famille parametrique d'estimateurs sans biais de
^ C 0
. L'idee naturelle est
d'essayerd'exhiberd'unetellefamillel'estimateurlepluseÆcace i:e:celuialavariance
la plus petite. Dans leur article [GHS99a] Glasserman Heidelberger et Shahabuddin
developpent une procedure de minimisation de la variance de g(;X) en fonction de
. L'idee est de chercher aeliminerla contributionde la partie lineaire de la fonction
ln( ()) a la formation de la variance totale de l'estimation. Par des techniques de
Grandes Deviations ils montrent que cela revient a faire un echantillonnage lelong de
ladirection
^
de R
d
solution du probleme de recherche de point xe:
rln ()=; 2R
d
t.q. ()>0:
Cette approche consiste en realite a remplacer le vrai probleme de minimisation
sto-chastiqueparunproblemeapprochedeminimisationdeterministe. Lamethodemarche
bien dans le cas de fonctions de payo assez regulieres et pour lesquelles la partie
lineairede ln( ())est preponderante.
Notre premierobjectif est d'etudierdirectementle vraiproblemede minimisationpar
des methodes stochastiques. Sionnote dans la suite H lafonction donnee par
H()=E[g
2
(;X)];
alors leprobleme a resoudre est lesuivant
min 2R
d
H(): (.2.6)
Le resultat qui suit nous permet de convertir ce probleme de minimsation en un
probleme de recherche de zero d'unefonction.
Proposition2.3.1. SupposonsqueP( (X)>0)6=0. Si E(
2a
(X))<1, avec a>1,
alors H est strictement convexe sur R
d et il existe un unique 2R d tel que H( )=min 2R d H(): (.2.7)
Remarque .18. En ecrivant les conditions d'optimalite de premier ordre pour H on
s'apercoit que leparametre optimal
est aussi l'unique solutionde l'equation
rH()=0; 2R
d
Preuve. Un simplechangement de variablemontre que H()=E h 2 (X +)e 2X kk 2 i =E h 2 (X)e X+ 1 2 kk 2 i : Considerons 2R d
telque kkK avec K >0 . Si onpose
F(;x) =( x) 2 (x)e x+ 1 2 kk 2 ;
alors onobtient sans diÆcultel'inegalite suivante
Z jF(;x)je 1 2 kxk 2 dxe K 2 2 Z (K+kxk)e Kkxk e (1 1 a ) 1 2 kxk 2 2 (x)e 1 2a kxk 2 dx:
Maintenant d'apresl'inegalitede Holder, ona
Z jF(;x)je 1 2 kxk 2 dxe K 2 2 Z (K+kxk) a a 1 e aK a 1 kxk e 1 2 kxk 2 dx 1 1 a Z 2a (x)e 1 2 kxk 2 dx 1 a : Mais E( 2a
(X)) < 1, entraine que la quantite
R jF(;x)je 1 2 kxk 2 dx est bornee des
que kk K. D'apres le theoreme de Lebesgue, on en deduit que la fonction H est
dierentiable et que
rH()=E[F(;X)] =E ( X) 2 (X)e X+ 1 2 kk 2 :
Enreiterantcetteargumentation,onmontresansdiÆculteparticulierequeH estdeux
foiscontin^uement dierentiable etque sa matricehessienne est donnee par
Hess H()=E I d +( X)( X) T 2 (X)e X+ 1 2 kk 2 ; I d
etant la matriceidentitede R
d
. CommeP( (X)>0)6=0 ona 8 u2R
d
f0g, u
T
designantle vecteur transpose de u,
u T Hess H()u=E kuk 2 +(u( X)) 2 2 (X)e X+ 1 2 kk 2 >0;
et la matrice hessienne de H est denie positive. Ainsi la fonction H est strictement
convexe sur R
d
. Pour terminerla preuve il suÆt de montrer que
lim kk!+1 H()=+1: Maisona H()e 1 2 kk 2 E 2 (X)e kkkXk 1 fkXk< kk 4 g e 1 4 kk 2 E[ 2 (X)1 fkXk< kk 4 g ]:
Ettoujours parce que P( (X)>0)6=0,on voit que lim
kk!+1
H()=+1:
On aaussi lecorollairesuivant
Corollaire .11. Si h() designe lafonction denie par
h()=rH(); 2R d ; (.2.9) alors on a h( )=0 et 8 2R d ; 6= h()( )>0; et lacondition de Lyapounov (H 1
) du Theoreme .5 est veriee.
Preuve. C'estune application directede laformulede la moyenne etde la
Proposi-tion 2.3.1.
Remarque .19. Plut^ot que de resoudre le vrai probleme (.2.7), l'on peut tres bien
chercher a resoudre leprobleme approche suivant
min 2R d ^ H(); avec ^ H():= 1 N N X i=1 F(;X (i) ); ou N 2 N est tres grand et X (1) ;:::;X (N)
est un echantillonde copies independantes
de X. En eet une fois ces trajectoires X
(i)
generees, le probleme approche devient
unprobleme simpled'optimisationdeterministequ'onpeutresoudre pardes methodes
bienconnuesd'Analysenumerique. CetteapprocheestparticulierementeÆcacelorsque
la loide X est a support ni ou m^eme denombrable. Pour plus de precision la dessus
l'on pourra se reporter a [SH00] etaux references qui s'y trouvent.
Laprincipaleideede cettepartiede notretravailde these consisteaexhiberunebonne
2.4 Une procedure de Reduction de Variance
D'apreslaProposition(2.3.1)etlaRemarque(.18),ilexiste un unique
2R d telque h(
)=0. Ce parametre nous fournitegalement l'estimateurMonte Carlog(
;X)de
varianceminimum de la quantite (.2.3), parmi tous lesestimateurs de m^eme forme.
En general, la fonction h est numeriquement inaccessible m^eme dans les cas les plus
simples. Onavu danslechapitreprecedent qu'unalgorithmestochastique delaforme
(.1.2) peut, dans de tels cas, ^etre utilise pour evaluer asympt^otiquement le parametre
.
D'apres le Corollaire .11, l'hypothese (H
1
) du Theoreme .5est veriee. De plus il est
evident que (H
2
) est veriee pour une large gamme de pas
n
. Si l'on implemente
directement cet algorithme, l'on s'apercoit parfois qu'il diverge tres rapidement. Cela
est d^u,commedans l'exemple de lasection 1.5.3 aufaitqu'une hypothese de laforme
(H 3
) ou(H
4
)est inveriabledans ce cas. En eet
Y n+1 :=F( n ;X n+1 )=( n X n+1 ) 2 (X n+1 )e n X n+1 + 1 2 k n k 2 ; (.2.10)
est l'observation de l'algorithme. Danscette expression (
n )
n0
represente l'agorithme
stochastique (.1.2) et (X
n )
n0
est une suite i.i.d. de vecteurs gaussiens selon laloi de
X. On rappelleque si F n =f 0 ; X k ; k ng;
ilvient facilementque
E[ Y n+1 =F n ]=h( n ):
On a observe numeriquement que la suite
(1+k n k 2 ) 1 E[kY n+1 k 2 =F n ] n0 explose
tres souvent avec n. Ce qu'on peut expliquer par la forme\en exponentielle du carre
de la norme de
n
" de la suite des observations de l'algorithme. Pour remedier acela,
nousallonsutiliserlamethodede projectionde Chenintroduiteauchapitreprecedent.
Remarque .20. On peut obtenirun theoreme limite centralpour l'algorithme
stochas-tique(.1.2). Uneetudetheorique plus ne de savitesse de convergence montre que la
vitesse optimale ( 1=
p
n) est atteinte pour des pas de convergence decroissant vers
zero comme1=n. Toutefois, en pratique l'on utilise des pas de la forme
n = +n ; >0:
et etant des parametres a regler pour avoir une bonne convergence numerique de