Université de Montréal
L'utilisation de règles de réseau en simulation comme technique de réduction de la variance.
Pm
Christ iane Lemie~x
Département d'informatique et de recherche opérationnelle Faculté des arts et des sciences
Thèse présentée à la Faculté des études supérieures en vue de l'obtention du grade de
Philosop hiae Doctor (P h.D.) en informatique
mai 2000
OChnstiane Lemieux, 2000
National Library
1*1 ofCamda BiMiotheque nationale
du Canada
"4 uisitions and Acquisitions et
Bib iognphic Services seMees bibliographiques
The author has granted a non- exclusive Licence ailowing die National L&my of Canada to
reproduce, loan, d i s t n i e or sell copies of this thesis in microform, paper or electronic formats.
The author retains ownership of the copyright in this thesis. Neither the
L'auteur a accorde une licence non exclusive permettant à la
Bibliothèque nationale du Canada de reproduire, prêter, distribuer ou vendre des copies de cette thèse sous la fome de microfiche/film, de
reproduction sur papier ou sur format électronique.
L'auteur consene la propriété du droit d'auteur qui protège cette thèse.
thesis .nor substantial extracts from it Ni la thése ni des extraits substantiels may be printed or otherwise de ceile-ci ne doivent être imprimés reproduced without the author's ou autrement reproduits sans son
permission. autorisation.
Université de Montréal
Faculté des études supérieures
Cette thèse intitulée:
L'utilisation de régles de réseau en simulation comme technique de réduction de la variance.
présentée par:
Christiane Lemieux
a été évaluée par un jury composé des personnes suivantes:
Felisa J. Viizquez-Abad
(président-rapporteur)
Pierre L'Ecuyer
(directeur de recherche)
Yoshua Bengio
(membre du jury)
Luc Devroye (emminateur externe)
Christian Léger
(représentant du doyen)
Thèse acceptée le:
Sommaire
Dans cette thèse, nous étudions comment les régles de réseau peuvent être utilisées en simulation comme méthode de réduction de la variance.
Nous nous intéressons d'abord aux règles de réseau "standard" et donnons des ex- pressions et des bornes pour la variance des estimateurs obtenus en utilisant différentes randomisations. Nous présentons ensuite un nouveau crithre de sélection basé sur les projections de le règle de réseau sur les sous-espaces de l'hypercube unitaire en s di- mensions sur lequel la règle est définie. Des résultats numériques obtenus sur divers problèmes pour lesquels la simulation est typiquement utilisée sont donnés, afin de comparer les règles de réseau avec la méthode Monte Carlo. Ces résultats illustrent également l'utilité du nouveau critère.
Puis, nous passons aux règles de réseau polynômiales et à leur lien avec les (t, m, s)- réseaux. Des résultats théoriques sur la variance des estimateurs associés à ces règles et un nouveau critère de sélection sont dérivés de façon analogue au cas standard. Nous donnons également des résultats numériques permettant de voir comment ces règles se comparent en pratique avec la méthode Monte Carlo et les règles standard.
Finalement, nous présentons des résultats illustrant la différence entre les règles
de rang 1 et celles de type ur-copie. Les résultats théoriques sont appuyés par des
exemples numériques comparant ces deux types de règles sur différents problèmes et
par rapport à certains critères de sélection.
Table des matières
Sommaire
Liste des tableaux
iii
viii
Liste des figures x
Liste des sigles et abréviations xi
Remerciements xiv
1 Introduction 1
. . .
1.1 Problématique 1
. . .
1.2 Survol de la littérature 13
. . .
1.3 Contributions de cette thèse 18
2 Réduction de variance par des règles de réseau randomisées 23
. . .
2.1 uitroduction aux règles de réseau 24
. . .
2.1.1 Définition d'une règle de réseau 24
. . .
2.1.2 Types de règles de réseau considérés 27
. . .
2.1.3 Règle pro jection-régulière 29
. . .
2.1.4 Critères de sélection traditionnellement utilisés 29
. . .
2.1.5 Randomisation par translation aléatoire 33
. . .
2.1.6 Lien avec les générateurs à congruence linéaire 33
. . .
2.1.7 Test spectral 34
. . .
2.2 Randomisation par translation aléatoire 36
2.2.1 Variance de l'estimateur obtenu par translation aléatoire . . . . 37 . . .
2.2.2 Bornes sur la variance 40
2.2.3 Réduction de variance par rapport à Monte Carlo . . . 42 2.2.4 Autres approches que celles utilisant les séries de Fourier . . . . 51
. . .
2.2.5 La pratique à la rescousse de la théorie 53
. . .
2.3 Permutations des coordonnées 54
. . .
2.3.1 Vanance de l'estimateur obtenu par permutation 55 2.3.2 Comparaison avec la méthode de l'édiantillonage de l'hypercube
. . .
latin 59
2.3.3 Application aux règles de réseau translatées aléatoirement . . . 60 . . .
2.4 Stratification 61
. . .
2.5 Résultats numériques 64
. . .
2.5.1 Réseau stochastique d'activités 65
. . .
2.5.2 Options asiatiques 68
. . .
2.5.3 Probabilité de ruine 73
3 Criteres de sélection et projections sur les sous-espaces de 19hyper-
cube 81
. . .
3.1 Décomposition -4NOVA 82
. . .
3.1.1 Composantes ANOV.4 de f 83
. . .
3.1.2 Dimension effective 83
3.2 Propriétés des projections de l'ensemble de points PN . . . 84 . . .
3.3 Décomposition ANOVA et série de Fourier 87
. . .
3.4 Cas où f est un polynôme 90
. . .
3.4.1 Calcul des coefficients de Fourier 91
3.4.2 Définition de la mesure de qualité Pa#) . . . 92 . . .
3 .1.3 Expression et borne pour la variance 96 3.4.4 Conditions pour que la variance soit réduite . . . 98
. . .
3.4.5 Cas particuliers où d = l ou d = 2 103 3.5 Nouveau critère de sélection pour les règles de réseau . . . 110
. . .
3.5.1 h1otivation 111
3.5.2 Critère Pz d'Hickernel1 . . . 111
3.5.3 Liens entre p ' et le test spectral pondéré (weighted spectral test [42]) . . . 113
3.5.4 Définition du nouveau critère . . . 114
3.5.5 Choix des paramètres d . t i . .... t . . . 117
3.5.6 Lien avec d'autres critères . . . m . . . - . . . 118
3.6 Résultats numériques . . . 120
. . . 3.6.1 Tableaux de règles choisies avec le nouveau critère 120 3.6.2 Résultats sur une fonction-test . . . 123
3.6.3 Résultats sur le problème des options asiatiques . . . 125
3.6.4 Comparaison entre Mt
,# .S..t , et p: . . . 127
4 Règles de r4seau polynômiales 130 4.1 Introduction aux règles de réseau polynômiales . . . 131
4.1.1 Définition d'un générateur de Tausworthe . . . 132
4.1.2 Implantation et générateurs combinés . . . 132
4.1.3 Résolution . . . 133
4.1.4 Règles de réseau polynômiales . . . 134
4.1.5 Randomisation par XOR-t ranslation . . . 136
4.1.6 Définition des (t, m, s)-réseaux . . . 136
4.2 Décomposition en série de Walsh . . . 138
4.3 Liens avec les (t, rn, s)-réseaux . . . 139
4.4 Nouveau critère de sélection . . . 148
4.3 Variance des estimateurs construits à partir de règles de réseau po- lynômiales . . . 152
4.5.1 Liens entre la décomposition ANOVA et celle en sene de Walsh 155 4.5.2 Bornes sur la variance données en fonction du critère de sélection 156 4.5.3 Comparaison avec les (t , m, s)-réseaux brouillés . . . 163
4.5.4 Bornes sur la variance : autres cas . . . 168
4.6 Résultats numériques . . . 172
4.6.1 Résultats des recherches . . . 173
vii 4.6.2 Options asiatiques . . . 174
4.6.3 Fonction-test . . . 178
5 Regles de type ur-copie 182
5.1 Rappels sur les avantages des règles de type v'copie . . . 183
5.2 Projections des règles de type vr-copie . . . 184 5.3 Performance par rapport à différents criteres de sélection . . . 192
. . .
5.3.1 Utilisation du critère P: 193
. . .
5.3.2 Utilisation du critère P: 195
. . .
5.3.3 Critère M,.., et règles de type ur-copie 197
. . .
5.4 Exemples numériques 198
. . .
5.4.1 Options asiatiques 198
. . .
5.4.2 Fonction-test 201
6 Conclusion 206
A Contre-exemple
B Démonstrations
C Exptiences avec le critère &!ttttt
D Expériences additionnelles sur une fonction-test
xvi xxiii
E Représentation des fonctions de base de la serie de Walsh B l'aide
d'une matrice d'Hadamard xivii
Liste des tableaux
2.1 Facteurs de réduction de variance estimés pour l'exemple du RSX . . . 67
. . .
2.2 Rapports CPU des différentes méthodes 68
2.3 Facteurs de réduction de variance estimés pour l'exemple des options
. . .
asiatiques 71
2.4 Facteurs de réduction de variance amenés par fiçtr par rapport B. bLR . 73
. . .
2.5 Méthode DUAL 77
. . .
2.6 Méthode DUAL. cas où N < 21 78
. . .
2.7 Méthode IS 79
. . .
2.8 Méthode REG 79
3.1 Meilleurs a par rapport à Mt ... t,. où t l = ... = t d . 1 5 d 1. pour
. . .
différentes valeurs de N 121
3.2 Meilleurs a par rapport à Mt
.a....pour certaines valeurs de (d. tl. .... t d )
. . .
et N 122
. . .
3.3 Facteurs de réduction de variance moyens. a = 3 123
. . .
3.4 Erreurs relatives moyennes. a = 3 [27] 124
. . .
3.5 Facteurs de réduction de vaxiance estimés 125
. . .
3.6 Facteurs de réduction de variance estimés. s = 60 126
. . .
3.7 ~eilleurs o par rapport à 1u8$4 e t Pt 128
. . .
3.8 Facteurs de réduction de variance estimés 128
. . .
4.1 Borne donnée à la proposition 4.4.2 151
4.2 Meilleurs générateus combinés avec leur dio. . . . 173 . . .
4.3 Meilleurs générateurs combinés avec leur 632. 174
. . .
4.4 Facteurs de réduction de variance. estimateur naïf 175 4.5 Facteurs de réduction de variance. estimateur ACV . . . 176
. . .
4.6 Règle de réseau polynômiale MIE. nt = 16 176 4.7 Règles choisies avec 4 3 2 . 32132r s = 60 . . . 177 4.8 Fonction-test. règles choisies avec AioIlo. et MloIlolio . . . 179 4.9 Fonction-test . règles choisies avec h32.32. et d'f32132. 32 . . . 180
. . .
5.1 Règles 2'-copie et règles de Korobov. s = 6 194 5.2 Règles 2'-copie et règles de Korobov. s = 12 . . . 195
. . .
5.3 Résultats pour s = 6. avec a = ... = = J3/0 196
. . .
5.4 ~ é s u i t a t s pour s = 12. avec a = ... = p, = J3/0 196
5.5 Meilleures règles de type P-copie par rapport à MG. 6b . . . 197
. . .
5.6 Facteurs de réduction de variame. estimateur naïf 199
. . .
5.7 Facteurs de réduction de variance. estimateur ACV 200
. . .
5.8 Règles 2..copie et règles de Korobov. s = 4 202
. . .
5.9 Facteurs de réduction de variance. s = 4 202
. . .
5.20 Facteurs de réduction de variance. s = 6 203
. . .
5.11 Facteurs de réduction de variance. s = 12 203
. . .
5.12 Facteurs de réduction de variance. critère p2 204
c.1 MeiIieurs a par rapport à ~ t & ~ . ~ ~ . et kf32.329 32 . . . ?diii D.1 bIeilleurs a par rapport à b130t fb!30.21. 12 et fbf30~30.30 . . . dv
. . .
D.2 Facteurs de réduction de variance moyens. a = 3 xlvi
Liste des figures
1.1 Règle de réseau en deux dimensions . . . 6
1.2 Règle de réseau polynômiale avec N = 64 . . . 10
. . .
2.1 Un réseau avec son réseau dual 25
2.2 Règle 22-copie . . . 28 . . .
2.3 Illustration du regroupement : cas où N = 7 50 2.4 f ( x . y) . . . 53 2.5 Illustration de la stratification . . . 61
. . .
2.6 Exemple d'un RSA. tiré de [5] 65
. . .
2.7 Exemple d'une trajectoire de X ( t ) 75
. . .
4.1 Exemple d'ensemble !P2 pour un générateur de Tausworthe 134 A.1 f ( x . y) . . . xv
A.2 Ensembles L i j . . . xvi
. . .
A.3 Régions déterminées par les cas 1 à 5 xix
Liste des sigles et abréviations
F2 = Corps de Galois contenant deux éléments,
2.i.d. = indépendants et identiquement distribués, ppcm(a, b) = plus petit commun multiple entre a et 6,
pgcd(a, 6) = plus grand commun diviseur entre a et b, sgn(h) = Ihllh?
b0
C(y) = P , fonction zeta de Riemann évaluée en y,
t=
t
ej = je vecteur canonique de Rs,
= (0, . . . ,O, 1,0,. . . , O), où le 1 est en je position,
1 = sous-ensemble de S,
Ï = ensemble obtenu à partir de I = (àI,. . . , it} en enlevant il - 1 à chaque i j ,
= {1, i2 - zl + 1,. . . , it - zi + 1},
r(1) = étendue de 1,
xii
S(t, k) = ensemble des I contenant k indices dont le premier est 1 et le dernier est t ,
= { 1 = {il' ..., ik} : 1 = i l < ... < ik < t } ,
S ( t , 1) = ensemble des I à indices successifs, tels que 1 5 II( < t,
t s-j+l
= U U { { w , w + 1 , . . . , w + j-I)),
j=l w = l
H ( t l, . . . , tdi d ) = ensemble des I tels que Ï est dans S(t,, u) , pour 2 5 u d, ou
est de la forme {l, ..., j}, avec 1s j 5 t l ,
= U { r : 111 = U, T ( I ) 5 t u ) u S(tl, i),
2 9 9
xi = ( y i , . . . , xir) est un point dans [O, l)',
PN = {xi,. . , x N ) dénote un ensemble de N points,
Plv(I) = projection de PN sur le sous-espace de [O, 1)" déterminé par les indices daas 1,
L~ = réseau duai à L, où L est tel que PLV = L n [O, l ) S ,
Lt = {h E H I'' : h E B, pour tout x E PM}, Ih = ensemble des coordonnées non-nulles de h,
= { j : hj # O ) ,
N; = {h E NS : Ih = I ) , en supposant que N = {O, 1,2,. . .),
s w
h x = h j , k - i ~ j , k mod 2, OÙ les hjt et les x,,I. sont les coef-
j=l k=l
ficients de l'expansion binaire de hj et xjy respectivement,
POU hi E N LJ {O} et x j E [O, 11,
kr = (kj) OU les kj sont des entiers non négatifs,
H ( k r ) = ensemble des vecteurs h E Ni tels que Ihjlp = 2 k ~ pour tout
n = C kjl pour un vecteur kr donné,
I C I
t\CV = (Antithetic variates and Control Variable), COND = Conditionnement,
IS = (Importance Sampling), LHS = (Latin Hypercube Sampling),
LR = (Lottice Rule) translatée; voir section 2.2,
LRp = (Lattice Rule) permutée, puis translatée; voir section 2.3,
LRSt = (Lottice Rule) Stratifiée; voir section 2.4, k1CC = Monte Carlo Conditionnelle,
VC = Variable de Contrôle.
Remerciements
Je remercie d'abord les fonds FCAR et CRSNG pour leur soutien financier tout au long de mes études de maîtrise et de doctorat.
Je tiens à exprimer ma gratitude envers mon directeur de thèse, Pierre L'Ecuyer, pour m'avoir permis de participer à plusieurs conférences, pour les nombreuses portes qu'il m'a ouvertes, les bonnes idées qu'il m'a données et pour le fait qu'il exige toujours un travail de qualité.
Ensuite, je veux remercier Raymond Couture, car il a contribué de façon impor- tante à ce travail, notamment en ayant l'idée de la ?(OR-translation pour les règles de réseau polynômiales et en me redirigeant dans L e bon chemin pour l'étude des fonctions monotones.
Les discussions avec Felisa Vazquez-Abad, en particulier au sujet des options asia- tiques, ainsi que celles avec Art Owen et Geneviève Gauthier m'ont également aidée.
Merci à Renée Touzin et François Panneton, pour les différents programmes de re- cherche qu'ils ont écrits et dont je me suis servi, aux membres du soutien technique du département, pour leur fiabilité et leur efficacité, et à Richard Simard, pour son aide en programmation.
De plus, je tiens à remercier les membres du jury pour leurs commentaires et suggestions qui ont permis d'améliorer la présentation de cet ouvrage.
Je ne peux passer sous silence l'apport considérable de John Watrous à la réalisation de ce travail. Il m'a non seulement aidée à résoudre certains problèmes mathématiques, mais sa sagesse et ses encouragements m'ont été d'un immense réconfort.
Finalement, je veux remercier mes frères et soeurs. Étant la plus jeune d'une famille
de six enfants, je n'ai jamais eu à chercher bien loin pour trouver des modèles à tenter
d'imiter et des chemins intéressants à suivre. Merci à mes parents, Lise e t Vincent
Lemieux, pour la confiance qu'ils ont toujours eue en moi et en mon jugement, ainsi
que pour leur soutien implicite et constant dans ma quête d'indépendance.
Chapitre 1 Introduction
Nous énonçons à la section 1.1 le problème qui est discuté dans cet ouvrage, fai- sons à la section 1.2 un résumé des travaux les plus importants qui lui sont reliés et énumérons les contributions qui y sont faites à la section 1.3. Les définitions formelles qui sont requises pour énoncer les résultats de cette thèse sont données au début des chapitres 2 et 4.
1.1 Problématique
Si l'intégrale
d'une fonction f à valeur réelle définie sur l'hypercube unitaire en s dimensions n'a pas de solution analytique, on peut choisir un ensemble de points PN = { x ~ , . . . , x N } c
[O, l)s et estimer p par la valeur moyenne de f sur PN, donnée par
Lorsque la dimension s est petite et que la fonction est suffisamment régulière, on peut constsuire I'ensemble PN en appliquant sur chacune des s dimensions une règle qui fonctionne bien en une dimension : ceci correspond aux règles de type produit.
Un cas particulier de cela consiste à prendre une grille rectangulua~e, c.-à-d., à poser
Piv={(mi/n ,..., m , / n ) : O ~ m t S n - l , l < t 5 s ) , o h N = n s .
Si la dimension s est modérément grande (disons, supérieure à 4 ou 5) ou que la fonction n'est pas très régulière, la méthode de Monte Curlo (MC) est plus appropriée.
Cette méthode, introduite par Metropolis et U l m en 1949 [91], consiste à prendre
N points i i d (indépendants et identiquement distribués) uniformes sur [O, l)b pour construire PM. Si on dénote par PMc la valeur de Q N obtenue avec un tel ensemble, alors on a que
E()IMc) = V ~ ~ @ M C ) =
0 2 / ~ toù o2 = ho,,). f 2 ( x ) d x - pz est la variance de f (x) lorsque x - U([O, 1)l). De plus, en supposant que a2 < 00, on obtient par le théorème de la limite centrale que
où Op(g(n)) = {h(n) : il existe no E N, c E ni tels que Pr(h(n) 5 cg(n)) 2 p, si n >
na), pour p E (0,1]. Ainsi, le comportement asymptotique (en fonction de N ) de l'erreur ne dépend pas de la dimension s du problème. Par contre, la dimension s peut influencer l'erreur de façon indirecte en agissant sur a.
Un avantage de cette méthode est que la relation (1.2) nous permet d'estimer l'erreur en se basant sur l'écart-type échantillonal o. De plus, la variance de l'estimateur
fiMC peut étre estimée par a2/iV. Autrement dit, la méthode M C nous fournit non seulement un estimateur de p, mais aussi une idée de la précision de cet estimateur.
Quel est le lien entre cette méthode et la simulation stochastique? Cette dernière est une technique utilisée pour estimer une mesure de performance donnée sur un système qui évolue de façon stochastique. Elle consiste à programmer sur ordinateur un modèle mathématique du système avec certaines entrées (aléatoires) et observer les résultats. La mesure de performance peut habituellement s'écrire comme étant
où (q, . . . , Yb$) est l'ensemble de variables aléatoires correspondant aux entrées du
modèle. Le nombre de variables M peut également être aléatoire. Dans le programme
de simulation, les Miiables aléatoires YI,. . . , YM sont générées en transformant des
nombres pseudo-aléatoires entre O et 1, c.-à-d., des nombres qui imitent des &ables
uniformes i.i.d. sur [O, 1). Pour cette raison, par simple changement de vaxiables, la mesure de performance (1.3) peut être réécrite sous la forme (1.1), c.-à-d.,
où u E [O, 1)' est le vecteur de variables (pseudo-)aléatoires entre O e t 1 nécessaires pour générer Y I , . . . , Ynr La dimension s peut être infinie, car même si chaque simulation requiert un nombre fini y de variables uniformes, ce nombre y peut être aléatoire et il se peut qu'il n'y ait pas de borne s telle que la probabilité que y soit inférieur à s soit égale à 1. En somme, la reformulation de (1.3) à (1.1) nous permet de dire que la simulation stochastique correspond en fait à utiliser la méthode MC afin d'estimer l'intégrale d'une fonction souvent compliquée et de dimension habituellement grande ou même infinie. L'exemple suivant sert A illustrer comment le passage de (1.3) à (1.1) se fait sur un problème simple. Nous verrons aux sous-sections 2.5.1 et 2.5.2 deux autres exemples de reformulation sur des problèmes un peu plus compliqués.
Exemple 1.1.1 Supposons que l'on veut estimer E ( W ~ , , ~ ) ~ l'espérunce de la durée de séjour moyenne des 100 premiers clients d'un système de file d'attente de type G I / G I / l (c.-à-d., il y a un seul semeur et les durées intemm'vées entre les clients ainsi que les durées de service sont des vafiables aléatoires indépendantes [69]), pour lequel la politique de semice est "premier crm*vé premier semi". En dénotant par Si la durée de service du ze client et par Ai la durée interarrivée entre le (i - 1)= et le ie
1