IFT 6561 Simulation: aspects stochastiques

(1)

IFT 6561

Simulation: aspects stochastiques

Fabian Bastin DIRO

Universit ´e de Montr ´eal

Automne 2013

(2)

Variables al ´eatoires uniformes

But: produire des suites de nombres qui ont l’air d’ ˆetre choisis compl `etement au hasard:

suites de bits:

011010100110110101001101100101000111...

suite d’entiers de 0 `a 100: 31, 83, 02, 72, 54, 26,. . . permutation al ´eatoire

suite de nombres r ´eels entre 0 et 1.

Fabian Bastin IFT6561

(3)

M ´ecanismes physiques

Lancer les d ´es, bouliers, roulettes. . .

bruit thermique dans les r ésistances de circuits electroniques, capteurs de radiations, autres m écanismes bas és sur la physique quantique,

microsecondes de l’horloge de l’ordinateur, ou d’un temps d’acc `es au disque, etc.

Contient de la vraie entropie (incertitude), mais encombrant, pas facilement reproduisible, pas toujours fiable, peu ou pas d’analyse math ´ematique possible. Certains de ces

m écanismes sont brevet és. Plusieurs sont disponibles commercialement. Pour ameliorer les propri ét és statistiques:

combiner des blocs de bits (XOR).

(4)

G én érateurs algorithmiques (ou pseudo-al éatoires)

Une fois les param ètres et l’ état initial du g én érateur pseudo-al éatoire (GPA) choisis, la suite produite est compl ètement d éterministe.

Avantages: pas de mat ´eriel `a installer, un logiciel suffit;

souvent plus rapide; on peut facilement r ép éter la m ême s équence.

D ´esavantages: ne peut pas cr ´eer de l’entropie. Il y a

n ´ecessairement des d ´ependances entre les nombres en sortie.

(5)

GPAs

Qualit ´es requises? D ´epend des applications.

Jeux d’ordinateurs personnels: l’apparence suffit.

Simulation stochastique (Monte Carlo): on veut que les propri ét és statistiques du mod èle math ématique soient bien reproduites par le simulateur.

G ´en ´erateurs algorithmiques

Loteries, machines de casinos, casinos sur internet,. . .: il ne faut pas que quiconque puisse obtenir un avantage pour inf ´erer les prochains num ´eros ou encore des combinaisons plus probables. Conditions plus exigeantes que pour la simulation.

G én érateurs algorithmiques + m écanismes physiques

(6)

Besoins pour la simulation stochastique

Cryptologie: encore plus exigeant. L’observation d’une partie de la sortie ne doit nous aider d’aucune mani `ere `a deviner quoi que ce soit dans le reste.

G én érateurs algorithmiques non-lin éaires avec param ètres al éatoires

Souvent: contraintes sur les ressources disponibles pour les calculs.

On utilise habituellement un GPA qui imite une suiteU₀,U₁, U₂,. . . de variables al éatoires ind épendantes de loi uniforme sur l’intervalle(0,1). Pour g én érer des v.a. selon d’autres lois, on applique des transformations à cesU_j.

(7)

Mythes

Mythe 1

Apr ès au moins 60 ans à étudier les GPA et des milliers d’articles publi és, ce probl ème est certainement r égl é et les GPA disponibles dans les logiciels populaires sont

certainement fiables.

Mythe 2

Dans votre logiciel favori, le generateur a une periode sup ´erieure `a 21000. Il est donc certainement excellent!

Exemple 1. u_n= (n/2¹⁰⁰⁰) mod 1 pourn=0,1,2, . . . Exemple 2. Subtract-with-borrow.

(8)

G ´en ´erateur U(0, 1): principe de base

D ´efinir une fonction de transition f :S → S,

o ùS est l’espace d’ état, de cardinalit é finie.

L’ ´etat initial (germe, semence):s₀. R ´ecurrence:

s_n=f(s_n−1).

Supposons de plus quef est p ériodique pour toutn≥τ connu (souvent égal à 0), de p ériodeρ≤#S: s_n+ρ=s_n,∀n≥0. On supposeraτ =0

Espace de sortie:U = (0,1).

(9)

G ´en ´erateur U(0, 1): principe de base

Fonction de sortie

g :S → U

transforme l’ ´etatsndans la valeur de sortieun.

· · · −−−−→^f sρ−1 f

−−−−→ s₀ −−−−→^f s₁ −−−−→ · · ·^f −−−−→^f sn f

−−−−→ · · ·

g



y ^g



y ^g



y ^g



 y

· · · u_ρ−1 u₀ u₁ · · · u_n · · ·

Comment choisirf etg?

Buts: grandρ, bonne uniformit ´e, comportement ”al ´eatoire”.

(10)

Objectif

En observant seulement(u₀,u₁, . . .), il doit ˆetre difficile de distinguer cette suite de la r ´ealisation d’une suite de v.a. i.i.d.

uniformes surU.

Utopie: ne pas pouvoir distinguer mieux qu’en tirant `a pile ou face. Autrement dit, que la suite passe tous les tests

statistiques imaginables. Cela est impossible!.

On veut aussi: vitesse, facilit ´e d’implantation, suites

reproduisibles. Compromis entre vitesse / bonnes propri ét és statistiques / (im)pr évisibilit é. Si l’ état initials₀est choisi au hasard, le GPA est comme une roulette g éante: pour g én érert nombres al éatoires, on tourne la roulette pour choisirs₀, puis on retientu = (u₀, . . . ,u_t₋₁).

Machines de casinos et loteries: on r ´einitialises₀tr `es souvent.

(11)

La loi uniforme sur [0, 1]

^t

Choisirs₀au hasard correspond `a choisir un point au hasard dans l’espace ´echantillonnal

Ψt ={u= (u₀, . . . ,u_t−1) = (g(s₀), . . . ,g(s_t₋₁)),s₀∈ S},

qui peut être interpr ét é comme une approximation de[0,1]^t. Crit ère:Ψt doit recouvrir[0,1]^t tr ès uniform ément pourt jusqu’ à (disons)t₀. Il nous faut une mesure d’uniformit e deΨ_t (ou une mesure de discr epance entre la loi empirique deΨt et la loi uniforme). Plusieurs d éfinitions possibles.

(12)

La loi uniforme sur [0, 1]

^t

Important: doit être facilement calculable sans g én érer les points.

Pour cela, il faut bien comprendre la structure math ématique de Ψt. Pour cette raison, la plupart des GPA utilis és en simulation sont bas és sur des r écurrences lin éaires (simples).

Pourquoi ne pas insister queΨ_t lui-m ˆeme ressemble `a un ensemble de points choisis au hasard (e.g., ne soit pas trop uniforme)? En fait, on veut cela seulement pour la fraction infime deΨ_t que l’on utilise.

G én éralisation: mesurer l’uniformit é de Ψ_I ={(u_i

1, . . . ,u_i_t)|s₀∈ S}pour une classe choisie d’ensembles d’indices (non successifs) de forme I={i₁,i₂, . . . ,it}. Pour une famille donn ´eeJ de

sous-ensembles de{0,1, . . . ,t}, on s’assure queΨ_I est suffisamment uniforme pour toutI∈ J.

(13)

G én érateur congruentiel lin éaire (GCL)

D ès 1948 furent introduits des g én érateurs de la forme ax +c mod m.

En supposant tout d’abord quec vaut 0 (comme dans l’approche propos ´ee par Lehmer), la p ´eriode maximale est m−1 et est atteinte si et seulement simest premier etaest une racine primitive dem.

r est une racine primitive demsi les puissances der (1,r,r², r³,. . . ) g ´en `erent tous les entiers non-nuls modulom.

(14)

G én érateur congruentiel lin éaire (GCL)

Puisqu’il y am−1 entiers non nuls, ceci signifie que les premi èresm−1 puissances der doivent être diff érentes, modulom.

De mani `ere ´equivalente, nous pouvons parler de l’ordre der. L’ordre d’une raciner demest le plus petit entier (strictement) positifx tel quer^x =1 modm.

r est une racine primitive si son ordre estm−1. Il est possible de montrer que ceci ´equivaut `a exiger quea^(m−1)/p−1 est un multiple dempour chaque facteur premierpdem−1, ou encore le plus petit entierlpour lequelr^l−1 est divisible parm estl=m−1.

(15)

G én érateur congruentiel lin éaire (GCL)

Les g én érateurs congruentiels lin éaires qui remplissent ces conditions sont appel és GCL’s multiplicatifs à modulus premier.

Notons que la conditionmpremier suffit pour garantir

l’existence d’un g én érateur de p ériode maximale, en vertu du th éor ème ci-dessous.

Th ´eor `eme.

Si m est premier, il existe une racine primitive pour m.

Il n’existe malheureusement pas de m ´ethode simple pour calculer ces racines.

(16)

GCL: exemple

Sim=7, alors 3 est une racine primitive demcar les puissances de 3 modulo 7 sont 1, 3, 2, 6, 4, 5, c’est- `a-dire chaque entier strictement compris entre 0 et 7. Mais 2 n’est pas une racine primitive demcar les puissances de 2 modulo 7 sont 1, 2, 4, 1, 2, 4, 1, 2, 4,. . .

(17)

G én érateur congruentiel lin éaire (GCL)

Sic6=0, il est possible d’obtenir une p ériode égale àm, sous les conditions expos ées dans le th éor éme ci-dessous. Le GCL a une p ériode pleine si et seulement si les trois conditions suivantes tiennent:

1 le seul entier positif qui divise de mani `ere exacte `a la fois m et c est 1;

2 si q est un nombre premier qui divise m, alors q divise a−1;

3 si 4 divise m, alors4divise a−1.

(18)

G ´en ´erateur standard minimal

Park et Miller ont propos é un g én érateur standard qu’ils ont appel é le Standard Minimal g én érateur Standard Minimal, apr és avoir test é divers g én érateurs connus au moment de leur

´etude.

Bien qu’il suffise pour les applications simples, les g én érateurs pr ésent és dans les sections suivantes le surpassent largement, et par cons équent, il est d éconseill é de l’utiliser pour des simulations complexes.

Le Standard Minimal est un g én érateur congruentiel lin éaire d éfini par la r écurrence

x_n+1=16807x_n mod(2³¹−1).

(19)

Implantation de g én érateurs congruentiels lin éaires

Une difficult ´e principale est de calculerax mod mpour de grandsm, ce qui entraˆıne des risques de d ´ebordement de registres.

Premi `ere approche. Factorisation approximative.

Cette m ´ethode est valide si

a²<m ou

a=bm/ic,

aveci²<m, et proc `ede par des calculs sur des entiers.

(20)

Factorisation approximative

Pr ´ecalculonsq:=bm/acetr :=m moda, puis y :=bx/qc;

x :=a(x−yq)−yr.

Six <0, nous posonsx :=x+m. Justification:

ax modm = (ax − bx/qcm) mod m

= (ax − bx/qc(aq+r)) modm

= (a(x− bx/qcq)− bx/qcr) modm

= (a(x mod q)− bx/qcr) modm.

Sous les conditions pos ées, il est imm édiat de noter que toutes les quantit és interm édiaires demeurent entre−metm.

(21)

Factorisation approximative: implantation

En C, la proc ´edure peut s’exprimer comme suit:

long q, r, y;

q = m/a;

r = m%a;

y = x/q;

x = a*(x-y*q)-y*r;

if (x < 0) x += m;

(22)

Calculs en point flottant, double pr ´ecision.

La proc édure est valide si tous les entiers à consid érer peuvent être repr ésent és de mani ère exacte en passant en calcul flottant. En particulier, si la double pr écision fait appel à 64 bits, et suit la norme IEEE, la proc édure suivante est correcte si am<2⁵³:

doublem,a,x,y; intk;

y =a∗x; k =by/mc; x =y−k∗m;

(23)

D ´ecomposition en puissances de 2.

Supposons quea=±2^q±2^r etm=2^e−hpourhpetit. Dans ce cas,

ax modm=±2^qx modm+±2^rx modm.

Pour calculery =2^qx modm(le calcul de 2^rx est similaire), nous d ´ecomposonsx enx₀+2^e−qx₁.

x = x1 x0

q bits (e−q)bits

(24)

D ´ecomposition en puissances de 2.

Pourh=1 (Wu, 1997), on obtienty en permutantx₀etx₁. En effet,

2^qx modm=2^q(x₀+2^e−qx₁) mod (2^e−1)

=2^qx₀+ [2^ex₁ mod (2^e−1)]

=2^qx₀+x₁.

(25)

D ´ecomposition en puissances de 2.

Pourh>1 (L’Ecuyer et Simard 1999), nous avons de la m ˆeme mani `ere

y =2^q(x₀+2ê−qx₁) mod(2ê−h) = (2^qx₀+hx₁) mod(2ê−h).

Sih<2^qeth(2^q−(h+1)2^−e+q)<m, commex₀≤2^e−q et x₁≤2^q, nous avons

2^qx₀≤2^e−2^q <m.

De plus, étant donn é que 2ê−qx₁≤m−1, nous avons hx₁≤h(m−1)/2ê−q=h(2ê−h−1)/2ê−q

=h(2^q−(h+1)2^−e+q)<m, et par cons équent chaque terme est strictement inf érieur àm.

L’op ´eration modulo revient `a soustrairemsi la somme est≥m.

(26)

D ´ecomposition en puissances de 2: implantation

#define m 1073741789 /* 2ˆ30 - 35 */

#define h 35

#define q 15

#define emq 15 /* e - q */

#define mask1 32767 /* 2ˆ(e-q) - 1 */

#define r 13

#define emr 17 /* e - r */

#define mask2 131071 /* 2ˆ(e-r) - 1 */

#define norm 1.0/m long x;

(27)

D ´ecomposition en puissances de 2: implantation

double axmodm () {

unsigned long k, x0, x1;

x0 = x & mask1;

x1 = x >> emq;

k = (x0 << q) + h*x1;

x0 = x & mask2;

x1 = x >> emr;

k += (x0 << r) + h*x1;

if (k < m) x = k;

else if (k < 2*m) x = k-m;

else x = k - 2*m;

return x*norm;

}

(28)

D ´ecomposition en puissances de 2.

L’Ecuyer et Simard ont toutefois d émontr é que ces g én érateurs pr ésentent des faiblesses statistiques s’ils sont utilis és de mani ère directe.