R EVUE DE STATISTIQUE APPLIQUÉE
J.-L. C HASSÉ D. D EBOUZIE
Utilisation des tests de Kiveliovitch et Vialar dans l’étude de quelques générateurs de nombres pseudo-aléatoires
Revue de statistique appliquée, tome 22, n
o3 (1974), p. 83-90
<http://www.numdam.org/item?id=RSA_1974__22_3_83_0>
© Société française de statistique, 1974, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.
sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les conditions générales d’uti- lisation (http://www.numdam.org/conditions). Toute utilisation commerciale ou im- pression systématique est constitutive d’une infraction pénale. Toute copie ou im- pression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme
83
UTILISATION DES TESTS DE KIVELIOVITCH ET VIALAR DANS L’ÉTUDE DE QUELQUES GÉNÉRATEURS
DE NOMBRES PSEUDO-ALÉATOIRES(1)
J.-L.
CHASSÉ
et D. DEBOUZIE Laboratoire de biométrie Université ClaudeBernard, Lyon
INTRODUCTION
La simulation sur calculateur de
phénomènes
ou processusbiologiques
né-cessite l’utilisation de nombres aléatoires. En
particulier
l’estimation de la taille d’unepopulation
et l’étude dudéplacement
de ses individus fontappel
à destechniques exigeant
desrépétitions indépendantes
et nombreuses. Parsuite,
il est nécessaire dedisposer
d’unequantité importante
de nombres aléatoires. Ils peu- vent être obtenus par desprocédés physiques qui exigent
la mise aupoint
dugé-
nérateurphysique
et sa connexion au calculateur ou êtregénérés
directementsur le
calculateur,
en se fondant sur unalgorithme
correctement choisi. Dans ce cas, laséquence
obtenue estappelée "pseudo-aléatoire"
au sens de Lehmer(15),
c’est-à-dire "une
séquence
dontchaque
terme estimprévisible
pour un non initié et dont les éléments vérifient certains tests".La
génération
d’une série de nombres distribués uniformément sur un inter- valle donné est fondamentale car àpartir
d’elle il estpossible
de construire des séries distribuées selon d’autres lois. Elle sera doncl’objet
de notre étudequi porte
sur lacomparaison
dequelques algorithmes
degénération,
selon la lon- gueur de laséquence.
Ceux-ci sont retenus si les sériesqu’ils engendrent
satisfontà certains critères
parmi lesquels
nous avons choisi un test defréquence
etquelques-uns
des tests de Kiveliovitch et Vialar(13)
relatifs à l’étude de sérieschronologiques
de nombres entiers.DONNEES
BIBLIOGRAPHIQUES
Les
algorithmes
degénération
lesplus
connus outre ceux dont l’intérêt n’estplus qu’historique (carré
médian parexemple),
sont les méthodes de con-gruence dans
lesquelles
la série estengendrée
par la relation de récurrence suivan- te :---
(1) Article remis le 9/1/1973, révisé le 25/1/1973.
Revue de Statistique Appliquée, 1974 - vol. XXII N° 3
Les valeurs des
paramètres
al , a2 , ..., ak+ 1 définissent les types suivants : méthode additive méthodemultiplicative
méthode mixte méthode linéaire Notre but n’est pas de faire une
bibliographie
exhaustivequi
ferait suite à celle de Hull et Dobell(12),
mais dedégager
de l’ensemble des travaux lespoints qui
nous semblentimportants.
Nous noterons tout d’abord quebeaucoup
d’au-teurs se sont intéressés à la
longueur
de lapériode
de laséquence
selon les types degénérateurs
et les valeurs desparamètres (ai, m) (Allard,
Dobell et Hull(1),
Deltour(7),
Gotusso(9),
Hull et Dobell(12),
Peach(16)).
Cestravauxmontrentqu’il
estpossible,
pour les différentstypes
deméthode,
de trouver des valeurs desparamètres
conduisant à despériodes
suffisammentlongues
pour la simu- lation de processusbiologiques.
Il est en effet démontré que si lesparamètres
satisfont à certaines
conditions,
lapériode
estégale
à m pour les méthodes con-gruentielles
mixte et additive et àm/4
pour lamultiplicative.
Outre une
période convenable,
laséquence
doitprésenter
un caractèrepseudo-aléatoire qui
est défini par certains critères choisis par l’utilisateur. L’étu- de et surtout la mise en oeuvre de ces critères constituent la deuxièmecatégorie
de travaux. Dans laquasi
totalité des cas lapremière
condition réclamée pour laséquence
estl’équirépartition
sur(0, m)
des nombresengendrés, l’intervalle
étant divisé enparties égales, généralement
10 à 100. Le test utilisé est le testx2
ou
parfois
le test deKolmogorov-Smirnov (test
desfréquences). Remarquons
que si la
séquence
satisfait à ce test, l’utilisation du test des moments(Taussky
et Todd
(19))
ou du test binomial(Kendall, Badington-Smith
in Shreider(18)) n’apporte
engénéral
aucunrenseignement supplémentaire.
La conditiond’équi- répartition
permetdéjà
derejeter
leplus
souvent unalgorithme
degénération
fondé sur la méthodecongruentielle
additive. Par contre, si la condition est rem-plie,
il faut alors testerl’indépendance
des termes de laséquence.
Pour cefaire,
les tests
généralement proposés appartiennent
àplusieurs catégories :
-
"gap test", "poker test",
suites croissantes etdécroissantes,
suites au-dessus et en-dessous de la médiane
(Cameron
etHandy(3),
Downham et Roberts(8),
Horton et Smith(11), Tootill,
Robinson et Adams(20)).
- test de corrélation sériale
(Coveyou (4)).
-
analyse
de Fourier de laséquence générée (Coveyou
etMacpherson (5)).
Nous remarquons que les tests de la
première catégorie
sont soit unepartie
des tests de
Kiveliovitch-Vialar,
soit uneapplication
de ceux-ci au cas d’une sériecomposée
d’élémentségaux
à 0 ou 1. Les tests de Kiveliovitch-Vialar per- mettant dedéceler,
dans une sériechronologique,
l’existence depériodes
et(ou)
tendances,
recouvrent les tests de corrélation sériale. C’estpourquoi,
nous consi-85
dérerons
qu’une séquence
estpseudo-aléatoire si,
outre le test desftéquences,
elle satisfait aux tests de Kiveliovitch-Vialar suivants :
- test des croisements
- test des
phases
- test des
paliers
- test du nombre par
palier
Nous en
rappelons
brièvement leprincipe
en considérant legraphe
de la sé-quence xn =
f(n).
Test des croisements
(CR)
Un croisement est défini comme l’intersection du
graphe
et d’une droite d’ordonnée ai. Pourchaque
valeur de i oncompte
le nombre de croisements.Test des
phases (PH)
Une
phase
est uneportion
limitée par deux extremumsconsécutifs ;
elle est caractérisée par le nombre de segments reliant les deux extremums.Test des
paliers (P)
Un
palier
est une suite de valeurségales.
Ce testimplique
le regroupementen classes des x n . Pour
chaque classe,
oncompte
le nombre depaliers.
Test du nombre dans les
paliers (NP)
Pour
chaque
classe oncompte
le nombre d’élémentsappartenant à
unpalier.
Pour ces
quatre
tests, les valeurs observées sontcomparées
aux valeursthéoriques
calculées sousl’hypothèse d’indépendance (les
intervalles de con-fiance sont calculés au
risque
de0,05).
Les auteurs ont
généralement
mis en oeuvre les testsqu’ils proposaient
surdes
séquences
relativement courtes : 5000 nombres(Lehmer),
séries de 128 à 1024 nombres(Cameron
etHandy)
parexemple.
D’autrepart
les travaux sys-tématiques
sur ces méthodes sont peunombreux ;
onpeut
citer ceux deAllard,
Revue de Statistique Appliquée, 1974 - vol. XXII N° 3
Dobell et Hull
qui
pour la méthode mixte ont testéplus
de millemultiplicateurs (paramètre
al).
Enfin nous
signalons
la tendancequ’ont
eue certains auteurs à vouloir mettreau
point
desalgorithmes
fondés sur unecomplication
des méthodes congruen- tielles : ce sont les"shuffling
methods"(Kràl (14)),
la"compound
randomi-zation"
(Horton (10), Beasley
et Wilson(2))
ou des méthodesplus complexes (Cugiani
et Liverani(6)).
Il nous semble
plutôt qu’il
faille chercher une solution en tenantcompte -
ce
qui
n’est pastoujours
noté dans les travaux -des capacités
du calculateurqui
seraemployé,
du but pourlequel
laséquence
estgénérée
et en outre utiliserune méthode
congruentielle mixte,
linéaire oumultiplicative.
C’est cette der- nière d’ailleursqui
a été à la fois laplus
étudiée d’unpoint
de vuethéorique
etla
plus
utilisée. Il est en outre intéressant de noter, queCoveyou
etMacpherson
abordant l’étude de la
séquence
d’unefaçon
nouvelle(analyse
deFourier),
tirentcomme
première
conclusion"qu’il n’y
a pasjusqu’à présent
de méthode degé-
nération de
séquences pseudo-aléatoires
meilleure que lasimple
méthode congru-entielle
multiplicative
avec unmultiplicateur soigneusement
choisi".TRAVAUX
Nous avons testé les deux types de méthodes :
pour les valeurs suivantes :
Le
premier couple
deparamètres
est celuiproposé
par Lehmer. Pour les trois suivants nous avons fait varier soit lemultiplicateur
soit lemodulo,
le mul-tiplicateur
étant choisi defaçon
àrépondre
aux critères de Hull. Le derniercouple
est celuiqui
a été utilisé par Rohlf etDavenport (17)
pour des simu- lations decomportement
locomoteurproches
de celles que nous étudions. Lecouple (55, 218) qui
ne diffère duprécédent
que par la réduction des para- mètres a été choisi pour être éventuellement utilisé sur des calculateurs depetite
ou moyennecapacité.
La
génération
des nombrespseudo-aléatoires
et les tests ont été effectuéssur un calculateur
Wang
700qui permet
dedisposer
de 24 chiffressignificatifs pendant
le cours du calcul.Dans
chaque
cas, nous avonsprocédé
autirage
de 10 séries de 10000 nombres et 10 séries de 100000 nombres.Chaque
nombre xiappartient
à l’in-tervalle
(0, 1)
mais pourprocéder
aux tests nous avons considéré laséquence
des nombres ui appartenant à l’intervalle
(0, 9)
tels que ui - E(1 O.Xi).
87
Les résultats sont
regroupés
dans le tableau 1. Poursimplifier
la lecture dece tableau nous avons seulement
indiqué
si leshypothèses d’équirépartition
etd’indépendance
des termespouvaient
êtreacceptées
ou non, selon les différentstests.
TABLEAU 1
Résultats des tests concernant les
hypothèses d’équirépartition
etd’indépendance
des termes.
+
Rejet
del’hypothèse
o
Acceptation
del’hypothèse
F : test
d’équirépartition (X2 )
CR, PH, P,
NP : testsd’indépendance (Kiveliovitch-Vialar)
La
ligne supérieure
concerne lesséquences
de 10000 nombres et laligne
inférieure celles de 100000 nombres.1)
L’examen du tableau 1 conduit àrejeter
lesgénérateurs
suivantsqui
nesatisfont soit à aucun test soit seulement au test
x2 :
- Séauences de 10000 ou 100000 nombres
Type
1Type
IIRevue de Statistique Appliquée, 1974 - vol. XXII N° 3
-
Séquences
de 10000 nombres-
Séquences
de 100000 nombresType 1 Type
IIPar contre un seul
générateur
satisfait à tous les tests :Type
1 :(55, 218) séquence
de 100000Les autres
générateurs
sont défaillants au niveau d’au moins un test de Kiveliovitch-Vialar. Il fautcependant
remarquerqu’un
examen détaillé des ré- sultats des tests de Kiveliovitch-Vialar montre que pour lesgénérateurs
deType
II les différences
significatives
sont sanstendance,
les valeurs observées n’étant pas, selon lesrépétitions, systématiquement
inférieures ousupérieures
aux va-leurs
théoriques.
2)
Pour lesgénérateurs
1(a, 1003B1+1)
nous constatons quel’augmentation
dumultiplicateur
conduit à une amélioration del’équirépartition,
mais cequi
sem-ble
important
est lecomportement
totalement différent des deuxmultiplicateurs
faibles. En
effet,
avec lemultiplicateur
17 nousobtenons,
dans tous les cas, des valeurs dex2
très fortes(p0.001)
alors que pour 23l’équirépartition
est"trop bonne",
les valeurs dex2
étantsystématiquement trop proches
de zéro(X2 0.002).
L’existence d’unepériode
très inférieure à 10000 avecéquiréparti-
tion à l’intérieur de celle-ci
pourrait
en être la cause. Enfait,
cettepériode
n’existe pas et nous ne pouvons pour l’instant
expliquer
ce résultat.De
plus
l’utilisation dumultiplicateur
23 conduit à un nombre depaliers plus grand
queprévu
pour les valeurs0, 4, 5,
9indépendamment
de la valeur du diviseur. Un calcul deprobabilité
montre que cet excès est dû pour les pa- liers extrêmes(0
et9)
à la faible valeur dumultiplicateur
et que pour lespaliers
de 4 et 5 il est lié en outre audécoupage
en dix intervalles.3) L’augmentation
de lalongueur
de laséquence
conduit évidemment àaugmenter
lapuissance
des tests. Onpourrait
alorss’attendre,
enplus
des chan-ces
d’apparition
d’unepériode,
à mettre en évidence des différencessignificatives qui n’apparaissaient
pas dans lesséquences
de 10000 nombres.Or,
on constateque tous les
algorithmes
neréagissent
pas de la mêmefaçon.
Pour la méthodeII (a, 1003B1+1)
ce passageconduit,
dans un cas, àjuger
commeinacceptable
unalgorithme (17, 105+1) jugé précédemment
satisfaisant. Par contre, avec les pa- ramètres(503B2, 2s ) l’augmentation
de lalongueur
de laséquence
conduit à uneamélioration sensible de la
qualité
pour leType
1 alors que pour leType
II iln’y
a pas de modification notable.
89 CONCLUSION
Parmi les méthodes de
génération
deséquences pseudo-aléatoires
que nousavons mises en oeuvre, les critères
d’équirépartition (test X2 )
etd’indépendance
des termes de la
séquence (tests
deKiveliovitch-Vialar)
nous ont conduits à neretenir que la méthode suivante :
L’étude
comparée
des méthodes montre une sensibilité très différente auxtests utilisés selon le
type
de laméthode,
la forme et la valeur desparamètres
ainsi que la
longueur
de laséquence.
Ceci nous confirme dans l’idéequ’il
n’estpas
possible
de trouver ungénérateur
idéal.Chaque
foisqu’il
sera nécessaire d’u- tiliser uneséquence pseudo-aléatoire,
il faudra tenircompte
de lacapacité
du cal-culateur,
de lapériode
désirée et del’emploi qui
sera fait de laséquence.
Les résultats que nous avons obtenus nous incitent à insister sur le très
grand
soinqui
doit êtreapporté
au choix dugénérateur
pour la mise en oeuvred’une méthode de simulation.
BIBLIOGRAPHIE
[1] ALLARD, J.L., DOBELL,
A.R. etHULL,
T.E.(1963)
"Mixedcongruential
random numbergenerators
for decimal machines" J. Ass. computg.Machin, USA, 10,
131-141.[2] BEASLEY,
J.D. etWILSON,
K.(1969) "Design
andtesting
of theSystem
4random number
generator" Computer J., GB, 12,
368-372.[3] CAMERON,
J.M. etHANDY,
B.F. Jr(1952)
"Results on some tests of randomness onpseudo-random
numbers" Abstract in Annals Math.Stat., 23, 138.
[4] COVEYOU,
R.R.(1960)
"Serial correlation in thegeneration
ofpseudo-
random numbers" J.
Ass, computg. Machin, USA, 7,
72-74.[5] COVEYOU,
R.R. etMACPHERSON,
R.D.(1967)
"Fourieranalysis
ofuniform random number
generators"
J. Ass.computg. Machin,
USA14,
100-119.
[6] CUGIANI,
M. etLIVERANI,
A.(1966)
"Un nuovo metodo per la gene- razione di numeripseudo-casuali"
AttiSeminar,
mat.fis.
Univ.Modena, 15,
194-197.
[7] DELTOUR,
J.(1967)
"Etude d’une distribution de nombrespseudo-
aléatoires". Bull. Rech. agron.Gembloux, 2,
450-460.[8] DOWNHAM,
D.Y. etROBERTS,
F.D.K.(1967) "Multiplicative
congru- entialpseudo-random
numbergenerators" Computer J., G.B., 10,
74-77.
[9] GOTUSSO,
L.(1966)
"Su alcune sequenzepseudo
casuali ditipo
congruen- ziale misto" A tti seminar, mat.fis.
Univ.Modena, 15,
188-193.Revue de Statistique Appliquée, 1974 - vol. XXII N° 3
[10] HORTON,
H.B.(1948)
"A method forobtaining
random numbers" Ann Math.Statistics, 19,
81-85[11] HORTON,
H.B. etSMITH,
R.T.(1949)
III "A direct method forproduc- ing
randomdigits
in any numbersystem"
Ann. Math.Statistics, 20,
82-90.[12] HULL,
T.E. etDOBELL,
A.R.(1962)
"Random numbersgenerators"
SIAM
Review, 4,
230-254.[13] KIVELIOVITCH,
M. etVIALAR,
J.(1957)
"Les sérieschronologiques
etla théorie du hasard" Publ. sci.
tech,
Minist.Air,
Notestech., Fr, n°
65.[14] KRAL,
J.(1971) "Experimental properties
of some additivepseudo-
random number generators with random
shuffling" Apl. Nat., Ceskolsl., 16,
395-401.
[15] LEHMER,
D.R.(1949)
"Mathematical methods inlarge
scalecomputing
units" Proc. sympos. onlarge-scale digital
calcul.machinery,
Harvard Univ.press, 141-146.
[16] PEACH,
P.(1961)
"Bias inpseudo-random
numbers" J. amer. statist. Ass.56,610-618.
[17] ROHLF,
F.J. etDAVENPORT,
D.(1969)
"Simulation ofSimple
Models ofAnimal Behavior with a