R EVUE DE STATISTIQUE APPLIQUÉE
J. R. B ARRA
Contrôle statistique des suites de nombres « au hasard »
Revue de statistique appliquée, tome 19, n
o3 (1971), p. 19-26
<
http://www.numdam.org/item?id=RSA_1971__19_3_19_0>
© Société française de statistique, 1971, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (
http://www.sfds.asso.fr/publicat/rsa.htm
) implique l’accord avec les conditions générales d’uti- lisation (
http://www.numdam.org/conditions). Toute utilisation commerciale ou im- pression systématique est constitutive d’une infraction pénale. Toute copie ou im- pression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
CONTROLE STATISTIQUE
DES SUITES DE NOMBRES « AU HASARD »
J. R. BARRA
Faculté
des
Sciences deGrenoble
En
analyse Numérique,
enSimulation,
enStatistique,
etc... , on a par- fois besoin de "nombres auhasard" ;
il esttoujours
nécessaire de tester sta-tistiquement
les suites que l’on utilise. On adéjà indiqué
dans[1] ]
un testsimple
et commoded’emploi,
mais il est facile decomprendre
que pour uneanalyse poussée
il faut utiliser un ensemble de tests et les combiner. On étudieci-après quelques problèmes apparaissant quand
on veut construireun tel
système
de tests ens’appuyant
sur lesfréquences d’apparition
d’uncertain nombre de
"figures".
On
désigne
par N l’ensemble des entierspositifs
non nuls et par card H le nombre d’élément de l’ensemble fini H.I - TESTS DE
FREQUENCES
On suppose que tous les éléments de la suite dont on étudie le carac-
tère aléatoire
appartiennent
à un même ensemble fini E ; dans lapratique
E sera le
plus
souvent un ensemble delettres,
dechiffres,
desymboles
"machine "...
DEFINITION 1 - "Soit E un ensemble
fini,
pour tout entierpositif
r, on ap-pelle figure
d’ordre r unepartie
non vide ~ de E r tellequ’il
n’existe pas departie ~
deE r-l
telle que :en
particulier
unefigure
d’ordre 1 est unepartie
de E distincte de E".DEFINITION 2 - "On
appelle n-fréquence
de lafigure (D
d’ordre r, dans la suite s EEN,
l’entierv~ (s)
défini par :où
1’(s)
est l’indicatrice de lapartie
deEN égale
à Ei-r x c~ x:E14".
20
En termes concrets,
v~(s)
est toutsimplement
le nombre de fois ou on a observé lafigure
0 dans unepartie
delongueur
n de la suite s, sachant que l’on a commencé lecomptage
dès quepossible
c’est-à-dire au rang r et que l’on a effectué en tout ncomptages
consécutifs.L’application s ~ v~ (s)
est unestatistique ( [4 ] )
sur la structure sta-tistique [E , (1, ~] ]
où ?est
la famille des lois deprobabilité
surEN
munide sa tribu
t~ usuelle ;
enparticulier
soit U la loi surEN
définie par l’in-dépendance
etl’équirépartition
descomposantes
de s, on a :Nous considérons dans la suite que contrôler le caractère aléatoire d’une suite s c’est tester
l’hypothèse
U ; et on étudieci-après
des tests construitsà
partir
desfréquences
d’un certain nombre defigures.
On
désignera
parp (X, Y)
la covarianceE (XY) - E (X) E (Y)
de deux va- riables aléatoires X et Y.DEFINITION 3 - "Soient C) et (Dl r deux
figures respectivement
d’ordre r etr’,
on
appelle
covariance de ces deuxfigures,
leréel ~, (~, ~ ’ )
défini par :quand EN
est muni de la loi U".DEFINITION 4 - "Soit ~~ une famille de
figures,
onappelle
matrice de cova-riance de ~~ la matrice A c-, de terme
général
~,(~, ~’), (~,
~’ ~~~ ) ;
siA g. -
estnon
singulière,
endésignant
par~,(~, c~’)
le termegénéral
de soninverse,
onappelle
indice d’aléa définipar 51
toutestatistique ~(s)
définie par :où n est un entier
positif".
THEOREME - "Soit Si’ une famille de k
figures,
de matrice de covariance nonsingulière ;
siEN
est muni de la loiU,
la loi limite deI~ quand
n tend vers l’infini est la loi du Khi-deux à kdegrés
de liberté".Il est clair que ce théorème est une
conséquence
du lemme suivant :LEMME - "Dans les conditions du
théorème,
la loi limitequand
n ;> oo dusystème
des variables aléatoires :est la loi N
(0, A!5’)".
Revue de Statistique Appliquée. 1971 - vol. XIX N°3
En
effet,
soit r l’ordre maximum desfigures
de lafamille 5,’
; les com-posantes
x 1, ..., xn, ... de S sont des variables aléatoiresindépendantes
uniformément
réparties
sur E et donc les vecteurs aléatoires :évoluent en chaîne de Markov finie et
régulière. D’après
le théorème Central Limite(~2J ]
p.401),
lesn-fréquences
desfigures
définies par lespoints
de E r ont une loi limitegaussienne
et il en est de même dusystème
desvô(OE) C= -il)
qui
en sont une combinaison linéaire.Enfin,
un calcul élémentaire montre que :et la démonstration est achevée.
L’utilisation
pratique
de ce résultat estsimple : a)
On fait choix d’une famille defigures
5i.b)
On calcule le cardinal dechaque figure
et leurs covariances deux à deux : ce sont des calculs de dénombrement et la formule de la définition 3 seprête
bien à un calcul sur ordinateur si c’est nécessaire.c)
On inverse la matrice11 ~ ;
; cetteobligation
limite souvent enpratique
le nombre defigures
considérées.d)
Onaccepte l’hypothèse U,
c’est-à-dire le caractère aléatoire de la suite testée si :où
Qk(x)
est la fonction derépartition
de la loi du Khi-deux à kdegrès
de li-berté et a le niveau de
signification
choisi.Remarque -
Il est clair que les familles defigures
dont la matrice de covariance estdiagonale
sontparticulièrement
intéressantes enpratique
car elles évitent les calculsb)
etc) ci-dessus ;
dans la suite nous détermine-rons de telles familles
quand
elles existent. On constate sans difficulté que de telles familles defigures,
même en se limitant à desfigures
d’ordre 1 , n’existent pastoujours,
par contre nous verrons auparagraphe
3 que si le cardinal de E est unepuissance
de2,
on sait construire de telles familles defigures.
II - TRANSFORMATIONS LINEAIRES DE LA SUITE DES OBSERVATIONS LEMME - "Soient E un anneau commutatif fini
ayant
un élément unité et muni de la loi deprobabilité Uo uniforme,
n un entierpositif
et{Yk,
k EK}
unefamille finie
d’applications
linéaires de En dansE,
tellesqu’il
existe une fa-mille
{~,
1 k~K}
d’éléments de E" te ls que :22
les variables aléatoires définies sur
[ E, ~ (E), Uln
par lesapplications Yk (k E K)
sontindépendantes
et de loiUg.
La linéarité des
applications Yk signifie
que pour tout k de K on a :D’autre
part,
la condition de l’énoncé entraîne quel’application
Y deE n dans E K définie par la
famille {Y k’
k EK }
estsurjective ;
en effet :où l’addition et la
multiplication
dans En sont cellesapparaissant
dans(1)
et
(2).
Désignons
donc parny
le nombre de solutions dusystème d’équations :
il vient : 1
et la démonstration est achevée.
THEOREME 1 -
"Supposons
que E soit muni de la loi deprobabilité
uniformeUp
et d’une structure d’anneau commutatif avec élémentunité ;
soient r unentier
supérieur
à 1et oc 1,
..., a~t 1 des éléments donnés de E. Les varia- bles aléatoires définies sur[E, 6j’ (E), Ulw-par :
sont
indépendantes
et de loiUp".
Il est d’abord facile de construire par récurrence une suite
s =
(si,
... , 1Sn, ...)
dont les r -1premiers
termes sont nuls et telle que :pour tout entier
positif j,
la suiteS’ égale
à la suite sprécédée de j zéros,
est telle que :
Revue de Statistique Appliquée. 1971 - vol. XIX N°3
Pour tout entier n
supérieur
à r, onpeut appliquer
le lemme 1 auxvariables aléatoires
Zr,
... ,Zn,
enprenant
pouréléments ~y+j
de En res-pectivement
les npremiers
termes des suitesSi ;
la démonstration est alors achevée.Remarque -
Les suites obtenues par deux transforniations linéaires diffé- rentes, ne sont pasindépendantes
entreelles,
mais la covariance entre cer-taines
figures
définies par leur intermédiairepeut
être calculée assez aisé- ment.THEOREME
2 -"Supposons
que E soit muni d’unestructure
d’anneau com-mutatif avec élément
unité ;
soient r un entiersupérieur
à 1 et(a., P.,
a,1 ,jE~, ..., ar-1 ~ ~r_1 )
des éléments de E. Endésignant
par(xi, .,.xr)un point e E r,
la covariance entre lesfigures ;
est
égale
à :en
particulier
si l’une des différencesai - p
1, ..., 1 (X,,_ , -~r-1
est inversi-ble dans E cette covariance est nulle".
Avec les notations du théorème
1,
notons deplus :
toutes les variables aléatoires
Zn
et4
sont de loiUo,
mais deplus,
sin ~ n’,
on constate aisément parapplication
dulemme,
que les variables aléatoiresZn
etZn,
sontindépendantes.
Dans la formule de la définition 3paragraphe 1,
seul est donc non nul le termecorrespondant à j =
r et lapremière partie
du théorème est établie. Deplus
si l’une des différences(Xi -pi, ...,
a r-1 -~r-1 ~
estinversible,
le lemmepermet
de montrer queZn
etZ~
sontindépendantes
et le dernier terme de la covariancedisparaît
lui aussi.
THEOREME 3 -
"Supposons
que E s oit muni d’une structure de corps com-mutatif et soient a =
ai
...,ai J (i = 1
...k)
k éléments distincts de deE r-1;
en notant :la variable aléatoire :
24
a pour loi
limite, quand
n > co, la loi du Khi-deux àk(card (E ) -1 ) degrés
de
liberté".
En
particulier,
en utilisant tous lespoints
deEr-1
1 on obtient un indiced’aléa d’ordre r, dont la loi est
asymptotiquement
la loi du Khi-deux à(card E) r- (card
E -1) degrés
de liberté.Démonstration -
D’après
le théorème 1 et le théorème de KarlPearson,
pour tout ai, la variable aléatoire
a pour loi
limite, quand
n 2013=> oo , la loi duX2
à(card
E -1) degrés
de liberté.D’autre
part, d’après
le lemme 1paragraphe
1 et la deuxièmepartie
du théorème 2ci-dessus,
ces variables aléatoiresQi{i =
1...}
sont aysmp-totiquement indépendantes
et le théorème est donc établi.Remarque -
Ce théorème 3qui généralise,
dans un certain sens, le théo- rème de K.Pearson,
montre avec le théorème 2 que les"hyperplans"
de Erdéfinis par une condition linéaire :
définissent des
figures
dont le calcul de la covariance est relativement sim-ple.
Deplus,
si les conditions du théorème 3 sontremplies,
on obtient di- rectement l’indice d’aléa associé à une famille de tellesfigures.
On a ainsirésolu presque
complètement
leproblème posé
par la remarque du para-graphe
1 ; c’est seulement si le cardinal de E est unepuissance
de 2 que l’onpeut
résoudre entièrement ceproblème
et trouver même une solution d’uneremarquable simplicité,
comme on va le voir auparagraphe
3.III - FIGURES FONDAMENTALES
(card
E =2k)
Dans tout ce
paragraphe
on suppose donc que card E = 2k et onrepré-
sente un élément x de E par un vecteur colonne à
composantes
bivalentes :DEFINITION 1 - "Soit 1 une famille de
couples
d’entiers(i, j), (1
i r, 1j k)
contenant au moins uncouple
pourlequel
i = 1 et au moins uncouple
pourlequel j =
r, alors lapartie
de Er définie par :Revue de Statistique Appliquée. 1971 - vol. X 1 X N° 3
est une
figure
d’ordre r,appelée figure
fondamentale définie par 1 et notéeFI
".Il existe exactement 2rk - 2~r- l~x
figures
fondamentales d’ordre auplus égal
à r.THEOREME 1 - "Soit cI> une
figure fondamentale,
on a :de
plus
si il> 1 est une autrefigure fondamentale,
on a :Ce théorème résulte directement de ce que, si E est muni de la loi uniforme
Uo,
les variables aléatoires1~,
et~,
sontindépendantes
si i ~ i’ou cI? * çp’. Or ce dernier
point
résulte lui-même du lemmesuivant,
cas par- ticulier du lemme duparagraphe 2,
et que l’onpeut
d’ailleurs vérifier direc- tement :LEMME -
"Soient ~
un ensemble fini etXi, (i ~ ~’ ) des
variables aléatoiresde Bernouilli
indépendantes
de loi B :alors
quelles
que soient les deuxparties
1 et Jde ~ ,
non vides et distinc-tes,
les deux variables aléatoiressont
indépendantes
et de loi B".Remarques
1/
Enparticularisant
le théorème 1paragraphe 2,
on constate aisémentque si ~ est une
figure fondamentale, v~
a pour loi deprobabilité
la loi bi- nomiale~n, 1 1 )
°nomiale ae, n,
2""’ "2 .
2/
Lesfigures
fondamentales sont d’un usagepratique
trèscommode,
puisque
l’indice d’aléa associé à une famille de cesfigures
estégal
à :26
De
plus,
onpeut
faire une étude deplus
enplus
fine de l’aléa en aug- mentant l’ordre desfigures
fondamentales utilisées.3/
Enfin la famille desfigures
fondamentales est minimum au sens sui- vant ; lan-fréquence
de toutefigure
d’ordre inférieur ouégal
à rest,
àquelques
unitésprès,
combinaison linéaire den-fréquences
desfigures
fon-damentales d’ordre au
plus égal
à r.On trouvera dans
[3] ]
unexemple
deprogrammation
sur ordinateur de l’indice d’aléa défini par une famille defigures
fondamentales. On aappli- qué
cette méthode aux 50 000premiers
bits de lareprésentation
binaire de 7t, enprenant
les 16figures
fondamentales d’ordre auplus égal
à 5.On
représente ci-après
unefigure
fondamentale (D par l’entier dont l’écriture binairereprésente
lapartie
I définissant (P(k
est iciégal
à1) ;
on a observé :
l’indice d’aléa aisément calculé est alors
supérieur
à34,267 qui
est le seuil à5 %.
BIBLIOGRAPHIE
[1]
J. R. BARRA -Contrôle statistique
d’une suite dedigits
aléatoiresRevue de
statistique appliquée.
Vol XV N° 3(1967).
[2] HENNEQUIN
et TORTRAT - Théorie desprobabilités
etquelques appli-
cations - Masson 1965.
[3]
HISLEUR -Exemples
d’utilisation d’un calculateur enstatistique -
Thèse Grenoble 1969.[4]
J.R. BARRA - Notions fondamentales destatistique mathématique -
DUNOD 1971.
Revue de Statistique Appliquée. 1971 - vol. XIX N°3