R EVUE DE STATISTIQUE APPLIQUÉE
J ACQUES F LESSELLES
Statistique cinématique. Autocorrélations et variances de moyennes collectives
Revue de statistique appliquée, tome 19, n
o4 (1971), p. 73-84
<
http://www.numdam.org/item?id=RSA_1971__19_4_73_0>
© Société française de statistique, 1971, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (
http://www.sfds.asso.fr/publicat/rsa.htm
) implique l’accord avec les conditions générales d’uti-
lisation (
http://www.numdam.org/conditions). Toute utilisation commerciale ou im-
pression systématique est constitutive d’une infraction pénale. Toute copie ou im-
pression de ce fichier doit contenir la présente mention de copyright.
STATISTIQUE CINÉMATIQUE
AUTOCORRELATIONS
ET VARIANCES DE MOYENNES COLLECTIVES(1)
Jacques FLESSELLES Ingénieur
desManufactures
del’Etat
INTRODUCTION
Lorsqu’une
machine ou un processus délivre une séried’objets
succes-sifs dont l’une des
caractéristiques
mesurables est X, ilest-fréquent
de s’in-téresser à "la"
dispersion
des valeurs x de X en mesurant parexemple
lesmoyennes successives des valeurs de X
portant
sur nobjets
consécutifs .(Références : [1], [2], [3]).
Dans notre
industrie,
ce cas seprésente
notammentlorsque
l’on veutconna3tre,
parl’analyse
desdispersions
depoids,
la marche d’une machine àcigarettes.
L’exposé
que nous nous proposons de faire estprincipalement rédigé
avec cette intention. On trouvera d’ailleurs
(ci-après)
une étudepratique qui
utilise les résultats duprésent
travail que nous avons vouluprésenter
defaçon séparée
à cause, d’unepart
de son caractère abstrait et vu, d’autrepart,
la valeur degénéralité
desquestions
abordées et des formulesqui
y sont données.POSITION DU PROBLEME
Une machine a délivré des
objets,
parexemple
descigarettes,
formantune
population
totale de Nobjets,
lacaractéristique
àlaquelle
on s’intéresse étantdésignée
par X. Sesvaleurs,
xi, X2, ... 1 xN, sont parexemple
lespoids
descigarettes.
Si l’on
extrait,
au hasard de lapopulation totale,
ncigarettes,
on saitque la
dispersion
dupoids
moyen- 1%
1 notéea k. (2)
, est donnée par la for-mule
classique :
(1) Une version peu différente des deux articles qui suivent a été publiée dans les An- nales du S. E. I. T.A. -D.E.E., Section 1, 1970 N° 8.
(2) Voir le
paragraphe
"Notations".En
pratique,
les choses sepassent
fort différemment :Les
objets
sontproduits
successivement à la machine et l’on est con-duit à mesurer en fait les valeurs moyennes
xn
descaractéristiques
xi d’ob-jets
consécutifs :l’échantillonnage
n’estplus
auhasard,
mais stratifié dans letemps.
Or,
pour des raisonsphysiques
liées directement au processus de fa-brication,
deuxobjets
voisins ouproches
sonttoujours "parents",
c’est-à-dire en moyenne
plus
semblables qué deuxobjets éloignés.
Ceci se traduit
statistiquement
par l’existence d’autocorrélations dans la série X et l’onn’a jamais,
de ce fait :mais
toujours cY 3;,
>6x (ceci
seraprécisé
dans cequi suit).
V-n-
Nous nous proposons en
pratique
de montrer comment sontliés,
souscertaines
hypothèses généralement admissibles,
lesparamètres
d’autocorré- lationsqui
caractérisent la sériecinématique
et les variances(ou
les écartstypes)
des moyennes de nobjets
consécutifs.Nous établirons ainsi deux séries de formules
permettant,
selon le cas le passage des coefficients d’autocorrélation aux variances collectives ou le passage inverse.Nous montrerons en
particulier
que la formule :se
généralise
dans le cas de la sériecinématique
sous la forme :F(n)
étant une fonction relativementsimple
de tous les coefficients de corré- lationjusqu’au
rang n etqui,
deplus, jouit
depropriétés
formellesqui
ren- dent son calcul très aisé au moyen d’unalgorithme
tout à faitapproprié
aucalcul
automatique.
Nous verrons
également
que le coefficient de corrélation de rang s’ex-prime
trèssimplement
en fonction des variances collectives des seuls rangsn - 1, n, n + 1.
Notations
Pour des raisons de
présentation typographique,
nousadopterons
le sym- bole oy pourdésigner l’écart-type
de y, au lieu deo(y) qui
est lourd et dea malcommode si la variable y
possède
elle-même un indice.y
Nous
désignerons
par :xi la valeur de X pour le ième
objet mesuré,
3Ç
la valeur moyenne de lacaractéristique
X pour n valeurs consécu-tives,
S~
la somme de k valeurs xi consécutives,Pk
désignera
le coefficient de corrélation d’ordrek,
c’est-à-dire entreles xi
et les x~.Enfin, Rrt
sera une fonction linéaire des k -1premiers
coefficientspj,
dont la forme sera
explicitée plus
loin.L’HYPOTHESE DE STATIONNARITE
On
peut
donner pour une fonction aléatoire une définitionmathématique précise
de la stationnarité. Nous renvoyons le lecteur aux ouvragesspécia-
lisés
[ 4 ] .
Nouspréférons
aborder leproblème plus
concrètement sans que pour autant le manque derigueur
formelle soit un obstacle à lapoursuite
du raisonnement.
Considérons la suite des
caractéristiques
xl, X2, 1 Xi’ 1 xN, cor-respondant
à une certaine stratification dans letemps.
Nous dirons que la
dispersion
est "stationnaire" si toutparamètre
dedispersion
calculé nedépend
pas du rang àpartir duquel
il est calculé.Plus
précisément,
si nous calculons parexemple l’écart-type
desmoyennes de n valeurs
consécutives,
cetécart-type
nedépend
pas des rangs decelles-ci,
en dehors de fluctuationspurement
aléatoires.Ou encore, ce
qui
revient aumême,
la corrélationqui
existe entreune série de valeurs
(xi)
et la série décalée(x~~ ) dépend
seulement de leur écart entre rangs, k.Cette
hypothèse permet
de donner un sens à ce que nousappellerons
coefficient de corrélation d’ordre k.
Ceci
peut para3tre théoriquement
très restrictif : iln’y
a d’ailleursguère
dephénomènes
concretsparfaitement stationnaires ;
enrevanche,
sur leplan pratique,
de nombreuses sériesphysiques peuvent
être considéréescomme stationnaires ou relativement stationnaires. Dans le cas des
poids
des
cigarettes consécutives,
on observe ainsi une stationnarité très bonnesous réserve de se limiter à des écarts entre rangs faibles par
rapport
à la valeur N de lapopulation
totale(sauf
incident de fonctionnement au niveau de la machineproductrice
bienentendu).
Précisons cela :
Si nous nous intéressons à une
population
de 10 000cigarettes
consé-cutives,
onpeut
considérer parexemple
que leparamètre
de ladispersion
défini par :
écart-type
despoids
de 100cigarettes consécutives,
a un sens ,car il
est,
aux fluctuations aléatoiresprès, indépendant
de laplace qu’oc- cupent
ces 100cigarettes
consécutives dans la série de 10 000(100 « 10 000).
Ceci ne serait
plus
aussi exact si nousremplacions
100 par 2 000 ou 4 000.De
même,
onpeut
définir un coefficient d’autocorrélation de rang 1 , 100, voire 200 ou500,
défini comme un coefficient de corrélation ordinaire entre les deux séries.xl, X2’...’ xi,...,
xN__ k
et
X1+kt X2-+k’...’ X1+k, ... , > XN
pour k -
1,..., 100,..., 200,...,500,
la covariance de xi, xi+k nedépen-
dant que de k.
C’est sous ces
hypothèses
que nousdévelopperons
le calculqui suit,
en
soulignant
encore une fois que celles-ci sontparfaitement
admissibles enpratique, compte
tenu des réserves formuléesquant
à l’ordre maximumpris
en considération.
Ceci tient au fait
qu’en régime permanent
les conditions de marche de la machine sont stables et que les fluctuations étudiées sont defréquences
sensiblement
plus
élevées que cellesqui
résulteraient d’une dérive dans l’ali- mentation(fluctuations
dues à la matièrepremière).
CALCUL DE LA VARIANCE DES VALEURS MOYENNES COLLECTIVES EN FONCTION DES COEFFICIENTS DE CORRELATION DES DIVERS ORDRES
Soient k
caractéristiques d’objets
consécutifs notées : Xi, X~+1, ... ~Xi + j , ...,
Xi +k- 1et
Sk
leur somme.Développant
la forme :il vient :
Notons
symboliquement, compte
tenu deshypothèses
duparagraphe pré-
cédent :
et
Nous obtenons alors :
D’autre
part, 2013,
valeur moyenne de la série de kcaractéristiques
con-sécutives noté
3~,
a pour variance Var~2013) Var Sk
secutlves note
Xt,
a pour varIance Vark k2 -
On
peut
donc écrire :Soit encore
après
mise de~ar X
en facteur :k
Or les
rapports cov Ci ~ ne
sont autres que les coefficients d’autocor- Var xrélation
pi qui
caractérisent ledécalage
"i" et calculé selon la définitionclassique
d’un coefficient de corrélation.La formule
précédente
s’écrit alors :Désignons
parRk l’expression
entreparenthèses,
fonction linéaire des coefficients d’autocorrélation d’ordre 1à k - 1,
soit :Nous aboutissons à
l’expression :
Cette formule fondamentale donne la variance de la moyenne de k ca-
ractéristiques
consécutives en fonction de la variance individuelle et des k -1- coefficients de corrélationinterrangs.
Cas
particulier
S’il n’existe aucune autocorrélation entre les rangs, le
prélèvement
dek
objets
consécutifs se ramène à unprélèvement
au hasard(il n’y
aplus
destratification dans le
temps) ;
dans ce cas tous lesPi
sontnuls, 11, =
0 etla formule devient :
formule
classique
donnant la variance de la moyenne decaractéristiques
in-dépendantes (non corrélées).
La formule
précédente
est bien unegénéralisation
de la formule clas-sique.
Autre cas
simple
Variance de la moyenne de deux
caractéristiques
consécutives xi, xi+1 caractérisées par le coefficient d’autocorrélationp1 -
p.R se réduit à un seul terme
(le premier
ou ledernier),
c’est à dire :
et l’on trouve :
qui
estidentique
à la formuleclassique :
Cette formule
simple,
limitée au cas de deuxobjets consécutifs,
per- met bien de se faire une idée concrète de la relationphysique qui
existe entre la variance collective et l’autocorrélation.Raisonnons sur les
poids
decigarettes
successives : Si P = 0On retombe sur le cas "idéal" où les
cigarettes paires
etimpaires
sont absolumentindépendantes :
la variance dupoids
moyen de deux est moitié de la variance dupoids
moyen individuel.Un cas où p = + 1
peut
être le suivant :Les
poids
descigarettes
consécutives sont enprogression arithmétique .
Il est évident alors que pour tout
couple
de rang n, n + 1 p =+ 1 la dis-persion
despoids
descigarettes
individuelles est la même que celle destronçons
formés par deuxcigarettes
consécutives.Un cas où P = - 1
peut
être le suivant :Les
poids
descigarettes
sont alternativement àPm
+ 0 p etPm - ~ p.
La corrélation entre les
poids
de deuxcigarettes
consécutives est tou-j our s
p = - 1.Il est facile de voir
qu’en
ce cas la variance dupoids
destronçons
doubles est nulle.Bien
entendu,
ces deux derniers cascorrespondent
à des situations li- mitesthéoriques.
Figure 1 - Cas théoriques de corrélation parfaite entre poids successifs.
OBSERVATIONS SUR LA FONCTION R
La fonction
Rk, qui
est une forme discrète de fonctiond’autocorrélation,
mérite d’être examinée de
plus près :
On observe
qu’elle
est fonction linéaire des k -1premiers
coefficientsd’autocorrélation,
mais que chacun d’euxreçoit
unpoids
décroissant de :Cette
propriété
est d’autantplus
intéressante à relever que le coeffi- cient de corrélationPi
estgénéralement
une fonction décroissanterégulière
du rang. De la
sorte,
la fonctionRt
est surtout caractérisée par ses pre- miers termesqui
ont une valeur absolueprépondérante
du fait de la combi- naison des deux effets de même sens mentionnés ci-dessus.Il convient en outre de remarquer que pour de nombreux
phénomènes
aléatoires sans
"pompage"
les coefficientsPi
sont strictementpositifs (vé-
ritable
parenté).
Dans ce cas la fonction
Rk
est une forme linéaire strictementpositive
et l’on
peut
écrire :D’où:
ce que nous
signalions
dans leparagraphe "position
duproblème".
Cette
inégalité
ne serait pas forcément vérifiée sicertains pi
se trou-vaient
négatifs,
cequi
serait l’indice d’une certainerégulation périodique
avec
"pompage".
Mais,
dans le cas despoids
descigarettes,
on observetoujours
qCalcul des fonctions
Rk
Nous allons montrer que la suite des fonctions
R2, R3, ... , Rk peut
se calculer très aisément deproche
enproche
à l’aide d’unalgorithme
appro-prié.
On
dispose
àl’origine
des(n - 1)
valeurspl , P2, p3 , · · · ,
1pn-1 et
l’onse propose de calculer
R2, ... ,
1Rn.
Rk peut
s’écrire sous la forme :en
désignant
parTk
le total sous lesigne
somme.Considérons d’autre
part
les sommes successives :La formation d’une somme à
partir
de laprécédente
est évidente :Sj=Sj.i+Pj
En outre, il est facile de voir que les sommes cumulées des sommes s
elles-mêmes sont
précisément égales
aux sommes T.Ainsi :
etc.
On a donc un moyen très
simple
de former toutes les sommesTj
c’est-à-dire les
Rj.
*A titre
d’exemple
nous donnonsci-après
lesquelques lignes
d’instruc-tions "FORTRAN"
qui permettent
de calculer etd’imprimer
les Npremières
fonctions
Rt
et les combinaisons dérivées FRK = 1 + 2R~
et RACF =(FRK) 1/2’
qui
interviennent directement dans le calcul de la variance ou de l’écart-type
des valeurs moyennes collectives.LISTNH
10D01,K=1,
1220READ,R;K=K+1
30 RACF =
SQRT (FRK =
1 + 2*(RK
=(CUM
= CUM +(SR2 = (SR2
+R))) /K))
40 1 : PRINT F,
K, FRK,
RACF50 F : FORMAT
(4HK = 13,4
X, 6 HFRK =F7.4,
4 X, 7HRACF =F7.4)
70 STOP 80 $ DATA
90
.40489,
.42720,.39758, .43151,
.33809,.36893, .31665,
.38709, 99.28672, .31244, .26309,
31938.RUN
K = 2 FRK = 1.4049 RACF = 1.1853 K = 3 FRK = 1.8247 RACF = 1. 3 50 8 K = 4 FRK - 2.2333 RACF = 1.4944 K = 5 FRK - 2.6511 RACF = 1.6282 K = 6 FRK = 3.0424 RACF = 1.7442 K = 7 FRK - 3.4272 RACF = 1.8513 K = 8 FRK = 3.7950 RACF = 1.9481 K = 9 FRK = 4.1671 RACF = 2.0414 K = 10 FRK - 4.5221 RACF = 2. 1265 K = 11 FRK = 4.8691 RACF = 2.2067 K = 12 FRK = 5.2027 RAC F = 2.2809
En
fait,
toutl’algorithme
de calcul définiprécédemment
est contenu dans la seuleligne
30qui
détermine àchaque
boucleaprès
lecture de R dans la suite des données(valeurs numériques
des coefficients decorrélation),
- la somme S, la somme cumulée
- la fonction FRK
et la racine carrée de cette dernière
désignée
par RACF.(T
est noté "CUM"dans le
programme).
CALCUL DES COEFFICIENTS DE CORRELATION DES DIVERS ORDRES EN FONCTION DES VARIANCES MOYENNES
La formule
(1) précédemment
établiepermet
de calculer Var xk en fonction de Var x et des k -1premiers
coefficientsd’autocorrélation.
Réciproquement,
nous allons voir que si l’on connait la suite Var x, Var x2, Var x3,etc. ,
onpeut
en déduire les valeurs des coefficients d’auto- corrélation.Ainsi par
exemple :
de
On tire immédiatement :
de même :
On
peut,
connaissantPI
calculéprécédemment,
en tirer aisémentP2
et on trouve :
On
pourrait
continuer ainsi deproche
enproche,
mais nous allons voir , par un calculdirect,
quePk s’exprime
très aisément en fonction desuniques
variances d’ordrek - 1, k et k + 1.
Reprenons
les notationsadoptées précédemment,
soit :et les
égalités
démontréesplus
haut :La formule de base devient alors :
ou encore :
c’ e st- à-dire :
ou encore :
Ecrivons cette relation pour les ordres k - 1,
k,
k + 1 :Multipliant
lapremière ligne
par1,
la seconde par2,
la troisième par 1 etsommant,
il vient :et tenant
compte
des relations(2)
Finalement on trouve donc :
C’est sous cette forme que
l’expression
dep~
est laplus simple.
Onremarque
qu’elle
est fonction des seules valeurs d’ordrek - 1, k, k + 1 et
1
(c’est-à-dire
Varx)
bien entendu.Il est évidemment
facile,
si on ledésire,
de revenir aux variancesdes moyennes au lieu de conserver les variances des sommes :
Cette formule est
analogue
à laprécédente ;
elle estsimplement
moinslégère
sur leplan
littéral.On pourra vérifier sur cette dernière forme en
particulier
quel’expres-
sion trouvée pour
p3,
par un calcul direct satisfait bien à la formulequi
vient d’être déterminée.CONCLUSIONS
Au cours de cet
exposé,
nous avons établi sous certaineshypothèses-de stationnarité, acceptables
dans de nombreusesapplications pratiques,
les re- lations formellespermettant
de passer de la série des coefficients d’auto- corrélation des divers ordres à la série des variances des moyennes de ca-ractéristiques
consécutives ainsi que les relations inverses.Nous avons montré d’autre
part
que la fonction R des coefficients d’auto- corrélation successifs a une structure telle que son calcul estparticulière-
ment aisé si l’on
emploie
unalgorithme approprié. L’emploi
d’un calculateur à programmeenregistré
estparfaitement adapté
à cette détermination.Le passage de la série des variances de moyennes collectives aux coef- ficients d’autocorrélation se fait sans
difficulté, chaque
coefficient nedépen-
dant que de trois variances successives.
Appliquée
àl’analyse
de ladispersion
dupoids
descigarettes
sur unemachine à
confectionner,
cette étude met en évidence l’influenceprécise qu’apporte
laparenté d’objets
relativementvoisins,
chiffrée par l’autocor- rélation despoids,
sur ladispersion
despoids
collectifs et sa variation enfonction de la taille de l’échantillon : les formules démontrées ici sont ap-
pliquées
dans uneexpérience
sur machine dont on trouveral’exposé
ci-après.
BIBLIOGRAPHIE
[1]
REY P. - "Cours de fabrication des tabacs". Tome II,chap.
B. IX, p. 20(S.E.I.T.A., 1952).
[ 2]
ZIMMERMANN H. -"Vergleich Verschiedenen
Verfahren zurPrüfung
der