R EVUE DE STATISTIQUE APPLIQUÉE
R. G IRAUD P. T HIONET
Simulation par aléatoires de l’indice de concordance de Theil
Revue de statistique appliquée, tome 16, n
o1 (1968), p. 59-75
<
http://www.numdam.org/item?id=RSA_1968__16_1_59_0>
© Société française de statistique, 1968, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (
http://www.sfds.asso.fr/publicat/rsa.htm
) implique l’accord avec les conditions générales d’uti- lisation (
http://www.numdam.org/conditions). Toute utilisation commerciale ou im- pression systématique est constitutive d’une infraction pénale. Toute copie ou im- pression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
59
SIMULATION PAR ALÉATOIRES
DE L’INDICE DE CONCORDANCE DE THEIL
R. GIRAUD
etP. THIONET
L’objet
de laprésente
note est de condenser lemémoire écritpar M.
Giraud en vue del’obtention d’un Diplôme
d’EtudesSupérieures,
sur unsujet
que nous lui avi onsproposé. Il slagis-
sait.de poursuivre l’étude de l’indice Q
de Theildestiné à
cog-parer des prévisions
et leursréalisations,
indiceprésenté
parnous-même
dans leJournal
de laSociété
deStatistique
de Paris-
1964 (3ème trimestre,
p.181-9) [1, 2].
C’est
leProfesseur
FRECHETqui
nous donnal’impulsion au déport,
en nousengageant à faire poursuivre
ce t teétude
parun de nos chercheurs.
Toutefois
N. FRECHETpen sa i t plutôt à
des calculs de
Q effectués
sur desséries numériques réelles.
Nous
avonspensé qu’il
serai ttrès difficile
de nous procurerde telles
données,
où la valeurprévue, présentée
sansfard à côté
de la valeurfinalement
retenuepour la réalisation,
tendà
prouverqu’on fai t (de temps à autre)
desprévisions
hasar-deuses. Il
n’était d’ailleurs
pasquestion
defai re
rechercherde telles
données par
unétudiant.
En simulant les erreurs de
prévisions Pi - Ri
par des variablesaléatoires,
nous rentrions au contrai re dans le do- maine des recherchesd’ordre
universi taire et c’est cequi fut fait.
Pour essayerd’être plus clair,
nousprésentons
dans unepremière portie les questions
destati,stique mathématique étu- diées
par F. Gi raud en vue de la di te simulation. Dans la deu-xième partie,
onappitquera
cesrésultats
auproblème
des er-reurs de
prévision.
,Bien
entendu on n’arépondu
ainsi quepartiellement
aubut
initialementproposé, l’assimilation
des erreurs deprévi-
sion
à
desvariables aléatoires étant
d’autantplus
discutablequ’on
aété condui t à particulariser énormément
letype
de va- riables.C’’ est
direqu’il y
aplace
pourd’autres recherches, apparemment plus difficiles.
A joutons qu’il
a aussiété question
de l’indice de Theil dans une communication auCoures Européen d’Econométrie
de1967 (Bonn),
pour comparerà
desréalisations
lesrésultats
de certainsmodèles prévisionnels.
Il semble donc que cet indiceintéresse
diverses classes de chercheurs[3].
P. T.
Revue de Statistique Appliquée, 1968 - vol. XVI - N’ 1
60
lère PARTIE - ETUDE D’UNE VARIABLE ALEATOIRE DETERMINEE PAR UN
X 2CENTRE
ET PAR UNX2 DECENTRE
La variable
Q qui
va être étudiée mérite d’êtrerapprochée
d’uneautre variable
Q
deHOGBEN,
PINKHAM etWILK, qui
a faitl’objet
dedeux articles des Annals of Mathematical
Statistics, 1964, [4].
Cette der-nière variable
Q
est de la formele
X2 ayant
Ndegrés
de liberté et W étant une variable deLaplace
GaussM(03B8, 1). X2
+W2
est donc un~2c décentré,
de même queW2
Notre variable
Q
est de la formex2 e
étant unX2 décentré ;
et comme pour la variable desAnnals,
les nu-mérateur et dénominateur ne sont pas
indépendants,
admettant un"facteur commun" (au
sens del’analyse factorielle) :
L’analogie
s’arrêtelà,
car nous ne donnons aucun moyenperfec-
tionné de tabuler la variable
Q (ce qui pourrait
fairel’objet
d’autresrecherches).
Expressions
diverses deQ
1/
La variableQ
seprésente comme
fonction des N aléatoiresXi
de
Laplace
Gauss norméesles ai
étant Nparamètres,
avec03A3a2i = a2.
Posant 03A3 X2i = ~2,
et substituant auxXi
les variables03BEi,
onpeut
donc ne faire
dépendre Q
que de 2 variables aléatoires liéesX, Xc
ou de2 variables
indépendantes
Cette dernière formulation
peut
céder laplace
à la suivante.N
2/ Posant aiXi - a ~ Y,
onpeut
vérifier que Y et X s.oni indé-pendantes.
On aavec Y = Cos Q
Revue de Statistique Appliquée, 1968 - vol. XVI - N’ 1
61
en
désignant
par Ql’angle
des vecteurs(ai)
et(Xi ).
La distribution de Y est bien connue, c’est celle du coefficient de corrélationstatistique
Rde n
couples (xiyi)
d’observationsgaussiennes
de variables x,y
noncorrélées ;
elle est liée à celle du t deStudent-Fisher ; Y2
suit une"loi Beta".
Le calcul donne :3/
On sait queEX2 = N, VX2 -
2N. Considérons doncDès que N est
"un
peugrand",
le terme XY estnégligeable
vis àvis des termes a2 et
X2.
Du moins est-ce vrai enprobabilité, puisque
XY et
X2
sont deux aléatoires(si a2 est
uneconstante).
Ceci conduit à assimiler
(sans
doute un peuvite)
la variableQ
etla variable suivante :
lorsque
N estgrand, pratiquement
pour N > 20.L’avantage
deQI
est dene
plus dépendre
que de l’aléatoireunique
X.Tables de la variable
QI
La
graduation
deQl,
c’est-à-dire l’établissement de sestables ,
est
facile,
du fait que les fonctionsqui
sontréciproques
l’une del’autre,
sont monotones(croissantes).
Onne s’intéresse
qu’aux
valeurspositives
de x(de X),
cequi
laisse varier q de 0à 1 ;
et on aLa table
reproduite
icicorrespond
à N =25,
leparamètre
a va-riant de 30 à
500,
les seuils deprobabilité
retenus pour les besoins du statisticien étant :L’intérêt de
Q1
substituée àQ (dans
des conditionsqui
seront dé-signées
par H. S. initialesd’Hypothèse Simplificatrice)
estqu’on
rencontredes difficultés
pratiques
à calculer les tables de la distribution de la va- riableQ proprement
dite.Revue de Statistique Appliquée, 1968 - vol. XVI - N’ 1
62
Tableau 1 - Valeur que
Ql
a laprobabilité
1 - P dedépasser.
Pour N = 25Deux
représentations géométriques
deQ
ettechniques
de calcul numé-rique
1/
Coordonnéesbipolaires
etpolaires
L’expression (1) Q = X/(a
+Xp)
invite àreprésenter
en coordon-nées
bipolaires
les courbesQ =
q ; il vient :q =
p/(a
+pl ) (6)
Revue de Statistique Appliquée, 1968 - vol. XVI - N’ 1
63
ou avec
C’est une famille
d’ovales,
deparamètre
p(ou 1/q).
On passe de là à une
représentation polaire,
avecp2 1 = p2
+2ap
sin E) +a2
Fig.l
a)
Cas de N = 2Le
point M( p, 9)
a une distribution deprobabilité,
dans leplan (p, a)
telle que :p 2 = OM2
est la variableX2 à
N = 2degrés
de liberté03B8 est uniformément
répartie
sur(0, 2?t) (isotropie)
de sorte que
Les
variables 03BE
et Tl sont deux variables deLaplace
Gauss norméesindépendantes.
On voit ainsi que, si
N = 2,
la distribution de M dans sonplan
est schématisée par des
angles égaux
issus de 0 et des cercles concen-triques
de centre 0.La distribution de
Q
est schématisée par une famille d’ovales. Le domaine situé à l’intérieur de l’ovale(1/q = p)
a pour mesure la pro- babilité queQ
soit inférieur à q.Chaque
ovale est en fait inclus entre 2 cerclesconcentriques
voi-sins l’un de
l’autre,
de rayons X’ etX".
En
interpolant,
il a étépossible, graphiquement,
d’en déduire(gros- sièrement),
les valeurs suivantes de laprobabilité.
Revue de Statistique Appliquée, 1968 - vol. XVI - N 1
64 Tableau 2
03B2)
Cas de N > 2 : La modificationapportée
au casprécédent
estapparemment
minime.p2 OM 2
esttoujours
un~2 (à
Ndegrés
deliberté)
p2
=ç, 2
+112 ;
est encore une variableM(0, 1), indépendantes
de r) mais :1’)2
est un~2 à
N - 1degrés
de liberté.Conséquence :
La distribution estanisotrope :
9 n’estplus
du tout uni-forme,
si les cercles de rayon p délimitent encore des domaines dont la mesure estProb (X2 p2).
De même il est
toujours
exact que le domaine situé à l’intérieur de l’ovale deparamètre
p =1/q
a pour mesure laprobabilité
de(Q q) .
L’ovale
d’équation (7) :
p =2a(p
+ sinA)/(p2
+1)
a pourgrand
axe
2a/(p - 1)
pour 0 =n/2 ;
et pourpetit
axe2a/(p
+1)
pour9 = - 7t/2.
La moyenne des axes est
2ap/(p2 - 1),
c’est-à-dire la valeur de p pour9=0.
Le cercle de rayon p =
2ap/(p2 - 1),
c’est-à-direp = a + Va2 + p2
correspond justement
à : Pet la mesure de l’intérieur de ce cercle n’est pas autre que la
probabi-
lité de
(Q
1q).
Ainsi Q est très
voisin deQ parce
que le cercle de rayon2 ap/(p2 - 1)
chevauche sur
l’ovale,
les rayons vecteursplus grands
que2ap/(p2 - 1)
et ceux
plus petits
secompensant quel
que soit N.Exemple. -
a = 30Revue de Statistique Appliquée, 1968 - vol. XVI - N’ 1
65
Conclusion : Aucune
interpolation
ne donnerait de résultats différents deQl,
vul’imprécision
duprocédé.
Restent
possibles
des calculsprécis d’intégrales doubles, qu’on pourrait
effectuer sur ordinateur.2/
Autrereprésentation graphique.
Partons de : *
Posant
Q
q,q = 1, l’équation
p
se réduit à
ou
Elle se
décompose
en une droite :et une famille
Dp
de droites :Les
Dp
ont pourenveloppe l’hyperbole H, d’équation
On
pourrait
vérifier que deux droitesquelconques
de la familleDp’
etDp"
secoupent
bien hors de la demi-bandeB,
définie commesuit :
Considérons alors sur B la distribution en
(x, y), produit
des dis-tributions
de
XN
sur le demi-axepositif Ox ;
de
Y,
corrélationstatistique
deFisher,
sur l’intervalle(- 1, + 1)
de
Oy.
La droite
Dp (de paramètre p) partage
B en deuxdomaines,
dontles mesures
respectives
sont :Prob (Q q)
àgauche
deDp (région
en forme detrapèze rectangle) Prob (Q
>q)
à droite deDp (région
non bornée àdroite).
Revue de Statistique Appliquée, 1968 - vol. XVI - N’ 1
66 Fig. 2
En résumé
On pourra calculer
Prob(Q q) = F(q)
enintégrant
sur letrapèze rectangle
l’élémentdifférentiel, produit
desprobabilités
élémentaires de X et de Y.Ces calculs
n’ayant
pas étéfaits,
il est difficile de dire s’ils sontplus simples
que ceux relatifs aupremier
cas. Apriori,
il semble devoir êtreplus pratique d’intégrer
sur une aire limitée par unsegment
dedroite,
que sur une aire limitée par un ovale.
Remarque
1. Cas de N = 1 : On obtient alors(figure 3)
Prob(Q q) = Prob(u’
Uu")
Fig. 3
Le cas est d’ailleurs sans aucun intérêt
pratique.
Remarque
2. C as d’une variableplus générale,
dutype
Revue de Statistique Appliquée, 1968 - vol. XVI - N 1
67
où b n’est
plus identique
à a, et oùX 2n’est plus
nécessairement unX2.
On notera d’abord que
Q2
est encore définie sur(0, 1),
et que la fonctionq(x)
reste monotone
croissante ;
d’où il suitqu’on
a encore :Ce fait
présentera quelque
intérêt dans la 2èmepartie
de cetexposé (modèle
N°4).
Remarque
3. Cas où N est trèsgrand
Quand
N estgrand, les
variablesQ
etQi
sont indiscernables. Mais l’une et l’autre sontasymptotiquement
des variables deLaplace-Gauss.
Ceci
peut
s’établir pardéveloppement
limité dece
qui
donneOn suppose enfin
N/a2 petit
pour obtenir le résultat annoncé.2ème PARTIE - APPLICATION A LA MISE A L’EPREUVE DE L’INDICE DE THEIL
1 -
Rappels
Soit N
grandeurs économiques Gi,
i =1, 2,..., N,
dont les valeurs à une date donnée fontl’objet
deprévisions
et
qui prendront
en fait les valeursIl se
peut agir également
d’une variableéconomique G,
de ses va-leurs
prévues
et ensuiteobservées,
à des dates successives i =1, 2
... N .L’indice étudié est :
Revue de Statistique Appliquée, 1968 - vol. XVI - N’ 1
68
Il est facile de voir que :1/
0Q 1
2/ Q =
0 si et seulement siPi - Ri quel
que soiti ;
3 / Q =
1 dans les cas suivants :3. 1 -
Pi = 0
pour touti, quels
que soient lesRi,
3. 2 -
Ri = 0
pour touti, quels
que soient lesPf
3. 3 -
Pi = - 03BBRi.
B > 0 pour tout i.2 - Nature de l’étude
Dans
[2]
on avait considéré l’indiceQ
comme une fonction des 2n va-riables
Pi , Ri.
En fait les(Pi - Ri)
sont les erreurs commises sur lesPi
par un servicechargé
de laprévision
desRi.
Nous assimilerons ces erreurs à certaines variables
aléatoires,
donttout d’abord
la
loi n’est passpécifiée
mais dont onpeut
admettrequ’elles
ont des moments d’ordre 1 et 2.
Après quoi
nous introduirons deshypo-
thèses
supplémentaires plus
ou moins fortes.Pour un corps
d’hypothèses spécifié,
l’indiceQ
étant devenu unevariable
aléatoire,
nous nous proposons de calculer les valeursqa
tellesque
avec a = 10
%,
5%,
2%,
1%,
que les statisticiensappellent
seuils designification.
Cette étude nous donnera ainsi une idée de
l’importance qu’il
con-vient d’attribuer à telle ou telle valeur de l’indice
Q, lorsqu’on
le calculesur des séries
statistiques
réelles.Remarque -
Nous considérerons lesRi
comme desconstantes ;
c’est-à- dire que nous admettrons que les réalisations ne sont pas affectées par lesprévisions qui
ont étéfaites,
cequi
est commode pour les calculs . Le contraire est souventvrai ;
parexemple (phénomène
de"feed back")
on sait que dessondages,
à la veille desélections, peuvent
avoirune certaine influence sur la
façon
de voter.Lorsque
le calcul deQ porte,
pour unegrandeur économique,
surdes
prévisions
et des réalisations
à des dates
t =
1, 2 ,
... , N(disons également espacées)
il
pourrait
même être nécessaire de tenircompte
de modifications enchaîne :
Ainsi,
un retardobservé,
à la datet,
dans la réalisationRt, peut
avoir une influence sur
Rt+1
ouRt+2.
Revue de Statistique Appliquée, 1968 - vol. XVI - N’ 1
69
Pour
simplifier,
nous excluons cesproblèmes
de laprésente
étude.Hypothèse Simplificatrice (passage
deQ
àQi)
Nous aurons souvent recours à une
hypothèse
très commode(dé- signée
par H.S) qui
ne saurait d’ailleurs êtrerigoureusement
vérifiée :nous supposerons
négligeable
le termeOr,
laplupart
dutemps
nous devons aussi supposer les(Fi - Ri) indépendantes,
cequi
exclut l’existence d’une condition telle que :SRi(Pt-Ri)=0
Mais
quand
les(Pi - Ri )
seront assimilées à des aléatoiresd’espé-
’rance
mathématique nulle, l’hypothèse
H. S est admissible si les(Pi - Ri )
admettent un moment d’ordre
2,
et d’autant mieux que N seragrand.
Quand (modèle
N°4)
nous supposeronsE(Pi - Ri) = 6i
nonnulle,
notre
hypothèse
H. Simpliquera
aucontraire Y. Ri 03B4i # 0,
c’est-à-dire uneorthogonalité
entre vecteurs(Ri)
et(6i) qui appelle beaucoup
de réserves . Toutefois il nous suffira(Remarque 2,
fin de la 1èrepartie)
de supposer(ce qui
est bien moinsstrict) :
et d’écrire
avec
d’où
Le rôle de H. S est de limiter nos
calculs,
en assimilantQ
àQI
aléatoire fonction d’une seule variable aléatoire
(en pratique X2
ou~2c)
etnon de deux aléatoires.
Il existe vraisemblablement d’autres
approximations
visant au mêmebut et
(le
caséchéant)
meilleures.Revue de Statistique Appliquée, 1968 - vol. XVI - N’ 1
70
Les modèles d’erreurs Modèle N° 1 :
Pi - Ri = Xi = 6i
uiUi
serait une valeur de la variable aléatoireM(0, 1)
deLaplace-
Gauss
réduite.
LesUi
sont mutuellementindépendantes (en probabilité).
6i - o est constante.
Alors,
enposant
l’indice
Q
de THEIL s’identifie à la variable aléatoireQ
de la lère Par- tie.Et si N est assez
grand,
la distribution deQ
diffère peu de celle deQi (Tableau
1ci-dessus).
Discussion du modèle N° 1
Le modèle n° 1 d’erreurs n’est pas réaliste.
1/
Nous avonssupposé
que 6 était le même pour tous lesRi,
alorsque les
postes
i(disons
d’unecomptabilité nationale) correspondant
auxRi
sont très différents. Onpourrait
alorsplutôt
supposer aiproportion-
nel à
Ri
ou(mieux)
àRi.
2/ L’indépendance
mutuelle desUi
n’est pas réaliste : c’est ainsi que lespostes (i)
descomptes
nationaux ne sont pasindépendants
entreeux. Des relations
linéaires,
dites identitéscomptables,
lient certains d’entre eux. Dèslors 03A3 X2 = (J2X2
n’aplus
Ndegrés
deliberté,
maisun nombre de
degrés
moindre. Enmoyenne Xi
est moinsgrand
queprévu..
X 2
est alors une variable à 4degrés
de liberté(et
non5).
Conséquence :
Raisonnons en faisantl’hypothèse H. S.
Il revient alorsau même de dire que
X2
ou queQ
estplus petit
queprévu,
parcequ’on
oublie l’existence des identités
comptables.
L’indiceQ risquerait
doncde
paraît re
nonsignificatif,
alorsqu’en
fait il seraitdéjà significatif,
c’est-à-dire décelerait une baisse de
qualité
de laprospective.
3/ L’hypothèse E(Ui) =
0 traduit l’absence d’erreurssystématiques
de la
part
du servicechargé
desprévisions.
Or de telles erreurs existenten fait et sont
longues
à se laisser découvrir. On doit se demanderquelle
serait l’influence de ces erreurss’ajoutant
aux erreurs aléatoires.Revue de Statistique Appliquée, 1968 - vol. XVI - N’ 1
Exemple :
Siet
alors
Posons
71
Conclusion : Aucune de ces
critiques
n’est vraiment destructrice mais elles conduisent à certainescomplications
du modèled’erreurs, qui
vont être àprésent
formulées. En revanche on nepeut
oublier une autre ca-tégorie
decritiques,
celles concernant le bien-fondé de toutel’hypothèse gaussienne ;
disons que d’autres lois deprobabilités pourraient
bienêtre plus près
de la vérité maisprésenteraient
l’inconvénientmajeur
de con-duire à des calculs
inextricables ;
dès lors il conviendrait de s’abandonneraux calculateurs
électroniques,
cequi change
totalement la nature des recherches(et
descritiques
à leuropposer).
Tenons-nous en donc auxmodèles
gaussiens
d’erreurs.Modèle N° 2 : non
indépendance
des UiOn
peut
introduire dans les calculsprécédents
les covariances à côté des variances. PosonsX2 = 03A3(Pi - Ri)2 .
Soit
Pij
la corrélation entreUi
etUj .
Si N est assezgrand, Q
est à peu
près gaussien.
On n’a pas altéréE(X2) ;
mais le calcul montrequ eV(X 2)
estmultiplié
parp
étant la moyenne desP1J.
Il suffirait donc d’avoirp = 0,
1 pour que la variance se trouvemultipliée
par 3(si
N = 21 parexemple).
Il est vrai que, dans le cas des identitéscomptables,
il faudrait tenir les corré- lations pournégatives (ce qui
abaisse lavariance).
On
peut
encoreimaginer
queP1J
est engénéral nulle,
sauf sij =
i t1,
c’est-à-dire pour les termes consécutifs d’une série(chrono- logique surtout).
La variance serait alorsmultipliée
parP désignant
la moyenne des corrélations non nulles.Avec p = 0, 25,
lavariance sera accrue de 50
%
parrapport
au modèle N° 1qui
suppose l’in-dépendance.
Modèle N° 3
Si l’on ne suppose
plus
les aiégaux
entre eux, alorsn’est pas une variable
X2
de Pearson. On trouve facilementen
appelant
III 1 /l2 les deuxpremiers
moments des03C32i :
Supposant
queX2
ait la même moyennequ’avec
le modèle N°1,
la
dispersion
des03C32i a
pourconséquence
un accroissement deVX2.
Revue de Statistique Appliquée, 1968 - vol. XVI - N’ 1
72
Raisonnons en faisant
l’hypothèse
H. S ::l’indiceQ
aura même valeur centrale que dans le modèle N°1 ;
mais sadispersion
autour de cette valeur centrale sera d’autantplus
accrue que les ai serontplus
diffé-rents les uns des autres.
Modèle N° 4
Introduisons dans le
modèle N°
1 des erreurssystématiques 03B4i,
c’est-à-dire
imaginons qu’on
ait :L’indice
Q
pourra se mettre sous la formeoù
Xp
et~’c sont
deux X décentrés nonindépendants,
àparamètres
de dé-centrages
différents. Raisonnant encore dansl’hypothèse
H.S,
on auraitle
Xc
décentré se substituant au X de Karl Pearson dans la formule(5).
Mais nous devons faire des réserves sur
l’hypothèse H. S qui
enpareil
cas suppose :lRi8i =
0Si l’on se borne à tenir pour
négligeable 03A3 (Ri
+03B4i)Ui,
cequi parait raisonnable,
il vientD’après
la remarque 2(fin
de la lèrepartie),
on n’en aura pas moinsPour passer aux
applications,
encore faudrait-il connaître le pa- ramètre dedécentrage
de~2c,
cequi
supposequ’on
soitdéjà
très bieninformé sur les erreurs
systématiques.
Ainsi on ne voitguère
le moyen d’utiliser la table~2c.
Dupoint
de vuequalitatif,
ledécentrage
duX2
apour effet
d’augmenter (très notablement)
les valeurssignificatives
de lavariable,
donc deQ.
C’est dire queQ peut paraître significativement trop grand,
alorsqu’il
ne le serait pas.On a pu remarquer que tous les résultats obtenus
(le
tableau 1notamment) dépendaient
non seulement de N(taille
de lasérie)
mais enplus
encore duparamètre
a.Revue de Statistique Appliquée, 1968 - vol. XVI - N’ 1
73
Dans le cas du Modèle
1,
on a parhypothèse
1/ Il
estpossible qu’on
veuille tester avecQ
unehypothèse
où lavaleur de a est
spécifiée, auquel
cas iln’y
a pas deproblème.
2/ Il
est aussipossible
d’estimer a sur une sérienumérique, l’hy- pothèse (disons
celle du modèle1)
étantsupposée
correcte. Alors l’es- timation de03C32 :
est suffisante et sans biais. L’estimation de
a2 = (03A3R2i)/03C32,
où(03A3R2i)
n’est jamais qu’une
constante(d’après
noshypothèses initiales), pourrait
donc être :
Cette estimation est
suffisante,
elle est malheureusement biaisée(pour
a2 eta).
En
pratique,
a sera estimé sur un nombre N decouples
relative-ment médiocre et
l’imprécision
de cette estimation resteragrande.
3/
Enfin on serait satisfait s’il étaitpossible
tout à la fois de testerl’hypothèse
et d’estimer a, c’est-à-dire dejuger
àpremière
vuesi un indice
Q
est fort ou est faible. Or ceci n’a pas paru de l’ordre des chosespossibles :
Si l’on n’a aucune
idée,
àl’avance,
sur la valeur de a, on nepeut
utiliser le tableau 1.
Plus exactement :
Ayant
estimé a parà,
la valeur deQ,
lue sur laligne
à du ta-bleau
1,
ne devrait pas être(en général)
une valeursignificative.
Ici,
il faut noter que nous avons rencontré le cas(expérimentalement)
une fois : il se trouvait alors que le modèle d’erreurs
(modèle
N°1 )
était totalement
irréaliste,
en ce sens que toutes les erreursPi - Ri
iétaient
grandes
enmodule,
cequi
nepeut guère
seproduire
pour une variable deLaplace
GaussUi .
Onpeut
penser queQ
ne serasignificatif
que dans des cas
comparables
à celui-ci.4/
Il convient donc de poser leproblème
d’une autrefaçon :
A la suite de nombreux essais de
prévision,
et des confrontations faitesplus
tard sur les réalisationsquand
on lesconnaît,
un servicede
prospective (ou
deprévision,
ou deconjoncture)
estsupposé
avoiracquis
unetechnique
telle que sesprévisions
soienthomogènes, -
au-trement dit que
l’écart-type
6 - et finalement leparamètre "a" -
re- latifs à tel ou tel groupe derubriques,
sont censés rester stables au cours des années.Revue de Statistique Appliquée, 1968 - vol. XVI - N’ 1
74
Bien
entendu, "a"
sera"meilleur"
pour les groupes derubriques
où laprévision
est laplus
aisée(disons
le groupe dessalaires,
en comp- tabiliténationale) ; "a"
sera"mauvais"
pour les groupes derubriques
dont la
valeur,
voire même lesigne,
sont difficiles àprévoir,
c’est-à-dire les soldes(solde
de la balance despaiements,
de la balance commer-ciale, épargne, etc.. ).
A noter que"a"
mauvaissignifie "a" petit.
La
procédure
raisonnable semble devoir être finalement d’estimer"a"
au moyen des données concernant l’année T et dejuger
du caractère deQ
au moyen des données concernant l’année T + 1.5/
D’autrepart ;
si l’on veut comparer les valeurs de 2 indicesQ1 et Q2
concernant des donnéesdistinctes,
il conviendraitqu’il s’agisse
bien de données
également
nombreuses(N1 # N2)
et de tailles compara- bles(r1 # r2).
Finalement si lesécarts-types
sontcomparables (03C31 # 02),
le fait que
Qi
diffère notablement deQ2 peut
encores’expliquer
en par- tie par l’effet du hasard(distribution
de la variableQ).
6 / Remarque
On
peut
encore se demander s’il convient parexemple d’accepter
le modèle N° 1 contre le modèle N° 4 : absence ou existence d’erreurs
systématiques.
Il ne semble pas que lastatistique Q
soit choisie àpriori
pour fournir ici le test le
plus puissant.
Dans le cas où le modèle N° 4supposerait 61 =
6(la
même erreur pour tous lesi),
le test de Student- Fishers’imposerait
à cepoint
de vue.Plus
généralement
lastatistique Q
n’a aucuneposition privilégiée
pour
supplanter
les tests connus. Il faut voir avant tout dansQ
un bonindice de concordance.
CONCLUSION ’
On vient d’étudier un
problème
concret où la valeur donnée à N est couramment de l’ordre de10,
etparfois
moins(quand
ils’agit
d’unesérie
chronologique).
Pourtant nous n’avons trouvé la solutionnumérique
exacte du
problème
que d’unepart
pour N = 1 ou2, -
d’autrepart
pour Ngrand (en
fait si N est de l’ordre de25,
la solutionapprochée QI
etla solution
asymptotique Laplace-Gaussienne
ne donnentguère
de résul-tats
différents).
Enrevanche,
enappliquant
la solutionQI
avec N =10,
on est assuré de n’avoir que des résultats assez médiocres - disons des ordres de
grandeur -
Il serait souhaitable que les recherches se
poursuivent,
en vue d’une meilleureapproximation -
ou d’un calculpratique
desintégrales
doublesdonnant la solution exacte du
problème.
Toutefois,
lephénomène
est assezgénéral.
Parexemple
la théorie des files d’attente auxguichets (disons
de laSNCF)
est fortsimple
s’iln’y
aqu’un guichet, -
est encorepraticable
à larigueur
pour 2guichets, après quoi
il convient de traiter le cas d’un nombre très élevé degui-
chets. Les vraies difficultés commencent avec le cas d’un nombre réa- liste deguichets.
Dans certains
problèmes
combinatoires(comme
celui du nombred’isolés dans un
groupe)
on retrouve la même difficulté : entre les casqu’on peut
traiter directement et le casasymptotique,
leproblème posé
dans le cas
général possède
une solutionthéorique qui
ne seprête
pasau
calcul, - quand
on laconnaît.
Revue de Statistique Appliquée. 1968 - vol. XVI - N’ 1
75
On constate même assez souvent que la solution
asymptotique
con-vient très mal dans les cas où l’infini est
loin ;
ceci n’exclut pas lapossibilité
de trouver de bonnesapproximations
oud’essayer
une mé-thode de Monte-Carlo si l’on en a les moyens.
Présentement,
onpeut
trouver
trop
mince lepoint
de contact entre leproblème
traité(1ère Partie)
et les besoins desutilisateurs,
pourjustifier l’emploi
degrands
moyens decalculs.
BIBLIOGRAPHIE
[1]
THEIL M. - Economic Forecast andPolicy (Amsterdam
2° Ed.1961).
[2]
THIONET P. - Un indicestatistique
destiné à lacomparaison des prévisions
et desréalisations,
Journal de la Société deStatistique
de
Paris,
105-3(1964)
181-89.[3]
JORGENSON Dale W. - Thepredictive perforlance
ofquaterly
eco-nometric models of the United
States,
The EconometricSociety,
Bonn 1967.
[4]
HOGBEND.,
PINKHAMR. S. ,
WILK M.B. -1/
The moments of a variate related to the non-central t.1/
Anapproximation
to the distribution ofQ (a
variate related to the non-centralt).
Annals of Mathematical Statistics
(March 1964)
p. 298-14 et 315-18.Revue de Statistique Appliquée, 1968 - vol. XVI - N’ 1