R EVUE DE STATISTIQUE APPLIQUÉE
E. M ALINVAUD
Théorie de la régression simple
Revue de statistique appliquée, tome 11, n
o4 (1963), p. 49-75
<
http://www.numdam.org/item?id=RSA_1963__11_4_49_0>
© Société française de statistique, 1963, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (
http://www.sfds.asso.fr/publicat/rsa.htm
) implique l’accord avec les conditions générales d’uti- lisation (
http://www.numdam.org/conditions). Toute utilisation commerciale ou im- pression systématique est constitutive d’une infraction pénale. Toute copie ou im- pression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
49
THÉORIE DE LA RÉGRESSION SIMPLE (1)
E. MALINVAUD
Directeur
de l’Ecole Nationale de la Statistique
et
de l’Administration Economique
Nous
étudierons
ici laméthode statistique appropriée
au traitement d’un
modèle
danslequel
une variableendogène dépend linéairement
d’une variableexogène
et d’uneperturba-
tionaléatoire
non observable.L’ajustement
des moindres car-rés
de laprem iè re
variable parrapport à
la secondeapparat-
t ra comme le
procédé
con venan tà
l’estimation desparamètres.
La
théorie qui
va êtreprésentée intéresse
de nombreuxdomaines de la
statistique appliquée.
Nous nousréfèrerons
uniquement aux applications économétriques
pourlesquelles
elle a uneimportance particulière.
Eneffet, parmi
les nom- breuxmodèles
que l’on estamené à
introduire pourl’analyse
des
données économiques, beaucoup
constituent desgénéralisa-
tions
plus
ou moinssimples
de celuiexaminé
ici.Les résul tats dont
nousferons état
sont maintenant clas-siques.(2)
Seule notreprésentation peut être originale.
I - LE MODELE
Une certaine
grandeur
x est considérée comme déterminée àpartir
d’une autre
grandeur
z. Ladépendance supposée peut
être bienrepré-
sentée par
une
relation dutype :
x = az + b + 03B5
(1)
dans
laquelle
a et b sont des coefficientsinconnus,
et e un terme aléa- toire non observable.On
dispose
de T observations sur les valeursprises
par lecouple
des
grandeurs
x et z. Soit(xt, Zt)
une observation(t = 1, 2....T).
Lesdonnées
disponibles
sont constituées par les 2T nombres :(1) A peu de choses près, cet article constitue le texte du chapitre III de l’ouvrage qui paraîtra très prochainement sous le titre "METHODES STATISTIQUES DE
L’ECONOMETRIE".
(Voir E. Malinvaud (1964) dans les références figurant in fine). La maison Dunod a bien voulu autoriser la publication anticipée de ces pages. Je l’en remercie vivement.(2) Le lecteur qui désire des références bibliographiques peut se reporter à E. Malinvaud
(1964)
notamment chapitre V et VI.’evue de Statistique Appliquée. 1963 - Vol. XI - N’ 4
50
x1
X2 ... xt .... xT z 1 Z2.... Zt .... zT
A
partir
de cesdonnées,
on veut estimer les coefficients a, b et certainescaractéristiques
de la distribution des e.Par
exemple
xpeut
êtrel’épargne
annuelle d’unménage,
z le re-venu de ce
ménage pendant
la même année. Le modèlespécifie
alors quel’épargne
est déterminée àpartir
du revenu et d’autres éléments nonobservables,
suivant une formule linéaire valable pour tous lesménages .
Les données
disponibles portent
surl’épargne xt
et le revenuz
t de Tménages repérés
par un indice t.Pour
justifier
lemodèle,
on admet souvent que lagrandeur
z obser-vable et la
grandeur
e non observable sont les"causes" qui
déterminent la valeurprise
par lagrandeur
x. Une formule linéaire dutype (1)
estsouvent retenue à cause de sa
simplicité,
et faute d’une théoriequi pré-
ciserait la nature de la
dépendance
entre z et x. Le terme sreprésente
l’effet de tous les facteurs que nous ne pouvons ou ne savons pas iden- tifier. Il est considéré comme aléatoire
puisque
notreignorance
sur sesmodes de détermination lui donne la nature d’une variable aléatoire.
Par suite de la relation
(1),
lagrandeur
x est aléatoire comme e . Pour toute valeur fixée de z, elle obéit à une loi deprobabilité. Chaque
valeur
xt
est considérée comme une observation sur la variable aléatoire x, c’est-à-dire comme le résultat d’untirage
effectué suivant la distri- bution deprobabilité
de cette variable pour la valeur de zcorrespondante ,
soit
Zt.
Demême,
l’ensemble des valeurs xl, X2.... x, est traité commeun échantillon obtenu à
partir
des distributionscorrespondant respective-
ment à
zl, z2.... zT.
L’espace
échantillon est alorsl’espace
euclidien à Tdimensions,
danslequel
lepoint observé(1)
a pour coordonnées xl, x2···· xr. La dis- tribution deprobabilité
de cepoint
est déduite directement de celle de la variable x pour les T valeursZl’ Z2.... zr de
z. Elledépend
des para-mètres inconnus : a, b et de certaines
caractéristiques
de la loi des e.Le
problème statistique
consiste dans l’estimation de cesparamètres
àpartir
de l’échantillon.On
peut
encoreprésenter
le modèle d’une autremanière, qui
ap-paraît quelquefois plus suggestive,
et dire : le modèlespécifie
la loi deprobabilité. conditionnelle de la variable endogène x pour
toute valeurfixée
de la variable
exogène
z. L’échantillonpermet
l’estimation de caractéris-tiques
de la loi deprobabilité
conditionnelle dexl, x2····xT
pour les va-leurs zl,
Z2.... zT de
z.Cette formulation
peut
donner à penser que la variableexogène
zest considérée comme
aléatoire,
etqu’il
existe une loi deprobabilité
ducouple (x, z).
Enfait,
les méthodes etpropriétés
que nous allons consi- dérers’appliquent
aussi bien que la variableexogène
soit certaine oualéatoire. Elles ne font
jamais
intervenir que la loi deprobabilité
condi-tionnelle des x pour des valeurs fixées des z.
---
1) Le symbole x est utilisé ici pour
désigner
aussi bien la variable aléatoire, que l’ensemble des valeurs observées de cette variable. Puisque le lecteur en est averti, cela ne devrait pas provoquer de confusion.Revue de Statistique Appliquée. 1963 - Vol. XI - N’ 4
51
On rencontre d’ailleurs des variables
exogènes qui
ne sauraient être considérées comme aléatoires.Ainsi, zt désigne parfois
letemps,
moisou
année,
de l’observation xt.Quand
zreprésente
unegrandeur
économi-que, on
peut
souvent admettreque
la valeur atteinte par cettegrandeur
résulte d’un
phénomène
enpartie
aléatoire. Mais cephénomène
fait alors lui-même intervenir d’autresgrandeurs, qui
yjouent
le rôle de variablesexogènes. Ainsi,
mêmequand
ellepourrait
être considérée comme aléa-toire,
la variable z ne suivraitgénéralement
pas une loi de distributionsimple.
Demême,
la loi deprobabilité
ducouple (x, z)
seraitcomplexe .
En la faisant intervenir dans la
spécification
dumodèle,
oncompliquerait
inutilement les
choses.
II - HYPOTHESE FONDAMENTALE
Il nous faut maintenant
préciser
le modèle en formulant leshypo-
thèses que nous ferons intervenir. Par souci de
clarté,
ceshypothèses
ont été détaillées le
plus possible.
La listecomplète
enfigure ci-dessous ,
bien que laplupart
des résultats nereposent
que sur certaines d’entre elles. Ceshypothèses
intéressentprincipalement
la distribution des E ; les deux dernièresportent
sur les valeurs des variablesexogènes
et surles
paramètres.
Hypothèse 1 -
Les variablesxt
etzt (avec
t =1, 2....T) représentent
des
grandeurs numériques
observées sans erreur. La variablext
estaléatoire ;
elle satisfait :xt azt
+ b+ Et
pour t =1,
2.... T(2) égalité
danslaquelle
a et b sont deux coefficientsnumériques,
etEt
unevariable aléatoire non observable dont
l’espérance mathématique
est nulle,quels
que soientz l’ z2 ···· zT.
Cette
hypothèse reprend
les indicationsgénérales
sur lemodèle,
tellesqu’elles
ont étédéjà
données dans leparagraphe précédent.
Notonscependant
deux additions.D’une
part,
il estprécisé
que les variables x et z sont observéessans erreur. S’il existait des écarts
appréciables
entre les valeurs obser- vées et les valeurs vraiesqui
satisfont lemodèle,
il faudrait faireappel
à d’autres méthodes
statistiques,
et à une autreanalyse théorique.
Bienque les données
économiques
soient indiscutablement entâchées d’erreurs de mesureplus
ou moinsgrandes,
on estime souvent que ces erreurs restentnégligeables
encomparaison
des éléments non observables influant la détermination des variablesendogènes (les
E dans le modèleactuel).
Ainsi,
les résultats relatifs àl’épargne
et au revenu d’un groupe deménages
résultentgénéralement
d’uneenquête qui
nepouvait prétendre
à une
précision parfaite malgré
le soin aveclequel
elle fut menée. Le revenu etl’épargne enregistrés
pourchaque ménage
diffèrentquelque
peu desgrandeurs
que l’on cherchait à mesurer. Mais les écarts sont leplus
souvent très faibles vis-à-vis du terme e
qui,
dans le modèle(1),
re-présente
l’effet surl’épargne
annuelle de tous les éléments autres que lerevenu de l’année. C’est
pourquoi,
on convient denégliger
les erreursde mesure dans
l’analyse économétrique
de ces données.D’autre
part,
il estspécifié
dansl’hypothèse
1 quel’espérance
ma-thématique
des E est nullequelles
que soient les valeursprises
par lesRevue de Statistique Appliquée. 1963 - Vol. XI - N’ 4
52
z. Faute d’une
hypothèse
de cette nature, lesparamètres
a et b dudèle ne seraient pas identifiables. Par
exemple,
une structure danslaquelle a=l,b=0,E(e)=0
conduirait à la même loi deprobabilité
condition-nelle des x
qu’une
autre structure danslaquelle
a =0,
b =1,
E(e) = z - 1 ,
les e suivant dans les deux cas une même distribution parrapport
à leurs moyennesrespectives.
La nullité del’espérance mathématique
des e esten somme
indispensable
si le modèle doit fournir lesupport d’analyses économétriques.
C’estpourquoi
elle a étéimposée
dès ledépart
dansl’hypothèse
1.Concrètement,
cette conditionsignifie
que le terme additif e du modèleprend
des valeurs tantôtpositives
tantôtnégatives,
et cela pour toute valeur de la variableexogène.
Elle n’est pas satisfaite si l’effet des facteurs nonobservables,
ou nonidentifiés,
est correlé avec l’effet de lagrandeur explicative
x. C’est donc là une condition restrictive enpratique qu’il
faudragarder présente
àl’esprit
dans touteapplication.
On a souvent en
économétrie,
l’occasion de voir des casimportants
danslesquels
elle ne convient pas, etd’envisager
alors des méthodes statis-tiques
différentes de celles duprésent
article.On
pourrait
donner àl’hypothèse
1 une formulationqui permettrait
d’éviter la difficulté d’identification
signalée
ici. Il suffirait d’énoncer di- rectement que la distribution deprobabilité
conditionnelle dext
pour des valeurs fixées de z,,z2···· zT
a l’espérance mathématique
azt + 03B2, soit( 1 )
E
(xt/z1, z2.... zT) - u- zt + 03B2 (3)
Les
paramètres
aet 03B2
seraient alors descaractéristiques
de la loi deprobabilité
conditionnelle des x. Si nous connaissons les valeurs de cesparamètres
et deZt’
nous obtenons directement la moyenne dext
par(xz + 03B2.
Peuimporte
alors quea zt
soit en fait l’effet de la variableexogène (cas
de la structure a =1,
b =0,
E(e) = 0)
ou celui d’autres facteurs non observables ou non identifiés(cas
de la structure a =0 ,
b =1,
E(e) =
z -1).
La connaissance de zt(et
desparamètres
ex et(3 ) suffit,
dans un cas comme dansl’autre,
àqui
veut connaître la moyen-ne conditionnelle de
xt.
Cette manière de
voir, préconisée
par H. Wold(1960),
estplus générale
que celle retenue dans l’énoncé del’hypothèse 1, puisqu’elle
n’élimine pas les structures du
type a = 0,
b =1,
E(e) =
z - 1. Ellemontre que les résultats établis ci-dessous
peuvent
recevoir une inter-prétation
un peu différente de celle àlaquelle
nous nous en tiendrons.Cette discussion se rattache d’ailleurs directement à l’étude de
11 ’’identification".
Laconnaissance
de la loi deprobabilité
conditionnelle des variablesendogènes
suffit tant que le modèle ne subit aucunchange-
ment. Il n’est nécessaire d’identifier individuellement les
paramètres
dela loi conditionnelle que si on cherche à connaître la structure
qui
l’ex-plique.
Cette identifications’impose
si on considère que certaines modi- fications doivent êtreapportées
au modèle estimé avant son utilisation à des finsprévisionnelles.
De
plus,
ilimporte
de formuler leshypothèses
de base de tellefaçon qu’elles s’appliquent
leplus
directementpossible
aux modèles éla- borés par la théorieéconomique,
etqu’elles
seprêtent
à une discussion---
(1) Dans le cas où
l’hypothèse
1, dans sa formulation première, serait satisfaite , les paramètres a et b seraient évidemmentégaux
à aet j3 .
Revue de Statistique Appliquée. 1963 - Vol. XI - N 4
53
reposant
sur l’examen direct desphénomènes représentés.
Celaexplique
l’énoncé retenu pour
l’hypothèse
1.III - AUTRES HYPOTHESES
Considérons maintenant des limitations
plus
étroitesportant
sur la distribution des termes non observables E, termes que nousappellerons
"erreurs" quand
cela neprêtera
pas à confusion.Hypothèse
2(Homoscédasttcité) -
L’erreur s suit une distributionindépen-
dante de t et des
ze (pour 03B8=1, 2.... T).
Elle a une variance 62.Cette
hypothèse précise
la conditiondéjà
incluse dansl’hypothèse
1 selon
laquelle l’espérance mathématique
deEt
était lamême, zéro, quelles
que soient les valeursprises
par lesze. Ici, Et
estsupposé
in-dépendant
desze ;
c’est-à-dire que toute sa distribution deprobabilité
reste la même
quelles
que soient les valeursprises
par les Zp. Les re- marquesprésentées
ci-dessuss’appliquent
donc avec desexigences plus précises.
Dans
l’hypothèse 1,
il étaitimplicitement
admis que la distribution deEt
avait uneespérance mathématique. L’hypothèse
2impose
encoreque la distribution ait une variance. C’est une condition
peut-être
contes- table. Mais elle est considérée comme satisfaite dans la trèsgrande majorité des applications pratiques.
Enfin, l’hypothèse
2stipule
encore que les erreurs Et suivent toutes la même distribution. On dit que les erreurs sonthomoscédastiques quand
leur distribution est
indépendante
de t et desze.
L’homoscédasticitépeut
être mise en défaut de diversesmanières ;
on dit alors que les erreurs sonthétéroscédastiques. Parfois,
des transformationssimples
sur lesvariables
permettent
d’éliminer les effets lesplus importants
de cette hétéroscédasticité.Hypothèse
3(Indépendance
des diverses observations) - Les erreurs03B5t
et03B503B8
relatives à deux observations différentesquelconques
t et e sont in-dépendantes
entre elles.Cette
hypothèse prend
uneimportance particulière quand
les obser- vations se suivent dans letemps
avec l’ordre1,
2.... T. Il existe alors souvent une corrélationpositive
entreEt
et l’erreur suivante03B5t+1,
dufait que les facteurs non identifiés du
phénomène agissent
avec une cer-taine continuité et affectent souvent de manière
analogue
deux valeurs successives de la variableendogène.
Demême, l’indépendance
des er-reurs est douteuse
si,
comme il arrive souvent, les observations ont desorigines diverses,
et si on a des raisons de penser que les observations de même provenance sont affectées par certains facteurs communs non observables.Hypothèse 4 (Normalité) -
Les erreursEt
suivent une loinormale,
ou deLaplace-Gauss.
Contrairement à ce que
beaucoup croient,
la normalité desEt
ne constitue pas unehypothèse
fondamentale pour la théorieprésentée
ici.Pour
beaucoup
de résultats l’existence de la variance seuleimporte.
Lanormalité est
cependant
nécessaire à lajustification complète
de certaines desprocédures proposées.
Hypothèse 5 (Variables exogènes) - Lorsque
Taugmente indéfiniment,
la suite des valeursprises
par la variableexogène
zt(pour
t =1,
2...t...ad
infinitum)
est telle que sa moyenneRevue de Statistique Appliquée. 1963 - Vol. XI - N 4
54
et sa variance
tendent vers deux limites finies
xo
ets2.
La limite s2 estpositive.
Cette
hypothèse
n’intervient évidemment que dans l’étude des pro-priétés asymptotiques
des méthodesproposées, lorsque
l’on suppose que le nombre T des observationsaugmente
indéfiniment. Elle n’est pastoujours satisfaite,
notamment sizt
est une fonction continuellementcroissante,
ou une fonction sinusoïdale amortie de t. Les résultats
asymptotiques
cités ici
pourraient
être établis àpartir d’hypothèses
un peu moins res- trictives. Mais ils n’ont pasgrande importance
pour la validité des mé- thodes étudiées. Mieux vaut donc se contenter d’unehypothèse simple.
Notons ici que nous admettrons
toujours,
sans l’écrireexplicitement,
que les T valeurs de zt ne sont pas toutes
égales
à un même nombre zo.S’il en était
ainsi,
on nepourrait
identifier les deuxparamètres
a et bdu
modèle, puisque
tous les xt auraient alors une même distribution dont seulel’espérance mathématique azo
+ bdépendrait
desparamètres
enquestion,
et que même une connaissanceparfaite
de cette distribution et de cetteespérance mathématique
nepermettrait
de déterminer queaz + b ,
et non a et b individuellement.
Hypothèse 6 -
On nedispose
d’aucune information sur les coefficients nu-mériques
a etb, lesquels peuvent prendre
apriori n’importe quelles
va-leurs
positives, négatives
ou nulles.La formulation même du modèle, c’est-à-dire
l’hypothèse
1, pour- rait être considérée commeimpliquant automatiquement
cette nouvellehy- pothèse.
Nous l’écrirons iciséparément,
car elle n’est pas satisfaite dans certains cas. L’étudethéorique
du modèle conduitparfois
à faireapparaître
que les coefficients doiventrespecter
certaines contraintess’exprimant
sous formed’égalités
oud’inégalités.
Il sepeut
parexemple
que a et b doivent satisfaire
a + b = 1,
ou a ~ 0. Nous éliminons lescas de cette nature.
IV - L’AJUSTEMENT DES MOINDRES CARRES
Dans le cadre de notre
modèle,
les meilleures estimations de a et b sont fournies par les coefficients de larégression simple
de x par rap-port
à z. Nous allons le montrer maintenant en étudiant lespropriétés
de ces estimations.
La
régression
de x parrapport
à z est définie comme la relation linéaire x* = a* z +b*,
danslaquelle a*
etb*
sont les valeurs de a et bqui
minimisent :Des calculs
simples
conduisent auxexpressions
suivantes pour a* etb* :
Revue de Statistique Appliquée. 1963 - Vol. XI - N’ 4
55
avec
Ces
expressions
sont linéaires parrapport
aux valeursxt
de lavariable
endogène. Désignons
en effet parxi, x2,
x3 et x4quatre
échan- tillons obtenus àpartir
de la même structure vraie et des mêmes valeursz il z2.... zr’ conformément
auxprincipes généraux exposés
ci-dessus . Soientxl, x2t, X3
etx4t
les valeurs dex
dansxi, x2,
x3 et x4, et, de mêmeCi, b*l, a*2, b*2, a*3, b*3, a*4,
b*4 les valeurs des estimations(5)
et
(6).
Le fait que a* et b* sont linéaires découle des deux observations suivantes :- Si
x3 = kx;
pour tout t avec un même nombre kconvenable ,
alors aussi a*3 = ka*l et b*3 =kb*1.
b*4 = b*1
+-
Sixt = Xi t
+X2 t
pour tout t, , alors aussi a*4 =a*1
+a*2
etb*4 = b*1 + b*2.
Grâce à la relation
(2),
onpeut exprimer
a* et b* en fonction des coefficients vrais a etb,
des valeurs des zt et des erreurs Et . On obtient directementd’après (2) :
d’où,
enreportant
dans(5) :
ou encore :
avec :
En
prenant,
dans(8)
et(9),
lesespérances mathématiques
par rap-port
à la loi deprobabilité
de 03B51,E2
···· 03B5T, pour des valeurs données dezl, z2 ···· zT,
on obtient directement le résultat suivant.Propositton 1 - L’hypothèse
1 étantvérifiée,
les estimations a* et b* sont"centrées" puisqu’elles
ont desespérances mathématiques égales
aux va-leurs vraies a et b.
De même,
l’expression (8) permet
d’écrire :Revue de Statistique Appliquée. 1963 - Vol. XI - N 4
56
Si les
hypothèses
2 et 3 sont satisfaites(homoscédasticité
etindépendan-
ce des
observations),
E(03B5t 03B503B8)
est nulquand t f e, égal
à a2quand
t = 9.Donc :
Des calculs
analogues s’appliquent
pour E(b* - b)2 = 0;.
etD’où :
Proposition
2 - Si leshypothèses 1,
2 et 3 sontvérifiées,
les moments du second ordre de a* etC
sontégaux
à :Considérons maintenant le
comportement
de a* - a et b* - bquand
le nombre des observations
augmente
indéfiniment avec une suite de va-leurs
zt
satisfaisantl’hypothèse
5. Les formules(11)
montrentqu’alors
les variances de a* et de
b*
tendent vers zéro. Ces estimations tendentvers les valeurs vraies a et b, en moyenne
quadratique,
et donc aussien
probabilité.
D’où :Proposi t ion 3 - Si les
hypothèses 1, 2,
3 et 5 sontvérifiées,
les esti- mations a* etb*
sont"convergentes".
Dénommons
"résidu",
etdésignons
par03B5*t,
l’écart entre la valeurobservée
xt
et la valeur déduite de larégression
a* zt +b*.
Soit :Et =
xt - a* zt - b* =(a - a*)
z t +(b - b*)
+ Et(13)
Ce résidu diffère de Et par un terme
dépendant des "erreurs
d’estima-tion"
a* - a etb* -
b. Il a uneespérance mathématique
nulle du momentque
l’hypothèse
1 est satisfaite. Il tend enprobabilité
vers Et si leshy- pothèses 2,
3 et 5 le sont aussi. La distributionempirique
desEt
tendalors en
probabilité
vers la distribution deprobabilité
des Et ; et les momentsempiriques
des03B5*t
vers les momentsthéoriques
des Et.En
pratique,
la variancea 2
des erreurs estgénéralement inconnue ,
de même que la
plupart
descaractéristiques
de distribution de ces er- reurs. Onpeut
penser à estimer a2 àpartir
de la varianceempirique
desE;, puisque
celle-ci tendjustement
vers a 2 dans lesgrands
échantillons.Pour étudier les
petits échantillons,
écrivonsd’après (13)
et(6) :
E : = (a - a*) (zt - z)
+(Et - ë)
La somme des carrés des résidus est alors
égale
à :Revue de Statistique Appliquée 1963 - Vol. XI - N 4
57
ou,
d’après (7) :
Dans le second
membre,
lepremier
terme a pourespérance
mathéma-tique (T - 1)
a2 dès lors que leshypothèses
2 et 3 sontvérifiées ;
laproposition
2 ci-dessus établit que le second terme a pourespérance
ma-thématique
a 2. Ainsi :Proposition 4 -
Si leshypothèses 1 ,
2 et 3 sontsatisfaites, l’espérance mathématique
de la somme des carrés des résidus estégale
à(T - 2)
a2Si,
deplus, l’hypothèse
5 estsatisfaite,
les résiduss t
tendent en pro- babilité vers les valeurs vraiesEt
des erreurs.La
proposition
4 montrequ’un
estimateur centré de 62 sera fournie par la"variance résiduelle", égale
par définition à :Pour obtenir la valeur de cette
estimation,
il n’est pas nécessaire de calculer leset
individuellement. La relation(6)
montre queet peut
s’écrire :Et la relation
(5)
montre que la somme des carrés de cetteexpression
s’écrit :
formule
généralement
utilisée pour le calcul de6É.
Avec les
hypothèses
retenues dans laproposition 4,
des estimateurs centrés03C3*2a*
et03C3*2b*
de03C32a*
et03C32b*
sont obtenus parsimple
substitution de03C3*2~
à a2 dans les formules(11).
Parexemple :
Les
propositions précédentes justifient
les calculs habituellement effectués à propos de l’estimation de a et de b.Le résultat de ces calculs est
généralement présenté
sous la formesuivante :
l’écart-type
estimé de a* et deb* figurant
entreparenthèses
au-dessousdes coefficients
correspondants
de larégression.
Revue de Statistique Appliquée. 1963 - Vol. XI - N’ 4
58
Bien
entendu,
ces résultatspeuvent
n’êtreguère
valables si leshypothèses
du modèle s’écartenttrop
de la réalité.Notamment,
sil’hy- pothèse
3 n’est pasadmissible, csâ
etati*
constituent de mauvais estima- teurs desécarts-types
de a* etb*.
Il arrive souvent que l’on fasse
figurer
la valeurR2
du carré du coefficient de corrélation à droite de larégression
obtenue. Avec nos no-tations, R2 peut
s’écrire soit :soit :
Il faut
cependant
remarquer que, dans le cadreconceptuel
retenu,R2
n’a pas designification particulièrement
intéressante. Il nerenseigne
pas directement sur la
précision
del’ajustement,
maisuniquement
surla forme du nuage de
points
utilisé. Avec lespetits
échantillons servant souvent auxanalyses économétriques, R2 peut
être élevé sans que6a*
et03C3*b*
soient faibles. Aucontraire,
un échantillonimportant
conduitparfois
à une estimation
précise
de a et de b, bien queR2
reste modeste.( 1 )
V - UNE PROPRIETE IMPORTANTE DE LA METHODE DES MOINDRES CARRES
Jusqu’à présent,
nous avons décrit la méthode des moindres carrés et certainespropriétés
des estimationsauxquelles
elle conduit. Mais nousn’avons pas montré en
quoi
cette méthode seraitpréférable
à d’autresauxquelles
onpourrait également
penser. Lespropositions
1 et 3 établis- sent bien que a* etb*
sont centrés etconvergents.
Mais d’autres esti- mateurs auraient les mêmespropriétés.
Il nous faut examiner maintenant descaractéristiques plus remarquables
de la méthode.Désignons
un estimateurquelconque
de a par â = f(x),
xreprésen-
tant le vecteur des T valeurs observées de la variable
endogène
xt, et fune fonction
numérique
des T variablesxt.
La fonction fpeut dépendre
des variables
exogènes
observableszt,
mais doit êtreindépendante
desvaleurs vraies des
paramètres
a et bpuisque
celles-ci sont inconnuespar
hypothèse.
Nous dirons que l’estimateur est linéaire si :f
(kx) =
k f(x)
et f(xl
+x2) =
f(xl)
+ f(x2) (22) quels
que soient les échantillons x,xl,
x2 et le nombre k. Nous avonsdéjà
observé que a* etb*
étaient des estimateurs linéaires centrés. Nous allons maintenant démontrerqu’ils
ont les variances lesplus
faibles de tous les estimateurs linéaires centrés de a et b.(1)
Nous verrons toutefois ci--dessous que R2 permet l’application d’un test simple parfois intéressant (cfparagraphe
6).Revue de Statistique Appliquée. 1963 - Vol. XI - N’ 4
59
Proposi t ion 5(1) -
Si leshypothèses 1, 2,
3 et 6 sontsatisfaites,
les es- timateurs a* et b* ont des variances minimalesparmi
tous les estimateurs linéaires centrés de a et b.Pour établir cette
proposition,
nous allons déterminer directement les estimateurs linéaires centrés à varianceminimales,
et vérifier quece sont bien a* et
b*.
La forme laplus générale
d’estimateurs linéaires est :expressions
danslesquelles
lesrt
etst peuvent dépendre
des valeursprises
par les variablesexogènes zl, z2... , zT,
mais non des valeursdes xt.
L’espérance mathématique
dext
estégale
àazt
+ b. Par suite :Pour que à
et b
soient des estimateurscentrés,
il faut que ces deux ex-pressions
soientégales respectivement
à a etb,
et celaidentiquement
par
rapport
à a et b pour toutes valeursnumériques
données à ces pa- ramètres(cf. hypothèse 6).
Commert
etst
nedépendent
pas de a et deb,
il faut évidemment :En
explicitant xt
suivant la relation(2)
et en tenantcompte
des re- lations(24),
nous voyons que leséquations (23)
deviennentd’où,
en tenantcompte
deshypothèses
2 et 3 :Les estimateurs cherchés à et
b
sont donc définis àpartir
des coeffi-T T
cients
rt
etst qui minimisent(2) 03A3Tt=1 r,2 et 03A3Tt=1 S2
sous les conditions(24).
---
(1) Nous
pourrions
également établir ici la propriété un peu plus forte suivante : Proposttton 5’ - Si leshypothèses
1, 2, 3 et 6 sont satisfaites, toute forme linéaire Ba*+ Il b*
a une variance minimum dans l’ensemble des estimateurs linéaires dont l’espérancemathématique
estégale
à 03BBa +ub.
(2)
Il estremarquable
que les quantités à minimiser nedépendent
pas des para- mètres inconnus a et b, de sorte que les estimateurs à variance minimum ne dépendront pas non plus de ces paramètres. C’est justement cetteparticularité
qui constitue le fondement de la proposition 5.Revue de Statistique Appliquée. 1963 - Vol. XI - N’ 4
60
Puisque
la forme à minimiser est la somme des carrés desrt (ou
de
st)
et que les conditions de liaison sont linéaires enrt (ou
enst),
nous obtenons le minimum
unique
enégalant
à zéro les dérivées par rap-port
aux rt(ou
auxst)
de la forme(ou
de lasuivante ) :
Dans ces
expressions, a , (3 , y
et 03B4 sont évidemment desmultiplicateurs
de
Lagrange.
La dérivation conduit à :
rt = 03B1 zt + 03B2 st = 03B3 zt + 03B4
et les conditions
(24) impliquent
quea, (3
, Y et 8 satisfassent :D’où :
Ces deux dernières
expressions
établissent l’identité des estima- teurs cherchés avec a* etb* respectivement,
et fournissent la démons- tration de laproposition
5.Cette
proposition
montre que, siles Et
sonthomoscédastiques
etindépendants
entre eux, la méthode des moindres carrés conduit à des estimations dont ladispersion
est aussi faible quepossible,
du moins pour autantqu’on envisage
seulement les estimateurs linéaires centrés. Elleprésente
un intérêtparticulier
du faitqu’elle
ne suppose rien sur la for-me de la distribution de Et, si ce n’est l’existence d’une variance 03C32.
Elle est donc bien venue dans les
applications économétriques,
pour les-quelles
il seraitgénéralement
difficile depréciser
la nature des lois de distribution.Revue de Statistique Appliquée. 1963 - Vol. XI - N 4
61
Convient-il de ne considérer que les estimateurs linéaires centrés ? Des estimateurs non linéaires ou non centrés seraient
préférables
à a*et b*
s’ils conduisaient à des erreursplus
faibles que a* - a et b* - b.En
fait,
la théorie des décisionsstatistiques
montre que les estimations des moindres carrés sont douées de certainespropriétés optimales
nonseulement par
rapport
à l’ensemble des estimateurslinéaires,
mais aussi parrapport
à l’ensemble de tous les estimateurspossibles.(1)
Quoi qu’il
ensoit,
le lecteur constatequ’il
est faux dedire,
commeon le fait souvent, que l’estimation par les moindres carrés suppose une distribution normale des erreurs
est.
En fait la normalité est nécessaire seulement pour lajustification
de certains tests associés à la méthode des moindrescarrés,
et non pour celle des formules d’estimation(5)
et(6).
VI - ROLE DE L’HYPOTHESE DE NORMALITE
Avec les
hypothèses
1 à4,
la loi de distribution des T erreurs Et(pour
t =1, 2....T)
a pourdensité(2) :
(1) On a suggéré que le principe appliqué dans ce paragraphe pourrait être em- ployé à la détermination d’estimateurs à variance minimum, parmi tous les
estimateurs linéaires (cf Theil (1958) p. 496-497 et 532-534). On n’exigerait plus que à
et b
aient des espérances mathématiques égales aux valeurs vraies de a et b et on procéderait à la minimation sans faire intervenir les condi-tions(24).
Cette manière de poser le problème n’est guère fructueuse, car elle oblige à minimiser des expressions dans lesquelles a et b interviennent ; elle conduit en fait à des expressions qui ne sont pas de véritables estimateurs mais qui dépendent des paramètres inconnus a et b, et pas seulement des gran- deurs observables.Notons d’ailleurs que la démonstration présentée ci-dessus fait intervenir le fait que les rt et les st ne dépendent pas de a et b. Si les rt et st pouvaient être des fonctions de a et b, les conditions (24) ne s’imposeraient plus. La condition E (à) = a par exemple se traduit seulement par :
a 03A3 rt zt + b 03A3 rt = a
et le pseudo-estimateur linéaire centré à variance minimum serait :
De même, le
pseudo-estimateur
linéaire à variance minimum (et non centré) peut s’écrire :2) L’expression exp {x}
désigne
la fonction exponentielle ex.Revue de Statistique Appliquée. 1963 - Vol. XI - N’ 4
62
La distribution de l’échantillon des x. a alors pour densité :
où C
désigne
la constantefigurant
devantl’exponentielle
dansl’expres-
sion
(25).
On
peut
écrire(xt - azt - b)2 - (xt - a*zt - b*)2 + [(a* - a) zt
+(b* - b)]2
+ 2
(xi a*zt - b*) [(a* - a) z
t +(b* - b)] J
dont le dernier terme s’écrit aussi :2
[(xt - x) -
a*(zt - Z)] [(a* - a) (zt - z)
+(b* - b)
+(a* - a) z] J
expression
dont la somme parrapport
à t est nulled’après
les formules de définition de x, z et a*.Après
substitution dans(26),
nous voyons que la densité deprobabilité
desxt s’exprime
aussi par :Cette densité de
probabilité
est leproduit
de deux facteurs dont lepremier
fait interveniruniquement
les variables aléatoires xt et les es- timateurs a* etb*,
et le seconduniquement
de a* etb*
et lesparamètres
vrais.Désignons
la densité deprobabilité
de l’échantillon parf
(xl,
X2 ···· xT ; a,b),
lepremier
facteur de(27)
par H(xi, x2.... xT)
et le second par g
(a *, b* ;
a,b).
Nous montrerons ci-dessous que g
(a*, b* ;
a,b)
estégal
à la den- sité deprobabilité
de a* etb*,
du moins à une constanteprès.
Il en ré-sulte que a* et b* sont des
estimateurs
exhaustifs de a etb,
c’est-à-direqu’ils
résument toute l’information que l’échantillonpeut apporter
sur les valeurs desparamètres
a et b.En
effet,
onpeut toujours, grâce
à unchangement
devariables , remplacer x1, x2 ···· xT
para*, b*, J3’ Y4 yT’
lesy
t étant de nouvelles variables convenablement choisies. Si IJdésigne
lejacobien
de la trans-formation,
la densité deprobabilité
de a*,b*, Y3, y4· ··· yT
estégale
àf
(x1, X2.... xT ;
a,b) |J|.
Cette densitépeut
aussi s’écrire g(a*, b
a,b)
h(y3, y4 ... yT/a*, b* ;
a,b)
expression
danslaquelle
hreprésente
la densité deprobabilité
condition-nelle de
y , y4... yT
pour des valeurs données de a* et b*.Or,
nous voyons,d’après
la forme de(27),
que :Revue de Statistique Appliquée. 1963 - Vol. XI - N 4
63
Comme 1 J 1 ne
dépend
évidemment pas desparamètres
inconnus a* etb*,
il résulte de l’identité ci-dessus que h nedépend
pas nonplus
de a et de b.Ainsi,
une fois a et b connus, la densité deprobabilité
des autresvariables ne
dépend plus
desparamètres
inconnus a et b. L’observation de ces autres variables ne saurait doncrenseigner,
enquelque
manièreque ce
soit,
sur les valeurs vraies de cesparamètres.
C’estpourquoi
on dit que a* et
b*
sont des estimateursexhaustifs(l)
de a et b.Notons encore que,
d’après
la forme de(27).
La matrice
qui figure
dans le dernier membrepeut
être considéréecomme celle donnant les dérivées seconde de la fonction p
(a, b) =
=
a2 L Z2 t
+ 2 abTz +b2T,
fonctionindépendante
desxi , x2 .... xT.
Ilt
en résulte que les estimateurs a* et b* exhaustifs et
centrés,
ont des variancesinférieures,
ou auplus égales,
à celles de tous autres esti- mateursréguliers
centrés de a etb. (Pour
établir cerésultat,
se rap-porter
à G. Darmois(1945)
ou à H. Cramer(1946), Chapitre 32, § 3
et6).
Il nous reste à montrer que le second facteur de
(27)
donne bien la densité deprobabilité
de a* etb*,
et àcompléter
l’étude du cas danslequel
lesEt
suivent une distribution normale.Effectuons dans
l’espace
échantillon unchangement
de coordonnées par rotation des axes, de tellefaçon
que les deuxpremiers
axesaient,
dans l’anciensystème,
les coordonnées suivantes :Soient
y1, y2.... y-
les nouvelles coordonnées dupoint
échantillon. On vérifie immédiatement que :Le
point
échantillonpeut
alors être considéré comme l’extrémité de lasomme de deux vecteurs
orthogonaux :
x* dont les coordonnées sont(YI’ y2, 0.... 0)
dans le nouveausystème,
ou encore lesa*zt
+ b* dans---
(1) "sufficient
estimators"
enanglais.
Revue de Statistique Appliquée. 1963 - Vol. XI - N’ 4
64
l’ancien
(t
=1, 2.... T),
et e* dont les coordonnées sont(0, 0, y3,... yT)
dans le nouveau
système,
ou les03B5*t =
xt - a* zt - b* dansl’ancien.
Or,
le Jacobien de la transformation des(xl,
x2....XT)
dans les(y l’ y2 .... yT)
estégal
à1, puisqu’une
rotation est une transformation linéaire définie par une matriceorthogonale. L’expression (27)
corres-pond
aussi bien à la densité deprobabilité
desyl , y2 .... y. qu’à
celledes xi,
X2.... XT. Lepremier
facteur dans(27)
fait intervenir seulement lesst,
c’est-à-dire les y.,y.. yT ;
le second facteur seulement a* etb*, c’est-à-dire, après changement
decoordonnées, y,
ety2 (puisque
zt sont ici des éléments nonaléatoires). Ainsi,
la densité deprobabilité
dupoint
échantillon est leproduit
de deux facteurs dont l’undépend
seule-ment de
E*,
l’autre seulement de x*.Nous voyons que e* et x* sont
indépendants
et que chacun d’eux suitune loi
normale,
lepremier
dans un espace à T - 2dimensions,
le se- cond dans un espace à 2 dimensions.Puisque
x suit une loi normalesphérique,
ce résultat aurait pu être déduit directement de l’observation selonlaquelle
x* et e* sont lesprojections orthogonales
de x sur deuxsous-espaces
orthogonaux
entre eux : le sous-espace Lengendré
par les deux vecteurs e de coordonnées et1,
et z - z de coordonnées zt - z(donc
aussi celuiengendré
par e etz),
et le sous-espacecomplémentaire
K. Le sous-espace L contient le vecteur yespérance mathématique
duvecteur x, et de coordonnées
yt = azt
+ b.Fig. 1.
Les deux facteurs de
(27)
définissent les densités deprobabilité
deE* et x *.
Ainsi,
on voit que les T - 2 coordonnéesindépendantes
non nul-les de 03B5*
(y3 , y4 .... yT)
suivent T - 2 lois normalesindépendantes
demoyennes
nulles etd’écarts-type égaux
à o . Laquantité
égale
aurapport
à cy2 de la somme des carrés des résidus suit donc uneloi de
X2
à T - 2degrés
deliberté.
De
même, l’expression
du second facteur montre que a* etb*
ont pour moyenne les valeurs vraies a etb,
et pour matrice des covariances l’inverse de :Revue de Statistique Appliquée. 1963 - Vol. XI - N’ 4