R EVUE DE STATISTIQUE APPLIQUÉE
G. E. P. B OX
Du bon et du mauvais usage de la régression
Revue de statistique appliquée, tome 14, n
o3 (1966), p. 25-29
<
http://www.numdam.org/item?id=RSA_1966__14_3_25_0>
© Société française de statistique, 1966, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (
http://www.sfds.asso.fr/publicat/rsa.htm
) implique l’accord avec les conditions générales d’uti- lisation (
http://www.numdam.org/conditions). Toute utilisation commerciale ou im- pression systématique est constitutive d’une infraction pénale. Toute copie ou im- pression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme
25
DU BON ET DU MAUVAIS USAGE DE LA RÉGRESSION
G.E.P. BOX Department
of StatisticsUniversity of Wisconsin, Madison,
Wisconsintexte
traduit
parA.
VessereauOn
rappellera
tout d’abord leshypothèses classiques
et les conclu- sions de la méthode des moindres carrés. Gauss a montré que si l’ondispose
de n observationsy1, y2 ,
J ... ,yn
et sous’ la condition que le modèleapproprié
pour la ueme observation soit :les 03B2
étant desparamètres inconnus,
les x des constantes connues, et les e des variables aléatoires sanscorrélation,
de même variance etd’espérance mathématique nulle,
les estimationsbo, b1
J .... ,bk des 03B2
obtenue en minimisant la
quantité :
sont des estimations sans biais et ont la
plus petite
varianceparmi
toutesles estimations linéaires sans biais.
La méthode des moindres carrés est utilisée dans
l’analyse
dedonnées
provenant d’expériences organisées,
et aussi dansl’analyse
dedonnées
provenant
desimples
observations. Le mot de"régression"
estle
plus
souvent utilisé pour décrirel’analyse
desimples
observations . C’estl’hypothèse
tacite que les conditionsrequises
pour la validité de la méthode des moindres carrés sont satisfaites pour des données nonplanifiées qui
est àl’origine
du maximum de confusion.Que
les donnéesproviennent
ou nond’expériences organisées,
laquantité
E J dontgéné-
ralement on oublie vite
qu’elle représente
une variable aléatoireayant
les
propriétés
trèsparticulières
mentionnéesci-dessus,
décrit en réalité l’effet d’ungrand
nombre de variables"latentes" xk+l’
1Xk+2J ... ,
1xm
au
sujet desquelles
on ne sait rien. Si l’on admetqu’il
est suffisant de considérer les effets linéaires de ces variables latentes(ce qui
serasouvent convenable pour de
petites
variations enxk+1, ...., xm),
on aura :En notation
matricielle,
la matrice colonne des n observations y s’écrira :(1) Exposé préparé pour la Xe Conférence sur "The Design of Experiments in
Army
Research, Developinent andTesting" Washington
D. C. , 5 Novembre 1964.Revue de Statistique Appliquée 1966 - Vol. XIV - N’ 3
où la matrice
Xi
a pour éléments les n valeurs des k variables derégression,
et la matriceX
les n valeurs inconnues des m - k varia- bles latentes. Cette situation est illustrée dans lafigure 1,
J où les varia-Figure
1 - Variables latentes et variables derégression
bles
xk+1
.... , 1xm sont "cachées
derrière lemur".
Dans lapratique, plusieurs
sortes de liaisonspeuvent
exister entre les variables réunies par deslignes.
Ces liaisonspeuvent
être de naturecausale ;
par exem-ple,
ilpeut
se fairequ’une augmentation
detempérature produise
néces-sairement une
augmentation
depression ;
ou bien ellespeuvert
traduire desimples
corrélations.Ainsi,
celuiqui
conduit unefabrication, peut ,
Jcomme
procédure standard,
réduire l’arrivée d’un desréactifs, chaque
fois
qu’il
constate unetempérature
élevée.On doit maintenant se poser la
question "A quoi
désire-t-on uti- liserl’équation
derégression ? ".
Onpeut :
(i)
désirerprévoir
la valeur de y dans le futur àpartir
desobservations
passives
deXI
.... 1xk.
On admet que l’ensemble des relations causales et corrélativesqui
existaient lors de la collecte de ces observations ne s’est pas modifié et continuera à intervenirpendant
lapériode
où lesprévisions
seront faites.(ii)
chercher à savoir comment des modifications volontaires dans lesx
1 ...Xk
affectent y, dans l’intention de modifier réelle - ment lesystème
defaçon
à obtenir une meilleure valeur pour y . Laposition
est tout à faitdifférente,
suivantqu’on
a l’intention deprévoir
àpartir
d’observationspassives,
ou d’améliorer par une inter- vention active. Ceci va être éclairé parl’exemple
suivantSupposons
que, dans un processuschimique,
on a constaté que laproduction
d’une mousse indésirablepeut
être réduite par uneaugmenta-
tion de la
pression.
Laprocédure opératoire
standard serad’augmenter
la
pression chaque
fois que de la mousseapparaîtra. Supposons
que lamousse se
produise
en fait à cause d’uneimpureté insoupconnée
x2(qui,
Jnaturellement,
n’est pasmesurée, puisqu’elle
estinconnue). Supposons
enfin
qu’une
valeur élevée del’impureté
X2, non seulementproduit
de lamousse, J mais aussi diminue le
rendement,
alors que le rendement n’est pas directement modifié par unchangement
depression.
Désignant
maintenant par x et y les écarts parrapport
aux moyen-27
Figure
2 - Relations entre rendement,impureté
et pressionnes, si une
"équation
derégression
du rendement parrapport
à la pres-sion" y = bixi
a été obtenue par la méthode habituelle des moindrescarrés,
J il sepeut
fort bienqu’on
trouve un coefficientbi
hautementsigni-
ficatif.
Le
phénomène
bien connu de corrélationdépourvue
de sensqui
ap-paraît
dans cetexemple
mérite d’être étudiéplus
à fond. La vraie rela-tion y =
03B21x1
+P2X2 qui
relie y aux deux variablesXI
etx2
est en fait telleque 03B21
= 0.Naturellement,
les niveaux réels dex2
sontinconnus ,
mais supposons que l’estimation dex2 par
les moindres carrés que l’on obtiendrait enajustant x2 par rapport
àxl
soitt2 =
axi. Alors,
J onpeut
montrer facilement que :
Dans cette
expression 03B21
estégal
à0,
et si l’on constate un effetréel,
c’est
uniquement
à cause de l’existence du biais(a 03B22).
D’autrepart,
uti-lisant la relation
(4)
on voit quel’équation d’ajustement 9" = b1xl
oùx2
est
ignoré peut s’écrire = 03B21x1 + 03B22 a x 1 ou
encoreCette
équation,
danslaquelle x2
estremplacé
parx fournit
la meilleure estimation de y que l’onpeut espérer
obtenir en observantxi
seul. Acondition que le
système continue
à évoluer de la mêmefaçon
quelorsque
les données ont été
recueillies,
onpeut
utiliser lapression
pour obtenir le niveau de y.Généralement,
il estvrai,
laprévision
ne sera pas aussi bonne que si l’on avait mesuréx2 ; mais,
ne connaissant pas l’existence dex2 (ou
dans d’autres cas sonimportance),
il est néanmoinspossible
de l’utiliser.
Par
contre,
la valeur debi
seraitcomplètement erronée,
si onl’interprétait
comme l’effet sur la variable y d’une unité de modificationsur
XI’
Si nous souhaitonsaugmenter
le rendement enaugmentant
lapression,
nous courons à unedéception.
Revue de Statistique Appliquée 1966 - Vol. XIV - N’ 3
Un
argument analogue s’applique
à un nombrequelconque
de varia-bles. le modèle vrai est :
En ne faisant
figurer
que les variablesXI
dansl’équation
derégression , l’équation
deprévision
pour y devient :c’est-à-dire :
où
X2 = X1A et A - (X’1X1)-1 X’1X2
est la matrice(k
+1,
m -k)
des coef- ficients derégression
des variables latentes sur les variables derégres-
sion. On voit encore que, dans la mesure où l’on ne s’intéresse
qu’à
laprévision passive
de,
larégression
sur les seules variables connuesXI
a pour effet deremplacer
lesX2
inconnuspar x2.
Par
ailleurs,
les coefficients derégression b1 = 03B21
+ A03B22 repré-
sentent des combinaisons d’effets dues aux variables de
régression
etaux variables
latentes,
et, commeprécédemment,
il estimpossible
deprévoir
valablement comment une intervention sur les niveaux des varia- bles derégression
affectera lesystème.
Dans une
expérience planifiée,
la situation est entièrement diffé- rente.C’est,
on lesait,
pour surmonter les difficultésqui
ont été décritesci-dessus que Fisher a introduit l’idée de
plan d’expérience,
et en par- ticulier de randomisation.Lorsque
les niveaux des variables derégres-
sion sont fixés par un
procédé
délibérativementaléatoire,
il estimpos-
sible que les niveaux d’une variable de
régression
soient affectés par le niveau d’une variable latente. La seule raison pourlaquelle
les varia- bles derégression
ont telle ou telle valeurparticulière
à l’intérieur del’organisation
duplan d’expérience,
est le résultat dujet
d’un dé nonbiaisé,
ou de toute autreopération
aléatoire. Fisher a rendupossible l’analyse
des données comme si leshypothèses gaussiennes
étaientvraies,
en transformant
X 1
en une variable aléatoire. Les variables derégres-
sion
peuvent, naturellement,
affecter encore les variableslatentes,
etcelles-ci,
enretour,
affecter y. Acondition, cependant,
que les résul- tats del’expérience
soientappliqués
au mêmesystème
que celui àpartir duquel
les données ont étéobtenues,
cela ne cause pas deproblème.
Ilsera absolument vrai que, sous réserve de l’erreur
expérimentale,
la modificationimposée
aux variables derégression produira
leschange-
ments
prévus
sur y, même si cela s’effectue par le canal dequelque
variable latente.
La difficulté fondamentale mentionnée ci-dessus est loin d’être la seule que l’on rencontre dans
l’analyse
des observations nonplanifiées .
Dans un processus
industriel, l’expérience passée
montre souvent que certaines variables ont uneimportance majeure.
Parsuite,
dans le but de contrôler les fluctuations du processus, onprend
soin de maintenirces variables très
près
de valeurs fixées. Comme la"signification
sta-tistique"
d’une variable estgrandement
affectée par l’étendue des valeursqu’elle
recouvre, il y a une forteprobabilité
que les variables lesplus
importantes
soientbaptisées "non significatives"
lors d’uneanalyse
de29
régression
standard. Une autre difficultéqui
seprésente
avec des ob-servations non
planifiées,
est que les variables derégression
serontsouvent hautement corrélées du seul fait de la
règle opératoire adoptée . L’opérateur
a pour mission de réduirex2 chaque
fois queXI
devient élevé .Dans une telle
circonstance,
même si les difficultésprovenant
de varia- bles latentes sontabsentes,
ilpeut
être presqueimpossible
de savoirsi un
changement
d’un y est associé àxi ,
àx2,
ou au deux. Naturel-lement,
dans lesexpériences planifiées
ons’arrange
normalement pour quex
1 etx2 soient
sans corrélation en utilisant unplan orthogonal.
En
résumé, l’analyse
derégression
de données nonplanifiées
estune
technique qui
doit être utilisée avecbeaucoup
deprécaution. Cepen-
dant
(i)
ellepeut
fournir uneprévision
utile de y, dans un sys- tème déterminé observépassivement,
même s’il existe des varia- bles latentes dequelque importance.
Pour cetteapplication,
des. programmes de
calcul,
avec addition ousuppression progressive
de variables
peuvent
avoir unesignification ;
(ii)
elle faitpartie
des nombreux outilsqui peuvent
être uti- lisés pourindiquer
les variablesqui
devraient êtreprises
en consi -dération dans un
plan d’expérience
ultérieur(où
la randomisationconstituera, naturellement,
unepartie
essentielle duplan).
Elle nedevrait
jamais
être utilisée pour décider des variablesqui
devraientêtre exclues des recherches
futures,
pour les raisonsqui
sont évi -dentes
d’après
cequi précède.
Pour savoir ce
qui
seproduira lorsqu’on
intervient dans un sys-tème,
il faut intervenir dans lesystème (et
ne pas se borner à l’observerpassivement).
REFERENCES
[1] FISHER,
R. A. -Design
ofExperiments, (1937)
Oliver andBoyd.
Revue de Statistique Appliquée 1966 - Vol. XIV - N’ 3