R EVUE DE STATISTIQUE APPLIQUÉE
J. U LMO
Problèmes et programmes de régression
Revue de statistique appliquée, tome 19, n
o1 (1971), p. 27-39
<
http://www.numdam.org/item?id=RSA_1971__19_1_27_0>
© Société française de statistique, 1971, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (
http://www.sfds.asso.fr/publicat/rsa.htm
) implique l’accord avec les conditions générales d’uti- lisation (
http://www.numdam.org/conditions). Toute utilisation commerciale ou im- pression systématique est constitutive d’une infraction pénale. Toute copie ou im- pression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
27
PROBLÈMES ET PROGRAMMES DE RÉGRESSION
J. ULMO
Après
unrappel
desrésultats classiques
del’étude
desmodèles linéaires,
on étudie le
problème
du choix des variablesindépendantes à faire
inter-venir dans une
équation
derégression.
On montre que la
suppression à
tort d’un certain nombre de variablesindépendantes conduit
engénéral
à des estimateursbiaisés
descoefficients
de
régression relatifs
aux variablesrestantes, puis
on passe en revue lesprin- cipales procédures
de choix des variablesindépendantes
àfaire
intervenirdans une
équation
derégression, quand
celle-ci est utilisée pour laprévision
par
"interpolation" (c’est-à-dire quand
on se limite au domaine couvertpar
l’ensemble
des valeursprises
par les variablesindépendantes
dansl’échantillon
utilisé).
PLAN
Pages
I - Introduction :
Rappel
de résultatsclassiques
de l’étude des mo-dèles 1 inéa ire s... 27 H -
Comparaison
desrégressions
obtenues sur K échantillons(ana-
lyse
de lacovariance)...
32III - Choix des variables
explicatives
ouindépendantes
à faire in-tervenir dans une
équation
derégression...
33Références
bibliographies ...
39I - INTRODUCTION : RAPPEL DE RESULTATS
CLASSIQUES
DE L’ETUDE DE S MODE LES LINEAIRES1/
Définition d’un modèle derégression
linéaireC’est un modèle du
type
où x’ =
(Xl... xP ) 1) représente
un ensemble de variables ditesindépendantes
ouexplicatives qu’on
traite comme si elles étaient nonaléatoires,
que ceci soit réalisé ou non, et y est une variabledépendante
ou àexpliquer, j~= ( } ~ ~ pp est
-- ---
(1) Pour faciliter la compréhension du texte les vecteurs (ou leurs transposés) seront généralement représentés par des lettres
soulignées.
Revue de Statistique Appliquée. 1971 - vol. XIX N° 1
28
le vecteur des coefficients de
régression
de y surles x°~ ( a
=1... p)
et c’est luiqu’on
cherche à estimer àpartir
d’un n échantillon de réalisations(yi , xi) ,
i = 1, 2...n.
-
est
une variable aléatoire de moyennenulle,
en sorte queE~’(y)=x’P.
E a’(y)
=espérance
de y conditionnée par xB2/
Méthode d’estimation des moindres carrésQuand
ondispose
de n réalisations de(yi, x;)
le modèle correspon- dant à(1)
s’écrit(2)
y =X j3
+ ~ où yet ~
sont des vecteurs de Rn etest une matrice
(n,p).
La méthode des moindres corrés consiste à chercher un estimateur b
de ~
tel quey*=
Xb soit leplus
voisinpossible
de y au sens d’une normeeuclidienne de R°
lieu dey.
Dans la méthode des moindres carrés ordinaire la norme considérée es1 la norme habituelle définie par le
produit
scalaireb est donc tel que
y*
= Xbet 1 = ~y - Xb ( ~ 2 = (y - Xb)
1(y - Xb)
s oit minimum
Rien
n’empêche
d’introduire une norme définie par une formequadra- tique
définiepositive
de matrice Mquelconque, soit 11 YI 1 m 2 = Y,My.
Les seules
métriques
M utilisées dans lapratique
sont cellesqui
sont caractérisées par une matricediagonale.
M =D"i
depoids
w 1. On a alorsla méthode des moindres carrés
pondérée qui
consiste à définir b par la con-dition
En fait on montre que pour conserver les
propriétés classiques
de laméthode des moindres carrés on doit
prendre
M =K1:-1 où
K est une cons- tante si E =cov y
=cov ~ .
On suppose
généralement
que cov y =c52In
ou cov y=D 2
matrice dia-gonale d’élément ap.
3 -
Interprétation géométrique
de la méthodey*=Xbest
laprojection
"Morthogonale"
dey~R°
sur le sous-espace linéaire Vengendré
par les colonnes de X tandis que jl =y - y*
vecteur écartrésiduel est M
orthogonal
à V c’est-à-dire est élémentde B sur lequel
il estla
projection
de y.On a donc
(1) VI (ou V "orthogonal")
désigne
le sous espace supplémentaire de V dans R° qui lui est M orthogonalRevue de Statistique Appliquée. 1971 - vol. XIX N° 1
29
et
y’My
=Y* ’My*
+ e’Me cary*’Me
= 0soit
(3)
théorème dePythagore généralisé.
Dans le cas 00. M =
I, auquel
on se bornera par lasuite, (3)
s’écritsoit
avec
4 - Détermination de b
Quand
X est de rang p,l’application
f associée à X estinjective ,
(n.P)
V est de dimension p et b =
f -l(y*)
est défini defaçon unique.
Si X est de rang r inférieur à p il y a indétermination non pas sur
y*= Xb
mais sur bqui appartient
à la variétéf’ ~ (_y* ) qu’on
sait être de di- mension p - r.C’est ce
qui
seproduit quand parmi
les variablesindépendantes
consi-dérées certaines sont
qualitatives.
Soit A une variable
qualitative prenant
K modalités. On lui associe alors K variables binairesx°‘ e , e = 1,
2... K prenant les valeurs 1 où 0 suivant queA prend
ou non la modalitéAK.
Les K colonnes de X relatives à l’en- semble des x°~ forment alors un ensemble de rang K - 1puisque
la somme des éléments d’uneligne
pour ces K colonnes estégale
à 1. On lèvegéné-
ralement l’indétermination en
imposant
auxcomposantes pog,
e = 1, ... Kde
K
correspondant
aux x de satisfaire à unecontrainte,
parexemple à L
(Xe = 0e-l 1 ce
qui
revient àprendre
pourorigine
des effets des modalitésA e,
la moyennede ces effets.
Equations
normales etexpression
de bLa dérivation par
rapport
à b de(y - Xb)’M(y - Xb)
et l’annulation de cette dérivée conduit àX’M(y - y*)
= 0 soit X’Mx.Q =X’My
Revue de Statistique Appliquée. 1971 - vol. XIX N° 1
30
X’M(y - y*)
= 0 traduit la Morthogonalité
de y -y*
= e et des colonnes de X donc de y -y*
et de V.Expression
de bDans la suite on supposera que M = I
(Sinon
on pourratoujours
écrire M = A’A et il suffira deposer z=Ay
U = AX pour être ramené au
modèle z = U3L + ~ (]~=A~)
que l’on pourra traiter ave lamétrique
unité. En effet z’z =y’A’Ay
=y’My)
Si X est de rang p il en est de même de X’X = S et on obtient :
Si X est de rang r p, on
ajoute
les contraintes F b = 0 avec F de p - r et telle que rangde G = ~ ~ )~ =
p.(t.P)
On a alors
soit G’Gb =
X"y
où G’G est de rang p.On en déduit
b est un estimateur de
qui
satisfait à5 -
Propriétés
deb
et des écarts résiduelsa)
Théorème de Markovet telle que
b
est un estimateur sans biaisde ..ê. (E(b) = P )
tel queFb =
03/
Si cov e= CJ 21 n’ parmi
lesestimateurs ~ de ~
satisfaisant à 1. et 2., b est tel que sescomposantes
ont des variances minimales. Plusgénéralement
on acov _~ -
covb
définiepositive si _~3 ~
b. On montre que si X est de rang p :cov h = a2(X’X)-1 et
dans le casgénéral :
cov b =
0’2 (G’G)-l
X’X(G’G),
avec G’G = X’X + F’FRevue de Statistique Appliquée. 1971 - vol. XIX N° 1
31
b)
On montre aussi ques =201320132013= ’2013201320132013est
un estimateur sans biaisn-r n-r
de cfJ
et que e et b sont non corrélés(qetxb
sont lesprojections orthogonales
de
y
sur V1 etV).
c) Propriétés complémentaires quand
on suppose que la distribution dee donc de y est normale de matrice variance
62In
1/
b a une distribution normale de rang r caractérisée par samoyenne p
et sa matrice variance cov b(cf a) 3.).
2/ e
a une distribution normale de rang n - r, de moyenne nulle .3/
e et b sontindépendants
enprobabilité.
ces deux variates étant
indépendantes
enprobabilité.
On
peut
aussi dire que Xb2 =y* aE 6 2 x r2 (X~ 2)
oùx r2( ~.) désigne
une va-riable chi deux non centrée à r
degrés
de liberté deparamètre
de non cen-tralité B.
6 - Test d’une
sous-hypothèse
linéaire sur les coefficients derégression
Ce
qui
suit n’est valable que sousl’hypothèse
où F- donc y suit une distribution normale de matricevariance o In.
On se propose de tester l’existence de certaines relations linéaires en- tre les
composantes
deP .
On
peut toujours
mettre ces relations sous la formegénérale :
où H est une matrice
(q , p)
donnée de rang q et 0 est donné.q est l’ordre de
l’hypothèse qu’on
désire tester.Comme
exemples
lesplus fréquemment
rencontrés onpeut
citerl’hypo-
thèse ~ 2
= 00~ ~ 2
est unecomposante
de dans ladécomposition
de
f.
suivant deux sous-espaces deRp ayant respectivement
p - q et q di- mensions. Ce test est alorsappelé
"test designification"
d’un ensemble de q coefficients derégression partielle.
Plus
généralement
onpeut
testerl’hypothèse 1?2 = P20
OÙ.ê20
est fixé .On rencontre
également
assez souvent le test del’hypothèse d’égalité
entre certaines
composantes pj , ~J e:R8 ,
de~3.
On en verra unexemple
trèsimportant
en II.L’hypothèse (4) signifie que P
n’est pasquelconque
dans RP maisqu’il
est situé dans une variété linéaire BP-q dimension p - q de
R~.
Ce
qu’on
teste en fait c’est queEX(y)
=XJ3 appartient
à la variétéVp-q image
par X deBp-q qui
est bien entendu contenue dansl’image
V deRp .
On est donc amené à tester
l’hypothèse :
Revue de Statistique Appliquée. 1971 - vol. XIX N° 1
32
avec
(4) H(j3 - 8 )
= 0comme
"sous-hypothèse"
deHo : (1) y
=Xj3 +
La méthode
générale
de test repose sur lacomparaison
des sommesde carrés
résiduelles,
é2 = QjE/no
etU2= Qs/Hi 1 attachées
à l’estimationde j3
par la méthode des moin- dres carrés sous leshypothèses Ho
et Hl irespectivement.
Quand
0 =0,
Vi est un sous-espace de Rn etl’interprétation géomé- trique
de la méthode montre que sibni
1 est l’estimateur des moindres car-rés
de ~
sousH1,
9YHl = XbHl = proj
y sur Viet
e 1 = pro j
y surVil
Comme
Vi CV, Vl.i::>V 1.
On a donce = proj
el 1 sur VI.(1)
C’est àpartir
de cette remarquequ’on
montre que lastatistique
est distribuée comme F à q et n - p
degrés
de libertési,
et seulement sil’hypothèse
Hl 1 est réalisée.On
peut
montrer que le test leplus puissant
basé surGHI/HO
est un testunilatéral à droite.
Si a est le seuil que l’on s’est
fixé,
onrejettera
donc Hl siGHi~HO
> F(1 - a),
oùF(l - a)
est défini par P[F F(1 - a)]
= 1 - aq. n-P
Remarque :
Test designification
d’un coefficient derégression partielle Pj
Dans le test de
Hi : j
= 0, q = 1 etGHI/Hoest
sousHl,
distribuée commeFl. n-p.
On montre que
GHi/Ho= (bj /s*b ~)2
oùbj
etsb~
sontrespectivement
l’es-timateur des moindres carrés
de j3j
et l’écarttype
estimé debj (obtenu
enremplaçant
o inconnu dans6 b3
pars*)
sousl’hypothèse Ho.
L’application
de la méthodegénérale
est doncéquivalente
àl’applica-
tion du test t de Student à n - p
degrés
de liberté àbj /sbj .
II - COMPARAISON DES REGRESSIONS OBTENUES SUR K ECHANTILLONS
(ANALYSE
DE LACOVARIANCE)
On suppose que les formules de
régression comportent
un terme cons-tant c’est-à-dire que la
première
colonne de X est formée de 1.---
(1) Quand
0 /
0 on se ramène au cas précédent (1) sous la formey - XO
=X(~ - e)
+ esoit (1’)
z = Xy+
c avec z = y - XO connu ~R"et Y = p-0~R~
(4) devient alors (4’): HY = 0
et on est amené à tester (4’) dans le modèle (l’)
On aura alors
bHi = gR 1 + e,
si gRi est l’estimateur des moindres carrés de Y.Revue de Statistique Appliquée. 1971 - vol. XIX N° 1
33
On est alors amené à se poser les
problèmes
suivants : test duparallé-
lisme des
hypersurfaces
derégression : Hl, ou
test de la confusion de ceshypersurfaces : Ha
1 /
deprime abord,
ou2/
en lessupposant parallèles (c’est
ceproblème qui
constitue "l’ana-lyse
de lacovariance").
Le modèle de
départ correspondant
àl’hypothèse Ho
est : -.Si on fait
l’hypothèse que E~EN(0,o~I~)
et que les K échantillons sontindépendants,
cesproblèmes
rentrent dans le cadre de la méthodegénérale
de test d’une
sous-hypothèse
linéaire sur les coefficients derégression (cf.I - 6),
mais il ne semble pasqu’ils
aient faitl’objet
d’un programme sauf en cequi
concerne le test de confusion deshypersurfaces supposées parallèles (H2
commesous-hypothèse
deHi ).
En effet on
peut représenter
l’ensemble des observations par le modèle :avec
et le test de confusion des
hypersurfaces
derégression
est le test del’hypo-
thèse
H : P
1 =P2 " " ’ ’ = ~k
tandis que le test duparallélisme
est celui del’hypothèse H2 :~1J = ~2J ..". = ?Kj VJ 7~ 1
III - CHOIX DES VARIABLES EXPLICATIVES OU INDEPENDANTES A FAIRE INTERVENIR DANS UNE
EQUATION
DE REGRESSION1 - Evaluation du biais introduit dans les estimateurs des q
coefficients
derégression
restantquand
onsupprime
p - q variablesindépendantes
dansun modèle de
régression
linéaireConsidérons le modèle de
régression
Revue de Statistique Appliquée. 1971 - vol. XIX N° 1
34
où
Pi
est de dimension q et~2
de dimension p - q et le modèlesimplifié (2) EX’ (y)
=XI, Pl=
’ni 1On trouve que si
bol
est l’estimateur des moindres carrésde Pi
dansle modèle
(2)
on aE(b~) ~j3~
+(xlxir 1 x 1
X2~2
où Xi etX2
sontrespective-
ment les matrices
n, q
et n, p - q dont leslignes
sont lesvaleurs
dex’
1et pour le n échantillon considéré
Le biais commis en estimant est donc
Il est nul si et seulement
si : ~ 2 =
0 c’est-à-dire si le modèle(2)
con-vient
c’est-à-dire si les colonnes de Xi 1 sont
orthogonales
aux colonnes deX 2. (on
dit si les variablescomposant X 1 sont orthogonales
aux variablescomposant X2)
Ce biais
dépend
donc duplan
de relevé des données par l’intermédiaire deXl
etX 2
On a
Vi -
sous espace deRn engendré
par les colonnes de XiCe biais est donc
l’image réciproque
parf 1 associée
à Xi de la pro-jection orthogonale
surVi
sous espaceengendré
parXl,
deX2P 2
composantede
EX’ (y) négligée
dans le modèle(2).
-
On montre aussi que
b~= b 1+ (X1Xlrlx~ X2b2
si
b 1 et b 2
sont les estimateurs des moindres carrésde pi
1et ~2
dans lemodèle
(1).
2 - Conclusions de l’étude
1/
Lasuppression
à tort d’une ouplusieurs
variablesindépendantes
con-duit à des estimateurs biaisés pour les coefficients de
régression
des autresvariables si celles-ci ne sont pas
orthogonales
aux variablessupprimées
dansle n échantillon considéré
(ou
non corrélées avec elles s’ils’agit
de variablescentrées).
2/
L’étude de l’influence surE(y)
d’une variable ou d’un groupe de va- riables considéré isolémentexige
que cette variable ou ce groupe de variables soitorthogonal
à chacune des autres dans l’échantillon considéré. S’il n’en n’est pas ainsi il sepeut
que l’influence de ces variablespuisse
êtrenégligée
par
rapport
aux influences des autresquand
on se limite à l’ensemble des valeursprises
par les variablesindépendantes
dansl’échantillon,
mais rienne permet d’affirmer
qu’il
en sera ainsi pour d’autresvaleurs,
ou même d’autres combinaisons de valeurs des variablesindépendantes.
C’est cequi
interdit la
suppression
de variablesindépendantes
nonorthogonales
aux autresRevue de Statistique Appliquée. 1971 - vol. XIX N° 1
35
pour la
prévision
parextrapolation,
si on ne veut pasrisquer
d’introduire unbiais dont on ne
peut
pas connaître la valeur.De
même,
dans laprévision
parextrapolation
de l’influence de cer-taines variables
indépendantes
surE(y)
on nepeut envisager
que la suppres- sion éventuelle d’un groupe de variablesqui
seraientorthogonales
aux autresdans l’échantillon si on veut
prévoir
sans biais l’influence des variables res-tant.
Aussi semblerait-il intéressant de
procéder
à uneanalyse
en compo- santesprincipales
sur l’ensemble des variablesindépendantes (ou explicatives)
pour rechercher des groupes de variables non corrélées
(ou plus générale-
ment
orthogonales
d’un groupe à l’autre si on ne considère pas des variablescentrées),
ou substituer aux variables initiales de nouvelles variables deux à deux non corrélées ouplus généralement orthogonales.
C’est leproblème
de la
"régression orthogonalisée"
que nous n’aborderons pas ici.3 - Les
principales procédures
de choix des variablesindépendantes
à faireintervenir dans une
équation
derégression
utilisée pour laprévision
parinterpolation
On supposera pour
simplifier
lelangage
que la formule derégression
recherchée
comporte
un terme constant, cequi
revient à considérer une pre- mière variableindépendante
x° constante, et p - 1 variablesindépendantes
non constantes au sein
desquelles
on se propose de choisir les variables àconserver. Il
importe
de ne pasperdre
de vuequ’il n’y
a pas deprocédure statistique unique
pourprocéder
à ce choix et que lejugement personnel
de-vra intervenir
chaque
fois.a)
Essai de toutes lesrégressions possibles
Ceci conduit à essayer
2p-l régressions
et n’est doncpraticable
que pourp-1
10 ;On est amené à choisir "une meilleure
régression"
danschaque
groupe derégressions
à r variablesindépendantes
et ceci pour toutes les valeurspossibles
de r soitr = 1, 2 ... p - 1 et à
comparer ensuite les meilleures ré-gressions
obtenues pour les diverses valeurs de r afin de déciderquelle
estla
plus petite
valeur de r que l’on retiendra.Pour
procéder
à ce choix on utilise deuxtypes
de critères :1/
Le carré du coefficient de corrélationmultiple R2,
ou la va-riance résiduelle
empirique
s 2 =e2/n
R2
est la réduction relative de variance introduite par leremplacement
de la variancemarginale empirique
de y par sa variance résiduelleempirique
dans larégression
considérée.puisque
Revue de Statistique Appliquée. 1971 - vol. XIX N° 1
36
On compare donc la variance résiduelle de y attachée à une
régression
à sa variance en l’absence de toute
régression.
Comme la variancemarginale
ne
dépend
que del’échantillon,
le critère deR2
maximuméquivaut
au cri-tère de variance résiduelle
empirique
minimum.On notera que
quand
raugmente
paradjonction
de nouvelles variablesexplicatives
e 2 nepeut
que diminuer doncR2
nepeut qu’augmenter ;
doncla meilleure
régression
à r + 1 termes seratoujours
au moins aussi bonne que la meilleurerégression
à r termes.Pour choisir la valeur de r à
adopter
onpeut porter
les valeurs deR 2 Max
ou dee2 Min/n
en fonction de r. On retiendra laplus petite
valeur de r pourlaquelle R2Max
oue2Min/n
se stabilise.2/
Le critèreCK
de MallowsK est le nombre total des termes introduits dans la
régression,
doncK = r + 1 s’il y a r variables
explicatives
non constantes. Par définitionCK
= K + somme des carrés des erreurssystématiques
deprévision
commisesen chacun des n
points
del’échantillon,
ces erreurs étantcomptées
en écartstypes
liés.K est la valeur moyenne de la somme des carrés des erreurs aléatoires de
prévision
aux mêmespoints, comptée
elle aussi en écartstypes
liés.On montre que C =
ë; /02 - (n - 2K)
endésignant
parë~
la somme descarrés résiduelle attachée à la
régression
à K termes considérée.2
Pratiquement
on ne connait pas 62 et on l’estime pars*2 = 2013~2013
n-p estima-teur de a2 dans le modèle
complet
derégression
à p termes, en sortequ’on
obtient
Cp
= pOn compare donc en fait la somme des carrés résiduelle des modèles à K termes à la somme des carrés résiduelle du modèle
"complet"
à p termes.En l’absence d’erreur
systématique CK = K ;
par suite les valeurs deCK
doivent être
comparées
à K et on retiendra leplus petit
nombre K tel queCK
Min soit voisin de K.Remarques importantes
- Le meilleur groupe de r + 1 variables ne contient pas néces- sairement le meilleur groupe de r
varaibles,
en sorte que même sousl’hy- pothèse
de normalité de la distribution de ~ il n’est pastoujours possible
detester la
signification
de l’influence de la(r
+1) ème
"meilleure" variable.- Par contre
toujours
sousl’hypothèse
de normalité pour la dis- tributionde e.
onpeut
tester lasignification
de l’ensemble des p -(r
+ 1) variables non introduites c’est-à-dire testerl’hypothèse j32=
0 dans le mo-dèle
(1)
de(I,6)
oùx’ est l’ensemble des p -(r + 1)
variables non introduites.Quand
on a calculé les coefficientsC K,
laméthodegénérale indiquée en (1,6)
conduit à
appliquer
un testF à p - K et n - p degrés
deliberté,
unilatéralRevue de Statistique Appliquée. 1971 - vol. XIX N° 1
37
b)
Eliminationprogressive (Backward Elimination)
1
Cette méthode consiste à :
1/
Calculer une formule derégression comportant
toutes les va- riables.2/
Calculer la valeur de toutes lesstatistiques
qui permettent
de tester lasignification
desrégressions partielles Pj
aumoyen du test t de Student
(cf 1,
6 :Remarque)
3/
Tester lasignification
de larégression partielle
la moins si-gnificative (celle qui correspond
à laplus petite
valeur deb j /s:j) par exemple
de
4/ - Si
cetterégression partielle
estsignificative,
conserver laformule trouvée.
- Si elle n’est pas
significative, supprimer
la variablexL
etrecommencer le processus.
Cette méthode est
particulièrement
recommandée à ceuxqui
désirent avoir la formule derégression
sur l’ensemble des variablesindépendantes .
Elle donne par ailleurs la meilleure
régression
à p - 1 termes.Si on ne tient pas
spécialement
àgarder
ou du moins à essayer l’en- semble des p - 1 variablesindépendantes,
larégression
pas -à pasparait préférable.
Remarques
1/
Le critère de choix de la variable à éliminer àchaque étape
est enfait le carré du coefficient de corrélation
partielle
de y avec cette variable . Ilgarde
un sens concret même si leshypothèses
de validité du test ap-liqué
ne sont pas réalisées.2/
Il faut segarder
d’éliminer simultanémentplusieurs
variablesqui
auraient desrégressions partielles
nonsignificatives ;
c’est en fait souventparce que ces variables sont fortement corrélées
qu’aucune
d’elles n’a d’in- fluencesignificative.
3/
Onpeut envisager,
une fois la formule derégression
finaleobtenue ,
de tester lasignification
de l’ensemble des variables éliminées.c) Régression
pas à pas ou"Stepwise regression"
(cf
B. M. D. 02 -R)
C’est une méthode
d’adjonction progressive
des variables.Les
étapes
de la méthode sont les suivantes :1/
Choisir la variablexi
laplus
fortement corrélés avec y, soit Xi 1cette variable.
Tester la
signification
du coefficient derégression
totale b 1 à un seuilai 1 f ixé .
Revue de Statistique Appliquée. 1971 - vol. XIX N° 1
38
S’il n’est pas
significatif,
conclure à l’absence derégression significa-
tive
de y
surles Xj.
Si l’influence de Xi
est significative
passer à2/
Introduire successivement chacune des variablesxj, 1,
enplus
de x 1.
Retenir la variable
qui
donne un coefficient de corrélationmultiple
R2Y/Xl,Xj
leplus grand possible
c’est-à-dire une somme des carrés rési- duelle e 2laplus petite possible.
Soit x2
cette variable. Tester lasignification
du coefficient derégres-
sion
partielle ~ 2
dans larégression
de y sur Xlet
X2 aurisque
al.Si l’influence de X2,
après
x,n’est
passignificative, garder
la seulevariable
explicative
xi.Si elle est
significative
passer à3/
Tester lasignification
de x i ,après
x 2 aurisque
à 2(0~2 ~ al) . a)
Si Xi n’est passignificatif après
x2,garder
X2 seule et re-prendre
àl’étape
2. Le fait que OE2 >1 OC1implique
que Xi nepeut
avoiraprès
X2 une influence
significative
aurisque
ai et nepeut
par suite pas être réin- troduiteaprès
x 2b)
Si Xi estsignificatif après
X 2,garder
Xiet
X2 et passer à4/
Introduire successivement chacune des variablesxj , j ~3
enplus de Xl et
X2 et retenir la variable donnant laplus
forte corrélationmultiple.
Soit x 3 cette variable. Si son influence
après
x 1 et X2 n’est passigni-
ficative au
risque
oc, ,garder
la formule avecX 1 et
X2 . Si l’influence de x3après
xet
X2 estsignificative,
tester aurisque
a2 lasignification
de celledes variables x,
et
X2qui
est la moinssignificative (bj ls* bi
leplus petit).
a)
Si les deux variables Xi et X2 ont des influencessignificatives , poursuivre
le processus enessayant
d’introduire unequatrième
variable.b)
Si x 1 parexemple
n’est passignificative,
lasupprimer
et pas- ser àl’étape
4.On arrête le processus
quand
iln’y
aplus
aucune variable à introduireou à
supprimer.
La méthode est aisée à mettre en oeuvre si on fait
apparaitre
lessbj
à
chaque étape,
c’est-à-dire si on calcule les élémentsdiagonaux
de(X’X)’1
puisque
le test designification
d’unerégression partielle j3j
est le test t ap-pliqué
àbj /Sbj.
Leplus
souvent on nechange
pas de valeurcritique
pour tquand
le nombre K des variablesaugmente.
C’est sansimportance quand
ne st
grand
devant K.Remarques
1/
Cette méthode conduit à renoncer à touterégression
dans le cas oùun ensemble de variables serait collectivement
significatif
sansqu’aucune
d’elle considérée isolément ne le soit.
- On
peut
seprémunir
contre cerisque
en calculant larégression
surl’ensemble des p - 1 variables condidates et en testant la
signification
de la ré-Revue de Statistique Appliquée. 1971 - vol. XIX N° 1
39
gression globale
ou defaçon plus
concrète en calculant le coefficient de cor-r~lation
multiple
ou le coefficientCi
de Mallowscorrespondant
au seul termeconstant.
D’une
façon générale,
une foisl’application
de la méthodeachevée,
onpeut
encore tester lasignification
de l’ensemble des variables éliminées oucalculer le coefficient
CK correspondant
à la formule trouvée.2/ Quand
on aplus
de variables candidates qued’observations,
cette méthode fournit un bon moyen de choix d’un nombre raisonnable de variables . Ilpeut
être intéressantd’appliquer
simultanément les deux dernières méthodes et d’en comparer les résultats.Quand
on obtient la mêmerégres-
sion avec les deux
méthodes,
on peut penser que celle-ci est satisfaisante . Dans le cascontraire,
c’est que le choix d’un sous-ensemble de l’ensemble des variables candidatesprésente
des difficultés et il convient de faire da-vantage appel
à la réflexion.REFERENCES
BIBLIOGRAPHIQUES
POUR LA PARTIE IIIDRAPER &
SMITH - Applied Regression Analysis, Wiley
1966 -chapitre
VIH.C.HAMAKER - De
l’analyse
àrégression multiple - R.S.A. - 1962,
vol.1 -p. 23 - 48
Pour le critère
CK
de MallowsGORMAN & TOMAN - Selection of Variables For
Fitting Equations
toData,
Technometrics - Vol. 8 - N° 1 - 1966 - p. 27-51.SUR LA REGRESSION LINEAIRE EN GENERAL
J. ULMO - Etude fondamentale de la
régression
linéairemultiple -
Ronéoté -Tome I.
(I.S.U.P.)
F.A. GRAYBILL - An introduction to linear statistical Models. Volume I . Mac Graw Hill. 1961
Revue de Statistique Appliquée. 1971 - vol. XIX N° 1