R EVUE DE STATISTIQUE APPLIQUÉE
N. H. F ONTON
R. P ALM
Comparaison empirique de méthodes de prédiction en régression linéaire multiple
Revue de statistique appliquée, tome 46, n
o3 (1998), p. 53-64
<http://www.numdam.org/item?id=RSA_1998__46_3_53_0>
© Société française de statistique, 1998, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les condi- tions générales d’utilisation (http://www.numdam.org/conditions). Toute uti- lisation commerciale ou impression systématique est constitutive d’une in- fraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
COMPARAISON EMPIRIQUE DE MÉTHODES
DE PRÉDICTION EN RÉGRESSION LINÉAIRE MULTIPLE
N.H. Fonton
(1),
R. Palm(2)
(1) Faculté des Sciences
Agronomiques,
Université Nationale du Bénin,Campus d’Abomey-Calavi,
BP 526, Cotonou (Bénin)(2) Faculté Universitaire des Sciences
Agronomiques,
Avenue de la Facultéd’Agronomie,
8, 5030 Gembloux(Belgique)
RÉSUMÉ
Dans cet article, on étudie les erreurs des
prédictions
réalisées àpartir d’équations
derégression
linéairesmultiples
établies en combinant différentes méthodes de sélection des variables à diverses méthodes d’estimation des coefficients derégression.
L’étude repose sur des données simulées.La
régression pseudo-orthogonale
avec sélection des variables et calcul des coefficients par la méthodesuggérée
par Lawless etWang (1976)
a donné, dans l’ensemble, les meilleurs résultats. Toutefois, legain
deprécision
n’est que de l’ordre de 3 à 4 % par rapport à la méthodeclassique
des moindres carrés avec sélection des variables pas à pas(stepwise).
Les simulations ont montré
également
que lepouvoir prédictif
deséquations
estimées estsensiblement
plus
faible que lepouvoir prédictif
des modèlesthéoriques.
Enparticulier,
aucuneméthode n’a
permis
d’établir deséquations
permettant de réaliser desprédictions
valableslorsque
le nombre de variablesexplicatives potentielles
estsupérieur
au nombre d’observations dans l’échantillon et que, simultanément, le coefficient de déterminationthéorique
est faible.Mots-clés :
régression
linéaire,prédiction,
sélection des variables, estimation descoefficients
de
régression.
ABSTRACT
A Monte Carlo simulation
study
of thepredictions given by multiple
linearregression equations
has beenperformed.
78 models ofregression
have been consideredby combining
13 methods of variables selection with 6 methods of estimation of
regression
coefficients.Ridge regression
with variables selection and estimation of theregression
coefficients assuggested by
Lawless andWang
(1976)gives
the overall best results. Nevertheless, the increase inprecision
isonly
about 3 or 4 percent, withregard
to thewidely
usedordinary
least squares estimation combined with thestepwise
selectionprocedure.
It has also been observed that the square root of the average
squared
error ofprediction
is much
larger
than the residual variance of the true model. None of thecompared
methodsleads up to
regression equations
which are usefull formaking predictions
when the number ofpredictors
is greater than the number of observations and when, in the meantime, the value of R2 for the true model is rather small.Keywords :
linearregression, prediction,
variables selection, estimationof regression coeffi-
cients.
1. Introduction
L’établissement des
équations
derégression multiple
est unproblème auquel
se trouvent
fréquemment
confrontés de nombreux utilisateurs de l’outilstatistique.
Un
exemple
concrettypique
est la construction de modèlesstatistiques-empiriques
de
prévision
des rendements des cultures. Ils’agit,
dans ce cas,d’exprimer
lesrendements observés au cours des 20 ou 30 années antérieures en fonction des conditions
météorologiques
observées durant cesannées,
ces conditionspouvant
être décrites par des centaines de variables.Parmi les études relatives à l’établissement des
équations
derégression,
ungrand
nombre d’articles ont été consacrés à la sélection des variables. Dessynthèses
relatives à ce
sujet
sont données parHocking (1976),
Miller(1990)
etThompson (1978a, 1978b).
Une autre voie abondamment
explorée
concerne la recherche de méthodes alternatives à larégression classique
pour réduire l’effet de la colinéarité. Ces méthodes ont étépassées
en revue par Palm et Iemma(1995),
notamment. Cette dernièreapproche
duproblème
n’estcependant
pasindépendante
de laprécédente,
car
plusieurs
de ces méthodes alternativesproposent également
lasuppression
de variables
redondantes,
selon des critèresqui peuvent
être différents de ceuxtraditionnellement utilisés en
régression multiple classique.
Le but de la
présente
étude estd’analyser
laqualité
desprédictions
réaliséesà
partir d’équations
derégression
établies par diverses méthodes de sélection desvariables,
combinées à diverses méthodes d’estimation des coefficients derégression.
L’étude repose sur des données
simulées,
afin depermettre
un meilleur contrôle des différents facteurspris
en considération.Nous
présenterons
d’abord les différentes méthodes d’établissementd’équa-
tions
qui
ont étécomparées (paragraphe 2). Ensuite,
nous décrirons leplan
de simu-lation des données
qui
a étéadopté (paragraphe 3).
Nous examinerons et discuterons alors les résultats obtenus(paragraphe 4)
avant de tirerquelques
conclusions(para- graphe 5).
2. Méthodes
comparées
Nous avons combiné treize
procédures
de sélection de variables à six méthodes d’estimation des coefficients derégression
des variables sélectionnées. Nousprésen-
tons d’abord les méthodes d’estimation et nous examinons ensuite les
procédures
desélection.
Soit
XA
la matrice des p variablesexplicatives qui
ont été sélectionnéesparmi
les k variables
potentielles
et y la variable àexpliquer,
ces variables étant observéessur n individus. Nous
considérons,
en outre, que les variables ont étépréalablement
standardisées,
de manière à ce que les moyennes soient nulles et que les sommes des carrés soientégales
à l’unité.La
première
méthode d’estimationenvisagée
est la méthodeclassique
desmoindres
carrés, désignée
par lesigle
MC :Les méthodes suivantes font
appel
à larégression pseudo-orthogonale :
Elles se
distinguent
par la valeuradoptée
pour la constante d. Nous avons eneffet retenu, d’une
part,
la valeurdl proposée
par Hoerl et al.(1975)
et, d’autrepart,
la valeurd2 proposée
par Lawless etWang (1976) :
2
étant la variance résiduelle estimée àpartir
de larégression
au sens des moindres carrés :Ces méthodes seront
respectivement désignées,
par lasuite,
par lessigles
HKBet LW.
La
quatrième méthode,
notéeJS,
repose sur l’estimateur de James et Stein(1961) :
avec :
si
l’expression
estpositive
et c = 0 sil’expression
estnégative (Sclove, 1968).Dans
cette
expression, Fobs
est lerapport
entre le carré moyen lié au modèle et le carré moyenrésiduel,
traditionnellement donné dans le tableaud’analyse
de la variance associé à larégression
ordinaire au sens des moindres carrés.En ce
qui
concerne les deux dernières méthodes d’estimationtestées,
ellesprennent
encompte
le biais desélection, qui
résulte du fait que les mêmes données sont utilisées pour la sélection des variables et pour l’estimation des coefficients des variables sélectionnées.Ce biais de sélection est la différence entre
l’espérance mathématique
du vecteurdes coefficients de
régression
estiméscorrespondant
à tous les vecteurs yqui
satisfontla condition de sélection de l’ensemble A de variables
explicatives
etl’espérance mathématique
des coefficients pour tous les vecteurspossibles
de y,indépendamment
du fait
qu’ils
conduisent ou non à la sélection de l’ensemble A de variablesexplicatives (Miller, 1990).
Leprincipe
des méthodes basées sur le biais de sélection est d’estimerce biais et de le soustraire de l’estimation obtenue par la méthode des moindres carrés.
Pour estimer ce
biais,
deuxprocédures
décrites par Miller(1990)
et illustrées à l’aide d’unexemple numérique
par Fonton(1995),
ont été testées. Ils’agit
de la méthodede Monte Carlo d’estimation
progressive
du biais et de la méthode de vraisemblance conditionnelle. Ces méthodes serontdésignées, respectivement,
par lessigles
CAet ML.
Pour sélectionner les variables à faire
figurer
dans leséquations
nous avonsretenu la
procédure classique
de choix des variables pas à pas(stepwise selection),
la
procédure
de sélectionprogressive (forward selection),
laprocédure
de sélection basée sur les tests designification
des coefficients derégression
calculés parrégression pseudo-orthogonale
et laprocédure
de sélection des variables basée surl’analyse
encomposantes principales proposée
par Baskerville etToogood (1982).
La méthode pas à pas se
distingue
de la méthodeprogressive
par lapossibilité
d’exclusion du modèle d’une variable
préalablement introduite,
alors que dans la méthodeprogressive
les variables introduites à uneétape
donnée sont définitivement incluses dans le modèle. Pour cesméthodes,
l’introduction d’une variable(et
la sortied’une
variable,
dans le cas de larégression
pas àpas)
se fait en fixant un seuil designification, qui
a étéexprimé
en fonction de la valeur observée de la variable t de Student.Trois valeurs ont été retenues : t =
1, 5, t
= 2 et t =2, 5.
Ellescorrespondent
à des niveaux de
probabilité
de l’ordre de 15%, 5
% et1,5
%. Ces méthodes de sélection serontdésignées,
par lasuite,
par lessigles swl,5,
sw2 etsw2,5
pour lesprocédures
pas à pas et par lessigles progl,5, prog2
etprog2,5
pour les méthodesprogressives.
Pour les sélections basées sur les tests de
signification
des coefficients derégression
estimés parrégression pseudo-orthogonale,
unerégression
sur toutes lesvariables a été réalisée en
utilisant,
d’une part, la valeurdi, proposée
par Hoerlet al.
(1975)
et, d’autrepart,
la valeurd2 proposée
par Lawless etWang (1976).
Ces constantes ont été définies
ci-dessus,
mais dans le casprésent,
l’ensemble Acorrespond
à toutes les variablesexplicatives potentielles.
Les tests designification
ont été réalisés pour les trois niveaux de
signification (t
=1, 5, t
=2 et t =2, 5)
etles variables non
significatives
ont été éliminées. Les méthodes serontdésignées,
par lasuite,
parhkbl,5,
hkb2 ethkb2,5
dans le cas de l’utilisation dedl,
et parIwl,5,
lw2et
lw2,5,
dans le cas de l’utilisation ded2.
Enfin,
latechnique inspirée
de Baskerville etToogood (1982),
notée par la suitebt,
est basée surl’analyse
encomposantes principales (ACP)
de la matrice formée par la variable àexpliquer
et les k variablesexplicatives.
Soit :la matrice des k + 1
variables, lj ( j
=1, k +1)
les valeurs propres et cj les vecteurs propres normés à l’unité issus de l’ACP de Z.Si on divise chacun des vecteurs propres par
lj,
soit :et si on
juxtapose
cesrésultats,
on obtient la matriceD,
dont l’élémentgénéral
estdij (i
=0,..., k ; j
=1, ... , k
+1).
Sur la base de cette matriceD,
la sélection des variables a étéopérée
de la manière suivante. Parmi les colonnes deD, correspondant
à des valeurs propres inférieures ou
égales
à0,10,
onrepère
cellequi présente
la valeurla
plus
élevée dedoj
et, dans cettecolonne,
on retient les variables i pourlesquelles
la valeur
dij (i
=1,..., k)
estsupérieure,
en valeurabsolue,
à l’unité.Les treize
procédures
desélection,
combinées aux six méthodesd’estimation,
donnent donc lieu à 78techniques
d’établissementd’équations
derégression.
Ellesseront
représentées
par lajuxtaposition
dessigles. Ainsi,
latechnique
résultant de l’estimation desparamètres
par larégression pseudo-orthogonale
en utilisant laconstante
d2,
les variablesayant
étépréalablement
sélectionnées par laprocédure
pas à pas avec pour valeur
théorique t
=2,
sera notée LW* sw2.La combinaison des méthodes de sélection des variables et des méthodes d’esti- mation des coefficients des variables sélectionnées
peut
conduire à destechniques
derégression qui présentent
sans doute peu dejustifications théoriques.
Elle acependant l’avantage
depermettre,
lors del’analyse
desrésultats,
laséparation
des deux facteurset l’examen de leur éventuelle interaction.
D’autre
part,
etplus particulièrement
en cequi
concerne le choix desvariables,
de nombreuses autres méthodes
proposées
dans la littérature n’ont pas été retenues, de manière à maintenir le volume des calculs dans des limites raisonnables. C’estainsi,
parexemple,
que nous n’avons pas retenu les différents critères de sélection tels queAIC,
BIC ouDEC,
etc., étudiés par Kundu et Murali(1996).
Enfin,
comme nous lepréciserons
auparagraphe 3,
nous avonsprocédé
à uneprésélection
des variableslorsque
le nombre de variablespotentielles, k,
estsupérieur
au nombre
d’observations,
n. Eneffet,
il estimpossible,
dans ces cas, d’estimer les coefficients derégression
avec lestechniques
basées sur leprincipe
des moindres carrés. Cettesituation,
couramment rencontrée dans lapratique,
constitue unproblème supplémentaire
pour l’établissement deséquations
derégression.
3. Génération des données
L’objectif
estd’analyser
lecomportement
destechniques
d’établissementd’équations
derégression,
en relation notamment avec la structure des variablesexplicatives potentielles.
Pour définir cette structure, deux facteurs ont étépris
enconsidération.
Ils’agit
du nombre de variablesexplicatives disponibles
et dudegré
de colinéarité des variables.
Trois valeurs ont été retenues pour le nombre de variables
potentielles : k
=10,
k = 20 et k = 40. Ces valeurs nous
paraissent
couvrir unelarge
gamme de situations couramment rencontrées enpratique.
La colinéarité a été
quantifiée
par la moyenne des inverses des valeurs propres.Cet
indice,
notéIC, correspond
aussi à la trace de l’inverse de la matrice de corrélation des variablesexplicatives,
divisée par le nombre de variables. Trois valeurs de cet indice ont été retenues :IC = 1,
IC = 20 et IC = 40. Lapremière
valeurcorrespond
à l’absence de corrélation entre les variables et les deux autres valeurs
représentent
des
degrés
croissants de la colinéarité.La
procédure
retenue pour lagénération
des variablesexplicatives
est celleutilisée par Hoerl et al.
(1986), qui permet
de modifier ledegré
de colinéarité d’une matrice. Les valeurs propres utilisées ont été obtenues par laprocédure
de Bendel etAfifi
(1977).
Les variables à
expliquer
ont étégénérées
àpartir
du modèle suivant :où X est la matrice des k variables
explicatives potentielles, {3
est le vecteur descoefficients de
régression
et 6* est le vecteur des résidus. Ces résidus sont des réalisationsindépendantes
de variables normales réduites. Le vecteur0
contientcinq
valeurs
positives
etégales
et k - 5 valeurs nulles. Lespositions
dans levecteur {3
desvaleurs non nulles ont été choisies au hasard et la valeur des
cinq
coefficientsidentiques
et non nuls a été déterminée de manière à obtenir une valeur fixée du coefficient de détermination
multiple.
Deux valeurs de ce coefficient ont été retenues :R2
=0, 4
etR2 = 0, 8.
Pour
chaque
matriceX,
caractérisée par un nombre k de variables(k
=10,
k = 20 et k =40)
et par un indice de colinéarité IC(IC
=1,
IC = 20 et IC =40)
etpour
chaque
valeur deR2 (R2
=0, 4 et R2
=0, 8),
deux vecteurs y ont étégénérés,
par
simple permutation
aléatoire despositions occupées,
dans le vecteur{3,
par les coefficients non nuls.Pour chacune des neuf structures des données
explicatives (trois
valeurs de k combinées à trois valeursde IC),
3.100 individus ont étégénérés. Vingt
échantillons de 15individus, vingt
échantillons de 30 individus etvingt
échantillons de 60 individus ont été sélectionnés sans remise. Les 1.000 individus non sélectionnés sont réservés à l’évaluation de laqualité
desprédictions (paragraphe 4).
Sur chacun des 60échantillons,
les 78techniques
derégression
sontappliquées quatre
fois : sur les deux variables y caractérisées par un coefficient de déterminationmultiple théorique
de
0,4
et sur les deux variables y caractérisées par un coefficient de déterminationmultiple théorique
de0,8.
Au total 168.480équations
ont été établies.Comme nous l’avons
signalé
auparagraphe 2,
nous avonsprocédé
à uneprésélection
desvariables, lorsque
le nombre de variablespotentielles, k,
estsupérieur
au nombre d’observations n.
Ainsi,
douze variables ont étéprésélectionnées lorsque
n = 15 et k = 20 ou k = 40 et 24 variables ont été
présélectionnées lorsque n
= 30 etk = 40. Pour
opérer
cetteprésélection,
nous avonsprocédé
de lafaçon
suivante. Dans le cas n = 15 et k =20,
les variables ont étéréparties
aléatoirement en deux groupes de 10 variables. Dans chacun de ces groupes, nous avons recherché la combinaison de 6 variablesqui
a conduit à la variance résiduelle minimum. Les deux ensembles de 6 variables ainsi obtenusreprésentent
les 12 variablesprésélectionnées.
Pour n = 30 etk = 40 les variables ont été
réparties
en deux groupes de 20 variables et 12 variables ont été sélectionnées danschaque
groupe. Pour n = 15 et k =40,
les variables ont étéréparties
en 4 groupes de 10 variables et 3 variables ont été sélectionnées danschaque
groupe.4.
Analyse
des résultatsLe critère retenu pour comparer les différentes
techniques
d’établissement deséquations
derégression présentées
auparagraphe
2 est l’erreurquadratique
moyennede
prédiction.
Elle est basée sur les écarts entre les valeursobservées,
yi, et les valeurs estimées par uneéquation donnée, i,
les écarts étant calculés pour les 1.000 individusréservés à la validation dont il a été
question
auparagraphe
3 :Rappelons
quel’écart-type
résiduelthéorique
estégal
à l’unité et que l’écart-type
totalthéorique
de la variable àexpliquer
estégal
à1,29
siR2 - 0, 4
et à2,24
siR 2
=0, 8, compte
tenu de la manière dont les vecteurs y ont été simulés(paragraphe 3).
L’analyse
de la variance de l’ensemble des résultats a mis en évidence l’exis- tence de nombreusesinteractions,
cequi
nous a conduit à réaliserquatre analyses séparées.
Lesquatre
cas considérés résultent de la combinaison des deux valeurs deR2 (0,4
et0,8)
et de deux situations concernant lerapport
entre le nombre de variablesexplicatives potentielles, k,
et le nombre d’observations dansl’échantillon,
n(k
net k >
n).
Ces
quatre analyses
de la variance ont montré que les différences entre méthodes desélection,
méthodes d’estimation etdegré
de colinéarité sont toutessignificatives
et que l’interaction entre les méthodes d’estimation et les méthodes de sélection est non
significative lorsque k
n maisqu’elle
restesignificative lorsque k
> n.Le tableau 1
donne,
pour lesquatre
situationsenvisagées,
les moyennes et, entreparenthèses,
lesécarts-types
des6g
pour les treize méthodes de sélection et pour les six méthodes d’estimation. Cesécarts-types
sont lesécarts-types empiriques
des
eq
moyens, calculés pour les 20répétitions.
Ils mesurent donc essentiellement la variabilité liée aux facteurs contrôlés(structure
des variablesexplicatives,
effectifsdes échantillons et méthode d’estimation ou de
sélection).
Nous allons tout d’abord examiner les résultats
lorsque k
est inférieur à n et nousanalyserons
ensuite le cas où k estsupérieur
à n.Pour k n, le tableau montre que la meilleure méthode de sélection est la méthode
lwl,5
et la meilleure méthode d’estimation est la méthode LW. La combinaisonLW*lw1,5
est aussi la meilleure combinaisonparmi
les 78 combinaisons testées. La valeur moyennecorrespondante
deseq
vaut1,18
pourR2
=0, 4
et1,24
pourR2
=0, 8.
L’examen du tableau 1 montre
aussi, pour k
n, que les différences sontplus marquées
pour les méthodes de sélection que pour les méthodes d’estimation. Cepoint
est confirmélorsqu’on
examine le classement des 78 moyennes.Ainsi,
pourR2
=0, 4
etquelle
que soit la méthoded’estimation,
les méthodes de sélectionlwl,5
et lw2 conduisent à des valeurs de
eq
inférieures ouégales
à1,22
tandis que les méthodesbt,
hbk2 ethbk2,5
donnent des valeurs moyennes deeq comprises
entre1,26
et1,42;
pourR2
=0, 8
les valeurs moyennes deeq
sontcomprises
entre1,24
et1,46
pourlwl,5
et lw2 et entre1,43
et1,74
pourbt,
hbk2 ethbk2,5.
Lorsque k
> n, la meilleure méthode de sélection est la méthodestepwise,
avecune valeur de t fixée à
2,5
pourR2
=0, 4
et à 2 ou2,5
pourR2
=0, 8.
La meilleureméthode d’estimation est la méthode CA. La combinaison CA
*sw2,5
conduit aux valeurs moyennes deeq
de1,35,
pourR2
=0, 4,
et de1,95,
pourR2
=0, 8.
Du faitde l’interaction entre les méthodes de sélection et les méthodes d’estimation
lorsque
k > n, la combinaison CA
*sw2,5
n’estcependant
pas la meilleure combinaison. EnTABLEAU 1
Valeurs moyennes et
écarts-types
deéq,
en
fonction
de la méthode d’estimation desparamètres
et de la méthode de sélection des variables : valeurs pour les quatre cas
envisagés.
effet,
pourR2
=0, 4,
la meilleure combinaison estML*sw2,5 (moyenne
deséq égale
à
1,33)
alors que pourR 2
=0, 8,
la meilleure combinaison est CA *lw2(moyenne
des
6g égale
à1,89).
La méthode
LW*lw1,5, qui, rappelons-le,
est la meilleure combinaison pour k n, aconduit, pour k
> n, aux moyennes des6g
de1,47
pourR2
=0, 4
et de1,93
pour
R2
=0, 8.
Parrapport
aux meilleures combinaisons mentionnéesci-dessus,
on voit que la différence estfaible,
du moins pourR2 = 0, 8.
Dans la mesure où la méthode
LW*lw1,5
estglobalement
la meilleure méthode(moyenne générale
deseq égale
à1,37),
nous avonscomparé
cette méthode à la méthodeplus classique
etplus
courammentutilisée,
à savoir la sélection des variables parstepwise
avec une valeur de t fixée à 2 et l’estimation desparamètres
par les moindres carrés(MC*sw2).
Cetteméthode, qui
constitue donc notreréférence,
a donné lieu à une valeur moyenne des6g égale
à1,42
et se situe en 18èmeposition lorsque
les 78 méthodes sont classées par ordre croissant des moyennes des6g.
Enmoyenne, le
gain
deprécision
est de l’ordre de 3 à 4 %. Uneanalyse plus
détailléedes
rapports
entre leseq
obtenus pour le modèleLW*lw1,5
et leséq
obtenus pour le modèle MC* sw2 a montré que cerapport
n’est lié ni à la taille deséchantillons,
ni audegré
de colinéarité des matrices des variablesexplicatives potentielles,
ni àla valeur de
R2.
Par contre, ilaugmente
avec le nombre de variablesexplicatives prises
en considération.Ainsi,
cerapport
vaut, en moyenne,0,96 pour k
=10, 0,95 pour k
= 20 et1,00 pour k
= 40. Dans ce dernier cas, un tiers desrapports
sontsupérieurs
à l’unité. Endéfinitive,
onpeut
donc constater que legain
deprécision
liéà l’utilisation de la méthode
LW*lwl,5
parrapport
à la méthode deréférence,
resteassez limité.
Indépendamment
des informations relatives au choix desméthodes,
le tableau1 fait
également apparaître
que les valeurs moyennes des6g
sont toutessupérieures,
etsouvent même nettement
supérieures,
àl’écart-type
résiduelthéorique, qui
a été fixé àl’unité. Une
analyse plus approfondie
des discordances entre les erreursquadratiques
moyennes de
prédiction
etl’écart-type
résiduelthéorique
a été réalisée dans le cas du modèleLW* lwl,5.
Nous avons, dans cebut,
calculé lesquantités :
qui représentent
lapart
de la variance de la variable yqui
estexpliquée
par larégression.
Dans cetterelation, o,2
est la variancethéorique
de y, directement liée à la valeur deR2 .
Les coefficients«R2*»
sont définis ets’interprètent
comme descoefficients de détermination
multiple.
Ilspeuvent
toutefoisprendre
des valeursnégatives, lorsque 6g
estplus grand
que 0" Y’ c’est-à-direlorsque
le modèle derégression
introduit de la variabilitésupplémentaire
lors de laprédiction.
Cescoefficients
«R2*
» ont ensuite été divisés par les valeursthéoriques R2.
Cerapport indique
doncquelle
fraction deR2
est effectivementexpliquée
par larégression :
unevaleur
proche
de l’unitésignifie
une bonne concordance entrel’écart-type
résiduelthéorique
et l’écartquadratique
moyen. Une valeurproche
de zéro ounégative signifie
que la
capacité prédictive
du modèle est nulle et que, parconséquent,
larégression
établie est sans intérêt pour la
prédiction.
On a constaté que ces
rapports
sont essentiellement fonction de la valeur théo-rique
deR2
et durapport k/n.
Les distributions de cesrapports
étantdissymétriques
et de variances non constantes, nous avons
repris,
dans le tableau2,
lespremier
ettroisième
quartiles
observés pour les différentes situations considérées. Dans l’in-terprétation
de cesrésultats,
on neperdra
pas de vuequ’il s’agit
de la distribution de valeurs moyennes. La variabilité desrapports provient principalement
de la struc-ture des données
(effectif
des échantillons etcaractéristiques
des matricesX)
et nondu caractère aléatoire de
l’échantillonnage,
les valeurseq
étant des moyennes de 20répétitions.
L’examen du tableau 2 montre clairement l’inefficacité des
équations
derégression
pour laprédiction lorsque
lerapport k/n
estsupérieur
à l’unité etR2
=0, 4
et
lorsque k/n
estégal
à2,6
etR2 = 0, 8.
PourR2 = 0, 4,
il faut que la taille de l’échantillon soit trois foisplus grande
que le nombre de variablespotentielles, k,
pour que les
équations
derégression
calculéesexpliquent
50 % de la variabilitéexpliquée
par les modèlesthéoriques.
La situation est, par contre,plus
favorablelorsque R2
=0, 8,
du moins si k n.TABLEAU 2
Premier et troisième
quartiles,
q1 et q3, de la distribution des rapports«R2* »/R2,
enfonction
deR2 et
dek/n.
5. Conclusions
L’objectif
de cette étude est de comparer laqualité
desprédictions
réalisées àpartir d’équations
derégression
établies de diverses manières : treize méthodes de sélection des variables ont été combinées à six méthodes d’estimation desparamètres
des variables sélectionnées. Les
comparaisons
ont été réalisées sur base de données simulées.On s’est volontairement
placé
dans un contextedéfavorable,
caractérisé par un nombre élevé de variablesexplicatives potentielles (k
=10, k =
20 et k =40)
par
rapport
à la taille des échantillons(n
=15,
n = 30 et n =60).
Deplus,
on aconsidéré
qu’on
nedispose
d’aucune connaissance apriori
concernant les variablesexplicatives supposées
utiles ou concernant les ordres degrandeur
des coefficients derégression
ou des éventuelles contraintes liant ces coefficients. Nous pensons, eneffet,
que de telles situations défavorables sont courantes dans lapratique.
Plusieurs conclusions
peuvent
être tirées de cette étude. Tout d’abord onpeut
constater que,
pour k
n, la méthodeLW* lwl, 5
a donné les meilleurs résultats. Cette méthodecorrespond
à larégression pseudo-orthogonale
avec sélection des variables et calcul des coefficients par la méthodesuggérée
par Lawless etWang (1976),
lavaleur de la variable t de Student étant fixée à
1,5.
Pour k > n et pour un coefficient de déterminationthéorique
élevé(R 2 = 0, 8),
la méthode ci-dessus n’est que trèslégèrement
moins bonne que la méthodeCA*lw2, qui
est, dans ce cas, la meilleure.Comparée
à la méthodeplus classique
des moindres carrés avec choix des variables par sélection pas à pas, larégression pseudo-orthogonale
n’offrecependant qu’un gain
deprécision
de l’ordre de 3 à 4 %.Cette constatation confirme les conclusions de
Draper
et Van Nostrand(1979).
Selon ces auteurs, les améliorations par
rapport
aux moindres carrés ordinaires sont très faibleslorsque
le vecteur0
est bienestimé,
c’est-à-dire si la colinéarité n’est pas unproblème
sérieux et si3
n’est pastrop proche
dezéro;
d’autrepart,
si{3
est mal estimé du fait de la colinéarité ou parcequ’il
estproche
dezéro, l’importance
de l’amélioration est loin d’être manifeste. De nombreuses autres études destinées à comparer lesperformances
de larégression pseudo-orthogonale
n’ontd’ailleurs pu mettre en évidence la
supériorité systématique
de larégression pseudo- orthogonale.
Des informations à cesujet
sont données notamment par VanNostrand,
en commentaire à l’article de Smith et
Campbell (1980).
On a constaté
également qu’aucune
méthode nepermet
d’établir uneéqua-
tion conduisant à des
prédictions
valables si le nombre de variablesexplicatives potentielles
estsupérieur
au nombre d’observations dans l’échantillon et que, simul-tanément,
le coefficient de déterminationthéorique
est faible(R2 = 0, 4).
Dans cecas, en
effet,
l’écartquadratique
moyen des erreurs deprédiction
estsupérieur
àl’écart-type marginal
de la variable àexpliquer.
De
façon plus générale,
on a noté que lepouvoir prédictif
deséquations
estiméesest sensiblement
plus
faible que lepouvoir prédictif
du modèlethéorique,
sauf si lenombre d’individus est au moins trois fois
plus grand
que le nombre de variables et que le coefficient de déterminationthéorique
est élevé(R2
=0, 8).
Cette conclusion
généralise
une constatation que nous avons pu faire àplusieurs reprises
lors de la construction de modèlesagrométéorologiques
detype statistique- empirique
pour laprévision
des rendements des cultures : la sélection des variables et l’estimation desparamètres
des variables sélectionnées conduit à des modèlesqui s’ajustent
bien auxdonnées,
mais dont lescapacités prédictives
sont nulles(Palm
etDagnelie, 1993).
Laprésente
étude montre clairement que leproblème
del’établissement des
équations
utiles pour laprédiction
nepeut
pas être résolu par lesimple remplacement
d’unalgorithme
de sélection des variables et d’estimation desparamètres,
comme la méthode des moindres carrés pas à pas, par un autrealgorithme,
comme, par
exemple,
larégression pseudo-orthogonale,
ou par laprise
encompte
du biais de sélection. Lasolution,
si elleexiste,
se trouve sans doute dansl’augmentation
de l’information
disponible.
Cetteaugmentation peut
se faire soit par l’addition de nouvelles observations ou par laprise
encompte
d’information externe, concernant la nature de la relation recherchée. Une telle information externepeut permettre
une réduction a
priori
du nombre de variables oul’imposition
de contraintes sur lesparamètres.
Des informations à cesujet
et desexemples d’applications
sont donnéspar Cazes
(1975, 1977, 1978)
et par Cazes etTurpin (1971).
Bibliographie
BASKERVILLE
J.C.,
TOOGOOD J.H.(1982).
Guidedregression modelling
forprediction
andexploration
of structure with manyexplanatory
variables. Tech- nometrics24,
p. 9-17.BENDEL
R.B.,
AFIFI A.A.(1977). Comparison of stopping
rules in forwardstepwise regression.
J. Amer. Stat. Assoc.72,
p. 46-53.CAZES P.
(1975).
Protection de larégression
par utilisation de contraintes linéaires et non linéaires. Rev. Stat.Appl. 23,
p. 37-57.CAZES P.
(1977).
Estimation biaisée et estimation sous contraintes dans le modèle linéaire. In : Premièresjournées
internationales«Analyse
des données etinformatique». Versailles, I.R.I.A.,
p. 223-232.CAZES P.
(1978).
Méthodes derégression :
larégression
sous contraintes. Cah. Anal.Données
3,
p. 147-165.CAZES
P.,
TURPIN P.Y.(1971). Régression
sous contraintes :application
à l’estima- tion de la courbegranulométrique
d’un aérosol. Rev. Stat.Appl. 19,
p. 23-44.DRAPER
N.R.,
VAN NOSTRAND R.C.(1979). Ridge regression
and James-Stein estimation : review and comments. Technometrics21,
p. 451-466.FONTON H.N.
(1995). Comparaison
des méthodes deprédiction
enrégression
linéaire
multiple. Gembloux,
Faculté universitaire des Sciencesagronomiques, 230 p.
HOCKING R.R
(1976).
Theanalysis
and selection of variables in linearregression.
Biometrics
32,
p. 1-49.HOERL
A.E.,
KENNARDR.W.,
BALDWIN K.F.(1975). Ridge regression :
somesimulations. Comm. Stat.
A4,
p. 105-123.HOERL R.W.,
SCHUENEMEYERJ.H.,
HOERL A.E(1986).
A simulation of biased estimation and subset selectionregression techniques.
Technometrics28,
p. 369- 380.JAMES
W.,
STEIN C.(1961).
Estimation withquadratic
loss. In :Neyman
J.(ed.).
Proceedings of the fourth Berkeley Symposium (vol. 1). Berkeley, University
ofCalifornia
Press,
p. 361-379.KUNDU
D.,
MURALI G.(1996).
Model selection inlinear regression. Comput.
Stat.Data Anal.
22,
p. 461-469.LAWLESS
J.F.,
WANG P.(1976).
A simulationstudy
ofridge
and otherregression
estimators. Comm. Stat.
A5,
p. 307-323.MILLER A.J.
(1990).
Subset selection inregression. Chapman
andHall, London, 229 p.
PALM
R.,
DAGNELIE P.(1993).
Tendancegénérale
eteffets
du climat dans laprévision
des rendementsagricoles
desdifférents
pays des Communautés eu-ropéennes. Luxembourg,
Office despublications
officielles des CommunautésEuropéennes,
128 p.PALM
R.,
IEMMA A.F.(1995). Quelques
alternatives à larégression classique
dansle cas de la colinéarité. Rev. Stat.
Appl. 43,
p. 5-33.SCLOVE S.L.
(1968). Improved
estimators for coefficients in linearregression.
J. Amer. Stat. Assoc.
63,
p. 596-606.SMITH
G.,
CAMPBELL F.(1980).
Acritique
of someridge regression
methods.J. Amer. Stat. Assoc.
75,
p. 74-91.THOMPSON M.
(1978a).
Selection of variables inmultiple regression.
Part I : areview and evaluation. Int. Stat. Rev.
46,
p. 1-19.THOMPSON M.
(1978b).
Selection of variables inmultiple regression.
Part II :chosen