R EVUE DE STATISTIQUE APPLIQUÉE
H. C. H AMAKER
De l’analyse à régression multiple
Revue de statistique appliquée, tome 10, n
o1 (1962), p. 23-48
<http://www.numdam.org/item?id=RSA_1962__10_1_23_0>
© Société française de statistique, 1962, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.
sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les conditions générales d’uti- lisation (http://www.numdam.org/conditions). Toute utilisation commerciale ou im- pression systématique est constitutive d’une infraction pénale. Toute copie ou im- pression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
23
DE L’ANALYSE A RÉGRESSION MULTIPLE (1)
H. C. HAMAKER
Laboratoires de recherche Philips -
EINDHOVEN(Pays-Bas)
RESUlfE
Les sommes des carrés associés aux variables
indépendantes
dans une
équations à régression multiple dé penden t
de l’ordre danslequel
ces variables sont introduites. Deux méthodes ont été pro-posées
dans les écrits sur laquestion
pourpallier
cetinconvé-
nient : lasélection progr-esstue
ou l’éliminationrégressive.
Avec la
sélection progressive
les vartablest ndépendantes
sontintroduites par stades
successifs.
L’ordre n’est pasprédétermtné
mats
à chaque
stade la variableprise
en suivant est cellequi
pro- duit laplus forte
réduction du total résiduel des carrés de lavariable
dépendante.
Avec
l’élimination régressive
par contre, nous commençons parl’équation
derégression complète
et en él iminons les variablesindépendantes
dans l’ordre danslequel
ellesproduisent
lesplus faibles orientations
du total résiduel des carrés.Cet article décrit un
plan
de calculsimple
etpratique qut peut s’appltquer
aux deux processus. Pour lasélection progressive,
nous commencons par la matrice des
produtts,
et pourl’éliminatton rétressive
nous travatllonsà part ir
de la matrice tnverse.De
plus,
cestechniques
sontappliquées à
diversexemples pratiques af in
de démontrer les résultatsauxquels
elles aboutis-sent et les
écuetls
que l’on peut rencontrer. jI INTRODUCTION
Avec la
régression multiple
tellequ’on l’applique habituellement,
les variablesindépendantes
sont introduites selon un ordre fixé à l’avance :Xl, X2, X3,
... Pour estimerl’importance
relative des variables successives ,nous calculons les sommes des carrés dus à
Xl, X2 après Xl, X3 après Xl
et
X2,
etc, et nous les comparons alors au carré résiduel moyen.Cette
technique
a le gros inconvénient de fairedépendre
lesproduits
des carrés associés à
Xj, X2, X3
de l’ordre danslequel
ces variables sontprises,
et comme nous le verrons ilpeut
fort bien arriver que notreopinion
sur
l’importance
relative des variablesindépendantes
soit radicalement faussée(1) Communication présentée au Séminaire sur les
Applications
Industrielles de la Statis- tique - Paris, 4 et 5Septembre
1961.Revue de Statistique Appliquée. 1962 - Vol. X - N’ 1
24
lorsqu’on
lesinterchange.
Le but de cet article est la mise aupoint
etl’application
d’une méthodequi
élimine cet inconvénient, au moins dans unelarge
mesure.Le
principe
de base estsimple.
Si parexemple
nous avonsquatre
variables
indépendantes, Xi, X2, ’x 31 X4,
nous les essayons d’abord chacuneen
première position
et vérifionslaquelle
d’entre ellespossède
laplus
grossesomme de carrés. Cette variable est alors maintenue en
premier
dans notreéquation
derégression
et toutes lescomposantes qui
lui sontproportionnelles
sont alors éliminées de Y et de toutes les autres variables
indépendantes .
Nous
procédons
alors de la même manière avec lesrésidus ;
nouscherchons , parmi
les variablesqui
restent cellequi
a laplus
forte somme de carrés . Puis nous continuons, en introduisant àchaque
stade la variableindépendante qui, parmi
cellesqui
restent, donne laplus
grosse somme de carrés. Nousdénommerons ceci la méthode de sélection
progressive (forward selection)
des variables
indépendantes
par ordred’ importance
décroissante.Cette idée n’a rien de nouveau, et le
présent
article neprétend
doncpas à
l’originalité.
Lapremière
relationqui
nous soit connue remonte à unarticle de Horst
(1934). Quelques
articlesplus
récents sont notés dans la liste finale de références. Laplupart
de ces articles necomportent qu’un exemple numérique
àl’appui
del’argumentation théorique.
Cetteargumentation
elle-même
porte
sur laquestion
de décider par des critèresstatistiques
combien et
lesquelles
de variablesindépendantes
doivent être retenues dansl’équation
derégression.
Ci-après,
nous n’aborderons pas ceproblème.
A notre avis, du moins dans lesapplications industrielles,
laquestion
de la détermination des va-riables
indépendantes
à retenir et de leur nombre est unproblème plus
tech-nique
questatistique.
Nous pouvons fort bien exclure une ouplusieurs
variablesindépendantes
dotées designification statistique,
parcequ’elles
ne contribuent que fort peu à améliorer ou à faire cadrer la variabledépendante
observéeavec la valeur calculée par
équation
derégression,
et parce que nous consi- dérons que lasimplicité
de cetteéquation
est bienplus importante
que lasignification statistique.
De même, nous pourronspréférer
la variableX3
bien
qu’elle
ait un peu moins designification
queXl
ouX2,
parce quel’expé-
rience
passée
nous auraappris
queX3
est la variable laplus importante techniquement.
Un autre
problème qui
ne retiendra pas notre attention consiste à savoirquel
est le processus de calcul leplus
commode. Latechnique
de base estla réduction
systématique
de la matrice desproduits
croisés tellequ’elle
estexpliquée
au tableau 2.1. Cettetechnique
est la même que celle décrite auchapitre
5 du livre de Dubois(1957).
Enconjonction
avecelle,
nous avonsutilisé le
plan
de calculs de la méthode Doolittle telqu’il
estproposé
par Wishart et Metakides(1956)
que nous avons trouvé à notregoût.
Aufond,
tous les programmes de calcul
d’équations
derégression multiple reposent
sur les mêmes
opérations
de base bien que l’ordre d’exécution en soit variable.Si nous
préférions
la méthode de la racine carrée(Dwyer 1945)
ou l’utilisa-tion de la matrice des corrélations et du coefficient de corrélation
multiple ,
au lieu de la matrice des sommes des
produits croisés,
lesplans
de calculscorrespondants pourraient
facilement être modifiés defaçon
à y inclure la sélectionprogressive
des variables.La sélection
progressive
n’aboutit pas nécessairement au meilleur choix . Parexemple,
si nous essayons toutes lesCi
combinaisonspossibles pouvant
Revue de Statistique Appliquée. 1962 - Vol. X - N" 1
25
être formées à
partir
de 6 variablesindépendantes,
nous pouvons trouverparmi
celles-ci des combinaisons d’uneplus
faible somme résiduelle des carrés que lejeu
des 3 résultant de la sélectionprogressive.
Cecirisque
d’arriver en
particulier lorsque quelques-unes
des variablesindépendantes
sont en étroite corrélation. Un
exemple
est discutéau §
7.L’alternative est la
technique
d’éliminationrégressive (backward
elimi-nation)
des variablesindépendantes.
Nous débutons avecl’équation
derégres-
sion
complète
contenant toutes les variablesindépendantes ; puis
nous annu-lons ces variables une à une dans l’ordre où elles
produisent
lesplus
faiblesaugmentations
de la somme résiduelle des carrés. Il se trouve que la mêmetechnique
de calcul que celle de la sélectionprogressive peut servir,
à condition de travailler avec l’inverse de la matrice des sommes des pro- duits. Ceci ne sera pas discuté en détail mais illustré par unexemple
au§
8.Cette idée d’élimination
régressive
n’est pas neuve nonplus.
Elle nousa été
suggérée
pour lapremière
fois il y aplusieurs
années par notre col-lègue
G. C. Nielenqui
s’en était servi auCollège Agricole
deWageningën.
Les références écrites à cette méthode sont rares et
espacées ;
la méthode est mentionnée et utilisée parCanning (1959) qui
nousreporte
à deux textesde conférences inédits
(Effroysom (1955),
Bartov et Laird(1958)).
Certains de ces
principes
ontégalement
-étéincorporés
aux programmes modernes derégression
des calculatricesélectroniques.
L’un d’eux que nous trouvonsparticulièrement attrayant
est brièvement décritau §
9. Une compa- raison avec l’utilisation depolynomes orthogonaux
dans le cas d’une seule variableindépendante équidistante
est discutéeau §
10.Dans
l’ensemble,
nous considérons donc que la sélection d’unjeu
devariables
indépendantes
à retenir dans uneéquation
derégression multiple
est un
problème qui
nepeut
se résoudre avec l’aide des seules considérationsstatistiques.
Lesargumentations technique
etstatistique
doivents’épauler .
Les
principes
de sélectionprogressive
et d’éliminationrégressive
desvariables
peuvent
utilement servir deguides
mais ne fournissent pas une solution à touteépreuve. L’expérience
estindispensable
et leprincipal
propos de cet article est de fournir un ensemblepratique
et illustréd’exemples
fai-sant ressortir
quelques
difficultésauxquelles
onpeut
se heurter dans la pra-tique.
II -
TECHNIQUE
DE CALCUL POUR LA SELECTION PROGRESSIVEEvidemment,
latechnique
de calcul est différente de la coutume usuelle . La méthode sera illustrée par unexemple emprunté
à un article de Kramer(Clyde
Y. Kramer :Simplified computations
formultiple regression.
Indus-trial
Quality
Control 13, n° 8, Fev. 57 : 8 à11).
Les sommes desproduits
pour son
problème
sont données au stade I du tableau 2.1. Ce sont lessommes de
produits corrigées.
Kramer ne donne pas les sommes des pro- duits brutes. Onpeut
aussi bienpartir
des sommes brutes comme il seradémontré
au §
3.Dans son
article,
Kramer utilise des variables transforméesXi = 10mi Xi,
les
exposants
miayant
étédéterminés,
selon une méthodeproposée
parDuncan et
Kenney,
defaçon
que toutes les sommes de carrés soientcomprises
entre 0. 1 et 10. On
peut
alorsgarder
le même nombre de décimales tout aulong
des calculs. Kramer utilise 7 décimales et nous n’en avons conservé que4,
cequi
suffit à notre but actuel.Revue de Statistique Appliquée. 1962 - Vol. X - N’ 1
26
Dans tout cet article nous utiliserons les
symboles Xj, x 21
... Y pourles variables
originales
et xl, x2, ... y pour les variables codées.De
plus
nous introduisons la variablesupplémentaire
xo = 1 pour tenircompte
du terme constant del’équation
derégression.
Au tableau 2.1 nous commençons par xl. o, X2.0J ..., y.,, cequi signifie
que nous utilisons des variables codées etqu’à partir
de chacune le terme constantcorrespondant
à
xo (la moyenne)
adéjà
étécompensé.
Si nous considérons maintenant les
équations
derégression
la somme des carrés due à la
régression
est :pour
pour
et ainsi de suite. Ces sommes de carrés ont été inscrites à la dernière colonne du tableau 2. 1 Stade I. Il-en ressort que c’est
x3 . o qui
a laplus
grossesomme de carrés, et pour cette raison,
après
la constante xo, nousprendrons x3
comme variableindépendante
suivante dans notreéquation
derégression .
Nous éliminons donc
x3.,
dey.0
et des variablesindépendantes
c’est-à-dire que nous
remplaçons
etc, ou
bY3.0’ b 13. 0’
... · sont les coefficients derégression
obtenus par la méthode des moindres carrés. · Nous avons alors :etc, si bien que les sommes des
produits après
élimination dex3.0 peuvent
être calculées très
simplement.
A cette fin nouscomplétons
la colonne et larangée
pourx3.0
au Stade I et nous obtenonsRevue de Statistique Appliquée. 1962 - Vol. X - N’ 1
27 Tableau 2. 1
Sélection
progressive
des variablesindépendantes ;
données
d’après
C.Y. Kramer(1957)
Stade I
Sommes des produits originaux
56 degrés de liberté
Stade II
Sommes des produits après élimination de
x3
Stade III
Sommes des produits après élimination de
x3’ xl
Stade IV
Sommes des produits après élimination de x3’ xl’ X2
Stade V
Résidus après élimination de x3 , xl , X2" X4 Carré moyen résiduel
0,0641/52 =
0,0012Revue de Statistique Appliquée. 1962 - Vol. X - N’ 1
28
.
etc. Ces nouvelles sommes de
produits
constituent le stade II du tableau2. 1 ;
les calculs sont de naturesimple
etpeuvent
être achevés en uneopération
sur une machine à calculer
électrique
de bureau.Nous pouvons maintenant nous occuper du second stade exactement de la même manière. La somme de carrés
correspondant
à xid’après x3
estdonnée par
Cette valeur ainsi que
SS 2.03
etSS4.03
est inscrite à la dernière colonne du Stade II. Nous voyonsqu’en
secondeposition
x a laplus
forte somme decarrés et nous
entreprenons
d’éliminer cette variable enpassant
du Stade IIau Stade III exactement de la même manière que pour passer de I à II.
Le contrôle des calculs est effectué d’une
façon
bien connue. Les don-nées inscrites dans la colonne
"Contrôle"
sont les sommes desrangées
dansla matrice
complète
des sommes desproduits.
Ainsi dans le stade II parexemple
on aet ainsi de suite.
Si,
en allant d’un stade ausuivant,
cette colonne"contrôle"
est réduite par les mêmesopérations
que les autres colonnes dutableau,
des contrôles réduits doivent êtreégaux
aux sommes derangées
de la matrice réduite . Nous constatons ainsiqu’à chaque
stade nous obtenons la somme decarrés maximale en introduisant les variables
indépendantes
dans l’ordrex 3
1xl,
x 2’x4- Le tableau 2.2 contient une vue d’ensemble des sommes de carrés associées à la variable àchaque
stade de calcul etprésentées
dans l’ordre donné.Tableau 2.2
Somme des carrés pour
X1’ xi, x2 et x4
au stade successifUn tableau de ce genre contient des
renseignements
révélateurs. Nous constatons parexemple qu’au
StadeI, x3
’xi etx2 ont
tous trois des sommesde carrés assez élevées, mais que celles de
xi
etx2
sont considérablementRevue de Statistique Appliquée. 1962 - Vol. X - N. 1
29
réduites au Stade II. Ceci ne
peut
être dûqu’au
fait quexi
etx2
sont tous"
deux en corrélation étroite avec
x3 ;
une bonnepart
de la variabilité de ypeut s’expliquer
par chacune de ces variables.La somme totale des carrés pour les
quatre
variablesindépendantes
est :dont le montant
0,3750
+0,0602 = 0,4352
peut
êtreimpliqué
àx3
etxi
seuls.Evidemment,
x4 est sansimportance
etpeut
être laissé de côté. Onpeut
se demander six2
devrait fairepartie
ounon d’une
équation
derégression.
Comparée
aux carrés moyensrésiduels,
laplus petite
somme de carrésassociée à
x2
au tableau 2. 2(0, 0102)
a unesignification statistique
au niveaude 1
%.
Cecipeut
nous autoriser à conserverx2
comme variable essentielle del’équation
derégression.
Par contre, si nous incluons
x 2’ l’écart-type
résiduel est de0,035,
etsi nous le laissons de côté elle est de
0, 037.
D’unpoint
de vuetechnique
le
gain
deprécision
très faible nepeut
pasjustifier
lescomplications qu’en-
traîne un terme
supplémentaire
dansl’équation
derégression.
Toutdépend
du but fixé pour cette
équation.
A notre avis unequestion
comme celle-cidoit être tranchée en fonction de considérations
techniques plutôt
que statis-tiques.
Kramer ne donne aucunrenseignement
surl’aspect technique
dontdépendent
ses données.Evidemment,
les calculs exécutés au tableau 2.3 sont très voisins deceux de la méthode
progressive
Doolittle habituelle. C’est afin de le démon- trer que nousreprésentons
au tableau III les résultats de cette méthode selon leplan
de calculsproposé
par Wishart et Metadikes(Biometrika 1953)
quenous avons trouvé extrêmement
pratique.
Nous avonslégèrement
modifié leur programme en ce sens que, en accord avec ce que proposeKramer,
y estcompris
dans les calculs comme la dernière variableindépendante.
Dal}s
ce programme, leplan
estdécomposé
en deuxmoitiés,
lapartie
droite contenant la
technique progressive
Doolittle et celle degauche
le calculdes coefficients de
régression.
Les calculs
progressifs
Doolittle sontreportés
in extenso : sous lessommes de
produits
inscrites dans lesrangées
1,3, 7,
12 et 18 nous trou-vons les termes de correction
successifs,
la solutionprogressive
Doolittleétant obtenue dans les
rangées
1,2, ;
5,6 ; 10, 11 ; 16, 17 ; 23. Quant
aux données des
rangées
1, 5,10,
16 et23,
ellespeuvent
être relevées immédiatement dans lesrangées indiquées
par des flèches au tableau 2. 1 sinous les reclassons dans l’ordre
x3, xl’
x2,x4. Ainsi,
au tableau 2.1 nous avonsdéjà
obtenu la solutionprogressive.
La différence est que les correc- tions successivesapportées
au tableau 2.3 aux sommes deproduits conjoin-
tement ne sont introduites
qu’une
par une au tableau 2.1. Leléger
surcroîtde travail ainsi causé
représente
leprix
del’avantage qui
nous est offert depouvoir
choisir chemin faisant l’ordre des variablesindépendantes.
Le calcul des coefficients de
régression
estparallèle
à celui de la solu- tionprogressive Doolittle,
et si nous combinons les deux sur une même pageRevue de Statistique Appliquée. 1962 - Vol. X - N 1
30 Tableau 2. 3
Exemple
de Kramer : Plan de calcul de Wishart et Mitakidescomme au tableau 2. 2 les calculs s’en trouvent
simplifiés.
Pour lesdétails,
le lecteur est
prié
de sereporter
à l’article de Wishart et Metakides.Les coefficients de
régression
sont donnés à larangée
dubas,
lessignes
étant inversés. Ainsi nous avons :Y.0 =
0, 3128x3.0 -0,6926 xi.0 - 0,2767 X2.0
+0,0184 X4.0 (2.1)
si nous incluons les
quatre
variables.Revue de Statistique Appliquée. 1962 - Vol. X - N 1
31
Si nous voulions laisser tomber
x4
parcequ’il
est sansimportance,
Jnous n’avons
qu’à
annuler les termes de correction de larangée
22 pour obteniroù
De même nous avons
si nous n’incluons que ces deux variables.
En
plus
duplan
du tableau 2 Wishart et Metakides donnent aussi unprogramme
simple
pour le calcul de la matrice de covariance descoefficients
derégression.
Nous n’enparlerons
pas ici.III - UN AUTRE EXEMPLE : L’ESTIMATION DU RENDEMENT EN ESSENCE DES PETROLES BRUTS -
On
peut
se demander si celareprésente
un réelavantage
d’introduire les variablesindépendantes
par sélectionprogressive.
Il ne saurait en êtredécidé sur la base de
l’unique exemple
traité ci-dessus. Nousprendrons
doncen considération dans ce
paragraphe
et les suivantsquelques
autresexemples empruntés
à des communications pour illustrer la conclusion àlaquelle
laméthode
peut
conduire. Ce faisant, nous nereproduirons
que la matrice dessommes de
produits
dont nous sommespartie
et les conclusionsauxquelles
nous sommes
amenés,
en laissant de côté les calculsnumériques
intermé- diaires.Nous commençons par un
problème qui
a servi à Hader etGrandage
en 1956 pour illustrer la
régression multiple.
Le tableau 3.1 A donne des
renseignements
sur les variables misesen
jeu
et le tableau 3.1 B sur la matrice de base de sommes deproduits
pour les variables codées
(voir
tableaux 3. 1 A etB).
Dans le
problème
de Kramer nouspartions
des sommes deproduits corrigées. Pourtant,
cela n’est pas nécessaire et dans leprésent exemple
nous
partons
des sommesbrutes,
en incluant le terme constant dansl’équa-
tion de
régression
par une variableXo =
1.L’ordre
d’importance
décroissante est :et le tableau 3. 2 donne les sommes des carrés pour les stades successifs . Un trait
remarquable
de cetexemple
est que dans l’ordred’importance
le terme constant
Xo
vient en dernier et est alorsparfaitement négligeable .
Habituellement le besoin d’un terme constant dans
l’équation
derégression
n’est
jamais
mis enquestion,
comme si c’était une condition àpriori.
Parexemple,
dans leuranalyse
de variance, Hader etGrandage
ne donnent que les sommes des carrés dexi
àx4
et ils laissentXo complètement
de côtéRevue de ,Slalis:ique Appliquée. 1962 - Vol. X - N 1
32 Tableau 3. 1
Données de base pour le
problème
dupétrole
brutA - Variables et
codage
B - Sommes de
produits
pour les variables codéesTableau 3. 2
Sommes des carrés des stades successifs pour le
problème
du tableau 3.1Revue de Statistique Appliquée. 1962 - Vol. X - N· 1
33
En fait, nous constatons
qu’un
terme constant n’est pas nécessaire . Les variations de ypeuvent
très biens’expliquer
par unplan
enxi,
x2,X3’
x4 passant
parl’origine.
Cecipeut
constituer unecaractéristique importante qui apporterait
un soutien considérable àl’équation
obtenue ou à sonexpli-
cation. Un des traits intéressants de notre méthode
d’analyse
est sans conteste,de révéler
qu’un
terme constant estsuperflu
dansl’équation
derégression .
On
peut
aussi conclure que dans notreéquation
derégression
finalenous devrions inclure
x4, x3
et soitxo, Xl ou X2.
Au troisième stade xi pos- sède laplus
forte somme de carrés mais celles de xo etx2
n’en sont pas loin. Nous devrions inclure une de ces trois variables et abandonner les deux autres ;ensemble,
ellescorrespondront
à une somme de carrés de0, 003
au
plus
et ceci est sanssignification statistique
et sansimportance technique .
Pour
l’équation
derégression
surx4, x3
etxl
nous avons obtenu :IV - UN PROBLEME DE FONDERIE -
Ce
problème,
dû à Moriceau(1954),
consistait à estimer letemps
nécessaire à la
production
d’unepièce
defonderie, d’après
des données concernant sesdimensions,
sa forme et lacomplexité
de sa fabrication.D’après enquête préliminaire,
il a été déduitqu’une description
satis-faisante de la relation recherchée serait
exprimée
par uneéquation
de laforme T =
Aa Bb Cc
..., où T =temps, A, B, C,
... =caractéristiques numériques
de fonderie et a, «’ b, c, ... =paramètres
inconnus. Il en décou- lait unproblème
derégression
linéaire entrelog
T et leslogarithmes
descaractéristiques
de fonderie. Finalement 6 variablesindépendantes
ont étéincluses dans l’étude selon la liste du tableau
4.lA ;
le tableau 4.1B donnela matrice des sommes de
produits corrigées ( 1 ) .
Pour le
problème
deMoriceau,
l’ordred’importance
décroissante et lasomme des carrés aux stades successifs sont
présentés
au tableau 4.1.Moriceau ne donne que les sommes
corrigées
desproduits
cequi
revient à dire que le terme constant
Xo
adéjà
été éliminé. Nous ne pouvonsdonc pas l’inclure dans notre recherche.
La contribution de
x6.o
et dex3.0
est nettement sansimportance
et cesdeux variables
peuvent
êtrenégligées.
Moriceau a abouti à la même conclu- sion par une méthode bienplus
recherchée. Enfait,
il apris
les 6 variablesindépendantes
une à une, enpaires,
parjeux
detrois,
etc., il a calculé les 63équations
derégressions
concevables ainsi créées et choisi finalement cellequi
donnait leplus petit
carré moyen résiduel. Nous sommes satisfaits de voir que latechnique
de sélectionprogressive
aboutit directement à la mêmeréponse.
---
(1)
La matrice tellequ’elle
est donnée à la page 71 de l’article de Moriceau comporteun certain nombre d’erreurs
typographiques.
Par exemple la somme de produitsXl X2
qui devrait être -6,574113 est inscrite comme -. 574113, et la sommeX3 qui
devraitêtre 24, 831676 est notée comme 94,831676. Heureusement, Moriceau donne également
les colonnes de contrôle, et certains articles de la matrice
principale
se retrouventdans d’autres calculs portés à la même page. Ceci nous a permis d’effectuer les cor- rections nécessaires.
Revue de Statistique Appliquée. 1962 - Vol. X - N" 1
34 Tableau 4.1
Données de base pour le
problème
de Moriceau concernant letemps
nécessaire à la fabrication d’une
pièce
de fonderie A - Variables etcodage
B - Sommes de
produits corrigées
pour les variables codéesTableau 4. 2
Ordre
d’importance
décroissante et somme des carrés pour leproblème
de fonderie de MoriceauRevue de Statistique Appliquée. 1962 - Vol. X - N" 1
35
Comme dans
l’exemple
de Kramer, on voit quex4, o , x6.0
etx
onttoutes, au
premier stade,
des sommes de carrés élevéesqui
sontréduites
à de faibles résidus
quand
on a tenucompte
dexl.o.
Ces trois variables doi- vent être toutes en étroite corrélation avecx 1.
Le cas de
x 5.0
estégalement
intéressant. La somme de ses carréspart
d’une valeur faible mais
augmente régulièrement.
Au stadeII, x5.0
est encoremoins
important
quex2.o,
mais au Stade III la somme des carrés pourx5.o
en arrive à
dépasser
celle dex2.o
au stadeprécédent.
Ce résultat n’est pas contradictoire, ilsignifie simplement
quex
estparticulièrement
efficacelorsqu’on
l’introduit enconjonction
avecxl.o
etX2.0.
Nous reviendrons sur cepoint au §
6.A nouveau se pose la
question
de savoirquelle équation
derégression
nous devrions finalement
adopter, xi.,
estresponsable
tout seul d’une sommede carrés de
4, 9172 ;
ensuitex2.0, x5.0’
etx4.,
sont tous à peuprès
de mêmeimportance,
mais ensemble ilsjustifient
une somme additionnelle de carrésne
dépassant
pas0, 4903. L’écart-type
résiduel est de0, 14
si nous utilisonsX1.0
seul et de0, 12
si nousemployons
uneéquation
avecxi.0-1 X2.0’ x3.0’
etX4.0,
Il sepourrait
bienqu’à
des finstechniques
uneéquation
basée surxi.0
tout seul soit suffisamment exacte. Nous pouvons
prédire
letemps
néces-saire à la fabrication d’une
pièce
de fonderie avec assez deprécision d’après
le
poids
de lapièce ;
les autres indices ne contiennentqu’une petite
propor- tion derenseignements complémentaires.
V - UN PROBLEME DE FABRICATION
CHIMIQUE -
Considérons maintenant
quelques
données résultant d’uneexpérience
sur un
catalyseur empruntée
à De Baun et Schneider(1957).
Comme l’article n’est pas facile à se procurer, les données
originales
sont
présentées
au tableau 5.1 ainsi que la matrice des sommes deproduits
brutes y
compris
les termesquadratiques
des variablesindépendantes.
Le
plan
del’expérience
n’était paspleinement équilibré,
et de ce faitles variables
indépendantes
ne sont pasorthogonales.
Deux variablesdépen-
dantes ont été observées : la durée de vie et le
degré
d’activité ducataly-
seur. L’un des
problèmes
était de faire cadrer une surfacequadratique.
Si nous considérons
YI
etY2 séparément
et que nous introduisons les variables par sélectionprogressive,
nous obtenons les résultats du tableau 5.2. Nous n’avons pas donné toutes les sommes de carrés pour les stades successifs, «’ mais seulement lesplus
fortes valeurscorrespondant
aux variablesportées
en haut des colonnes successives des tableaux2. 2,
3.2 et 4. 2.Dans les deux cas ces carrés moyens
indiquent qu’au
moins deux etpeut-être
trois des variablesindépendantes peuvent
êtreécartées ;
mais cene sont pas les mêmes dans les deux cas.
Y1 peut
très bien être décrit parune
équation
en X2, X 1 2
etX 2 2,
alors que pourY2
uneéquation
enXIX2’ X2
et
peut-être xf
suffirait. Si nous désirions retenir les mêmes variables pourY1
que pourY2, Xl
semblerait être le seulauquel
onpuisse
renoncer sansrisque.
D’habitude,
dans unproblème
commecelui-ci,
on essaie les termes linéaires et les termesquadratiques séparément
enjeu.
Nous nous deman-dons si cette
politique
est vraiment avisée. Parexemple
dans le cas deY2 ’ X 2 2
est nettement sansimportance
etX 1 2
n’a pas unesignification
évidente .Si nous essayons
X12,
@X 2 2
etX1X2 ·comme
un seuljeu
avec troisdegrés
deRevue de Statistique Appliquée. 1962 - Vol. X - N· 1
36 Tableau 5.1
Données
originales
et matrice des sommes deproduits
brutespour le
problème
decatalyseur
de De Baun et Schneider A - Donnéesoriginales
B - Matrice des sommes de
produits
brutesliberté,
cecipeut
nous induire à ne conserver les deuxpremiers
termes que parce que le dernier a une fortesignification.
Celacompliquerait
inutilementnos
équations.
Demême,
l’essai deXl
et deX2 ensemble
nousobligerait
àconserver
Xl qui,
au tableau 5.2,
est sansimportance
tant pourY,
que pourY2.
VI - LA NECESSITE DE CALCULS COMPLETS
Si nous introduisons les variables
indépendantes
par sélection progres-sive,
nous pouvons être enclins àarrêter,
disons au troisièmestade,
parcequ’aucune
des variablesqui
restent ne sembleplus
provoquer de réduction de la somme des carrésdigne
de considération. Cecipeut
toutefois êtretrompeur ;
ilpeut toujours
arriver que des variablesparaissant
sansimpor-
tance à un stade deviennent très
importantes
à un stade suivant. Ilpeut
êtreutile d’illustrer ce fait par un
exemple
extrêmereprésenté
au tableau 6.1 .Revue de Statistique Appliquée. 1962 - Vol. X - N’ 1
37 Tableau 5. 2
Ordre
d’importance
décroissante et carrés moyens pour leproblème
du tableau 5.1Nous constaterons,
d’après
le tableau 6.1Bqu’en
secondeposition
tantx 1
quex2
donnent des sommes de carrés faibles alorsqu’en
troisièmeposi-
tion les deux sommes des carrés sont
beaucoup plus élevées ;
ces deuxvariables ensemble sont
responsables
dans unelarge
mesure de la variabilité de y que chacune nepourrait expliquer séparément.
L’exemple
serapporte
aujeu
depoints
tracé à lafigure 6.1, X2
étantégal
àX 1 2.
Si nous prenonsXl seul,
nous essayons de tracer uneligne droite ,
et si nous prenons
X2 - X;
seul nous essayons de tracer uneparabole ayant
son sommet sur l’axe Y. Il devient de suite évident
qu’en
aucun des deuxcas on n’aboutira à une
équation
satisfaisante. Mais enemployant
à la fois Tableau 6.1Un
exemple typique
A - Sommes de
produits
brutes pour les données codéesB - Sommes des carrés pour
xi
etx2 après
élimination de XoRevue de Statistique Appliquée. 1962 - Vol. X - N’ 1
38
Figure
6. 1 - Illustration del’exemple
du tableau 6. 1.X
etX2 - X2
nous pouvons obtenir uneparabole
comme celle de lafigure
et
qui
cadre bien.Evidemment,
la situation illustrée par le tableau 6.1 et lafigure
6.1est un cas limite que l’on ne rencontrera pas souvent en
pratique.
Mais ilest là pour nous inciter à la
prudence.
Sur la base du tableau 3. 2 par
exemple,
nouspourrions
être enclin à mettre un terme à notreanalyse
au stade IV parce que les carrés moyens pourx2
etxo
sont sansportée
à ce stade. Il est toutefois concevablequ’après
avoir éliminé
x2 au
stade IV nous trouvions soudain unesignification
à xo austade
V, puisque x2
etxo
ensemble en ont une. Il est donctoujours
à conseil- ler depoursuivre l’analyse jusqu’à
ce que l’on ait tenucompte
de toutes lesvariables
indépendantes.
Les résultats que nous venons de discuter
expliquent également
lecomportement
des sommes des carrés pourx5
au tableau4.2,
surlequel
nous avons
déjà
attiré l’attention.VII - UN EXEMPLE DANS
LEQUEL
LASELECTION
PROGRESSIVE N’ABOU- TIT PAS A UN JEUOPTIMAL.
Il nous est fourni par Hald
(1952).
Nous n’enreproduirons
pas les données en détailpuisque
son livre se trouvepartout.
Son
exemple
serapporte
à la chaleur mise enjeu
lors du durcissement de ciment comme fonction de sacomposition.
Lesquatre
variablesindépen-
dantes sont :
Revue de Statistique Appliquée. 1962 - Vol. X - N’ 1
39
Hald a calculé toutes les
équations
derégression possibles
avec une ,deux,
trois etquatre
de ces variablesindépendantes.
On constated’après
ses données que la sélection
progressive
introduirait successivementxo, "4
et
xi
en tant que troispremières
variables avec une somme résiduelle de carrésSyy.014 = 74, 76,
alors que les variables xo, xi etx2 donnent
une sommerésiduelle de carrés de
Syy.012 = 57, 91.
Il faut sans doute s’attendre à ce que des difficultés de cet ordre sur-
viennent
lorsque
les variablesindépendantes
sont en étroite corrélation. Du moins c’était le cas dansl’exemple
de Hald. Lesquatre
variables sont lespourcentages
enpoids
de lacomposition
d’unciment ;
bien que leur additionne donne pas exactement 100
%,
nous constatonsd’après
les donnéesorigi-
nales fournies par Hald que la somme :
xi
+x2
+x3
+x 4
ne varie que de 95 à99,
si bien quen’importe laquelle
de cesquatre
variables est presque fonction des trois autres. En de tellesconditions,
la construction d’uneéqua-
tion de
régression
constituetoujours
unproblème
délicat.VIII - ELIMINATION REGRESSIVE
Comme nous l’avons
déjà expliqué
dansl’introduction,
l’éliminationrégressive
est une alternative à la sélectionprogressive.
Nous commençons parl’équation
derégression complète
et nous abandonnons les variables indé-pendantes
une par une selon l’ordre danslequel
elles donnent le moins d’accroissement à la somme résiduelle des carrés.A cette
fin,
nous pouvons suivre exactement le mêmeplan
de calculqu’au
tableau 2. 1 à condition departir
de la matrice desproduits
inversée. Onpeut
en faire la preuve au moyen des formules données aux pages 364 et 365 de l’article de Wishart et Metakides(1953).
Nous n’entrerons pas ici dans le détailthéorique,
mais nous illustrerons leprocédé
par unexemple
numé-rique - (Tableau 8.1).
Tableau 8.1
Elimination
régressive s’appliquant
àl’exemple
du tableau 2. 1. Les flèchesindiquent
les variables successivement éliminéesx4 , x2, Xl’ x3.
Stade I
(inverse
de la matrice du tableau2.1)
Revue de Statistique Appliquée. 1962 - Vol. X - N 1
40
Tableau 8.1
(suite)
Stade II
Stade III
Stade IV
Stade V
La matrice
portée
au tableau 8.1 comme Stade I est l’inverse de la matrice deproduits
du tableau 2.1, en haut. Cette matrice inverse a été calculée sur une calculatriceélectronique
à six décimales et arrondie par la suite à 4 décimales.Il convient de remarquer que la variable
dépendante
est incluse dans la matrice des sommes deproduits
et dans son inverse. Au tableau 8.1 l’élé- ment de la colonnemarquée 03BE2.134y
et le rangmarqué 03BE4.123y
est l’élément de la matrice inversequi correspond
à la somme deproduits
dex2.0
etx.. 0.
Autableau
2.1,
etc. Cette notationindiquait
que nous avions inversé la matrice de somme deproduits
contenantxi, x 2’ x3, x4
et y. De même la notation03BE2.13y au
stade IIsignifie
que nous avons inversé la matrice contenantxi, x 2’
Revue de Statistique Appliquée. 1962 - Vol. X - N 1