R EVUE DE STATISTIQUE APPLIQUÉE
J EAN L ESAVRE
Une méthode rapide d’ajustement linéaire. La régression orthogonalisée. Son application à l’industrie du verre
Revue de statistique appliquée, tome 13, n
o2 (1965), p. 75-82
<
http://www.numdam.org/item?id=RSA_1965__13_2_75_0>
© Société française de statistique, 1965, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (
http://www.sfds.asso.fr/publicat/rsa.htm
) implique l’accord avec les conditions générales d’uti- lisation (
http://www.numdam.org/conditions). Toute utilisation commerciale ou im- pression systématique est constitutive d’une infraction pénale. Toute copie ou im- pression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
75
UNE MÉTHODE RAPIDE D’AJUSTEMENT LINÉAIRE
LA RÉGRESSION ORTHOGONALISÉE
SON APPLICATION A L’INDUSTRIE DU VERRE
Jean LESAVRE
Ingénieur
àla
Directiondes Recherches de la Compagnie de SAINT-GOBAIN(*)
1 - POSITION DU PROBLEME
Actuellement
lorsque
nous voulons étudier les variations d’une pro-priété
en fonction d’unecomposition,
nous avons à notredisposition
uneméthode basée sur
l’exploitation
d’unplan
factoriel. Onpeut,
soit réa- liser unplan factoriel,
soit lecompléter
derépétitions
dupoint
moyen et d’une"étoile"
sur les axespassant
par lepoint
moyen. Ces derniersplans
sont connus sous le nom de"Central composite
rotatabledesigns" .
Même si l’on se contente de
plans
factoriels dutype 2 ", qui
sont lesplus économiques,
on arrive très vite à un nombre d’essaisconsidérable ,
c’est-à-dire dans notre cas à la nécessité de fondre et d’affiner ungrand
nombre de verres.
Pratiquement
pour un verre à ncomposants,
iln’y
a que n-1
composants indépendants qu’on peut prendre
commefacteurs,
on a un minimum de 2 n-l essais à réaliser ;
pour 7 composants,
parexemple
on aurait26 =
64 verres àfabriquer.
C’estbeaucoup trop
si l’onne se trouve pas à un
point singulier,
mais dans le cas courantoù l’ap- proximation
linéaire estprobable
on devrait se contenter d’un nombre d’essais bien inférieur. A la limite si l’on veut déterminer n coefficients pour ncomposants
d’untype
de verre, onpeut
penser que n verres suf- firaient. En effet chacun sait que néquations
à n inconnues est un pro- blèmegénéralement
soluble. Si l’on aplus
de néquations
pour n incon- nues on se trouve dans le casgénéral
de larégression multiple.
II - REGRESSION LINEAIRE
Cette
technique
de larégression comporte
l’établissement d’une ma-trice dite matrice des corrélations. Elle est
symétrique.
Son inversionest le
point
délicat etpénible
d’une chaîned’opérations
par ailleurs assezsimples.
Pour
ajuster
uneéquation
de la forme :à un nuage de
points (yj, x1j, x2j, ... , xkj)
où j = 1, 2 ...
n et où n- 1 estsupérieur
àk,
on utilise la méthode des moindres carrés. Pour cela on établit la matrice decorrélations, qui
est d’ordre k + 1(matrice A)
et le vecteur colonne(B) :
* Chef du Centre de Calcul à l’Usine Verrière Expérimentale de CHALON sur SAONE
Revue de Statistique Appliquée. 1965 - Vol. XIII - N· 2
76
Matrice des corrélations vecteur colonne où tous
les L
sont parrapport
auxj.
On doit bien entendu calculer
également y2j.
Cette matrice
symétrique
recèlequelques pièges :
enparticulier
la
quantité
n dans ladiagonale
n’est pastoujours
de l’ordre degrandeur qui
serait souhaitable. Onpeut
facilement ramener cette matrice d’ordre(k+1)
à une matrice d’ordrek,
en utilisant les variables centrées. Il n’est du reste pas nécessaire de faire effectivement la translation pourplacer l’origine
aubarycentre
du nuage depoints.
La formuleclassique
avec le terme correctif du
type :
n x2 estparfaitement applicable. Quant
aux termes de la lère
ligne
ou de la lèrecolonne,
ils deviennent nuls - àl’exception
du termediagonal
n.On obtient une matrice A et un vecteur colonne
B, qui
ne contiennentplus
que des termes dusecond degré,
carrés dans ladiagonale, produits
croisés aux autres
places.
On a :
La
multiplication
deA-1,
matrice inverse, par le vecteur colonneB
donne les coefficients dela régression
linéaireb , b ,
... b .Quant
à a,c’est
la moyenne desy..
III - REGRESSION ORTHOGONALISEE
On voit tout de suite
qu’un système
de valeursnumériques
tel que toutes les sommes deproduits
croisés soient nulles nous faciliterait à l’extrême la tâche de l’inversion de lamatrice, qui
serait alors une ma-trice
diagonale.
Or de telssystèmes
existent : ils sontfournis,
parexemple,
par latechnique
desajustements polynomiaux
par la méthode despolynômes orthogonaux.
Pour le butprécis
que nouspoursuivons
ilest à
peine
nécessaire derappeler
ce que sont lespolynômes orthogo-
naux.
Par n
points
onpeut
enprincipe
faire passer une courbe dedegré
n-1 et
l’ajustement
d’une courbe dedegré k,
inférieur ouégal
àn-1, peut
se faire par
plusieurs
méthodes. L’une desplus
intéressantes estjus-
tement celles des
polynômes orthogonaux
deTchebycheff,
que les statis- ticiens connaissent bien à la suite des travaux de Ronald Fisher.Revue de Statistique Appliquée. 1965 - Vol. XIII - N 2
77
Concretement,
la méthode suppose que les n observations sontéqui-
distantes sur l’axe des
abscisses,
etqu’elles
sont deplus
centrées surl’origine.
On doit commencer par lespolynômes
dedegrés
lesplus
bas . Ainsi nous rencontrons :n est le nombre total de
points auxquels
on veutajuster
une moyenne,une formule
linéaire, puis quadratique, puis cubique,
etc..L’expression
despolynômes orthogonaux
secomplique singulièrement
dès que k s’élève.Il existe une relation de récurrence entre
03A6k+1
et03A6k
cequi simplifie
leschoses - mais nous n’avons nul besoin de connaître ces
polynômes.
Pourcalculer le coefficient à affecter au
polynôme 03A6k(x)
on se sert de tablesdonnant
kk,
et une collection de n valeursnumériques
formant enquelque
sorte un vecteur de
l’espace
à n dimensions. On fait leproduit
scalairede ce vecteur par le vecteur
expérimental (YI, Y2’ y3"
...yn),
et on divisele résultat par le carré du vecteur - valeur
qu’on
trouve aussi dans latable - pour obtenir le coefficient du
polynôme 03A6k.
Cette méthode des
polynômes orthogonaux permet également
le calculdes sommes de carrés dues aux effets
linéaire, quadratique, cubique,
etc .et c’est là son
principal
intérêt enstatistique appliquée.
Pour cela on élèveau carré le
produit
scalaire(vecteur
de la table x vecteurexpérimen- tal)
et l’on divise par le carré du vecteur de la table. De cettefaçon
on sait la fraction de la variance des y
expliquée
par l’effetlinéaire,
l’effetquadratique,
etc..La détermination du coefficient d’un
polynôme
dedegré k,
ou de lasomme de carrés affectée à l’effet de ce
polynôme,
estunique
et inva- riable. En raison del’orthogonalité
despolynômes
et des vecteursqu’on
en
tire,
elle n’est pas influencée par les autresdéterminations,
pour desdegrés
inférieurs ousupérieurs.
Autrement dit ondispose
avec cespoly-
nômesorthogonaux
d’une méthodepermettant,
dans unajustement polyno- mial,
le calcul sélectif etindépendant
ducoefficient,
ou de la somme decarrés,
à attribuer aupolynôme
dedegré
K.Pour nous, ce
qui compte,
ce sont ces tables donnant les n vec-teurs
orthogonaux
dansl’espace
à n dimensions. L’un de ces vecteurs est la lère bissectrice(1,
1, 1, ...1) ;
; il est sans intérêt pour nous . Mais les(n- 1)
autres vecteurs forment unsystème
tout trouvé de valeursnumériques
ordonnées telles que leurproduit scalaire, 2:xl, . X2j =
0par
exemple,
seratoujours
nul. Nous avonsdonc,
avec cestables,
unrépertoire
de valeursnumériques
tel que toutes les sommes de leurs pro- duits croisés soient nulles. Une transformation linéaire conservant cettepropriété,
il nous serapossible d’ajuster
nos facteurs aux niveaux dési-rés. Et nous obtenons un
plan d’expériences,
assezsimple
àréaliser,
etdont on pourra, presque sans
calcul,
tirer une formule linéaire. Eneffet,
la matrice des corrélations sera une matricediagonalisée,
donc facile à inverser ; cettediagonalisation
étant obtenue parl’emploi
de vecteursorthogonaux,
nous donnons à ceplan
trèsparticulier
le nom derégression orthogonaliseé.
Revue de Statistique Appliquée. 1965 - Vol. XIII - N’ 2
78
Un
exemple,
sansdoute,
fera mieuxcomprendre
lesparticularités
de la méthode.IV - EXEMPLE
PRATIQUE
DE REGRESSION ORTHOGONALISEE Nous le prenons bien entendu dans l’industrie du verre. Et nousnous excuserons de ne pas le donner totalement en clair. Les
composi-
tions sont
plus
ou moinssecrètes, plus
ou moins brevetableségalement.
Le
plan
concerne 10 verres, 9 verres + 1 verre moyen, compo- sés de silice et de 6 autrescomposants,
que nousappellerons A, B, C, D, E,
F, toutsimplement.
Lasilice,
comme c’est asseznaturel,
est choisie comme facteur debouclage
à 100% ;
laquantité
de silice est donc liée àA, B, C, D, E, F,
par la relation : S = 100 -(A+B+C4D+
E+F).
On établit leplan
sanss’occuper
de la silicequi
est obtenue par différence. Nous voulons un nuage de 9 verres. Nous prenons donc le tableau des vecteursorthogonaux
pour n =9,
et nous obtenons le ta- bleau I. Ce tableau est celui durépertoire
à unsigne près :
en effeton
peut changer
tous lessignes
d’unvecteur,
on obtient le vecteur op-posé, qui
a les mêmespropriétés d’orthogonalité ;
c’est ce que nousavons fait pour
03A65.
L’affectation despolynômes orthogonaux
aux com-posants peut
se faire dans un ordrequelconque.
TABLEAU N° I n=9
Limites de
à
Les limites sont
approximativement
connues. On aura souvent avan-tage
à les fixer de tellefaçon
quel’ajustement
linéairepuisse
se fairesans traîner
trop
de décimales. On remarquera que la somme des pro- duits croisés deux à deux de 2 colonnes esttoujours
nulle : c’est cela lapropriété d’orthogonalité.
Elle est conservée par une transformationlinéaire,
cequi
nouspermet
doncd’ajuster
noscompositions
aux limites désirées. Parexemple :
03A63
et D - 14 doitreprésenter 4, 6
et +14 doit
représenter
7, 4Revue de Statistique Appliquée. 1965 - Vol. XIII - N- 2
79
Ces deux
points
suffisent à établir la transformation linéaire. Il y a 6 transformations linéaires àeffectuer,
c’est assezfastidieux,
mais sansdifficultés. Par différence on trouvera la teneur en Si02
(silice)
dechaque
verre.
Chaque
verre voit maintenant sacomposition représentée
dans cesystème
par uneligne.
On obtient le tableauII, complété
par un verre moyen.TABLEAU II
Ainsi nous avons
pris
laprécaution
defabrtquer
des variables in-dépendantes (aux
erreurs decomposition près)
et ledépouillement
desrésultats sera très
simplifié, puisque
de cettefaçon
la matrice des cor-rélations est devenue
diagonale,
donc inversible. La variable y a les va-leurs
indiquées
à la dernière colonne du tableau II. C’est cettequantité
que nous voulons relier par une formule linéaire aux teneurs en divers
composants.
Tout d’abord si l’on
prend
les 10 termes de y, on obtient une mo-yenne de
56,
20 et une somme de carrés des écarts de609, 60, qu’il
vanous falloir
répartir
dans uneanalyse
de variance. Si l’onprend
9 termes(exclusion
dupoint
moyen,N° 8310)
on obtient une moyenne de56, 33
etune somme de carrés des écarts
qui
est :608,
00. Ladifférence,
soit1, 60, représente
la variance entre lepoint
moyen"théorique"
c’est-à-dire en fait entre le
point
moyen des 9 verres et lepoint
moyenexpéri-
mental
(verre
N°8310).
Si cette variance étaittrop forte,
on serait amené àsuspecter
la valeur del’ajustement
par une formule linéaire.Revenons à notre
"nuage"
de 9points.
On n’a pas utilisé03A66
et03A68,
mais dans le
dépouillement
ces 2 vecteurs vont nouspermettre
de cal-culer une variance de
dispersion -
avec 2degrés
de liberté.La matrice de corrélations se
présente
ainsi réduite à sadiago-
nale :
29, 40 (A)
et1980, 00 (Dispersion 03A66)
9, 36 (B) 12870, 00 (Dispersion 03A68) 5,00 (C)
9, 90 (D)
voir tableau I4, 68 (E) 8, 58 (F)
Revue de Statistique Appliquée. 1965 - Vol. XIII - N’ 2
80
Ces
quantités
sontpurement
etsimplement
les sommes de carrésdes écarts relatives aux divers
composants,
et auxcomposants
fictifset
Il
s’agit
maintenant de calculer le vecteur de la corrélation entre y et les diversescolonnes, indépendantes,
du tableauII,
et du tableau Ipour 03A66
et03A68.
On obtient le vecteur, à la lère colonne du tableau III.TABLEAU III
En divisant le vecteur corrélation par les carrés
correspondants
dela
diagonale
de la matrice des corrélations(29, 40 puis 9, 36 etc.. )
onobtient les coefficients de la
régression
linéairedésirée,
sanss’occuper de 03A66 et 03A68, qui
sont fictifs.En élevant au carré les termes du vecteur corrélation et en divi- sant ce résultat par les éléments successifs de la
diagonale
de la ma-trice,
on obtient les sommes decarrés, qui
sont d’ailleurs ici des va-riances,
tous lesdegrés
de liberté étantégaux
à l’unité(1
pour l’effetlinéaire,
1 pour l’effetquadratique,
1 pour l’effetcubique, etc.. ).
Si lescalculs sont
justes,
on a donc la vérification trèssimple :
leur sommeest
égale
à608,
00.Nous pouvons conclure à une variance résiduelle
qui
serait1/3
(1,60 + 4, 65
+3, 23) = 3,
16 avec 3degrés
de liberté. On voit alors que lescomposants A,
B et F sontsignificatifs
au niveau 1%,
C estsigni-
ficatif au niveau 5
%,
D estsignificatif
au niveau 10%.
Onpourrait
enprincipe négliger (E).
Mais en fait nous avons fait ici un travail
d’ajustement mathématique
bien
plus
questatistique.
Nous sommes à la recherche d’une formule li- néairereprésentant
tellepropriété
en fonction de lacomposition,
il nousimporte
peu que certains coefficients soient trèsfaibles,
ou nonsignifi-
catifs
statistiquement parlant.
Dans le cas
pris
commeexemple
nous aboutissons à la formule :ou a,
b,
c,d,
e, f sont des variables centrées :Revue de Statistique Appliquée. 1965 - Vol. XIII - N’ 2
81
V -
REMARQUE
SUR LES FORMULES LINEAIRES OBTENUES PAR RE- GRESSION DANS LE CAS DES PROBLEMES DE COMPOSITION BOU- CLANT A100 %
Il est assez
choquant
de voir une formule où la silice n’intervient pas,malgré
unpourcentage généralement
dominant. Si le mathématicien est heureux de se limiter aux variables réellementindépendantes,
le pra- ticienéprouve quelque gêne
devant cetteformule, qui
luiparaît
si peuobjective,
si peuintrinsèque, puisqu’elle
semblenégliger
uncomposant,
et même le
plus important.
S’il est vain
d’espérer
revenir à n variablesindépendantes,
onpeut
toutefois rétablir lasymétrie,
c’est-à-dire les ncomposants.
Onpeut
en effet faire une"translation"
de tous les coefficients sans affecter la for- mule.La formule est du
type y-Yo =
a1X1
+ a2X2
+ ... +03B1n-1Xn-1,
oùXl X2... Xn-1, Xn
sont des variables centrées liées par la relation :Ajoutons
latranslation j3 (sur
les a , sans oublier On= 0)
On obtient :
qui
estéquivalent
à :le second
membre, malgré
les apparences, nedépend
pasde 03B2, puisque
le coefficient
de P
estidentiquement
nul. On a donc une infinité de for- muleséquivalentes.
Nous en choisissons une, en nousimposant
une con-dition : que le vecteur
(03B11 + 03B2) (03B12 + 03B2) ... (03B1n-1 + 03B2) (03B2)
soit delongueur minimum,
parexemple.
On retrouve alors une formulecomplète
etunique,
en faisant :
qui
est non seulement la condition delongueur
minimum mais aussi celle pour obtenir un vecteur de somme nulle.Dans notre
exemple :
d’où :
Revue de Statistique Appliquée. 1965 - Vol. XIII - N’ 2
82
Ici le coefficient de s est effectivement très
minime,
mais il n’en est pastoujours
ainsi. On vérifiera que la somme des coefficients est bien nulle.VI - CONCLUSION
Nous pensons tenir
là,
une méthode trèssouple,
trèspuissante,
trèséconomique.
On
peut
en effet la restreindre à n’êtreplus qu’une
méthoded’ajus-
tement
rigoureux,
sans conserver aucundegré
de liberté pour l’erreur : alors pour n coefficientsréels,
n-1 facteursindépendants,
il suffit de nessais,
c’est-à-dire n verres.On
peut
au contraire tout comme pour les"central composite
rota- tabledesigns" amplifier
leplan
enl’agrémentant
derépétitions
dupoint
moyen et de
points
sur les axespassant
par lebarycentre
du nuage.Quant
audépouillement
de ceplan d’expériences
il devient vraimentenfantin, puisque
nous avons su élaborer par un choixjudicieux
des ni-veaux des facteurs une matrice
diagonale,
directement inversible.REFERENCE
BIBLIOGRAPHIQUE
M. G. KENDALL - THE ADVANCED THEORY of STATISTICS - Vol. II - Edition 1961 - pages 356 et
suivantes,
sous le titre : ORTHOGONAL REGRESSION ANALYSISRevue de Statistique Appliquée. 1965 - Vol. XIII - N’ 2