R EVUE DE STATISTIQUE APPLIQUÉE
J. L ESAVRE
Un exemple de régression linéaire : étude de la variation de la viscosité d’un verre en fonction de la température
Revue de statistique appliquée, tome 6, n
o3 (1958), p. 23-40
<
http://www.numdam.org/item?id=RSA_1958__6_3_23_0>
© Société française de statistique, 1958, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (
http://www.sfds.asso.fr/publicat/rsa.htm
) implique l’accord avec les conditions générales d’uti- lisation (
http://www.numdam.org/conditions). Toute utilisation commerciale ou im- pression systématique est constitutive d’une infraction pénale. Toute copie ou im- pression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
UN EXEMPLE DE RÉGRESSION LINÉAIRE :
Etude de la variation de la viscosité d’un verre en fonction de la température .1.
J. LESAVRE
Ancien élève de l’Ecole Polytechnique
Ingénieur de Recherches
àla Compagnie de Saint-Gobain, Chauny
etCirey
RESUME
La
régression,
etparticulièrement
larégression linéaire,est
une
technique simple,
bien connue des statisticiens : ellepermet d’ a jus te r
une dro i te derégression
à un ensemble de donnéesexpéri-
mentales
plus
ou moinsdispersées.
Ici nousl ’appl iquerons à un
pro- blème concret : variation de la viscosité d’un verre deformule
cou-rante (verre
plat étiré)
enfonction
de latempérature.
Chacun sait
qu’un problème
de ce genreimpose pratiquement
lesdeux variables suivantes :
1) -
logarithme
de laLviscosité,
2) - inverse de la
température
absolue.En
effet
dans un certain intervalle, assezétroit,
detempé-
rature on peut admettre une relation linéaire entre ces deux gran- deurs.
Dans un intervalle de
température plus étendu,
certaines don- néesexpérimentales
conduisaient àpremière
vue à 3 relations liné-aires
différentes,
déterminant 3 zones detempérature, séparées
par 2températures
detransformation,
environ +900°C et+1.090°C.
Ce
point
de vue était assez nouveau pourlégitimer
une étudecritique poussée
du sens à donner aux valeursexpérimentales.
Aussia-t-il Z été demandé au statisticien si les données
numériques
utile-24
Les 3 droites, tracées à vue,
peuvent
recevoir uneexpression analytique
rigoureuse : ce sont eneffet
3 casclassiques
derégres-
sion linéaire. Puis nous avons
fait
le calcul de toutes lesdiffé-
rences entre valeur
expérimentale
et valeur calculée. L’examen at-tentif
de cesdifférences
montrequ’elles
ne sont pas distribuées auhasard;
au cont ra i re let racé
d’une seule courbes’impose.
Hais, par un
changement
de variables, da à Yonsieur WATERMAN(Del ft, Hollande),
enprenant 1/T à une certaine puissance (ici 2,39),
il l est tout de même
possible
d’avoir encore unerégression
linéaire.Cependant
les mesures auxtempératures
lesplus faibles,
viscositésles
plus fortes,
s’écartentquelque
peu de la loi l inéaire trouvéeexpérimentalement.
L’article se termine par
quelques
considérations sur lapréci-
sion des mesures de viscosité
faites
en rotationuniforme ou par
re-tour
apériodique,
et sur leslégères différences qu’on
a pu consta- ter entre les 3 échant il lons de verre examinés.INTRODUCTION -
Tout d’abord une
première
remarques’impose:
tous lesphysiciens
saventque ce type
deproblème
est assezcomplexe,
et que les variablesqui permettent
la
description
duphénomène
ne sont ni la viscosité(11)
ni latempérature (en °C) ,
mais
1/
lelogarithme (décimal)
de laviscosité, (log )..
2/
l’inverse de latempérature
absolue(1/T)
Il y a de bonnes raisons
théoriques qui permettent
de penser que leloga-
rithme de la viscosité varie linéairement avec l’inverse de la
température
absolue .Cela semble se vérifier au moins dans de
petits
domaines detempérature.
Maissi l’on porte
lelog.
de la viscosité en fonction de1/T
ons’aperçoit
bien vite que dans ungrand
intervalle detempératures (+775°C
à+1. 250°C)
larégression
nesaurait être
unique
et linéaire. Pour remédier à cet inconvénient et chercher àconserver cette
linéarité,
on fait passer par l’ensemble despoints expérimentaux
3
segments
de droitequi déterminent
3 zones distinctes detempérature
et 2 tem-pératures
detransformation,
environ+900°C
et +1.090°C.
L’existence de ces
températures
de transition aurait desconséquences
degrande importance théorique,
maisjustement
cepoint
de vue est loin d’êtregé-
néral. Il
s’agit
donc de savoir si les donnéesnumériques expérimentales justi-
fient bien l’existence de ces 2
températures
de transition.DONNEES
NUMERIQUES
DE BASE -Ces données sont rassemblées dans le tableau I. Il y a donc 3 groupes d’es-
sais,
concernant chacun un échantillon de verre. Pour chacun de ces 3 essaisnous donnons la
température absolue,
laquantité
1.OOO/T, plus
commode que1/T,
et lelogarithme
de la viscosité du verre.Des
lignes
horizontales divisentce tableau entroisparties, correspondant
aux trois
segments
de droite tracés à vue. LesegmentA comprend
les viscosités faiblescorrespondant
à destempératures
élevéessupérieures
à +1.090°C;le seg-
ment B
comprend
les vi scosités moyennescorrespondant
à destempératures
com-prises
entre+ 1. 09 0° C
et+9 00° C;
enfin lesegment
Ccomprend
les viscosités fortescorrespondant
à destempératures
inférieures à+900°C.
(1) Communication présentée aux Journées d’Etude et de Discussion au Centre de Formation (Juillet 1957).
26
Les trois droites tracées à vue
peuvent
recevoir chacune leurexpression analytique rigoureuse.
Le calcul a étéindiqué précédemment :
on commence par calculer lebarycentre
despoints expérimentaux (x, y), puis
on calcule le coef- ficient b deregression
linéaire et enfinl’équation
de la droite y -y =
b(x - x).
Nous prenons commeunité des abscisses non pas
1/T,
mais1000/T qui
estplus
commode.Droite A : y =
10, 521
385 06 x -4, 170 733
Droite B : y =
12, 688
595 90 x -5, 770
786 Droite C : y =15,845
310 30 x -8,478
730Pour nous rendre
compte
si le tracé de ces droites estjustifié,
nous avonscalculé toutes les différences entre la valeur
expérimentale
et la valeur obtenue par la droite deregression.
La différence estpositive
si la valeurexpérimentale
surpasse la valeurcalculée,
elle estnégative
dans le cas contraire.Le
tableau
de ces différences est donné au tableau II. Lelong
dechaque
droite nous avons
rangé
les différences partempératures
décroissantes(1000/T
et
log 11
vont encroissant).
Tableau
ri II
28
Les colonnes de
gauche indiquent
lesdifférences,
les colonnes de droiteindiquant
la moyenne mobile basée sur 5chiffres
et faites de 2 en 2 seulement.Cette
taçon
de faireindique
clairement que les chiffresexpérimentaux
ne sontpas
rangés
au hasard depart
et d’autre de la droiteoptimum
calculée : il y a du"creux"
au milieu dechaque segment
de droite. Cettedisposition
estparticuliè-
rement sensible pour les éléments A et
C,
et encore très nette pour lesegment
B. Un schéma annexe met du reste cette courbure restante en évidence.
Il faut donc bien avouer maintenant l’échec de cette tentative : les données
expérimentales
nejustifient
pas le tracé de 3segments
dedroite,
mais bien le tracé d’une courbe dont la concavité esttournée
vers le haut.Est-il tout de même
possible
d’avoir uneregression
linéaire?PREMIERE TENTATIVE DE REGRESSION LINEAIRE -
Pour cela il faudrait faire un
changement
de variable sur l’axe des abscis-ses. Au lieu de
porter
en abscisse laquantité 1/T
nous allons à la suite de M . WATERMAN(Delft) prendre
laquantité 1/Tx ;
x est unexposant numérique
que l’on va déterminer parapproximation.
Pour cela cherchons le coefficient
qui permettra d’aligner
lesbarycentres
des
points
formant lessegments
de droiteA,
B etC,
ce groupage en valant un autre.Rappelons
les coordonnées de ces 3barycentres :
Droite A : X -
0, 695 212 y = 3, 143 86
Droite B : x =
0,794926 y = 4,31571
Droite C : x =
0, 899
756- 5,778
81L’exposant
x de Watermanqui permet l’alignement
de ces 3points
est2,
34 .Notez bien que c’est
2,
34 et non2,
33 ou2,
35.La transformation des abscisses nous a
permis
de tracer un nouveau gra-phique qui
nous a paru assez satisfaisant aupremier
abord : lespoints expéri-
mentaux
s’alignaient bien,
sauf ceux obtenus pour lestempératures
lesplus
bas-ses.
Nous avons alors décidé de calculer les
équations
des 3 droites corres-pondant
aux 3 essais sur le verreplat
étiré. Dans le nouveausystème
de coor-données les
équations
de ces droites sont les suivantes :lère droite : y =
7, 796. 725. 2 (x) - 0,043.551.178
2ème droite: y =
7, 813. 400. 7 (x) - 0,050.272.561
3ème droite: y =
7, 761. 388. 7 (x) - 0,031.902.470
Comme on le
voit,
lespentes
des 3 droites et leurs ordonnées à11-origine
sont
équivalentes.
Onpeut
donc établirl’équation
d’une droite moyenne, cequi
veut dire en d’autres termes
qu’il n’y
aurait pas de différencessignificatives
entreces 3 essais faits sur 3 échantillons de verre
plat
étiré. Nous verronsplus
loince
qu’il
faut aujuste
penser de cettequestion.
On arrive ainsi à
l’équation
de la droite moyenne : Droite moyenne : y =7,
790. 504. 9(x) - 0,041.908.736
Comme l’avons
déjà
fait pour lessegments
de droiteA,
B etC,
30
avons calculé toutes les différences entre les valeurs
expérimentales
et les va-leurs obtenues par cette droite de
régression
moyenne.Le tableau de ces 72 différences est donné au tableau III.
Tableau
NDHI (première régression)
Tableau de toutes les différences
rangées
partempérature
décroissanteexprimées
en millième d’unitélogarithmique
Les différences sont
rangées
partempératures
décroissantes(1000/T
etlog 11
vont encroissant).
On voit tout de suite que là encore nous aboutissons àune
impasse :
la droite derégression
ne convient pas. Dudébut,
presquejus- qu’à la fin,
les différencespassent
dupositif
aunégatif
avecrégularité
pour re- devenirbrusquement positives
à l’extrême fin de ladroite,
du côté destempé-
ratures faibles. Les différences ne sont donc pas distribuées- au hasard de
part
et d’autre de cette droite moyenne de
regression;
il faut donc l’abandonner.Toutefois ces calculs n’ont pas été
inutiles,
ils mettent en évidence unediscontinuité dans le
phénomène analysé.
D’unefaçon,
hélasarbitraire,
nousestimons
qu’il
faudraitplacer
cette discontinuité vers+848°C.
DEUXIEME TENTATIVE DE REGRESSION LINEAIRE -
L’existence de cette discontinuité nous interdit
l’espoir
de trouver une re-gressionlinéaire
pour l’ensemble des 72 valeurs de viscosité : aussi allons-nous maintenant laisser de côté les douze mesures de viscosité faites à destempéra-
tures inférieures à
+848°C,
et nous allons chercher un nouveauchangement
devariable
permettant
d’établir uneregression
linéaire pour les 60 mesures faites à destempératures supérieures
à+848°C (+ 1121°K).
Comme
précédemment,
enalignant
3points
obtenus par groupage on ob- tient un nouveau coefficient x de Watermanégal
à2,
39. Ungraphique
nous amontré que les
points expérimentaux s’alignaient remarquablement
bien. Nousavons alors calculé les
équations
des 3 droitescorrespondant
aux 3 essais sur leverre
plat
étiré. Dans le nouveausystème
de coordonnées(puissance 2, 39)
leséquations
de ces droites sont les suivantes:lère droite
(18 points) :
y =10, 826
238(x)
+0, 074
2892ème droite 19
points) :
y =10, 821
183(x)
+0, 073
88332
Ces trois droites se
fondent, semble-t-il,
en une droite moyenned’équa-
tion y =
10, 819
100(x)
+0,
0073 574.Nous avons calculé toutes les différences entre valeurs
expérimentales
etvaleurs obtenues à
partir
de la droite deregression
moyenne.Le tableau de ces 60 différences est donné au tableau
nON.
A la suite deces différences nous avons
également
calculé les 12 différences pour les mesures que nous avionsnégligées.
Il se trouve que ces différences sont toutespositives , ce qui
confirmebien notre façon de voir :
il y a là une discontinuité. La moyenne mobile sur 5 chiffres consécutifsindique
que les écarts sont àpremière
vue sta-tistiquement répartis
autour de la droite derégression,
saufjustement
du côtédes
températures
lesplus
faibles.Quelle
est la cause de cet écart? Nous ne sommesguère
en mesure deledire voulant rester dans notre rôle de statisticien. Toutefois si l’on se
reporte
aux documents
originaux (non figurés ici)
nous pouvons croire que celéger
écartserait
da,
sansdoute,
àl’emploi
d’un fil de torsion assez gros etprésentant
unléger hystérésis.
Maintenant que
nous sommes enpossession
de tous lesécarts,
il est pos- sible de chercher à vérifierl’hypothèse
faite sur la normalité des distributions liées. Pour cela nous avons cherché à tracer une droite deHenry (avec
les 60différences).
Cela n’est absolument paspossible :
la distributionempirique
estbien
symétrique,
mais elle estbeaucoup plus "pointue"
que la normale. Apartir
des valeurs centrales on a un
écart-type
sui serait de l’ordre de 5(c’est-à-dire enfait 0,
005 sur lelogarithme)
et de l’ordre de15,
en se basant sur les valeurs extrêmes(voir
tableau IVbis).
Un tel
type
de distribution ne noussurprend
pas : il serait en effetplutôt
extraordinaire que la
précision
de la mesure de la viscosité du verre soit cons-tante dans tout l’intervalle en
question qui
atteint400°C.
Nous allons donc frac- tionner cet intervalle et étudier la variation de cetteprécision
en fonction de latempérature.
Une méthode trèssimple,
dérivée del’analyse
devariance,
va nouspermettre
la résolution de cettequestion.
Tableau
n 0IV (deuxième régression)
Tableau de toutes les différences 6 0 + 12
rangées
partempérature
décroissanteexprimées
en millième d’unitélogarithmique
34
Pour les 60
premières
différences Somme des 27positives :
+204Somme des 25
négatives :
-205avec 8 nulles
Tableau
n°
IV bisTableau des 60 différences
rangées
pour l’établissement d’une droite deHenry
Cas d’unmélange
de deuxpopulations
de même moyenne,mais
d’écart-type
différent.PRECISION DE LA MESURE DE LA VISCOSITE DU VERRE EN FONCTION DE LA TEMPERATURE -
Arbitrairement,
nous allonsdécouper
les 60 différences en 10 groupes de 6et,
danschaque colonne,
c’est-à-dire danschaque
groupe de6,
nous allons calculerl’écart-type (voir
le tableauri V qui
est en mêmetemps
un tableau decalcul).
On peut donc
constater quel’écart-type
variesensiblement,
comme l’indi-quait déjà
la droite deHenry,
de4, 58
à17, 21.
Si nous avions eu le moindredoute un test de Snedecor
(F)
nous auraitrenseigné,
maisici
ce n’est vraiment pas nécessaire.Onpeut
dire en gros que pour les 24premières
mesuresl’écart-type
s’é-lève à : ’
4,80 (c’est-à-dire 0, 0048 0)
tandis que pour les 36 mesures
qui
suiventl’écart-type
s’élève à :11, 96 (c’est-à-dire 0,01196)
36
Droite de
Nenry
sur 60 valeurs du tableau IV bisgroupées
par 3Fig.5
Ces 24
premières
mesuresqui
sontplus précises correspondent
à peuprès
aux mesures
qui
ont servi à établir lesegment
de droite(A),
il y en avait en effet 22. C’est donc vers+1065°C
que laprécision
des mesureschange subitement,
si l’on se
reporte
au documentoriginal;
on voit que celacorrespond
aux derniè-res mesures faites en rotation uniforme.
Donc en rotation uniforme le
logarithme
de la viscosité est connu avec unécart-type
de0, 005. Qu’est-ce
que cela veut dire?Que la
viscosité est connueavec un coefficient de variation de
1, 1%, qui
nousparait plus qu’honorable
pourune mesure
physique.
Les dernières mesures faites en rotation uniforme et les mesures faites par retour
apériodique
donnent pour la détermination de la viscosité un coefficient de variation de2, 8%,
cequi
est encore bon.Enfin,
il reste une dernièrequestion qui
a été escamotée : a-t-on vraiment le droit d’établir une droite derégression,
moyenne des 3 droites établies cha-cune pour un échantillon de verre
plat
étiré ?NON-IDENTITE DES ECHANTILLONS DE VERRE PLAT ETIRE -
Maintenant que nous sommes en
possession
de toutes les différences entre les valeursexpérimentales
et les valeurs estimées àpartir
de la droite de re-gression
moyenne, nous pouvons classer ces différences en trois groupes cor-respondant
aux 3 verres examinés.(Tableau ri VI ci-après ).
Ce tableau VI met en évidence des différences assez nettes entre les 3 é- chantillons de verre. Il est toutefois assez difficile de conclure de manière in-
dubitable,
parexemple,
par un test deStudent,
car on ne sait pas aujuste quel écart-type
choisir. Il y en a au moins deux.De toutes
façons
il semblepourtant
raisonnable d’admettrequ’il
y a unelégère
différence entre les 3 verres : ils ontpratiquement
le mêmecomportement
en fonction de la
température,
cequi
estremarquable
dans une gamme de tem-pératures
aussilarge ,mais
lepremier
essai esttoujours
un peuplus visqueux
que le
second,
et le troisième un peu moinsvisqueux
que le second. Il y a une différence d’environ0, 5%
entrepremier
et deuxième et d’environ1, 1%
entre ledeuxième et le troisième. C’est peu, mais nous croyons
préférable
de lesignaler.
En
fait,
cela remet enquestion
laprécision
des mesures de viscosité . En réutilisant les donnéesnumériques
du tableauVI,
et par la méthode de la droite deHenry,
nous obtenons six déterminations del’écart-type
attribuable à ladispersion
de la mesure de la viscosité : 3 déterminations pour la rotationuniforme,
et 3 autres pour le retourapériodique.
Pratiquement
en rotation uniforme on aboutit à la même valeur de la dis -persion :
C. V. sur la viscosité =1, 1 %.
Par retourapériodique
on aboutit à unevaleur
légèrement plus
faible de ladispersion :
le C. V. s’abaisserait à2, 4%
(au
lieu de2, 8%).
38
Tableau VIen rotation uniforme
écart-type
des mesures par droite deHenry :
±4, 7 5, ±3 , 0 0, ±6, 00
d’où
écart-type
moyen de±4,74
par retour
apériodique écart-type
des mesures pardroite de
Henry :
±10, 25, ±9, 50, ±11, 00
d’où
écart-type
moyende
±10, 27
Comme on le voit les différences sont bien peu sensibles.
De même l’existence de ces deux
types
dedispersion
nous interdit enprin- cipe
d’établir une droite derégression unique
pour l’ensemble des mesures. Il faudrait en touterigueur
calculer maintenant une droite derégression
pour lesmesures
précises (celles
obtenues en rotation uniforme àl’exception
des visco-sités obtenues par cette méthode au-dessous de
+1065°C)
et une droite derégres-
sion pour les autres mesures
(obtenues
engénéral
par retourapériodique).
Ceci est le
point
de vue dustatisticien,
mais nous voudrions éviter de tom- ber dans lebyzantinisme.
Nous pensons quel’ingénieur peut
se contenter de ladroite moyenne
précédemment
établie avecl’exposant
de Waterman2, 39;
de tou-tes
façons
elle différerait très peu des deuxsegments
de droitesqu’on
seraitamené à
calculer,
eux-mêmepratiquement
confondus.CONCLUSION -
Tout au
long
de cette étude nous avons un peuperdu
de vue notre idée di- rectrice : ils’agissait
avant tout de donner uqexemple
deregression
linéaire.Nous avons pu le
faire, grâce
à la méthode de Waterman(ici exposant 2, 39)
eten
négligeant
les 12 dernières mesures(sur 72).
La
légitimité
de ce calcul des 3 droites derégression (une
pourchaque type
de verreplat)
est rendue douteuse par le fait que ladispersion
liée n’estpas
unique.
Les mesures de viscosité par retourapériodique
ont un coefficient de variation de2,40/0,
et les mesures en rotation uniforme ont un C. V. de1,1%.
La
légitimité
de l’établissement d’une droite moyenne derégression
pour les 3types
de verre étudié est assez douteuse. Les 3 verres semblent se clas- serainsi :ler,
2ème et3ème,
par viscosité décroissante. Mais leurcomporte-
ment d’ensemble est le même avec la
température.
Enfinl’existence d’une
discontinuité, vers +8 50° C,
estégalement
douteuse :on
peut
aussi bien l’attribuer àl’appareillage
utilisé.Nous
espérons cependant que
toutes ces réserves ne vous feront pasperdre
de vue les
avantages,
bien réels pour lepraticien, apportés
parl’emploi conju- gué
de la méthode de Waterman et de larégression
linéaire.NOTE COMPLEMENTAIRE -
Le texte ci-dessus donne l’état de la
question
en Juillet 19 57. Maisdepuis
nous
’avons
eu en mains de nouveaux résultatsnumériques
en provenance d’un autre laboratoire. Une nouvelle communication a pu être faite sur cesujet,
le2 Décembiie
1957,
au cours de la Journée de ConférencesTechniques
de l’UnionScientifique
Continentale duVerre,
tenue à la SociétéFrançaise
deCéramique, 44,
rueCopernic,
Paris.En voici les conclusions :
1/
Il estimpossible
dereprésenter
correctement la viscosité d’un verre en utilisant un nombre limité de relations linéaires entre lelogarithme
de la vis- cosité et l’inverse de latempérature
absolue.2/
Il estimpossible
de trouver une formuleunique
pourreprésenter
laviscosité
d’un verre,
si cette viscosité résulte del’application
de deux méthodesdifférentes,
même si elles utilisent le mêmeappareillage.
Il faut donc absolu- mentdistinguer
les mesures faites en rotation uniforme et les mesures faites par retour inverse. La raisonde ce faitprovient
sans doute de ce que les verresne sont pas des
liquides
newtoniens.3/
Laprécision
des mesures est excellente. selle semble avoir été sous -estimée. On
peut
atteindre en rotation uniforme unécart-type
de0,
001 sur lelogarithme décimal
de laviscosité,
soit0, 23%
sur la viscosité elle-même. Par retour inverse on arrive à uneprécision légèrement
inférieure.4/
Cetteprécision
n’estpourtant
pas encore suffisante pourjustifier
l’uneplutôt
que l’autre des 3 formulesreprésentatives
suivantes :a)
Formule de FULCHER : lelogarithme
de la viscosité est unefonction du
type hyperbole
de latempérature
absolue.b)
Formule de WATERMAN : lelogarithme
de la viscosité est une40
c)
Formule deStatistique Classique :
lelogarithme
de la viscositéestune fonction du
type parabole,
de l’inverse de latempérature
absolue(déve- loppement
limité au terme du seconddegré
en1/T2).
Il
peut
êtreutile
aux théoriciens de savoirqu’actuellement l’expérience
est
incapable
de trancher entre ces troisformules,
d’alluresmathématiques pourtant
assez différentes.5/ Au point de
vuepratique chaque
formule a sesavantages
et ses incon-vénients. La formule de Waterman conduit à des calculs
simples,
voireélégants.
Mais il faut bien avouer que cette
élégance
manque derigueur,
carl’exposant
de Waterman ne