R EVUE DE STATISTIQUE APPLIQUÉE
F. B ASTENAIRE
Sur l’efficacité des plans statistiques d’expérimentation
Revue de statistique appliquée, tome 3, n
o4 (1955), p. 81-86
<
http://www.numdam.org/item?id=RSA_1955__3_4_81_0>
© Société française de statistique, 1955, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (
http://www.sfds.asso.fr/publicat/rsa.htm
) implique l’accord avec les conditions générales d’uti- lisation (
http://www.numdam.org/conditions). Toute utilisation commerciale ou im- pression systématique est constitutive d’une infraction pénale. Toute copie ou im- pression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
SUR L’EFFICACITÉ DES PLANS STATISTIQUES
D’EXPÉRIMENTATION
par
F.
BASTENAIRE
Ingénieur
à 1"Institut de Recherches de laSidérurgie Frané
aiseDes controverses s’élèvent assez
fréquemment
entre techniciens et statisticiens,au
sujet
du nombre des essais qu’il faudrait effectuer pour comparer valablement deuxpopulations
de mesures.Les techniciens connaissent intuitivement, par l’expérience, les variabilités des grandeurs au’ils utilisent, mais la mémoire humaine, apte à ne retenir que les événements les plus jrét7uents, les conduit souvent à des évaluations trop
optimistes.
Les statisticiens, au
contraire,
gensprudents
par nature, quoi qu’on en dise,inspectent
d’abord minutieusement leurs données, mais, cela fait, ne font con f iancequ’à
leurs tables.Au moment d’établir un plan
d’expériences,
d’assez fortes divergencespeuvent
donc
apparaître
entre les uns et les autres,qu’il
n’est pastoujours facile
derésoudre.
Pour
comprendre
les deuxpoints
de vue et en faire, si possible, lasynthèse,
nous avons tenté de les analyser. Nous croyons avoir mené notre recherche sans idée
préconçue.
Nous aurions nu raisonner d’un bout à l’autre dans l’abstrait, mais il nous a paru
pré f érable
de nous appuyer surl’exemple
même qui nous avait conduit àces réflexions : la
comparaison
des « mises au mille » de coke dans les hautsfourneaux.
Nous nous appuyons sur un cas où existent à la
fois
des erreursintrinsèques
et des erreurs de mesure, mais cette condition n’est pas nécessaire pour nos conclusions.
1. - GÉNÉRALITÉS
SUR LES FLUCTUATIONS DESCARACTÉRISTIQUES
DE MARCHE DES HAUTS FOURNEAUX
Les
compositions chimiques
et lestempératures
desproduits qui
entrent etqui
sortent d’un haut-fourneau subissent enpratique
de telles fluctuations que les réactions de cetappareil
à des variations des conditions à l’entrée ne nous sontencore
qu’imparfaitement
connues, surtoutquantitativement.
Sur de
longues périodes,
ces fluctuations secompensent
engrande partie
etles
caractéristiques
moyennes que l’on a coutume de calculer sontbeaucoup plus
stables bien que
sujettes
à des variations nonnégligeables.
Rien n’est
plus simple
que de déterminer une mise au mille(*)
de coke secou de carbone mais les erreurs
qui
les affectent sont de trois sortes : 1° Les erreurs depesée.
Lorsque
lespesées
sont bien faites avec contrôlepériodique
du zéro de labascule,
ces erreurs sont faibles mais il faut se souvenir que cesprécautions
sont rarement observées et que le coke est souvent
chargé
au volume .2° Les erreurs de détermination d’humidité pour le coke sec et du taux de cendres pour le carbone.
(*)
Le haut-fourneau est l’appareil sidérurgique destiné à produire la fonte. La-"mise aumille" est le terme technique par lequel on désigne la quantité de coke
(en kilogrammes)
qu’il fautpour produire une tonne de fonte .
Elles résultent à la fois de
l’échantillonnage
et del’analyse proprement dite,
la
part
del’échantillonnage
étant souvent trèsgrande.
3° Les erreurs de définition sur les entrées et les sorties en début et fin de
période.
En
effet,
le cokequi
a été enfourné necorrespond
pas exactement à la fonteproduite
du fait dutemps
de passage et il faut décaler les entrées parrapport
aux sorties d’unequantité qui
n’est pas exactement connue.L’importance
de ces troistypes
d’erreurs décroîtlorsque
croit lalongueur
de la
période
surlaquelle
on calcule la mise au mille à condition que ces erreurssoient
purement aléatoires.
Aucontraire,
les erreurssystématiques d’analyse
etde
pesée
ne décroissent pasquel
que soit le nombre des mesureseffectuées.
Il serait relativement facile de déterminer a
priori
les variances des erreursaccidentelles dues aux
pesées
et auxanalyses .
Il suffirait pour cela d’effectuer des mesures en double(pesées, analyses, échantillonnage, etc...).
Ennégligeant
l’erreur de
définition,
onpourrait
alors calculer l’intervalle de confiance d’une mise au mille et déclarer parexemple qu’elle
se trouve avec uneprobabilité
de0,95
dans l’intervalle900 -
980kilogs.
Bien que
digne
d’intérêt ensoi,
cette variance d’erreur de la mise au mille n’estpourtant
d’aucune utilité pour comparer des marches avec des minerais dif- férents ou des cokes différents parce que l’affirmation que cette mise au mille estcomprise
entre900
et980 kgs
avec uneprobabilité 0,95
n’est valable que pour lapériode
d’essai révolue seulement.En
effet,
les mises au mille relatives à despériodes
successives et différen- tes ne varient pas seulement à cause des erreurs de mesure etd’échantillonnage
mais,
entre autres raisons :1° Parce que les
irrégularités
de la marche ne secompensent qu’en partie.
La preuve en est que les techniciens
proposent toujours
deplus longues périodes
d’essais .
2° Parce que le minerai et le coke ont pu évoluer au
point
de vuecomposition
et
caractéristiques physiques
d’unepériode
à une autre(Exploitation
de nouvellescouches, etc...).
3° Parce que les conditions
météorologiques
ontchangé (changements
de sai-son).
4° Parce que les erreurs
systématiques d’analyse
et depesée
ontégalement
pu varier.
Etc.... .
Des conditions de marche différentes
correspondant
nécessairement à despériodes
d’essaisdistinctes,
lesperformances enregistrées
seront nécessaire- ment entachées d’erreurs de cetype.
Il
n’y
a donc pas d’autre moyen pour estimer la variance des erreurs réelle- ment commises que de se baser sur des résultats relatifs à despériodes
diffé-rentes.
Il. -
DÉTERMINATION
DE LA VARIANCE D’ERREURRÉELLE.
L’ordre de
grandeur
de cette variancepourrait
être calculéd’après
des ré-sultats de marche
antérieurs,
établis sur despériodes
de mêmelongueur,
pour le ou les fourneauxqui
doivent servir à faire uneexpérience .
Une telle
façon
deprocéder
repose leproblème
del’usage
de ce que l’on ap-pelle
enstatistique :
l’information apriori.
On aborde rarement une
expérience
sans avoirquelques
notionspréalables
sur les ordres de
grandeur
des résultats et sur leursprécisions. Cependant,
cesconnaissances sont vagues et presque
toujours
difficiles àexprimer
en termesobjectifs.
Depuis
que Th . BAYES a énoncé son célèbre théorème sur laprobabilité
descauses, c’est-à-dire
depuis
cent ans environ, statisticienset probabilistes
sont,en gros,
partagés
en deux camps. Les unspersistent
àemployer
des lois de pro- babilité apriori auxquelles
ils attribuent en fait les formesmathématiques qui
conviennent le mieux à leurs calculs. Les autres sautent ces difficultés ensuppri-
mant
l’emploi
de l’information àpriori.
C’est R.A. FISHER
ui
s’est l’un despremiers (après STUDENT) engagé
dans cette
voie,
cherchant à tirer en termes deprobabilité
des conclusions nereposant
que sur les résultats del’expérience
faite etnégligeant
l’informationpréalable
presquetoujours impossible
àexprimer mathématiquement.
La méthode de FISHER consiste à comparer
l’importance
des effets obtenusdans une
expérience
à la variance de l’erreur tellequ’elle peut
être estiméed’après
les résultats de la mêmeexpérience.
En
opérant ainsi,
onperd
le bénéfice de l’information apriori qui
n’estja-
mais nulle .
Cette
perte
est en réalité minime dans lamajorité
des cas carl’expérience,
dès
qu’elle porte
sur un nombre suffisantd’individus, apporte
une informationbeaucoup plus considérable.
En d’autres termes, les conclusions que l’on pour- rait tirer en utilisant enplus
l’informationprovenant
de lois deprobabilité
apriori (d’ailleurs subjectives
engénéral),
ne seraientguère plus précises
que celles que l’on obtient par la méthode fisheriennepurement objective .
Cela n’est toutefois pas vrai
lorsque
le nombre des observations est très pe- tit car l’estimation de la variance de l’erreur est, dans ce caslà,
si mauvaiseque l’information a
priori peut
êtresupérieure
à cellequi provient
del’expé-
rience.
Ainsi,
endésignant
par s2 une estimation de variance basée sur un seul"degré
de liberté"(ce qui équivaut
à deux observationsrépétées
dans les mêmesconditions),’l’intervalle
de confiance à0,95
de la vraie variance a2 est donné par :c’est-à-dire :
Si,
parexemple,
on trouvait pour le s d’une mise au mille la valeur de 25kgs,
les limites de l’intervalle de confiance de 03C3 seraient dans ce cas : 11kgs,
800
kgs.
Celuiqui
est au courant de latechnique, quel
que soit cequ’il
pense del’imprécision
des mesures saitqu’elle
nepeut
pas atteindre 800kgs.
L’information fournie par une telle
expérience interprétée
par les méthodesclassiques
de lastatistique
est donc très faible. Engénéral,
on estdéjà
apriori
mieux
renseigné
sur l’erreur que par une telle estimation.Il est facile de
comprendre
maintenantpourquoi
lastatistique
nousdonne,sur
la validité des
expériences,
des résultats si contraires à l’intuition et même aubon sens dans des cas extrêmes : c’est que la méthode fisherienne
classique
veutignorer
toute informationpréalable
et neprendre
en considération que cellequi provient
de la seuleexpérience
que l’on se proposed’interpréter .
Pour en revenir à
l’expérimentation
sur le hautfourneau,
celasignifie
que cette méthode nepeut
donner de résultats intéressants que si le nombre des ob- servations est suffisant pour que l’informationapportée
parl’expérience
elle-même
dépasse largement
celle que l’onpossède déjà.
-III. -
EFFICACITÉ DES
PLANSSTATISTIQUES.
En
supposant
que l’on essaye deuxcokes,
leur différence fournit dans unplan
statistique
une somme de carrésqui,
avec undegré
deliberté , peut
être compa- rée à la variancerésiduelle .
Il est intéressant de se demander avec
quel
nombre dedegrés
de liberté ilfaudrait connaître l’erreur pour que l’information a
priori
soitnégligeable.
Nous
envisagerons
deux cas :1° Nous supposerons la variance de l’erreur connue de
façon
certained’après
des résultats antérieurs. C’est ce que l’on
peut imaginer
deplus parfait
quant à l’information apriori.
Cette variance n’est connue, enpratique,
que defaçon approximative
et dans lamajorité
des cas, on ne sait pas si elle sera, dans l’ex-périence
que l’on vafaire, égale
à celle que l’on a trouvée antérieurement(1).
2° Nous comparerons à ce
premier
cas celui où la variance est connue d’a-près l’expérience
elle-même.Les
propriétés
des testsstatistiques
sont, on le sait, définies par les valeursde deux
risques :
.a)
Lerisque
de trouver une différencesignificative
alorsqu’il n’y
a pas dedifférence
réelle.
On le fixe assez souvent à 5%.
b)
Lerisque
, s’il y a une différence et pour unpremier risque donné,
de nepas détecter un effet
qui
existe réellement.Considérons une
expérience
visant à comparer deux cokes etpouvant
éven- tuellement servir à étudier en mêmetemps
les effets d’autres facteurs(Expé-
rience factorielle par
exemple).
Soit r le nombre d’observations faites avec chacun des deux cokes dans des conditions
qui peuvent
être variables vis-à-vis des autres facteurs .Soit d le nombre des
degrés
de liberté de la varianced’erreur;
dpeut
varier selon leplan d’expérience
et le nombre des facteurs étudiés .Dans une
expérience
à blocsrandomisés,
d atteint la valeur maximumZ(r -1) .
Dans une
expérience
factorielle2" ,
d est fonction du nombre des interactions nonsignificatives.
Sauf pour des raisons degéométrie,
dpeut
être considéré commeindépendant
de r et l’on peut étudier l’efficacité duplan statistique
en fonction de r et d .Si A
désigne
la différence réelle des mises au mille moyennes des deux cokes et eTl’écart-type
de l’erreurréelle,
on démontre que le secondrisque
nedépend
dans ce cas
(2)
que :a)
dupremier risque
b)
de dc)
de laquantité -
Inversement, pour un
premier
et un secondrisque donnés,
le choix de d dé-termine 03A6 .
Si l’on se fixe en
plus
la valeur de r, c’estalors-qui
se trouve déterminé.Ce
rapport représente
la différence des deux moyennes à comparer, mesurée enécarts -type .
Le tableau à double entrée ci-contre contient les valeurs
de
associées à diverses valeurs ded,r
de tellefaçon
que l’on ait : 03C3- un
premier risque égal
à5 ô
- un second
risque égal
à 20%
Exemples d’utilisation
du tableau.Supposons qu’un plan d’expérience
soit tel que quatre observations soient ef- fectuées sur chacun de deux cokes et que la variance résiduelle soit basée sursix
degrés
de liberté.(1 )
C’est pour cette raison que cette façon de procéder est abandonnée des statisticiensd’aujourd’hui.
(2)
Cf. 0. Kempthorne. The design and analysis of experiments. Wiley and Sons. 1952, p. 217.Pour’ r = 4 et d =
6,
le tableauindique pour Q
la valeur1,68.
Cela
signifie
que, sousl’hypothèse
où la différence moyenne réelle entre les deuy okes s’élève à1,68
fois l’écarttype 03C3
del’erreur,
il y a encore 20 chancessur 100
(valeur
du secondrisque)
de ne pas conclure à l’existence de cette diffé-rence
quand
le testemployé
est tel que lepremier risque
soitfixé à 5% (Risque
de conclure à l’existence d’une différence alors
qu’il n’y en
apas).
Les chiffres du
tableau, multipliés
par la valeur de l’écarttype
O* , sont donc des indices de la sensibilité duplan d’expérience.
La dernière
ligne
de ce tableaucorrespond
au cas où la variance d’erreur estsupposée rigoureusement
connue apriori (ce qui équivaut
à d=oc).
Si on la compare aux autres
lignes,
on voit quel’avantage
de connaître apriori
lavariance n’est
grand
que pour lespetites
valeurs de r et d.Par
exemple,
pour r =2,
d = 1 : A/ o* = 11, 5
tandis que pour r =2,
d = oc : Ale= 1, 98
la différence de sensibilité est donc considérable.
Par contre, pour r
= 4,
d = 6 :A / o’ = 1, 68
et pour r =
4,
d = 0: :A /
o’ =1, 40
la différence est peu sensible.
Ceci montre que le
point
de vue fisherien sejustifie
d’autant mieux que d estplus grand,
c’est-à-dire que les observations sontplus
nombreuses.IV. -
APPLICATIONNUMÉRIQUE.
On est, en
fait,
assez malrenseigné
sur la valeur de (j pour les mises au millemais,
pourapprécier
la validité d’unplan statistique,
il suffit d’en connaî-tre l’ordre de
grandeur.
D’après quelques
données obtenues àl’IRSID,
nous avons trouvé :s = 20,6 kg/tf.
Si l’on
adopte
cechiffre,
on voit en se référant au tableauprécédent, qu’avec
une
expérience
où r =4,
d =6,
la différence de mise au mille que l’on a des chances depouvoir
mettre en évidence par la méthodestatistique classique
doitatteindre 35
kg
de coke par tonne de fonte .Il n’est pas moins
important
de noter que si l’onsupposait
la variance d’er-reur
parfaitement
connue apriori
cequi, répétons-le,
est contraire auxprinci-
pas essentiels de
l’expérimentation statistique,
on trouveraitquand
même0394 ~ 28
kg (Dernière ligne
du tableau : r =4,
d= oc ).
V. - RÉSUMÉ
ETCONCLUSIONS.
Dans le
paragraphe
I, nous avons insisté sur le fait que les erreursqui
af- fectent lescaractéristiques
de marche d’un fourneauproviennent
de sources di-verses et ne
peuvent
pas être calculées apriori.
Dans le second
paragraphe,
nous avons confronté deux méthodes de calcul de l’erreurréelle .
Dans le troisième
paragraphe,
nous avonsprésenté
un tableau de l’efficacité de différentsplans statistiques .
Deux méthodes
d’analyse statistique
des résultats desplans d’expériences peuvent
êtreenvisagées :
1° La méthode
classique rigoureuse.
2° Une méthode
plus critiquable supposant
la variance d’erreur connue apriori;
on trouve quel’avantage
de cette méthode parrapport
à lapremière
dé-croît
lorsque
croît le nombre des essais, aupoint
de devenirnégligeable
pourquatre
à sixrépétitions
et à peuprès
autant dedegrés
de liberté pour estimer la varianced’erreur.
Les
expériences
doivent donc êtreenvisagées
de telle sorte que le nombre des unitésexpérimentales
soitadapté
àl’amplitude
des effets à déceler .Enfin,
il n’est pas inutile derappeler qu’il
estplus économique
d’étudier si-multanément les effets de
plusieurs
facteurs en un seulplan d’expérience
que d’étudier successivement les effets de chacun de ces facteurs dans desexpérien-
ces