R EVUE DE STATISTIQUE APPLIQUÉE
G UY L E G ARFF
1. Le statisticien, le gestionnaire et les risques. 2.
Détermination du nombre de répétitions
Revue de statistique appliquée, tome 23, n
o4 (1975), p. 15-40
<http://www.numdam.org/item?id=RSA_1975__23_4_15_0>
© Société française de statistique, 1975, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.
sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les conditions générales d’uti- lisation (http://www.numdam.org/conditions). Toute utilisation commerciale ou im- pression systématique est constitutive d’une infraction pénale. Toute copie ou im- pression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
15
1
-LE STATISTICIEN, LE GESTIONNAIRE ET LES RISQUES
2 - DÉTERMINATION DU NOMBRE DE RÉPÉTITIONS
Guy LE GARFF
Ingénieur
agricole
Cette
publication comprend
2parties :
- La
première
estl’exposé
de Monsieur G. LeGarff
aucolloque
statis-tique
des 13 et 14février
73. Elle vise à nousfaire prendre
un peu de recul parrapport
auxrisques
depremière
et deuxièmeespèce
telsqu’ils
sont dé-finis
par lastatistique classique.
Pour cela on y examine
l’adéquation
du schémaclassique
de raisonne-ment au
problème
élémentaire de lacomparaison
d’un "témoin" et d’un"traité ". On y
envisage
aussi les autresrisques
encourus par le statisticien.- La deuxième
partie
propose une nouvelle méthode de détermination du nombre derépétitions :
méthodequi intègre
la notion derisque
maximumet des considérations
économiques.
Elle est le
fruit
de lapremière partie
en ce sens que sespropositions
n’auraient pu être établies sans lesréflexions précédentes.
Lapublication conjointe,
permettant au lecteur de suivre le cheminement del’auteur, facilitera
sans doute la
compréhension.
PLAN
1ère
partie :
LESTATISTICIEN,
LE GESTIONNAIRE ET LESRISQUES
1 -
Rappel
du raisonnementclassique
et de la définition desrisques
depremière
et deuxièmeespèce.
2 - Coût de l’erreur de
première espèce -
Arbitraire du seuil de 5% - Proposition
d’un autre seuil.3 -
L’hypothèse
nulle et la réalité - Coût de l’erreur de deuxièmeespèce - Inadaptation
du raisonnementclassique
à lacomparaison
d’un "té- moin" et d’un "traité".4 - Les
risques
et la décisionéconomique.
5 - L’erreur de troisième
espèce.
Revue de Statistique Appliquée, 1975 vol. XXIII No 4
16 6 - L’erreur de
quatrième espèce.
7 - Conclusion de la
première partie.
2ème
partie :
DETERMINATION DU NOMBRE DE REPETITIONS 1 -Que
fait-on actuellement ?2 -
Quel problème
intéresse legestionnaire ?
3 - Coût de la
prise
de décision.4 -
Conséquences économiques
d’une mauvaise décision : 4-1 Coût de l’erreur si elle seproduit,
4-2 Probabilité de
l’erreur,
4-3 Coût maximum del’erreur,
5 -- Variations de coût maximum de l’erreur en fonction de n.
6 -
Principe
d’utilisation del’abaque.
7 - Utilisation
pratique.
8 -
Critique
9 - Méthode
algébrique.
10 -
Exemple
1.11 -
Exemple
2.CONCLUSION
Revue de Statistique Appliquée, 1975 vol. XXIII N° 4
17
1 ère PARTIE
LE
STATISTICIEN,
LE GESTIONNAIRE ET LESRISQUES
1 - RAPPEL DU RAISONNEMENT
CLASSIQUE
ET DE LA DEFINITION DESRISQUES
DE PREMIERE ET DEUXIEME ESPECELe statisticien endosse des
risques quand
il travaille sur échantillons etqu’il désire,
àpartir
de ceséchantillons,
tirer des conclusions valables pour lapopulation.
On
peut
écrire :échantillons t décision ~
risques Rappelons
sa démarche intellectuelle :Dans
l’ignorance
où il se trouve des vraies valeursqui
l’intéressent(calculées
sur la
population entière)
il émet unehypothèse (en général l’hypothèse
nulleHo)
et mesure, suréchantillons,
des estimations des vraies valeursqui
l’intéressent.
S’il y a accord entre son
hypothèse
et sesobservations,
il conserve sonhypothèse.
S’il y adésaccord,
ilrejette
sonhypothèse.
Exemple
Est-ce que le taureau A est meilleur que le taureau B du point de vue de la valeur lai- tière de ses filles ? Les vraies valeurs des taureaux A et B ne pourraient être mesurées que
sur les populations entières des filles qui naîtront de ces géniteurs. En toute rigueur, on peut même se demander si les vraies populations de référence ne sont pas les deux ensembles des filles qu’il serait possible de faire naître et d’élever à partir de chacun des spermatosoïdes produits par chacun des deux taureaux. Dans cette définition de la population, il est évident
que le statisticien ne connaîtra jamais les vraies valeurs. Il en est souvent ainsi.
Pour répondre à sa question :
- Il émet une hypothèse : "Les deux taureaux ont même valeur laitière". (C’est l’hypo- thèse nulle, la différence entre les deux valeurs laitières étant nulle),
- Il mesure les valeurs laitières d’un certain nombre de fille de A et en déduit une esti- mation de la valeur de A. De même pour B.
- Il adopte une règle de décision :
. Si la différence entre les deux estimations est proche de zéro, il conserve son hypothèse.
2022 Si elle est très différente de zéro, il rejette son hypothèse initiale, ce qui revient
à dire qu’un taureau est meilleur que l’autre.
La limite entre "proche de zéro" est "très différente de zéro" est le seuil de décision.
Dans le raisonnement classique le problème est toujours posé en terme d’alternative : accep- tation au refus de l’hypothèse. Il n’y a pas de zone d’indécision.
1.1.
Risque
de Premièreespèce
S’il
rejette
sonhypothèse
alorsqu’elle
estvraie,
il commet une erreur.C’est l’erreur de
première espèce.
Le
risque
depremière espèce,
a, est lerisque qu’il
a de commettre cetteerreur avec la méthode de travail et la
règle
de décisionqu’il
a choisies.Revue de Statistique Appliquée, 1975 vol. XXIII No 4
18
On le calcule très couramment en
agronomie.
D’unefaçon
trèsgénérale,
on travaille au seuil de 5
%.
Cela veut dire que si l’onrépétait
un trèsgrand
nombre de fois notre
expérience,
dans les mêmesconditions,
et avec des échan- tillons issus d’unepopulation qui
vérifie notrehypothèse initiale,
dans 5%
descas on
rejetterait
cettehypothèse
bienqu’elle
soit vraie.1.2.
Risque
de deuxièmeespèce
Quand
notre statisticien conservel’hypothèse nulle,
si elle estvraie,
ilne se
trompe
pas. Par contre, si elle estfausse,
c’est alorsqu’il
commet l’erreurde deuxième
espèce.
Le
risque
de deuxièmeespèce, j3,
est lerisque,
laprobabilité,
attaché àcette erreur. C’est donc le
risque
de conserver, c’est-à-dire de considérer commevraie,
unehypothèse qui
en réalité est fausse.On résume habituellement par le tableau
1, ci-après,
ces deux définitions : Tableau 1On retiendra que c’est
quand
on réfutel’hypothèse
nulle que l’on en-dosse a. C’est
quand
on la conservequ’on
endossej3.
Dans la
comparaison
de deux moyennes, lesrisques
a etj3
sont illustrés par lafigure
1ci-après :
Figure 1
Revue de Statistique Appliquée, 1975 vol. XXIII N° 4
19
Soit d la différence observée entre les deux moyennes.
Soit 03B4 la différence vraie.
Si
l’hypothèse
nulle Ho estvraie,
d serépartir
suivant la courbe noire.S’il existe une différence vraie
ô,
d serépartit
suivant la courbe rouge.s est la valeur seuil de d au-delà de
laquelle
on réfutel’hypothèse
nulle Ho.oz se mesure donc sous la roube noire
(Ho vrai),
au-delà duseuil,
dans lazone de
refus.
j3
se mesure donc sous la courbe rouge(5 = 0),
endeça
duseuil,
dans lazone
d’acceptation.
(Remarque :
Cettefigure correspond
à un testunilatéral,
a étant d’un seul côté de la courbenoire ;
ellecorrespond
à lacomparaison
d’un témoin à untraité).
Sur cette
figure,
il est évident que pour une valeur de s(donc
dea) fixée, 03B2 dépend
de ô :j8
diminuequand
ôaugmente.
On voitégalement
que pour une valeur de 5fixée 03B2 augmente quand
a diminue.2 - COUT DE L’ERREUR DE PREMIERE ESPECE - ARBITRAIRE DU SEUIL DE 5
% -
PROPOSITION D’UN AUTRE SEUILEn
agronomie,
latechnique
del’analyse
de variance est trèsrépandue
et l’on teste
toujours
si a estsupérieur
ou inférieur à 5%.
Ce calcul est tellement
classique
que l’on neprend
mêmeplus
lapeine
de formuler
l’hypothèse
que l’on teste. On se contente de mettre un S ou unastéristique
en face des résultatssignificatifs (si
l’on a travaillé en seuil de 1 %on met HS ou 2
astéristiques).
Ainsi le lecteur non averti saitqu’on
a fait uncalcul
statistique,
maislequel ?
Avec le
développement
des moyens de calculplus rapide
que celui desconnaissances,
onpeut
même se demander si dans bien des cas celuiqui
a faitle calcul
(ou
le faitfaire)
sait àquoi
ilcorrespond.
Bien
sûr,
tout le monde sait que le seuil de 5 % est arbitraire. Dans tous lesstages,
pour fairecomprendre
cetarbitraire,
on dit que si la décision àprendre
met enjeu
des vies humaines le seuil de 5 % estintolérable ; mais,
lestage passé,
on continue(ou
le programmecontinue)
à calculer si la différence estsignificative
ou non au seuil de 5%.
Reprenons
notreexemple
des deux taureaux :j’endosse
lerisque
de pre- mièreespèce quand je
réfutel’hypothèse nulle,
doncquand je
dis queB,
parexemple,
est meilleur que A. Et si par malchance la réalité était "B = A" ?Quelles conséquences pratiques
cela aurait-il ? Aucune si leprix
de l’insémi- nation est le même pour A etB,
cequi
est souvent le cas.L’éleveur n’aurait pas eu le bénéfice
qu’il escomptait,
mais mon erreurne lui aurait pas fait
perdre d’argent.
Il en est de même
quand
on compare deux variétésqui
ont le mêmeprix.
Dans ces
cas-là,
lerisque
depremière espèce
est sansconséquence pratique.
Peu
importe
doncqu’il
soit de 5 ou de 50% !
rRevue de Statistique Appliquée, 1975 vol. XXIII No 4
20
Il semblerait donc, après un tel raisonnement, que le seul inconvénient de l’erreur de première espèce soit, dans ces cas-là, de jeter le discrédit sur la personne (physique ou morale) qui publie, et qu’un grand nombre de répétitions n’ait d’autre but que de soute- nir une réputation. Il ne faut pas aller jusque-là, car il existe toujours le risque de conclure B > A alors que B A. C’est ce qu’on appelle parfois le risque 03B3. Lui n’est pas sans inci- dence économique ; nous en reparlerons donc dans la deuxième partie.
Dans
la
théorie classique on omet généralement ce risque, ou alors, pour justifier son silence, on démontre qu’il est infiniment petit(10-7)
pour des valeurs de a et (3 petites(5%).
Le
risque
depremière espèce
ne seracependant
pastoujours
sans consé-quence
économique :
dans lesexemples pris jusqu’à présent,
les 2 modalités du facteur étudié induisaient chez l’utilisateur 2dépenses,
sinonégales,
toutau moins de même ordre de
grandeur.
Parfois on
expérimente
sur l’efficacité d’un traitementqui
coûte trèscher.
Le
risque
depremière espèce,
a, nous est-iltoujours
indifférent ?Quelle
est la
répercution économique
de notre erreur ?Le
risque a
est lerisque
derejetter l’hypothèse
nulle alorsqu’elle
estvraie. On l’endosse donc
quand
onrejette l’hypothèse nulle,
c’est-à-direquand
on traite. Si on traite alors que
l’hypothèse
nulle estvraie,
on engage une dé- pense, le coût dutraitement, qui
n’est assortie d’aucune recettesupplémentaire.
Donc,
le coût de l’erreur depremière espèce,
c’est le coût du traitement.Notre méthode
expérimentale
étant telle que, si l’onapplique
un trèsgrand
nombre de fois sur une différence vraienulle,
dans a%
des cas on ttaite pourrien, plutôt
que de s’intéresser à al’expérimentateur
devrait s’intéresserau
produit :
a x coût de l’erreur de
première espèce
= a x coût du traitementExemple :
le statisticien qui travaillerait au seuil de risque a = 20 % sur un traitement qui coûte 40 F par ha, ne paraîtrait pas sérieux.
Pourtant, il endosserait un risque économique moindre que celui du statisticien (oh combien sérieux !) qui travaillerait au seuil de 2
%
sur un traitement qui coûterait 500 F par hectare.3 - L’HYPOTHESE NULLE ET LA REALITE - COUT DE L’ERREUR DE DEUXIEME ESPECE - INADAPTATION DU RAISONNEMENT CLAS-
SIQUE
A LA COMPARAISON D’UN "TEMOIN" ET D’UN "TRAITE"Tous nos calculs ont été basés sur
l’hypothèse nulle,
maispratiquement,
en
biologie,
est-elle vraisemblable ?Elle l’est
probablement
si l’on travaille suroligo-éléments
avec un témoinnon
carencé,
mais si l’on travaille sur des niveauxénergétiques
ouazotés,
sur des dates desemis,
etc. à fortiori dans un essaifactoriel,
elle est sûrement fausse !Et l’on endosse le
risque j3
àchaque
fois que l’on conservel’hypothèse
nulle !Revue de Statistique Appliquée, 1975 vol. XXIII N° 4
21
De là à dire que le
risque j3
nous coûte toutes lesexpériences qui
n’ontpas
permis
de mettre en évidence une différencesignificative,
iln’y
aqu’un
pas.
Tenir un tel
raisonnement,
c’est admettre que toute différence entre les deux modalités du facteur que l’on étudie nous intéresse. C’est seplacer
enattitude de recherche. Nous étant
placés
en attitudepratique
pour examiner lerisque
a,regardons également j3
avec les yeux dupraticien.
Intéressons-nous à
l’expérience
trèsgénérale
où l’on compare un lot traité à un lot témoin.Supposons
que nous ayonsadopté
larègle
de décision suivante : "on traitera sid,
différenceobservée,
estsupérieure
à s, différencequi
couvrejuste
tous les frais
engendrés
par le traitement".. La
figure
1 nous montre que si 6 est inférieure à s,j3
est trèsgrand (su- périeur
à 50%).
Notre méthode de travail et de décision semble donc très mauvaise sur laplan théorique puisque,
pour toute valeur de dcomprise
entre 0et s, on conserve
l’hypothèse
nulle(8 = 0). Quand
on conserve cettehypo-
thèse
nulle,
la réalité estprobablement
différentepuisque
d est la meilleure estimation que l’on ait de ô.Mais
pratiquement, quand
bien même aurait-on connu 5 aveccertitude,
pour toute valeur de 5
comprise
entre 0 et s, on n’aurait pas effectué le trai- tement. Eneffet,
sij’appelle
R le résultatéconomique
dutraitement, (soit
lesupplément
de recettes moins lesupplément
dedépenses),
pour toute valeur de ô s, R estnégatif
par définition de s. Conserver Ho est donc la bonne décision sur leplan économique
et la valeurprise
parj3
nous est abso-lument indifférente.
2022 Par contre,
quand
5 > s etqu’on
ne traite pas parcequ’on
a observéd s, alors
j3
ne nous est pas indifférent car on commet l’erreur de ne pas effectuer un traitementqui
seraitbénéfique, puisque
R est icipositif.
Notreméthode est telle
qu’on
commet cette erreurdans {3
% des cas. Le coût deFigure 2
Revue de Statistique Appliquée, 1975 vol. XXIII No 4
22
cette erreur est
précisément égal
à R. Il faut donc déterminer la taille del’expé-
rimentation pour
que (3
R soitsupportable.
2022 Enfin si on traite parce
qu’on
observe d > s alorsqu’en
réalité 03B4 s, on commetégalement
une erreur sur leplan économique :
le coût du traite-ment est
supérieur
à la recettequ’il engendre.
Dans ce cas R estnégatif.
Cetteerreur est d’autant
plus
grave queR,
laperte engendrée
par letraitement,
estplus grande.
Le coût de l’erreur est iciégal
à la valeur absolue de R. Notre méthode est tellequ’on
le commet dans(1 - 03B2) %
des cas. Il faut doncéga-
lement que
(1 - j8) |R|
soitsupportable.
Par la
suite, puisque
nous avonsappelé
R le résultatéconomique
du trai- tement, nousappellerons 1 RI
le coût del’erreur, quelle qu’elle
soit.R est
proportionnel
à(ô - s).
Ecrivons R =k(b - s)
où kapparaît
commeun
prix
unitaire.Insensiblement,
maisinéluctablement,
en nousinterrogeant
sur le coûtde l’erreur de deuxième
espèce
nous avonschangé
de schéma de raisonnement.Peu nous
importe
de savoir si décision du statisticien et réalité sontégales
ou différentes de
l’hypothèse
nulle. Cequi compte
c’est de savoir sid,
diffé-rence observée sur
laquelle
est basée la décision dustatisticien,
et 5 la réalité sont inférieures ousupérieures
à s.On remarque que dans ce
raisonnement, beaucoup plus proche
des pro- blèmes concrets que le raisonnement du statisticienclassique, a
n’intervient pas. C’est seulement la valeur limite de(1 - (3)
pour 5=0.A la
comparaison
d’unehypothèse
nulle à unehypothèse
alternativesimple je
propose donc de substituer le schéma suivant : Tableau 2Dans ce mode de raisonnement on ne compare
plus
unehypothèse simple
à une
hypothèse
alternativesimple.
On compare deux famillesd’hypothèses.
On est donc
plus capable
de fixer une valeurunique
pour aet (3,
mais il est trèsfacile de tracer les
variations,
en fonction de5,
duproduit
durisque
par son coût.---
(1) Remarque : En réalité, puisque nous avons abandonné l’hypothèse nulle à laquelle était attaché ce risque (3, il serait logique de ne plus parler de j3. Nous ne ferons le changement de symbole qu’au début de la deuxième partie. Nous appellerons alors ce risque 03B3 car il s’agit tout simplement du risque d’inverser les conclusions tel qu’il a été présenté précé-
demment page 20.
Revue de Statistique Appliquée, 1975 vol. XXIII N° 4
23
La
figure
5(page 29)
montre 2 telles courbes.Leur tracé est très
rapide
avec une table de la loi normale. On a donc très vitefait,
sur unproblème
concret, de connaître lerisque
maximum encouru.4 -- LES
RISQUES
ET LA DECISIONECONOMIQUE :
Comme
précédemment,
intéressons nous àl’expérience
trèsgénérale
et trèssimple
où l’on compare un lot traité à un lot témoin.Ayant
calculé si la différence étaitsignificative
ou non(après
unehypothèse
nulle
jamais formulée)
combiend’expérimentateurs
ne sont-ils pas tentés de concluresimplement
munis de a !L’erreur la
plus grossière,
heureusement très rare, consiste àprôner
letraitement dès que
l’expérimentation
a mis en évidence une différence nette- mentsignificative,
sansregarder l’importance
de cette différence ni si elle couvreles frais de traitement : on
peut
alors être amené àconseiller,
avec une bonnesécurité, l’application
d’un traitementqui
a fait ses preuvestechniquement
mais
qui
n’est pas rentable.-- L’autre erreur,
fréquente,
consiste à oublier l’existence même durisque
de deuxième
espèce, j6,
lerisque
de manque de gagner.Combien de fois
n’ai-je
pas entendu dire : "la différence n’est passigni- ficative,
donc on n’a pas le droit dediffuser" ;
ceci veutdire, implicitement qu’on
n’a pas le droit de traiter.Ceux
qui
tiennent de tels raisonnements semblent oublier que, aussipetite
que soit ô
(différence
vraie entre "témoin" et"traité"),
pourvuqu’elle
ne soitpas strictement
nulle,
on peuttoujours
la mettre en évidence d’unefaçon signi-
ficative en
augmentant
le nombre derépétitions.
La décision
économique
de traiter ou de ne pas traiterdépend uniquement
de 5 et non pas du nombre de
répétitions.
Est-ce dire que les
risques
sont totalementétrangers
à toute décisionéconomique ?
Non.
puisqu’en remplaçant
03B4 par son estimation onrisque
de commettreune erreur, soit celle de 1ère
espèce,
soit celle de 2èmeespèce,
que ces erreursont une incidence
économique
donc uncoût,
et que lesrisques
en mesurentles
probabilités.
A ce stade de nos
réflexions,
tiraillés entre lerisque d’engager
unedépense
pour rien
(ou
pour une recettemoindre)
et celui d’un manque à gagner, il vient àl’esprit
deprendre
comme seuil de décision celuiqui
rend minimum la sommedes pertes
possibles.
Cela revient à rechercher le minimum de(1 - 03B2) |R|
+j3 1 RI,
soit le minimum de
1 RI.
Un
simple
coup d’0153il sur lafigure
5 nous montre que ce coût s’annule pour 03B4 = s, et seulement pour 03B4 = s. C’est du reste ainsiqu’a
été défini s.s, défini comme le seuil de
rentabilité, apparaît
donc ici comme un seuil de décisionoptimum.
Revue de Statistique Appliquée, 1975 vol. XXIII N° 4
24
Nous remarquerons que c’est celui
qu’aurait
choisi tout homme de bonsens
n’ayant jamais
fait destatistique.
Eneffet, puisque
d est la meilleure esti- mation que l’on ait de03B4,
et que cette estimation est dansbiais,
il estlogique d’admettre,
si d > s que ô > s et doncqu’on
a intérêt à traiter si l’on veut maximiser notreespérance
degain.
Nous avons admis que R est une fonction linéaire de 6. C’est vrai à
chaque
fois que le traitement va provoquer une
augmentation
deproduction qui
seravendue au même
prix
que les unitésprécédemment produites.
C’est le cas trèsgénéral,
et notamment enagriculture puisque l’augmentation
deproduction
est faible par
rapport
à laproduction
du témoin et que lesproducteurs
sontnombreux.
Il doit exister des cas où les coûts des erreurs de
première
et de deuxièmeespèce
ne sont pasidentiques, mais,
même dans ces caslà,
pour toute variation continue de R en fonction deD,
en s,point d’équilibre,
R = 0. Lesphéno-
mènes discontinus par contre doivent être étudiés
différemment.
5 - L’ERREUR DE TROISIEME ESPECE
Plusieurs auteurs
(Kimball, Calot...)
définissent l’erreur de troisièmeespèce
comme le fait de résoudreparfaitement
unproblème
différent de celuiqu’il
aurait fallu résoudre.Chacun connaît l’histoire du mathématicien à
qui
l’on aposé
laquestion :
"De ces deux
pendules,
l’unequi
estarrêtée,
l’autrequi
retarde de une minutepar jour, laquelle
marque leplus
souvent l’heure exacte ?".La
réponse
du mathématicien fut : "c’est lapendule
arrêtéequi
marque leplus
souvent l’heure exacte". C’était laréponse
correcte auproblème posé.
Mais le consultant avait-il correctement formulé sa
question ?
Pour étudier les circonstances
qui
favorisentl’apparition
de cette erreur,et donc chercher à
l’éviter,
nouspourrions
utilement nousreporter
à l’article de A.N. Kimball : "ERREURS DE TROISIEMEESPECE,
COOPERATION ENTRE STATISTICIENS - CONSEILS ET CHERCHEURS" : L’essentiel de son message est que les erreurs de 3èmeespèce
ont pour cause une liaisoninsuffisante,
ou de mauvaisequalité,
entre le statisticien-conseil et le chercheur.Il est difficile évidemment de chiffrer le coût de cette erreur et donc de déterminer le montant des moyens à mettre en oeuvre pour l’éviter. Le fait même de dire
qu’il
y a erreur de troisièmeespèce
est souventsubjectif.
Unmême
problème peut toujours
êtreposé
de 2façons
différentes par un cher- cheur et par unpraticien.
Chacunpeut
donc accuser l’autre d’erreur de troi- sièmeespèce.
Ce
qu’il faut,
à monavis,
c’est être suffisamment sensibilisé à son exis- tence pour se poser, àchaque
nouveauproblème,
laquestion
de savoir si l’onne commet pas l’erreur de troisième
espèce.
On doit surtout y penserquand
onapplique
un schéma tout fait. Parexemple,
en calculant sonrisque
depremière espèce,
le statisticien ne commet-il pas l’erreur de troisièmeespèce ?
Revue de Statistique Appliquée, 1975 vol. XXI 1 N’ 4
25
6 - L’ERREUR DE
QUATRIEME
ESPECELe statisticien
qui
a résolu le bonproblème
a-t-il fini ?Non. Il lui faudra faire
part
de ses conclusions àl’utilisateur,
et lerisque d’extrapolation abusive, d’application
à unproblème apparemment voisin,
mais
différent,
estgrand.
Ce
risque
n’est pas du tout propre au statisticienmais,
comme il manieune
discipline hermétique
aufrançais
moyen il y estparticulièrement exposé.
Si l’erreur est
commise,
il n’est pasjuste
de lui en attribuer l’entière respon-sabilité,
mais il en a souvent unepart.
On y remédie en
précisant
clairement leproblème auquel
on aapporté
une
réponse
et enprécisant
les conditions d’utilisation de laréponse.
Exemple
1 :Le rendement de telle plante augmente de tant à chaque fois qu’on apporte 1 unité d’azote. Ceci jusqu’à quelles limites ?
Les
risques
de mauvais usage d’unerégression
en dehors des limites entrelesquelles
elle a été calculée sont bien connus.Plus subtile est l’erreur que l’on commet
parfois
enemployant
une formulede
régression
dans un intervalle de variationplus
restreint que celui pourlaquelle
elle a été calculée.
Exemple
2 :Un chercheur en travaillant sur des maîs dont le stade végétatif varie de quelques jours après la floraison femelle jusqu’à la maturation, trouve entre la teneur en matière sèche de la plante entière et celle de l’épi un coefficient de corrélation de 0,990.
Isolé de ses conditions d’obtention, un tel coefficient ne peut qu’inciter le praticien à supprimer les analyses de plantes entières pour ne faire que des analyses d’épi plus simples
et moins coûteuses.
Le drame est que dans les conditions pratiques on récolte les mais à des stades végétatifs
variant du stade laiteux-pâteux au stade vitreux. Dans ces conditions la liaison est beaucoup plus faible et surtout plus variable. Elle est inutilisable.
7 - CONCLUSION DE LA PREMIERE PARTIE
Le remède évident contre les erreurs de troisième et de
quatrième espèce
est d’améliorer les relations entre statisticiens et utilisateur. Un minimum de formation
statistique
chez les utilisateurs étaitindispensable
pour que le dia-logue puisse
avoir lieu. Ce futl’objet
desstages effectués ;
mais cesstages,
où l’utilisateur était enposition trop scolaire,
ne suffisaient pas. C’estpourquoi
ce
colloque
futorganisé.
Puisse-t-il n’être que le début d’un fructueux dia-logue(1).
---
(1) Cette première partie fut exposée au cours d’un colloque entre utilisateurs ayant suivi un cycle statistique et formateurs.
Revue de Statistique Appliquée, 1975 vol. XXIII No 4
26
DEUXIEME PARTIE
DETERMINATION DU NOMBRE DE REPETITIONS
1 -
QUE
FAIT-ON ACTUELLEMENT ?Il arrive
parfois
que le nombre derépétitions
soit le fruit d’une coutume dont onignore
les fondements. Cette méthode"pifométrique"
ne serait pas mauvaise si le"pifomètre"
était étalonné correctement etrégulièrement.
Malheureusement il arrive
qu’on
ne se soucie pas de savoirquand
et commentil a été étalonné.
Parfois ce nombre de
répétitions
est sous ladépendance
exclusive d’unecontrainte,
parexemple
le nombre d’animaux dont ondispose
ou le nombrede
places
dansl’étable ; plus généralement
la contrainte est celle d’unbudget
fixé à
priori.
Cette situation est souventcatastrophique :
des frais sont enga-gés
alorsqu’un
calcul sommaire aurait montréqu’ils
l’étaient en pureperte,
caron était à peu
près
sûr audépart
de ne rienpouvoir
conclure.Enfin,
et deplus
enplus
souventcompte
tenu dudéveloppement
consi-dérable des connaissances
statistiques depuis quelques années,
on fait "le"calcul : On se fixe une différence d à mettre en évidence
(ou
uneprécision,
ce
qui
revient aumême)
et des valeurs de a etj8,
on serenseigne
sur la varianceattendue,
et on détermine le nombre derépétitions
n en fonction de ces 4 para- mètres. Parfois le résultat nouseffraie ;
alors onaugmente
un peuj8
et d pour trouver uncompromis
entre lapremière
valeur trouvée et cequ’on
avait l’habi- tude de faire.Avec cette méthode on
risque fort,
si l’on yprend garde,
de n’introduireaucun élément
économique
alors que la décision àprendre
est essentiellementéconomique.
En effet uneexpérimentation
est un investissement et le nombre derépétitions
en détermine le montant.Seul le seuil de rentabilité du traitement est
parfois
introduit dans le calcul par le biais ded ;
mais les seuils derisques
aet {3
sont engénéral
arbitraires etétrangers
à toute considérationéconomique.
Le résultatl’est
doncégalement.
On
répond
correctement à laquestion
"combien faut-il derépétitions
pour mettre en évidence telle
différence,
sur tellevariable,
avec telsrisques
?".C’est le
problème
que le statisticien saitrésoudre ;
mais est-ce là le vraiproblème ?
2 -
QUEL
PROBLEME INTERESSE LE GESTIONNAIRE ?Vis à vis d’une
technique nouvelle,
d’un traitement nouveau(au
sensle
plus large
duterme)
son seulproblème
est de savoir s’il fautl’appliquer
ou non.
L’expérimentation
estparfois
le seul moyenqu’il
ait deprendre
unedécision rationnelle. Dans ce cas il veut savoir combien il faut investir dans
l’expérimentation
enquestion.
En
effet,
le coût del’expérimentation représente
alors le coût de sadécision et il est aussi mauvais :
Revue de Statistique Appliquée, 1975 vol. XXIII N’ 4
27
- de payer très cher une "bonne" décision si elle est sans
grande
consé-quence
économique.
- que de
trop
économiser sur le coût de la décision si elle est lourde deconséquences.
Entre ces 2 extrêmes il doit exister un
optimum.
C’est ce que nous nous proposons de déterminer.Remarque : Ce n’est pas toujours une seule et même personne qui finance l’expérimentation
et qui applique les résultats. Par exemple, l’expérimentation peut être conduite dans le cadre de l’organisation professionnelle alors que c’est chaque entrepreneur individuellement qui applique le résultat. C’est mon cas (secteur agricole). L’optimum recherché l’est alors au
niveau de la collectivité. Ce faisant je me place exclusivement en gestionnaire d’un budget collectif.
3 - COUT DE LA PRISE DE DECISION
C’est le
budget
del’expérimentation.
C’est une fonction croissante du nombre derépétitions
n. Dans touteexpérience
il y a des frais fixes et des fraisproportionnels
au nombre derépétitions.
Onpeut
facilement et sanstrop
d’arbitraire lesdistinguer
et doncexprimer
ce coût par une fonction linéaire de n.Coût de l’investissement : 1 = a + b n.
n = nombre de
répétitions
a et b sont 2 constantes calculées à
partir
d’unbudget prévisionnel
danslequel
on a
distingué
descharges
fixes et descharges proportionnelles
à n, ou encorecalculées à
partir
de 2budgets
établis pour 2 valeurs de n.Le coût de notre décision est à comparer aux
conséquences économiques
d’une mauvaise
décision,
d’une erreur.4 -
CONSEQUENCES ECONOMIQUES
D’UNE MAUVAISE DECISION Comme nous l’avons vu dans lapremière partie,
pour chiffrer les consé- quenceséconomiques
d’une erreur, il faut 2 éléments :- le coût de cette erreur si elle se
produit,
- sa
probabilité d’apparition.
C’est au
produit
de ces 2 éléments que nous nous intéressons. De la mêmefaçon
un assureur calcule saprime
enmultipliant
le coût de l’accident assuré par saprobabilité d’apparition (et
enajoutant
les fraisgénéraux).
4.1. Coût de l’erreur si elle se
produit
Soit R le résultat
économique
du traitement. R estégal
à la différence de rendement entre le traité et letémoin,
quemultiplie
leprix
unitaire de cettedifférence,
moins le coût du traitement. R est donc une fonction linéaire deo,
différence vraie entre le témoin et le traité.Revue de Statistique Appliquée, 1975 vol. XXIII N’ 4
28
Si l’on
appelle
c le coût du traitement et s son seuil derentabilité, (va-
leur de 03B4 pourlaquelle
la recettesupplémentaire engendrée
par le traitement estégale
à soncoût) :
R peut s’écrire :
Si 8 > s l’erreur consiste à ne pas
traiter ;
il y a un manque à gagner = R.Si 8 s l’erreur consiste à traiter alors que R est
négatif.
Dans tous les cas le coût de
l’erreur,
si elle seproduit, est |R|
4.2. Probabilité de l’erreur
Si 8 est
supérieur
à s, l’erreur consiste à ne pas traiter. Si l’on apris
scomme seuil de
décision,
on commet cette erreurdans %
des cas.(Voir
tableau et remarque page
22).
Si 03B4 est inférieur à s, l’erreur consiste à traiter. Avec la même
règle
dedécision,
on la commet dans(1 - 7) %
des cas.’Y est fonction de s,
5,
n et a.n est le nombre de
répétitions.
a est
l’écart-type
de lapopulation.
Figure 3 Figure 4
4.3. Coût
"moyen"
de l’erreurC’est : - soit le produit 03B3 |R|
- soit le
produit (1 - y) IRI
C’est donc une fonction de s,6,
n, a et cCar 03B3 est fonction de s,
03B4,
n et aet
RI
est fonction de03B4,
c et s.Que
cettecomplexité apparente (puisqu’il
y a 5paramètres)
ne nousrebute pas, le
problème
sesimplifie :
On
peut
calculer les variations de03B3 |R|
et de(1 - 03B3) 1 RI
en fonction de 03B4 à conditiond’exprimer
5 enécart-type
de la différence des moyennes du té-Revue de Statistique Appliquée, 1975 vol. XXIII No 4
29
moin et du traité. En
effet,
on tient ainsicompte
de a et de n.Quant
à c et s,ce ne sont que des
points portés
par lesaxes 03B3 I RI
et ô.Figure 5 - Variations du coût moyen de l’erreur,
11RI
ou (1 -7)
|R| en fonction de 0 Lafigure
5 ci-dessus montre les variations deIRI
et de(1 - 7) IRI
en fonction de 5. Pour la construire nous avonssupposé (comme toujours !)
que d était distribué normalement.On remarque que :
- ces 2 courbes s’annulent pour b = s
puisqu’alors
R = 0.- Les coûts moyens des erreurs croissent
quand
5s’éloigne
de s,passent
par un maximum
unique puis
décroissent pour tendre vers zéroquand
ô esttrès différent de s
(car
alors 7, ou(1 - y),
tendent vers zéro. Ceci veut dire toutsimplement
que si la différence entre le témoin et le traité est trèsgrande,
on a peu de chance de se
tromper).
- Les courbes y
1 RI
et(1 - 7) 1 RI
sontsymétriques
parrapport
à la verti- cale ô = s : le maximum du coût moyen de l’erreur est doncunique quelque
soit la nature de l’erreur que l’on commet
(ne
pas traiterquand
il le faudraitou traiter
quand
ce n’est pasrentable).
Revue de Statistique Appliquée, 1975 vol. XXIII No 4