R EVUE DE STATISTIQUE APPLIQUÉE
J. B ONITZER
Réflexions sur les modèles statistiques de décision
Revue de statistique appliquée, tome 32, n
o1 (1984), p. 9-37
<http://www.numdam.org/item?id=RSA_1984__32_1_9_0>
© Société française de statistique, 1984, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.
sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les conditions générales d’uti- lisation (http://www.numdam.org/conditions). Toute utilisation commerciale ou im- pression systématique est constitutive d’une infraction pénale. Toute copie ou im- pression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
9
REFLEXIONS SUR LES MODELES STATISTIQUES DE DECISION
J. BONITZER
TABLE DES MATIERES
I. Introduction
II. Les
étapes logiques
du raisonnementstatistique
III. L’estimation
ponctuelle
III.1.
L’échantillonnage
aléatoire111.2. Ce
qu’apporte,
et ce quen’apporte
pas, l’estimationponctuelle
IV. L’estimation par intervalle de confiance
V. La théorie
classique
des tests de NEYMAN et PEARSONV.1. Le test d’une
hypothèse simple
contre unecontre-hypothèse simple
V.2. Extension de la théorie
V.3. Ce
qu’apporte,
et ce quen’apporte
pas, la théorie des tests VI. La théoriestatistique
des décisions de WALDVI.1. Les
concepts
de base VI.2.L’espace
des décisionsVI.3. Le coût des décisions et le
"principe
de RAMSAY"VI.4. Le coût de
l’expérimentation
VI.5. L’information
préalable
VII. Modèles
statistiques
de décision et recherchescientifique
VII.1.
Hypothèse scientifique
et actes de rechercheVII.2. Connaissance non formalisée et connaissance rationnelle
Bibliographie
I. INTRODUCTION
Problèmes-carrefours où confluent des intérêts
multiples (intellectuels,
mais aussi matériels :
financiers, économiques, technologiques, sociaux, politiques),
les
problèmes
de décision sontexplicitement posés
en tant que telsdepuis
un peuplus
de trois siècles. Mon ambition n’est pas d’en faire ici une théorieexhaustive,
mais
plutôt
uneanalyse
enprofondeur
surquelques points,
dont lacompréhension peut
influer sur l’attitude àprendre
dans des casd’applications pratiques,
en met-tant
spécialement
l’accent sur le rôle de lastatistique -
étantentendu,
et c’estmême un
point
surlequel j’insisterai fortement,
que lastatistique
n’estqu’un
desmoyens de
réponse
à ladisposition
despraticiens
en mal de décision(surévaluer
son rôle est un écueil à
éviter).
Revue de Statistique Appliquée, 1984, vol. XXXII, n° 1
Mots-Clés :
Décision, Statistique,
Modèles.La
technique mathématique
desstatistiques
à mettre en oeuvre pour leursapplications
neprésente
pas de difficulté(je
neparle
pas, faut-il lesouligner?
de la théorie en
statistique mathématique).
Aucontraire,
lasignification pratique
des
opérations
de caractèrestatistique
est trèsdifficile
àcomprendre.
Il en résulteque la mise en oeuvre des
statistiques
revêtbeaucoup trop
souvent un caractère formel etmécanique, qu’elle
consiste à "faire untest",
"faire uneestimation",
"faire une
analyse
derégression",
"faire uneanalyse
de données" sans se deman- derpourquoi,
ni àquoi
elles servent.Les réflexions
qui
vont êtreexposées
dans cet article ne seront donc pas destinées à proposer sur despoints précis
unprogrès
destechniques statistiques,
mais à attirer l’attention des
praticiens
sur desquestions qu’ils
ont intérêt à seposer, et sur les
conséquences
concrètes etpratiques qu’elles peuvent
avoir.Je toucherai inévitablement au débat bien connu
qui
oppose"subjectivistes"
et
"fréquentistes". L’objet
de ce débat est intéressant en soi(bien qu’il
ait un peutendance à tourner en
rond).
Mais d’unepart, je
me refuse à considérerqu’il
faillenécessairement adhérer à l’une ou l’autre de ces deux
thèses(1) (je
les récuse l’une et l’autre pour des raisonsdifférentes) :
d’autrepart je soulignerai,
aussi souventque ce sera
nécessaire,
que le débat a avant tout à mes yeux uneportée pratique ;
et que, sur des
points importants,
on ne secomporte
paspratiquement
de la mêmefaçon
selon lesréponses qu’on
fait auxquestions d’"interprétation"
du raisonne- mentstatistique.
Afin que cet
exposé
ne seperde
pas dansl’abstraction, je
discuteraid’ailleurs,
non seulement des
problèmes généraux
de ladécision,
mais aussi de situationsparticulières,
tirées de ma propreexpérience
depraticien,
à proposdesquelles
desquestions
délicates seposent.
Je commencerai par un passage en revue des
étapes
du raisonnement statis-tique classique,
décrites etanalysées
dans un ordrelogique,
caractérisé par unedescription
deplus
enplus
détaillée de la "situation décisionnelle" concernée(cet
ordre n’est pas
identique
à l’ordrehistorique
de l’introduction des différentestechniques, qui
s’est faite d’ailleurs par morceaux avec deschangements
de perspec- tive au cours de sesétapes successives).
A
l’exception
de la Théoriestatistique
desdécisions,
ils’agira
detechniques
suffisamment connues de tous les
praticiens
pour que leurdescription
n’entraînepas de difficultés de lecture. En ce
qui
concerne la Théoriestatistique
desdécisions,
des
explications
un peuplus techniques
seront inévitables. Elles sontindispensables,
en outre, pour faire
comprendre
lacomplication fondamentale,
"incontournable"(pour employer
un terme à lamode),
desproblèmes
dedécision, quand
on veut enapprofondir
lacompréhension.
Il. LES ETAPES
LOGIQUES
DU RAISONNEMENTSTATISTIQUE
L’orsqu’un ingénieur
affronte unproblème pratique,
il nepeut jamais
le faireen tenant
compte
de tous ses détails. Il y en aqu’il
considère comme des donnéessur
lesquelles
il est sansaction ;
souvent comme des donnéesglobales,
dans les-(1) Pas plus
qu’à
la bizarre position "logiciste" qu’on y ajoute parfois (cf. t 11 p. 526 ouvr.).11
quelles
onintègre
desquantités
decaractéristiques
secondairesqu’il n’y
a pas lieu de détailler. Il en est d’autre au contraire que l’on considère commesignificatifs ;
ceux en fonction
desquels
onprendra
des décisions. Nous admettrons que le terme de "hasard" se réfère à un certaintype
dephénomènes (que
nous essayerons decaractériser).
Lesphénomènes
duhasard,
oualéatoires,
ne font pasexception
à la
règle :
on doit choisir lescaractéristiques qu’on intègrera
dans leurreprésen-
tation. Le vrai
problème
esttoujours
de savoir cequ’on
considère comme desdonnées
"ultimes", globales,
nonanalysables,
et cequ’au
contraire on doit consi- dérer commesignificatif,
et soumettre àl’analyse.
Leprogrés
de la connaissance revienttoujours
àintégrer
dansl’analyse
unepartie
de cequi
en était autrefoisexclu. Nous allons voir que les
étapes (logiquement)
successives du raisonnementstatistiques,
à savoir :- l’estimation
ponctuelle ;
- l’estimation par intervalle de
confiance ;
- le test
statistique "classique",
au sens de NEYMAN etPEARSON ;
- le choix des
stratégies
dedécision,
au sens de la ThéorieStatistiques
des Déci-sions de WALD
ont en effet pour
caractéristiques d’intégrer
successivement dans lechamp
du rai-sonnement des éléments que les
étapes précédentes
traitent comme des données"ultime s" .
Mais nous verrons aussi que ces
étapes
successivescorrespondent
àchaque
fois à un
éclairage
nouveau duproblème général
de ladécision,
et que la dernièreimplique
un véritable bouleversement dans lacompréhension
d’ensemble des pro- blèmesdécisionnels,
dont il ne me semble pasqu’il
ait ététoujours
perçu dans sa vraie dimension.III. L’ESTIMATION PONCTUELLE
m.l.
L’échantillonnage
aléatoireToute
opération statistique
commence par le choix desobjets
surlesquels
on va chiffrer les
caractéristiques.
Il en estainsi,
pour commencer, de l’estimationponctuelle,
mais cequi
va en être dit concerne aussi bien toutes les formesplus
élaborées du raisonnement
statistique.
L’estimation
ponctuelle
seprésente
comme une forme de la mesure(au
sensmétrologique
du terme(2 )).
Mais c’en est une forme trèsparticulière,
du fait que lacaractéristique
estimée n’estjamais
directement cellequi
intéresse lespécialiste concerné,
mais unecaractéristique transformée
parl’opération d’échantillonnage
aléatoire. A la
caractéristique
directement intéressante est ainsi substituée une autrecaractéristique, qui
lui ressemble fort - etqui même, espère-t-on,
lui estégale -
à savoir un
paramètre
issu d’une distribution deprobabilité.
(2) Le terme de mesure a aussi une signification
mathématique
abstraite, qu’il importe d’autant plus de distinguer de son sensmétrologique
que la Théoriemathématique
de la Mesure est la base de toute la Théorie contemporaine des Probabilités. Lorsque j’emploierai (très rare- ment) le terme "mesure" dans son sensmathématique,
ce sera toujours dans l’expression"Théorie
mathématique
de la mesure".Revue de Statistique Appliquée, 1984, vol. XXXII, n° 1
Premier
exemple
Nous supposons
qu’un ingénieur
des Mines veut savoirquelle
est la richesse d’un filon en un certainmétal, (pour
éclairer une décisiond’exploitation).
Noussupposons en outre que ce filon est entièrement
délimité,
et que son volume est V(connu).
Cequi
intéressel’ingénieur,
c’est la teneur totale dufilon,
soitV6 ;
ouencore sa teneur moyenne 8. Il est
patent qu’elle n’a
rien d’aléatoire.Pour la mesurer par une estimation
ponctuelle,
cetingénieur peut procéder ainsi ( 3) :
il divise idéalement le filon en Npetits
morceauxdisjoints
de mêmevolume,
et il tire au sort n de cespetits
morceaux(ou "prises"), qui
serontanalysés.
Soit
xi X2 xi
les teneursrespectives
en métal desprises. L’ingénieur prendra
pour estimateur de la teneur
moyenne 8
la moyennearithmétique
X = -.n
On
peut
faire à cesujet
deux remarques :1)
Dansl’échantillonnagre aléatoire,
le hasard estcomplètement exogène
par
rapport
auproblème pratique posé.
Ilpeut
être introduit parl’usage
de tablesde nombres au hasard
(dont l’origine
seperd
dans les méandres de leurgénération),
par un programme
informatique
degénération
de suites"pseudo-aléatoires" (4)
parun
dispositif mécanique
ad hoc(tel
que lequartage,
ou les boules de la loterienationale),
ou encore par des simulations destypes
lesplus divers,
comme cellesqui
sont mises en oeuvre par lesorganismes
desondages.
2) Quoi qu’il
en soit, la mesure se fait en deuxtemps :
- d’abord on passe de 0 à
8’, espérance mathématique
deX,
par l’échantil-lonnage aléatoire ;
il fautespérer
que celui-ci est bon(mais
l’est-iljamais
absolu-ment
?) ;
sinon, il introduit une erreursystématique,
oubiais ;
- ensuite on passe
de (J’
àX ;
onpeut dire,
en remontant lachaîne,
que Xest pris
pour mesurede (J’ ;
etdonc, indirectement, de 8 ; quand
on passede (J’
àX,
il s’intorduit une erreuraléatoire ;
dans les cas(possibles)
oùl’espérance
mathé-matique
de l’estimateur n’est pas exactementégale
auparamètre qu’on
veut esti-mer, il
peut
s’introduire un second biais.Deuxième
exemple
Un
ingénieur chargé
de construire unpont
en bétonprécontraint reçoit
un lot de fils d’acier de
précontrainte.
Il veut en caractériser laqualité.
La différence avec le
premier exemple
tient à ce que lescaractéristiques qui
intéressentpratiquement l’ingénieur
ne se résument pas à unesimple
moyepne.En
fait,
il a besoin de connaîtreplus
ou moins une distribution des caractéris-tiques
du fil dans lelot,
et cette distribution ressembleplus
ou moins à une distri-bution de
probabilités.
Onpeut
donc avoirl’illusion,
faisant uneestimation,
de travailler directement sur unobjet
aléatoire. Onpeut
d’ailleurs discuter si cetobjet
(3) Naturellement, la
procédure
réelle est beaucoup plus complexe etraffinée,
et tient compte des connaissances qu’on a sur la formation et la structure des filons ; elle est ici outran- cièrementsimplifiée
pour les besoins del’exposé.
(4) La distinction de ce qui est "essentiellement" aléatoire et de ce qui est "pseudo- aléatoire" renvoie à des
problèmes mathématiques
de très haut niveau. Pour lacompréhension
des situations décisionnelles, elle n’a aucune importance.
13 est vraiment
aléatoire,
ou seulement apparemment. C’est unequestion
depoint
de
vue(s). Quoi qu’il
ensoit, l’opération d’échantillonnage
aléatoire àlaquelle l’ingénieur
va se livrer sur le lot vaengendrer
une autre distribution deprobabi- lité,
dont on souhaitera naturellementqu’elle
soit dans des relationsprécises
avecla distribution des
caractéristiques
dans lelot,
de sorte quepuisse
êtreinterprété
clairement la passage de celle-ci à
celle-là (6 ).
Un second passage sera effectué ensuite, de la distribution deprobabilité
issue del’échantillonnage
aux estimateursqui
auront pour fonction de lareprésenter
pour les besoinspratiques :
moyennes, variances, fractiles et valeursextrêmes, étendues,
etc.Ce
qu’il
fautretenir,
c’est quel’échantillonnage
aléatoireimplique
une modé-lisation, (qui
consiste en lareprésentation
d’unobjet
par une distribution deproba- bilité) ; c’est-à-dire,
enfait,
lespremiers
linéaments del’expression
d’unpoint
devue
pratique
dans touteopération
relevant de lastatistique (point
essentiel surlequel je
reviendrailonguement
dans lasuite).
Il y a des usages relativement élaborés de lastatistique
où le recours à des modèles est évident. C’est le cas desanalyses
de
plans d’expériences (modèles linéaires),
desstatistiques
de processus(modèles
de BOX et
JENKINS,
ouautres),
etc. Dans l’estimationponctuelle
d’unparamètre numérique unique,
il se réduit à si peu de chose(la représentation
d’une caracté-ristique originelle, quelle
que soit sa nature, par unparamètre
issu d’une loi de pro-babilité) qu’il
en devient presque invisible.La modélisation est un moyen de connaissance d’une extrême
généralité ;
elle n’est pas
particulière
à lastatistique.
Lapremière caractéristique
decelle-ci,
bien au-delà de l’estimation
ponctuelle,
est de recourir à des modèles formés par des distributions deprobabilité.
C’est ainsiqu’en
ThéorieStatistique
desDécisions,
on sera amené à considérer un espace dont les éléments sont des distributions de
probabilité,
etqu’on appelle
conventiennellement"espace
des états de la nature".Il doit être évident
qu’il
faut considérerqu’il s’agit
là d’uneappellation contractée ;
cet espace est en fait celui des "modèles des états de la nature".
La
statistique présente
en outre une secondecaractéristique.
Dans les usages directs du Calcul des
Probabilités,
on a affaire à unphéno-
mène aléatoire
qu’on représente
par une distribution deprobabilité (c’est-à-dire
un
objet mathématique
nonaléatoire).
Dans les usagesstatistiques
du Calculdes
Probabilités,
on a affaire à une distribution deprobabilité, qu’on représente
par une variable
(ou
un vecteur, ou unprocessus)
aléatoire. Lesproblèmes
destatistiques
se rattachent ainsi à la vaste classe desproblèmes
inverses.Mais,
comme les distributions deprobabilité
sont desimples objets mathématiques, qu’on
nerencontre pas à l’état natif dans les
phénomènes naturels,
on est bienobligé
de lesfabriquer
ad hoc. C’est la fonction del’échantillonnage
aléatoire. Dans touteapplication
de laStatistique,
il y a nécessairement au moins troistypes d’objets :
des
"objets
de lanature",
des modèlesprobabilistes
de cesobjets,
et des valeurs observées de variables aléatoires.(5) Sur
l’importance
du"point
de vue", voir plus loin (§ VI.2). Si on se place du pointde vue de la technique de fabrication du fil, il se peut que l’ensemble des
caractéristiques
decelui-ci soit à considérer comme une occurrence d’un processus ergodique, c’est-à-dire comme une distribution non aléatoire reproduisant en un sens
précis
une distribution aléatoire.(6) Une situation comparable existe dans toutes les applications
démographiques
dela Statistique, où l’on étudie la distribution de
caractéristiques
(âge, taille, poids, etc.) dansune population. Cette distribution ne doit pas être confondue avec celle de l’échantillon, extrait
de la population par un acte aléatoire ou
pseudo-aléatoire,
sur lequel on fait des mesures ou des observations.Revue de Statistique Appliquée, 1984, vol. XXXII, n° 1
111.2. Ce
qu’apporte,
et ce quen’apporte
pas, l’estimationponctuelle.
Nous avons vu que l’estimation
ponctuelle
fournit une mesureapprochée
d’un
paramètre (ou
d’un ensemble deparamètres)
d’un modèle. Ellepeut
en outre fournir un indicateur de l’erreur commise - mais non pas une bornesupérieure -
sous la forme d’une
variance,
d’une varianceestimée,
ou d’une étendue de l’échan-tillon. L’indicateur
variance,
notamment,permet
de comparer divers estimateurs d’un mêmeparamètre,
et de choisir leplus précis (le plus "efficace").
D’autre
part,
l’estimationponctuelle
ne seprête
pas à sa traduction enconsignes
d’action(Elle
favorise même l’illusionqu’on peut
faire desStatistiques
"à toutes
fins",
sans aucune idée desapplications qu’on
entirera).
L’estimation par intervalle de confiance va avoir pour
objet
de remédier aupremier défaut,
le teststatistique, jusqu’à
un certainpoint,
au second.IV. L’ESTIMATION PAR INTERVALLE DE CONFIANCE
L’estimation par intervalle de confiance est directement
inspirée
de la concep- tion élémentaire de l’erreurphysique
de mesure.l’exemple
leplus simple,
celuide l’estimation de la moyenne d’une variable normale de variance connue, est par- faitement
représentatif.
Soit X =
(X 1, X2 ... Xn )
un échantillon de n variables normalesindépen- dantes,
de mêmedistribution,
de moyenne m(inconnue)
et de variancea2 (connue).
Soit Xi
Pour touteprobabilité
e, onpeut
définir un nombren
_ _
positif te
tel que l’intervalle(X - tel,
X +teo)
contienne la moyenne m avec uneprobabilité
1 - e. Autrementdit,
X est une mesureapprochée
de m, avec uneerreur dont
teu
est une bornesupérieure,
avec laprobabilité
1 - e.On voit bien ce
qu’apporte
l’estimation par intervalle de confiance par rap-port
à l’estimationponctuelle :
desprécisions
sur l’ordre degrandeur
de l’erreurcommise, qui permettent
des raisonnementsinformels,
véritablesembryons
déraisonnements décisionnels : par
exemple,
onpeut
tester la validité d’un modèlequi
affecte à la moyenne m une valeurmo
Simo
est hors de l’intervalle de con-fiance
calculé,
on sera enclin àrejeter l’hypothèse.
Mais on voit en même
temps
lesquestions qu’elle
soulève.D’abord,
celle del’interprétation
duconcept
deprobabilité, qui
a fait couler des flots d’encre dans des bataillesépiques
entre"subjectivistes"
et"fréquentistes".
Pour un
"subjectiviste",
commeSAVAGE,
laprobabilité
e a lasignification
d’une évaluationpersonnelle (subjective)
du"degré
de croyance rationnelle"(selon
une formule due à
Keynes)
dans la réalisation de l’évènementauquel
elles’applique (en l’occurrence,
cet évènement est : "l’intervalle de confiance ne contient pas la moyenneréelle") (7).
Pour un"fréquentiste",
comme vonMISES,
elle est la (7) La thèse de SAVAGE est que l’évaluation"personnelle"
desprobabilités
combineune évaluation initiale, purement originelle et ultime (sans fondement rationnel, pur produit
de la "croyance") et l’information fournie par l’observation. Elle revient en fait à supprimer le concept de
probabilité,
pour le remplacer par celui d’estimateur bayésien de laprobabilité,
jugé
seulopérationnel.
15 limite de la
fréquence
de réalisation de l’évènement dans une suite aléatoire infini d’estimationsrépétées.
J’indique
dès maintenant(et je préciserai plus
loinpourquoi)
que lepoint
de vue
subjectiviste
meparaît
devoir être fermementrejeté -
bien que son attraitsoit
explicable,
et que certaines idéesqu’on
lui rattache soient validables dans une autreapproche - ;
mais que lesréponses "fréquentistes",
bienqu’inspirées
d’idéesplus saines,
et finalementplus intelligibles,
restent entachées de faiblessesqui
neleur
permettent
pas de convaincre. La faiblesse du"fréquentisme"
tient d’abordà ce
qu’il
a de commun avec le"subjectivisme",
à savoir une excessive focalisationsur le seul
concept
deprobabilité
d’un évènementparticulier.
La Théorie moderne des Probabilités ne raisonneplus
ainsi. Sesobjets
son des espaces ou des distri- butions deprobabilité,
où l’on associe defaçon
indissoluble lesprobabilités
à unensemble d’évènements
(une
tribud’évènements),
dont on nepeut
sansdommage
méconnaître la
signification,
comme on le verraplus loin ($ ).
Quoi qu’il
ensoit,
l’estimation par intervalle de confiance pose une autrequestion, apparemment plus mineure,
mais dont lesconséquences
vont se montrerà très
longue portée : Pourquoi,
dansle cas
illustratifchoisi, prendre
un intervallesymétrique
parrapport
à l’estimateur X ?Pourquoi
pas unedemi-droite,
à droiteou à
gauche, -
cequ’on fait, d’ailleurs,
dans d’autres cas - ? Oumême, n’importe quel
intervalle(X - tl a ,
X +t2 a),
pour peu seulementqu’il
y ait uneprobabi-
lité 1 - e
qu’il
contienne la moyenne m ?C’est d’abord une
réponse
à cettequestion
que la Théorieclassique
des testsva nous proposer. Mais sa
réponse
va se trouver être en mêmetemps
l’amorce(seulement l’amorce)
d’une trèsimportante
évolution.V. LA THEORIE
CLASSIQUE
DES TESTS DE NEYMAN ET PEARSONV. 1. Le test d’une
hypothèse simple
contre unecontre-hypothèse simple.
NEYMAN et
PEARSON,
vers1930,
démontrent un théorèmequi apporte
une
réponse
à laquestion
du choix de l’intervalle deconfiance, parmi
tous ceuxde même
risque.
On a vu que l’estimation par intervalle de confiance se
prêtait plus
ou moinsà des
applications
décisionnelles enpermettant
le cas échéant derejeter
unehypo- thèse,
ou, dans le cascontraire,
de lui maintenir(ou peut
être deconsolider)
sonstatut
d’hypothèse envisageable.
Le théorème de NEYMAN et PEARSON va
plus loin,
enopposant
l’une à l’autre deuxhypothèses respectivement appelées l’hypothèse
et la contre-(8) Historiquement, le
fréquentisme
a buté sur un obstacle instructif : la difficulté très grande qu’il y a à définir formellement la notion de suite aléatoire (la définition n’est pasunique, il y a plusieurs façons possibles, pour une suite, d’être aléatoire ; et il y faut des mathé- matiques d’un niveau très avancé). De sorte que l’ambition de von MISES de déduire de cette notion une axiomatique des Probabilités aisément intelligible s’est trouvée ruinée. Cela dit,
la tentative de von MISES n’a pas peu contribué à lancer un courant de recherches mathéma- tiques fécondes. Moralité : il est illusoire de vouloir fonder une axiomatique sur des
présup- posés
philosophiques ; une axiomatique, c’est unesynthèse
de travaux scientifiques. Mais les idées philosophiques peuventsuggérer
des champs de recherches.Revue de Statistique Appliquée, 1984, vol. XXXII, n° 1
hypothèse.
Nous allonsindiquer
son contenu et voir sa mise en oeuvred’après
unexemple
illustratif.Nous
imaginons
uningénieur chargé
deréceptionner
un lot de ciment pourconstruire un ouvrage délicat. Il a besoin d’un très bon
ciment,
bien défini.Or,
c’est un
ingénieur
trèsexpérimenté
et,d’après l’aspect
duproduit livré,
il a l’im-pression
que c’est un autre cimentqu’on
lui alivré,
lui aussi biendéfini,
maisimpropre
àl’usage qu’il
veut en faire. Il saitqu’on peut
lesdistinguer
par une ana-lyse chimique
facile et assezprécise portant, disons,
sur la silice soluble(dans
l’acide
chlorhydrique dilué).
Lepremier
doit avoir une teneur() 0’
et le second91.
1Pour faire le test, on va échantillonner le ciment
(correctement,
nous lesupposons),
et
analyser
npetites prises,
et on obtiendra un ensemble de n résultatsd’essai,
X =(X1, X2
...Xn ) qu’on peut
considérer comme des variables aléatoires indé-pendantes
enprobabilité,
de mêmedistribution,
dont la moyenne est80
si leciment est le bon
ciment,
et81
si c’est le mauvais. Nous admettons enplus
que la distribution desXi
estnormale,
cequi
estplausible
s’ils’agit
d’erreurs de mesuresexpérimentales.
L’ingénieur
doit iciprendre
une décision :accepter
lalivraison,
ou larefuser ;
ou, en d’autres termes, il doit choisir entre deux
hypothèses : l’hypothèse Ho
que 0 =
80
etl’hypothèse Hl
que 0 =91.
La théorie nous ditqu’il peut
le faireen fonction de la valeur de la variable aléatoire X =
- ,
et selon que cetten
_
valeur sera ou non dans un certain sous-ensemble A des valeurs
possibles
de X.Par
exemple,
siX
est dansA,
onacceptera
lalivraison,
et on la refusera dans lecas contraire. A sera
appelé
ensembled’acceptation
del’hypothèse Ho*
Plus
précisément,
le théorème de NEYMAN et PEARSON nouspermet
de déterminer une classe d’ensemblesd’acceptations possibles,
tels queA, qui jouissent
d’unepropriété optimale
que nous allons énoncer maintenant :De toutes
façons,
du fait du caractère aléatoire de la mesure, il subsistetoujours
unepossibilité
de setromper ;
nousappelons
a(ou risque
depremière espèce)
laprobabilité
de refuser la fourniture alorsqu’elle
estbonne ; et (j (ou risque
de secondeespèce)
laprobabilité
del’accepter
alorsqu’elle
est mauvaise.Remarquons
que l’ensembled’acceptation A,
dont le choix faitpartie
dela
procédure
dedécision,
est exactement un intervalle de confiance au niveau de confiance 1 -et (9).
Pour adonné,
nous avons une infinité de choixpossible.
Le théorème de NEYMAN et PEARSON nous dit alors comment choisir celui
qui
rend minimum lerisque
de secondeespèce.
Enl’occurrence,
ce sera une demi-droite,
de la forme(X a) (10 )
si80 81 ;
ou(X
>a)
dans le cas contraire.Ce que
je
viens dedécrire,
c’estl’embryon
de la théorieclassique
des tests ;ce
qu’on appelle
le test d’unehypothèse simple
contre unehypothèse simple.
Ilappelle déjà
des commentaires très instructifs.(9) A ceci
près
que, audépart,
ce n’est même pas forcément un intervalle ; ce peut être n’importe quel sous-ensemble (plusprécisément,
n’importe quel sous-ensemble mesurable, c’est-à-dire auquel on peut attribuer uneprobabilité).
Pratiquement ce sera engénéral
un intervalle, ou un ensemble fini d’intervalles.(10) Nous ne raffinons pas : en particulier nous ne demandons pas si cette demi-droite est ouverte ou fermée.
17
1) C’est
laprésence
d’unecontre-hypothèse
déterminésHl (8
=81)
enface
del’hypothèse
testéeHo (8 = 00) qui fixe
le choix de l’ensembled’accep-
tation
(qui
est en mêmetemps
intervalle de confiance del’hypothèse Ho ) parmi
tous ceux
qui
réalisent lerisque
depremière espèce supposé
donné. Une des lacunes de la théorie de l’estimation par intervalle de confiance est donc comblée.2)
Au niveauembryonnaire qui
vient d’êtredécrit,
la théorie des tests pos- sède unecaractéristique qu’elle
va tendre àperdre
dans sesdéveloppements
ulté-rieurs,
etqui
serarécupérée
dans la théoriestatistique
des décision : les deuxhypothèses
sont traitées defaçon globalement symétrique.
Même si le théorème de NEYMAN et PEARSONprivilégie
lerisque
depremière espèce
a, pour fixer ensuite la valeur durisque
de secondeespèce 0,
il estparfaitement applicable
àl’envers,
et donne le même résultat. Enfait,
il existe troisparamètres,
lesrisques
a et
0,
etl’effectif
d’échantillon n,parmi lesquels
deuxpeuvent
être choisis libre- ment ; le troisième en découle.Cette
symétrie
est un caractère intéressant. Ellesignifie
que, si l’onrejette l’hypothèse Ho’
onpeut
donner à la décision derejet
un contenupositif:
celuide
l’adoption
del’hypothèse Hl. (et
non pas le contenupurement négatif
durejet
deHo)’
Autrementdit,
laporte
estdéjà
entr’ouverte à la considération d’unemultiplicité
de choixpossibles ;
il nes’agira plus d’accepter
ou de refuser unehypo-
thèse
privilégiée,
mais de choisirparmi plusieurs hypothèses possibles.
3)
L’élaboration des relationsqui
définissent un teststatistique peut
conduire à lesinterpréter
comme des relations entre un"signal"
et un "bruit de fond".Par
exemple,
si les variables aléatoiresobservées, qui
sont les coordonnées del’échantillon,
sont des variablesnormales,
de variancea 2
et de moyenne80
ou
81,
selon quel’hypothèse
réalisée estHo
etHl,
on aura(où
h(a, j3)
est une fonction décroissante de a etj3).
Si nous nous donnons les trois
paramètres
a,j3
et n, nous voyons que nousne pourrons obtenir que les
risques
soient inférieurs ou auplus égaux
à a etj3
que si
81 - 80
estsupérieur
ou auplus égal
au second membre de(1).
Nous nepouvons donc discriminer deux
hypothèses
que si leurdistance 10 1 - 801 1
estsupérieure
à un nombre fixé par lesrisques,
la varianceos
et l’effectif d’échantil- lon. Onpeut
dire encore que ces deux derniersparamètres
caractérisent un "bruit defond",
et que la distance entre les deuxhypothèses
est un"signal" qui
nepeut
être
détecté,
compte tenu desrisques
a et0,
que s’il est assezgrand.
N.B. : Les notions de
"signal"
et de "bruit de fond" sont donc relatives à desrisques
donnés.4)
Nous n’avons encore aucun moyen de déterminer "rationnellement"ces
risques.
Lorsqu’il s’agit d’applications
à des contrôles dequalité,
dans le cadre deprocédures normalisées(ou réglementées autrement),
lesrisques
aet {3
sontparfois spécifiés,
etl’ingénieur
n’a pas à sepréoccuper spécialement
de lafaçon
dont ilsont été choisis. En
fait,
ils résultent d’un usageempirique, qui
a montréqu’ils
étaient d’un bon ordre de
grandeur.
Mais,
dans desapplications
moinsstandardisées, (et d’ailleurs,
aussibien,
pourspécifier
les normes etrèglements),
il faut biens’interroger
sur lafaçon
de fixerRevue de Statistique Appliquée, 1984, vol. XXXII, n° 1
les
risques.
Lespraticiens
savent intuitivement que ceux-ci doivent tenircompte :
- du coût de décisions
erronées ;
- de l’information
préalable disponible
sur les vraisemblances deshypothèses
dutest.
Ils doivent être d’autant
plus petits
que le coût des erreurs estplus
élevéet que les
hypothèses
sontplus
vraisemblables.Sont ainsi soulevées deux
questions :
celle du coût des décisionerronées,
et celle de la vraisemblance des
hypothèses ;
mais il est évidentqu’elles
ne sontpas
explicitement posées
par la théorieclassique
d’une manièrequi
permette de progresser vers leur solution.V.2. Extensions de la théorie
La théorie du test d’une
hypothèse simple
contre unehypothèse simple
nes’applique qu’à
des cas tellementparticuliers qu’il
estimpossible
d’en rester là.On a donc cherché à
l’étendre,
mais sans arriver à une théorie véritablement syn-thétique (ce qui n’empêche qu’au
passage, onarrivait,
dans le cadre de cette théoriequelque
peudifforme,
à des résultats fondamentauximportants(11 )). (D’une part,
on a cherché à traiter le
concept d’hypothèses composite,
c’est-à-direposant l’ap- partenance
duparamètre
testé à unensemble, plutôt
quesimplement
sonégalité
à une valeur.On a introduit pour cela le
concept, techniquement utile,
defonction
de
puissance (ou celui, équivalent,
de courbed’efficacité).
D’autre
part,
on a cherché dans certains cas(par exemple
pour les tech-niques
deplans d’expériences)
à construire des testsd’hypothèses multiples,
c’est-à-dire
permettant
de considérerplus
de deuxhypothèses. Cependant,
enrègle géné- rale,
il nes’agit
pas, pour l’utilisateur du test, de choisir entre différenteshypo-
thèses exclusives les unes des autres, mais de démolir une
hypothèse composite
par morceaux, inclus les uns dans les autres. Parexemple,
uneanalyse
derégression portera
sur,disons,
4paramètres,
dont on voudra testerl’égalité
à 0(ce qui signi-
fieraqu’ils
sont sans effet sur la valeur de la variabledépendante).
Un testglobal
montre que
l’hypothèse
doit êtreglobalement rejetée ;
mais celan’empêche
pas quepeut-être
certains de cesparamètres
sontégaux
àzéro,
tandis que d’autresen diffèrent. Un test
d’hypothèse multiple (tel
que les tests S de SCHEFFE ouT de
TUKEY) permet
de décider(avec
unrisque d’erreur) lesquels peuvent
être considérés commenuls,
etlesquels
non.Remarque
Dans ses
développements,
la Théorie des Tests asystématiquement
tendu àestomper
lasymétrie
del’hypothèse
et de lacontre-hypothèse, qui
caractérisait le test d’unehypothèse simple
contre unehypothèse simple,
pourprivilégier
l’unedes
hypothèses.
Il faut bien voir que les deux
schémas,
lesymétrique
et ledissymétrique, correspondent
au moins enpremière analyse
à des viséespratiques
différentes.Même si les deux
objectifs
se combinent leplus
souvent, il estimportant
dedistinguer
celuiqui
visel’acquisition
de connaissances de celuiqui
vise le choix d’un acte deportée pratique parmi
un ensemble d’actespossibles
connues d’avance.(11) Tels que ceux concernant, par exemple, le concept de "résumé exhaustif".