M
G. M ORLAT
Statistique et théorie de la décision
Mathématiques et sciences humaines, tome 8 (1964), p. 1-7
<http://www.numdam.org/item?id=MSH_1964__8__1_0>
© Centre d’analyse et de mathématiques sociales de l’EHESS, 1964, tous droits réservés.
L’accès aux archives de la revue « Mathématiques et sciences humaines » (http://
msh.revues.org/) implique l’accord avec les conditions générales d’utilisation (http://www.
numdam.org/conditions). Toute utilisation commerciale ou impression systématique est consti- tutive d’une infraction pénale. Toute copie ou impression de ce fichier doit conte- nir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
STATISTIQUE ET THEORIE DE LA DECISION*
G. MORLAT
Même si les
statisticiens,
yqui
sont gensraisonnables,
y s’enplaignent
rare-ment,
lastatistique
est unediscipline bien
malnommée,
et de cefait, parfois
mal renommée. Combien de nos
contemporains pensent
encore, avec un personnage deCourteline,
que le métier du Statisticien consiste àcompter
le nombre desexagé-
naires
qui
traversent le Pont Neuf un dimancheaprès-midi.
Il est bien vrai que le rôle de la
statistique,
il y a un siècle oudeux,
c’était de
compter
les choses. ."Science,
ditLittré, qui
a pour but de faire connaîtrel’étendue,
la popu-lation,
les ressourcesagricoles
et industrielles d’un Etat.... Les économistes ont créé un mot pourdésigner
lasciençe
de cettepartie
de l’économiepolitique
- les dénombrements - et
l’appellent statistique".
,Cette vocation de
compter
les choses dont onpouvait
se gausser au siècle der-nier,
y a revêtuquelque noblesse, depuis qu’on
a reconnu combien elle est essentiel- le à la bonne marche dessystèmes économiques,
et donc des sociétés humaines. D’ail-leurs,
si les Incasprenaient
très ausérieux,
avec raison c eux de leurs fonction-naires
qui
étaientchargés
de faire des noeuds sur des ficelles de couleurs diver- ses, tenant ainsi àjour
lesstatistiques
vitales de leur Etat - comment nos con-temporains
n’auraient-ils pasde~ la considération
pour des hommesqui disposent
maintenant de machines à calculer
électroniques, puissantes
etcoûteuses qui
sa- ’ 1vent avec une bonne
précision
dequoi
sont faites lapopulation
et laproduction
de leur pays et
qui peuvent fournir,
surdemande,
augouvernement,
des chiffres pour éclairer ses décisions?Nous devons donc constater que la
statistique,
au sens deLittré,
a connu aucours des dernières décennies une
promotion considérable,
et cela suffirait à enfaire une
discipline pour
l’honnête home. Mais en mêmetemps
le terme destatifs-
tique
aprogressivement désigné
un domaine d’activité intellectuelle infinimentplus vaste,
et c’est de cette évolution là queje
veuxparler.
La
première phase
d’un traité élémentaire destatistique, publié
il y aquel-
ques années aux
Etats Unis,
estcelle-ci-
"Lastatistique
est un ensemble de métho-des pour
prendre
des décisions raisonnables enprésence
d’incertitudes". Comne tou- tes les décisions humaines sontprises
en faced’incertitudes,
cette modeste,phrase indique
donc que lastatistique,
c’est la méthode pourprendre
des décisions. nous voici assez loin de la science des dénombrements. Parquel
chemin lastatistique -
sans
changer
sonétiquette,
ce enquoi
elle apeut
être eutort, puisque
c’estsource de
malentendus,
mais il esttrop
tard de toute façon pour y revenir - parquel
chemin a-t-elle pu passer des dénombrements à la théorie des Décisions? C’estcet
article est le texte d’une conférence prononcée en Novembre 1963 au cours d’une réunion communs à la Société de Statistique de Paris et à la Société des Ingénieurs Civils de France.ce que nous proposons ici de mettre en
lumière,
y enretraçant
sommairement les éta- pes parlesquelles
la méthodestatistique
aprogressé;
nous n’auronsguère
le soucide
respecter
l’ordrehistorique
de cetteévolution,
mais seulement de montrer com-ment s’enchaînent,
y d’une manière toutenaturellee
les diversesconceptions
de lastatistique qui
vont de la"comptabilité
des choses" à lalogique
des décisions..-x-
* *
Les
premières étapes
sont les mieux connues.. Pour rendre commodes les dénom-brements,
et pourprésenter
leurs résultats sous forme succincte etmaniable,
on al’habitude,de
calculer des moyennes et des écarts moyens, d’établirdes polygones
de
fréquence,
ou deshistogram~nes,
desfibrogram~nES,
des courbesd’observations classées,
etquelques
autresreprésentations
commodes. La manière d’établix des tableaux à double entrée - oudavantage -
lesgraphiques représentant
les varia- tions d’unphénomène
selon les valeurs d’unautre,
y leconcept
derégression,
etle calcul des courbes de
régression
pa,r la méthode des moindrescarrés,
la défini-tion et le mode de calcul des divers indices de liaison entre des séries d’observa-
tions,
tels le coefficient decorrélation,
le carré moyen decontingence,
et beau-coup d’autres - tout cela fait
partie
de lastatistique descriptive;
c’est l’art et la méthode pourmanier,
décrire et résumer des observations nombreuses. Mais lors-qu’il s’agit d’interpréter - lorsqu’on
sedemande,
parexemple,
si deux séries d’ob- servationspeuvent
êtreregardées
commehomogènes -
ou si telphénomène dépend
detel autre - les recettes de la
statistique descriptive
ne nouspermettent guère
defonder des raisonnements solides. Il
faut,
y pour de tellesinterprétations,
faireappel
à desmodèles,
et les modèles convenables sont fournis par lecalcul
des pro- babilités.Est-ce suffisant? Le calcul des
probabilités,
au sens strict nousapprend
parexemple
comment onpeut tirer,
y d’un modèleprobabiliste donné,
la loi deprobabi-
lité de la moyenne d’une série d’observations. Cela éclairegrandement
lasituation,
mais le statisticien
voudrait,
connaissant desobservations,,_et ayant quelque
idéesur les modèles
convenables, préciser
ces modèles ou les mettre-àl’épreuve:
ilveut
induire
et non pas déduire Voilàpourquoi
le calcul desprobabilités
n’ estpas
suffisant,
etpourquoi
il a fallu élaborer unediscipline nouvelle,
yétroite-
ment fondée sur le calcul des
probabilités,
maisparfaitement originale cependant,
par les
problèmes qu’elle aborde,
et par sonobjet précis, qui
est de formaliserl’ inductiona
et de fournir lemodèle
de ce que l’observation nousapprend
des mo- dèles. Cette’nouvellediscipline
a continué às’appeler statistique -
ou pour étre-plus précis,
on la dénommetatistique mathématique.
. On
convient généralement
de considérer que lapremière pierre
de la statisti-que
mathématique
futposée
par KarlPearsone
avec son célèbre mémoire de 1900 dans lePhilosophical Magazine:
"On -the criterion that agiven system
of déviations from. thé
probable
in the ,case of aucorrelatecl system
of variables is such that it can bereasonably supposed
to havearised
from randomsampling".,
Enréalité,
le pro-blème de l’ induction
statistique
avait été bien vudepuis
fortlongtemps,
et leRévérend’ Thomas
Bayes
avait écrit unmémoire,
ypublié après
samort,
y en1764
dansles
Philosophical
Transactions -"~~An
essay towardssolving
aproblem
in the doc- - ,trine of chances" - où il
proposait
unesolution générale
à ceproblème.
Mais la"formule de
Bayes" -
dontCondorcet,~ Laplace
etbeaucoup
d’autres usèrent et abu-sèrent parfois - pouvait para1tre
bien arbitraire. Au début de ce siècle il ses-blait souhaitable d’établir la
statistique mathématique
comme unediscipline
indé-pendante
d’élémentssubjectifs
ouarbitraires,
comme lesprobabilités
apriori
de1
Bayes -
et il est assezplaisant
de constater que c’est ens’assignant
un telbut,
que nous savons
aujourd’hui
littéralementinsensé,
que degrands
statisticiens tels que KarlPearson,
Sir Ronald A.Fisher, Jerzy Neyman (pour
ne citer que les noms lesplus justement célèbres)
ont pu en effet échafauder lesprincipaux chapitres
de la
statistique mathématique,
y et donner à cette science uneimpulsion
tellequ’elle
a connu, au cours des dernièresdécennies,
y d’immenses succèsthéoriques
et
pratiques,
etqu’elle
est devenueindispensable
dans laplupart
des domainesd’activités scientifiques.
*
_
* *
Mais les différents
problèmes
de lastatistique mathématique -
estimations desparamètres,
testsd’ hypothèses, analyse
de lavariance, plans d’expériences, statistiques d’ordre,
etc... -pouvaient apparaître
comme une collection de pro- blèmesayant
certes en commun ce trait fondamentald’impliquer
uneinduction,
desobservations au
modèle,
mais pour le reste assez différents entre eux, et presquehétéroclites,
en cequi
concerne leurs fonnalisationsrespectives.
Il a fallu at-tendre l’oeuvre d’Abraham Wald pour voir se réaliser l’unité de la
statistique
ma-thématique,
sous la forme de laThéorie
desFonctions
deDécision Statistique,
dont les divers
chapitres
que nous avons énumérés à l’instantapparaissent
commuedes cas
particuliers.
C’est uneétape
un peu moinsgénéral ement--Connue,
et nousnous y
arrêterons
uninstant,
pour décrire d’unefaçon
sommaire la Théorie propo-sée
par Wald. L’intérêt est double à nos yeux: montrer l’unité desproblèmes
dela
statistique mathématique
et mettre en lumière la nécessité de fondementslogi-
ques que l’on ne
peut
trouver que dans une autrethéorie,
dont nous dironsquel-
ques mots in fine. z
Un
problème statistique comporte
les éléments formels suivants:L’ensemble des
observations, X,
est l’ensemble de tous les"points"
xqui
constituent tous les résultats d’observations
possibles
apriori,
y pour lephéno-
mène étudié.Naturellement,
xpeut
être unnombre,
unvecteur,
une fonction dutemps,
ou tout autre élément quel’ on
voudra.Les diverses lois de
probabilité prises
enconsidération, F,
y forment un en-semble ’Q. Ce sont des distributions de
probabilité
surX,
et ellespeuvent
êtreen nombre
fini,
ou bien former une familleparamétrique,
ou être définies dequel-
que autre
façon.
_Le statisticien
doit,
au vu desobservations, prendre
une décision. Les déci-sions
possibles
d forment un ensembleD. Dans
certains cas, onpeut
être amené àprendre
en considération letirage
au sort entreplusieurs décisions,
y avec des pro- babilités choisies au mieux:’ celasignifie qu’on prend
en considération l’ensembleD*
des distributions deprobabilité
sur D. Dupoint
de vuequi
nousoccupe ici,
cela constitue un détail
technique,
dont nous ne nous encombreronsguère
par la suite.Le
problème posé
est de choisir une décision dchaque
foisqu’on disposera d’observations
x, c’ est à-d.ire de choisir une manière de fairecorrespondre
un dà
toutx;
en d’autrestermes,
t nous devonsenvisager
lesapplications
de X dans D.Une telle
application~ 8 ~
constitue ce que Waldappelle
unefonction -de-décision,
et nous noterons ,A l’ensemble des fonctions de décision 8.
Maintenant,
en vertu dequelles
considérationspeut-on
être amené àchoisir, -
une fonction de décision
plutôt qu’une
autre? Si l’onprend
une décisiond,
alorsque
la loiqui représente
le mieux lephénomène
étudié - ceque
nousappellerons
conventionnellement la "vraie" loi - est
~’,
alors on encourt certainsavantages
etcertains
désagréments. Admettons,
avecWald,
que cesconséquences peuvent
être re-présentées
valablement par unnombre,
que nousappellerons
la"perte":
ce nombreest donc une fonction de F et de
d,
que nousreprésenterons
parDans certains
problèmes
de contrôle desfabrications,
ceconcept peut
être rattaché à uneperte
au sensordinaire,
chiffrée enargent (ce
seraquelque
chosecomme
l’espérance
des divers coûts actualisés résultant d’une décision derejet
oud’acceptation
d’un lot defabrication).
Mais dans laplupart
desproblèmes
statis-tiques,
y il faut admettre que la fonction deperte représente, forfaitairement,
desinconvénients de toute nature: on verra
plus
loinqu’il
suffit de lui attribuer des formes extrêmementsimples
pour retrouver et dans une certaine mesurejustifier,
les
techniques classiques
de lastatistique.
On doit
choisir,
avons-nousdit,
non pas unedécision,
mais une fonction dedécision: la fonction de
perte
n’estqu’un intermédiaire,
et l’on attachera a tou- te fonction de décision bl’espérance
de laperte correspondante,
ce que nous écri-vons :
et que nous
appellerons,
enreprenant toujours
laterminologie
deWald,
fonctionde risque.
Le sens de ce nouveauconcept peut
être renduplus explicite
à une dis-tribution de
probabilité
F surX,
la fonction de décision8, qui
est uneapplica-
tion de X dans
D,
associe une distribution deprobabilité
surD,
et enconséquence également
une distribution deprobabilité
pour W: d’où lapossibilité
d’en calculerl’espérance, qu’exprime
bien la formule ci-dessus.La considération de la fonction de
risque, permet-elle
de choisir unerègle
de décision? Ce sera vrai dans des cas
exceptionnels
où il existera une fonctionde décision
8à
rendant minimum lerisque quel
que soit F.. Mais engénéral,
onpeut
s’attendre à ce que la
règle
dedécision, qui
minimise lerisque dépende
de F.Avant de
signaler
comment onpeut
surmonter cettedifficulté,
illustrons les no-tions que nous venons
d’introduire,
en examinantquelques problèmes statistiques classiques.
*
* *
On connait le
problème
de l’estimation d’unparamètre:
la famille 0 des loisde
probabilité
est parexemple
une famille à unparamètre,
F(x, 0)
et onveut, d’après
desobservations, assigner
une valeurapproximative
à e. C’est bien uncas
particulier
desproblèmes
que nous venons de décrire. Une décision est consti- tuée par la valeur tqu’on
attribuera auparamètre,
unerègle
de décision n’est pas autre chosequ’une
fonctiont(x) -
c’est cequ’on appelle
enstatistique
mathémartique
un estimateur.Supposons
que la fonction deperte
admise soitproportionnelle
au carré del’ écart entre la valeur vraie du
paramètre
et sa valeur estimée:Alors la fonction de
risque
sera, dans le cas d’un estimateur sans biais:- -
Minimiser la fonction de
risque, c’est
donc ici rechercher les estimateurs de va-riance minimum: on voit comment on pourra
justifier
la méthode du maximum de vrai- semblance etquelques
autres méthodesclassiques
d’estimation.Considérons
maintenant unproblème
de test - etpour simplifier l’exposé,
nous admettrons
qu’on
s’intéresse exclusivement à des modèles entièrement déter- minés : on veut tester-unehypothèse simple F,
contre une alternativesimple,
G.L’ensemble X étant au reste
quelconque, Q
est formé des deux lois F et G. L’ensem- ble des décisionspossibles comporte
aussi deuxéléments,...,à
savoir:Dès
lors,
une fonction de décision estsimplement
unepartition
de X en deuxsous-ensembles - ou encore, c’est la donnée d’une
région critique,
ourégion
derejet.
,Prenons pour fonction de
perte
la fonctionreprésentée
par le tableau cri-dessous : .
Autrement
dit,
y laperte
est nullequand
onprend
une décisioncorrecte, égale
à l’unité
quand
on commet une erreur. On calcule sanspeine
la fonction derisque,
yqui
vaut a pour Fet fi
pourG,
adésignant
le seuil designification
dutest,
etj3
la
probabilité
d’erreur de secondeespèce.
Là encore, nous retrouvons tout naturel- lement desnotions classiques.
Dans
l’exemple
de l’estimation - et du moins pour laplupart
des formes de lois deprobabilité d’usage
courant - l’estimateur de varianceminimum,
ou l’esti-mateur de
Fisher,
nedépend
pas de la valeur duparamètre
que l’on cherche à esti-mer : nous sommes dans ce cas
privilégié
où il existe une fonction de décision uni-formément meilleure que toutes les autres - cette
proposition
étant vraie sans res-,
triction
lorsqu’il
existe un estimateurexhaustif,
et n’étant vraiequ’asymptoti- quement
dans d’autres cas.Nous constatons
qu’il
en va tout différemment dansl’exemple
destests;
mêmedans les cas les
plus simples,
il faut choisir uncompromis
entre les deuxrisques
d’erreurs a et
j3:
on sait bienqu’il
n’existe pas de testqui
rende à la fois a etfi
aussipetits
quepossible.
C’est la difficulté
déjà signalée plus
haut: la fonction derisque dépend
desdeux
arguments
F et 8. Il faut décider d’unprincipe
dechoix.
Wald a
suggéré qu’on pourrait
trancher cette àitime. àifficulté enadoptant
leprincipe
du minimax: la fonction de décision retenue serait cellequi
réalise la,., .
condition:
C’est une
règle
deprudence extrà4e,
etl’analogie
formelle entre lesproblè-
mes de la
statistique
et ceux de la Théorie des Jeux à deuxjoueurs
a pu rendre cetterègle
fort séduisante. Mais il convient de noter qu lajustification-.du
mi-nimax dans la Théorie des Jeux réside essentiellement en
ceci,
y que le minimax con-duit à un
point d’équilibre:
si l’un desjoueurs
s’écarte de lastratégie optimwlq,
il sera
pénalisé.
Dans lesproblèmes statistiques, l’un .des joueurs
est le statis-ticien,
l’autre est la"nature", qui
est censée choisir l.aloi
deprobabilité-
Finconnue. On ne
peut guère
considérer sérieusement que lasintérgts-
de la nature sontopposés
à ceux du statisticien - et le minimaxperd
de ce fait touteespèce
de
justification.
’
Wald a étudié par ailleurs une
catégorie
de fonctions de décision dont il amontré tout l’intérêt : ce sont les fonctions de décision de
Bayes,
c’est-à-dire cellesqui
réalisent unecondition
dûtype
, . t;
’
y
étant une distribution deprobabilité
sur des lois deprobabilité
Fest ,appelée
habituellement "distribution deprobabilité
apriori").
Wald a mon-tré que, dans des cas très
généraux,
les foncions de décision deBayes
sont lesseules fonctions de décision admissibles - c’est-à-dire telles
qu’il
n’existe au-cune autre fonction de décision dont le
risque
seraitplus
faible pour tout F. Aux yeux deWald~
ils’agit
là d’unepropriété purement
farmelle et la distribution deprobabilité
aprio,ri
n’estqu’un
élément formelintermédiaire, permettant
de sé-lectiônner une classe de fonctions de décision intéressante: c’est que la statis-
tique
était encore fortementtournée,
il y a une dizained’années,
vers la recher-che de
principes objectifs).
~Aujourd’hui,
un nombre croissant de statisticiens admettant que la recherchey d’unprincipe
de choixobjectif
est vaine. Lesproblèmes
de décisionsstatistiques
dont nous venons
d’esquisser
sommairement lescontours,
entrent dans lacatégorie
des
problèmes
de décision en faced’ incertitudes~
et la Théorie Générale des Déci-sions
nousapprend
que des choixcohérents
ou rationnels - la définitionprécise
de ces
objectifs
nepeut
être traduite dans despostulats
aussi convaincantsqu’on peut
l-e souhaiter - de tels choix sont nécessairement ceux que l’on comnettrait enmaximisant
l’espérance
d’une fonctiond’utilité des conséquences -
ou, cequi
re-vient au
même,
enminimisant l’espérance
d’une fonction deperte
convenablement choisies.L’espérance
doitêtre prise
parrapport
à une distribution deprobabilités
traduisant tous les’
éléments
d’incertitude surlesquels
n’influe pas la décision dustatisticien -
et enparticulier
desprobabilités
doivent être affectées auxéléments de l’ensemble IQ des modèles.
,
C’est
dire
que la seulefaçon
de donner unfondement logique
solide à la sta-tistique~ semble
bien gtre de considérer que les distributions apriori
de Waldreprésentent
uncertain degré
deconnaissance,
ou deconfiance, préalable,
àl’égard
des
diverses lois F.. ".,’
Cela,
c’est enquelque
sorte le droit leplus général.
Dans lapratique
faut-ilrecpmmander
de traduiretouj ours
les connaissances apriori
par ûnQ distribution deprobabilité,
et considérer que tous les efforts de lastatistique classique -
cellequ’on appelait
moderne il y a dix. ans - doivent êtrepassés
parpgrtes
etprofits?
Certains n’hésitent pas à l’affirmer. ~ (
Personnellement,
nous admettons sans réserve que la ThéorieGénérale des
Déci-sions,
y ou encore Théorie de laProbabilité-Utilité
y constitue le seulmodèle logique
valable. Mais le choix effectif des
probabilités
apriori,
éveille dansbeaucoup
desituations
pratiques
desscrupules trop
vifs pourqu’on puisse
penserqu’ils
sontdénués de fondement. Il convient de
juger
en connaissance de cause, et danschaque
cas
particulier, quels inconvénients pèsent
leplus lourd,
de ceux d’un choix ha-sardeux des
probabilités
apriori,
et de ceux d’unerègle
de choixconventionnelle, permettant
de s’en passer.Heureusement,
dans lesproblèmes;les plus
courants de lastatistique,
onpeut
reconnaître que ce. dilemne est facilementtranché.
Nous avonseu l’occasion de constater que le
problème
de l’estimation desparamètres
donnelieu,
sous certainesconditions,
à unerègle
de décisionoptimale
évidente. Onpeut montrer,
y d’autrepart,
que dansbeaucoup
deproblèmes,
detests,
deshypo-
thèses trèsgénéralement
raisonnables concernant à la fois desprobabilités
apriori
des diverses
hypothèses
et les coûts des diverses erreurs,permettent
dejustifier
les méthodes
classiques -
de montrer que larègle optimale,
au sens de la Théoriedes
Décisions,
s’écarte assez peu de la conventioncourante, qui
consiste à choisirdes tests
ayant
un niveau designification
faible. Bienentendu,
cettepropriété
n’est nullementgénérale,
c’est une des raisons pourlesquelles,
il nous semble né-cessaire que les
Ingénieurs,
demême que
les autres utilisateurspossibles
de lastatistique,
soient informés desrapports
entre lestechniques statistiques
et laThéorie de la
Décision;
nous avonsessayé,
d’unefaçon beaucoup trop
succinctesans
doute,
d’en donner seulement lesgrandes lignes.
Peut être eût-il été bond’esquisser
avecplus
deprécision
le contenu de la Théorie Générale desDécisions;
mais ceci est une autre histoire....