R EVUE DE STATISTIQUE APPLIQUÉE
H ARALD C RAMER
Probabilité mathématique et inférence statistique.
Quelques souvenirs personnels sur une importante étape du progrès scientifique
Revue de statistique appliquée, tome 31, n
o3 (1983), p. 5-15
<http://www.numdam.org/item?id=RSA_1983__31_3_5_0>
© Société française de statistique, 1983, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.
sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les conditions générales d’uti- lisation (http://www.numdam.org/conditions). Toute utilisation commerciale ou im- pression systématique est constitutive d’une infraction pénale. Toute copie ou im- pression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
5
PROBABILITE MATHEMATIQUE ET INFERENCE STATISTIQUE
Quelques souvenirs personnels
sur uneimportante étape du progrès scientifique (1)
HARALD CRAMER Traduit par A. VESSEREAU
RESUME
Dans cet article je
présente
quelques souvenirs personnels dudéveloppement
de lathéorie de la
probabilité mathématique
et ses applications à l’inférence statistique pendantles vingt années entre les deux guerres mondiales,
précédés
et suivis de quelques notes som-maires sur le
développement
avant 1920 etaprès
1940.SUMMARY
The paper gives some personal recollections of the development of mathematical proba- bility theory and its applications to statistical inference during the twenty years between the two world Wars, preceded and followed by some brief notes on the development before 1920 and after 1940.
1. INTRODUCTION
C’est pour moi un
grand
honneur d’avoir été invité à faire cetexposé
dans lecadre du troisième "Pfizer
Colloquium",
etje
suis très touché desparoles
de bien-venue extrêmement aimables
qu’il
m’a été donné d’entendre. Je suis heureux d’avoir eu cette occasion de revenir à l’Université duConnecticut,
dontj’ai gardé
un si
agréable
souvenir.Je me propose
d’évoquer quelques
souvenirspersonnels
touchant deux domainesscientifiques importants :
la théoriepurement mathématique
desproba-
bilités et la
méthodologie
de l’inférencestatistique.
Bienqu’intimement
et nécessai-rement
liés,
ils ontprogressé parfois
defaçon plus
ou moinsindépendante, parfois
en étroite liaison. On
peut
trouver desexemples
de ces deuxtypes
de démarchesau cours du
développement
intensequi
seproduisit
dans les 20 années entre les deux guerresmondiales,
etqui
aboutit à unecomplète
transformation dans cesdomaines
scientifiques.
(1) Cet article est une traduction de l’article "Mathematical Probability and Statistical Inference: Some personal recollections from an important phase of scientific development",
paru dans la Revue Internationale de Statistique (Vol. 49, n° 3, pp. 309-317,1981). Il corres- pond à la conférence donnée le 12 mai 1980 par le célèbre statisticien suédois H. CRAMER lors du troisième "Pfizer Colloquium" organisé par le
département
de statistique de l’Univer- sité du Connecticut. Nous remercions vivement le Professeur H. CRAMER de nous avoir donné l’autorisation de publier la traduction de cet article, ainsi que l’Editeur de la Revue Interna- tionale de Statistique.Revue de Statistique Appliquée, 1983, vol. XXXI, n° 3
Mots-Clés : Théorème central
limite ; Régions
deconfiance ;
Probabilitéfiduciaire ; Fondements
du calcul desprobabilités ;
Estimationstatistique ;
Pro-cessus
stochastique.
La
plus grande partie
de monexposé
sera consacrée àquelques
souvenirssur cette
période
de 20 ans ;j’ajouterai quelques
remarques diverses sur lapériode qui
suivit. Jeparlerai
d’unpoint
de vue strictementpersonnel,
donnant mesimpres-
sions sur les évènements
qui
suscitèrent monintérêt,
tels queje
me lesrappelle aujourd’hui,
bien des annéesaprès.
Je commencerai par un bref panorama du
développement qui intervint,
jusqu’à
la fin de lapremière
guerremondiale,
dans les deux domaines quej’ai évoqués
tout à l’heure.2. LA THEORIE DES PROBABILITES AVANT 1920
La
première
tentative d’utiliser ce que nousappelons
maintenant la "mathé-matique
desprobabilités"
pourprédire
les valeurs defréquences statistiques
a pourorigine,
comme chacunsait,
le"problème
desjoueurs".
Ceux-ci avaientconstaté,
à leurs
dépens,
quel’expérience pratique
était en désaccord avec leur "calcul des chances". Il est bien connu que l’un de cesjoueurs malchanceux
consulta BlaisePASCAL,
àParis,
vers les années1650,
et que ce fut lepoint
dedépart
d’uneétude
scientifique
desprobabilités qui,
trèsrapidement,
suscita un vif intérêt.James
BERNOULLI,
de la célèbre famille de mathématicienssuisses,
fitun
exposé
de cette nouvelle théorie dans son ouvrageposthume
de 1713 : "ArsConjectandi"
ou "The Art ofConjecture".
Il est intéressant derappeler qu’en réalité,
les termesqu’il
utilisa étaient "ArsConjectandi
siveStochastica",
etje
crois que c’est la
première
foisqu’apparaît
le terme"stochastique" qui, depuis lors,
a été trèsgénéralement
utilisé. Dans sonremarquable
ouvrage, BERNOULLI expose la théoriemathématique, jusqu’au point
dedéveloppement qu’elle
avaitalors
atteint,
et fait observerqu’il
estpossible
del’appliquer
à desquestions diverses,
non seulement dans le domaine desjeux,
mais aussi en sciencessociales,
en économie et en
météorologie.
Il y démontre son théorème bien connuqui,
àpartir
d’uneprobabilité
connue,permet
deprédire
une valeurapprochée
d’unefréquence statistique,
etinversement,
àpartir
d’unefréquence observée,
d’obtenirune estimation de la
probabilité correspondante.
Il estbon, je crois,
derappeler
que James BERNOULLI a été le
premier
à voir lapossibilité
d’utiliser la théorie desprobabilités
comme outilpermettant
des inférences solidement fondées àpartir
de donnéesstatistiques.
C’est en
1812,
presque exactement cent annéesaprès
"ArsConjectandi",
que fut
publié
le célèbre ouvrage de LAPLACE : "ThéorieAnalytique
des Pro-babilités". Celui-ci couvre un
large domaine,
à la fois en théoriemathématique
et en
applications statistiques,
et sa lecture reste encorestimulante ;
il est cepen- dantregrettable qu’il
manque souvent derigueur mathématique,
et il est surpre- nantqu’on n’y
trouve aucune discussion sur le bien fondé desapplications
de lathéorie
mathématique.
PourLAPLACE,
la définition de laprobabilité
basée sur leconcept
des "caségalement possibles", qui
convient auxjeux
de purhasard,
étaitde toute évidence
applicable
en tout domaine. En outre, laprincipale
contributionthéorique
deLAPLACE,
laproposition
trèsimportante
connue en théorieproba-
biliste sous le nom de "théorème central limite" n’est
qu’incomplètement
démontrée.
Durant une
partie
de sacarrière,
LAPLACE fut l’un des ministres del’empereur Napoléon, qui
par la suite lui fit lacritique
d’avoir introduit"l’esprit
des infiniment
petits"
dans lapratique
administrative.7
Néanmoins,
les travaux de LAPLACE furent lepoint
dedépart
de laplupart
des recherches en
probabilité
et enstatistique pendant
tout le sièclequi
suivitla
publication
de la "ThéorieAnalytique".
Je ne dirai ici quequelques
mots desdeux
principales lignes
de recherche suivies au cours de cetteépoque,
etqui
se révè-lèrent
particulièrement importantes
pour lesdéveloppements
ultérieurs. Jeparlerai
en
premier
lieu des travaux sur le théorème central limite énoncé parLAPLACE,
et ensuite de la discussion sur les fondements de la théorie des
probabilités.
Les mathématiciens du dix-neuvième siècle étaient très conscients que le théorème central limite énoncé par LAPLACE n’avait pas reçu une démonstration
rigoureuse,
etqu’il
serait de laplus grande importance
d’en établir une.Après
ungrand
nombre de tentativesinfructueuses,
c’est finalement en 1901 que le mathé- maticien russe LIAPOUNOV réussit à donner une démonstrationcomplète, rigou-
reuse sous certaines conditions. LIAPOUNOV utilisa
l’important
outilanalytique
connu
aujourd’hui
sous le nom de "fonctioncaractéristique
d’une distribution deprobabilités",
mais son travail restapendant quelque temps
à peuprès ignoré ;
ce n’est que
beaucoup plus tard,
vers les années1920,
que d’autres recherchessur le même
sujet
furententreprises.
D’un autre
côté,
les fondements de la théorie desprobabilités
furentlongue-
ment discutés par
mathématiciens,
statisticiens etphilosophes,
et ils demeurentun
sujet
fortement controversé. Certainsphilosophes
s’efforcèrent de donner unesignification
claire à la notion des "caségalement possibles"
surlaquelle
LAPLACEavait fondé sa définition
générale,
mais ils n’obtinrent aucun résultat convaincant.Estimant que cette direction de recherche aboutissait à une
impasse,
d’autresauteurs s’efforcèrent de trouver une définition radicalement
différente,
baséesur la stabilité des
fréquences statistiques empiriquement
observées dans unelongue
série. La tentative laplus
élaborée dans cette direction est celles de VONMISES,
un mathématicienallemand, qui plus
tard travailla aux U.S.A..VON MISES fonda sa théorie sur deux axiomes concernant le
comportement
limite desfréquences statistiques
dans uneséquence
illimitéed’épreuves.
Il eutdes
partisans enthousiastes,
mais aussi de sévèrescritiques.
Parmi cesderniers, je
dois notammentsignaler
le célèbreprobabiliste français
Paul LEVYqui écrivit,
dans son
autobiographie rétrospective
de1970, qu’il
est aussiimpossible
d’obtenirdans cette voie une définition satisfaisante de la
probabilité,
que de résoudre laquadrature
du cercle.3. UNE DECADE DE PREPARATION
Les travaux de VON MISES
parurent
en1919,
au seuil d’une nouvelle ère de la théorie desprobabilités.
J’étais alorsjeune,
étudiant cette théorie et sesappli- cations,
etnaturellement,
ils suscitèrent de mapart
un vif intérêt.Bien que
personnellement
trèscritique
àl’égard
de sonaxiomatique, je
trou-vais dans les travaux de VON MISES l’énoncé d’un
principe auquel j’agréais
de toutcoeur et
auquel j’agrée
encore. A savoir que la théorie desprobabilités
devrait être"une science
naturelle,
de même nature que lagéométrie
ou lamécanique
théo-rique" ("a
natural science of the same kind asgeometry
or theoreticalmechanics"), ayant
pourobjet
de décrire certainsphénomènes observables,
liés à desexpériences aléatoires,
non pas exactement mais avec un certaindegré
d’abstraction et d’idéa- lisation("not exactly,
but with some abstraction andidealization").
Il me semblaitRevue de Statistique Appliquée,1983, vol. X XX 1, no 3
naturel
d’exprimer
cepoint
de vue en disant que la théorie desprobabilités
devraitêtre considérée comme un modèle
mathématique
de cette classe dephénomènes.
Cependant, je pensais
que VON MISES n’avait pas dans l’élaboration de son sys-tème,
étéjusqu’au
bout de sesconséquences.
Ce futplus
tard l’oeuvre deKOLMOGOROV,
dont l’aboutissement fut une formalisation stricte de la théorie desprobabilités,
surlaquelle je
reviendrai tout à l’heure.Durant les années
1920, je
suivis avec un vif intérêt le nouveau etpuissant progrès
international de la théoriemathématique
desprobabilités,
etje
vais mainte- nant donnerquelques
souvenirs couvrant cettepériode.
Ce ne futqu’un
peuplus tard,
vers1930,
queje
me trouvai activementengagé
dans lesapplications
de l’infé-rence
statistique.
Dans un article paru en
1920, Georges POLYA, qui
travaillait alors en Suisse-plus
tard en Californie- introduisitl’expression
"théorème central limite de la théorie desprobabilités", qui depuis
a été universellementadoptée. Rappelant
les travaux de
LIAPOUNOV,
il discuta de ses relations avec d’autres branches del’analyse mathématique.
Peuaprès,
en1922,
le mathématicien finlandais J.W.LINDBERG, appliquant
une nouvelleméthode,
montra la validité du théorème central limite sous des conditionsplus générales
que celles énoncées par LIAPOUNOV. La condition de LINDBERGjoua plus
tard un rôleimportant
dansles recherches
entreprises
pour trouver des conditionsqui
soient à la fois nécessaires et suffisantes.Comme chacun
sait,
le théorème central limite établit que, sous certainesconditions,
la distribution deprobabilité
d’une somme convenablement norma-lisée de variables aléatoires
indépendantes,
tend vers la distribution normale -oude LAPLACE-GAUSS-
lorsque
le nombre de termesaugmente
indéfiniment.LIAPOUNOV avait donné une limite
supérieure
de l’erreur commiselorsque,
pourun nombre fini de termes, on
remplace
la distribution réelle par la distribution limite. Cette erreur limite était excessive dans lesapplications
à la théorie durisque
en assurance, àlaquelle je
m’intéressaisalors,
etje
me demandais s’il neserait pas
possible
d’obtenir uneapproximation
meilleure en considérant la distri- bution normale comme lepremier
terme dequelque développement asymptotique.
Dans deux articles parus en 1925 et
1928, je
démontrai que ledéveloppement
connu sous le nom de "Séries
d’Edgeworth",
étudié par EDGEWORTH defaçon purement formelle, possédait
effectivement lespropriétés asymptotiques
queje
recherchais. J’obtins ce résultat par la méthode des fonctionscaractéristiques,
utilisée
précédemment
par LIAPOUNOV.Dans un article
remarquable
daté de1927,
le mathématicien russe S.N.BERNSTEIN discuta de l’extension du théorème central limite à la somme de variables aléatoires non nécessairement
indépendantes.
La méthodequ’il
intro-duisit à propos de ce
problème
conduisit par la suite àd’importants
résultats.Vers la même
époque,
le mathématicienfrançais
Paul LEVYpublia
lepremier
de ses trèsimportants
travaux sur la théorie desprobabilités.
C’est dans son "Calcul desprobabilités" (1925),
que l’on trouve pour lapremière
fois le traitementsysté- matique
des variablesaléatoires,
de leur distribution deprobabilité,
et de leursfonctions
caractéristiques.
Cet ouvrageinaugure
le transfert de la théorie desproba- bilités,
d’une collectiond’exemples plus
ou moinsillustratifs,
vers une théoriemathématique importante qui
lui estliée,
transfertqui
fut ensuiterapidement
et définitivement achevé.
Dans la dernière
partie
de la décade1920,
il devint évidentqu’un
nouveau etpuissant développement
de la théorie desprobabilités
était en train de naître en9 Union
Soviétique.
J’ai cité les travaux de BERNSTEIN. Les deuxgrands
mathéma-ticiens A.Y. KHINTCHINE et A.N.
KOLMOGOROV,
encore trèsjeunes
en1920,
avaient
déjà
commencé leurs travaux, bien que leursprincipales
contributions datent des années 1930. En1925,
dans un article commun, ils démontrèrent le fameux "théorème des troisséries",
donnant les conditions nécessaires et suffi- santes pour la convergence de séries dont les termes sont des variablesindépen-
dantes. La
probabilité
pour que de telles sériesconvergent
nepeut
être que 0 ou1,
cequi
constitue un casparticulier
de la "loi de zéro ou un" découverte à la mêmeépoque.
En1929,
KOLMOGOROV démontra la loi maintenant bien connue dite"loi du
logarithme itéré", précédemment
découverte par KHINTCHINE dans lecas
particulier
où les variables aléatoires sontsimplement
les chiffres d’une fractiondyadique
ou décimale.Après
avoir été considéré comme relevant de la pure théorie de la mesure, lagénéralisation
de ce résultat par KOLMOGOROVprépara
la voieà une identification entre
probabilité
et mesure,laquelle
aboutitrapidement.
4. LE PASSAGE DES ANNEES 1930
En
jetant
unregard
en arrière sur lagenèse
de cette nouvelle théorie desprobabilités,
il meparaît
maintenant évidentqu’elle s’imposa
vraiment lors de lapublication
en 1933 del’ouvrage
de KOLMOGOROV:"Grundegriffe
derWahrscheinlichkeitsrechnung".
Dans celui-ci l’auteur pose les fondements axioma-tiques
d’une théorieabstraite,
destinée à servir de modèlemathématique
d’éventua-lités observables lors
d’expériences
aléatoirementrépétées.
Leconcept
fondamental de cette nouvelle théorie est leconcept
maintenant familierd’espace
deprobabilité (03A9 , A , P),
où SZ est un espace depoints
wappelés
événements élémentaires.D’autre
part,
A est une aalgèbre
d’ensembles S dans03A9, qui
sont lesreprésentations conceptuelles
d’événementsobservables,
tandis que P est une mesure deproba-
bilité définie pour tous les ensembles
appartenant
à A. Leconcept
de variable aléatoire x =x (w)
estintroduit,
d’une manièrequi
nous est maintenant familière maisqui
en 1933 constituait une radicaleinnovation,
comme une fonction A -mesurable de l’évènement élémentaire w. Toute la théorie des variables aléatoires et des distributions deprobabilité
est construite sur cette base. Leconcept
deprobabilité
conditionnelle est traité d’une manière entièrement nouvelle.L’ouvrage publié
en 1933 par KOLMOGOROV reste encore un des documents de base de la théorie moderne desprobabilités.
Alors que ces nouvelles idées faisaient leur
apparition, je
venais d’être nommépremier
titulaire d’une chaire d’ActuariatMathématique
et deStatistique
Mathéma-tique
à l’Université de Stockholm. Je travaillais avec unpetit
groupe d’étudiants ambitieux etintelligents,
et nous suivions avec un vif intérêt lesdéveloppements qui
seproduisaient
autrepart.
WILLFELLER, qui
avait été chassé par les nazis d’une chaire d’universitéallemande,
vint sejoindre
à nous en 1934 et resta àStockholm
pendant cinq
ans,apportant
des contributions degrande
valeur à nostravaux, avant de nous
quitter
en 1939 pourpoursuivre
sa carrière renommée auxU.S.A..
Durant la
première partie
de la décade1930,
nous nous sommes surtout intéressés dans notre groupe aux travauxprobabilistes
des mathématiciensfrançais
et russes. La théorie des fonctions
caractéristiques
nousparaissait
ouvrir un vastechamp
depossibilités
nouvelles. L’addition de variables aléatoiresindépendantes correspond
à lamultiplication
de leurs fonctionscaractéristiques,
et il était naturelRevue de Statistique Appliquée, 1983, vol. XXX 1, n° 3
de considérer la distribution de
probabilité
d’une somme comme leproduit
sym-bolique
des facteurs constitutifs des distributionscomposantes.
Une distribution deprobabilité qui peut
êtrereprésentée
commeproduit symbolique
d’un nombrequelconque
de facteurs mutuellementidentiques
est dite infiniment divisible.La distribution
normale,
la distribution de POISSON et les distributions stablesappartiennent
à cetteclasse, qui
a étéspécialement
étudiée par LEVY et KHINTCHINE. Dans un admirable article de1934,
LEVY donne uneexpression générale
de la fonctioncaractéristique
d’une distribution infiniment divisible. Ilconjecture
à cette occasion que tout facteur d’une distribution normale doit lui- même êtrenormal,
écrivantqu’il
considère cela comme trèsprobable,
maisqu’il
n’a pas été en mesure de le démontrer. J’ai eu l’heureuse chance de trouver une
démonstration basée sur les
propriétés
des fonctionscaractéristiques,
et,quelque temps après, RAIKOV,
en UnionSoviétique,
démontra que la distribution de POISSONjouissait
de la mêmepropriété.
Les conditions de validité du théorème central limite énoncées par LIAPOUNOV et LINDBERG furent
généralisées
parLEVY,
KINTCHINE etFELLER,
travaillant en étroit contact. Ce fut FELLERqui,
lepremier,
décou-vrit les conditions à la fois nécessaires et
suffisantes ;
ses travaux et leurpublica-
tion datent de son
séjour
à Stockholm. Dans ma brochure deCambridge
"Random Variables andProbability
Distributions"(1937), je
résumai les travaux de notre groupe deStockholm,
en les fondant sur les axiomes de KOLMOGOROV. Lesprincipales parties
de cepetit
ouvrage concernent la théorie des distributions deprobabilité
et des fonctionscaractéristiques,
et sonapplication
au théorème central limite et à sesdéveloppements asymptotiques.
Un autre
pôle
d’intérêt de notre groupe de Stockholm dans les années 1930 fut la théorie et lesapplications
des processusstochastiques,
unsujet
tout à faitnouveau à cette
époque.
Dans unremarquable
article de1923,
Norbert WIENER avait donné une déductionrigoureuse
du modèleprobabiliste
du mouvement molé-culaire brownien introduit par EINSTEIN. Mais cet article était très difficile à
lire,
et nous n’en avions pas vu la
signification jusqu’à
ce que legrand
ouvrage de KOLMOGOROV nous eut tracé la voie. En1931,
KOLMOGOROV étudia la classe de processus connus maintenant sous le nom demarkoviens,
dont le processus de mouvement brownien est un casparticulier.
Il introduisit leséquations
différen-tielles
qui,
sous des conditions de continuitéappropriées,
déterminent leurs distri- butions deprobabilité.
Unpeut plus
tard FELLERcompléta
ce travail sous desconditions
plus générales,
où les relations de base sont dutype intégro-différentiel.
D’autres membres de notre groupe s’intéressèrent à la
catégorie particulière
desprocessus markoviens connue sous le nom de processus à accroissements
indépen- dants, qui
sont étroitement liés aux distributions infinimentdivisibles,
etqui
ontd’importantes applications
dans la théorie desrisques
en assurance.Un processus markovien intervient
lorsqu’une
variable aléatoire évolue dans letemps
de tellefaçon qu’à
tout instant sespropriétés probabilistes
futures sontcomplétement
déterminées par son étatprésent,
son histoirepassée
n’intervenant pas. En1934,
dans un articlefondamental,
KHINTCHINE fit observer que cettehypothèse
n’est pas valable dansbeaucoup d’applications importantes
telles que cellesqui
seprésentent
enmétéorologie,
en économie et ensociologie,
où l’on doittenir
compte
de toutl’historique
du processus. Comme modèleprobabiliste adapté
à ces
situations,
il introduisit la classe de processus actuellementappelés
"station-naires",
où les distributions deprobabilité sous-jacentes
sontplus
ou moins inva-riantes par une translation dans le
temps.
Il donna unereprésentation
de la fonctiond’autocorrélation d’un tel processus par une
intégrale
deFOURIER-STIELTJES,
11 et un peu
plus
tardje
donnai lareprésentation
de la variable aléatoire elle-même associée au processus par uneintégrale stochastique
du mêmetype.
Dans sa thèsede
1938,
HERMANWOLD,
à cetteépoque
l’un de mesétudiants,
traita de la classe des sériestemporelles stationnaires,
et démontra pour celles-ci un théorème dedécomposition, largement
étendu par la suite à toute une classe de processusstochastiques.
C’est au cours de ces
années,
vers le milieu de la décade1930,
queje
com-mençai
à m’intéresser deprès
aux travaux des statisticiensbritanniques
et améri-cains.
Naturellement, j’avais déjà depuis longtemps pris
connaissance de la littéra- ture sur les courbes defréquence,
la corrélation et larégression,
associée aux nomsde Karl
PEARSON,
G.U. YULE et autres. Maisj’avais
la ferme -et sans doutequelque peut
excessive-impression
que tout cela était biensuperficiel
et sansgrand
intérêt. Les
premiers
travaux de R.A.FISHER,
vers les années1920,
étaient denature toute différente. Ils avaient clairement pour but de
permettre
des inférences irréfutables àpartir
de donnéesstatistiques ;
et ils étaienttoujours
intéressants etstimulants,
même dans les cas oùje
n’étais pas d’accord avec l’auteur. Les travaux de FISHER sur les distributions deprobabilité multidimensionnelles,
l’estimationstatistique
etl’emploi
de la méthode du maximum de vraisemblance me firentune
grande impression.
Mais FISHER utilisait une théorie desprobabilités qui manquait
encore de basesrigoureuses,
et il admit lui-même que certains résultats de son admirable article de 1925 sur l’estimationstatistique
n’étaient pas encorecomplètement
démontrés. Naturellement cela m’incita à allerplus
loin et à recher-cher, chaque
fois quepossible,
des démonstrations.Au début de la décade
1930,
il devint évident que la situation concernant les"statistiques britanniques"
était extrêmementcontroversée,
pour ne pas direplus.
FISHER
critiquait
vivementl’emploi
du célèbre théorème de BAYES pour l’esti- mation duparamètre
inconnu d’une distribution deprobabilité,
et luiopposait
sapropre méthode du maximum de vraisemblance. Bien que mettant l’accent sur la différence entre les
concepts
deprobabilité
et devraisemblance,
il considéraitcependant
-d’unefaçon quelque
peusurprenante
selon moi- ces deuxconcepts
comme des mesures alternatives d’une connaissance rationnelle
("alternative
mea-sures of rational
belief).
Et il affirmaitqu’à partir
d’un échantillonstatistique
connu, il est
possible d’exprimer
notre connaissanceincomplète
de lapopulation
en terme de vraisemblance
("express
ourincomplete knowledge
of thepopulation
in terms of
likelihood"),
et deporter
unjugement probabiliste
définitif sur leparamètre
inconnu("a
defmiteprobability
statement about the unknown para-meter").
Ils’agit
là de la fameuse "distribution fiduciaire" duparamètre
en cause.Je considérai comme tout à fait
impossible
de suivre FISHER dans cette nouvellevoie, qui
me semblait basée sur un véritabledérapage mathématique.
Danscertaines
applications,
il estlégitime
de considérer la valeur d’unparamètre
inconnucomme déterminée par une
expérience aléatoire,
et la méthode de BAYES est alors clairementapplicable.
Mais dans d’autres cas -etje
crois que c’est lamajorité-
le
paramètre
estsimplement
une constanteayant
une valeur fixée maisinconnue,
et la déduction fisherienne d’une distribution fiduciaire est en évidente contradic- tion avec la théorie moderne des
probabilités.
A cette
époque,
vers le milieu des années1930, Jerzy
NEYMAN travaillaitencore en
Angleterre.
Il avait été élevé dansl’atmosphère
des traditions mathéma-tiques polonaises,
et il mettait aupoint
une méthode d’estimationstatistique
par intervalles deconfiance,
ouplus généralement
parrégions
deconfiance,
baséesur ce
qu’il appelait
la "théorieclassique
modernisée"("modernized
classicalRevue de Statistique Appliquée, 1983, vol. X XX 1, n° 3
probability theory").
Ses travaux furent vivementcritiqués
par FISHER. Je suivais la discussion dans lespublications
de laRoyal
StatisticalSociety
etailleurs,
et ilme
parut
très vite évident quel’argumentation
fiduciaire de FISCHER était erronée et que, dûmentcorrigée,
elle conduirait àquelques
chose de très voisin de la théorie de NEYMAN. FISHER manifesta aussi une viveopposition
aux travauxconjoints
de NEYMAN et
Egon
PEARSON sur le test deshypothèses statistiques qu’ils
avaient
entrepris
à cetteépoque.
Un peuplus
tard(1939) lorsque l’exposé complet
de NEYMAN tomba entre mes
mains, je
me suis rallié totalement à cette trèsimportante théorie, qui
fut ensuitecomplétée
d’une manière trèsremarquable,
ainsi que cela est
exposé
dansl’ouvrage remarquable
et bien connu d’ErichLEHMANN.
Ma brochure de
Cambridge,
et la démonstration quej’avais
donnée de laconjecture
deLEVY,
me valurentquelques
invitations à faire desexposés
en diffé-rents
lieux,
etje
fus heureux de saisir cette occasion de rencontrerquelques
unsdes auteurs dont
j’avais
suivi les travaux avec un trèsgrand
intérêt. Auprintemps 1937, je
fus invité àParis,
pour donnerquelques
conférences à la Sorbonne. Desprobabilistes français, je
connaissais FRECHET delongue date, depuis
lepremier congrès
international demathématique auquel j’avais
assisté en 1920. Cette foisje
rencontrai Paul LEVY etquelques
membres de laplus jeune génération, DUGUE,
FORTET et LOEVE. Il me
parut
évident que LEVY avait été l’un des chefs de file dans ledéveloppement
de la théorie desprobabilités
-sonimportant
ou-vrage "Théorie de l’addition des variables aléatoires" venait
juste
d’êtrepublié.
Un peu
plus tard,
dans la même année1937,
se tint à Genève une conférencesur les
probabilités
et lastatistique mathématique,
et ce fut pour moi tout à faitpassionnant
de rencontrer ungrand
nombre depersonnalités scientifiques
renom-mées.
Malheureusement,
noscollègues
russes,qui
avaientaccepté l’invitation,
ne furent pas en mesure d’êtreprésents
-cequi
s’est souventproduit
par la suite-.FELLER et moi-même vinrent de
Stockholm ; personnellement
il m’intéressait surtout de rencontrerNEYMAN, qui
était venu exposer sa nouvelle méthode d’estimation parrégions
de confiance. Au milieu de saconférence,
il fut inter-rompu par deux
contradicteurs,
FRECHET et LEVY. Commeje présidais
laréunion, je
dus faireappel
à ma connaissance assez mince de lalangue française
pour les
calmer,
etpermettre
à NEYMAN de terminer sonexposé.
J’avaisdéjà
lu son article
magistral
dans lesProceedings
of theRoyal Society,
etj’avais
laconviction que ses idées étaient
saines ; je
crois que par lasuite,
ses contradic-teurs
français
arrivèrent à la même conclusion.Vers la fin de
1938, ayant
été invité àLondres, je
fus reçu parquelques
unsde mes vieux amis actuaires et
je
rencontrai pour lapremière
fois FISHER etEgon
PEARSON. NEYMAN se trouvait
déjà
en Californie. Je fis un brefexposé
de mestravaux en
probabilité, prenant
soin d’éviter les thèses controversées de l’inférencestatistique.
C’était peuaprès
les accords deMunich,
et laquestion
depaix
ou deguerre était dans
l’esprit
de tous. Durant l’été1939,
àpeine
un mois avant le débutde la guerre, il y eut à nouveau une conférence à
Genève,
cette fois surl’application
des
probabilités.
FISHER étaitprésent ; je
me souviens lui avoir ditquelques
motsde
compliment
sur son intuitiongéométrique
dans le traitement des distributionsmultidimensionnelles,
et d’avoir reçu uneréplique quelque
peu acide : "I am sometimes accused of intuition as a crime"(je
suisparfois
accusé d’intuitioncomme d’un
crime).
Je fis la connaissance de Sam WILKS et de Maurice BARTLETT. Nous eûmesjuste
letemps
de regagner la Suède avant que les nazisattaquent
laPologne,
déclenchant la deuxième guerre mondiale.13 5. LES ANNEES DE GUERRE
Durant les années de guerre nous étions en Suède
complètement
isolés.Nous étions entourés par la guerre : le Danemark et la
Norvège
étaientoccupés
par les
nazis,
la Finlande était en guerre avec la Russie. AStockholm,
dans notrepetit
groupe deprobabilistes,nous essayions
de continuer àtravailler,
mais il étaitpresque
impossible
d’avoir accès auxpublications scientifiques étrangères.
Danscette situation d’isolement et
d’insécurité, je
décidai dereprendre
un ancienprojet
d’écrire un nouvel ouvrage.
Dans les années
qui
avaientprécédé
la guerre,j’avais
eu le sentiment que statisticiensanglo-saxons
et statisticiens du continent travaillaient sans un contactréciproque suffisant,
etqu’il pourrait
être utiled’essayer
de faire la liaison entre leurslignes
de recherche. Dès 1937j’étais déjà
avancé dans mon intention d’écrireun ouvrage sur les méthodes
statistiques modernes,
basé sur la théorie mathéma-tique
desprobabilités.
Un éditeurscientifique
allemands’y
étaitintéressé,
etj’ai
encore le
projet
de table des matières pour un livre écrit enlangue
allemande. Maisen raison de mes sentiments
profondément
anti-nazisje répugnais
àpublier
enAllemagne ; je renonçai
à monprojet :
seule la table des matières a été écrite...En
1942,
alors que la fin de la guerre semblait bienlointaine, je repris
unenouvelle fois ce vieux
projet
etcommençai
à écrire un livre enlangue anglaise.
Dès l’été
1945,
le manuscrit étaitprêt
àimprimer
sous le titre de "Mathematical methods of Statistics".L’ouvrage
futpublié conjointement
par les éditeurs suédoisALMQUIST
etNIKSELL,
et PrincetonUniversity
Press. Il contenait troisparties :
une introduction
purement mathématique,
une théorie des variables aléatoires et de leurs distributions deprobabilité, puis l’application
à l’inférencestatistique.
Ilétait dédié à ma femme Martha
qui,
commetoujours,
m’avait aidé etencouragé
au cours de mon travail. Tandis que
je l’écrivais, je
lui disaisparfois
mon souhaitque ce livre soit ma carte d’entrée dans le nouveau monde
d’après-guerre.
Et sansaucun doute il nous a valu de chères amitiés dans
beaucoup
de pays.J’ai souvent
regretté
de n’avoir pas donné dans lapartie probabiliste
de cetouvrage la théorie
complète
deKOLMOGOROV,
me limitant aux distributions dans des espaces euclidiens finis. Cela le rendpeut-être plus
facile àlire ;
par contre il devenaitimpossible d’y
inclure une discussion satisfaisante sur la convergence des suites de variablesaléatoires,
et d’aborder les processusstochastiques.
Dans lapartie
consacrée à l’inférencestatistique, j’ai essayé d’exposer
defaçon systéma- tique
les travaux de FISHER surles.
distributionsd’échantillonnage
et l’estimationstatistique,
etj’ai
donné des démonstrationsrigoureuses
de sesrésultats,
en lescomplétant
sur certainspoints.
J’ai consacré unchapitre
auxrégions
de confiancede
NEYMAN,
enessayant
de les rendre claires aulecteur,
sanstrop
insister sur le fait quej’avais pris
leparti
de NEYMAN dans la controverse sur laprobabilité
fidu-ciaire de FISHER. J’ai aussi donné un aperçu de la théorie de
NEYMAN-PEARSON, m’apercevant après
coup quej’aurais
dû traiterplus complètement
cetimportant sujet.
Mes ouvrages, et mes travaux sur les processus
stochastiques,
sont l’aboutis-sement de ce que
j’avais appris
dans les 20 années de l’entre-deux guerres. Au cours de cettepériode
est intervenue une modification radicale de structure dans la théoriemathématique
desprobabilités
et de sesapplications
à l’inférence statis-tique.
J’aiessayé
de vous donnerquelques
souvenirspersonnels
sur cetimportant sujet.
Je vais maintenant terminer parquelques
commentaires sur lesdéveloppe-
ments
qui
suivirent.Revue de Statistique Appliquée, 1983, vol. X XX 1, n° 3
6. NOTE SUR LES DEVELOPPEMENTS ULTERIEURS
Durant les années de guerre,
l’importance
d’uneméthodologie statistique
très élaborée en vue des
applications
industrielles et militaires était devenue deplus
en
plus
évidente. Les mathématiciens et les statisticiens des pays en guerre s’étaientappliqués
àperfectionner
les méthodes et leursapplications. Lorsqu’après
la guerre,quelques
uns des résultats obtenus furent connus, ilapparut
que lesproblèmes
decontrôle du tir anti-aérien et de
radar,
avaient faitl’objet
de travaux de recherchetrès
importants.
La théorie des processusstochastiques stationnaires,
dontj’ai parlé
tout àl’heure,
avait à cetégard
fourni un outil efficace.Indépendamment
l’unde
l’autre,
KOLMOGOGOROV à Moscou et Norbert WIENER au Massachussetts Institute ofTechnology
avaient effectuéd’importants
travaux sur cesujet.
Dans deux notes, courtes mais extrêmement
importantes, publiées pendant
la guerre, KOLMOGOROV avait fait observer que la théorie
mathématique
del’espace
de HILBERTpouvait
êtreappliquée
avec succès à l’étude des variables aléatoires et des processusstochastiques
stationnaires. Peuaprès
la guerre, ce travail fitl’objet
de nouveauxdéveloppements
de lapart
dequelques
uns de ses étudiantset du mathématicien finlandais Karl
KARHUNEN, qui, pendant quelques temps,
travailla dans notre groupe deprobabilistes
de Stockholm. Il exerça uneprofonde
influence sur le
développement
de la théorie et desapplications
des processusstochastiques,
stationnaires ou autres. Un autre travailimportant
dans cette voiefut en 1950 la thèse "Stochastic Processes and Statistical Inference" de Ulf
GRENANDER,
à cetteépoque
membre de notre groupe deStockholm, plus
tardmon successeur comme Professeur à l’Université de Stockholm et
maintenant,
comme chacun le
sait,
à l’Université Brown où ilpoursuit
ses travaux de recherched’une
façon remarquable.
Au cours d’une visite à
Paris,
auprintemps 1946, j’eus
leplaisir
de revoirquelques
uns de mes vieux amis. LEVY avait eu sonapppartement saccagé
par lesnazis, qui
avaient détruit ses livres et ses notes, mais il avaitdéjà entrepris
unnouveau travail sur les processus
stochastiques, qui apporta d’importants
résultats.Dans une de mes conférences à
Paris, j’avais
àparler
de l’estimationstatistique,
etj’avais projeté
de direquelques
mots sur laquestion
controversée des intervalles de confiance et de laprobabilité
fiduciaire. Il me futquelque
peudésagréable d’apprendre
que FISHER était à Paris et assistait à ma conférence. Je m’attendais àquelques
commentairesdésagréables, mais,
à la fin de monexposé,
il me ditqu’il
ne connaissait pas suffisamment lefrançais
pour avoir biencompris
ce queje disais,
etqu’il
souhaitait un entretienparticulier.
Celui-ci eut lieu le même soir et se termina tout à faitbien,
bien queje
ne cachai pas monopinion.
En
1946, je
me rendis pour lapremière
fois aux Etats-Unis oùje
rencontraiquelques
uns de mes vieuxamis, FELLER, NEYMAN,
WILKS et autres, ainsiqu’un grand
nombre de nouveaux, à l’occasion du bicentenaire de Princeton. C’estavec un intérêt tout
particulier
queje
fis la connaissance deDOOB,
dontj’ai toujours
admiré les travaux sur les processusstochastiques.
Sur l’invitation de Gertrude COX et de HaroldHOTELLING, je
fis unerapide
visite àChapel Hill,
où
je
suis souvent retournédepuis.
ABerkeley,
oùj’étais
invité pour un séminaired’été,
NEYMAN était en train depréparer
sa célèbre série de"Berkeley Sympo- sium" ; je
fus vivement intéressé par sesrecherches,
ainsi que par ma rencontreavec la solide