G. T H . G UILBAUD
Les problèmes de la statistique
Mathématiques et sciences humaines, tome 135 (1996), p. 33-50
<http://www.numdam.org/item?id=MSH_1996__135__33_0>
© Centre d’analyse et de mathématiques sociales de l’EHESS, 1996, tous droits réservés.
L’accès aux archives de la revue « Mathématiques et sciences humaines » (http://
msh.revues.org/) implique l’accord avec les conditions générales d’utilisation (http://www.
numdam.org/conditions). Toute utilisation commerciale ou impression systématique est consti- tutive d’une infraction pénale. Toute copie ou impression de ce fichier doit conte- nir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
LES
PROBLÈMES
DE LASTATISTIQUE
G. Th.
GUILBAUD1
RÉSUMÉ -
Le texte qu’on va lire est une réimpression duChapitre
VI du Traité deSociologie
(tomepremier), publié
en 1959 aux Presses Universitaires de France sous la direction deGeorges
Gurvitch. Celui-ci était en effet assez convaincu del’importance
de laStatistique
dans sadiscipline
pour vouloirqu’une
présentationen soit faite dans son Traité.
On verra que le parti pris par G. Th.
Guilbaudfut
non de décrire des techniques de laStatistique
en vogue chez lessociologues
de cetteépoque
(comme parexemple,
le test du Khi-deux oul’Information
de Shannon,comme indicateur du
degré d’indépendance
entre deux variables), mais des’efforcer
de fairecomprendre l’esprit
desméthodes statistiques, et leur
généralité :
cequ’indique
bien le titre duChapitre :
"Lesproblèmes
de laStatistique
".Il en est résulté un texte tout à
fait remarquable
etqui,
comme on dit "n’a pas pris une ride"quelque
quarante ans
après
avoir été écrit et dont tout utilisateur ou praticien de méthodes statistiques (peu importe que ce soit enSociologie
ou dans une autrediscipline)
peut encore faire sonprofit.
C’est
pourquoi
le traité de G. Gurvitch étantdepuis longtemps
introuvable, il a paru opportun à la rédaction de Mathématiques, Informatique et Sciences humaines de le mettre de nouveau à ladisposition
deslecteurs.
SUMNIARY - The Problems of Statistics.
This paper is a reprint of the chapter VI of the Traité de
Sociologie,
edited in 1959by
G. Gurvitch andpublished by
the Presses Universitaires de France.In this paper, G. Th. Guilbaud tries to make clear the spirit
of statistical
methods and theirgenerality.
This quite remarkable text is not at all out
of date
40 years after ; every one who ispractising
statistical methods will be able to profitby
it.La
synthèse,
tentée àchaque époque,
de l’ensemble des résultats d’unediscipline scientifique
n’estjamais
queprovisoire.
On entend souvent des usagers de lastatistique
seplaindre
de ce que les instrumentsd’analyse qu’ils
sont amenés à utiliser ont étéforgés
pour d’autres :pourquoi
cequi
vient de la biométrie ou de l’économie serait-il bon pour lesociologue
ou le
psychologue ?
Mais pour lastatistique,
comme pour lamathématique,
comme pour bien d’autresdisciplines,
il nes’agit
évidemment pas de faire table rase : un vêtementcoupé
surmesures,
peut-être,
mais le tissu n’est-il pas le même pour tous ?1 Centre
d’Analyse
et deMathématique
Sociales (C.A.M.S.) - Paris.Il serait
déraisonnable,
que l’on soitsociologue
oubiologiste,
de vouloir constituer detoutes
pièces
unestatistique particulière qui n’emprunterait
rien auxstatistiques étrangères.
Toutemprunt
estpérilleux :
on esttenté, dit-on, d’appliquer
des recettes ; cequi
est vrai. Il estexcellent de dénoncer le
péril. Quel
est le remède ? C’est d’abord de reconnaître l’existence d’une sciencestatistique, largement indépendante
de sonobjet
- ou, pour diremieux,
unestatistique générale.
Pour donner une idée de ce
qu’elle
est, la formulationmathématique
est souventindispensable
- elle sera ici évitée aumaximum,
non sansrisques
- et l’étudehistorique
del’évolution des idées est d’une
grande
utilité : on selimitera,
dans cequi
vasuivre,
à un canevasassez
grossier.
Pour un excellent statisticien
français
du siècledernier,
la situation de la sciencestatistique
était claire : "La
statistique
est la science des faits sociaux"(Moreau
deJonès, 1847, Éléments
de
statistique). Que
s’est-il doncpassé depuis
cette date ? Lastatistique
a-t-elle renié sesorigines ? L’objet
véritable de lastatistique
n’ajamais
été les sociétés humaines en tant quetelles,
mais seulement certainsaspects,
certains modesd’appréhension
de la réalité sociale.D’abord le nombre - c’est-à-dire d’une
part
laquantité (ou plutôt
laquotité)
et d’autrepart
le nombreux. Ensuite(et, précisément,
il faut bien le dire :surtout)
la détection dequelques régularités
- la recherche des "lois".Mortalité,
natalité - dès lesorigines
- montrent un"ordre"
global
au-delà des apparencescontingentes.
N’oublions pas que dès que, cetterégularité
a étéconstatée,
elleinspire
une confiance tellequ’on
ne tarde pas à en faire la base d’une industrie(les assurances)
"tout comme on utilise la force du vent et le courant des rivières"(M. Block, 1878).
De ces
origines
de lastatistique
le nom reste(mais qui
entend encoreÉtat
dansStatistique ?)
et bienplus
encore reste la situation faite à lastatistique
dansl’enseignement
et larecherche : il est fort rare
qu’on enseigne
lastatistique
touteseule,
lastatistique
pure. Ce serastatistique
etéconomie, statistique
etbiologie, statistique
etpsychologie
et ainsi desuite,
et lesmots
d’économétrie, biométrie, psychométrie,
souvent, n’ont pas d’autresignification.
Dansquelques
cas mêmel’analyse
en deux composants est presqueimpossible :
ainsi ladémographie.
Et
pourtant,
il convient de reconnaître que lastatistique
s’est efforcée à l’autonomie : uneméthodologie statistique,
née à la conscience claire de ses buts il y a 50 ans - àprétentions
universelles
quoique
sans statutépistémologique
reconnu. Elle n’apoint
réclamél’épithète
deNovum
Organum :
elle y avaitcependant quelques
titres.Le choix du mot de
"population",
pourdésigner
tout ensemblestatistique, signale
lesétudes
démographiques
despremiers statisticiens ; mais, aujourd’hui,
on étudiera sous le nomde
population,
l’ensemble des automobiles circulant dans un pays donné à une datedonnée,
aussi bienqu’une
coloniemicrobienne,
un lot de tubesélectroniques,
les mots d’unvocabulaire,
ou les hommes d’un groupe.Notons-le,
dans lejargon statisticien,
le mot"population" désigne
l’ensemble lui-même que l’on a en vue et non pas, comme dans lelangage usuel,
le nombre des individus. Pourdésigner
ce nombre on dira depréférence :
"effectif".Dans bien des cas, cet effectif
peut
être considérable. Même si l’on a pu réunir lesrenseignements individuels,
la mise en ordre posedéjà
de véritablesproblèmes
de méthode.Le moteur
permanent
de toute activitéstatistique
est en effet le suivant : le réel esttoujours trop complexe
et ladescription
exhaustive estimpraticable.
Réduisons la difficulté par le choix d’un
exemple simplifié ;
soit unepopulation
humainebien
délimitée ;
pour chacun des individusqui
lacomposent je
m’intéresse à un caractèreunique
bien défini -
disons,
pour fixer lesidées,
sonâge. Imaginions qu’un
recensementcomplet
soitpossible :
voici leregistre
où sontportés
les noms(ou
tels indicateurs d’identitéqu’on voudra,
matricules ou
autres)
et lesâges
en face dechaque
nom. Pour commencer il faut dire ceci : ceque le statisticien veut
appréhender
ce n’est pas àproprement parler
lapopulation
en tantqu’ensemble
desindividus,
mais l’ensemble desâges. L’anonymat
est derègle.
On dira : la distributionstatistique,
pourdésigner
cettepopulation
de chiffresqui
sera notreunique
souci.Que
reste-t-il de notreregistre quand
on y efface les noms ? Une suite de nombres. Si lapopulation
est nombreuse il me faut trouver moyen deprendre
connaissance de la distribution desâges
autrement que par lecture de la liste dans l’ordre duregistre (lequel
n’estpeut-être qu’alphabétique,
c’est-à-direprobablement
tout à faitétranger
à mespréoccupations actuelles).
Ranger
les individus par rangd’âge,
les grouper en classes annuelles oudécennales,
seradéjà
un
progrès, je
veux dire un moyen de ne pas seperdre
dans la diversitéempirique. Simplifier
ledonné
toujours complexe,
voilà monpremier
mouvement trèsspontané,
mais alors lescrupule
vient de rester
superficiel
sije simplifie
trop.L’idéal ne serait-il pas un discours ordonné - non pas ordonné comme une liste
quelconque
dont il faut attendre la fin pour savoir vraiment - mais ordonné d’un ordre efficaceet
didactique :
tel que dès lespremiers
motsje
vois lesgrands
traits del’objet
à décrire etqui
sepoursuive
enperfectionnant progressivenient
ladescription,
de sorte queje
sois libre de m’arrêter oùje
veux, obtenant àchaque
fois laplus grande
connaissancepossible
pour le nombre limité derenseignements
quej’ai accepté
d’entendre.De
pareilles
méthodes dedescription progressive
sont bien connues : lepetit jeu
des"portraits",
lesquestionnaires
destinés à identifier lesplantes,
lesprocédures
dediagnostic
del’analyse chimique
et bien d’autres schémastaxonomiques procèdent
d’unelogique
commune.On
peut dire,
en une certaine mesure, que le statisticien décided’opérer
selon desprincipes analogues
en construisant une suite de classements emboîtés les uns dans les autres, une série defiltres,
ou decribles,
deplus
enplus
fins.Conservons notre
exemple simple,
tropsimple,
d’une distributiond’âges. Supposé
connu l’effectif total de la
population étudiée, je
donnerai les effectifs dequelques classes,
d’abord très
larges,
parexemple :
moins de 20 ans,plus
de 60 ans, entre 20 et 60. Ce sera unpremier degré
de laclassification, premier
coup d’oeilpanoramique,
queje
peux raffiner en subdivisant pardegrés
successifs. Maisje
suis libre de choisir les coupures entre classes : onpeut
alors songer à définir lesclasses,
non par des limitesd’âge,
mais par leur contenu, cettefaçon
de faire aurapeut-être
le mérite d’être mieuxadaptée
àl’objet
del’étude,
le crible n’étant pasforgé
d’avance. Dans cette secondeperspective prendront place
desrenseignements
tels que le suivant : la moitié de lapopulation
a moins de 38 ans, l’autre moitié 38 oudavantage (âge médian). Après quoi
l’onindiquera
quatre fractionségales (les quartiles)
et ainsi de suite :déciles,
centiles(généralement : "quantiles"
ou bien"fractiles",
si l’on ne veut paspréciser
lefractionnement), technique
d’unemploi
fort commode et trèsrépandu
à l’heureprésente.
On
peut
introduire bien desvariantes,
tout en conservant lestyle
classificatoire.Indiquons
seulement en
passant quelques
directionspossibles.
Toutrenseignement,
dans cestyle,
secompose de trois données
numériques :
un intervalle de la variable étudiée(l’âge)
défini par ses deux frontières et son contenu(en
fraction de l’effectiftotal).
Mais laquestion
peut êtreposée
de diverses
façons : Que
contient l’intervalle de 18 à 45 ans ?Quel
estl’âge
au-dessousduquel
se trouve tant pour cent de la
population ? (L’ensemble
deréponses
constituela fonction
derépartition)
ou bien encore :Quel
est leplus petit
intervalle contenant tant pour cent de lapopulation ? (L’ensemble
desréponses
constituela , fonction
deconcentration).
Il reste àorganiser
une série dequestions
de cestyle,
ouplutôt plusieurs séries,
entrelesquelles
onchoisira la
plus opportune
selon la nature de lapopulation
étudiée et du caractère distribué. Cesquestionnaires
devront être enprincipe prolongeables jusqu’à
l’examencomplet
de ladistribution,
defaçon
à laisser libre ledegré
deprécision
de la connaissancerequise.
Malgré
sesvariantes,
cepremier style n’épuise
pas lespossibilités
dedescription progressive.
Une autre échelle est bien connue ; cellequi
utilise les moyennes. Il n’estpeut-être
pas besoin d’être statisticien pour
comprendre ce qu’on
veutdire,
et que c’est unrenseignement
sur la
distribution,
si l’on dit quel’âge
moyen est de 34 ans. Mais il n’est pas besoin d’êtregrand
clerc nonplus
pours’apercevoir
que deux distributions fort différentespeuvent
montrerla même moyenne : le
renseignement
donné par la moyenne est doncinsuffisant,
tout comme l’est celui que donne la médiane. Or la moyenne ordinaire peut être considérée comme lepremier renseignement
d’une sériequi,
comme la série desfractiles, peut
procurer unedescription progressive (et complète
si on leveut)
de la distribution. Ils’agit
de la série desmoments. Nous ne pouvons nous attarder aux détails
techniques ;
il suffirad’esquisser
l’idéegénérale.
On saitqu’à
la moyenne d’un caractèrenumérique (comme l’âge),
on a l’habituded’associer la moyenne des carrés, la moyenne des
cubes,
despuissances quelconques
de cettevariable. Le
procédé
semble moins naturel que celui desclasses,
mais sonemploi
sejustifie,
comme on
sait,
par certaines commodités. Citons enpassant
l’une d’elles. Ladescription
d’unedistribution isolée n’est pas la fin ultime : il faudra savoir comparer diverses
populations,
et enparticulier
comparer entre ellesplusieurs parties
d’une mêmepopulation. Or,
il suffit d’un instant de réflexion pourapercevoir,
parexemple,
que lamédiane,
tout comme les autresfractiles, qui
se recommandaient par lasimplicité
de leurdéfinition,
sont difficiles à utiliser dans lesopérations
departage
et de réunion despopulations. Supposons qu’on
ait deuxpopulations
dont on connaît les médianes
respectives :
on les réunit pour constituer une nouvellepopulation ;
la nouvelle médiane n’est pas fonction des deux médianespartielles.
Par contre laloi de
composition
des moyennes estsimple ;
la moyennegénérale
est une moyenne des moyennespartielles.
C’est unprivilège
considérable. Ils’agit
alors de construire une suite decaractéristiques numériques, possédant
le mêmeprivilège d’additivité,
et pouvant, àpartir
de lamoyenne comme
premier
telme, constituer unedescription progressive.
Cerôle,
on le montreaisément,
peut êtrejoué
par les moyennes de x, dex2, .~3,
etc.,de xk qu’on
nommera momentd’ordre k.
L’approfondissement
de cette idée conduit àla fonction génératrice
deLaplace
etaux fonctions dites
caractéristiques
chez les modernes.La
description
par les moments est assurément moins intuitive que ladescription
par les fractiles. Il peut être utile de chercher à mieux saisir lasignification
des moments et à se rendrecompte des liaisons
qui
existent entre les deuxstyles descriptifs. Quelques exemples
suffiront àindiquer
la voie. Ils’agit toujours
d’une variable(ci-dessus,
c’étaitl’âge)
que nous noterons(x)
-
qui
estsusceptible
deprendre
diverses valeurs, disons pour fixer les idées : x =0, 1, 2, ...,
etc.
Une distribution
statistique associe,
à chacune de ces valeurspossibles,
uneffectif,
nombre des individus
qui
réalisent soit x =(),
soit x =1,
etc. - ou bien unefréquence, rapport
de ces effectifspartiels
à l’effectifglobal. Désignons
cesfréquences
parfp, fl,, f2,
etc. Ce sontdes nombres
(essentiellement positifs) qui
vérifient d’abordl’égalité :
Si l’on donne la moyenne, que nous
appellerons
> on aura :et si l’on donne aussi le second moment
M~2> :
On
peut
alors se rendre compte que ces conditions lient lesfréquences f :
elles nepeuvent
plus
êtrequelconques.
Bienentendu,
il y a une infinité de distributionsqui
ont les mêmesmoments et
M(2)
- mais elles ontcependant quelque
chose de commun, elles forment unefamille,
dont onpeut
tenter uneanalyse complète.
Supposons,
parexemple,
que quatre valeurs de x soientpossibles : x
=0, 1, 2,
ou3,
etpartons
de la distribution "uniforme"qui
affecte 25% de lapopulation
àchaque
valeur. Alors= 1,5
etM(2)
=3,5.
Si l’on examine toutes les distributionsqui
ont les mêmes deux moments, on verra que les valeurs intermédiaires x = 1 et x= 2, comportent
ensemble la moitié del’effectif,
l’autre moitié étant située aux extrêmes(x
= 0 et x =3).
On verra aussiqu’à
chacune de ces valeurs extrêmes doit être attribué au moins 1/6 de l’effectif total et auplus
1/3.De tels exercices
permettent
de mieuxapercevoir
laportée
despropositions générales qui
établissent un lien entre la connaissance des moments et certaines
particularités
de larépartition.
Parmi les
propositions,
il faut citer cellequ’établit Bienaymé
en 1853 etqui
futgénéralisée
parTchebycheff. Supposons qu’on
connaisse les deuxpremiers
moment, c’est-à-dire la moyenneet
l’écart-type ;
larègle
deBienaymé
permet alors de construire des intervalles encadrant la moyenne et contenant certainement telleproportion
de l’effectifqu’on
désire.Ainsi,
pour en revenir auxâges,
sije
sais que la moyenne est34, l’écart-type
étant 7 -je
peux enplaçant
deux
écarts-types
de part etd’autre,
obtenir l’intervalle20-48,
et affirmer que les troisquarts
au moins de lapopulation
sont contenus dans cette classe centrale. Ainsi se constitue une sorte de dictionnairequi permet
de traduire enstyle
declasses,
diversrenseignements
donnés enstyle
demoments.
Avant d’aller
plus loin,
il faut revenir à la notionprimitive
de distributionstatistique.
L’exemple
sommairementprésenté plus
haut concernait un caractèrenumérique simple ;
àchaque
individu était associé un nombre. Or il fauts’attendre,
et pas seulement dans les sciencessociales,
à trouver des caractères dont la donnée ne peut se réduire à un nombre : soitqu’il s’agisse
de caractèrequalitatif
nonmesurable,
soit que tout en étant mesurable il failleplusieurs
nombres pour le faire.On commencera dans tous les cas par dessiner la variété des caractères
envisagés.
Le casle
plus simple
sera celui d’unpetit
nombre decatégories
bien définies : l’état civil parexemple.
Dans ce cas la distribution
statistique
consiste à donnersimplement
les effectifs dechaque catégorie : célibataires, mariés, veufs, divorcés,
et iln’y
aguère
à dire au delà. Rienqui rappelle
ici médianes ni moyennes. Mais ilpeut
se faire que lescatégories
soientplus
nombreuses,
et, cela va souventensemble,
moins bien tranchées. Onpeut
penser auxcatégories
dites
socio-professionnelles
de lastatistique
officielle - ou bien à uneenquête d’opinion.
Positions,
statuts, attitudes - sociales ou non - ne se laissent pastoujours
facilementénumérer. Il faut
cependant
commencer paranalyser
cette "variété". Onpeut parfois
établir unegamme, c’est-à-dire donner un sens à la locution "situé entre" et ranger les
catégories
en unesuite bien ordonnée. Dans ce cas la médiane
(et
lesfractiles) reprennent signification
- maisnon pas la moyenne ni aucun autre moment
(du
moins tant que la gamme ne s’est pas transformée en échelle de mesure, cequi
peut êtreimpossible)2.
S’il est radicalement
impossible
de constituer une gamme, il existepeut-être quand
mêmeune
configuration plus
ou moins visible. On s’en rendracompte
en essayant des groupementspartiels :
s’ilparaît impossible
de réunir en une seule classeA, B, C,
sans yadjoindre D,
celapeut
êtrecompris
comme une indication de situationrespective
sur cequ’on pourrait
nommer2 La présence ces cotes numériques ne doit pas donner le change : il n’est pas
permis,
sansprécautions,
de traiterdes numéros d’ordre comme des nombres ordinaires soumis aux règles d’addition et de
multiplication.
une
"palette"
descatégories.
En d’autres termes, c’est l’étude des coupurespossibles qui
devramettre en lumière la
topologie
dusystème.
Un cas intéressant est celui où laconfiguration spatiale
souhaitée est données d’emblée : soit comme schémafiguratif (grille, treillis,
arbregénéalogique, etc.),
soit comme réalitégéographique.
Dans ce dernier cas ladescription
par classes n’est autre que ladescription
parrégions,
et l’on voit l’intérêt quepeut présenter
entreautres la recherche des
régions
d’étendue minimum contenant telpourcentage
de l’effectif total.Le cas
géographique
n’est d’ailleursguère éloigné
de celui où l’on a affaire à un caractère mesurable maiscomplexe,
c’est-à-direqui
doit êtrereprésenté
parplusieurs
nombres. Il ne faut pas abandonnertrop
facilement cettecomplexité :
supposonsqu’une enquête
sur lesbudgets domestiques
aitpermis
de caractériserchaque ménage
d’unepopulation
deménages
par sadépense
et son revenu. Au lieu de traiterséparément
les deuxdistributions,
on devra d’abordexploiter
leur association. Lareprésentation graphique
est ici d’ungrand
secours : unpoint
duplan,
défini par ses deuxcoordonnées, représentera chaque
unité de notrepopulation.
Les deuxstyles qu’on
a ditplus
haut sont icipermis :
soit dessiner des coupures de classes(emboîtées
oudisjointes)
en évaluant leur contenu ; soit calculer des moyennes et les divers moments(deux
moyennes, deux
écarts-types,
lepremier
coefficient de corrélation et lasuite). Toutefois,
il est bien clair que les instrumentsdéjà
définis - fonctions derépartition,
fonction deconcentration,
fonctioncaractéristiques
- serontplus
difficiles à manier.Quelles
que soient les difficultésspéciales qu’on
rencontre, on voit se constituer les modalitésd’emploi
de la notion extrêmementgénérale
de distributionstatistique
et de sesdescriptions progressives.
C’est cettelogique
- ou cettegrammaire
si l’onpréfère
- enquoi
consiste la
statistique
ditedescriptive.
Il arrive assez souventqu’on présente
cettepartie, apparemment
laplus simple,
de latechnique statistique
comme unpremier chapitre.
Ce n’estpas mal faire - mais il convient aussitôt de
souligner
que cepremier chapitre
ne peut, enaucune
manière,
constituer sesdéveloppements
defaçon
autonome.C’est là un
point
fortimportant
-parfois méconnu,
non sansdommages
graves - etqu’il
convientd’exposer.
*
* *
Nous avons
tenté,
dans les pagesprécédentes,
desituer,
trèssommairement, quelques-
uns des
systèmes
usuels de "filtres"permettant
de saisir les distributionsstatistiques
selon unedémarche
progressive.
Cetteprogression
a étéorganisée,
on l’adit,
pour autoriser l’arrêt en cours de route : si ladescription peut,
endroit,
aller aussi loinqu’on
le désire - enfait,
on neva pour ainsi dire
jamais jusqu’au
bout. Combien de fois n’arrivera-t-il pasqu’on
se contentede dire médianes et déciles - ou même
simplement
unerégion
à 95 % - ou bien encore lamoyenne et le second moment
(sous
forme de variance oud’écart-type),
rarement le troisième(sous
forme d’indiced’asymétrie)
-c’est-à-dire,
d’unefaçon générale,
lespremiers renseignements
seulement.On doit certes
revendiquer
le droitd’employer
cesdescriptions incomplètes
- en vuedesquelles justement
lestechniques
ont été mises aupoint
- on doitpouvoir
se contenter dedessiner les
"grandes lignes"
etnégliger
les "détails". Mais onaperçoit
alors toutel’importance
d’une
statistique descriptive
bienfaite,
et que ce n’est nisimple
ni facile :apprendre
àdistinguer
les détails de
l’essentiel,
ouplus précisément
à hiérarchiser les détailsd’inégale importance.
Va-t-on devoir se borner aux conseils du sens commun et faire confiance aux divers
praticiens,
chacun en son domaine ? Il arrivait souvent dans le
passé,
et il arrive encoreaujourd’hui,
que le Traité deStatistique
se cantonne en cetteposition prudente, qu’il
dise lesrègles
foimelles du calcul sans se croire autorisé àparler
de leuremploi.
Onenseigne
à correctement calculer des moyennes(ajoutons
même desécarts-types
et des coefficients decorrélation),
enfeignant
d’ignorer
que lapremière
tentation de celuiqui
va se trouver confronté aux résultats touffus del’enquête
sera de "réduire" les donnéesempiriques
à cette moyenne, à cetécart-type,
à cecoefficient et de s’en contenter - et que sa seconde tentation sera de tout
rejeter
comme tropsimpliste.
Que
n’a-t-on pas dit sur les insuffisances de la moyenne(pourquoi
la médiane a-t-elle étémoins malmenée
?). Que
n’a-t-on pas trouvé àrépliquer
sur ses vertus ? C’est une des tâches- et non des moindres - de la
statistique d’exposer
dansquel
cadred’hypothèses
telle ou telleréduction des observations
empiriques
estlégitime
ou non.*
* *
Il est traditionnel de
rappeler
le cas, assezspécial,
de l’astronome ou duphysicien qui,
ayant
fait des mesures - de la déclinaison d’une étoile ou d’une chaleurspécifique
ou dumagnétisme
terrestre - trouvenaturel, dit-on,
d’effectuer la moyenne de toutes les mesureseffectuées et de déclarer que le nombre
unique
ainsi obtenureprésente
le résultat de l’ensemble desexpériences. Mais,
enpareille matière,
on suppose :1)
l’existence d’une vraie valeur de lagrandeur
à mesurer ;2)
laprésence
inévitable d’élémentsperturbateurs
et variablesqui
déforment cette valeurvraie ; 3)
la construction d’un modèlethéorique exposant
le mécanisme de ces erreurs de mesure ;4) quelques
raisons depréconiser
l’estimation de la vraie valeur par le ministère de la moyenne.La théorie
(statistique)
des erreurs d’observation s’est bien constituée àpartir
d’intuitions immédiates : valeurcentrale,
valeur laplus probable, compensation
desécarts,
etc.. Mais elle anécessité d’assez
longues
constructionsmathématiques.
Citons l’un des fondateurs de ladoctrine, Laplace :
"Lesphénomènes
de la nature sont leplus
souventenveloppés
de tant decirconstances
étrangères,
un sigrand
nombre de causesperturbatrices
y mêlent leur influencequ’il
est très difficile de les reconnaître. On nepeut
yparvenir qu’en multipliant
lesobservations ou les
expériences,
afin que les effetsétrangers
venant à se détruireréciproquement,
les résultats mettent en évidence cesphénomènes
et leurs éléments divers" - voilà le niveau du sens commun, mais voici lesexigences
du calcul : "On détermine par la théorie desprobabilités,
les résultats inoyens lesplus avantageux
ouqui
donnent le moins deprise
à l’erreur. Mais cela ne suffit pas ; il est, deplus,
nécessaired’apprécier
laprobabilité
que les erreurs de ces résultats soient
comprises
dans des limitesdonnées ;
sans cela on n’aqu’une
connaissanceimparfaite
dudegré
d’exactitude obtenu. Des formules propres à cesobjets
sont donc un vraiperfectionnement
de la méthode des sciences...l’analyse qu’elles exigent
est laplus
délicate et laplus
difficile de la théorie desprobabilités..." (Laplace,
Introduction à la théorie
analytique
desprobabilités, Paris,1814).
Sans entrer ici dans le
détail,
il convient de noter que même dans le cas où unesimple
moyenne de mesures suffit à
l’estimation,
on neprésentera jamais
cette estimation comme vraie valeur. On croit que cette vraie valeur existe - on saitqu’elle
est inaccessible. Mais s’il faut donner unchiffre,
onprésente
le moinsimprudent,
leplus avantageux,
"celuiqui
donne lemoins
prise
à l’erreur" - enl’assortissant,
comme le réclameLaplace,
d’une marge d’incertitude.Le résumé de la série des observations
comportera
non pas unseul,
mais deux nombres - dans certains cassimples
ce seront la moyenne et la variance - lepremier
comme la meilleureestimation
possible,
le second comme indication de lagrandeur
à craindre pour l’erreurinévitable. Finalement d’ailleurs - et
grâce, principalement,
àLaplace lui-même3 -
se constitueune méthode
d’analyse
des résultatsd’expériences,
méthode essentiellementStatistique.
Il
convient, cependant
-quelles
que soient la beauté et la force de cette construction - dene pas
perdre
de vue leproblème posé :
les mesures de notre astronome visaient une réalité biendéfinie,
car il existait une valeur vraie(c’est,
dumoins,
lepostulat).
Onpeut
bâtir unecomparaison :
on trouve des traces deprojectiles
sur un mur, on suppose quequelqu’un
s’estexercé en tirant à la
cible,
où était la cible ? Mais ce serait une tout autre affairé s’ils’agissait
d’une cible mobile. Et encore une autre, s’il
n’y
avait pas eu de cible du tout.Or,
s’il est naturel deprendre
la moyenne deplusieurs
mesures faites dans des conditionshomogènes
et donnant des résultats très voisins les uns des autres, pourreprésenter l’ensemble,
il est non moins évident que
l’âge
moyen, ou le salaire moyen dans unepopulation,
ne sejustifie
pas du tout de la mêmemanière,
nepouvant
évidemment pas avoir unesignification
dumême ordre :
âge "vrai",
salaire "vrai" -- cela nesignifierait
rien.Il faut encore revenir à
Laplace :
ondétermine, dit-il,
le résultat moyen leplus avantageux,
celuiqui
donne le moins deprise
à l’erreur. Il nes’agit
pas de dire la valeurvraie,
ils’agit
d’unpari.
Ce n’est pas sans raisonqu’on
voit secôtoyer
lalogique
dujugement probable
et lalogique
dujeu ?
Mais pour éclairer la conduite de notre astronome, il nousfaut,
comme pourguider
unjoueur
dans sesmartingales,
un "modèle" bâti selon lesprincipes
de la théorie desprobabilités.
Dans le cas des erreursd’observation, Laplace
nous propose lecélèbre,
tropcélèbre,
modèlequi répartit
lesprobabilités
d’écart selon uneexponentielle
du carré de l’écart.Forme assez
subtile, qu’avait
entrevueMoivre,
et àlaquelle l’opinion publique, injuste
à sonordinaire,
devait attacher le nom deGauss4.
Sans nous arrêter à la forme
particulière
de cetteloi,
retenons seulementqu’il
y a uneloi,
fortprécise.
Loi des erreurs a-t-on ditquelquefois,
mais en fait loi deprobabilité
des erreurs,cependant susceptible
de vérificationsexpérimentales (tentées
pour lapremière
fois en 1838 par l’astronomeBessel).
Pour savoir si un dé esthonnête,
c’est-à-dire pour vérifier que l’as a bienune chance sur
six,
niplus
nimoins,
onjettera
le déplusieurs
fois de suite et l’on fera lastatistique
despoints obtenus,
de mêmeici,
on doitprévoir
une certaine conformité(mais
nonpas
rigoureuse)
entre la loi deprobabilité
des erreurs et le relevéstatistique
desécarts,
c’est-à-dire finalement la forme de la
population
des mesures. Non pas seulement unhistogramme
ayant vaguement
la forme d’une"cloche",
mais une conformitéanalytique qu’il
faudrapréciser.
On voit ainsi
apparaître
une convergence entre lastatistique
et la théorie des erreurs(convergence
entrevue parLaplace, développée
par Cournot etPoisson,
maisguère
ferme avantla fin du XIXème
siècle).
Chaque
mesure est une unitéstatistique,
un individu - leur ensemble constitue unepopulation.
La distribution des mesures n’est pasquelconque :
elle n’est pas nonplus
soumiseà une "loi" comme celle de
Kepler imposant
une forme aux orbitesplanétaires.
La meilleurefaçon
de sereprésenter
les choses est letirage
au sort : lapopulation
des observations doit être considérée comme un échantillon d’unepopulation plus
vaste, lapopulation
des observationspossibles.
Voir le réel commeprélèvement
aléatoire au sein dupossible,
c’est la clef de tout lesystème :
on va confronter lesstatistiques
du réel(issues
desrelevés, enquêtes,
recensements,etc.),
avec lastatistique
dupossible (qui s’appelle
Calcul desProbabilités).
3 Dès les
premiers
mémoires de 1774, se trouve posé le problème : déterminer le milieu que l’on doit prendreentre
plusieurs
observations données d’un même phénomène.4 Laissons, pour le moment impunie, la maladresse de celui qui imagina de supprimer le nom propre et de dire
non