R EVUE DE STATISTIQUE APPLIQUÉE
Y VES M AINGUY
La statistique comme instrument de connaissance
Revue de statistique appliquée, tome 4, n
o3 (1956), p. 101-114
<http://www.numdam.org/item?id=RSA_1956__4_3_101_0>
© Société française de statistique, 1956, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.
sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les conditions générales d’uti- lisation (http://www.numdam.org/conditions). Toute utilisation commerciale ou im- pression systématique est constitutive d’une infraction pénale. Toute copie ou im- pression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
LA STATISTIQUE COMME INSTRUMENT DE CONNAISSANCE
par Yves MAINGUY
Chef du Service des
Statistiques
et desÉtudes Économiques
à la Direction Commerciale du Gaz de France
Le Centre de Formation des IngéniPUrs et Cadres aux
Applications
Industrielles de laStatistique
a organisé cette anrtée, pour la prernière fois, un cycle d’étudessur les Applications de la
Statistique
à la GestionEconomique
desEntreprises.
Ce cycle s’adresse au personnel de dirccfion des gr(-indes entreprises. Il a pour objet principal de faire prendre conscier,ce des services que peuvent rendre, pour la gestion des entreprises, les méthodes
statistiques.
Il f ournit éga(ement uncommencement
d’in f ormation
utilisable.Enfin
il éuoqae cei-t(liiisproblèmes
qui,liés à l’information stutistique, débordent celle-ci.
Les pages qui suivent
reproduisent
la leçon iliatigiti-ale de ce cycle.1. Il semblera
paradoxal
àbeaucoup
que cecycle d’études,
consacré auxapplications
de lastatistique
à la GestionEconomique
desEntreprises,
soitouvert par un homme
qui
n’est pas statisticien etqui
n’a pas, et n’ajamais
eu,de
responsabilité
degestion
dans uneentreprise.
Attaché
pendant près
de dix ans à la rechercheéconomique, auprès
d’unmaitre à
qui je
doisbeaucoup,
mon amiFrançois
Perroux,j’ai
connu le besoinde la
statistique
etrencontré
un autre maitre, le Professeur Darmois, dontpourtant je
n’aijamais
eu l’honneur de suivrel’enseignement
mais dont, par unde ces
phénomènes
d’osmoseplus
ou moins conscients que, par paressed’esprit
sans doute,
je
veux croire efficace dans la communication de lapensée, j’ai
reçu etje reçois
encore une sorted’imprégnation
intellectuelle queje
souhaite féconde.Il n’en demeure pas moins que
je
ne suis ni économiste ni statisticien,ayant glané
dans l’une et l’autre de cesdisciplines,
m’étantrisqué
mêmetrop
souvent à en écrire et à enparler,
maisn’ayant systématiquement
étudié ni l’une nil’autre, et n’ayant, ni
dans l’une ni dansl’autre, produit
autre chose que des essais devulgarisation
et, ça etlà,
de menues contributions à des travaux dont l’ensembleme
dépassait.
Je n’ai pas
plus
de titre industriel que de titrescientifique
pour m’adresser à vousaujourd’hui.
Je suisingénieur
de formation, mais cette formation estdéjà
trop lointaine pourqu’il
m’en restequelque
chose. Je suisdepuis quatre
ans Chefde Service dans une
grande entrepris e publique,
cequi
me nourrit deproblèmes
concrets, mais
j’ai
lacharge
d’un serviced’études,
cequi
medispense,et même,
afin que l’étude demeure
objective,
m’interdit deprendre
aucune décision degestion.
Engagé
dans la rechercheéconomique
parce quej’étais réputé ingénieur,
j’ai
été,près
de dix ansplus
tard,engagé
dans l’industrie parce quej’ étais
réputé
économiste.Soyez assurés,
Messieurs, que leparadoxe
d’avoir été choisi-102-
pour vous
parler
del’apport
de lastatistique
à unegestion
industrielle économi- quement cohérente seprésente
à mes yeux aussi lumineusementqu’aux
vôtres.Plus clairement encore que pour nous tous, sans doute, ce
paradoxe
a été vupar Monsieur Darmois,
qui
n’est pas seulement un homme de science mondiale%ment
écouté,
un universitairerespecté
de tous ceuxqui l’approchent,
unéveilleur de vocationsscientifiques
et unguide
sûr, mais aussi un chefd’entreprise.
S’ilm’a confié la mise en
place
du nouveaucycle
d’études dont l’idée est sienne, cequi m’oblige
à assumer lespremiers exposés
de cecycle,
c’est enpleine
conscience de mon
incompétence.
Je savais trop bien n’avoir rien à lui appren- dre à cesujet
pour hésiter à accepter.Et ce fut l’occasion d’une nouvelle
leçon.
Rien n’estaigu, obsédant,
etfinalement
lucide,
comme le sens de cequi
manque, dès lorsqu’on
en a reconnule besoin. Il arrive que le technicien d’une
discipline
conduise celle-ci àundegré
élevé
d’accomplissement
sans pour autantpercevoir
tous les servicesqu’elle
rend. Mais
quiconque
a reconnu cequ’une discipline peut
lui apporterdevient,vis
à vis du technicien, d’unegrande exigence,
lui pose desproblèmes,
lui"passe
des commandes", stimule sa recherche.
Il n’est donc pas absurde de penser que c’est la conscience même de mon
incompétence qui
mequalifie
ici. Elle mequalifie plus spécialement peut-être
dans un pays et à une
époque
où les relations entre université etindustrie,
entre hommes de science et homme d’action,ne sont pasce qu’elles
devraient être pour que la nation toute entière tirepleinement profit
de ses virtualités. J’aiéprouvé,
dans un milieu universitaire, le besoin de l’information concrète.
J’éprouve
auiourd’hui, dans un milieu industriel, le besoin de ce minimum d’abstraction
qui
écarte lesfaux problèmes
dont est encombrée la viequotidienne
etqui
fixe l’atten- tion sur les vrais.Dans l’un et l’autre cas, cette forme
particulière
de la connaissancequ’est
la
statistique
est un secours immense : elle fonde l’information sur des données concrètes mais elle l’ordonne pour la rendreintelligible, dégageant
le nécessairedu
contingent,
le permanent de l’accidentel.Des techniciens de
l’analyse statistique
diront, dans la suite de notre séried’exposés
et de travaux, comment traiter l’évènement pour lecomprendre, l’exploiter
et ,éventuellement,
leprévoir. Aujourd’hui,
et au cours des deuxprochaines séances,
un utilisateur de lastatistique parlera
de cequ’il
en attendet de ce
qu’il
aappris
à n’en pas attendre.2.
Trop
de définitions de lastatistique
ont été données pour queje
me sentecapable
d’en choisir une ou d’en formuler une nouvelle. Mieux vaut sans doute essayer depercevoir
cequi,
certainement, est de son ressort, et cequi
certai-nement n’en est pas, sans se soucier d’enserrer dans le domaine clos d’une définition le contenu d’une
discipline qui
seprolonge
dansbeaucoup
d’autres enmêlant son apport à ceux de ses voisins.
Dans sa manifestation la
plus simple,
lastatistique
décrit brièvement unepopulation d’objets,
le mot "brièvement" ayant ici un sens double.- d’une part, elle ne rend pas compte de tous les aspects des
objets
décritsmais seulement de certains d’entre eux, ceux de leurs "caractères" que l’on
juge
utiles à l’information cherchée.
- d’autre part, elle ne tient pas compte de l’affectation des caractères sélectionnés aux
objets qui
lesportent,
mais seulement de la manière dont segroupent
ces caractères autour de valeurs centrales et de la manière dont,éventuellement,
ils s’associent.Contrairement à la
monographie qui
résume l’état d’un individu, lastatistique
résume l’état d’un ensemble d’individus considéré d’unpoint
de vue donné. Lastatistique "dépersonnalise".
Les résumésqu’elle
donne des groupagesde popula-
tions par rapport à un caractère
donné,
ou àquelques
caractèresdonnés, s’appellent
des distributions.Lorsque
l’on considèreplusieurs
caractères des individusqui
composent lapopulation analysée,
ils peuvent êtreindépendants
les uns des autres, ou au contraireinterdépendants.
Dans lepremier
cas, on ditqu’il n’y
a pas corré- lation entre eux, dans le second casqu’il
y en a une : corrélationsimple
si deuxcaractères seulement sont en
jeu,
corrélationmultiple
s’il y en aplus
de deux.L’existence de corrélations soumet
l’analyste
à unegrande
tentation, la tentation dujugement
finaliste que tout hommeporte
en lui. Il faut s’en défendreavec
vigilance.
Dire cela n’est d’ailleurs pas nier lafinalité ;
c’estsimplement
nier que le mécanisme de
l’analyse statistique
en rende compte. Une desexplications
duscepticisme
que l’on rencontretrop
souvent àl’égard
de lastatistique
se trouve non dans cettediscipline
mais chez ceuxqui
s’en serventsans avoir
pris
conscience avec assez derigueur
de cequ’elle
apporte et de cequ’elle
ne peut pas apporter.La
statistique
est neutre devant lesphénomènes qu’elle traduit.
Si elle révèleune corrélation entre un caractère A et un caractère B, cela ne
signifie
pas queA soit la cause de B ou B la cause de A,
qu’il s’agisse
de causeprochaine
ou decause lointaine. Bien avant que naisse la science
statistique,
Bacon avaitdéjà
mis en
garde
contre lesjugements
hâtifs sur la concomitance ou la succession desévénements,
maisl’impatience
de l’homme est si tenace, endépit
de cequ’il apprend, génération après génération, qu’il
faut sans cesse renouveler de tels avertissements.La
statistique
n’est, comme toute science,qu’un
instrument,passif
et neutre.Si l’on soupçonne une relation de cause à effet entre deux
caractères,
on peuttenter de vérifier cette relation par l’instrument
statistique ;
celui-ci dirasimple-
ment alors s’il n’est pas incorrect de soutenir l’existence d’une telle relation et, dans
l’hypothèse
où, eneffet, cela
n’est pas incorrect,précisera
laqualité
decette
relation par
la valeur d’un indice de liaison entre les caractères considérés.Mais il faut
toujours
serappeler
que la liaison de cause à effet est unehypothèse
introduite par
l’analyste
et non unargument
fourni parl’analyse.
3.
Lorsque l’analyste
donne ainsi un rôleprivilégié
à l’un des deux caractèresdont il étudie la relation
(supposons
poursimplifier qu’il n’y en
a quedeux),
ilprocède
à une étude derégression, qui
n’estqu’une partie,
délibérémentchoisie,
d’une étude de corrélation.Lorsque,
dans l’industriegazière,
ons’interroge
surla nature et la
qualité
de la relationqui
existe entre le volume de gaz émis dansune ville donnée au cours d’une
journée
et latempérature
observée au cours decette
journée
à l’observatoiremétéorologique
de cette ville, on est en droit deposer à
priori
une relation de cause à effet entre latempérature
etl’émission ,
c’est-à-dire d’étudier les variations del’émission,
variabledépendante,
enfonction de la
température,
variableindépendante.
C’est dans ce sens là évidem -ment qu’il faut
lire la relation, mais l’instrumentstatistique
écrit la relation dansles deux sens et permet
parfaitement
à un aliéné de la lire à l’envers et de construire une théorie des variations de latempérature
à l’observatoire d’une ville en fonction des émis sions de gaz dans cette ville.Tous les cas
d’interdépendance
ne sont malheureusement pas aussisimples,
et il n’est, dans un
grand
nombre d’entre eux, pas nécessaire d’être aliéné pourse tromper de sens. Un
exemple
en est fourni par l’étude des relations entre lesdépenses
et les revenus d’unepopulation
deménages.
Il est commode deparler
- 104 -
des variations de la
composition
desbudgets
deménages
en fonction des revenusde ces
ménages
et il n’est pas absurde de penser que,statistiquement,
dans une collectivité socialementéquilibrée
dont l’économie est enexpansion,
c’est biendans ce sens là
qu’il
faut lire la relation. Mais, alors que, dans la relation destempératures
et des émissions de gaz, un sens de lectures’imposait,
on peut, ici,hésiter,
et parconséquent
on doit hésiter : le revenu peut, dans certains cas, être une fonction de telledépense particulière.
Je neparle
pas ici de caspersonnels,
isolés dans un ensemble de cas contraires, car lastatistique, je
l’aidit
tout-à-l’heure, "dépersonnalise",
vise les groupes et non les individus. Jeparle
de cas de conditionnement de lapopulation
touteentière,
ou de groupes identifiables au sein de cettepopulation.
Uneanalyse
faite dans les deux senséclairerait les
phénomènes d’incompres sibilité
de certainesdépenses (qui
ne sontpas nécessairement les seules
dépenses
denourriture,)
et rendrait sans douteapparente,
selonl’interprétation proposée
par mon ami HenriAujac (1),
lagenèse
de nombreuses inflations monétaires.
L’erreur de sens dans la lecture d’une relation n’est pas seulement une inversion de raisonnement, attribuant à la
grandeur
X1 une valeur x1i parce que lagrandeur
x2 a la valeur X2j, alorsqu’au
contrairepeut-être
x2 vaudrait x2j parce quex1vaudrait
x1i L’erreur de sens est aussi une erreurquantitative
car le propre d’une relation aléatoire entre deux
grandeurs
est d’être résumée par un ensemble de deux fonctions différentes fournissantrespectivement
deuxlois de
régression
de l’une des variables par rapport aux valeurs de l’autre.Pour illustrer les
conséquences
d’uneséparation
arbitraire des deux lois,on
pourrait reprendre l’exemple
desdépenses
et des revenus. Mais il sera peut êtreplus
instructif de se référer àl’analyse qu’ont présentée
MM.. GIGUET etMORLAT
(2)
des causes de laquerelle,
que tout industriel connait bien, des"ingénieurs"
et des "financiers". Le coût d’un programmed’équipement
estpresque
toujours
sous-estimé par lesingénieurs qui l’établissent,
cequi
vautsouvent à ceux-ci d’être
soupçonnés
par les financiers deprocéder
volontairement à des évaluations insuffisantes pour mieux "fairepasser"
leur programme. MM.Giguet
et Morlat ont démontré que la bonne foi desingénieurs
n’était pas en cause;je voudrais simplement
rendre compte sommairement de cette innocence et de sesconséquences, en espérant
ne pas déformer lapensée
des auteurs par le caractère sommaire,auquel
mecontraignent
la durée et le contenu de cetexposé,
de laprésentation
de cequ’ils
ont démontré avecrigueur.
Un programme est constitué par un ensemble
d’opérations. Chaque opération
conduit à l’étude de
plusieurs projets.
Nous admettrons que la distribution deserreurs relatives commises sur les
projets
est"normale",
c’est-à-dire notam- mentsymétrique (3),
surestimations et sous-estimations se compensant sur un ensemble suffisant deprojets. L’ingénieur
énonce son estimation,qui approche
le coût
réel,
inconnu, tantôt par excès et tantôt par défaut.Si, en
rapportant les dépenses
concernantchaque projet
à une unité duproduit
et en
supposant
lesprojets
très nombreux, on examine alors larégression
ducoût estimé par
rapport
au coûtréel,
pour l’ensemble desprojets étudiés,
on enobtient une
représentation qui
n’est autre que la bissectrice des axes surlesquels
(1) Cf. "Economie Appliquée", Avril-Juin 1950 : "l’Influence du comportement des groupes sociaux sur le développement d’une inflation". - 1 - Henri AUJAC : "Une hypothèse de travail ; 3
l’inflation, conséquence monétaire du comportement des groupes sociaux."
(2)
"Les causes d’erreur systématique dans la prévision de prix des travaux" dans les annales des Ponts-et-Chaussées deSeptembre-Octobre
1952.(3)
Encore que pour certains d’entre eux, GIGUET et MORLAT l’ont montré, cette distri- bution soit nécessairementdissymétrique,
ce qui est une cause supplémentaire de sous-estimation.on a
porté respectivement
les valeurs de l’un et l’autre coûts. Toutparait
allertrès bien : à
chaque
valeur du coût réelcorrespondent
des valeurs du coût estiméqui
sont en nombreégal
endeçà
et au-delà du coût réel etsymétriques
deux adeux par
rapport
à ce coûtréel,
de sorte que la somme des erreurs est nulle. Enparticulier,
si tous lesprojets
étudiés étaientréalisés,
le coût réel du programme seraitégal
à son coût estimé.Mais groupons les
points représentatifs
desprojets parallèlement
à l’axe des coûts réels(f ig. 1).
Le lieu des centres desymétrie
dechaque ligne
ainsi constituéeest une autre droite,
qui
passe par lepoint
moyen de l’ensemble maisqui
s’écartede la
bissectrice
des axes vers les valeurs élevées des coûts réelscorrespondant
aux faibles valeurs des coûts estimés et vers les valeurs faibles des coûts réels
correspondant
aux valeurs élevées des coûts estimés. Larégression
des coûtsréels par
rapport
aux coûts estimés est différente de larégression
des coûtsestimés par
rapport
aux coûts réels.Fig. 1. - Les erreurs d’estimation du coût d’un programme de travaux.
N.B. Il est commode de figurer le nuage des points représentatifs des projets par la plus petite courbe le contenant. En raison de l’hypothèse faite sur la distribution des erreurs, cette courbe est une ellipse. Bien entendu, tous les points contenus à l’intérieur de l’ellipse ne
représentent
pas des projets, ceux-ci étant en nombre limité ; cette considération évidente est àrapprocher de celle que l’on fera plus loin à l’occasion d’une figure analogue
(fig.2).
L’ingénieur
devant retenir un certain nombre deprojets
retiendra ceux dont ila estimé les coûts les
plus faibles,
parexemple
ceux dont les coûts estimés sont inférieurs à yo. Il éliminera donc unprojet
tel que A, dont le coût réel est cepen- dant inférieur à celui d’unprojet
tel que B,qu’il
retiendra. Le programmeterminé,
c’est-à-dire tous lesprojets
retenusayant
étéexécutés,
le financieraura eu a
dépenser
une sommesupérieure
à celle que lui avait annoncéel’ingénieur.
Mais sil’ingénieur agissait
correctement,présentait
leprojet
A etrefusait le
projet
B, le financier neprotesterait-il
pas dès avant la mise enoeuvre du
programme ? Accepterait-il
unprojet
estimé sensiblementplus
cherqu’un
autrequi
serait écarté ? Disons tout de suite d’ailleursqu’une
telleéventualité n’est pas
réalisable,
car sil’ingénieur
sait que toutes ses évaluationssont
approximatives,
il nepeut
évidemmentpas, à
l’avance,prévoir
le sens et lavaleur de l’erreur commise sur
chaque projet ;
s’il lepouvait,
il lacorrigerait.
-106-
Du fait, par
conséquent,
duprocédé
de sélection des programmes,qui
est unchoix des
projets
les moins coûteuxparmi
un ensemble deprojets possibles,
le coût réel du programme est bel et bien fonction de son coût estimé , et ne
peut
être quesupérieur
au coût estimé. Si l’on décidait de choisir lesprojets
lesplus
coûteux, le coût réel serait inférieur au coûtestimé ;
ni lesingénieurs
ni lesfinanciers,
cependant,
ne recommanderont ceprocédé
de sélection.4. Les considérations et
exemples qui précèdent,malgré
leur extrêmesimplicité,
ont mis en évidence le rôle de
l’opérateur
dansl’analyse statistique..
Commetoujours, (c’est
une banalitéqu’on
ne doit pas s’excuser derépéter) l’opérateur
est actif et l’instrument
passif.
Dans une science d’observation,l’opérateur
a desphases
depassivité nécessaire, qui
sont lesphases pendant lesquelles
il laissel’instrument
enregistrer
une actionqu’il
ne doit pas troubler. Nous venons de voirqu’il
troubleparfois
lephénomène
lui-même etparfois
l’observation de celui ci, enadoptant
une attitude arbitraire. Il n’en reste pas moins que lastatistique
ne lui fournira les services
qu’il
en attend que s’il l’utilise à bon escient et s’ilgarde
son senscritique toujours
en éveil devant les résultatsqu’elle
fait appa- raitre.En d’autres termes, la
statistique
n’a sapleine
efficacité que si elle est utilisée dans le cadre d’un corpsd’hypothèses qu’elle
ne peut pas fournir elle- même. Dans la démarchequi
permet d’accéder à la connaissance, etqui
estfaite alternativement d’invention et d’observation, l’observation
statistique
peutcependant suggérer
deshypothèses
nouvelles et celles-ci auront à être vérifiées par de nouvelles observationsstatistiques,
maischaque opération statistique
repose,
explicitement
ouimplicitement,
consciemment ou inconsciemment, surun corps
d’hypothèses
formulé ouinformulé,
que les économistesappellent aujourd’hui
un modèle.Même
l’opération
laplus simple correspond
à un modèle. Etudier les varia- tions des émissions de gaz en fonction de latempérature,
c’est supposer àpriori
l’existence d’un lien entre ces deux
grandeurs
et chercher la nature de ce lien ainsique la valeur
desparamètres qui
le caractérisent ; c’est aussi , si l’onétudieuniquement
cette liaison, supposer àpriori
que deux variables seulement sont enjeu,
ou accepter délibérément de ne donnerqu’une représentation
extrêmementsimplifiée
d’une réalité que l’on saitbeaucoup plus complexe.
La
première hypothèse se
révèle valable,puisque
l’on constate effectivementune relation entre les deux
grandeurs observées,
mais un observateur un peu averti ne se contentera pas de cettepremière hypothèse
et, pourcomplèter
soninvestigation,
cherchera à mettre en évidence les autres facteursqui peuvent
avoir un effet sur le volume des émissions de gaz. La
première
idéequi
vienne àl’esprit
est que l’émission d’unejournée
donnée peutdépendre
aussi de latempérature
de la veille ou desjours précédents.
Une autre idée est évidemmentque, tous les
jours
de la semaine n’étant pasidentiques,
leurs différences inter- viennent dans les variations du volume de l’émission. Des essais doivent alorsêtre faits pour
éprouver
les relationsqui correspondent
à ceshypothèses.
Mais si l’on est
exigeant,
ou si l’on estsimplement guidé
par certainesnécessités,
onpeut
faire d’autres découvertes. C’est ainsiqu’on
a cru remarquer dans larégion parisienne,
au cours deplusieurs
hivers successifs, que legradient
d’émission en fonction de latempérature
n’avait pas la même valeur pour despériodes
dequelques
semaines que pour l’ensemble de l’hiver. Sansqu’un
nombre suffisant d’observations ait encore été fait pourqu’on puisse
êtreaffirmatif,
il semble bien que lesgradients correspondant
à despériodes partiel-
les soient
systématiquement plus
faibles que legradient
de l’ensemble.Le nuage
de l’ensemble de l’hiver
apparait
constitué par unesuperposition
de nuagesdisposés
en escalier,chaque
marche de cet escalier étant elle-même inclinée etcorrespondant à
une despériodes analysées.
Mais àchaque période correspond
aussi
approximativement
une zone detempérature ;
si legradient
résultant estplus
élevé que chacun desgradients composants,
c’est parce que la marche laplus
élevée de l’escaliercorrespond
à lapériode
laplus
froide. Latempérature
n’est pas la seule variable saisonnière
qui
conditionne les émissions de gaz. En limitantl’analyse
aux relations entre l’émission et latempérature,
on laisseéchapper
au moins un facteur dontl’effet,
nonnégligeable,
demeureignoré.
Larecherche de ce
facteur,
ou de ces facteurs, est actuellement en cours au Gaz de France.5. Nous avons vu que la
statistique
donnait une information résumée. C’est bien celaqu’on
lui demande car l’informationcomplète
est inutilement encombrante :on ne décrit pas une forêt en en décrivant tous les
arbres,
ni un arbre en en décrivant toutes les feuilles. Cette information est aussi résuméequ’on
le veut,mais une concision excessive ne fournit pas une information efficace. La seule valeur moyenne d’un ensemble de caractères est
généralement inexpressive :
que laprofondeur
moyenne d’unepièce
d’eau soit 30 cm nesignifie
pasqu’un
hommene
puisse s’y
noyer. En revanche une moyenne assortie d’unindice
dedispersion (par exemple l’écart-type
dans une distributionnormale)
suffitgénéralement
àdécrire la distribution en cause.
La
complexité
de certainsphénomènes,
ou le besoin d’utiliser uneexpression puissante
par savaleursynthétique,
conduit à l’utilisation dulangage symbolique.
L’usage
deséquations caractéristiques,
familier à l’homme de science, dérouteparfois
l’homme d’action ou alimente sonscepticisme.
Celasignifie
seulementque la
pratique
dela statistique
n’est pas entrée dans les moeurs. Quel industrielreproche
leur concision auxéquations chimiques ?
Quel industriel met en doutel’aptitude
de ceséquations
àreprésenter
desphénomènes qu’il
seraitincapable
de décrire en
langage
courant ? Etpourtant, qu’y-a-t-il
deplus abstrait qu’une équation chimique ?
On ne penseplus
a leur abstraction parcequ’on
en apris
l’habitude.
Le caractère
apparemment
abstrait desreprésentations statistiques
nesaurait constituer un obstacle durable à un
emploi
courant de l’instrumentstatistique
dans les domainesqui
le sollicitent. Les obstacles à sonemploi
efficace ne tiennent sans doute
pas-tant
à des difficultés d’accoutumancequ’à
desdifficultés
d’intelligence. Intelligence
del’objet
par lesujet,
bien entendu,intelligence
au sensoriginel, l’intelligence
dusujet,
au sens commun, n’étantpas en cause. Il est en effet
difficile, psychologiquement, d’accepter qu’un
instrument de connaissance fournisse
généralement,
tout en étant un desplus pénétrants
de la science moderne, ses informations sous forme restrictive etparfois négative. "Généralement",
parcequ’il
est, en fait, rare,qu’on
luidemande
simplement
de résumer un ensemble exhaustivnt connaissable."Généralement",
on luidemande,
àpartir
d’un ensemble restreint, de decrireun ensemble
plus
vaste, soit que l’onprélève
un échantillon sur unepopulation théoriquement
connaissable dans sonentier, soit,
cequi
estplus risqué
maissans doute
plus fréquent
encore, que l’on utilise des donnéespassées
etprésentes
pour
prévoir
des évènements futurs. Laréponse
doitgénéralement
être lue sousla forme "dans telles conditions, il n’est pas incorrect de penser
que..."
En d’autres termes, on demande
beaucoup
à lastatistique
dedégager,
d’unlot de données variables, des
invariante, d’un
lot de données transitoires, des permanences. De lastatistique,
on attend des lois, J mais les lois sont rarement universelles et immuables, et, dans le domaineéconomique
etsocial,
nes’imposent jamais
à un évènement donnéqu’avec
une certaineapproximation.
-108-
6. Il y a des
opérations répétables,
telles que, en gros, lesopérations
de laphysique
et de la chimieclassiques ;
onpeut,
par leurrépétition,
vérifier leursoumission au déterminisme
scientifique,
selonlequel
aux mêmes causescorrespondent toujours
les mêmes effets. Mais le rassemblement d’un ensemble donné de causes etl’appréciation
de leurs effets ne se fontjamais qu’avec approximation :
la "théorie des erreurs" est encore, de nosjours,
lapremière leçon
destatistique enseignée
auxjeunes
gens,généralement
dans un cours dephysique.
C’est larépétition,
ungrand
nombre defois,
de la mêmeexpérience qui
permet d’accéder à une mesure correcte duphénomène
observé. Unemodification dans les causes apporte une modification dans les effets et conduit, de nouveau, à
répéter
un nombre suffisant de foisl’expérience
ainsi modifiéepour obtenir la mesure du
phénomène
associé à la nouvelle combinaison de ses causes. Une séried’expériences analogues,
chacunerépétée
assez souvent , fournit une série de mesures, dont,quand
on le peut d’unefaçon simple,
ondécrit la succession par l’énoncé d’une loi, en admettant
qu’on peut
traiter parinterpolation
l’ensemble des valeurs non mesurées.Si, sous réserve de
multiplier
suffisamment lesexpériences (et
nonsimple-
ment les mesures de chacune
d’elles),
onpeut
se considérer endroitd’interpoler
on
comprend
aisémentqu’on
n’ait pas le droitd’extrapoler
ou degénéraliser
autrement que sous forme
d’hypothèses,
c’est-à-dire dans le cadre de modèlesauxquels
on n’est pas certain que seplie
la réalité. Ainsi, les loisphysiques
elles-mêmes sont des lois
statistiques
non seulement en ce sens que les constan- tesqui
les définissent ne sont connuesqu’approximativement,
mais encore en ce sens que leur validitérisque
de s’affaiblir à mesure que l’on s’écarte du domaineau sein
duquel
on les a vérifiées. Unexemple classique
de cetteapproximationdes
lois
physiques
est celui de la relationqui
existe entre lapression,
le volume etla
température
d’un gaz. Les lois de Mariotte et deGay-Lussac
ne sont que deslois limites caractérisant l’état gazeux
parfait.
Un gazparfait
est un modèledéfini par
l’équation :
pv = RT,
modèle dont s’écartent les gaz réels. Tout
ingénieur
serappelle l’équation
de Vander Waals
qui
s’efforced’exprimer
lecomportement
dechaque
gaz réel encorrigeant
p et v par l’introduction de deux constantescaractéristiques
du gaz considéré et enajustant
ses isothermes nonplus
à unehyperbole
mais à unecourbe du 4°
degré. L’équation
de Van der Waals a enrichi la connaissance ducomportement
des gaz et desphénomènes
dechangements
dephases,
mais ellen’est elle-même
qu’une
loiapprochée
que d’autresphysiciens
ontproposé
decorriger
à son tour.7. Dans les collectivités humaines, les
opérations
ne sont pasrépétables
parce que les hommes naissent et meurent, parce quechaque
hommechange
àchaque
moment de sa vie, parce que les hommes créent incessamment des conditions nouvelles d’existence. A travers tous ces
changements, cependant,
on peut trouver des permanences : permanences dans les obstacles que la nature des choses oppose à l’invention de l’homme, permanences dans lecomportement
des groupes sociaux, permanences dans les mouvements depopulations
et les fluctuationsdémographiques.
Les
phénomènes,
et notamment lesphénomènes économiques
et sociaux, nesont donc pas inaccessibles à certaines mesures durables,
n’échappent
pascomplètement
àl’investigation statistique.
Nous en verrons desexemples
aucours des
prochaines
séances. Cequ’il
faut, ici, voir clairment, c’est la manière dont, dans la vie courante etsingulièrement
dans l’activitéindustrielle,
sont
posées
lesquestions
aux statisticiens.On veut savoir ce
qu’il
faut faireaujourd’hui
pour obtenir tel résultat demainou dans dix ans, ou encore comment se
dérouleront,
dans l’avenir, les comsé- quences d’un acteaccompli aujourd’hui.
Ce n’est
plus
alors lelangage statistique qu’il
fautemployer,
mais lelangage probabiliste.
Ce n’estplus
unepopulation
d’évènements réels que l’on cherche à résumer mais lapopulation
des chances de réalisation d’un évèneTELent souhaité ousimplement prévu.
Dans le cas, relativementfréquent
dansl’industrie,
oùl’événement
considéré peut êtrereprésenté
par unegrandeur,
laquestion
consistegénéralement
à savoir soitquelle
est lavaleur laplus probable
que cettegrandeur
atteindra à une date
donnée,
soitquelle
chance a cettegrandeur d’atteindre,
àune date
donnée,
une valeur donnée.L’étude des valeurs les
plus probables
intervient notamment dans les esti- mations de rentabilité d’un programme de fabricationprojeté.
Nous retrouverons ceproblème
dans la suite de nos réunions.L’étude des chances d’atteindre une valeur donnée à une date donnée intervient dans la détermination d’une
capacité
deproduction,
notammentlorsque
leproduit
attendu se
prête
mal à la mise en stock. Nous retrouverons aussi ceproblème,
mais il n’est pas inutile d’en
préciser
dès maintenant le sens, carc’est peut-être
lui
qui
révèle le mieux,parmi
lesproblèmes
industriels courants, lechangement d’optique qui distingue
le raisonnementstatistique
du raisonnementprobabiliste.
L’industriel
qui
détermine unecapacité
deproduction
s’intéresse moins àlaproduction
moyennequ’il
devra réaliser dans des circonstances donnéesqu’à
laproduction
maximumcompatible
avec les mêmes circonstances ouexigées
par celles-ci. Plusprécisément,
l’industriel est conduit, pour déterminer une capa- cité deproduction,
à confronter les lois deprobabilité
des circonstancesqu’il envisage
et la loi deprobabilité
du besoin deproduction
associé àchaque jeu
de circonstances,puis
à retenir lacapacité
deproduction
nécessaire pour assurer son service avec unrisque
de défaillanceégal
à une valeurqu’il
se donne.8. La détermination des émissions de gaz dans une ville donnée constitue un
exemple
asseztypique
de ceproblème.
Utilisons-le donc de nouveau.Ce
qui
a été ditplus
hauts’applique
à un moment de la vie de cette ville,pratiquement
à un hiverpendant lequel
on suppose que lapopulation
de la ville nevarie pas et que
l’équipement
de cettepopulation
enappareils
d’utilisation du gazne varie pas. Il est bien évident que si cet
équipement
sedéveloppe,
les émissionsaugmenteront
et notamment que, si le nombre et lapuissance
desappareils
dechauffage
au gazaugmentent,
legradient
de l’émission en fonction de latempé-
rature
augmentera. Supposons
correctement estimé ledéveloppement
del’équipement
etl’ us age qui
en sera fait à la date, future, pourlaquelle
on sepose la
question,
et correctement calculé legradient correspondant,
surl’ensemble de l’hiver, compte tenu de tous les facteurs
susceptibles
d’entrer enjeu.
Admettons enfin que la loi,aléatoire,
de variation de l’émission en fonction de latempérature
soit effectivement linéaire dans tout l’intervalle dont on a besoin. Comme il serait absurde d’admettre que tous lesappareils
d’utilisatiom du gaz fonctionnerontsimultanément,
àplein régime, pendant vingt-quatre
heuresdeux
questions importantes
demeurent :1 ° .
Jusquàquelle température
extrême faut-ilgarantir
les émissions degaz ?
2 ° . Quelle
peut-être,
au maximum, l’émissionappelée
par les consomma-teurs ?
A la
première question,
on ne peutrépondre qu’après
avoir décidé lerisque
de défaillance que l’on accepte. Il est exclu de refuser tout