M ATHÉMATIQUES ET SCIENCES HUMAINES
J. L. P IEDNOIR
Modèle probabiliste et problème statistique
Mathématiques et sciences humaines, tome 28 (1969), p. 39-51
<http://www.numdam.org/item?id=MSH_1969__28__39_0>
© Centre d’analyse et de mathématiques sociales de l’EHESS, 1969, tous droits réservés.
L’accès aux archives de la revue « Mathématiques et sciences humaines » (http://
msh.revues.org/) implique l’accord avec les conditions générales d’utilisation (http://www.
numdam.org/conditions). Toute utilisation commerciale ou impression systématique est consti- tutive d’une infraction pénale. Toute copie ou impression de ce fichier doit conte- nir la présente mention de copyright.
Article numérisé dans le cadre du programme
MODÈLE PROBABILISTE ET PROBLÈME STATISTIQUE
par
J. L.
PIEDNOIRCet
exposé
s’adresse à des étudiants en sciences humainesayant déjà
suivi un cours élémentaire demathématiques
et deprobabilité (cf. M. BARBUT, Mathématiques
des SciencesHumaines, P.U.F., 1967).
Son but est de fournir à leur niveau une vue
synthétique
duproblème statistique.
Il peut servirégalement
de résumé de cours.
I. -
QUELQUES
SITUATIONSCONCRÈTES.
A)
Traitementsagricoles.
Un
organisme
d’étudeagricole
veut déterminer la valeur de deux nouveauxengrais.
Ilprocède
à 10 essais dans 10
parcelles
différentes pourl’engrais
A et à 8 essais dans 8parcelles
différentes pourl’engrais
B.On veut comparer les
résultats,
savoir si lesengrais
sont de bonsengrais,
savoirquel
est lemeilleur.
Mais pour décrire les
résultats,
lelangage
littéraire habituel estinadéquat,
il manque depré- cision ;
pour décrire lephénomène,
il fautparler
un autrelangage,
c’est lelangage mathématique.
Pourdécrire la
réalité,
nous nous servirons de conceptsmathématiques empruntés
à unethéorie,
cetteopéra-
tion
s’appelle
« faire un modèledescriptif».
Le rendement de
chaque parcelle
sera un nombreréel, les
résultats del’engrais
A pourront donc êtrereprésentés
par une suite de 10 nombresréels,
cecireprésente
pour les mathématiciens un espace vectoriel :l’espace
de même les résultats del’engrais
B serontreprésentés
par un vecteur de l’es- pace finalement le résultat del’expérience
peut sereprésenter
par un élément de l’ensemble Ri° XR8, produit
cartésien du vectoriel Rl° et du vectoriel R8.Se servir de la structure vectorielle de R1° et de R8
permet
de calculer certains indicateurs de chacun de ces vecteurs la moyenne, la variance :On
peut également
considérer R1° et R8uniquement
comme des espacesproduits
cartésienset se servir de la relation d’ordre de R et en utilisant cette autre structure
mathématique,
calculerd’autres indicateurs : la médiane
Le rang de chacun des nombres YI ... y8
parmi
les 10-J-
8 observationstotales;
ainsi :Divers indicateurs de
description
sontpossibles
chacun étant lié au modèledescriptif employé.
Une telle
description
estindispensable
pour connaître laréalité,
mais elle est insuffisante pourune
analyse
enprofondeur
duphénomène,
utilisable enparticulier
dans un butprédictif;
et on ne peutrépondre
à laquestion : l’engrais
A est-il meilleur quel’engrais
B ? Pour continuerl’analyse
au-delà dela
description,
il faut utiliser un modèleprobabiliste,
c’est ce que nous ferons dans la deuxièmepartie.
B)
Contrôlede fabrication.
Un acheteur
reçoit
de son fournisseur un lot de 100 000 cartouches. Il se pose laquestion : parmi
ces 100 000
cartouches, quelle
est laproportion
de mauvaises cartouches ? Une idée lui vient : il enprélève
100 en des endroits notés d’avance et lestire;
ils’aperçoit
que 30 cartouches sont mauvaises.Pour décrire la
réalité,
il se sert d’un nombrecompris
entre 0 et 1indiquant
laproportion
demauvaises
cartouches,
elle est de0,30.
Commeprécédemment,
on a utilisé unlangage mathématique
pour décrire la
réalité, langage
certesbeaucoup
moins élaboré que dans le casA) ;
mais comme dans cecas, pour une
analyse plus profonde,
il faut utiliser un modèleprobabiliste.
C) Enquête sociologique.
Un
sociologue
veut savoir s’il y a une relation entre le niveau d’instruction et le niveau de rému- nération des personnes actives en France. Sonorganisme
ne lui fournissant que des créditslimités,
ilne peut
interroger
les 20 millions de personnesactives,
il eninterroge
un nombre limité : n, et pour cha-cune note le revenu et le niveau d’instruction. Là
aussi, plusieurs
modèlesmathématiques
sontpossibles
pour la
description.
Pour les besoins del’enquête,
il se contente de celui-ci : FI.N.S.E.E. aopéré
uneclassification du niveau d’instruction en 5 classes
(I, II, III, IV, V)
et du niveau de revenu en 8 classes(1, 2, 3, 4,
...8).
à
chaque
élément de 1 XJ
il affecte un nombrecompris
entre 0 et1, fil qui représente
laproportion
depersonnes
interrogées ayant
le niveau d’instruction i et le niveau de revenuj.
Pour unedescription
dela
réalité,
ilpeut
aussi calculer les nombres :proportion
des personnes ayant l’instruction iproportion
des personnesayant
larémunération j proportion
des personnesayant
larémunération j parmi
cellesqui
ont l’instruction iproportion
de personnes ayant l’instruction iparmi
celles ayant le revenuj.
Mais tout cela ne
permet guère
d’aborder leproblème posé,
à savoir : y a-t-ilquelque
relationentre les
phénomènes
1 etJ ?
II. - LE
MODÈLE
PROBABILISTE.Les
questions
que l’on se pose étant sansréponse,
nous allons bâtir un modèlemathématique,
c’est-à-dire
remplacer
la réalité concrète par des« idées pures », des conceptsmathématiques,
surlesquels
nous pourrons
raisonner,
tirer desconséquences
que nousappliquerons
ensuite à la situation réelle. Unetelle démarche est souvent
hasardeuse,
le passage au modèleimplique
deshypothèses
très fortes sur leréel, hypothèses
que l’on est engénéral incapable
de vérifier. Leproblème
se posetoujours
de la validité dumodèle,
de sarobustesse,
ce n’estqu’en
confrontant la réalité aux résultats tirés du modèle que l’on peut conclure.Il existe de nombreux modèles
mathématiques
et à une même réalité onpeut appliquer plusieurs
modèles.
Pour les cas
qui
nousintéressent,
lesphénomènes
ne sont pas, àl’évidence,
déterministes dans lepremier
cas : la variétéd’engrais
ne détermine pas un seul et mêmerendement;
dans le deuxième cas, si l’on tirait 100 autrescartouches,
on aurait un nombre différent de mauvaises. De même dans le troisième cas,interroger
100 autres personneschangerait
lesfil
de ladescription.
Il faut doncadopter
un modèle
probabiliste.
L’hypothèse
fondamentale que l’on fait est la suivante : on considèrechaque
résultat observécomme la réalisation concrète d’un aléa
(cf.
cours deprobabilité).
Il faut donc construire unaléa,
c’est-à-dire un espace et une loi de
probabilité
dessus.A)
Construction del’espace.
L’espace
de notre modèle sera l’ensemble de tous les caspossibles
etimaginables (ensemble
despossibilités).
Dans le cas des traitements
agricoles,
onpeut
se servir comme espace fondamental del’espace qui
a servi à ladescription
c’est-à-dire Rl° X R8 = R18.Dans le cas des
cartouches, chaque
cartouchepeut
être bonne(noté 1)
ou mauvaise(noté 0);
pour une
cartouche, l’espace serait { 0,1
}; pour 100cartouches { 0,1
Dans le cas de
l’enquête sociologique,
pour un individu l’ensemble des caspossibles
est l’ensemble1 X
,~
comme il y a n individus l’ensemble des caspossibles
est donc :(I
XJ)n.
B)
Probabilisation.La loi de
probabilité
est engénéral impossible
à déterminer apriori;
mais à l’aided’hypothèses complémentaires,
onpeut préciser
àquel
type elleappartient.
Cette réduction est d’aiheurs
indispensable
pour que l’on aitquelque
chance derépondre
auxquestions posées.
Les aléas à construire se
présentent
leplus
souvent sous forme d’aléasproduits,
cequi
traduitle fait que l’on fait
plusieurs expériences;
on verraplus
loin la raisonprofonde
de ce fait intuitif. On considère l’aléaproduit
comme un aléaproaluit
d’aléasindépendants,
cequi implique
que le résultat d’uneexpérience
nedépend
que de cetteexpérience
et non pas des autresexpériences.
Une tellehypo-
thèse,
trèsimportante, exige
pour sa réalisationconcrète,
uneexpérimentation
bien conduite. On consi-dère de
plus
que tous les aléascorrespondant
à desexpériences
semblables sont lesmêmes,
c’est-à-direqu’ils
ont même distribution. Cettehypothèse
suppose que les conditionsexpérimentales
sontrigou-
reusement les mêmes, ce
qui évidemment,
a desconséquences
sur la manière de faire lesexpériences.
On
peut maintenant,
danschaque
cas,préciser
la forme des différentes distributions deprobabilité.
Cas des traitements
agricoles :
nous avons « arrondi » à des nombresentiers, chaque
résultat etnous pouvons poser :
Pi
= Probabilité pour que le rendement d’uneparcelle
traitée avecl’engrais
A soit de i(c’est-
à-dire
compris
entre i --0,5
et i-+- 0,5,
de même on pose :81 = Probabilité pour que le rendement d’une
parcelle
traitée avecl’engrais
B soitde j (compris entre j
-0,5 et j + 0,5),
et du fait deshypothèses faites,
laprobabilité
d’un vecteur de R1° X R8 dontle résultat se résume sous forme :
est : e o
les
probabilités
semultiplient
du fait del’indépendance,
la même loi entraîne laprésence
de10p
et de8q.
Cas du contrôle. On suppose toutes les cartouches
prélevées
dans les mêmesconditions;
si onappelle
p la
proportion
de mauvaises cartouches dans lelot,
laprobabilité
d’uneséquence
de 100 cartouches 110 ... 1 où ilyale
zéros est :Cas de
l’enquête sociologique.
Si onappelle pi/la proportion
dans lapopulation
totale des individus ayant l’instruction i et lerevenu j
laprobabilité
pour que l’individu k ait leprofil it ,jk,
k variant de 1 à n est :C’est une
probabilisation explicite,
àpartir
deshypothèses générales,
elle est rarementfaite,
eneffet on se contente en
général
d’aléaimage
de ceux-ci et c’est cet aléaimage
que l’onexplicite.
Pour-quoi ?
Parcequ’il
faut non pas connaître l’aléa(Q, p)
maisrépondre
d’une manièreprécise
auxquestions posées
dans lapremière partie.
Mais lesquestions posées
ne sont pasprécises.
Pour yrépondre,
il fautles formuler dans le modèle
mathématique.
C)
Formulation dans le modèlemathématique
desquestions posées.
Les
questions posées
se formulent dans le modèlemathématique
sous forme de conditions sur la distribution deprobabilité, puisque
dans le modèleprobabiliste,
laspécificité
du réel est traduit par la distribution deprobabilité
sur l’ensemble fondamental.Dans le cas des traitements
agricoles,
dire que lesengrais
A et B ont même effet sur le rendement peut se traduiremathématiquement
par :Cas des cartouches. Il faut déterminer
Cas de
l’enquête.
Si le revenu d’un individu estindépendant
de soninstruction,
on a en posant :qui
traduit uneindépendance
enprobabilité.
D)
Réduction duproblème.
Une fois la
question posée,
l’aléa(Q, p)
construit initialement peutparaître trop compliqué;
on a la même information en utilisant un aléa
image (a’, p’) plus simple.
Dans le cas descartouches,
soit X
l’application :
à unesuite,
on lui affecte le nombre de cartouchesloupées
ainsi l’aléa(Q’, p’)
est :Dans le cas de
l’enquête,
on s’intéresseuniquement
au nombre de personnesayant
le niveau d’ins- truction i et le revenuj.
Soitni~
et l’ensemble Q’ est l’ensemble de tous les tableaux de nombres ntl où :avec :
III.
= LE PROBLÈME STATISTIQUE.
A)
Présentation.La
question posée
étant maintenantprécisée
sous forme d’une condition sur la loi deprobabilité,
il faut maintenant voir si
l’expérience
faite estcompatible
ou non avec la loi ou letype
de loienvisagé;
ou bien encore, si la
question
estposée
comme uneinterrogation
sur la loi deprobabilité,
tirer del’expé-
rience une « mesure» de la
probabilité.
Ces
problèmes
reviennent donc à choisir une loi ou un type de loi deprobabilité parmi
ceuxqui
sont a
priori possibles.
Mais comme on est dans un modèleprobabiliste,
il estimpossible
d’avoir de bonnes certitudes et on ne pourra pas faire mieux que de choisir la loi ou letype
de loiqui
a leplus
de chance de cadrer avecl’expérience.
Mais ce mot « leplus
de chance » est vague, la formalisationstatistique
va luidonner
plusieurs
sensprécis
suivant letype
dequestions posées,
suivant le genre d’idées que l’on se faitsur le
problème.
B)
La décisiondichotomique.
Il
s’agit
ici de voir sil’expérience
estcompatible
avec un type de loipossible
ou avec un autre.C’est le cas des rendements
agricoles :
pl, = q, d, ou bien il existe i tel quepi 5
qi.C’est le cas de
l’enquête :
pl,J = Pi. p.;VJ,
ou bien3i 3 j
tels quep~~ ~
pc. p~.Pour faire
comprendre
leproblème,
nous allons commencer par des cas trèssimples
etpurement
abstraits.Supposons
une variété de terre, des informations antérieures àl’expérience
font penser que deuxcas peuvent se
présenter :
ou bien le rendement estcompris
entre 30 et40,
laprobabilité
d’un rendement extérieur à ces limites est nulle(loi
de typeI),
ou bien le rendement estcompris
entre 40 et 60 et la pro- babilité d’un rendement extérieur à ces limites est nulle(loi
de typeII).
On fait uneexpérience,
on trouveun rendement
égal
à43,
toutesprit
bien constitué pensera quel’expérience
estcompatible
avec unedistribution de
probabilité
de type II etincompatible
avec une distribution de type I.- Cas
plus compliqué.
Les rendementspossibles
pour une terre donnée peuvent obéir à deux lois deprobabilité
p, q entrelesquelles
ils’agit
de choisir(R
lerendement) :
Si on trouve un rendement de 29 tout
esprit
normalement constitué pensera quel’expérience
aplus
de chances d’êtrecompatible
avecl’hypothèse
pqu’avec l’hypothèse
q, conclusionopposée
si ontrouve un rendement de 51. Mais avec le seul critère du « flair » le même
esprit
sera bienennuyé
pour conclure s’il trouve un rendement de 37. Pour s’ensortir,
il faut une formalisationplus rigoureuse.
Plusieurs formalisations ont été
proposées,
laplus « générale »
est celle de Wald dite de la décisionstatistique.
Mais cellequi
est laplus employée
est celle deNeyman
et Pearson(qui
peut d’ailleurs être considéré comme résultant d’uneparticularisation
de laprécédente).
Formalisation de
Neyman-Pearson.
1)
L’idée fondamentale deNeyman,
est de dire que les deux types de loi ne sont pas de mêmenature.
Pour
moi, expérimentateur,
il y a un type deloi,
disons maintenanthypothèse, qui
estplus important
quel’autre,
c’estl’hypothèse
nulle. On choisit unehypothèse nulle,
elle est choisie pour des tasde raisons :
-
opinion
d’unpontife;
-- confort
intellectuel;
- elle est déduite d’une théorie actuellement en
vigueur;
- son
abandon, quand
elle estvraie,
me coûteraitplus
cher que le fait contraire :l’accepter quand
elle est fausse.2)
On veut segarantir
contre unrejet trop fréquent
del’hypothèse
nullequand
elle est vraie.Pour cela on choisit un nombre ce
~ [ 0, 1 [
et laprobabilité
derejeter l’hypothèse nulle,
notéeHo,
quand
elle estvraie,
devra être inférieure à ce. Soit C l’événement :rejeter Ho.
On marque V P E
Ho
carHo
peut être formée de lois différentes(exemple :
les traitementsagricoles).
Le choix du seuil de confiance oc est en
général
délicat.Grossièrement,
et pour autant que leproblème
est suffisammentrégulier,
on peut dire que si oc est trèsfaible, j’ai
peu de chance derejeter l’hypothèse nulle,
doncje
choisirai oc d’autantplus petit
quej’ai plus
de confiance enl’hypothèse Ho,
oc sera dans cette
interprétation
une « mesure » de ma confiance enHo.
Mais cette
interprétation
n’est pas à l’abri de toutecritique :
elle fait intervenir des notionssubjectives :
la confiance enl’hypothèse nulle,
extérieure au modèleexplicité,
mal formalisées et que l’onveut traduire par un chiffre
précis,
cequi
est pour le moins une contradictionlogique.
Le choix de ce et soninterprétation
ne peuvent recevoir deréponse
satisfaisante que dans le cadregénéral
de la décisionstatistique
de A. Wald.3)
L’événement Crejeté, Ho
est donc l’ensemble des résultatsexpérimentaux parmi
tous ceuxqui
sontpossibles,
que l’onjuge
trop peu vraisemblables avecl’hypothèse Ho ;
C est donc unepartie
deS~
(C c Q).
C estappelée
larégion critique
du test. Dans le cas abstrait donnéplus
haut si :p est
appelé l’hypothèse
nullea=0,1
alors :C =
(R > 35)
est unerégion critique possible.
La
probabilité
deC,
si p estvraie,
est bienégale
à0,1.
Remarques.
a)
Larégion critique dépend
del’hypothèse
nullechoisie,
elledépend
aussi du seuilchoisi ; b)
Pour unehypothèse
nulle et un seuildonné, quelle
est la meilleurerégion critique ?
Pourrésoudre ce
problème,
il faut donner un critèreprécis
pour comparer deuxrégions critiques. (Cf. plus loin,
la remarque
a)
dupoint 4).)
Avec les critères actuellementemployés,
il n’admet de solutions que dansquelques
casparticuliers.
Illustrons la remarque
a).
Dansl’exemple abstrait,
si p estl’hypothèse
nulle et a =0,03,
larégion critique
est C =(R ~ 40);
si q estl’hypothèse
nulle(nous
faisons valser leshypothèses)
et a =0,03,
la
région critique
est C =(R 35). Attention,
la décision finale : accepter ourejeter l’hypothèse
nulledépend
bienentendu,
du choix del’hypothèse
nulle et du seuil. Dansl’exemple précédent,
si on a unconstat
expérimental
de37,
avec p commehypothèse
nulle et oc =0,03,
onaccepte l’hypothèse
nulle p;avec q comme
hypothèse
nulle et a =0,003,
on accepte ql’hypothèse
nulle.4)
Dans laproblématique Neyman-pearsonnienne
on aprivilégié
unehypothèse appelée hypo-
thèse nulle et on se
garantit
contre un type d’erreur(erreur I) :
«rejeter l’hypothèse
nullequand
elle estvraie »;
mais il y a un deuxième type d’erreur(erreur II),
« accepterl’hypothèse
nullequand
elle estfausse ». Et si on se
garantit beaucoup
contre l’erreur 1 en fixant a trèspetit,
on aura peu de chance derejeter l’hypothèse
nulle(la région
sera trèspetite)
et on sera amené àl’accepter plus
souvent même sielle est fausse et donc à augmenter le
risque
d’erreur II.Il y a donc un
équilibre
à trouver,qui dépend
duproblème posé,
del’opinion
del’expérimentateur
sur
Ho.
Pour mesurer lerisque
d’erreurII,
on est amené à poser :Hl
contrehypothèse fi (P) s’appelle la puissance
du test, c’est laprobabilité d’accepter Hl quand
laloi P E
Hl
est vraie.p est
donc unefonction, g
variequand
P varie dansHl;
p
n’estqu’un
nombre que siH1
ne contientqu’une
distributionpossible. Ainsi,
dansl’exemple précédent,
p estl’hypothèse
nulle : oc =0,03
C =(R > 40).
Probabilité de C avec la
distribution q
donne lapuissance : fi
=0,90,
et l’erreur dutype
II est : 1 -p == 0,10.
Remarques.
a)
Pour unehypothèse
nulle donnée et un seuil donné si on hésite entre deuxrégions critiques
Cet
CI,
la meilleure est cellequi
donne lapuissance
laplus grande, puisque
toutes choseségales
parailleurs,
l’erreur de
type
II estplus
faible.b)
Si avec un seuil a =0,10
on trouve unepuissance toujours supérieure
à0,99,
leproblème
estmal
posé,
car finalement l’erreur detype
II étant trèspetite,
ce n’est pasHo qui
estfavorisée,
maisHl
ettout revient à avoir choisi en fait
Hl
commehypothèse
nulle. Il y a une cohérence interne à cette forma.lisation
qu’il
faut respecter.5)
Résumons la démarche.Problème. - A-t-on une distribution de type
Ho
ou une distribution detype Hl ?
1. On choisit une
hypothèse
nulleHo.
2. On choisit un seuil x.
3. On détermine une
région
C dans l’ensemble despossibilités
tel que V P EHo
P(C)
ceFig.
14. Si W E
C,
onrejette l’hypothèse
nulle.Si tô (E
C,
onaccepte l’hypothèse
nulle.5. On cherche la fonction
puissance
deC : ~ (P)
= P(C)
si P EHl,
à condition que cela ne soitmathématiquement
pastrop compliqué.
Exemple :
Les traitementsagricoles.
Problème
posé :
pi = qtv 1
ou bien 31, ql.a)
On choisit commehypothèse
nulle que lesengrais
A et B ont des actionsidentiques,
les distri-butions de type
Ho
sont telles que : pi = qi y i.b)
On choisit comme seuil ce =0,1.
c)
La détermination de larégion critique
est icidélicate,
pour y arriver on code les situations.Coder,
c’est affecter àchaque
situation un nombre.Ici,
ce sera un nombreentier,
un code c’est donc uneapplication
--~ N. Le code que nousadoptons
ici est le suivant : sur les deuxengrais qui
ont unemême
action,
les résultats sont très «mélangés »,
c’est-à-dire queparmi
10+
8 observations totales ordonnées par ordrecroissant,
les observations yi provenant del’engrais
B ne sont pas concentrées enun seul secteur.
Exemples : (I)
y xxxyyxxxxyyyxxyyx; par contre une observation(2)
yyyyyyxyyxxxxxxxxx aurait tendance à prouver quel’engrais
B est moins bon quel’engrais
A. Pour mesurer cemélange,
on compte le nombre detranspositions
U des y par rapport aux xU
peut prendre
toutes les valeurs de 0 à 80.Fig.
2Si U est trop
petit
ou tropgrand, l’hypothèse
nulle sera peu vraisemblable et doncrejetée, quand l’hypothèse
nulle estvraie,
l’aléaimage
de(Q, P)
par U :(0’, P’)
est le suivant : 0’ =(0, 1, 2,
...,80).
P’ est une distribution que l’on trouve dans les tables et
qui,
faitremarquable,
est la mêmequel
que soit l’aléa P sur Q pourvu
qu’il
fassepartie
dutype Ho (les
y et les x ont même distribution de pro-babilité)
et c’est ce faitqui
donne toute sa valeur à notre code.On peut maintenant déterminer la
région critique.
La table dit que dansl’hypothèse Ho
la loide
probabilité marquée Po
de Uimplique
que :donc la
région critique
sera :d)
La sérieexpérimentale
donnée ici est la suivante : U(w) = 10,
d’où : au seuil oc =0,1,
onrejette l’hypothèse Ho.
e)
Vu lacomplexité
ici del’hypothèse bIl,
vraifourre-tout,
il est très difficile de calculer lapuissance,
ceci estpossible
pourquelques
distributions deHl
mais tropcomplexe
pourfigurer
dans unenseignement
élémentaire.Remarque.
Pour tous les tests que nous
ferons,
la démarche sera la même, enparticulier
pour lesproblèmes complexes
nous étudierons d’autrescodes,
leplus
célèbre est celui ditdu X2 (cf.
Note de Barbut : uneintroduction au test
du x2, M.S.H.,
nO14,
pp.23-30, 1966).
C)
Choix d’unparamètre.
Dans
l’exemple
descartouches,
il nes’agit
pas commeprécédemment,
de choisir entre deux types deloi,
mais àpartir
du faitexpérimental constaté,
choisir une loiparmi
toutes cellesqui
sontpossibles :
ici choisir p E
(0,1)
leplus
« vraisemblable ~. C’est leproblème
de l’estimation. Résoudre leproblème
de l’estimation c’est donc associer à tout résultat
expérimental
donné co un nombrep (co) qui
seraappelé
l’estimateur de p. C’est donc faire une
application : Qp2013-~ (0,1).
Le
problème
se pose dechoisir,
en un certain sens àpréciser,
la meilleureapplication possible.
Pour le
problème qui
nousintéresse,
les mathématiciens l’ontrésolu,
et d’abord avec le sens commun, ils ont démontré que pour un certain nombre decritères,
la meilleureapplication fi
est la suivante :A nombre de mauvaises cartouches dans la
séquence
(ùp
(ù) =
nombre total de cartouches tirées dans la diteséquence.
Dans l’essai w effectué sur 100
cartouches,
30 sont mauvaises donc :p (w)
=0,30
est une estimationde la
proportion
de mauvaises cartouches dans le lotglobal.
Mais un
problème
se pose :quelle
confiancepuis-je
accorder à cette valeur ?Quelle
est sapréci-
sion ? Précision
probable
bienentendue,
car le modèle est un modèleprobabiliste.
L’erreur commise en
remplaçant
ppar p (cù) est p (ce)
- pl’application qui
a w faitcorrespondre p(w)
- p détermine un aléaimage
dont l’ensemble fondamental est(-1, -~-1). Pour détermineruneborne à
l’erreur
probable p - p,
on choisit un seuil a et on cherche sur l’intervalle(- 1, -E-1)
un intervalle(- 1, -~- 1)
tel que laprobabilité
de cet intervalle soit 1- oc. La déterminationrigoureuse
de 1 est délicatemais les mathématiciens ont montré que si n est assez
grand,
disons n > 20 et la valeurp (w)
trouvée pas troppetite,
disons 7 l’aléaimage
de(0., p)
parl’application ( p - p)
2 est à peuprès
un aléanormal dont il existe des tables. Ainsi dans le cas
qui
nous intéresse où n =100,
si onprend
ex =0,05,
les tables donnent t’ =
1,96,
et donc :et comme 2
J5= 20,
L’intervalle aléatoire
(p 2013 ~
p-~- 1)
recouvre donc la vraie valeur p choisie avec uneprobabilité
1- oc =
0,95,
c’est ce que l’on traduit en disant une fois calculép (co)
pour laséquence expérimentale
cedonnée que : avec une confiance de
0,95, 0,20
p0,40.
Attention : ne pas confondre
probabilité
et confiance.D)
Enrichissement dumodèle,
lastatistique bayesienne.
Nous avons
jusqu’à présent
considéréimplicitement
laprobabilité
comme unecaractéristique
dumodèle,
rendant compte de certainsphénomènes
réels et donc un peu comme une donnée du réel. Mais la notion deprobabilité
peut avoir un autre statutépistémologique
quecelui-là,
elle peut traduire non pas la nature deschoses,
maisl’opinion qu’une
personne a sur les choses. Ils’agit
desystématiser, grâce
à la
probabilisation,
uneopinion
apriori.
Ce concept adéjà
fait sonapparition
avecl’interprétation
duseuil de confiance et dans la formalisation de
Neyman
et Pearson.Pour faire
comprendre
ce dont ils’agit,
nous raisonnons sur unexemple qui
n’a de valeur quedidactique,
maisqui
permet des calculssimples.
L’idée
générale
est la suivante :a)
Différents états de la nature sontpossibles,
chacun étant caractérisé par une certaine distri- bution deprobabilité. Exemple :
une urne contient des boulesmarquées
0 et des boulesmarquées
1. Desrenseignements précédents,
montrent que troiscompositions
notéesI, II,
III sont apriori possibles,
chaque composition
étant caractérisée par laproportion
de boules dechaque
type, cequi
caractériseégalement
laprobabilité
de tirer une telle boule. Le tout est résumé par le tableau suivant : Tableau 1b) J’ai
uneopinion
apriori
sur les différents états de la nature queje
traduis en affectant unedistribution de
probabilité
à ces différentsétats,
cequi
donne pourl’exemple considéré,
le fait suivant : Un coup d’aeilrapide
surl’urne,
me donne uneopinion
apriori
sur lacomposition possible
queje
caractérise par la distribution de
probabilité
suivante :Tableau II
c) Je
fais uneexpérience,
elle me donne un certainrésultat;
dansl’exemple j’ai
tiré une boulemarquée 0,
commentvais-je
modifier monopinion
pour tenir compte de cette information nouvelle ?et obtenir ainsi une
opinion
aposteriori intégrant
le résultat del’expérience.
La formule du Révérend ThomasBayes
sur lesprobabilités
conditionnelles sera l’axe de la formalisationprobabiliste
de cettesituation.
Considérons
l’espace Q
X0,
le tableau 1 peut êtreinterprété
comme étant lesprobabilités
conditionnelles d’une distribution de
probabilité
sur S~ X 0 :Le tableau II de mon
opinion
apriori
sont lesprobabilités
ditesmarginales
sur 0 :Dans ce schéma une modification rationnelle de mon
opinion
pour obtenir monopinion
aposteriori intégrant
l’information « il a été observé w = 0 » estinterprétée
comme la recherche desprobabilités
conditionnelles suivantes :
La formule de
Bayes
démontrée dans le cours de calcul desprobabilités
permet d’écrire :avec :
Et le
problème
est entièrement formalisé. Effectuons les calculs :Et mon
opinion après
information est donc résumée par le tableau : Tableau IIId)
Au vu de cetteopinion
aposteriori
c’est à moi d’en tirer lesconséquences
pour une action ultérieure.Remarque.
L’opinion
aposteriori
est naturellementdépendante
del’opinion
apriori
et aussi au vu desmêmes
expériences
deux individus différents tireraient desconséquences
différentes. Mais on démontre queplus
lesexpériences
faites sont nombreuses et doncapportent
une information riche(ici
iln’y
aqu’une expérience !) plus
lesopinions
aposteriori
se ressemblent et ceciquelles
que soient lesopinions
a
priori prises
audépart
pourvu que celles-ci ne contiennent pas d’étatprobabilisé
avec laprobabilité
0.Les
opinions
aposteriori
se ressemblent car elles tendent toutes vers la distribution suivante : 1 à l’étatqui
traduit la nature réelle de l’urne et zéro ailleursquand
le nombred’expériences
tend vers l’infinipar
exemple
si l’état de l’urne est l’état IIaprès
un nombre infini detirages
monopinion
aposteriori
sera la suivante :
Tableau IV
quelque
soitl’opinion
apriori
pourvu que celle-ci ne donne pas laprobabilité
0 à l’un des états.Ce théorème est
quand
même réconfortant pourl’esprit,
même s’il estimpossible
de faire unnombre infini
d’expériences.
E) Statistique
etgrands
nombres.Le théorème
précédent
montrequ’il
est intéressant de voir l’évolution desprocédures statistiques quand
le nombred’expériences
tend vers l’infini.Nous avons vu lors de la modélisation
probabiliste
que les aléas que l’on considère sont des aléasproduits
d’aléasindépendants
et de même loi.Ainsi,
dans le cas des traitementsagricoles,
si on fait ni essais avecl’engrais
A et n2 essais avecl’engrais B, l’espace
fondamental est Rnl X Rn,(cf. paragraphe I-A).)
Pour décider entrel’hypothèse
Ho :
les deuxengrais
ont même effet etl’hypothèse Hi les
deuxengrais
ont des effetsdifférents,
on se sertd’une
région
c Rnl X Sil’expérience
faite t~o E on accepteHo,
sinon onrejette Ho.
On démontre le théorème suivant : il existe une suite de
régions qui
sont telles que :Théorème
qui signifie
doncqu’avec
un nombre infinid’expériences,
les erreurs detype
1 et detype
II peuvent être nulles toutes les deux et donc que l’onpeut
décider sansambiguïté
entreHo
etHl.
Dans les cas des
cartouches,
on démontre en calcul desprobabilités, qu’avec n
cartouches tirées :donc l’erreur devient nulle si on fait un nombre infini
d’expériences.
CONCLUSION.
Tous les
problèmes statistiques
que l’on se pose sont résumés par laphrase :
Trouver la« bonne»loi de
probabilité
ou le « bon» type de loiparmi
celles ou ceuxqui
sontpossibles.
Les
procédures
que nous avons données sont convergentes, c’est-à-direqu’avec
un nombre infinid’expériences,
les résultatsexpérimentaux
étant connu sans erreur, on arriverait à uneréponse
certaine.On peut dire aussi :
plus
le nombred’expériences
estgrand plus
la discrimination entre les types de loispossibles
est facile. Mais on ne peutjustifier
lastatistique
par des considérationsasymptotiques
uni-quement. Le but de la
statistique,
comme nous l’avons vu, est de proposer desprocédures
rationnelles pourrépondre
aumieux,
suivant des critères donnés àl’avance,
auxproblèmes posés quand justement,
une connaissance