J. F AUCOUNAU
Note sur une loi de probabilité discrète méconnue
Mathématiques et sciences humaines, tome 52 (1975), p. 55-68
<http://www.numdam.org/item?id=MSH_1975__52__55_0>
© Centre d’analyse et de mathématiques sociales de l’EHESS, 1975, tous droits réservés.
L’accès aux archives de la revue « Mathématiques et sciences humaines » (http://
msh.revues.org/) implique l’accord avec les conditions générales d’utilisation (http://www.
numdam.org/conditions). Toute utilisation commerciale ou impression systématique est consti- tutive d’une infraction pénale. Toute copie ou impression de ce fichier doit conte- nir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
NOTE SUR UNE LOI DE PROBABILITE DISCRETE MECONNUE
J. FAUCOUNAU
Les ouvrages sur le Calcul des Probabilités mentionnent
généralement,
au titre des lois derépartition
d’une variableà valeurs
discrètesq
les lois derépartition
usuelles : bino-miale, géométrique, hypergéométrîque
et loi de Poisson. Notre intention est d’attirer ici l’attention sur une loitrès
sim-ple, généralement
maisqui mériterait,
à notreavis,
defigurer
en bonneplace parmi
les lois deprobabilité
discrètes citées ci-dessus. Cette
loi,
que nousdésignerons
du non de "loi k-dimensionnelle d’une variable multinomiale
dégénérée", présente
un intérêtpédagogique
nonnégligeable
car elle introduit de
façon
naturelle les nombres deStirling
de deuxième
espèce
dont on sait le rôleimportant
dans lecalcul des différences finies.
Le
problème auquel
elle serapporte
remonte à de Moivrequi l’énonça
pour lapremière
f.ois sous la forme d’unproblè-
me de dés : Si on lance un dé
parfaitement symétrique, possé-
dant n faces distinctes
(
numérotées parexemple
de 1 àn ) , quelle
est laprobabilité
de voirapparattre
exactement k deces n faces en m
coups ?
De Moivre en donna la solution enutilisant ce que nous
désignons
usuellementaujourd’hui
dunom de "formule de Boole" relative à la
composition
des pro- babilités :---
(1)
cequi
lui a valu d’être "redécouverte" àplusieurs
reprises,
mêmes récemment(Voir
parexemple C.Craig[Il
p173)
Choisissant comme événement
Ei
lanon-apparition
de laface i
(événement
dont laprobabilité
est de(1-1/n)
lors dechaque lancer),
il trouva ainsi la formule :1=1 1
--
où P est la
probabilité
de voirapparattre (au
moins unefois)
k faces déterminées.
Laplace
[8]reprit
etdéveloppa
le momeproblème
sous laforme de la "loterie lorraine- étudiée par
Trembley
(12) etEu1er [3]. Dams cette
loterie,
n billets sont distribués et tirés au sort avecremise ,
d’où il résulte un nombre k debillets
gagnants (compris
entre 1 etn).
Enoncé sous cetteforme,
leproblème
revient à chercher laprobabilité
pour quem boules tombant au hasard dans n bottes
identiques,
k de cesboites soient
occupées.
Cette remarqueexplique l’origine
destermes
dl"ocoupanoy*
et de donnéerespectivement
au
problème
par les auteursanglo-saxons
et allemands. Plusprès
de nous, différente auteursparmi lesquels
nous citeronsW.L. Stevens
L ~ 1 ] ,C.C. Craig 111 l,
Ch. Jordan (~l(p 178),
P.N.David [2] et N.L. Johnson [6] ont traité de cette même
question
Nous
l’exposerons
pour notrepart
comme suit :Soit une urne contenant N boules dont une
proportion
pa
est constituée de boules de couleur a&0
le nombre de couleurs différentes étant n au total.
On
prélève
dans cette urne partirages
successifs avecremise un échantillon de m boules.
les nombres de boules de couleur
figurant
dans i’ éehantiiion( X i >. j .
Dans la loi
multinomïale 9
on étudie larépartition
dela variable
aléatoire X à
ncomposantes discrètes Xl,X2eeXne
I...
uEn d’autres
termes,
on cherche laprobabilité
pourque X
soitégal à ? donné , 5 étant
un vecteur d’un espace dimen-sions dont les coordonnées sont liées par la relation :
les
xi
étant des entiers nonnégatifs (
Dansl’espace En ,
1’extrémité du
vecteur ?
sedéplace
dans1 ’hyperplan L ai
=m).
On montre facilement que :
La loi k-dimensionnelle de la variable mult1noaiale s’introduit
lorsque
l’on s’intéresse non auxcomposante X
elles-mêmes,
mais au nombre K decomposantes
non-nulles de X.En d’autres
termes,
on cherche laprobabilité
pour que l’échantilloncomporte k
ensembles non vides de boules decouleurs
différentes ( k
étant un entier tel que ou nsuivant que m est inférieur ou
supérieur à n ).
On notera
P(m,k)
laprobabilité
k pour unéchantillon de taille m .
Nous examinerons tout d’abord
quelques
casparticuliers:
Si on tire une seule boule
(m
=1),
cette boule seraobligatoirement
de l’une des couleursa,b, ... z.
Parcomposi-
tion des
probabilités,
on a parconséquent :
Si on tire deux boules
(m = 2) 9
on se trouvera enpré-
sence de deux
possibilités :
a)-
les deux boules sont de la même couleur. Alors :b)-
les deux boules sont de couleurs différentes :P(2,1)
etP(2,2) correspondent
doncrespectivement
à lasomme des termes en
pi
et enpipj
dudéveloppement
de( î pi)2.
La formule se
généralise
aisément pour mquelconque
eton a :
(6) P(m,k) -
Somme des termes endéveloppement
depour
lesquels chaque
ensemble est une racine enentiers non
négatifs
del’équation
l.e nombre de termes non nuls de cet ensemble étant
égal
~, k.La donne
théoriquement
le moyen de calculerP(m,k)
en fonction desPi-
Si on fonctions
symétriques
fonda-mentales des
Pi ’
soit :on pourra
exprimer P(m,k)
en fonction deso ..
Parexemple ,
pour m = 4 et n
>.4 ,
on trouve :Pour n 4
(par exemple
n =3)
les mêmes formules sontvalables à condition d·annuler les termes en a de rang
supé- rieur à
n( a4
dansl’exemple cité).
En
pratique,
le calcul secomplique
très vitedès
que la valeur de mdépasse quelques
unités.Nous étudierons maintenant le cas
particulier, qui
estl’objet
de laprésente note,
où laproportion
de boules d’unecouleur est la même
quelle
que soit la couleur considérée(loi
multinomiale
"dégénérée") :
La
probabilité P(m,k)
pourqu’un tirage
de m boules four.nisse k ensembles de couleurs différentes se calcule alors aisément par un raisonnement de récurrence :
Pour
qu’un tirage
boules fasseapparattre k
ensem-bles de couleurs
différentes,
il faut et il suffit :- soit que le
tirage (m-1)
ait faitapparaître
k ensemblesde couleurs différentes et que le
m tirage
fasseapparai-
tre une boule de lune des couleurs
déjà
tirées~
’
- soit que le
t irage (m-1)
ait faitapparaître t ~-1 )
ensem-bles de couleurs différentes et que 3.e
m tirage
fasseapparaître
une boule d’une couleur nouvelle.Par
composition
desprobabilités,
on a donc :Si nous posons :
il est facile de voir que la relation
(7)
entraîne pour les coefficientsSk la
relation de récurrence :Bl 1
Cette relation est l’une des définitions relatives aux
"nombres de
Stirling
dedeuxième espèce.,
nombresqui
s’intro-duisent en
Mathématiques
dans diversesquestions,
dont en par- ticulier le Calcul desdifférences
finies SI)Il est
possible
de retrouver la formule(8)
en utilisantune
deuxième
définition des nombres deStirling
dedeuxième espèce :
Onpeut
en effet définirs:
comme le nombre defaçons
de ranger m
objets
distincts dans k casesindiscernables , chaque
case contenant au moins unobjet (
k 5m).
Il est facile de voir que cette définition
correspond à
la
préeédente -,
Considérons en effet les deux ensembles derangements
suivants :(A):ensemble
desrangements
de(m-l) objets
dans k cases(aucune
casevide) (B):ensemble
desrangements
de(m-l) objets
dans(k-1)
cases(-id-)
.,
Ajoutons
unm1eme objet:
Il y a k
possibilités
del’ajouter
àchaque rangement
de(A) puisque
onpeut l’ajouter
dans l’unequelconque
des k casesIl
n’y
a par contrequ’une
seulefaçon
del’ajouter à
l’un des
rangements (B) de manière
à créer une case :C’est de mettre le
objet
seul dans la case(
rap -pelons
que les cases sontindiscernables,
c’est-à-dire que l’(1)
Voir page suivanteordre dans
lequel
on les considère est sansimportance).
On obtient donc la relation de récurrence cherchée :
, avec comme il est facile de le voir :
Schématisons alors un
tirage
m par unecorrespondance
telle que :
signifiant qu’une
boule de couleur a est sortie auxpremier,
troisième etquatrième tirages,
une boule de couleur b ausecond,
etc...Les événements constitués par les suites ordonnées telles que abaac... sont les événements
équiprobables.
Leur nombre total estn~ puisqu9à chaque tirage
élémentaire il existe npossibilités
d’amener une couleur.Soit k le nombre de couleurs distinctes obtenues
parmi
les n
possibles.
Créons k cases et mettons dans ces cases les numérosrepères
destirages : Exemple :
La case a contiendra1,3,4,... ,
la case b :2,...,
la case c :5,...,
etc....Il y a
S façons
de le faire si on ne discerne pas les caseset
k! Sk
mfaçons
ç si on lesdistingue.
Le nombre de cas favorables c’est-à-dire le nombre defaçons
d’obtenir k couleurs distinc- tes lors dutirage
m sera donc :d’où la
probabilité
cherohée :(1) (renvoi
pageprécédente)
Utilisant lessymboles
usuelsdans cette branche des
Mathématiques,
certains auteursemploi-
ent la notation
qui exprime,
pardéfinition,
le résultatobtenu
lorsque
l’on attribue à x la valeur zéro dans la diffé-rence
kiéme
dee.
On a ainsi : kt.S k
m =kcfA.
En
remplaçant Ck
par sa valeur , on retrouve les formules(8)
et(8 bis).
--
.. -.-
’
Il existe des tables relatives aux nombres de
Stirling
de
deuxième espèce
pour m = 1 à m =25,
cequi permet
pour les faibles valeurs de m, de calculer sans difficulté lesP(m,k)
àpartir
de la formule(8 bis).
Pour les
grandes
valeurs de m, on utilisera la formuled’approximation
établie par L. Roser et M.Wyman 110]dont
lepremier
terme est :ou r est solution de :
et
Les nombres de
Stirling
dedeuxième espèce possèdent
uncertain nombre de
propriétés remarquables
surlesquelles
nousn’insisterons pas, nous contentant de
rappeler
lesprincipales:
a)-
Pour mfixe,
on a évidemmentpuisque
lesP(m,k)
sontdes
probabilités :
1
même si n m. Dans ce dernier cas,
P~m,k~
= fl pour tout k > ndu fait de la
présence
d’un facteur nul aunumérateur ).
soit :
b)-
Soitp(x)
unpolynbme
dedegré
m . Onpeut
l’écriresous la forme :
Faisons successivement Il vient :
Les relations
(13) permettent
de calculer deproche
enproche
les coefficientsa., all 82’
,etc** enfonction
deP(X ) , P(x ) p etc...
,Choisissons maintenant comme
polynom. p(x)
=xm
etassignons
aux variablesxi
les valeursrespectives :
Nous voyons que,
d’après
ltidentité(11),
les coeffi-cients
aor lit
...,a.
s’identifient aux nombres deStirling
de
deuxième espèce, l’expression (12)
devenant :soit :
Les formules
(13) permettent
donc de calculer les va- leurs desSk.
m Il vient enparticulier :
La formule
générale
est facile à obtenirgrâce
aux iden-tités
(13)
écrites sous la forme :Multiplions
lapremière ligne
par la seconde par2 3 k
-
ak 9
latroisième
parC k y
etc... et additionnons membre à membre. Lepremier
membre donne la somme :Au second
membre, grâce
à unepropriété
bien connue destous les coefficients des
SJ
sontnuls,
àl’exception
duk k BÊ
dernier :
Sm 0
On a donc :Revenons maintenant à la loi k-dimensionnelle d’une variable multinomiale
dégénérée, représentée
par la loi de distribution(8).
On voit facilement que cette loi de distribution revêt des formes
très
différentes suivant que m estpetit
devant n ,équivalent
à. n outrès grand
devant n .Dans le
premier
et le dernier cas, les courbesenvelop-
pes
joignant
les sommets duspectre
desprobabilités P(m,k)
ont la forme de "dents de scie".
Lorsque
m serapproche
de n , la courbe sesymétrise
etprend
une forme "encloche",
lasymétrie
maximumayant
lieupour m = n .
Figure
1 : Diverses formes de la loi de distributionPour déterminer les
moments
de la loi derépartition
dela variable aléatoire
k,
leplus
aisé est departir
des mo-ments factoriels
qui
ont uneexpression
trèssimple (voir
laformule
(19) ci-dessous).
Nous utiliserons pour
alléger
l’écriture la notation commode introduite par N. oandermonde :qui
conduit à la formule connue,parallèle à
la formule de dé-rivation d’une
puissance :
où A est
1’lopératour
différence :On a alors :
En
appliquant l’opérateur A
àe 1
il vient successi- vement :En
remplaçant
x par(n-s),
on obtient la relation :Le moment factoriel de la distribution de la va- riable aléatoire k est :
,~ ,
(si
m > n, les termes dont l’indice estplus grand
que n sontnuls) .
Multiplions
et divisons parn~s~ .
Enremarquant
que il vient :soit en tenant
compte
de la relation(18) :
mathématique
de k s’obtient en faisant s=1 dans la formule ci-dessus. D’où :La variance s’obtient en faisant a-2 et en tenant
compte
de la relation entre variance et moments factoriels :
Il vient ainsi :
Oa8 particuliers :
tendant vers zéro
Le
spectre
desprobabilités tend,
comme il était intui-tivement
évident,
à seréduire
à la seulecomposante P(m,n)
qui
tend vers 1.b)-
Si m est fixe et n + 00Le
spectre
desprobabilités
tend à se réduire à la seulecomposante P(m,m) qui
tend vers 1.c)-
Si m et n tendent versl’infini,
lerapport m/n
= arestant constant :
Nous terminerons en
signalant
que la loi k-dimensionnelle s’introduit defaçon
naturelle dans un certain nombre de ques-tions en
numismatique, lexicologie, botanique, biologie,etc...
Nous citerons à titre
d’exemple
sonapplication
dans le recen-sement d’une
population
d’insectes volants(papillons).
Pourestimer le nombre de
papillons
vivant dane une airedonnée,
onfait m
captures
au hasard(en prenant
soin quechaque’papillon
ait la même chance d’être
attrapé
àchaque capture),
on marquel’insecte
captnré
et on le relâche aussitôt. Unpapillon peut
ainsi être
attrapé zéro,
une,deux, trois,
etc....fois. De lastatistique obtenue,
onpeut
déduire une estimation du nombre total depapillons
dans l’aireconsidérée.(Pour plus
de détailvoir 0.0,
Craig
[l]et I.J.Good 141
et[5]).
On remarquera que leproblème revient à
affecter unecase à chaque papillon
et àlaisser tomber au hasard m boules
(chaque
boulecorrespondant
à une
capture)
dans ces cases.BIBLIOGRAPHIE
[1]- CRAIG
C.C.,"On
the utilization of markedspecimens
in es-timating populations
offlying insecte", Biometrika,
40(1953), 170-176
[2]- DAVID F.N. & BARTON
D.E.,
CombinatorialChance, London,
Charles Griffin &
Company Limited, 1962,243-286
[3]-
EULERL., Opuscula Analytica,
volII (1785), 331-346 [4]-
GOODI.J.,"The population frequencies
ofspecies.." ,
Biometrica, 40, (1953), 237-264
[5]-
GOOD I.J. & TOULMING.H., "The
number of newspecies...."
Biometrica, 43, (1956), 45-63
[6]-
JOHNSON N.L. & KLOTZS.,
DiscreteDistributions, Boston Houghton
MifflinCo , (1969), 251-253
[7]-
JORDANCh.,
Calculus of FiniteDifferences, New-York ,
Chelsea
Publishing Co , (1965), 168-179
[8]-
LAPLACEP.S.,
ThéorieAnalytique
desProbabilités, Paris, Courcier, (1812), 192-201
[9]-
De MOIVREA. ,
Doctrine ofChances , London, (1718) ,
Problème
XXXIX[10]-
MOSER L. & WYMANM. ,
Duke MathematicalJournal, (1958)
29-43
[11]-
STEVENSW.L. , "Significance
ofgrouping", Annals
ofEugenics, 8, (1937), 57-69
[12]- TREMBLEY, "Recherches
sur unequestion
relative au cal-cul des