L’´et´e 2010
Cours 5 — le 18 mai 2010
5.1. Lecture sugg´er´ee. Biostatistique sous la direction de Beuscart, 1.3.6(b), 1.4.1 et 1.4.3.
5.2. Le but principal de cette session est de pr´esenter la loi de distribution normale, par un chemin tr`es naturel, celui-ci `a travers de la loi binˆomial.
SoitNun nombre entier naturel quelconque. Considerons l’exp´erience al´eatoire qui consiste en lanc¸ant une pi`ece de monnaieN fois. La variable al´eatoire qui nous int´eresse est le nombre de succes, c.`a.d. le nombre des faces obtenues apr`esN jets de la pi`ece. Notons cette variable parX. C’est une variable al´eatoire discr`ete dont l’ensemble des valeurs possibles est
{0,1,2,3, . . . , N}.
SiXinote le r´esultat dui-i`eme jet de la pi`ece, o`uXi ∈ {0,1}, alorsXn’est que la somme des valeures de toutes les v.a.Xi,i= 1,2, . . . , N :
X =X1+X2 +. . .+XN.
La loi de distribution de la variable al´eatoireX s’appelle la loi binˆomiale.
Exemple 5.1. Soit N = 3, et supposons que la pi`ece est parfaite : la probabilit´epd’obtenir une face apr`es un jet de la pi`ece (le r´esultat not´e 1) est un demi, ainsi que la probabilit´eq d’obtenir une pile (le r´esultat not´e0) :
p= 1
2, q = 1 2.
La probabilit´e de l’´ev`enement [X = 0] est la mˆeme que la probabilit´e de l’´ev`enement
´el´ementaire(0,0,0), c.`a.d., une huiti`eme :
P[X= 0] =P{000}= 1 8. La probabilit´e de l’´ev`enement[X = 1]est ´egale `a
P{100,010,001}= 3 8,
de mˆeme que la probabilit´e de l’´ev`enement [X = 2]. Enfin, la probabilit´e de l’´ev`enement [X = 3]est 18.
Voir la figure 1 pour une repr´esentation de cette loi en bˆatons.
R Pour obtenir ce diagramme, lancez R. `A l’invite de commandes, tapez
>library(Rcmdr)
1
pour lancer R commander. Une fois la fenˆetre de R commander sera ouverte, choisissez dans le menu : distributions→discrete distributions→binomial→plot binomial distribution. Choisissez le nombre
des ´epreuves (dans ce cas,3). Cliquez OK. R
0.0 0.5 1.0 1.5 2.0 2.5 3.0
0.150.200.250.300.35
Distribution binômiale: épreuves = 3, probabilité du succes = 0.5
Nombre des succes
fonction de densité
FIG. 1. La loi de distribution de l’exemple 5.1.
Un moyen facile pour d´eduire les valeurs exactes de cette loi est de d´evelopper l’expres- sion
1 = 13 = 1
2 +1 2
3
,
en utilisant la formule de binˆome de Newton. De mˆeme fac¸on que dans le cas bien familier, (p+q)2 =p2+ 2pa+q2,
on a
(p+q)3 =p3+ 3p2q+ 3pq2+q3, d’o`u
1 2+ 1
2 3
= 1 8+ 3
8+ 3 8+ 1
8.
Les valeurs num´eriques dans le d´eveloppement ci-dessus sont exactement les valeurs des probabilit´es des ´ev`enements corr´espondants.
Plus g´en´eralement, la mˆeme approche fonctionne pour n’importe quel nombre des ´epreuves N, ainsi que pour toute valeur de la probabilit´ep d’obtenir1 `a chaque ´epreuve. SoitN un
entier positif, et soit0 < p <1. Posonsq = 1−p. Selon la formule du binˆome de Newton, on a
(p+q)N =pN +NPN−1q+N(N −1)
2 PN−2q2+. . .+CNi pN−iqi+. . .+qN. Ici
CNi = N! i!(N −i)!
est le coefficient binˆomial, o`u
k! = 1·2·3·. . .·k
est la factorielle de k. Le symbole CNi est franc¸ais, ou plus g´en´eralement continental eu- rop´een. Dans la tradition anglo-saxonne, le coefficientCNi est not´e Ni
(dit “n choosei”).
R Pour cette raison, afin de calculer le coefficientCi
N dans R, on utilise la fonction appel´ee choose, par exemple, siN = 10eti= 5, on tapera `a l’invite de commande :
> choose(10,5) [1] 252
Donc,C5
10= 252. R
Le terme
CNi piqN−i
du d´eveloppement binˆomial donne la valeur de la probabilit´e de l’´ev`enement [X =i]
d’obtenirifaces apr`esN jets de la pi`ece de monnaie o`u la probabilit´e d’obtenir la face apr`es une ´epreuve est ´egale `ap:
P[X =i] =CNi piqN−i.
C’est pr´ecisement pour cette raison que la loi de distribution correspondante est dite binˆomiale.
Exemple 5.2. La probabilit´e d’obtenir la face en jettant une pi`ece de monnaie est 40 %.
Quelle est la probabilit´e d’obtenir exactement10faces apr`es24lancers de la pi`ece ?
Ici on a p = 0.4, q = 0.6, N = 24, i = 10. Par cons´equent, la probabilit´e qui nous int´eresse est ´egale `a
P[X = 10] = C2410(0.4)10(0.6)14
= 0.1611579
≈ 16.1%.
R Bien sˆur qu’on peut calculer la valeur exig´ee avec R, en tapant `a l’invite de commande :
> choose(24,10)*(0.4)ˆ(10)*(0.6)ˆ(14)
[1] 0.1611579
Il faut noter que dans R, la multiplication est not´ee par un asterisque *. R 5.3. On peut montrer, en utilisant les propri´et´es combinatoirs du binˆome, que la variable al´eatoireXdistrubu´ee selon la loi binˆomiale poss`ede les propri´et´es suivantes.
(1) EX =Np.
(2) varX =Npq.
(3) σ(X) =√ Npq.
Exemple 5.3. SiN = 2etp= 0.5, on obtientEX = 2·0.5 = 1et varX= 2·0.5·0.5 = 0.5, comme nous d´ej`a connaissons (les exemples 4.2 et 4.6).
5.4. Qu’est-ce qui se passe quand le nombre des ´epreuves,N, s’accroit ? Supposons d’abord que p = q = 0.5, et ´etudions les diagrammes en bˆatons des lois de distribution binˆomiales corr´espondantes pour quelques valeurs deN. Une telle exploration est tr`es facile avec R.
0 1 2 3 4 5
0.050.100.150.200.250.30
Distribution binômiale: épreuves = 5, p = 0.5
nombre des succes
densité de distribution
5 10 15 20
0.000.050.100.15
Binomial Distribution: Trials = 25, Probability of success = 0.5
Number of Successes
Probability Mass
FIG. 2. La loi de distribution binˆomiale pourp= 0.5etN = 5,25.
Pour commencer, on fait la comparaison des distributions pourN = 5etN = 25. Bien sˆur que la moyenne s’accroit (2.5et12.5, respectivement). La hauteur maximale de la fonction devient visiblement plus faible.
La figure 3 montre les lois de distribution binˆomiale pour N = 100 et 1000. La mˆeme tendance est ´evidente : le graphe de la fonction de distribution devient plus “large” et plus
“basse”. Il est facile `a comprendre pourquoi. La mesure de “largeur” est la variance, qui est
´egale `aNpq =N/4. L’hauteur est la probabilit´e que la moiti´e des r´esultats exactement serons les faces, et quand le nombre des r´esultats possibles s’augmente, la probabilit´e d’obtenir un r´esultat donn´e devient de plus en plus faible.
En effet, si on met quelques fonctions de distribution sur le mˆeme diagramme, on aperc¸oit le changement de la moyenne et de l’hauteur de la fonction de densit´e, comme dans la figure 4. QuandN → ∞, les fonctions de distribution “s’aplatissent” en quelque sort...
Au mˆeme temps, la forme de la fonction ressemble de plus en plus la fameuse fonction en cloche.
35 40 45 50 55 60 65
0.000.020.040.060.08
Distribution binômiale: épreuves = 100, p = 0.5
.x
dbinom(.x, size = 100, prob = 0.5)
460 480 500 520 540
0.0000.0050.0100.0150.0200.025
Binomial Distribution: Trials = 1000, Probability of success = 0.5
Number of Successes
Probability Mass
FIG. 3. La loi de distribution binˆomiale pourp= 0.5etN = 100,1000.
0 50 100 150 200
0.000.020.040.060.080.10
Distributions binômiales pour 50, 100, 200 et 300 épreuves
nombre des succes
les densités
FIG. 4. Les distributions binˆomiales pourp= 0.5etN = 50,100,200,300.
Maintenant remplac¸ons la v.a.X avec sa version centr´ee r´eduite, Y = X−µ
σ .
Notamment,
Y = X−Np
√Npq = X√− N2
N/2 = 2X−N
√N .
On a EY = 0 et varY = 1. De fac¸on intuitive, pour toutes les valeurs de N la loi de la variable al´eatoire Y aura la mˆeme hauteur et la mˆeme largueur. Voici les diagrammes en bˆatons pour quelques valeurs deN.
−3 −2 −1 0 1 2 3
0.00.10.20.30.4
Distribution binômiale centrée réduite: N=20, p = 0.5
z
densité
−3 −2 −1 0 1 2 3
0.00.10.20.30.4
Distribution binômiale centrée réduite: N=100, p = 0.5
z
densité
FIG. 5. La loi de distribution binˆomiale centr´ee r´eduite pourp= 0.5etN = 25,100.
5.5. QuandN → ∞, la fonction de densit´e de la variable binˆomiale centr´ee r´eduite converge vers la fonction en cloche suivante :
N(0,1) = 1
√2πe−x2/2.
On peut dire que la distribution normale est la distribution limite de la distribution binˆomiale centr´ee r´eduite.
D´ej`a pourN = 25 l’approximation est assez bonne. La figure suivante montre le graphe de la fonctionN(0,1)et la densit´e binˆomiale centr´ee r´eduite pourN = 25. Voir la figure 6.
R Si cela vous int´eresse, voici comment le graphe ci-dessus a ´et´e cr´ee avec R.
> .x <- seq(-3.291, 3.291, length.out=100)
> plot(.x, dnorm(.x, mean=0, sd=1), xlab="x", ylab="densit",
+ main=expression(paste("distribution normale contre la distribution binmiale,
> abline(h=0, col="gray")
> remove(.x)
> N = 25
> .x <- 5:20
> z = (2*.x - N)/sqrt(N)
> y = sqrt(N)*dbinom(.x, size=N, prob=0.5)/2
−3 −2 −1 0 1 2 3
0.00.10.20.30.4
distribution normale contre la distribution binômiale, N=100
x
densité
FIG. 6. La loi de distribution normale contre la loi binˆomiale centr´ee r´eduite pourN = 25.
> points(z, y, pch=16)
> abline(h=0, col="gray")
> remove(.x)
R La fonction N(0,1) s’appelle la densit´e de distribution normale avec la moyenne 0 et l’´ecart-type1.
Pllus g´en´eralement, la densit´e normale avec la moyenneµet l’´ecart-typeσest donn´ee par N(µ, σ) = 1
σ√
2πe−(x−µ)2/2σ2.
5.6. Qu’est-ce qui se passe au cas o`u la pi`ece est fausse,p6= 0.4? L observation surprenante, c’est qu’on obtient la mˆeme convergence de la distribution vers la distribution normale.
Pour les petites valeurs de N, la distribution est tr`es asym´etrique. Mais quandN → ∞, on observe la mˆeme forme de la fonction de densit´e qui s’approche de la fonction en cloche, comme la figure 7 le montre. Bien sˆur que pourN = 100avecp = 0.2la moyenne est plus faible que pourp = 0.5, mais la forme de la courbe est facilement reconnaissable. Apr`es la variable est centr´ee et r´eduite, la loi de distribution converge vers la fonctionN(0,1)mˆeme dans le cas asym´etrique o`up6= 0.5.
La fogure 8 illustre la loi de distribution pourN = 24etp= 0.4(comme dans l’exemple 5.2).
R Si vous voulez exporter le graphe afin de l’inclure dans un document, vous pouvez le faire dans une grande vari´et´e des formats. Par exemple, si vous voulez le faire dans le format postscript (comme moi), vous devez inclure dans la fenˆetre Script window de R commander la ligne suivante :
0 1 2 3 4
0.00.10.20.30.4
N = 5, p = 0.2
.x
dbinom(.x, size = 5, prob = 0.2)
10 15 20 25 30 35
0.000.020.040.060.080.10
N = 100, p = 0.2
.x
dbinom(.x, size = 100, prob = 0.2)
FIG. 7. La loi de distribution binˆomiale pourp= 0.2etN = 5,100.
5 10 15
0.000.050.100.15
Distribution binomiâle: épreuves = 24, probabilité de succes = 0.4
nombre des succes
fonction de densité
FIG. 8. La loi de distribution de l’exemple 5.2.
postscript("plot1.eps", horizontal=FALSE, onefile=FALSE, width=6, height=6, pointsize=12)
Cette ligne sera suivie par la commande qui produit le graphe et qui est d´ej`a l`a, cr´e´ee automatiquement par R commander. Apr`es la commande, n’oubliez pas d’inclure la ligne :
dev.off()
pour ´eteindre l’imprimation. Maintenant, vous avez obtenu dans la fenˆetre quelque chose comme : postscript("plot1.eps", horizontal=FALSE, onefile=FALSE, width=6, height=6, pointsize=12)
.x <- 2:18
plot(.x, dbinom(.x, size=24, prob=0.4), xlab="nombre des succes",
ylab="fonction de densit", main="Distribution binomile: preuves = 24, probabilit de succes = 0.4", type="h")
points(.x, dbinom(.x, size=24, prob=0.4), pch=16) abline(h=0, col="gray")
remove(.x) dev.off()
Selectionnez le texte entier et poussez le bouton Submit. Le graphe sera produit et au mˆeme temps export´e vers le fichier indiqu´e, dans ce cas, plot1.eps.
Pour se renseigner sur d’autres formats possibles (tels que .pdf, .jpeg, ...), tapez
> help(Devices)
R 5.7. La densit´e normale doit ˆetre interpret´ee de fac¸on l´eg`erement diff´erente de la loi discr`ete telle que la loi binˆomiale. La valeur de densit´eN(µ, σ) `a un pointxr´eel ne signifie plus la probabilit´e de l’´ev`enement[X =x]. En effet, au cas d’une v.a. continueX, on a toujours
P[X =x] = 0.
Plutˆot, la densit´e sert `a d´eterminer les probabilit´es des ´ev`enements [a ≤X ≤b].
Si la loi deX est normale avec la moyenneµet l’´ecart-typeσ, alors on a P[a ≤X ≤b] =
Z b
a
N(µ, σ)dx.