Chapitre 6: Mod` eles de distributions fr´ equents
1. Mod`eles discrets
(a) Distribution binomiale (b) Distribution de Poisson 2. Mod`eles continus
(a) Distribution normale (b) Distribution uniforme
(c) Distribution χ
2(d) Distribution t
On pr´esente dans ce chapitre les mod`eles de distributions les plus fr´equemment utilis´es comme descriptions approximatives de distributions r´eelles. La distribution binomiale et la distribution normale sont particuli`erement importantes.
1. Mod`eles discrets
(a) Distribution binomiale
Consid´erons une exp´erience qui n’a que deux issues possibles (ex: jet d’une pi`ece), et convenons d’appeler S la premi`ere issue (“succ`es”) et E la seconde (“´echec”). Consid´erons
`
a pr´esent n r´ep´etitions ind´ependantes de cette exp´erience et d´efinissons la variable al´eatoire X = “nombre de succ`es parmi les n r´ep´etitions”. La variable X a (ou suit) une distribution binomiale.
→ De quoi va d´ependre la distribution de X?
→ → Du nombre de r´ep´etitions n
→ → De la probabilit´e p de succ`es `a chaque r´ep´etition
→ On utilise la notation X ∼ B(n, p).
On dit aussi que la variable X est une variable binomiale.
On pr´esente dans ce chapitre les mod`eles de distributions les plus fr´equemment utilis´es comme descriptions approximatives de distributions r´eelles. La distribution binomiale et la distribution normale sont particuli`erement importantes.
1. Mod`eles discrets
(a) Distribution binomiale
Consid´erons une exp´erience qui n’a que deux issues possibles (ex: jet d’une pi`ece), et convenons d’appeler S la premi`ere issue (“succ`es”) et E la seconde (“´echec”). Consid´erons
`
a pr´esent n r´ep´etitions ind´ependantes de cette exp´erience et d´efinissons la variable al´eatoire X = “nombre de succ`es parmi les n r´ep´etitions”. La variable X a (ou suit) une distribution binomiale.
→ De quoi va d´ependre la distribution de X?
→ → Du nombre de r´ep´etitions n
→ → De la probabilit´e p de succ`es `a chaque r´ep´etition
→ On utilise la notation X ∼ B(n, p).
On dit aussi que la X est une variable binomiale.
On pr´esente dans ce chapitre les mod`eles de distributions les plus fr´equemment utilis´es comme descriptions approximatives de distributions r´eelles. La distribution binomiale et la distribution normale sont particuli`erement importantes.
1. Mod`eles discrets
(a) Distribution binomiale
Consid´erons une exp´erience qui n’a que deux issues possibles (ex: jet d’une pi`ece), et convenons d’appeler S la premi`ere issue (“succ`es”) et E la seconde (“´echec”). Consid´erons
`
a pr´esent n r´ep´etitions ind´ependantes de cette exp´erience et d´efinissons la variable al´eatoire X = “nombre de succ`es parmi les n r´ep´etitions”. La variable X a (ou suit) une distribution binomiale.
→ De quoi va d´ependre la distribution de X?
→ → Du nombre de r´ep´etitions n
→ → De la probabilit´e p de succ`es `a chaque r´ep´etition
→ On utilise la notation X ∼ B(n, p).
On dit aussi que la X est une variable binomiale.
On pr´esente dans ce chapitre les mod`eles de distributions les plus fr´equemment utilis´es comme descriptions approximatives de distributions r´eelles. La distribution binomiale et la distribution normale sont particuli`erement importantes.
1. Mod`eles discrets
(a) Distribution binomiale
Consid´erons une exp´erience qui n’a que deux issues possibles (ex: jet d’une pi`ece), et convenons d’appeler S la premi`ere issue (“succ`es”) et E la seconde (“´echec”). Consid´erons
`
a pr´esent n r´ep´etitions ind´ependantes de cette exp´erience et d´efinissons la variable al´eatoire X = “nombre de succ`es parmi les n r´ep´etitions”. La variable X a (ou suit) une distribution binomiale.
→ De quoi va d´ependre la distribution de X?
→ → Du nombre de r´ep´etitions n
→ → De la probabilit´e p de succ`es `a chaque r´ep´etition
→ On utilise la notation X ∼ B(n, p).
On dit aussi que la X est une variable binomiale.
On pr´esente dans ce chapitre les mod`eles de distributions les plus fr´equemment utilis´es comme descriptions approximatives de distributions r´eelles. La distribution binomiale et la distribution normale sont particuli`erement importantes.
1. Mod`eles discrets
(a) Distribution binomiale
Consid´erons une exp´erience qui n’a que deux issues possibles (ex: jet d’une pi`ece), et convenons d’appeler S la premi`ere issue (“succ`es”) et E la seconde (“´echec”). Consid´erons
`
a pr´esent n r´ep´etitions ind´ependantes de cette exp´erience et d´efinissons la variable al´eatoire X = “nombre de succ`es parmi les n r´ep´etitions”. La variable X a (ou suit) une distribution binomiale.
→ De quoi va d´ependre la distribution de X?
→ → Du nombre de r´ep´etitions n
→ → De la probabilit´e p de succ`es `a chaque r´ep´etition
→ On utilise la notation X ∼ B(n, p).
On dit aussi que la variable X est une variable binomiale.
Quelle est la distribution de X?
→ Si n = 1, les issues possibles sont {E} et {S} et on a
P(X = 0) = 1 − p; P(X = 1) = p.
→ Si n = 2, les issues possibles sont {EE}, {ES}, {SE} et {SS} et on a P(X = 0) = (1 − p)2; P(X = 1) = 2p(1 − p); P(X = 2) = p2.
→ Cas g´en´eral:
La distribution de X ∼ B(n, p) est donn´ee par P(X = k) = n
k
pk(1 − p)n−k,
o`u le coefficient binomial est d´efini comme
n
k
= n!
k!(n − k)!,
et n! = 1 · 2 · ... · n (n factoriel). Par convention, 0! = 1. n k
est ´egal au nombre d’´echantillons diff´erents de taille k dans une population de taille n.
Un exemple d´etaill´e de la fa¸con de parvenir `a ce r´esultat se trouve dans la s´erie d’exercices du chapitre 5.
Quelle est la distribution de X?
→ Si n = 1, les issues possibles sont {E} et {S} et on a
P(X = 0) = 1 − p; P(X = 1) = p.
→ Si n = 2, les issues possibles sont {EE}, {ES}, {SE} et {SS} et on a P(X = 0) = (1 − p)2; P(X = 1) = 2p(1 − p); P(X = 2) = p2.
→ Cas g´en´eral:
La distribution de X ∼ B(n, p) est donn´ee par P(X = k) = n
k
pk(1 − p)n−k,
o`u le coefficient binomial est d´efini comme
n
k
= n!
k!(n − k)!,
et n! = 1 · 2 · ... · n (n factoriel). Par convention, 0! = 1. n k
est ´egal au nombre d’´echantillons diff´erents de taille k dans une population de taille n.
Un exemple d´etaill´e de la fa¸con de parvenir `a ce r´esultat se trouve dans la s´erie d’exercices du chapitre 5.
Quelle est la distribution de X?
→ Si n = 1, les issues possibles sont {E} et {S} et on a
P(X = 0) = 1 − p; P(X = 1) = p.
→ Si n = 2, les issues possibles sont {EE}, {ES}, {SE} et {SS} et on a P(X = 0) = (1 − p)2; P(X = 1) = 2p(1 − p); P(X = 2) = p2.
→ Cas g´en´eral:
La distribution de X ∼ B(n, p) est donn´ee par P(X = k) = n
k
pk(1 − p)n−k,
o`u le coefficient binomial est d´efini comme
n
k
= n!
k!(n − k)!,
et n! = 1 · 2 · ... · n (n factoriel). Par convention, 0! = 1. n k
est ´egal au nombre d’´echantillons diff´erents de taille k dans une population de taille n.
Un exemple d´etaill´e de la fa¸con de parvenir `a ce r´esultat se trouve dans la s´erie d’exercices du chapitre 5.
Quelle est la distribution de X?
→ Si n = 1, les issues possibles sont {E} et {S} et on a
P(X = 0) = 1 − p; P(X = 1) = p.
→ Si n = 2, les issues possibles sont {EE}, {ES}, {SE} et {SS} et on a P(X = 0) = (1 − p)2; P(X = 1) = 2p(1 − p); P(X = 2) = p2.
→ Cas g´en´eral:
La distribution de X ∼ B(n, p) est donn´ee par P(X = k) = n
k
pk(1 − p)n−k, o`u le coefficient binomial est d´efini comme
n k
= n!
k!(n − k)!,
et n! = 1 · 2 · ... · n (n factoriel). Par convention, 0! = 1. n k
est ´egal au nombre d’´echantillons diff´erents de taille k dans une population de taille n.
Un exemple d´etaill´e de la fa¸con de parvenir `a ce r´esultat se trouve dans la s´erie d’exercices du chapitre 5.
Que valent l’esp´erance et la variance de X ∼ B(n, p)?
→ Cas n = 1:
• E(X) = 0 · (1 − p) + 1 · p = p
• E(X2) = 02 · (1 − p) + 12 · p = p
→ var(X) = E(X2) − E(X)2 = p − p2 = p(1 − p)
→ Cas g´en´eral:
Plutˆot que de faire le calcul en appliquant la d´efinition comme ci-dessus, ce qui devient tr`es long lorsque n devient grand, constatons que X ∼ B(n, p) est la somme de n variables ind´ependantes Xi telles que Xi ∼ B(1, p). En effet, compter le nombre de succ`es dans n r´ep´etitions d’une exp´erience revient `a attribuer “1” `a chaque succ`es et
“0” `a chaque ´echec et `a additionner les r´esultats des exp´eriences.
Que valent l’esp´erance et la variance de X ∼ B(n, p)?
→ Cas n = 1:
• E(X) = 0 · (1 − p) + 1 · p = p
• E(X2) = 02 · (1 − p) + 12 · p = p
→ var(X) = E(X2) − E(X)2 = p − p2 = p(1 − p)
→ Cas g´en´eral:
Plutˆot que de faire le calcul en appliquant la d´efinition comme ci-dessus, ce qui devient tr`es long lorsque n devient grand, constatons que X ∼ B(n, p) est la somme de n variables ind´ependantes Xi telles que Xi ∼ B(1, p). En effet, compter le nombre de succ`es dans n r´ep´etitions d’une exp´erience revient `a attribuer “1” `a chaque succ`es et
“0” `a chaque ´echec et `a additionner les r´esultats des exp´eriences.
Que valent l’esp´erance et la variance de X ∼ B(n, p)?
→ Cas n = 1:
• E(X) = 0 · (1 − p) + 1 · p = p
• E(X2) = 02 · (1 − p) + 12 · p = p
→ var(X) = E(X2) − E(X)2 = p − p2 = p(1 − p)
→ Cas g´en´eral:
Plutˆot que de faire le calcul en appliquant la d´efinition comme ci-dessus, ce qui devient tr`es long lorsque n devient grand, constatons que X ∼ B(n, p) est la somme de n variables ind´ependantes Xi telles que Xi ∼ B(1, p). En effet, compter le nombre de succ`es dans n r´ep´etitions d’une exp´erience revient `a attribuer “1” `a chaque succ`es et
“0” `a chaque ´echec et `a additionner les r´esultats des exp´eriences.
Donc,
X = X1 + ... + Xn, Xi ∼ B(1, p)
En appliquant les propri´et´es de l’esp´erance et de la variance (chapitre 5), nous obtenons E(X) =
n X
i=0
E(Xi) = np
car l’esp´erance d’une somme est ´egale `a la somme des esp´erances, et var(X) =
n X
i=0
var(Xi) = np(1 − p)
car la variance d’une somme de variables ind´ependantes est ´egale `a la somme de leurs variances.
Terminologie et notation
– Une variable qui suit une distribution binomiale avec n = 1 est appel´ee une variable de Bernoulli.
– Souvent, on utilise la notation q = 1 − p, par exemple var(X) = npq pour
(b) Distribution de Poisson
Une variable X suit une distribution de Poisson de param`etre λ, ce qu’on note X ∼ P(λ), si
P(X = k) = λk
k! e−λ, k = 0,1,2, ....
Les modalit´es d’une variable Poisson sont donc tous les entiers positifs plus 0.
La distribution de Poisson est un cas limite de la distribution binomiale, lorsque n devient tr`es grand et p tr`es petit. En effet, on peut montrer que pour Y ∼ B(n, p), si n → ∞, p → 0 et np = λ (np reste constant),
P(Y = k) = n k
pk(1 − p)n−k → λk
k! e−λ. Propri´et´es
→ L’esp´erance et la variance d’une variable X ∼ P(λ) sont donn´ees par
• E(X) = λ
• var(X) = λ
→ Additivit´e: soient X1, X2, ..., Xn des variables ind´ependantes distribu´ees selon P(1). Alors
Exemple:“Tant va la cruche `a l’eau qu’enfin elle se brise”.
On remplit n = 1000 cruches au mˆeme endroit d’une rivi`ere. On fait l’hypoth`ese que la probabilit´e qu’une cruche se brise pendant l’op´eration est p = 1/1000. Quelle est la probabilit´e qu’au moins deux cruches se brisent?
→ Le nombre X de cruches bris´ees suit une distribution B(n, p). On trouve donc P(X ≥ 2) = 1 − P(X = 0) − P(X = 1)
= 1 − 1000 0
(0.999)1000 − 1000 1
(0.999)999 · 0.001
= 0.264.
→ L’´evaluation de l’expression ci-dessus avec une calculatrice peut poser probl`eme au niveau de la pr´ecision. En utilisant l’approximation X ∼ P(np) = P(1), on trouve
P(X ≥ 2) = 1 − P(X = 0) − P(X = 1)
≈ 1 − 10
0! e−1 − 11
1! e−1
= 0.264.
Les distributions B(1000,0.001) et P(1) sont repr´esent´ees ci-dessous, et on voit qu’elles sont extrˆemement similaires.
0 1 2 3 4 5 6
0.00.10.20.3
X ~ B(1000,0.001)
x
P(X=x)
0 1 2 3 4 5 6
0.00.10.20.3
X ~ P(1)
x
P(X=x)
Dans la pratique la distribution de Poisson est souvent utilis´ee pour mod´eliser des donn´ees de comptage, par exemple le nombre de nouveaux cas de cancer dans une certaine r´egion pendant une certaine p´eriode de temps (en ´epid´emiologie on appelle ce nombre l’incidence).
Le fait que la distribution de Poisson soit souvent appropri´ee pour mod´eliser ce type de donn´ees peut se comprendre de la fa¸con suivante: pour un individu donn´e, la probabilit´e de d´evelopper un cancer est faible, mais en consid´erant une grande population, et en consid´erant chaque individu comme une “tentative”, on se retrouve en pr´esence d’un ph´enom`ene o`u le nombre de “tentatives” est tr`es ´elev´e et la probabilit´e de “succ`es” est tr`es faible, ce qui donne lieu `a une distribution de Poisson.
1. Mod`eles continus
(a) Distribution normale
C’est la distribution la plus importante en statistique, pour deux raisons principales:
• De nombreux ph´enom`enes naturels sont mod´elisables avec des variables normales
• La distribution normale joue un rˆole central dans le domaine de l’inf´erence, comme nous le verrons dans les derniers chapitres de ce cours.
On dit qu’une variable X a une distribution normale, ou gaussienne, ou de Gauss d’esp´erance µ et de variance σ2 si sa densit´e est ´egale `a
f(x) = 1 σ√
2π exp − (x − µ)2 2σ2
!
.
On ´ecrit alors X ∼ N(µ, σ2).
Terminologie: On dit aussi “de moyenne µ” `a la place de “d’esp´erance µ”(comme on l’a vu, l’esp´erance est une moyenne de population).
Dans le graphe ci-dessous on trouve
• en rouge la densit´e d’une variable X ∼ N(µ1, σ12)
• en vert la densit´e d’une variable Y ∼ N(µ2, σ22), avec µ2 > µ1 et σ2 < σ1
f
XPropri´et´es valables pour toute variable normale:
• fX est sym´etrique autour de µ1
• P(µ1 − 2σ1 < X < µ1 + 2σ1) ≈ 0.95
• fY est sym´etrique autour de µ2
Dans le graphe ci-dessous on trouve
• en rouge la densit´e d’une variable X ∼ N(µ1, σ12)
• en vert la densit´e d’une variable Y ∼ N(µ2, σ22), avec µ2 > µ1 et σ2 < σ1
µ1
f
XPropri´et´es valables pour toute variable normale:
• fX est sym´etrique autour de µ1
• P(µ1 − 2σ1 < X < µ1 + 2σ1) ≈ 0.95
• fY est sym´etrique autour de µ2
Dans le graphe ci-dessous on trouve
• en rouge la densit´e d’une variable X ∼ N(µ1, σ12)
• en vert la densit´e d’une variable Y ∼ N(µ2, σ22), avec µ2 > µ1 et σ2 < σ1
µ1
µ1 − 2σ1 µ1 + 2σ1
f
X≈ 0.95
Propri´et´es valables pour toute variable normale:
• fX est sym´etrique autour de µ1
• P(µ1 − 2σ1 < X < µ1 + 2σ1) ≈ 0.95
• fY est sym´etrique autour de µ2
Dans le graphe ci-dessous on trouve
• en rouge la densit´e d’une variable X ∼ N(µ1, σ12)
• en vert la densit´e d’une variable Y ∼ N(µ2, σ22), avec µ2 > µ1 et σ2 < σ1
µ1
µ1 − 2σ1 µ1 + 2σ1
f
X≈ 0.95
f
YPropri´et´es valables pour toute variable normale:
• fX est sym´etrique autour de µ1
• P(µ1 − 2σ1 < X < µ1 + 2σ1) ≈ 0.95
• fY est sym´etrique autour de µ2
Dans le graphe ci-dessous on trouve
• en rouge la densit´e d’une variable X ∼ N(µ1, σ12)
• en vert la densit´e d’une variable Y ∼ N(µ2, σ22), avec µ2 > µ1 et σ2 < σ1
µ1
µ1 − 2σ1 µ1 + 2σ1
f
X≈ 0.95
µ2
f
YPropri´et´es valables pour toute variable normale:
• fX est sym´etrique autour de µ1
• P(µ1 − 2σ1 < X < µ1 + 2σ1) ≈ 0.95
• fY est sym´etrique autour de µ2
Dans le graphe ci-dessous on trouve
• en rouge la densit´e d’une variable X ∼ N(µ1, σ12)
• en vert la densit´e d’une variable Y ∼ N(µ2, σ22), avec µ2 > µ1 et σ2 < σ1
µ1
µ1 − 2σ1 µ1 + 2σ1
f
X≈ 0.95
µ2
µ2 − 2σ2 µ2 + 2σ2
f
YPropri´et´es valables pour toute variable normale:
• fX est sym´etrique autour de µ1
• P(µ1 − 2σ1 < X < µ1 + 2σ1) ≈ 0.95
• fY est sym´etrique autour de µ2
Distribution normale standard
Une variable X ∼ N(0,1) i.e. une variable normale de moyenne 0 et de variance 1 est appel´ee une variable normale standard ou centr´ee et r´eduite. La densit´e d’une variable normale standard est commun´ement d´esign´ee `a l’aide du symbole ϕ(x). D’apr`es la formule de la slide 19, on a
ϕ(x) = 1
√2π exp − x2 2
!
.
La fonction de distribution cumulative d’une normale standard est commun´ement d´esign´ee `a l’aide du symbole Φ(x) et d´efinie comme
Φ(x) = 1
√2π
Z x
−∞ exp − t2 2
!
dt.
Les valeurs de Φ(x) s’obtiennent `a l’aide d’un logiciel ou de tables.
Standardisation
Soit X ∼ N(µ, σ2). Alors la variable Z d´efinie comme Z = X − µ
σ a une distribution normale standard.
L’op´eration ci-dessus s’appelle la standardisation.
Exemple de probl`eme
Soit X ∼ N(17,9). Quelle est la probabilit´e que X prenne une valeur inf´erieure `a 11?
Pour r´esoudre ce probl`eme `a l’aide d’une table de valeurs de Φ, on va se servir de la standardisation:
P(X > 11) = P X − 17
√9 < 11 − 17√ 9
!
= P(Z < −2)
= Φ(−2), o`u Z ∼ N(0,1).
La table ne donne la valeur de Φ(x) que pour des valeurs de x sup´erieures `a 0.
On se sert donc de la sym´etrie de la densit´e normale pour trouver:
Φ(−2) = P(Z < −2)=P(Z > 2) = 1 − P(Z < 2) = 1 − Φ(2).
0
ϕ
−2
Dans la table, on trouve Φ(2) = 0.9772 et on ontient donc Φ(−2) = 1 − 0.9772 = 0.0228.
On se sert donc de la sym´etrie de la densit´e normale pour trouver:
Φ(−2) = P(Z < −2)=P(Z > 2)= 1 − P(Z < 2) = 1 − Φ(2).
0
ϕ
−2 2
Dans la table, on trouve Φ(2) = 0.9772 et on ontient donc Φ(−2) = 1 − 0.9772 = 0.0228.
On se sert donc de la sym´etrie de la densit´e normale pour trouver:
Φ(−2) = P(Z < −2)=P(Z > 2)= 1 − P(Z < 2) = 1 − Φ(2).
0
ϕ
−2 2
Dans la table, on trouve Φ(2) = 0.9772 et on ontient donc Φ(−2) = 1 − 0.9772 = 0.0228.
(b) Distribution uniforme
Soient a et b des constantes. Une variable dont la densit´e f est donn´ee par f(x) =
1
b−a si x ∈ [a, b]
0 sinon
est dite uniforme entre a et b.
0
1 b−a
a b
f(x)
x
L’esp´erance et la variance d’une variable X uniforme entre a et b sont E(X) = a+b2 et var(X) = (b−a)2.
(c) Distribution χ 2 (´ecrit “chi carr´e”, prononc´e“ki carr´e”)
Soient X1, ..., Xn des variables normales standard. Soit alors Y = X12 + ... + Xn2.
La variable Y a une distribution χ2 `a n degr´es de libert´e, ce qu’on note Y ∼ χ2n. Sa densit´e f(y) est une fonction assez compliqu´ee et sa fonction de distribution cumulative s’obtient `a l’aide d’un logiciel ou de tables. L’esp´erance et la variance de Y sont E(Y ) = n et var(Y ) = 2n.
00.20.40.60.81
0 1 2 3 4 5 6 7 8
f(y)
y n = 1
n = 2 n = 3 n = 4 n = 5
La distribution χ2 s’utilise dans certains proc´ed´es d’inf´erence que nous verrons dans les chapitres `a venir.
(d) Distribution t
Soient X0, X1, ..., Xn des variables normales standard. Soit alors
T = X0
r1 n
X12 + ... + Xn2 .
La variable T a une distribution t `a n degr´es de libert´e, ce qu’on note T ∼ tn. Sa densit´e f(t) est une fonction assez compliqu´ee et sa fonction de distribution cumulative s’obtient
`
a l’aide d’un logiciel ou de tables. L’esp´erance et la variance de T sont E(T) = 0 et var(T) = n/(n − 2), pour n > 2.
−4 −2 0 2 4
0.00.10.20.30.4
Distribution t
t
densité
t1 t2
t5 t10
t20 t30
N(0,1)
Propri´et´es
• La distribution t est sym´etrique autour de 0
• lorsque n → ∞, la densit´e d’une variable T ∼ tn tend vers une densit´e normale standard
• La distribution t est utilis´ee dans certains proc´ed´es d’inf´erence que nous verrons dans les chapitres `a venir.