1 lois usuelles
1.1 Loi Binomiale
B(n, p).q = 1−p.
p(X =k) = Cnkpkqn−k Esp´erance E(X) = np.
Variance : V ar(X) =npq.
Ecart type :´ σ=√ npq.
1.2 Loi de Poisson
P(λ) : loi de Poisson de param`etre λ >0 : X(Ω) =N
pk =P(X =k) = e−λλk
Esp´erance math´ematique :k! E(X) =λ Variance : V ar(X) =λ.
Ecart type :´ σ=√ λ.
Utilisation pratique :
On consid`ere une loi binomiale B(n, p) avec n grand et p petit, i.e. on cherche un
´
ev´enement rare. La loi de Poisson P(np) (i.e.λ=np) est une bonne approximation d’un tel tirage d`es que n ≥30p≤0,1 et np ≤10.
λ =np repr´esente le nombre d’´ev´enements attendus pour la p´eriode consid´er´ee.
1.3 Loi normale
Loi normale centr´ee r´eduite N(0,1) Esp´erance : 0
Variance : 1 Ecart type : 1´
Loi normale N(µ, σ) Esp´erance :µ
Variance : σ2 Ecart type :´ σ
2 Estimation
2.1 Estimation ponctuelle de la moyenne
X variable al´eatoire sur une population Ω.
Esp´eranceE(X) = µ Ecart type´ σ
Variance : V ar(X) = σ2. X¯ = 1
n
n
X
i=1
Xi : variable al´eatoire ”moyenne al´eatoire de l’´echantillon” de taille n : Esp´erance :E( ¯X) =µ
Ecart type :´ σ/√ n Variance :V ar( ¯X =σ2/n
2.2 Estimation ponctuelle de la variance
Ve = 1 n
n
X
i=1
(Xi−X)¯ 2 = 1 n
n
X
i=1
(Xi)2
!
−X¯2 : variable al´eatoire ”variance empirique de l’´echantillon” :
σe =p Ve.
Esp´erance :E(Ve) = n−1 n σ2 Ecart type :´ σ
√n = σe
√n−1
2.3 Estimation ponctuelle d’une fr´equence ou d’un pourcentage
On cherche `a d´eterminer la fr´equence p d’un caract`ere A sur une population Ω.
On tire un ´echantillon de taille n, on observe la fr´equence f obtenue.
F : variable al´eatoire ”fr´equence observ´ee de l’´echantillon”.
Esp´erance :E(F) =p
Variance : V ar(F) = p(1−p) n . Application :
si on obtient une fr´equence observ´eef d’un ´echantillon de taille n, on estime
• la fr´equence p par f
• la variance σ = p(1−p)
n par f(1−f) n−1
3 Estimation par intervalle de confiance
3.1 Estimation d’une fr´equence par un intervalle de confiance
Soit p la fr´equence d’apparition d’un caract`ere A dans une population Ω.
Soit f la fr´equence d’apparition de ce caract`ere dans un ´echantillon d taille n.
On cherche `a d´eterminer un intervalleI =]f−b;f+b[ tel quep∈I avec une probabilit´e 1−α ou un risque d’erreur 1−α.
Pour n grand et p pas trop voisin de 1 ou 0 (n ≥ 30, np ≥ 5 et nq ≥ 5), la variable al´eatoireX = (F −p)/p
p(1−p)/n suit la loi normale centr´ee r´eduite.
M´ethode :
• On estime ppar f et p
p(1−p)/n par p
f(1−f)/n−1
• On lit dans la table 2 la valeura tel que p(|X| ≥a) = α.
• L’intervalle de confiance est alors : ]f−ap
f(1−f)/(n−1), f+ap
f(1−f)/(n−1)[.
3.2 Estimation d’une moyenne par un intervalle de confiance, cas des grands ´echantillons (n > 30)
X variable al´eatoire d’esp´erance µet d’´ecart typeσ.
µ etσ sont inconnus. On cherche `a estimer µau risque de α.
La variable al´eatoireU =
X−µ σ
√s n
suit sensiblement la loi normale r´eduite centr´eeN(0,1).
On dispose d’un ´echantillon de n valeurs x1, . . .,xn. Moyenne observ´ee : ¯x= 1
n(x1 +. . .+xn) Ecart type observ´´ e : σe=
r1
n(x21+. . .+x2n) M´ethode :
• On estime µpar ¯x et s
√n par se
√n−1
• On lit dans la table 2 la valeura tel que p(|U| ≥a) =α.
• L’intervalle de confiance est alors : I =]¯x−a se
√n−1,x¯−a se
√n−1[.
3.3 Estimation d’une moyenne par un intervalle de confiance, cas des petits ´echantillons (n < 30) sur une variable Gaus- sienne
X variable al´eatoire Gaussienne d’esp´eranceµet d’´ecart typeσ, c’est-`a-dire X suit la loi normale N(µ, σ).
µ etσ sont inconnus.
On cherche `a estimer µ au risque de α.
La variable al´eatoire U =
X−µ σ
√s n
suit la loi de Student `an−1 degr´es de libert´e.
On dispose d’un ´echantillon de n valeurs x1, . . .,xn.
Moyenne observ´ee : ¯x= 1
n(x1 +. . .+xn) Ecart type observ´´ e : σe=
r1
n(x21+. . .+x2n) M´ethode :
• On estime µpar ¯x et s
√n par se
√n−1
• On lit dans la table 3 (Table de Student, ligne n−1 degr´es de libert´e) la valeur a tel que p(|U| ≥a) = α.
• L’intervalle de confiance est alors : I =]¯x−a se
√n−1,x¯−a se
√n−1[.
4 Tests de conformit´e d’une fr´equence
4.1 Test bilat´eral
On dispose d’une fr´equence th´eorique p et d’une fr´equence observ´eef. A priori, la fr´equence observ´ee peut ˆetre au dessus ou au dessous dep.
On veut savoir si la diff´erence entre f etp est due `a l’´echantillonnage (hypoth`eseH0) au risque d’erreur α.
Sous l’hypoth`ese H0 F suit sensiblement la loi normaleN(p;p
p(1−p)/n.
M´ethode :
• On calcule l’intervalle de confiance dep au risque α pour un ´echantillon de taille n : I =]p− ap
p(1−p)/n;p +ap
p(1−p)/n[, o`u a est obtenu dans la table 2 par p(|X]≥a) =α.
• Sif ∈I on accepte l’hypoth`ese : la diff´erence est due aux variations d’´echantillonnage.
Sinon on rejette l’hypoth`ese.
1er exemple. On lance 100 fois une pi`ece de monnaie. On observe 45 piles et 55 faces.
Hypoth`eseH0 la pi`ece ´equilibr´ee, hypoth`eseH1 : la pi`ece n’est pas ´equilibr´ee.
Si H0 est vraie, la probabilit´e d’obtenir le cot´e pile est p= 1/2.
La proportion de pile est approch´ee par la loi normaleN(0,5;p
0,52/100) =N(0,5; 0,05).
On a p(|X| ≥a) = 0,05 pour a= 1,96.
Ceci donne un intervalle de confiance [0,50− 1,96 ×0,05; 0,50 + 1,96 ×0,05] = [0,402; 0,598].
Comme 0,45 est dans l’intervalle, on ne peut rejetter l’hypoth`ese que la pi`ece est
´
equilibr´ee au risque de 5%.
4.2 Test unilat´eral
On dispose d’une fr´equence th´eorique p et d’une fr´equence observ´eef > p.
Hypoth`ese H0 : la diff´erence entre f etp est li´ee aux variations de l’´echantillonnage.
Hypoth`ese H1 : la fr´equence r´eelle est plus grande que la fr´equence th´eorique (par exemple sous l’effet d’un m´edicament). La fr´equence f observ´ee ne correspond donc pas
`
a la fr´equence th´eorique.
La diff´erence essentielle est que l’on sait `a priori que f ne peut pas ˆetre plus petite que p(aux variations d’´echantillonnage pr`es).
Sous l’hypoth`ese H0 F suit sensiblement la loi normaleN(p;p
p(1−p)/n.
M´ethode :
• On cherchea dans les tables de la loi normaleN(0,1) tel que p(F > a) = α On calcule b=p+ap
p(1−p)/n
• Sif ≤b on accepte l’hypoth`eseH0. Sinon on rejette l’hypoth`eseH0.
Remarque : la valeur a peut ˆetre lue de 2 mani`eres : – Table 1 en lecture inverse.
– Table 2 en utilisant la propri´et´e p(X > a) = α⇔p(|X|> a) = 2α.
1er exemple, bis. On lance 100 fois une pi`ece de monnaie. On observe 45 piles et 55 faces. On soup¸conne que la pi`ece est truqu´ee, et donc que la fr´equence r´eelle p d’obtenir pile est plus faible que p0 = 0,5.
Hypoth`ese H0 la pi`ece n’est pas truqu´ee : p= 0,5.
Hypoth`ese H1 : la pi`ece est truqu´ee : p <= 0,5.
Si H0 est vraie, la probabilit´e d’obtenir le cot´e pile est p= 1/2.
La proportion de pile est approch´ee par la loi normaleN(0,5;p
0,52/100) =N(0,5; 0,05).
On a p(X ≤a) = 0,05 pour a=−1,64.
Ceci donne une borne b =p+aσ = 0,5−1,64×0,05 = 0,418.
Comme la fr´equence observ´ee f est de 45%, on ne peut pas rejeter H0. On ne peut pas rejeter l’hypoth`ese que la pi`ece n’est pas truqu´ee au risque de 0,05.
Comme 0,45 est dans l’intervalle, la pi`ece n’est pas truqu´ee au risque de 5%.
5 Tests de conformit´e d’une moyenne
5.1 Test bilat´eral
On dispose d’une moyenne th´eorique µet d’un ´echantillon de taille n. On dispose ou on ne dispose pas de la valeur de la variance th´eorique σ.
On calcule la moyenne observ´ee : ¯x= 1
n(x1+. . .+xn)
Si on ne connaˆıt pas σ on l’estime sur l’´echantillon (avec correction du biais) : s =
r n
n−1σe = r 1
n−1(x21+. . .+x2n).
On veut savoir si la diff´erence entre ¯x etµest due `a l’´echantillonnage (hypoth`eseH0) au risque d’erreur α.
Cas des grands ´echantillons (n ≥30)
Sous l’hypoth`ese H0 X¯ suit sensiblement la loi normale N(p;σ/√ n)).
M´ethode :
• On calcule l’intervalle de confiance deµ au risqueα pour un ´echantillon de taille n : I =]µ−aσ/√
n;µ+aσ/√
n[, o`ua est obtenu dans la table 2 par p(|X]≥a) =α.
• Sif ∈I on accepte l’hypoth`ese : la diff´erence est due aux variations d’´echantillonnage.
Sinon on rejette l’hypoth`ese.
Exemple : On consid`ere une s´erie statistique de 60 taux d’h´emoglobine dans le sang (g/l) mesur´e chez des adultes pr´esum´es en bonne sant´e.
On observe une moyenne ¯x= 159 et un ´ecart typeσe = 9,5. En l’absence d’informa- tion, on suppose que le pr´el`evement a ´et´e fait sur une population r´epartie hommes/femmes en proportion ´egales.
Dans ce cas la moyenne attendue est µ= 146.
Hypoth`ese H0, la population est bien r´epartie hommes/femmes. Dans ce cas, ¯X suit sensiblement la loi normale N(µ, σ/√
n).
Estimation de σ/√
n :σe/√
n−1 = 9,5/√
59 = 1,237.
Au risque de 1%, p(|X| ≥a) = 0,01 pour a= 2,576.
Intervalle de confiance : I =]µ−aσ/√
n;µ+aσ/√
n[=]146−3,18; 146 + 3,18[.
La valeur ¯x= 159 obtenue n’est pas dans l’intervalle, la population n’est donc proba- blement pas ´equilibr´ee.
Remarque : la variance attendue pour la population totale est σ = 18, on a alors σ/√
n = 18/√
60 = 2,32, ce qui, au risque de 1% donne I =]µ−aσ/√
n;µ+aσ/√
n[=]146−5,76; 146 + 5,76[. On rejette toujours l’hypoth`eseH0. L
Cas des petits ´echantillons (n <30)
On suppose que X suit une loi normale (”est une variable Gaussienne”).
Sous l’hypoth`ese H0
X¯ −µ σ/√
n suit sensiblement la loi de Student `a n −1 degr´es de libert´e.
M´ethode : Identique au cas pr´ec´edent, sauf lecture de a dans la table 3
5.2 Test unilat´eral sur les grands ´echantillons
M´ethode : Identique au cas bilat´eral sur les grands ´echantillons, except´e que a est lu dans la table 1 :
On cherche a dans les tables de la loi normale N(0,1) tel quep(F > a) =α
Exemple : On reprend l’exercice pr´ec´edent. On suppose que la loi th´eorique estµ= 146 etσ = 18.
On a toujours σ/√
n = 18/√
60 = 2,32.
On cherche a dans la table 1 tel que p(X > a) = 0,01, soita = 2,33.
La borne obtenue estb=µ+aσ/√
n = 146 + 5,4 = 151,4. Comme ¯x= 159, on rejette H0, c’est-`a-dire que l’on consid`ere qu’il s’agit d’une population d’hommes.
6 Tests d’homog´en´eit´e
6.1 Pr´esentation du probl`eme
On ne dispose pas de loi th´eorique, mais de 2 ´echantillons de tailles respectives n1 et n2.
On veut savoir si les diff´erences de r´esultats sur chaque ´echantillon peut s’expliquer ou non par les fluctuations dues `a l’´echantillonnage ou non.
Soit Y la variable ´etudi´ee (par exemple fr´equence F ou moyenne ¯X). On note σY l’´ecart type de Y.
On dispose de 2 ´echantillons que l’on mod´elise par 2 variables Y1 etY2.
Hypoth`ese H0 : les ´echantillons proviennent de la mˆeme population. Les tirages sont ind´ependants.
Sous cette hypoth`ese,
la variable Z =Y1−Y2 a pour esp´erance 0 et ´ecart type σZ = q
σY2
1 +σY2
2.
6.2 Comparaison de deux fr´equences
Si Y =F est une fr´equence, σF =p
p(1−p)/n etσZ = s
p(1−p)
n1 +p(1−p) n2 . Si l’´echantillon est suffisamment grand, et les fr´equences pas trop proches de 0 ou 1, Z suit sensiblement la loi normale N(0, σZ).
Estimation de p : on r´eunit les 2 ´echantillons, on trouve ˆp= n1f1 +n2f2
n1 +n2 . Test bilat´eral
M´ethode :
• On calcule ˆp= n1f1+n2f2 n1+n2 .
• On calcule s= r
(ˆp(1−p)(ˆ 1 n1 + 1
n2).
• On d´etermine a dans la table 1 tel que p(|X]≥a) =α.
• On d´etermine l’intervalle de confiance de Z au risque α :I =]−as;as[,
• Sif1−f2 ∈Ion accepte l’hypoth`ese : la diff´erence est due aux variations d’´echantillonnage.
Sinon on rejette l’hypoth`ese.
6.3 Comparaison de deux moyennes. Cas des grands ´echantillons (n≥ 30)
Si Y = ¯X est une moyenne, σX¯ =σ/√
n etσZ = s
σ12 n1 + σ22
n2. On estime σ1 et σ2 par la m´ethode habituelle si =
r ni ni−1σe,i. Test bilat´eral
M´ethode :
• On estime σ1 erσ2.
• On calcule sZ = s
σ12 n1 +σ22
n2.
• On d´etermine a dans la table 1 tel que p(|X]≥a) =α.
• On d´etermine l’intervalle de confiance de Z au risque α :I =]−as;as[,
• Six1−x2 ∈Ion accepte l’hypoth`ese : la diff´erence est due aux variations d’´echantillonnage.
Sinon on rejette l’hypoth`ese.
7 Test de conformit´e par la loi du χ2 : ajustement `a une loi th´eorique
Situation : on dispose d’un syst`eme complet d’´ev´enements E1, . . .Ek et d’une distri- bution de probabilit´e th´eorique de ces ´ev´enements : pi =p(Ei) avec p1+. . .+pk= 1.
On dispose d’un ´echantillon de taille nsur lequel on calcule les effectifs observ´esOi et les fr´equences observ´eesfi =Oi/n de chaque ´ev´enement.
On veut tester si l’´echantillon est conforme `a la distribution th´eorique, aux ´ecarts d’´echantillonnage pr`es.
On calcule les effectifs th´eoriques de chaque ´ev´enements sur un ´echantillon de taille n : Ci =n×pi.
Hypoth`eseH0: la distribution de l’´echantillon est conforme `a la distribution th´eorique.
Sous l’hypoth`eseH0, la variable al´eatoireY2qui prends les valeursχ2c = (O1 −C1))2 C1
+ . . .+(Ok−Ck))2
Ck suit la loi duχ2 avec n−1 degr´e de libert´e.
M´ethode :
• On choisit un coefficient de risqueα.
• On calcule les effectifs th´eoriques Ci =n×pi.
• On calcule χ2c = (O1−C1))2
C1 +. . .+(Ok−Ck))2 Ck .
• On lit dans la table 4 la valeurχ2α telle que p(Y2 ≥χ2α) = α.
• Siχ2c ≥χ2α, on ´ecarte l’hypoth`eseH0 avec une probabilit´e de se tromper deα.
Sinon on ne peut pas rejeter cette hypoth`ese.
Remarque : si un effectif est inf´erieur `a 5, il faut faire un regroupement de classe.
Exemple : On a effectu´e le croisement de balsamines blanches et de balsamines pourpres.
En premi`ere g´en´eration, les fleurs sont toutes pourpres. On obtient en deuxi`eme g´en´eration quatre cat´egories avec les effectifs suivants :
couleurs pourpre rose blanc lavande blanc
effectifs 1790 547 548 213
L’hypoth`ese de r´epartition mend´elienne donne ( 9 16; 3
16; 3 16; 1
16).
Peut-on accepter cette hypoth`ese avec un risque de premi`ere esp`ece de 5% ? Effectif total : n= 1790 + 547 + 548 + 213 = 3098.
couleurs pourpre rose blanc lavande blanc
effectifs observ´es 1790 547 548 213
effectifs th´eoriques 1742,6 580,9 580,9 193,6 χ2c = (1790−1742,6)2
1742,6 + (547−580,9)2
580,9 + (548−580,9)2
580,9 +(213−193,6)2
193,6 = 7,07.
Nombre de degr´es de libert´e :n−1m4−1 = 3 Si α= 0,05, on lit dans la table χ20,05= 7,81.
On ne peut pas rejeter l’hypoth`ese d’une r´epartition mend´elienne.