1 lois usuelles 1.1 Loi Binomiale

(1)

1 lois usuelles

1.1 Loi Binomiale

B(n, p).q = 1−p.

p(X =k) = C_n^kp^kq^n−k Esp´erance E(X) = np.

Variance : V ar(X) =npq.

Ecart type :´ σ=√ npq.

1.2 Loi de Poisson

P(λ) : loi de Poisson de param`etre λ >0 : X(Ω) =N

p_k =P(X =k) = e^−λλ^k

Esp´erance math´ematique :k! E(X) =λ Variance : V ar(X) =λ.

Ecart type :´ σ=√ λ.

Utilisation pratique :

On consid`ere une loi binomiale B(n, p) avec n grand et p petit, i.e. on cherche un

´

ev´enement rare. La loi de Poisson P(np) (i.e.λ=np) est une bonne approximation d’un tel tirage d`es que n ≥30p≤0,1 et np ≤10.

λ =np représente le nombre d’événements attendus pour la période considérée.

1.3 Loi normale

Loi normale centrée réduite N(0,1) Espérance : 0

Variance : 1 Ecart type : 1´

Loi normale N(µ, σ) Esp´erance :µ

Variance : σ² Ecart type :´ σ

2 Estimation

2.1 Estimation ponctuelle de la moyenne

X variable al´eatoire sur une population Ω.

Esp´eranceE(X) = µ Ecart type´ σ

Variance : V ar(X) = σ². X¯ = 1

n

X

i=1

X_i : variable aléatoire ”moyenne aléatoire de l’échantillon” de taille n : Espérance :E( ¯X) =µ

(2)

Ecart type :´ σ/√ n Variance :V ar( ¯X =σ²/n

2.2 Estimation ponctuelle de la variance

V_e = 1 n

n

X

i=1

(X_i−X)¯ ² = 1 n

n

X

i=1

(X_i)²

!

−X¯² : variable al´eatoire ”variance empirique de l’´echantillon” :

σ_e =p V_e.

Esp´erance :E(V_e) = n−1 n σ² Ecart type :´ σ

√n = σ_e

√n−1

2.3 Estimation ponctuelle d’une fr´equence ou d’un pourcentage

On cherche à déterminer la fréquence p d’un caractère A sur une population Ω.

On tire un ´echantillon de taille n, on observe la fr´equence f obtenue.

F : variable aléatoire ”fréquence observée de l’échantillon”.

Esp´erance :E(F) =p

Variance : V ar(F) = p(1−p) n . Application :

si on obtient une fréquence observéef d’un échantillon de taille n, on estime

• la fr´equence p par f

• la variance σ = p(1−p)

n par f(1−f) n−1

(3)

3 Estimation par intervalle de confiance

3.1 Estimation d’une fr´equence par un intervalle de confiance

Soit p la fr´equence d’apparition d’un caract`ere A dans une population Ω.

Soit f la fréquence d’apparition de ce caractère dans un échantillon d taille n.

On cherche à déterminer un intervalleI =]f−b;f+b[ tel quep∈I avec une probabilité 1−α ou un risque d’erreur 1−α.

Pour n grand et p pas trop voisin de 1 ou 0 (n ≥ 30, np ≥ 5 et nq ≥ 5), la variable al´eatoireX = (F −p)/p

p(1−p)/n suit la loi normale centr´ee r´eduite.

M´ethode :

• On estime ppar f et p

p(1−p)/n par p

f(1−f)/n−1

• On lit dans la table 2 la valeura tel que p(|X| ≥a) = α.

• L’intervalle de confiance est alors : ]f−ap

f(1−f)/(n−1), f+ap

f(1−f)/(n−1)[.

3.2 Estimation d’une moyenne par un intervalle de confiance, cas des grands ´echantillons (n > 30)

X variable aléatoire d’espérance µet d’écart typeσ.

µ etσ sont inconnus. On cherche `a estimer µau risque de α.

La variable al´eatoireU =

X−µ σ

√s n

suit sensiblement la loi normale r´eduite centr´eeN(0,1).

On dispose d’un ´echantillon de n valeurs x₁, . . .,x_n. Moyenne observ´ee : ¯x= 1

n(x₁ +. . .+x_n) Ecart type observ´´ e : σ_e=

r1

n(x²₁+. . .+x²_n) M´ethode :

• On estime µpar ¯x et s

√n par s_e

√n−1

• On lit dans la table 2 la valeura tel que p(|U| ≥a) =α.

• L’intervalle de confiance est alors : I =]¯x−a s_e

√n−1,x¯−a s_e

√n−1[.

3.3 Estimation d’une moyenne par un intervalle de confiance, cas des petits ´echantillons (n < 30) sur une variable Gaus- sienne

X variable aléatoire Gaussienne d’espéranceµet d’écart typeσ, c’est-à-dire X suit la loi normale N(µ, σ).

µ etσ sont inconnus.

On cherche `a estimer µ au risque de α.

La variable al´eatoire U =

X−µ σ

√s n

suit la loi de Student àn−1 degrés de liberté.

On dispose d’un ´echantillon de n valeurs x₁, . . .,x_n.

(4)

Moyenne observ´ee : ¯x= 1

n(x₁ +. . .+x_n) Ecart type observ´´ e : σ_e=

r1

n(x²₁+. . .+x²_n) M´ethode :

• On estime µpar ¯x et s

√n par s_e

√n−1

• On lit dans la table 3 (Table de Student, ligne n−1 degr´es de libert´e) la valeur a tel que p(|U| ≥a) = α.

• L’intervalle de confiance est alors : I =]¯x−a s_e

√n−1,x¯−a s_e

√n−1[.

4 Tests de conformit´e d’une fr´equence

4.1 Test bilat´eral

On dispose d’une fréquence théorique p et d’une fréquence observéef. A priori, la fréquence observée peut être au dessus ou au dessous dep.

On veut savoir si la différence entre f etp est due à l’échantillonnage (hypothèseH₀) au risque d’erreur α.

Sous l’hypoth`ese H₀ F suit sensiblement la loi normaleN(p;p

p(1−p)/n.

M´ethode :

• On calcule l’intervalle de confiance dep au risque α pour un ´echantillon de taille n : I =]p− ap

p(1−p)/n;p +ap

p(1−p)/n[, o`u a est obtenu dans la table 2 par p(|X]≥a) =α.

• Sif ∈I on accepte l’hypothèse : la différence est due aux variations d’échantillonnage.

Sinon on rejette l’hypoth`ese.

1er exemple. On lance 100 fois une pi`ece de monnaie. On observe 45 piles et 55 faces.

HypothèseH₀ la pièce équilibrée, hypothèseH₁ : la pièce n’est pas équilibrée.

Si H₀ est vraie, la probabilit´e d’obtenir le cot´e pile est p= 1/2.

La proportion de pile est approch´ee par la loi normaleN(0,5;p

0,5²/100) =N(0,5; 0,05).

On a p(|X| ≥a) = 0,05 pour a= 1,96.

Ceci donne un intervalle de confiance [0,50− 1,96 ×0,05; 0,50 + 1,96 ×0,05] = [0,402; 0,598].

Comme 0,45 est dans l’intervalle, on ne peut rejetter l’hypoth`ese que la pi`ece est

´

equilibr´ee au risque de 5%.

4.2 Test unilat´eral

On dispose d’une fréquence théorique p et d’une fréquence observéef > p.

Hypothèse H₀ : la différence entre f etp est liée aux variations de l’échantillonnage.

Hypothèse H₁ : la fréquence réelle est plus grande que la fréquence théorique (par exemple sous l’effet d’un médicament). La fréquence f observée ne correspond donc pas

`

a la fr´equence th´eorique.

La différence essentielle est que l’on sait à priori que f ne peut pas être plus petite que p(aux variations d’échantillonnage près).

(5)

Sous l’hypoth`ese H₀ F suit sensiblement la loi normaleN(p;p

p(1−p)/n.

M´ethode :

• On cherchea dans les tables de la loi normaleN(0,1) tel que p(F > a) = α On calcule b=p+ap

p(1−p)/n

• Sif ≤b on accepte l’hypoth`eseH₀. Sinon on rejette l’hypoth`eseH₀.

Remarque : la valeur a peut ˆetre lue de 2 mani`eres : – Table 1 en lecture inverse.

– Table 2 en utilisant la propri´et´e p(X > a) = α⇔p(|X|> a) = 2α.

1er exemple, bis. On lance 100 fois une pièce de monnaie. On observe 45 piles et 55 faces. On soup¸conne que la pièce est truquée, et donc que la fréquence réelle p d’obtenir pile est plus faible que p₀ = 0,5.

Hypothèse H₀ la pièce n’est pas truquée : p= 0,5.

Hypothèse H₁ : la pièce est truquée : p <= 0,5.

Si H₀ est vraie, la probabilit´e d’obtenir le cot´e pile est p= 1/2.

La proportion de pile est approch´ee par la loi normaleN(0,5;p

0,5²/100) =N(0,5; 0,05).

On a p(X ≤a) = 0,05 pour a=−1,64.

Ceci donne une borne b =p+aσ = 0,5−1,64×0,05 = 0,418.

Comme la fréquence observée f est de 45%, on ne peut pas rejeter H₀. On ne peut pas rejeter l’hypothèse que la pièce n’est pas truquée au risque de 0,05.

Comme 0,45 est dans l’intervalle, la pi`ece n’est pas truqu´ee au risque de 5%.

5 Tests de conformit´e d’une moyenne

5.1 Test bilat´eral

On dispose d’une moyenne théorique µet d’un échantillon de taille n. On dispose ou on ne dispose pas de la valeur de la variance théorique σ.

On calcule la moyenne observ´ee : ¯x= 1

n(x₁+. . .+x_n)

Si on ne connaˆıt pas σ on l’estime sur l’´echantillon (avec correction du biais) : s =

r n

n−1σ_e = r 1

n−1(x²₁+. . .+x²_n).

On veut savoir si la différence entre ¯x etµest due à l’échantillonnage (hypothèseH₀) au risque d’erreur α.

Cas des grands ´echantillons (n ≥30)

Sous l’hypoth`ese H₀ X¯ suit sensiblement la loi normale N(p;σ/√ n)).

M´ethode :

• On calcule l’intervalle de confiance deµ au risqueα pour un ´echantillon de taille n : I =]µ−aσ/√

n;µ+aσ/√

n[, o`ua est obtenu dans la table 2 par p(|X]≥a) =α.

• Sif ∈I on accepte l’hypothèse : la différence est due aux variations d’échantillonnage.

(6)

Exemple : On considère une série statistique de 60 taux d’hémoglobine dans le sang (g/l) mesuré chez des adultes présumés en bonne santé.

On observe une moyenne ¯x= 159 et un écart typeσ_e = 9,5. En l’absence d’informa- tion, on suppose que le prélèvement a été fait sur une population répartie hommes/femmes en proportion égales.

Dans ce cas la moyenne attendue est µ= 146.

Hypoth`ese H₀, la population est bien r´epartie hommes/femmes. Dans ce cas, ¯X suit sensiblement la loi normale N(µ, σ/√

n).

Estimation de σ/√

n :σ_e/√

n−1 = 9,5/√

59 = 1,237.

Au risque de 1%, p(|X| ≥a) = 0,01 pour a= 2,576.

Intervalle de confiance : I =]µ−aσ/√

n;µ+aσ/√

n[=]146−3,18; 146 + 3,18[.

La valeur ¯x= 159 obtenue n’est pas dans l’intervalle, la population n’est donc proba- blement pas ´equilibr´ee.

Remarque : la variance attendue pour la population totale est σ = 18, on a alors σ/√

n = 18/√

60 = 2,32, ce qui, au risque de 1% donne I =]µ−aσ/√

n;µ+aσ/√

n[=]146−5,76; 146 + 5,76[. On rejette toujours l’hypoth`eseH₀. L

Cas des petits ´echantillons (n <30)

On suppose que X suit une loi normale (”est une variable Gaussienne”).

Sous l’hypoth`ese H₀

X¯ −µ σ/√

n suit sensiblement la loi de Student à n −1 degrés de liberté.

Méthode : Identique au cas précédent, sauf lecture de a dans la table 3

5.2 Test unilat´eral sur les grands ´echantillons

Méthode : Identique au cas bilatéral sur les grands échantillons, excepté que a est lu dans la table 1 :

On cherche a dans les tables de la loi normale N(0,1) tel quep(F > a) =α

Exemple : On reprend l’exercice précédent. On suppose que la loi théorique estµ= 146 etσ = 18.

On a toujours σ/√

n = 18/√

60 = 2,32.

On cherche a dans la table 1 tel que p(X > a) = 0,01, soita = 2,33.

La borne obtenue estb=µ+aσ/√

n = 146 + 5,4 = 151,4. Comme ¯x= 159, on rejette H₀, c’est-`a-dire que l’on consid`ere qu’il s’agit d’une population d’hommes.

6 Tests d’homogénéité

6.1 Pr´esentation du probl`eme

On ne dispose pas de loi th´eorique, mais de 2 ´echantillons de tailles respectives n₁ et n₂.

On veut savoir si les différences de résultats sur chaque échantillon peut s’expliquer ou non par les fluctuations dues à l’échantillonnage ou non.

Soit Y la variable étudiée (par exemple fréquence F ou moyenne ¯X). On note σ_Y l’écart type de Y.

(7)

On dispose de 2 ´echantillons que l’on mod´elise par 2 variables Y₁ etY₂.

Hypothèse H₀ : les échantillons proviennent de la même population. Les tirages sont indépendants.

Sous cette hypoth`ese,

la variable Z =Y₁−Y₂ a pour esp´erance 0 et ´ecart type σ_Z = q

σ_Y²

1 +σ_Y²

2.

6.2 Comparaison de deux fr´equences

Si Y =F est une fr´equence, σF =p

p(1−p)/n etσZ = s

p(1−p)

n₁ +p(1−p) n₂ . Si l’´echantillon est suffisamment grand, et les fr´equences pas trop proches de 0 ou 1, Z suit sensiblement la loi normale N(0, σ_Z).

Estimation de p : on r´eunit les 2 ´echantillons, on trouve ˆp= n1f1 +n2f2

n₁ +n₂ . Test bilat´eral

M´ethode :

• On calcule ˆp= n₁f₁+n₂f₂ n₁+n₂ .

• On calcule s= r

(ˆp(1−p)(ˆ 1 n₁ + 1

n₂).

• On d´etermine a dans la table 1 tel que p(|X]≥a) =α.

• On d´etermine l’intervalle de confiance de Z au risque α :I =]−as;as[,

• Sif₁−f₂ ∈Ion accepte l’hypothèse : la différence est due aux variations d’échantillonnage.

6.3 Comparaison de deux moyennes. Cas des grands ´echantillons (n≥ 30)

Si Y = ¯X est une moyenne, σX¯ =σ/√

n etσ_Z = s

σ₁² n₁ + σ²₂

n₂. On estime σ1 et σ2 par la m´ethode habituelle si =

r n_i n_i−1σe,i. Test bilat´eral

M´ethode :

• On estime σ₁ erσ₂.

• On calcule s_Z = s

σ₁² n₁ +σ₂²

n₂.

• On d´etermine a dans la table 1 tel que p(|X]≥a) =α.

• On d´etermine l’intervalle de confiance de Z au risque α :I =]−as;as[,

• Six1−x2 ∈Ion accepte l’hypothèse : la différence est due aux variations d’échantillonnage.

(8)

7 Test de conformité par la loi du χ² : ajustement à une loi théorique

Situation : on dispose d’un système complet d’événements E1, . . .Ek et d’une distribution de probabilité théorique de ces événements : p_i =p(E_i) avec p₁+. . .+p_k= 1.

On dispose d’un échantillon de taille nsur lequel on calcule les effectifs observésO_i et les fréquences observéesfi =Oi/n de chaque événement.

On veut tester si l’échantillon est conforme à la distribution théorique, aux écarts d’échantillonnage près.

On calcule les effectifs théoriques de chaque événements sur un échantillon de taille n : C_i =n×p_i.

HypothèseH₀: la distribution de l’échantillon est conforme à la distribution théorique.

Sous l’hypoth`eseH₀, la variable al´eatoireY²qui prends les valeursχ²_c = (O₁ −C₁))² C1

+ . . .+(O_k−C_k))²

C_k suit la loi duχ² avec n−1 degr´e de libert´e.

M´ethode :

• On choisit un coefficient de risqueα.

• On calcule les effectifs th´eoriques C_i =n×p_i.

• On calcule χ²_c = (O₁−C₁))²

C₁ +. . .+(O_k−C_k))² C_k .

• On lit dans la table 4 la valeurχ²_α telle que p(Y² ≥χ²_α) = α.

• Siχ²_c ≥χ²_α, on écarte l’hypothèseH₀ avec une probabilité de se tromper deα.

Sinon on ne peut pas rejeter cette hypoth`ese.

Remarque : si un effectif est inf´erieur `a 5, il faut faire un regroupement de classe.

Exemple : On a effectu´e le croisement de balsamines blanches et de balsamines pourpres.

En première génération, les fleurs sont toutes pourpres. On obtient en deuxième génération quatre catégories avec les effectifs suivants :

couleurs pourpre rose blanc lavande blanc

effectifs 1790 547 548 213

L’hypothèse de répartition mendélienne donne ( 9 16; 3

16; 3 16; 1

16).

Peut-on accepter cette hypothèse avec un risque de première espèce de 5% ? Effectif total : n= 1790 + 547 + 548 + 213 = 3098.

couleurs pourpre rose blanc lavande blanc

effectifs observ´es 1790 547 548 213

effectifs th´eoriques 1742,6 580,9 580,9 193,6 χ²_c = (1790−1742,6)²

1742,6 + (547−580,9)²

580,9 + (548−580,9)²

580,9 +(213−193,6)²

193,6 = 7,07.

Nombre de degr´es de libert´e :n−1m4−1 = 3 Si α= 0,05, on lit dans la table χ²_0,05= 7,81.

On ne peut pas rejeter l’hypothèse d’une répartition mendélienne.