Chapitre 5 Statistiques Leçon 14 Estimation

(1)

5. STATISTIQUES | 1

Chapitre 5 Statistiques

Leçon 14 Estimation

➢ La moyenne ( )x , la variance

( )

^s² , l’écart type ( )s et la proportion ( )pˆ de l’échantillon sont appelés la valeur statistique.

➢ L’espérance (la moyenne ( ) ), la variance

( )

^² , l’écart type ( ) et la proportion ( )p de la population sont appelés le paramètre.

➢ L’estimation est estimer les paramètres : ,², p à l’aide la statistique.

L’estimation concerne : estimation ponctuelle et estimation par intervalle.

1. Estimation ponctuelle

L’estimation ponctuelle est estimer le paramètre à l’aide une seule statistique :

▪ Le meilleur estimateur de l’espérance  est la moyenne de l’échantillon :



=

= ⁿ

i

xi

x n

1

▪ Le meilleur estimateur de la variance ² est la variance de l’échantillon :

( )



=

− −

= ⁿ

i

i x

n x s

1 2 2

1 1

▪ Le meilleur estimateur de la proportion p est la proportion de l’échantillon (fréquence) :

n pˆ = k ,

Exemple 1 : Dans un échantillon de 10 élèves, l’âge observée est de :15 16 15 17 16 19 18 17 18 17. L’âge moyen de l’ensemble des élèves est donc : D’après la formule :



=

= ⁿ

i

xi

x n

1

On a : 16,8

10 186 10

17 18 17 18 19 16 17 15 16

15+ + + + + + + + + = =

= x

Dans un échantillon de 10 élèves, l’âge moyen de la population est : 17 ans.

Exemple 2 : On interroge au hasard, dans une population de 50 élèves. Sur ces 50 élèves, 35 aiment les mathématiques.

Le pourcentage d’élèves aimés les mathématiques dans la population est donc : D’après la formule :

n pˆ =k

On a : 0,7 50 ˆ =35=

p soit 70% d’élèves aimés les mathématiques dans la population.

(2)

5. STATISTIQUES | 2

2. Estimation par intervalle Définition

L’estimation par intervalle associe à un échantillon aléatoire, un intervalle



ˆ1;ˆ2



qui recouvre  avec une certaine probabilité.

Cet intervalle est appelé l’intervalle de confiance du paramètre  car la probabilité de  dont la valeur est inconnue se trouve compris entre ₁ et₂ est égale à (1−)100%, le niveau de confiance.  est appelé le coefficient de

risque.

Un intervalle de confiance indique la précision d’une estimation car pour un risque donné, l’intervalle est d’autant plus grand que la précision est faible.

1) Intervalle de confiance d’une espérance 

En fonction de la nature de la variable aléatoire continue X , de la taille de l’échantillon n et de la connaissance que nous avons sur le paramètre ², l’établissement de l’intervalle de confiance autour de  sera différent.

• Quelque soit la valeur de n, si ^X ^→^N(^^,^) et la variance ² est connue, Etablir l’intervalle de confiance autour de l’espérance  revient à établir la valeur de i pour une valeur du niveau de confiance (1−)100% donnée par l’expérimentateur.

L’intervalle de confiance de l’espérance  pour un coefficient de risque (une marge d’erreur)  est donc :

n Z x n

Z

x   



2 2

+



−

. , espérance (moyenne) de la population

x

. , moyenne de l’échantillon

(3)

5. STATISTIQUES | 3



. , écart type de la population (² variance de la population)

n

. , taille de l’échantillon

2

. Z_, valeur statistique Z indiquée sur la table de valeur

Exemple : Pour des masses suivent une loi normale, une balance donne une pesée avec un écart type de 2,51. Les résultats des 10 pesées d’un même corps sont : 10,2 9,7 10,1 10,3 10,1 9,8 9,9 10,4 10,3 9,8.

On veut connaître le poids moyen de ce corps dans la population avec un niveau de confiance de 95%.

Solution

Avec 1 0,95 0,05 ₀_,₀₂₅ 1,96

2

−

=



=

−

= Z_ Z

 (d’après le table de valeur)



= 1010

1 xi

x

06 , 10 10

6 , 100 10

8 , 9 3 , 10 4 , 10 9 , 9 8 , 9 1 , 10 3 , 10 2 , 10 7 , 9 2 ,

10 + + + + + + + + + = =

= x

Et donc

10 51 , 962 , 1 06 , 10 10

51 , 962 , 1 06 ,

10 −  +

8,5011,62

d’où le poids moyen de ce corps est compris 8,50 et 11,62 avec une probabilité de 95%.

• Quelque soit la valeur de n30, si X →N(,) et la variance ² est inconnue,

L’intervalle de confiance de l’espérance  pour un coefficient de risque

 est donc :

( ) ( )

n n s

t x n

n s t

x 1 1

2 2

− +



−

− _  _ avec



( )

=

− −

= ⁿ

i

i x

n x s

1

2

1 1

. , espérance de la population

x

. , moyenne de l’échantillon

s

. , écart type de l’échantillon (s² variance de l’échantillon)

n

. , taille de l’échantillon

2

. t_, valeur statistique t indiquée sur la table de valeur

Exemple : Pour des masses suivent une loi normale, une balance donne des 10 pesées d’un même corps : 10,2 9,7 10,1 10,3 10,1 9,8 9,9 10,4 10,3 9,8.

(4)

5. STATISTIQUES | 4

On veut connaître le poids moyen de ce corps dans la population avec un niveau de confiance de 95%.

Solution

Avec 1 0,95 0,05 ( 1) ₀_,₀₂₅ 9 2,262

2

=



=

−



=

−

= t_ n t

 (d’après la table de valeur)



= 1010

1 xi

x

06 , 10 10

6 , 100 10

8 , 9 3 , 10 4 , 10 9 , 9 8 , 9 1 , 10 3 , 10 2 , 10 7 , 9 2 ,

10 + + + + + + + + + = =

= x

( )

(¹⁰^,² ¹⁰^,⁰⁶) (⁹^,⁷ ¹⁰^,⁰⁶) (⁹^,⁸ ¹⁰^,⁰⁶) ⁰^,²⁴⁵

9 1

1 1

2 2

2 1

2

=

− + +

− +

−

=

− −

=



=

 s

x n x

s

n

i i

Et donc

10 245 , 2620 , 2 06 , 10 10

245 , 2620 , 2 06 ,

10 −  +

9,88510,235

d’où le poids moyen de ce corps est compris entre 9,885 et 10,235 avec une probabilité de 95%.

• Quelque soit la valeur de n30, si X →N(,) et la variance ²est inconnue

L’intervalle de confiance de l’espérance  pour un coefficient de risque

 est donc :

n Z s x n

Z s x

2 2



  +

− avec



( )

=

− −

= ⁿ

i

i x

n x s

1

2

1 1

2) Intervalle de confiance d’une variance ²

L’intervalle de confiance de la variance ² pour un coefficient de risque  est donc :

( )

( ) ( )

2 2 1

2 2

2 1

1 1



  

 ₋

 −

− 

− n s

n s

n avec



( )

=

− −

= ⁿ

i

i x

n x s

1 2 2

1 1

Exemple : Voici le volume en cm³ de 10 boîtes d’un même corps : 324 321 325 330 329 325 320 322 326 321.

On veut connaître la variance de ce corps dans la population avec un coefficient de confiance de 95%.

Solution

Avec ( )

 ( )





=

 =

=

−

=

− 9 2,700

023 , 19 9 05

, 0 95 , 0

1 2

975 , 0 2

2 1

2 025 , 0 2

2



 



(5)

5. STATISTIQUES | 5



=

= ⁿ

i

xi

x n

1

1 324,3

10

321 326 322 320 325 329 330 325 321

324+ + + + + + + + + =

=

( ) (³²⁴ ³²⁴^,³) (² ³²¹ ³²⁴^,³)² (³²¹ ³²⁴^,³)² ¹⁰⁴^,¹

1

2 = − + − + + − =



−

=



n

i

i x

x

( ) ¹⁰⁴^,¹ ¹¹^,⁵⁶⁷

9 1 1

1

2 − 2 =  =

= −



= n

i

i x

n x s

Et donc ( )

( ) ( )

2 2 1

2 2

2 1

1 1



  

 ₋

 −

− 

− n s

n s n

700 , 2

567 , 11 9 023

, 19

567 , 11

9  ₂  

 

5,472²38,557

d’où la variance de ce corps dans la population est comprise entre

557 , 38 et 472 ,

5 avec une probabilité de 95%. 3) Intervalle de confiance d’une proportion p

L’intervalle de confiance de la fréquence p pour un coefficient de risque  est donc :

( ) ( )

n p Z p

p n p

p Z p

p ˆ 1 ˆ

ˆ ˆ ˆ 1 ˆ

2 2

+ −



− 

− _ _

vraie seulement si n est grand et np,n(1−p)5

Exemple : On interroge au hasard, dans une population de 144 élèves. Sur ces 144 élèves, 54 ont de la calculatrice.

La probabilité d’élèves ayant de la calculatrice avec un coefficient de confiance de 95% est donc :

Avec 1 0,95 0,05 ₀_,₀₂₅ 1,96

2

−

=



=

−

= Z_ Z

375 , 144 0 ˆ = 54 = p

Et donc

144 625 , 0 375 , 96 0 , 1 375 , 144 0

625 , 0 375 , 96 0 , 1 375 ,

0 

+



 

− p

0,296 p0,454

Ainsi la probabilité d’élèves ayant de la calculatrice est comprise entre 0,296 et 0,454 avec une probabilité de 0,95.

3. Taille d’un échantillon

1) Taille d’un échantillon pour estimer une espérance

Pour estimer une espérance ^ de la population avec un niveau de confiance (¹−)¹⁰⁰^% à une marge d’erreur e, la taille d'échantillon se calcule avec la formule suivante :

(6)

5. STATISTIQUES | 6

2

2 



 



 

= e

n Z_ 

avec

Z n

e 

2

=

Exemple : L’intervalle de confiance de la moyenne d’un échantillon de 50 personnes avec un niveau de confiance 95% est de 23,52,88.

On veut connaître la taille de l’échantillon pour que l’intervalle de confiance donne le résultat correct à 1 près.

Solution Avec e₁ =2,88

1 0,95 0,05 ₀_,₀₂₅ 1,96

2

−

=



=

−

= Z_ Z

35 , 96 10

, 1

50 88 , 2 50

96 , 1 88 ,

2 2 =   =  =

=   

 n

Z e

Et donc 414,709 415

1 35 , 10 96 ,

1 ²

2

2  = 



 



 

 =



 



 

= e

n Z_ 

2) Taille d’un échantillon pour estimer une proportion p

Pour estimer une proportion p de la population avec un niveau de confiance (1−)100% à une marge d’erreur e, la taille d'échantillon se calcule avec la formule suivante :

(1 ^ˆ) ² ²

ˆ 



 



− 

= e

p Z p

n ^ avec ( )

n p Z p

e ˆ 1 ˆ

2

= _ −

Et

2 2

4

1 



 



=  e

n Z^ est la taille la plus grande pour estimer p tel que

4

1 est la valeur maximale de pˆ(1− pˆ).

Exemple : Déterminer la taille d’échantillon pour calculer une proportion avec un niveau de confiance de 96% et une marge d’erreur à 0,08.

Solution Avec e=0,08

1 0,96 0,04 ₀_,₀₂ 2,054

2

−

=



=

−

= Z_ Z

Et donc 164,804 165

08 , 0

054 , 2 4 1 4

1 2 ² ²



=



 



= 



 



=  e n Z^

(7)

5. STATISTIQUES | 7

Leçon 15 Tests d'hypothèses statistiques I. Généralités sur les tests.

1) Hypothèses soumises au test.

- Les statistiques développent des techniques et des méthodes qui permettent d'analyser les données issues de l'observation, afin de cerner les

caractéristiques de la population concernée et d'identifier un modèle capable d'engendrer ces données.

- Dans ce cadre, on est amené à faire des hypothèses, c'est-à-dire à émettre des assertions concernant ces caractéristiques ou ce modèle.

- Une hypothèse est dite paramétrique si elle se rapporte aux paramètres d'une loi. Elle est dite non paramétrique dans les autres cas.

- Une hypothèse paramétrique est dite simple si elle est associée à une valeur unique. Elle est dite multiple dans les autres cas.

- Le plus souvent, la situation se résume en une alternative constituée de deux hypothèses H0 et H1, qui s'excluent mutuellement et qui sont appelées

respectivement l'hypothèse nulle, ou fondamentale, et l'hypothèse alternative, ou contraire.

2) Test.

a) Définition.

Les hypothèses à confronter, H0 et H1, étant identifiées, leur validité est soumise à l'épreuve à l'aide d'un test d'hypothèses.

- Un test d'hypothèses est une règle de décision qui permet, sur la base des données observées et avec des risques d'erreur déterminés, d'accepter ou de refuser une hypothèse statistique.

b) Hypothèse nulle H₀ et hypothèse alternative H1

- L’hypothèse selon laquelle on fixe à priori un paramètre de la population à une valeur particulière s’appelle l’hypothèse nulle et est notée H₀.

- N’importe quelle autre hypothèse qui diffère de l’hypothèse H₀ s’appelle l’hypothèse alternative (ou contre-hypothèse) et est notée H₁.

c) Seuil de signification du test

Le risque, consenti à l’avance et que nous notons  de rejeter à tort l’hypothèse nulle H₀ alors qu’elle est vraie, s’appelle le seuil de signification du test et s’énonce en probabilité ainsi :

(

^rejeter^H ^H ^vraie

)

α P ₀

= 0 .

A ce seuil de signification, on fait correspondre sur la distribution

(8)

5. STATISTIQUES | 8

d’échantillonnage de la statistique une région de rejet de l’hypothèse nulle (appelée également région critique).

La statistique qui convient pour le test est donc une variable aléatoire dont la valeur observée sera utilisée pour décider du « rejet » ou du « non- rejet » de H₀ .

La distribution d’échantillonnage de cette statistique sera déterminée en supposant que l’hypothèse H₀ est vraie.

Sur la distribution d’échantillonnage correspondra une région

complémentaire, dite région d’acceptation de H₀ (ou région de non-rejet) de probabilité 1−.

d) Région d’acceptation et région critique Région d’acceptation

La région d’acceptation ou encore appelée zone d’acceptation est la région complémentaire de la région critique. Elle correspond à l’intervalle dans lequel le modèle proposé pour décrire la situation est accepté.

Région critique (ou région de refus)

La région critique, ou encore appelée zone de rejet est égale à l’ensemble des valeurs de la variable de décision qui conduisent à écarter H₀ au profit de H1.

La région critique correspond donc aux intervalles dans lesquels les

différences sont trop grandes pour être le fruit du hasard d’échantillonnage.

Exemple de formulation d’un test :

Supposons que nous affirmions que la valeur d’un paramètre  d’une population est égale à la valeur ₀

. On s’intéresse au changement possible du paramètre . Les hypothèses

H0 et H1 soient alors une des trois possibilités suivantes:

0 1

0 0

: :





= H

H b)

0 1

0 0

: :





= H

H c)

0 1

0 0

: :





= H H

Exemple : Une machine produit des boules métalliques dont les fluctuations de diamètre dues au procédé de fabrication correspondent à un écart-type de

cm 004 ,

0 .

(9)

5. STATISTIQUES | 9

On veut tester si la machine est bien réglée.

Solution

➢ Si on suppose l’hypothèse :

004 , 0 :

1 0



=



 H H

. Lorsqu’on accepte H₀ ( =0,004) signifie que cette machine est bien réglée.

. Lorsqu’on rejette H₀ ( 0,004) signifie que cette machine est male réglée.

004 , 0 :

1 0



=



 H H

. Lorsqu’on accepte H₀ ( =0,004) signifie que cette machine est bien réglée.

. Lorsqu’on rejette H₀ ( 0,004) signifie que cette machine est male réglée.

004 , 0 :

1 0



=



 H H

. Lorsqu’on accepte H₀ ( =0,004) signifie que  0,004 ou  0,004. Pour ce cas on ne peut conclure que cette machine est bien réglée ou non.

II. Test d’hypothèse sur une seule population

Différentes étapes doivent être suivies pour tester une hypothèse (1) définir l’hypothèse nulle (notée H₀) à contrôler,

(2) définir le niveau de signification du test ou région critique notée  (3) choisir un test statistique ou une statistique pour contrôlerH₀

(4) calculer, à partir des données fournies par l’échantillon, la valeur de la statistique

(5) définir la distribution de la statistique sous l’hypothèse « H₀ est réalisée »,

(6) prendre une décision concernant l’hypothèse posée 1. Test sur une espérance 

Pour tester une espérance  dont la taille d’un échantillon n30 avec un seuil de signification .

Si H₀:=₀ alors on applique la statistique :

n Z x 

₀

= −

Remarque : Pour le cas  est inconnu, on utilise s.

(10)

5. STATISTIQUES | 10

➢ Si H₁:₀ alors la région critique H₀ est la région Z −Z_

➢ Si H₁:₀ alors la région critique H₀ est la région Z  Z

➢ Si H₁:₀ alors la région critique H₀ est la région Z−Z2 ou

2

Z Z 

Exemple : Une machine produit des bijoux dont le temps nominal est égal à 0,52 minutes. Les fluctuations de temps dues au procédé de fabrication correspondent à un écart-type de 0,15 minutes.

Sur la base d'un échantillon aléatoire de taille n=75, on veut tester si cette machine met le temps inférieur au temps nominal pour un seuil de signification 0,05 sachant que le temps moyen mis sur l'échantillon est de 0,49 minutes.

Solution

1. : 0,52 52 , 0 :

1 0



=



 H H

2. =0,05

3. n=7530

4. On applique la statistique

n Z x−₀

=

1,73

75 15 , 0

52 , 0 49 ,

0 0 − =−

− =

= n Z x 

5. D’après la table de valeur Z_ =Z₀_,₀₅=−1,64

Z

− critique 0

région H régiond'acceptation H₀

Z

n 0

acceptatio d'

région H régioncritiqueH₀

2

Z n 0

acceptatio d'

région H

critique 0

région H

critique 0

région H

2

− Z

(11)

En effet

52 , 0 :

1 0



=



 H

H et Z−Z , −1,73−−1,64 =−1,64

Donc la région critique H₀ est la région Z−1,64

6. Lorsque Z =−1,73 est dans la région critique H₀, l’hypothèse H₀ est rejetée. On peut donc conclure que cette machine met le temps inférieur au temps nominal à un niveau de confiance 95%.

2. Test sur une espérance

Pour tester une espérance ^ dont la taille d’un échantillon n30 avec un seuil de signification .

Si H₀:=₀ alors on applique la statistique :

n s Z = x−⁰

➢ Si H₁:₀ alors la région critique H₀ est la région T−t_

(

n−1

)

➢ Si H₁:₀ alors la région critique H₀ est la région ^T ^^t_

(

ⁿ⁻¹

)

➢ Si H₁:₀ alors la région critique H₀ est la région T −t_₂(n−1) ou T t_₂(n−1)

Exemple : Lors d’une enquête sur la durée de vie portant 5 lampes, on obtient les résultats suivants (vie en heure) : 32 41 42 49 53.

64 ,

−1 critique 0

région H régiond'acceptationH₀

(

−1

)

−t_ n critique 0

(

n−1

)

t_ n 0

acceptatio d'

( 1)

2 n− t_ n 0

acceptatio d'

région H

critique 0

région H

critique 0

région H

( ¹)

2 −

−t_ n

(12)

Peut-on affirmer que la durée de vie d’une lampe est de 50 heures pour un seuil de signification =0,05 ?

Solution

1. : 50

50 :

1 0



=



 H H

2. =0,05

3. n=530

4. On applique la statistique

n s T x−⁰

=

5. 43,4

5

53 49 42 41

32+ + + + =

= x

( ) (³² ⁴³^,⁴) (⁵³ ⁴³^,⁴) ⁸^,⁰⁸

4 1 1

1 2 2

1

2 = − + + − =

− −

=



=



n

i

i x

n x s

Donc 1,83

5 08 , 8

50 4 ,

0 =43 − =−

= −

n s T x 

6. D’après la table de valeur t_₂(n−1)=t₀_,₀₂₅( )4 =2,776 En effet

50 :

1 0



=



 H

H et T =−1,83

Donc la région d’acception H₀ est la région −2,776T 2,776

7. Lorsque T =−1,83 est dans la région d’acceptation H₀. On peut donc conclure que l’affirmation est vraie avec un seuil de signification

05 , 0 .

III. Test d’hypothèse sur deux populations

1. Test de comparaison de deux espérances 1,2. Cas deux échantillons ont la taille n₁,n₂ 30

➢ Si on suppose H₀:₁−₂=d₀ avec le seuil de signification  On applique la statistique :

776 , 2 n 0

acceptatio d'

région H

critique 0

région H

critique 0

région H

776 ,

−2

(13)

( )

2 2 2 1

2 1

0 2 1

n n

d x Z x



 +

−

= −

Remarque : pour le cas  est inconnu, on utilise s.

➢ Si H₁:₁−₂d₀ alors la région critique H₀ est la région Z −Z_

➢ Si H₁:₁−₂d₀ alors la région critique H₀ est la région Z Z_

➢ Si H₁:₁−₂ d₀ alors la région critique H₀ est la région Z−Z_₂ ou

2

Z Z 

Exemple :Soit deux usines A et B de mêmes lampes de tailles n_A=n_B =40. La moyenne de la durée de vie et l'écart-type de l’usine A sont respectifs : 647 heures et 27 heures.

La moyenne de la durée de vie et l'écart-type de l’usine B sont respectifs : 638 heures et 31 heures.

On veut tester que les lampes de l’usine A sont en bonne qualité que les lampes de l’usine B pour un seuil de signification 0,05.

Solution

1. H₀:_A−_B =0 0

1: _A− _B 

H  

2.  =0,05

3. n_A =n_B =40, on applique la statistique ( )

2 2 2 1

2 1

0 2 1

n n

d x Z x



 +

−

= − Z

− critique 0

Z

n 0

acceptatio d'

2

Z n 0

acceptatio d'

région H

critique 0

région H

critique 0

région H

2

− Z

(14)

( )

38 , 1 40 31 40 27

0 638 647

2

2 =

+

−

= − Z

4. Z_ =Z₀_,₀₅=−1,645 la région critique H₀ est la région Z1,64

5. Z =1,38 appartient à la région d’acceptation H₀ c montre que on accepte H₀.

Donc l’affirmation que les lampes de A sont en bonne qualité que les lampes de B est fausse.

2. Test de comparaison de deux espérances ₁,₂. Cas deux échantillons ont la taille n₁,n₂ 30 et ₁² =₂²

➢ Si on suppose H₁:₁−₂ d₀ avec le seuil de signification  On applique la statistique :

( )

( ) ( )



 



 +

− +

−

= −

2 1

2 1 2

1

2 2 2 2 1 1

0 2 1

2 1 1

n n

n n n

n

s n s n

d x

T x à v=n₁+n₂−2 degrés de liberté.

Pour un risque d’erreur fixé on a donc :

➢ Si on suppose H₁:₁−₂d₀, la région critique H₀ est la région

( )

^v

t T−_

➢ Si H₁:₁−₂d₀ alors la région critique H₀ est la région ^T^t_

( )

^v

➢ Si H₁:₁−₂ d₀ alors la région critique H₀ est la région T −t_₂( )v ou ( )v

t T  _₂

Exemple : Le revenu moyenne mensuelle et l’écart-type de 15 marchands du marché A sont respectifs 3,5 millions kips et 0,5 millions kips.

( )

v t_ n 0

acceptatio d'

( )v t_₂ n 0

acceptatio d'

région H

critique 0

région H

critique 0

région H

( )v t_₂

−

( )

^v

t_

− critique 0