• Aucun résultat trouvé

2.  -- pour une moyenne d ’ une variable quelconque

N/A
N/A
Protected

Academic year: 2021

Partager "2.  -- pour une moyenne d ’ une variable quelconque "

Copied!
13
0
0

Texte intégral

(1)

Chapitre 4

Estimation

Chap 4.

1.  Estimation par intervalle pour une moyenne dune variable Gaussienne

2.  -- pour une moyenne dune variable quelconque

3.  Maximum de vraisemblance 4.  Exemples

1.  Estimation par intervalle pour une moyenne dune variable Gaussienne

1.1 Généralités

On a vu que l‘intervalle de fluctuation = intervalle probabiliste (Chap 3):

On utilise les caractéristiques de la population étudiée pour calculer l’intervalle de fluctuation. Intervalle de fluctuation

= intervalle fixe dans lequel on s’attend à trouver la moyenne empirique avec (1-α) chances.

Exemple: k échantillons possibles extraits et on calcule les k différentes

X

. . .

Population cible

Loi de X - Gaussienne centrée autour dune moyenne µ

1 1

12

11

, x ,..., x ; X

x

n

2 2

22

21

, x ,..., x ; X

x

n

k kn k

k

x x X

x

1

,

2

,..., ;

a µ 1 b

X

a 2µ b

X

a µ b

Xk

Moyenne et intervalle de fluctuation fixes, mais la moyenne varie.

X

Souvent plus réaliste et plus intéressant de donner un renseignement du type a < θ < b plutôt que θ = c. On dit alors qu’on donne une estimation par intervalle de θ ou estimation ensembliste.

( X I f ) = 1 α

P

(2)

On connait la distribution de la population. et la moyenne théorique, ou on suppose les connaître.

On va chercher à construire un intervalle fixe, centrée autour de la moyenne théorique qui a la propriété suivante: la moyenne empirique doit se trouver à l’intérieur de cet intervalle pour (1-α)% des échantillons tirés au hasard.

Seuls α% des échantillons tirés seront tels que leur moyenne empirique ne sera pas contenue dans cet intervalle de variation fixé.

L’intervalle de confiance est de nature Statistique.

La démarche est inductive.

On ne connait pas la population.

On part de l’échantillon, dans lequel on a observé une moyenne empirique, et on cherche un intervalle aléatoire, fonction des seuls observations que l’on a, mais qui, construit de la même manière sur tout autre échantillon, sera tel que sur 100 échantillons tirés, (1-α)% des intervalles construits tous de la même manière, contiendront la vraie valeur de la moyenne théorique (inconnue !).

P I ( c ∍ µ ) = 1 α

(3)

Pas toujours possible.

La détermination et le calcul des intervalles de confiance constituent des problèmes mathématiques d’une difficulté non négligeable, surtout quand le nombre de paramètres inconnus est grand.

Plutôt que de formaliser une théorie générale, nous allons aborder la question par des exemples simples, utiles et suffisants dans la plupart des cas que nous

rencontrerons.

aléatoire,

ne dépends que des observations (et donc des valeurs empiriques).

intervalle de fluctuation ≠ intervalle de confiance (ou de Variation)

Fixe,

dépends des paramètres théoriques

Pour construire l’intervalle de confiance, le statisticien va utiliser le calcul des probabilités:

•  Suppose que la loi de la population et sa moyenne sont connues;

•  Calcule un intervalle de fluctuation autour de la moyenne théorique;

•  En déduit l’intervalle de confiance par „inversion“:

partant d’un couple de valeurs théoriques encadrant la moyenne empiriques, il en déduira un couple de valeurs empiriques encadrant la moyenne

théorique.

P I ( c ∍ µ ) = 1 α ( X I f ) = 1 α

P

(4)

1.2 Intervalle de confiance dune moyenne théorique dune loi normale

1.2.1 Variance connue

Intervalle de confiance d’une moyenne théorique d’une distribution normale N (µ, σ²), avec σ connue.

Il s’agit d’un intervalle aléatoire Ic , vérifiant :

Pour construire cet intervalle, on part d’un intervalle de fluctuation, et on utilise les inégalités qui en découlent, à savoir :

α µ = −

∍ ) 1 ( I

c

P

σ α σ µ

σ α σ µ

µ

α

α α

α α

⎟ =

⎟

⎠

⎞

⎜ ⎜

⎝

⎛ − ≤ ≤ +

⎟ =

⎟

⎠

⎞

⎜ ⎜

⎝

⎛ − ≤ ≤ +

=

1 1 1

) (

1 2 1 2

1 2 1 2

n e X

n e X

P

n e X

n e P

I X

P

f

( )

⎥ ⎥

⎦

⎤

⎢ ⎢

⎣

⎡ − +

=

=

− 1 2

1 2

, 1

α α

σ σ

α µ

n e X

n e X

I

I P

c

c

ou

Inversion

(5)

1.2.2 Variance inconnue; échantillon de grande taille

( )

⎥ ⎥

⎦

⎤

⎢ ⎢

⎣

⎡ − +

=

=

− 1 2

1 2

, 1

α α

α µ

n e X S

n e X S

I

I P

c

c On montre que:

quand n, la taille de l’échantillon, est grande (n>30 typiquement), l’intervalle de confiance précédent est valide en remplaçant la variance théorique σ2 inconnue par un estimateur empirique convergent.

Note: Les deux estimations de σ, S calculée avec n ou S (sans biais,) calculée avec n-1, au dénominateur sont convergente.

D’où, l’intervalle de confiance ici:

Avec défini par:

α α

α = −

⎟ ⎟

⎠

⎞

⎜ ⎜

⎝

⎛

⎥ ⎥

⎦

⎤

⎢ ⎢

⎣

⎡ − +

∈ − , − 1

1 2 1 2 e e

Z P

1 α 2

e

Où Z est distribué suivant une loi normale N(0,1).

Si n> 30 (grand échantillon), cet intervalle de confiance reste valable

la distribution des observations.

(6)

1.2.3 Variance inconnue, échantillon de petite taille

On utilise dans ce cas le théorème de Fisher:

Soit (X1,X2, Xn) un échantillon issu d’une distribution normale N (µ, σ²), alors:

1. 

2. 

( )

et tes indépendan sont

et

1

1

2 2

=

=

n

X X

S X

n

i

i X

(

1

)

2

2 2

1

S

X n

n

χ

σ

~

Intervalle de confiance d’une moyenne théorique µ d’une distribution normale

N (µ, σ²), avec σ inconnue.

Par ailleurs, on sait que la loi de Student s’applique dans le cas suivant (cf. chap 2):

Soient deux variables aléatoires indépendants U ~ N(0,1) et Y ~ χ2(n) alors la variable

suit une loi de Student à n degrés de libertés, T(n).

n Y T = U

(7)

Conséquence: On considère l’équivalent centré réduit de notre échantillon:

Alors:

U

1

,U

2

,U

3

,..., U

n

( ) avec U

i

= X

i

µ

σ ~ N (0,1)

U =

Ui

i=1 n

n =

Xi −µ σ

#

$% &

'(

i=1 n

n =

Xi

i=1 n

nµ

nσ = X σ − µ

σ ~ N(0,1 n) et nU ~ N(0,1)

SU2 =

Ui −U

( )

2

i=1 n

n−1 =

Xi −µ

σ − X σ − µ

σ

#

$% &

'(

#

$% &

'(

2

i=1 n

n−1 =

XiX σ

#

$% &

'(

2

i=1 n

n−1 = 1

σ2

(

XiX

)

2

i=1 n

n−1 = SX2 σ2 et (n−1)SU2 = (n−1)SX2

σ2 ~ χ2(n−1)

(Loi chi2 pour la somme de var gaussiennes centré-réduites au carré)

Si on applique maintenant la loi de Fisher à l’échantillon (Z1,Z2,…,Zn), on a:

nZ et (n−1)SZ2 indépendanteset (n−1)SZ2 ~ χ2(n−1).

On en déduit la loi de Student suivante:

nU (n − 1)S

U2

n − 1

=

n X σ

µ σ

"

# $ %

&

' S

U2

=

n X σ

µ σ

"

# $ %

&

'

S

X2

σ

2

= X − µ S

X2

n

~ T (n − 1)

N(0,1)

χ

2

(n-1)

n-1

(8)

Cette loi nous permettra de déduire l’intervalle de fluctuation:

α

α

α

= −

⎟ ⎟

⎟

⎠

⎞

⎜ ⎜

⎜

⎝

⎛

⎥ ⎥

⎦

⎤

⎢ ⎢

⎣

⎡

+

,

1

1 2 1 2

t t

T P

Et l’intervalle de confiance de la moyenne théorique µ:

⎥ ⎥

⎦

⎤

⎢ ⎢

⎣

⎡

+

− −

=

1 2 1

α

2

, t α

n X S

n t X S

I

c

Donc, pour déterminer l’intervalle de confiance de la moyenne théorique dans le cas d’un petit échantillon et d’une variance inconnue, on considère la variable aléatoire:

) 1 (

2

~ −

= − T n n

S Y X

X

µ

(9)

Chapitre 4

Estimation

Chap 4.

1.  Estimation par intervalle pour une moyenne dune variable Gaussienne

2.  -- pour une moyenne dune variable quelconque

3.  Maximum de vraisemblance 4.  Exemples

2.  Estimation par intervalle pour une moyenne dune variable quelconque

2.1 Généralités

( )

⎥ ⎥

⎦

⎤

⎢ ⎢

⎣

⎡

+

=

=

− 1 2

1 2

, 1

α

α σ

σ

α µ

n e X

n e X

I

I P

c

c

On considère un échantillon X1,X2,…,Xn de variables indépendantes et identiquement distribuées selon un loi quelconque f avec

Théorème Central Limite (TCL):

) 2

( )

(Xi =

µ

Var Xi =

σ

E ;

( X ) N ( 0 1, )

n − ⎯

n

⎯ →

⎯

σ µ

On peut alors calculer l’intervalle de confiance asymptotique:

S

2 Estimateur convergent de la variance théorique.

è La possibilité de construire un intervalle exact pour des petits effectifs dépendra de la loi f caractérisant la distribution.

(10)

2.2 Exemple

Intervalle de confiance d’une proportion théorique de réalisation d’un événement:

Evénement se réalise: code 1 sinon: code 0

Une expérience Xi est donc équivalente à un tirage de Bernouilli de paramètre

π

(probabilité de se réaliser).

) 1 ( )

( )

(

1

π π

π = −

=

=

=

i i

n i

i

X Var X

E et

n X X

;

TLC:

( ) ( ) ( ) ( 0 1, )

) 1 ) (

1

( N

X X

n X n X

n X ⎯

n

⎯ → ⎯ ⎯

= −

= −

− π

π π

π σ

µ

Estimateur convergent de la variance

L’intervalle de confiance est donc dans ce cas:

( )

⎥ ⎥

⎦

⎤

⎢ ⎢

⎣

⎡ −

− +

=

=

− 1 2

1 2

) 1

, ( )

1 (

1

α α

α µ

n e X X X

n e X X X

I

I P

c

c

(== proportion observée P0.)

(11)

Chapitre 4

Estimation

Chap 4.

1.  Estimation par intervalle pour une moyenne dune variable Gaussienne

2.  -- pour une moyenne dune variable quelconque

3.  Maximum de vraisemblance 4.  Exemples

3.  Estimation : Maximum de vraisemblance

Méthode du Maximum de Vraisemblance :

consiste à prendre pour estimateur d’un paramètre inconnu θ, la fonction des observations θ = S(X) qui rende maximum la probabilité de l’échantillon observé (appelée Vraisemblance de l’échantillon.), c’est à dire la probabilité de réalisation des données dont il dispose:

) ( X

= S θ

On recherche tel qu’on maximise la probabilité d’observer l’échantillon.

On considère donc que la réalité observée est la plus probable.

(12)

Correspond à une probabilité conditionnelle qui décrit le paramètre θ d’une loi statistique en fonction des valeurs observées xi supposées connues.

Soit X1, X2, …, Xn, un échantillon de la variable X suivant la loi f dépendant d’un paramètre inconnu θ (notée f(x ; θ)). On appelle vraisemblance des observations (X1, X2, …, Xn) :

3.1 Vraisemblance d’un échantillon

X discrète:

X continue:

=

=

×

×

=

=

=

=

=

n i

i

n n n

n

x f

x f x

f x

f

x X

x X

x X P x

x x Vrais

1

2 1

2 2

1 1 2

1

)

; (

)

; ( ...

)

; ( )

; (

)

; ,...

, (

)

; ,...

, (

θ

θ θ

θ

θ θ

=

=

×

×

=

=

=

=

=

n i

i

n n n

n

x f

x f x

f x

f

x X

x X

x X f x

x x Vrais

1

2 1

2 2

1 1 2

1

)

; (

)

; ( ...

)

; ( )

; (

)

; ,...

, (

)

; ,...

, (

θ

θ θ

θ

θ θ

Qd les obs. sont connues, c’est une fonction (probabilité ou densité) du seul paramètre inconnu θ.

=

=

+ + +

=

=

n i

i

n n

n

x f Log

x f Log x

f Log x

f Log

x x x Vrais Log

x x x L

1

2 1

2 1 2

1

))

; ( (

))

; ( ( ...

))

; ( ( ))

; ( (

))

; ,...

, ( (

)

; ,...

, (

θ

θ θ

θ

θ

θ

(13)

3.2 Méthode d’estimation du maximum de vraisemblance

θ

Estimateur du maximum de vraisemblance de θ ssi il vérifie:

{ }

{ ( , ,... ; ) }

)

; ,...

, (

)

; ,...

, ( )

; ,...

, (

2 1 2

1

2 1 2

1

θ θ

θ θ

θ θ

n n

n n

x x

x L Max x

x x L ou

x x

x Vrais Max

x x

x Vrais

=

=

θ

Asymptotiquement (i.e. pour de gdes valeurs de n):

sans biais, consistent, gaussien et souvent optimal (variance min).

= 0

∂ θ

On va donc recherche les valeurs pour lesquelles:

L

Références

Documents relatifs

[r]

La constante de temps qui caractérise cet équilibre est appelée temps de relaxation : ceci signifie que pour un temps ≫ on peut assurer que l’équilibre est atteint.. On

Fais des recherches pour savoir comment est calculé l'IMC à partir du poids et de la taille d'un individu.. Quel est le pourcentage des individus ayant une

[r]

[r]

[r]

( ii ) On peut énoncer un résultat analogue pour les intégrales des fonctions continues sur ] a, b ]. non ide et non réduit à un point)... ( i ) Autrement dit, si une intégrale

[r]