Cours de Statistiques Inf´erentielles
P. Ribereau
I Echantillonage
1 Mod` ele statistique
On suppose que les variables al´ eatoires X
1, . . . , X
nsont ind´ ependantes et identi- quement distribu´ ees (i.i.d.). tq X
i∼ P
θOn note le mod ‘ele statistique
( R , B
R, (P
θ, θ ∈ Θ ⊂ R
p))
n.
En dehors de ce cadre, on parle de mod` ele non param´ etrique ou semi-param´ etrique si Θ ⊂ R
k× U o` u U est non param´ etrique.
a. Mod` ele domin´ e, vraisemblance
Consid´ erons un mod` ele statistique ( R
n, B
Rn, Q ∈ Q ). Le mod` ele est domin´ e par une mesure σ-finie µ sur ( R
n, B
Rn) si pour tout Q ∈ Q , Q est absolument continue par rapport ` a µ. Alors il existe une fonction de densit´ e f
Qtelle que Q = f
Qµ (i.e Q(A) =
Z
A
f
Q(x)dµ(x) pour tout A ∈ C). La fonction f
Qest la vraisemblance (Li- kelihood en anglais) du mod` ele not´ ee L
Q(x) = f
q(x). On note `
Q(x) = log L
Q(x) la log vraisemblance.
Dans le cas d’un mod` ele d’´ echantillonage r´ eel, la vraisemblance vaut L
θ(x
1, . . . , x
n) = f
θ(x
1) × · · · × f
θ(x
n).
2 D´ efinition d’une statistique
— On appelle statistique toute variable al´ eatoire d´ efinie sur ( R
n, B
Rn) ` a valeurs dans ( R
k, B
Rk).
— On utilisera la notation T
npour une statistique. Elle ne d´ epend pas de la
famille de lois de probabilit´ e Q . En particulier, dans un mod` ele param´ etrique,
une statistique T
nne d´ epend pas de θ. C’est la loi de probabilit´ e de T
nqui
d´ epend de θ.
Remarque.
On distingue :
— la statistique T
nqui est une variable al´ eatoire sur ( R
n, B, Q ). Dans l’exemple pr´ ec´ edent, c’est l’application moyenne empirique (on est ici au niveau concep- tuel, math´ ematique).
— la variable al´ eatoire T
n(X
1, . . . , X
n) qui est une variable al´ eatoire sur (Ω, B).
Dans l’exemple pr´ ec´ edent, c’est la variable al´ eatoire X
n(on est ici au niveau de la statistique inf´ erentielle).
— la valeur observ´ ee de cette variable al´ eatoire : T
n(x
1, . . . , x
n) ∈ R
k. Dans l’exemple pr´ ec´ edent, c’est le nombre r´ eel ¯ x
n, moyenne empirique de la s´ erie statistique x
1, . . . , x
n(on est au niveau de la statistique descriptive).
3 Quelques notions de base sur les estimateurs
On consid` ere dans cette section un mod` ele param´ etrique r´ eel d’´ echantillonage ind´ ependant :
( R , B, (P
θ, θ ∈ Θ ⊂ R
p))
n. a. D´ efinition d’un estimateur
Soit g une fonction d´ efinite sur Θ, ` a valeur dans R
p.
— On appelle estimateur d’un param` etre g(θ) toute statistique ` a valeur dans ( R
k, B
Rk), il sera g´ en´ eralement not´ e T
n.
— On appelle estimation la valeur observ´ ee de T
nsur l’´ echantillon, elle sera not´ ee T
n(x
1, . . . , x
n).
b. Notion de biais
— On appelle biais de l’estimateur T
npour le param` etre g(θ) la quantit´ e B
θ(T
n) = IE
θ[T
n] − g(θ).
— On appelle estimateur sans biais de g(θ) un estimateur T
ntel que B(T
n) = 0.
— Si B(T
n) → 0 quand n → +∞, on dit que T
nest asymptotiquement sans biais pour g(θ).
c. Convergence d’un estimateur
On dit que T
nest convergent pour g(θ) s’il converge en probabilit´ e vers g(θ) :
∀ε > 0, P (|T
n− g(θ)| < ε) −→ 1 quand n → +∞.
Crit` eres de convergence d’un estimateur
(i) Si T
nest un estimateur (asympt.) sans biais de g(θ) et si V (T
n) −→ 0 quand n → +∞, alors
T
nest un estimateur convergent pour g(θ).
d. Comparaisons des estimateurs
On utilise le risque quadratique pour comparer deux estimateurs du mˆ eme para- m` etre g(θ). Pour l’estimateur T
nde g(θ), il est d´ efini par :
R(T
n, g(θ)) = IE[(T
n− g(θ))
2].
Propri´ et´ e. R(T
n, g(θ)) = (B(T
n))
2+ V (T
n).
e. Moyenne al´ eatoire, variance al´ eatoire Soit un mod` ele param´ etrique r´ eel d’´ echantillonage
( R , B
R, (P
θ, θ ∈ Θ ⊂ R
p))
ntel que la loi de probabilit´ e P
θadmette pour esp´ erance µ < ∞ et pour variance 0 < σ
2< ∞.
Soit X = (X
1, . . . , X
n) un vecteur al´ eatoire associ´ e de ce mod` ele.
On appelle moyenne al´ eatoire la statistique X
n= 1
n
n
X
i=1
X
i. On appelle variance al´ eatoire la statistique
V
n= 1 n
n
X
i=1
(X
i− X
n)
2,
on verra ci-dessous que cet estimateur de la variance est biais´ e, on lui pr´ ef´ erera la variance estim´ ee :
S
n2= 1 n − 1
n
X
i=1
(X
i− X
n)
2.
Proposition I.1 1. X
nest un estimateur sans biais et convergent pour µ.
2. V
nest un estimateur biais´ e mais asymptotiquement sans biais de σ
2. 3. S
n2= 1
n − 1
n
X
i=1
(X
i− X
n)
2est un estimateur sans biais de σ
2. 4. V
net S
n2sont des estimateurs convergent de σ
2.
II Estimation
— On reste dans le cadre du mod` ele :
( R , B
R, (P
θ, θ ∈ Θ ⊂ R ))
n.
— Soit f(x, θ) la densit´ e de la loi des X
i.
— Soit L la vraisemblance. On a : L(x
1, . . . , x
n, θ) = Q
ni=1
f (x
i, θ).
— Soit X ⊂ R le support de f (x, θ) o` u
X = {x ∈ R | f(x, θ) > 0}.
1 Hypoth` eses fondamentales sur la densit´ e f (x, θ)
(H1) X est ind´ ependant de θ.
(H2) Θ est un ouvert.
(H3)
∂θ∂f(x, θ) et
∂θ∂22f (x, θ) sont d´ efinies ∀(x, θ) ∈ X × Θ.
(H4) On suppose que les d´ eriv´ es et d´ eriv´ es secondes de f par rapport ` a θ sont domin´ ees par des fonctions µ-int´ egrables sur tout compact inclu dans Θ : pour tout compact K ⊂ Θ, il existe deux fonctions positive µ-int´ egrables φ(x) et ψ (x) telles que pour tout θ ∈ K et presque tout x ∈ X ,
∂
∂θ f (x, θ)
≤ φ(x) et
∂
2∂θ
2f (x, θ)
≤ ψ(x).
2 Information
a. Information de Fisher
D´ efinition II.1 On appelle fonction score ou score la fonction S d´ efinie par : S : X × Θ −→ R
(x, θ) 7−→ S(x, θ) =
∂θ∂ln(f (x, θ)) Remarques.
— Le score n’est d´ efini que si (H1), (H2) et (H3) sont vraies.
— On peut d´ efinir de mˆ eme le score ` a partir de la vraisemblance.
S
n(x, θ) = ∂
∂θ ln(L(x, θ)) avec ici x ∈ R
n. Dans le mod` ele d’´ echantillonage, on a : S
n(x, θ) = P
ni=1
S(x
i, θ).
Propri´ et´ es.
Supposons (H4) vraie, on a alors :
IE[S(X, θ)] = 0 et IE[S
n(X, θ)] = 0.
Information au sens de Fisher
D´ efinition II.2 On appelle information de Fisher la fonction I d´ efinie par : I : Θ −→ R
+θ 7−→ I(θ) = IE
(S(X, θ))
2Remarques. On peut aussi poser (en terme de vraisemblance) : I
n(θ) = IE
(S
n(X, θ))
2. b. Propri´ et´ es.
Si (H4) est vraie, alors
I(θ) = V (S(X, θ)) = −IE ∂
2∂θ
2ln(f (X, θ))
et I
n(θ) = V (S
n(X, θ)) = −IE ∂
2∂θ
2ln(L(X, θ))
. Dans le mod` ele d’´ echantillonage, on a donc :
I
n(θ) = nI (θ).
3 In´ egalit´ e de Cramer-Rao
a. Hypoth` eses suppl´ ementaires
(H5) 0 < I
n(θ) < +∞ ou 0 < I(θ) < +∞.
Soit T
nun estimateur. Posons IE
θ[T
n] = g(θ).
Th´ eor` eme II.1 (In´ egalit´ e de Cramer-Rao.) Si les hypoth` eses (H1), (H2), (H3), (H4) et (H5) sont v´ erifi´ ees, si de plus la fonction g est d´ erivable, alors on a :
V (T
n) ≥ [g
0(θ)]
2I
n(θ) .
La partie de droite est appel´ ee borne inf´ erieure de l’in´ egalit´ e de Cramer-Rao.
Nous la noterons K
Tn(θ).
D´ efinition II.3 — On dit que l’estimateur T
nest efficace s’il v´ erifie V (T
n) = K
Tn(θ).
— Si T
nn’est pas efficace mais que K
Tn(θ)
V (T
n) → 1 quand n → +∞, on dit que l’estimateur T
nest asymptotiquement efficace.
b. Relation entre estimateurs efficaces
Propri´ et´ es.
(P1) Si T
nest un estimateur efficace de θ, alors kT
n+ b est aussi un estimateur efficace de θ, ∀k ∈ R
∗, ∀b ∈ R .
(P2) Soient T
1net T
2ndeux estimateurs sans biais du param` etre θ. S’ils sont
tous les deux efficaces, alors T
1n= T
2npresque sˆ urement.
c. D´ egradation de l’information
Si h(t, θ) est la vraissemblance de T , on note I
T(θ) l’information relative ` a T : I
T(θ) = IE(S(T , θ)
2) o` u S(T , θ) = ∂ ln h(t, θ)
∂θ .
I
T(θ) v´ erifie les mˆ emes propri´ et´ es (centr´ ee, relation avec
∂θ∂22h, in´ egalit´ e de Cramer- Rao) que I(θ).
Proposition II.1 Soit T une statistique, on a I
T(θ) ≤ I
n(θ) avec ´ egalit´ e si et seulement si la statistique T est exhaustive pour le param` etre θ.
4 Notion d’exhaustivit´ e
D´ efinition II.4 (Principe de factorisation) La statistique T
nest ici une variable al´ eatoire d´ efinie sur (X , B
X, (P
θ, θ ∈ Θ ⊂ R ))
n` a valeurs dans (Θ, B
Θ).
On consid` ere :
— la vraisemblance (fonction de densit´ e ou probabilit´ e) de T
nque l’on va noter h(t, θ),
— la densit´ e conjointe de l’´ echantillon (X
1, . . . , X
n) not´ ee L(x
1, . . . , x
n, θ), On dira que la statistique T
nest exhaustive pour θ s’il existe une fonction k sur X
ntelle que
L(x
1, . . . , x
n, θ) = h(t, θ)k(x
1, . . . , x
n).
Th´ eor` eme II.2 (de factorisation) Pour qu’une statistique T soit exhaustive, il suffit que la vraissemblance s’´ ecrive :
L(x
1, . . . , x
n, θ) = φ(t, θ)ψ(x
1, . . . , x
n).
5 Exhaustivit´ e et estimateurs efficaces ; la famille exponen- tielle
a. Le mod` ele exponentiel
D´ efinition II.5 On appelle famille exponentielle ` a param` etre unidimensionnel θ toute loi de probabilit´ e (discr` ete ou continue) dont la vraissemblance peut se mettre sous la forme :
f(x, θ) =
exp[α(θ)β(x) + γ(θ) + δ(x)] si x ∈ X
0 si x 6∈ X ,
avec, α et γ des fonctions deux fois diff´ erentiables.
Proposition II.2 Dans la famille exponentielle, toute statistique de la forme T
n= k P
ni=1
β(X
i) est exhaustive pour θ.
Th´ eor` eme II.3 (Th´ eor` eme de Darmois) Lorsque X est ind´ ependant de θ, le
mod` ele admet une statistique exhaustive ssi le mod` ele est exponentiel.
b. Th´ eor` eme sur l’efficacit´ e
Th´ eor` eme II.4 Si X ne d´ epend pas de θ et que le mod` ele admette un estimateur efficace alors le mod` ele est exponentiel car l’estimateur est n´ ecessairement exhaustif.
Dans un mod` ele exponentiel, alors ` a une transformation lin´ eaire pr` es, il existe un unique estimateur efficace qui v´ erifie :
T = 1 n
n
X
i=1
β(X
i), g(θ) = − γ
0(θ)
α
0(θ) , g(θ) = IE
θ(T ), et V
θ(T ) =
nαg0(θ)0(θ).
6 Quelques m´ ethodes usuelles d’estimation
a. M´ ethode empirique
Si le param` etre θ consid´ er´ e repr´ esente une quantit´ e particuli` ere pour le mod` ele (par exemple, l’esp´ erance ou la variance), on peut naturellement choisir comme es- timateur la quantit´ e empirique correspondante pour l’´ echantillon X
1, . . . , X
n. b. M´ ethode des moindres carr´ es
D´ efinition II.6 On appelle estimateur des moindres carr´ es de θ la statistique θ ˆ
n= arg min
θ∈Θ n
X
i=1
(X
i− h(θ))
2.
c. M´ ethode des moments On note
— Soit X une variable al´ eatoire r´ eelle.
On appelle moment (th´ eorique) d’ordre r : M
r= IE[X
r].
On appelle moment (th´ eorique) centr´ e d’ordre r : M
r= IE[(X − IE[X])
r].
— Soit (x
1, . . . , x
n) les valeurs observ´ ees d’un ´ echantillon de taille n.
On appelle moment empirique d’ordre r : m
r=
n1P
ni=1
(x
i)
r. On appelle moment empirique centr´ e d’ordre r : m
r=
1nP
ni=1
(x
i− x ¯
n)
r.
Principe. Supposons le param` etre θ de dimension p. La m´ ethode consiste ` a poser
un syst` eme d’´ equations en ´ egalant moments th´ eoriques (centr´ es ou non) et moments
empiriques :
M
1(θ) = m
1.. . M
p(θ) = m
pd. M´ ethode du maximum de vraisemblance : principe
D´ efinition II.7 On appelle estimateur du maximum de vraisemblance (EMV) du param` etre θ la statistique θ ˆ
nrendant maximale, selon θ, la fonction de vraisemblance du mod` ele L(X
1, . . . , X
n, θ), soit :
θ ˆ
n= arg max
θ∈Θ
L(X, θ).
Propri´ et´ e.
Si le mod` ele v´ erifie les propri´ et´ es (H1), (H2) et (H3), alors pour que ˆ θ
nsoit un EMV de θ il est n´ ecessaire que
• ∂ ln L(X, θ)
∂θ
θ=ˆθn
= 0 soit S
n(X, θ ˆ
n) = 0 (´ equation de vraisemblance),
• ∂
2ln L(X, θ)
∂θ
2θ=ˆθn
< 0.
Propri´ et´ e (lien avec l’exhaustivit´ e).
S’il existe une statistique exhaustive T
npour θ, alors l’EMV de θ ne d´ epend que de T
n.
7 Exercices
Exercice 1. On consid` ere la loi normale N (µ, σ
2).
a) On suppose σ
2connue et l’on consid` ere le mod` ele param´ etrique r´ eel d’´ echan- tillonnage suivant
R , B
R, (N (µ, σ
2), µ ∈ Θ = R )
n. L’estimateur X
nest-il un estimateur efficace de µ ?
b) Sans supposer µ connue, on pose θ = σ
2et l’on consid` ere le mod` ele param´ e- trique r´ eel d’´ echantillonnage suivant
R , B
R, (N (µ, σ
2), σ
2∈ Θ = R
∗+)
n. L’estimateur S
n2est-il un estimateur efficace de σ
2? Exercice 2.
a) Montrer que la loi de Poisson appartient ` a la famille exponentielle.
b) Montrer que la loi de Cauchy n’appartient pas ` a la famille exponentielle.
Exercice 3. D´ eterminer l’EMV du param` etre λ d’une loi de Poisson. En ´ etudier les propri´ et´ es (biais, convergence, efficacit´ e, exhaustivit´ e).
Exercice 4. Ecrire la vraisemblance d’une loi de Bernoulli de param` etre p ∈]0, 1[.
D´ eterminer l’EMV de p. Etudier ses propri´ et´ es (biais, convergence, efficacit´ e, exhaustivit´ e).
Exercice 5.
a) D´ eterminer l’EMV ˆ θ
ndu param` etre θ de la loi uniforme sur [0, θ] avec θ ∈ R
∗+. b) D´ eterminer la densit´ e de probabilit´ e de ˆ θ
n.
c) Calculer IE[ˆ θ
n] et V (ˆ θ
n).
d) Etudier les propri´ et´ es de ˆ θ
n(biais, convergence, efficacit´ e).
e) Proposer un estimateur T
nde θ sans biais et convergent.
f) Choisir entre ˆ θ
net T
nau moyen du risque quadratique.
g) Montrer que l’estimateur de θ obtenu par la m´ ethode des moindres carr´ es est identique ` a l’estimateur des moments. On notera U
ncet estimateur.
h) Etudier les propri´ et´ es de U
n(biais et convergence) et le comparer ` a T
n. i) Commenter.
8 G´ en´ eralisation au cas d’un param` etre multidimensionnel
On consid` ere dans ce chapitre un mod` ele param´ etrique r´ eel d’´ echantillonnage : ( R , B
R, (P
θ, θ ∈ Θ ⊂ R
p))
n, avec p ≥ 2.
a. G´ en´ eralisation des d´ efinitions sur les estimateurs Estimateurs
Un estimateur est une statistique T
nd´ efinie sur ( R , B
R, (P
θ, θ ∈ Θ ⊂ R
p))
n` a va- leurs dans (Θ, B
Θ). C’est donc un vecteur al´ eatoire de dimension p : T
n= (T
n,1, . . . , T
n,p).
Estimateur sans biais.
— Biais de T
n: B(T
n) = IE(T
n) − θ ∈ R
p.
— On dit que T
nest sans biais pour θ si B(T
n) = 0
p,
— On dit que T
nest asymptotiquement sans biais pour θ si B(T
n) −→ 0
ppour n → +∞,
autrement dit si ∀j = 1, . . . , p, IE[T
n,j] −→ θ
jpour n → +∞.
Estimateur convergent.
— T
nest convergent pour θ si et seulement si T
n−→
probaθ pour n → +∞, c’est ` a dire : ∀j = 1, . . . , p, T
n,j−→
probaθ
j.
— Conditions n´ ecessaires et suffisantes de convergence :
||T
n− θ|| −→
proba0 pour n → +∞ ⇐⇒ T
nest convergent pour θ o` u ||.|| d´ esigne toute norme de R
p.
Risque quadratique.
— Il est d´ efini par : R(T
n, θ) = IE [(T
n− θ)
0(T
n− θ)] =
p
X
j=1
IE
(T
n,j− θ
j)
2.
— Propri´ et´ e :
R(T
n, θ) = B(T
n)
0B(T
n) +
p
X
j=1
V (T
n,j).
On peut r´ e´ ecrire ceci sous la forme : R(T
n, θ) =
p
X
j=1
(IE[T
n,j] − θ
j)
2+
p
X
j=1
V (T
n,j).
b. G´ en´ eralisation de l’in´ egalit´ e de Cramer-Rao On continue ` a noter
— f (x, θ) la vraisemblance du mod` ele de dimension 1, ici x ∈ R et θ ∈ R
p;
— L(x, θ) la vraisemblance du mod` ele de dimension n, ici x ∈ R
net θ ∈ R
p;
— X le support de f et X
ncelui de L.
G´ en´ eralisation des hypoth` eses de r´ egularit´ e
Les hypoth` eses (H1) et (H2) ne sont pas modifi´ ees mais seront ici not´ ee (H1
0) et (H2
0).
(H1
0) X est ind´ ependant de θ.
(H2
0) Θ est un ouvert.
On a f (x, θ) > 0, ∀(x, θ) ∈ X × Θ.
(H3
0) ∀j = 1, . . . , p, ∂
∂θ
jf(x, θ) est d´ efinie ∀(x, θ) ∈ X × Θ.
∀(j, k) ∈ {1, . . . , p}, ∂
2∂θ
j∂θ
kf (x, θ) est d´ efinie ∀(x, θ) ∈ X × Θ.
(H4
0) ∀(j, k) ∈ {1, . . . , p}
∂
∂θ
jf(x, θ) et ∂
2∂θ
j∂θ
kf (x, θ)
v´ erifient la propri´ et´ e de domination sur tout compact de Θ (par des fonctions de x µ-int´ egrables).
Fonction de score (ou score)
On suppose les hypoth` eses (H1
0), (H2
0) et (H3
0) v´ erifi´ ees.
D´ efinition. La fonction score est d´ efinie par :
S : X × Θ −→ R
p(x, θ) 7−→ S(x, θ) = grad
θln(f(x, θ) =
∂
∂θ1
ln(f (x, θ)) .. .
∂
∂θp
ln(f (x, θ))
Remarques et propri´ et´ es.
— On peut aussi d´ efinir le score du mod` ele de dimension n : S
n(x, θ) = grad
θln(L(x, θ)).
— Sous (H4
0), on peut montrer que : IE[S(X, θ)] = 0
p= IE[S
n(x, θ)].
Matrice d’information de Fisher
D´ efinition. La matrice d’information de Fisher est une matrice carr´ ee p×p d´ efinie par :
I(θ) = IE [S(X, θ)(S(X, θ))
0] , l’´ el´ ement (j, k) de la matrice I(θ) est donn´ ee par IE
h
∂∂θj
ln(f (x, θ))
∂θ∂k
ln(f(x, θ)) i
. Remarques et propri´ et´ es.
— On peut aussi d´ efinir la matrice d’information de Fisher par rapport du mo- d` ele de dimension n :
I
n(x, θ) = IE [S
n(X, θ)(S
n(X, θ))
0] .
— Dans un mod` ele d’´ echantillonnage, on a : I
n(x, θ) = nI (θ).
G´ en´ eralisation de l’in´ egalit´ e de Cramer-Rao
— Soit T
nun estimateur de θ. On pose IE[T
n] = g(θ).
La fonction g d´ efinie sur Θ est ` a valeurs dans R
p, sa j` eme coordonn´ ee est g
j(θ) = IE[T
n,j].
— Soit D
g(θ) la matrice jacobienne de g.
— Notons V
Tn(θ) la matrice de variances-covariances de T
n. Consid´ erons l’hypoth` ese suppl´ ementaire suivante :
(H5
0) I
n(θ) est une matrice d´ efinie positive.
In´ egalit´ e de Cramer-Rao. Sous les hypoth` eses (H1
0) ` a (H5
0), la matrice V
Tn(θ) − D
g(θ) [I
n(θ)]
−1(D
g(θ))
0est semi-d´ efinie positive.
D´ efinitions.
— La matrice D
g(θ) [I
n(θ)]
−1(D
g(θ))
0s’appelle la borne inf´ erieure de l’in´ egalit´ e de Cramer-Rao.
— On dit que T
nest efficace pour θ s’il v´ erifie V
Tn(θ) = D
g(θ) [I
n(θ)]
−1(D
g(θ))
0. Forme g´ en´ erale de la famille exponentielle
D´ efinition. On dit qu’une loi de probabilit´ e appartient ` a la famille exponentielle (` a param` etre multidimensionnel) si sa vraisemblance peut s’´ ecrire sous la forme :
f(x, θ) =
exp
"
pX
j=1
α
j(θ)β
j(x) + γ(θ) + δ(x)
#
si x ∈ X ,
0 sinon,
avec X ind´ ependant de θ. Les applications α
jet γ vont de R
pdans R .
Les applications β
jet δ vont de R dans R .
c. G´ en´ eralisation de la m´ ethode du maximum de vraisemblance
D´ efinition. L’estimateur du maximum de vraisemblance (EMV) de θ est d´ efinie par :
θ ˆ
n= arg max
θ∈Θ
L(X
1, . . . , X
n, θ).
Caract´ erisation de l’EMV ˆ θ
n. Si les hypoth` eses (H1
0), (H2
0) et (H3
0) sont v´ e- rifi´ ees, alors pour d´ eterminer ˆ θ
n,
i) on r´ esoud S
n(X, θ ˆ
n) = 0 (´ equations de vraisemblance),
ii)) on v´ erifie que la matrice hessienne de ln L (matrice carr´ ee d’ordre p de terme g´ en´ eral
∂θ∂2j∂θk
ln(L(x, θ)) calcul´ ee en ˆ θ
nest d´ efinie n´ egative, iii) on v´ erifie que le maximum local est un maximum.
III Comportement asymptotique des estimateurs
1 Propri´ et´ es asymptotiques de l’EMV
a. En dimension 1
Deux hypoth` eses suppl´ ementaires sont n´ ecessaires : (H6) θ 6= θ
0= ⇒ P
θ6= P
θ0.
(H7) ∂
2∂θ
2ln f(x, θ) est continue en θ, uniform´ ement en x.
Th´ eor` eme III.1 Si les hypoth` eses (H1), (H2), (H3), (H4) et (H6)sont v´ erifi´ ees, alors il existe une suite θ ˆ
nd’estimateurs du maximum de vraissemblance qui converge presque sˆ urement vers θ.
Th´ eor` eme III.2 Sous les hypoth` eses (H1) ` a (H7), on a :
√ n
θ ˆ
n− θ
−→
loiN (0, I
−1(θ)) quand n → +∞.
b. En dimension sup´ erieure
Les r´ esultats de convergence pour l’EMV en dimension sup´ erieure restent va- lables :
Th´ eor` eme III.3 Si les hypoth` eses (H1
0) ` a (H7
0) sont toutes v´ erifi´ ees, alors on a :
√ n(ˆ θ
n− θ) −→
loiN
p(0
n, I
−1(θ)).
2 D´ efinitions / outils
a. Normalit´ e et efficacit´ e asymptotique Soit T
nun estimateur de θ.
— Si √
n(T
n− θ) −→
loiN
p(0
p, Σ),
alors on dit que T
nest asymptotiquement normal. La matrice Σ est appel´ ee matrice de variances-covariances aymptotique de T
n. (Cela n’implique pas que n V (T
n) → Σ.)
— Si √
n(T
n− θ) −→
loiN
p(0
p, I
−1(θ)),
alors on dit que T
nest asymptotiquement efficace.
— L’EMV est asymptotiquement normal et efficace.
b. M´ ethode Delta
Soit g une fonction C
1. On suppose que T
nest un estimateur de θ tel que a
n(T
n− θ) −→ N
L(0, σ
2(θ))
avec a
n→ ∞. Alors, g(T
n) converge en probabilit´ e vers g(θ) et a
n(g(T
n) − g(θ)) −→ N
L(0, g
0(θ)
2σ
2(θ)).
En dimension sup´ erieure, on consid` ere T
nun vecteur al´ eatoire de R
k, Σ une matrice de covariance. On suppose que
a
n(T
n− θ) −→ N
L(0, Σ)
avec a
n→ ∞. Alors, pour toute fonction g de classe C
1, g(T
n) converge en probabilit´ e vers g(θ) et
a
n(g(T
n) − g(θ)) −→ N
L(0, D
gΣD
tg) o` u D
gest la matrice Jacobienne de g calcul´ ee en θ.
3 Exercices
Exercice 1. On consid` ere le mod` ele d’´ echantillonnage normal avec P
θ= N (µ, σ
2).
a) D´ eterminer l’EMV de θ = (µ, σ
2).
b) Etudier ses propri´ et´ es (biais, convergence, efficacit´ e).
c) Quelle fonction h(θ) peut-on estimer par un estimateur sans biais et efficace ? Exercice 2. On consid` ere le mod` ele d’´ echantillonnage multinomial ` a k ≥ 3 cat´ e- gories :
R , B( R ), B(p
1, . . . , p
k), p
i∈ [0, 1],
k
X
i=1
p
i= 1
!
navec X B(p
1, . . . , p
k), P (X = a
i) = p
i. a) D´ eterminer l’EMV de θ = (p
1, . . . , p
k−1).
b) Montrer qu’il est sans biais, convergent et efficace.
IV Estimation par intervalle de confiance
1 Introduction
On va consid´ erer dans ce chapitre un mod` ele statistique r´ eel param´ etrique (avec un param` etre unidimensionnel) :
( R , B
R, (P
θ, θ ∈ Θ ⊂ R ))
n. D´ efinition.
Soit α ∈ [0, 1]. On appelle intervalle de confiance du param` etre θ de niveau (de confiance) 1 − α la donn´ ee de deux statistiques A
net B
nv´ erifiant
P (A
n≤ θ ≤ B
n) = 1 − α.
2 Intervalles de confiance pour les param` etres de la loi nor- male
On suppose ici que l’on dispose d’un ´ echantillon (X
1, . . . , X
n) o` u les X
isont ind´ ependants et identiquement distribu´ es selon la loi N (µ, σ
2).
Intervalle de confiance pour µ lorsque σ
2est connue
L’intervalle de confiance pour µ de niveau de confiance 1−α lorsque σ
2est connue est :
X
n− z
1−α/2σ
√ n ≤ µ ≤ X
n+ z
1−α/2σ
√ n
o` u z
1−α/2est le fractile d’ordre 1 − α/2 de la loi normale centr´ ee r´ eduite N (0, 1).
Intervalle de confiance pour µ lorsque σ
2est inconnue
L’intervalle de confiance pour µ de niveau de confiance 1 − α lorsque σ
2est inconnue est :
X
n− t
1−α/2S
n√ n ≤ µ ≤ X
n+ t
1−α/2S
n√ n
o` u t
1−α/2est le fractile d’ordre 1− α/2 de la loi de Student T (n −1) et S
n= p S
n2. Intervalle de confiance pour σ
2lorsque µ est connue
On se donne ici α
1> 0 et α
2> 0 v´ erifiant α
1+ α
2= α.
L’intervalle de confiance pour σ
2de niveau de confiance 1−α lorsque µ est connue est :
P
ni=1
(X
i− µ)
2˜ k
2≤ σ
2≤ P
ni=1
(X
i− µ)
2k ˜
1o` u ˜ k
1(resp. ˜ k
2) est le fractile d’ordre α
1(resp. 1− α
2) de la loi du chi-deux χ
2(n).
Intervalle de confiance pour σ
2lorsque µ est inconnue
On se donne ici ` a nouveau α
1> 0 et α
2> 0 v´ erifiant α
1+ α
2= α.
L’intervalle de confiance pour σ
2de niveau de confiance 1 − α lorsque µ est
inconnue est :
P
ni=1
(X
i− X
n)
2k
2≤ σ
2≤
P
ni=1
(X
i− X
n)
2k
1o` u k
1(resp. k
2) est le fractile d’ordre α
1(resp. 1 − α
2) de la loi du chi-deux χ
2(n − 1).
3 Construction d’intervalles de confiance asymptotiques
D´ efinition IV.1 Un intervalle de confiance [A
n, B
n] est de niveau asymptotique 1 − α si
P (A
n≤ θ ≤ B
n)
n→∞−→ 1 − α.
a. Utilisation de la convergence de l’EMV
Supposons v´ erifi´ ees les hypoth` eses de r´ egularit´ e (H1) ` a (H7).
Soit I
n(θ) l’information de Fisher du mod` ele consid´ er´ e. Soit θ b
nl’EMV de θ. On a vu que :
p I
n(θ)
θ b
n− θ
−→
LoiN (0, 1) pour n → +∞.
donc
P
−z
1−α/2≤ p
I
n(θ)
θ b
n− θ
≤ z
1−α/2' 1 − α.
4 Exercices
Exercice 1. Soient X
1, . . . , X
10dix variables al´ eatoires i.i.d. de loi N (µ, σ
2). On dispose des observations suivantes :
6 8 1 5 6 7 6 6 5 9
Calculer les intervalles de confiance de niveau 95% suivants : - pour µ, sachant que σ
2= 4 ;
- pour µ, ne connaissant pas σ
2;
- pour σ
2, puis pour σ, ne connaissant pas µ.
Exercice 2.
Dans une fabrication en s´ erie, on cherche ` a estimer le taux de pi` eces d´ efectueuses.
Pour cela, on a r´ ealis´ e, ` a quatre p´ eriodes diff´ erentes, quatre pr´ el` evements. Les r´ esul- tats sont les suivants :
6 pi` eces d´ efectueuses sur 30, 10 pi` eces d´ efectueuses sur 50, 20 pi` eces d´ efectueuses sur 100, 40 pi` eces d´ efectueuses sur 200.
D´ eterminer, dans chaque cas, l’intervalle de confiance de niveau 95% de ce taux.
Exercice 3.
D´ eterminer l’intervalle de confiance de niveau 95% de la proportion p d’un ´ ev´ e- nement E , lorsque sur 80 exp´ eriences (ind´ ependantes), l’´ ev´ enement s’est produit 45 fois.
Exercice 4.
En utilisant le th´ eor` eme central limite, construire un intervalle de confiance de niveau asymptotiquement ´ egal ` a 1 − α pour le param` etre λ d’une loi de Poisson.
Application num´ erique : On compte le nombre de parasites par fruit dans un lot de fruits parasit´ es et on obtient :
x
i: nombre de parasites par fruit 0 1 2 3 4 5 n
i: nombre de fruits contenant x
iparasites 11 29 27 19 10 4 Si l’on suppose que le nombre de parasites suit une loi de Poisson de param` etre λ,
donner l’intervalle de confiance de niveau asymptotiquement ´ egal ` a 99% pour le param` etre λ.
Exercice 5.
On consid` ere une variable al´ eatoire r´ eelle continue de densit´ e : f(x) =
0 si x < 2,
θ exp(−θ(x − 2)) si x ≥ 2, avec θ > 0.
1. V´ erifier que cette loi appartient ` a la famille exponentielle.
2. En utilisant les propri´ et´ es de l’EMV de θ, construire un intervalle de confiance pour θ de niveau asymptotiquement ´ egal ` a 1 − α.
3. Application num´ erique : Calculer cet intervalle de confiance pour n = 200, ¯ x
n= 6, 68 et α = 5%.
Exercice 6.
On consid` ere n
1variables al´ eatoires r´ eelles X
1,1, . . . , X
1,n1i.i.d. de loi N (µ
1, σ
2) et
n
2variables al´ eatoires r´ eelles X
2,1, . . . , X
2,n2i.i.d. de loi N (µ
2, σ
2). On suppose de plus les variables X
k,i(k = 1, 2 et i = 1, . . . , n
k) mutuellement ind´ ependantes.
1. Soient X
1= 1 n
1n1
X
i=1
X
1,iet X
2= 1
n
2n2
X
i=1
X
2,i. Quelle est la loi de X
1− X
2?
2. Soit S
2= 1 n
1+ n
2− 2
"
n1X
i=1
(X
1,i− X
1)
2+
n2
X
i=1
(X
2,i− X
2)
2# . Quelle est la loi de (n
1+ n
2− 2) S
2σ
2?
3. En d´ eduire un intervalle de confiance de niveau 1 − α pour le param` etre
µ
1− µ
2.
4. Application num´ erique : On a observ´ e n
1= 10 et n
2= 8 observations dans chacune des deux populations consid´ er´ ees. Les donn´ ees obtenues sont les suivantes :
x
1,i: 1,36 2,66 2,05 1,85 2,28 1,71 0,75 1,97 1,70 1,68 x
2,i: 1,91 2,03 1,31 1,33 2,68 2,04 0,40 3,31
Calculer l’intervalle de confiance de niveau 95% pour le param` etre µ
1− µ
2.
V G´ en´ eralit´ es sur les tests
1 Probl` emes de test
Le but d’un test statistique est de donner un crit` ere permettant de retenir l’hy- poth` ese H
0: θ ∈ Θ
0ou de retenir une hypoth` ese alternative H
1: θ ∈ Θ
1, avec Θ
1⊂ Θ
c0.
La mise en œuvre du crit` ere du test d´ etermine une zone de rejet ou zone critique W , W
cest la zone d’acceptation ou zone de confiance. On appelle risque de premi` ere esp` ece, not´ ee α, la probabilit´ e de rejeter l’hypoth` ese H
0alors qu’elle est vraie, α = P (W |H
0). La probabilit´ e, not´ ee 1 − β, de retenir l’hypoth` ese H
0alors qu’elle est fausse s’appelle risque de deuxi` eme esp` ece, 1 − β = P (W
c|H
1). La probabilit´ e β s’appelle puissance du test.
D´ efinition V.1 Un test est donn´ e par une fonction Φ : E
n−→ {0, 1}, on retiendra H
0si Φ(X
1, . . . , X
n) = 0, on rejette H
0si Φ(X
1, . . . , X
n) = 1. On appelle zone de rejet l’ensemble R = {Φ(X
1, . . . , X
n) = 1}. ´ Evidemment, ´ etant donn´ ee une zone de rejet R ⊂ E
n, on d´ efinit un test en posant Φ = 1I
R.
Lorsque Θ
0= {θ
0} et Θ
1= {θ
1}, on parle d’hypoth` eses simples.
D´ efinition V.2 Le niveau du test - ou sa sensibilit´ e - est la probabilit´ e de rejeter H
0` a tort :
α = sup
θ∈Θ0
P
θ((X
1, . . . , X
n) ∈ R)).
La puissance du test est la fonction β : Θ
1−→ [0, 1] d´ efinie par β(θ) = P
θ((X
1, . . . , X
n) ∈ R). Le test est dit sans biais si β(θ) ≥ α ∀θ ∈ Θ
1.
2 Tests uniform´ ement plus puissants
D´ efinition V.3 Etant donn´ ´ es deux tests Φ
1et Φ
2de niveau ≤ α pour tester l’hy-
poth` ese H
0: θ ∈ Θ
0contre H
1: θ ∈ Θ
1. Le test Φ
1est uniform´ ement plus puissant
(u.p.p.) que Φ
2ssi ∀θ ∈ Θ
1, β
1(θ) ≥ β
2(θ). Dans le cas o` u Θ
1= {θ
1} et Θ
0= {θ
0},
on parle de test plus puissant (p.p.).
Dans un premier temps, on supposera que H
0et H
1sont des hypoth` eses simples : H
0: θ = θ
0, H
1: θ = θ
1.
Soit L(x
1, . . . , x
n, θ) la fonction de vraisemblance de (X
1, . . . , X
n).
D´ efinition V.4 On consid` ere des hypoth` eses simples Θ
0= {θ
0} et Θ
1= {θ
1}. Soit V
θ0,θ1(x) = L(x, θ
1)
L(x, θ
0)
le rapport de vraissemblance. On consid` ere la famille de tests Φ
kdont la r´ egion critique R
kest de la forme :
V
θ0,θ1(x) > k.
On appellera test de Neyman et Pearson tout test de cette forme.
Th´ eor` eme V.1 (Lemme de Neyman-Pearson)
1. Soit α > 0, si Φ
kest un test de niveau α alors il est p.p. que tout autre test de niveau ≤ α, de plus il est sans biais.
2. Si α ∈]0, 1[,si les lois P
θsont absoluement continues, il existe k
α∈ R tel que Φ
kαest de niveau α. Si les lois P
θsont discr` etes alors il existe un plus petit k
αtel que Φ
kαest de niveau ≤ α.
3. Soit Φ un test p.p. de niveau α alors ∀θ ∈ {θ
0, θ
1},
P
θ(Φ(X) 6= Φ
kα(X) et V (X) 6= k) = 0.
Ce r´ esultat permet de construire des tests optimisant la puissance dans le cas d’hypoth` eses simples. Le point 3. montre que les tests de Neymann et Pearson sont les seuls tests p.p. (dans le cas absoluement continu). Dans le cas d’hypoth` eses composites (par exemple H
1n’est pas r´ eduite ` a un point), le lemme de Neyman et Pearson permet d’obtenir des tests u.p.p., si les rapports de vraisemblance sont monotones.
Proposition V.1 Si T est une statistique exhautive dont la fonction de vraissem- blance g(t, θ) v´ erifie : pour θ > θ
0,
g(t, θ)
g(t, θ
0) est une fonction croissante de t.
Alors le test de zone de rejet R f
k= {T > k} est u.p.p. pour tester θ = θ
0contre
θ > θ
0.
3 Tests fond´ es sur le rapport du maximum de vraisemblance
D´ efinition V.5 On appellera test du maximum de vraisemblance tout test fond´ e sur la r´ egion critique
W =
x ∈ R
n/ sup
θ∈Θ1L(x, θ) sup
θ∈Θ0L(x, θ) > k
α, o` u k
αest choisit tel que sup
θ∈Θ0
P
θ(W ) = α.
Dans le cas o` u Θ
1= Θ
c0, on consid` erera le test de r´ egion critique : R =
x ∈ R
n/ λ(x) = sup
θ∈ΘL(x, θ) sup
θ∈Θ0L(x, θ) > k
α.
D´ ecision et “p-value”
Lorsqu’on proc` ede ` a un test, on fixe l’hypoth` ese H
0, par exemple θ = θ
0, on choisit une hypoth` ese alternative H
1:
H
1: θ 6= θ
0hypoth` ese bilat´ erale
H
1: θ < θ
0ou H
1: θ > θ
0hyoth` eses unilat´ erale.
On se fixe un risque de premi` ere esp` ece α, on d´ etermine la r´ egion critique (i.e.
pour un test bas´ e sur le rapport de vraissemblance, la valeur de k
α), on calcule la valeur exp´ erimentale de la statistique du test Z
exp, si Z
expest dans la r´ egion critique, on rejette H
0(et on retient H
1), sinon on retient H
0.
La plupart des logiciels de statistique permettent de calculer la valeur de k
αmais fournissent aussi un autre renseignement : la “p-value” p. Si le test est de r´ egion critique f(Z ) > k o` u Z est la statistique du test (f(x) = x ou f(x) = |x|), la p-value est la probabilit´ e : p value = sup
θ∈Θ0P
θ(f (T ) > Z exp), on remarque que Z exp ≥ k ⇔ p value ≤ α.
Si p < α, on rejette H
0(et on retient H
1), sinon, on retient H
0. On prendra garde que certains logiciels ne fournissent la valeur de p que pour des hypoth` eses alternatives bilat´ erales. Dans le cas de distributions sym´ etriques (normale, Student), on passe du p bilat´ eral au p unilat´ eral en divisant par 2.
4 Tests asymptotiques
D´ efinition V.6 On consid´ ere une suite (E
(N), B
(N), ( P
(Nθ ))
θ∈Θ) de mod` eles d’´ echan- tillonages param´ etriques ayant le mˆ eme espace de param` etres Θ. On note X
(N)le vecteur al´ eatoire correspondant.
Le niveau asymptotique d’une suite de tests de Θ
0contre Θ
1, de r´ egion de rejet
R
(N)est la limite (lorsqu’elle existe)
α = lim
N→∞
sup
θ∈Θ0
P
θ(X
(N)∈ R
(N)).
On dit que la suite de tests est convergente si
∀θ ∈ Θ
1lim
N→∞
P
θ(X
(N)∈ R
(N)) = 1.
a. Propri´ et´ es asymptotiques des tests du maximum de vraissemblance On se place dans le cas o` u Θ
0= {θ
0} et Θ
1= {θ 6= θ
0}. On consid` ere alors
λ
n(X) = sup
θ∈ΘL
n(X, θ) L
n(X, θ
0) .
Th´ eor` eme V.2 On suppose que les hypoth` eses de r´ egularit´ e du mod` ele (H1)−(H7) sont satisfaites et que Θ ⊂ R (param` etre de dimension 1). La suite de test de r´ egion critique :
R
n= {2 ln λ
n> K},
o` u K est le 1 − α quantile d’une loi χ
2(1) est de sensibilit´ e asymptotique α et convergente.
b. Tests de Wald et du score
Proposition V.2 On consid` ere θ e
nune suite d’estimateurs asymptotiquement effi- cace d’un param` etre θ ∈ R
d, on suppose de plus que I(e θ
n) −→
PθI(θ). Soit g : Θ −→ R
kune fonction C
1de matrice jacobienne D(θ) de rang k. On consid` ere Θ
0= {θ ∈ Θ / g(θ) = 0}. Le test de Wald de r´ egion de rejet :
R
n: ξ
n> χ
21−α(k) avec ξ
n= ng(e θ
n)
tD(e θ
n)I(e θ
n)
−1D(e θ
n)
t−1g (e θ
n).
est de sensibilit´ e asymptotique α et convergent pour Θ
1= {θ ∈ Θ / g(θ) 6= 0}.
Lemme V.3 Soit X un vecteur al´ eatoire gaussien de R
d, d’esp´ erance µ et de ma- trice de covariance Σ. On suppose que Σ est inversible. Alors
D
2= (X − µ)
tΣ
−1(X − µ) suit une loi du χ
2(d).
Lemme V.4 Soit X
nune suite de vecteurs al´ eatoires de R
dtelle que X
n−→
LX et
A une matrice d × k. Alors la suite de vecteurs al´ eatoires de R
kAX
nconverge en
loi vers AX.
Les tests du score sont bas´ es sur la r´ egion de rejet : ξ
nS> χ
21−α(k) avec ξ
nS= 1
n DL
n(b θ
0,n)
tI(b θ
0,n)
−1DL
n(b θ
0,n), o` u DL
nest le gradient de la vraisemblance et θ b
0,nl’EMV de θ sur Θ
0.
VI Tests param´ etriques classiques
Notations :
P : proportion sur un ´ echantillon al´ eatoire pour une variable de Bernouilli : X prend les valeurs 0 ou 1 avec probabilit´ e 1 − π et π,
P =
X1+···+Xn n.
X : moyenne sur un ´ echantillon al´ eatoire de taille d’esp´ erance µ.
S
2est la variance estim´ ee d´ efinie par : S
2= 1
n − 1
n
X
i=1
(X
i− X)
2. Lorsque IE(X) = µ est connue, on utilise aussi :
D
2= 1 n
n
X
i=1