Chap 2 : Vraisemblance, Estimation ponctuelle et Intervalle de Conﬁance

(1)

Chap 2 : Vraisemblance, Estimation ponctuelle et

Intervalle de Confiance

(2)

Sommaire

1 Vraisemblance et Estimation

Vraisemblance, exhaustivité, liberté, complétude Information de Fisher

L’estimateur du maximum de vraisemblance Comportement asymptotique des estimateurs

2 Intervalle de Confiance

Construction pratique d’un Intervalle de Confiance Intervalle de Confiance Asymptotique

() Chap 2 : Vraisemblance, Estimation ponctuelle et Intervalle de Confiance2 / 45

(3)

Vraisemblance et Estimation Ponctuelle

(4)

Vraisemblance, exhaustivité, liberté, complétude

(5)

Vraisemblance d’un échantillon

Soits_n= (x₁, . . . ,x_n)réalisation d’un échantillon (i.i.d) de loi de

densité f(x;θ), dans un modèle statistiqueM, la vraisemblance de l’échantillon s_n est la fonctionL(θ,x₁, . . . ,x_n) :

L: Θ −→ R⁺

θ 7→ f(x₁, . . . ,x_n;θ) =∏ⁿ_i=1f(x_i;θ) La log-vraisemblance est

L(θ,x₁, . . . ,x_n) = logL(θ,x₁, . . . ,x_n)

=

n

∑

i=1

log(f(xi;θ)) Exemple :

(6)

Exhaustivité

Définition

Soit M={f(x,θ),x ∈X,θ∈Θ}un modèle paramétrique dominé et S :X −→Y une statistique. La statistique S est dite exhaustivesi la loi deX sachantS=s est indépendante deθ.

Caractérisation via le théorème de factorisation : Une statistique

S(x₁, . . . ,x_n) est exhaustive du modèle paramétrique (dominé par µ)

ssi la densité s’écrit

f(x₁, . . . ,x_n;θ) =g_θ(S(x₁, . . . ,x_n);θ)h(x) Interprétation :S(x₁, . . . ,x_n) contient toute l’information de l’échantillon surθ, c’est unrésuméqui préserve l’information.

Propriété : SiS₁,S₂ sont des statistiques telles que S₁=h(S₂). Alors siS₁ est exhaustive pourθ, alorsS₂ est exhaustive pourθ.

Définition : Une statistiqueS estexhaustive minimale si tout autre statistique exhaustiveT s’écrit S=h(T).

(7)

Exemples

L’échantillon lui-même Le cas multinomial Le cas gaussien Le cas uniforme

(8)

Liberté, Complétude

Dans un modèle paramétrique M, une statistiqueS est libreenθ si sa loi ne dépend pas deθ.

Une statistiqueS est complète ssi

∀θ∈Θ,E_θ[h(S)] =0 =⇒ h=0,P_θ−ps Théorème : Une statistique exhaustive complète est minimale.

Théorème de Basu : SiS est une statistique exhaustive complète pour le modèleM, alors toute statistique libreT est indépendante deS pour toute loiP_θ deM.

I Interprétation : Les statistiques exhaustives complètes sont des résumés qui compressent et sépare l’échantillon de manière optimale, en deux partiesindépendantes.

(9)

Estimation et exhaustivité

Théorème de Rao-Blackwell: Soit T une statistique exhaustive, et θˆ un estimateur deθ tel que R( ˆθ,θ) =E_θ

θˆ−θ

2

<∞, alors l’estimateur ηˆ=E_θh

θˆ|Ti

est l’amélioré de Rao-Blackwell : R( ˆη,θ)<R( ˆθ,θ)

Théorème de Lehmann-Scheffé: SoitS une statistique exhaustive complète pour un modèle paramétrique. Si θˆ est un estimateur sans biais deθ, alorsηˆ=E_θh

θˆ|Ti

est un estimateur sans biais uniformément de variance minimale.

Conclusion et interprétation : de bons résumés optimaux de l’échantillon permettent d’augmenter la précision. .

(10)

Le modèle exponentiel

Définition

Un modèle statistique {f(x;θ)|θ∈Θ}sur X =R^d est unefamille exponentiellesi les densitésf(x;θ) s’écrivent

f(x;θ) =exp

s

∑

i=1

η_i(θ)T_i(x)−B(θ)

! h(x)

avech,B,ηi,T_i,i=1, . . . ,s à valeurs réels, eth(x)≥0.

T = (T₁. . .T_s) est la statistique privilégiée du modèle (les T_i sont

linéairement libres = de rang plein)

Il est plus commode d’utiliser directement lesη_i comme paramètre : la densité s’écrit alors sousforme canonique

f(x;η) =exp

s

∑

i=1

ηiT_i(x)−A(η)

! h(x)

et η= (η1, . . . ,ηs) est appelé paramètre naturel.

(11)

Exemple : La loi Gamma

(12)

Propriétés

C(η) =exp(−A(η))est la constante de normalisation.

L’ensembleH={η∈R^s|^R_X exp(∑^si=1η_iT_i(x))<∞} est un convexe.

La fonctionη7→A(η)est indéfiniment dérivable et

1 Eη[T(X)] =∇ηA(η)

2 covη(Ti,Tj) = ^∂²

∂ η_i∂ η_jA(η)

θ7→η(θ) est le plus souvent un difféomorphisme.

Pour une famille exponentielle, le modèle d’échantillonnage est encore une famille exponentielle avec la statistique privilégiée :

T(x₁, . . . ,x_n) =

n i=1

∑

T(x_i).

(13)

Exhaustivité dans les familles exponentielles

Dans une famille exponentielle, si le modèle est de rang plein (égale à s), la statistique privilégiée est exhaustive minimale.

Réciproquement,

Théorème de Pitman-Koopman: Si le modèle est homogène (le support ne dépend pas du paramètre) et est tel que pour une taille d’échantillonn assez grand, il existe une statistique exhaustive de taille fixe s, alors la famille est exponentielle.

(14)

Information de Fisher

(15)

Score et Information de Fisher

On suppose que M ={f(x;θ),θ∈Θ} estrégulier. Lescoreest le vecteur aléatoire

S(X;θ) =∇θlogf(X;θ) Dans ce cas, ∀θ∈Θ,

E_θ[∇_θlogf(X;θ)] =0 Attention au support !

La matrice d’information de FisherI(θ), ou information apportée par X sur θ :

I(X;θ) =cov_θ(∇θlogf(X;θ))

Additivité de l’Information de Fisherpour un échantillon i.i.d : I(X₁, . . . ,X_n;θ),In(θ) =nI1(θ)

(16)

Calcul de l’Information de Fisher

Théorème : Si ^∂²

∂ θi∂ θjf(x;θ) existe pour toutx et toutθ, et si on peut dériver 2 fois sous le signe intégral ^Rf(x;θ)µ(dx) alors

I(X;θ) =−

E_θ ∂²

∂ θi∂ θj

logf(X;θ)

1≤i,j≤p

Pour une famille exponentielle, si on utilise la paramétrisation canonique :

S(X;η) = T(X)−∇_ηA(η) I(X;η) = ∇²_ηA(η) =cov_η(T(X))

(17)

Inégalité d’information de Cramér-Rao

Théorème

Soit M modèle statistique régulier, g fonction dérivable et

T_n=T(X₁, . . . ,X_n) un estimateur sans biais de g(θ).

Cas θ scalaire : la borne de Cramer-Rao est définie par BCR(θ) =_I^g⁰^(θ⁾

n(θ) et V_θ(T_n)≥BCR(θ) =g⁰(θ)²

In(θ) Cas θ vectoriel :

V_θ(T_n)≥J(g)(θ)^>In(θ)⁻¹J(g)(θ) avec J(g)(θ)= Jacobien de g évalué au point θ.

(18)

Efficacité d’un estimateur

La comparaison entre les matrices de covariances est au sens de l’ordre (partiel) matrices s.d.p :A,B s.d.p. A≤B ⇐⇒B−A s.d.p

Inégalité d’information = BCR(θ)est la meilleure variance possible pour un estimateur sans biais.

Un estimateurT_n sans biais de g(θ) est un estimateurefficace si V_θ(g(θ)) =BCR(θ):

(19)

Estimateur du maximum de vraisemblance

(20)

Estimateur du Maximum de Vraisemblance

SoitM un modèle paramétrique et x₁, . . . ,x_n un échantillon de vraisemblanceL(θ;x₁, . . . ,x_n) =∏ⁿ_i=1f(x_i;θ). Lorsqu’il existe, l’estimateur du maximum de vraisemblance est définie par

θˆ_n^EMV = arg min

θ∈ΘL(θ;x₁, . . . ,x_n)

= arg min

θ∈ΘL(θ;x₁, . . . ,x_n)

Remarque

Les conditions suffisantes d’optimalité pour déterminerθˆ_n^EMV sont :











∂L

∂ θ (x,θ)|

θ= ˆθ_n^EMV =0

∂²L

∂ θ² (x,θˆ_n^EMV)≤0

L(x,θˆ_n^EMV)≥L(x,θ),∀θ∈Θ.

(21)

Exemples d’estimateurs d’EMV

Le cas Bernoulli Le cas Poisson

(22)

Propriétés de l’EMV

Sous les hypothèses du théorème de factorisation, θˆ_n^EMVest fonction de toute statistique exhaustive.

Pour l’EMV, il y a des problèmes :

I Existence d’une solution au problème de maximisation

I Existence de plusieurs solutions et de minima locaux

I Numérique (pour l’optimisation)

Pour un modèle exponentiel de plein rang (avec la paramétrisation naturelle) etI(η)>0 pour toutη,L(θ;x1, . . . ,xn) est strictement concave et l’EMV est l’unique solution de

1 n

n

∑

j=1

T(x_j) =∇_ηA( ˆη^EMV)

(23)

Comportement asymptotique des estimateurs

(24)

Convergence de l’EMV

Si le modèle paramétriqueM est régulier et si θ^∗∈Θ^◦ est le vrai paramètre alors

θˆ_n^EMV −→θ^∗ en probabilitéP_θ^∗.

Remarque

La régularité suppose que l’information de Fisher I(θ) existe et est définie positive. Une conséquence de I(θ)>0 est que le modèle est identifiable, i.ef(·;θ) =f(·,θ⁰) =⇒ θ=θ⁰, for all θ,θ⁰.

(25)

Normalité asymptotique de l’EMV

Si le modèle paramétriqueM est régulier et si θ^∗∈Θ^◦ est le vrai paramètre alors

√n

θˆ_n^EMV−θ^∗

N(0,I1(θ))

Remarque

√n est la vitesse de convergence de l’estimateur. De manière générale, la convergence des estimateurs paramétriques est "en ^√¹_n".

Un estimateur consistent θˆn est dit asymptotiquement normalsi il exister_n>0 tel que

r_n θˆn−θ^∗

N(0,J(θ)). J(θ) est la variance asymptotique.

(26)

Delta-Method

Soitθˆn, un estimateur asymptotiquement normal r_n

θˆn−θ^∗

N(0,J(θ)), etψ une fonction différentiable autour deθ^∗, alors ψ( ˆθn)est asymptotiquement normal et

r_n ψ

θˆn

−ψ(θ^∗)

N

0,ψ⁰(θ)^>J(θ)ψ⁰(θ)

Lemme de Slutsky : Si Y_n Y etA_n^Proba−→ A etB_n^Proba−→ B, alors A_n+B_nY_n A+BY

Ces résultats sont utilisées pour obtenir la normalité asymptotique de statistique complexe (mais régulière) de l’échantillon.

(27)

Intervalle de confiance

(28)

Intervalle de Confiance

On considËre un modËle d’Èchantillonnage paramÈtriqueX1, ...,Xn de taille n. Les variables alÈatoiresX1, ...,Xn sont indÈpendantes et de mÍme loi inconnueP, et elles sont à valeurs dansX (Rou R^d).

On suppose que la loiP appartient à une famille de probabilitÈ P={P_θ,θ∈Θ}.

DÈfinition 3.1 (RÈgion de Confiance)

Soitx7→Λ(x)une application deXⁿ à valeurs dans l’ensemble des borÈliens de g(Θ) telle que pour toutθ∈Θ, on a

P_θ(g(θ)∈Λ(X1, ...,Xn)) =1−α.

On dit que l’ensemble alÈatoireΛest une rÈgion de confiance de niveau(1−α).

Dans le cas oùg(Θ)⊂RetΛest un intervalle, on parle d’un intervalle de confiance.

DÈfinition 3.2 (Intervalle de Confiance)

Pour α∈[01]donnÈ, on appelle intervalle de confiance pour le paramËtre θ (resp.g(θ)), de niveau de confiance 1−α, un intervalle IC_α qui a la probabilitÈ de 1−α de contenir la vraie valeur de θ (resp.g(θ)), i.e.,

P(θ∈ICα) =1−α(resp. P(g(θ)∈ICα) =1−α.)

(29)

Intervalle de Confiance

DÈfinition 3.4 (Statistique asymptoptiquement libre)

On appelle statistique asymptotiquement libre pourθ, toute statistique dont sa loi asymptotique ne dÈpend pas deθ.

Exemple 3.1 SoitX1, ...,Xn un Èchantillon de loiN (µ,σ²). Notons X¯n=¹_n

n

∑

i=1

Xi et S_n²=_n₋¹₁

n

∑

i=1

(Xi−X¯n)².

- Siσ est connu,

√n( ¯Xn−µ)

σ est une statistique libre pour µ, de loiN (0,1).

- Siσ est inconnu

√n( ¯X_n−µ)

Sn est une statistique libre pour µ, de loiTn−1. - Siµ est connu∑ⁿi=1

_X

i−µ σ

2

est une statistique libre pour σ, de loi χ_n².

(30)

Construction pratique d’un IC

Exemple 3.2 X1, ...,Xn un Èchantillon de loiP(¹_λ).Tn=

√n( ¯Xn−λ)

λ est une statistique asymptotiquement libre pourλ. En effet, par le thÈorËme central-limite Tn loi

−→

n→∞N (0,1).

Construction pratique d’un IC

SoitTn un estimateur du paramËtreθ. On chercheϕ1(Tn)etϕ2(Tn)de sorte que leurs lois ne dÈpendent pas deθ et

P(ϕ1(Tn) ≤ θ ≤ ϕ2(Tn)) =1−α

Remarque Le choix d’une statistique libre revient à Èviter d’avoir les bornes de l’IC dÈpendantes deθ

(31)

IC - EspÈrance d’une variable normale : σ connu

σ connu SoitX1, ...,Xn un Èchantillon de loiN (µ,σ²).

- PrenonsX¯n=¹_n

n i=1

∑

Xi comme estimateur deµ.

- On utilise le fait que

√n( ¯Xn−µ)

σ est une statistique libre pourµ, de loi N (0,1).

- L’intervalle de probabilitÈ deX¯nà 1−α est :

−uα

2 ≤

√n( ¯X_n−µ)

σ ≤ uα

2

µ−uα 2

√σ

n ≤X¯n≤ µ+uα 2

√σ n oùuα

2 est telle queφ(uα

2) =P(N(0,1)≤uα

2) =1−^α₂. d’où l’intervalle de confiance :

x¯n−uα 2

√σ

n ≤µ≤ x¯n+uα 2

√σ n - Application numÈrique : si(1−α) =0,95, on auα

2 =1,96. L’intervalle de confiance de niveau 95%pour µ est

(32)

IC - EspÈrance d’une variable normale : σ inconnu

On utilise le fait queTn−1=

√n( ¯Xn−µ)

S_n suit une loi de Student à (n−1) degrÈs de libertÈ.

L’intervalle de probabilitÈ pourTn−1:

−t_(n₋₁₎_,α

2 ≤

√n( ¯Xn−µ) Sn

≤t_(n₋₁₎_,^α

2

d’où l’intervalle de confiance : x¯n−t_(n₋₁₎_,α 2

√s

n≤µ≤¯xn+t_(n₋₁₎_,α 2

√s n

Remarque Si la dÈfinitionS_n²^∗=_n¹∑ⁿi=1(Xi−X¯n)² alors l’intervalle de confiance devient :

¯xn−t_(n₋₁₎_,α 2

s^∗

√n−1≤µ≤¯xn+t_(n₋₁₎_,α 2

s^∗

√n−1 Exemple 3.3 On prend, par exempleα=0,05, etn=25, on a t_(n₋₁₎_,^α

2 =2,064 et l’intervalle de confiance de niveau de confiance 95%pour µ est :

x¯n−2,064

√25 s25,¯xn+2,064

√25 s25

Remarque Le TCL a pour consÈquence que les intervalles prÈcÈdents sont valables pour estimer µ d’une loi quelconque quandnest assez grand.

(33)

IC - Variance d’une variable normale

µconnu soitUˆ_n²=¹_n∑ⁿi=1(Xi−µ)². on utilise le fait que ⁿ^U^ˆⁿ²

σ² suit une loi deχ_n² comme somme dencarrÈs deN (0,1)indÈpendantes.

Soitk1 etk2, les bornes de l’intervalle de probabilitÈ d’un χn² : P(k1≤nUˆ_n²

σ² ≤k2) =1−α d’où l’intervalle de confiance :

nˆu²_n k2

≤σ²≤nˆu²_n k1

µ inconnu On utiliseS_n²=_n₋¹₁

n i=1

∑

(Xi−X¯n)², et on sait que ⁽ⁿ⁻^1)Sⁿ²

σ² suit une loiχ_n²₋₁, soitb1etb2 les bornes de l’intervalle de probabilitÈ :

P(b1≤(n−1)S_n²

σ² ≤b2) =1−α d’où l’intervalle de confiance :

(34)

Intervalle de Confiance : Exemple

Exemple 3.4 SoitX1, ...,Xn un Èchantillon de loi uniformeU([0,θ]).

La vraisemblance associÈ à l’Èchantillon est dÈfinie par Ln(x,θ) = Πⁿ_i=11

θ1_[0_,θ_](xi)

DÈterminons l’EMV :Ln(x,θ)est maximum enθ ssiΠⁿ_i=11[0,θ[(xi) =1.

Autrement dit∀i=1, ...,n θ≥xi, donc, sup

1≤i≤n

xi≤θ.D’où l’EMV : θˆn= sup

1≤i≤n

Xi

Cherchons une statistique libre pourθ (à partir deθˆn). D’abord calculons la loi deθˆn,∀x∈[0,θ],

Fθˆn(x) = P( ˆθn≤x)

= (x θ)ⁿ VÈrifions queTn=^θ^ˆⁿ

θ est une statistique libre pour θ. En effet, ∀x∈[0,1], on a

FT_n(x) = P(Tn≤x) =P( ˆθn≤θx)

= xⁿ(bien indÈpendant deθ)

(35)

Intervalle de Confiance : Exemple

IC MÈthode 1: DÈterminons unϕ1( ˆθn)etϕ2( ˆθn)telle que P

ϕ1( ˆθn)≤θ≤ϕ2( ˆθn)

=1−α (1)

A partir de(1), il faut construire autour deθ, l’estimateurTn

P 1

ϕ2( ˆθn)≤ 1 θ ≤ 1

ϕ1( ˆθn)

= 1−α P

θˆn

ϕ2( ˆθn)≤Tn≤ θˆn

ϕ1( ˆθn)

!

= 1−α

Comme on connait la loi de la statistique libreTn, on cherche donc un a := ^θ^ˆⁿ

ϕ2( ˆθn) etb := ^θ^ˆⁿ

ϕ1( ˆθn) tels que

P(a≤Tn≤b) = 1−α FT_n(b)−FT_n(a) = 1−α bⁿ−aⁿ = 1−α

Il y a une infinitÈ deaetbpossibles. On choisit aetbtels que l’intervalle [a,b]soit le plus court possible. Soitb=1 et donca= ¹.

(36)

Intervalle de Confiance : Exemple

Soitϕ1( ˆθn) = ˆθn et ϕ1( ˆθn) =α⁻¹ⁿθˆn Nous avons donc obtenu un intervalle

de confiance : h

θˆn;α⁻

1 nθˆn

i

IC MÈthode 2: On peut partir directement deTn, et l’on cherche una etbtel que

P(a≤Tn≤b) = 1−α FTn(b)−FTn(a) = 1−α bⁿ−aⁿ = 1−α

On choisit lesaetbtels que [a,b]soit l’intervalle le plus court possible.

Puis on remonte le raisonnement pour arriver à un intervalle de confiance (voir exemple sur les espÈrances/variances normales).

(37)

Intervalle de Confiance Asymptotique

MÈthode ModËle rÈgulier, c’est-à-dire l’existence de l’information de Fisher.

- On construit l’intervalle asymptotique en utilisant l’estimateur du maximum de vraisemblanceθˆnde θ.

- On sait queθˆn est asymtotiquement normal, i.e. :

√n( ˆθn−θ)loi

−→

n→∞N (0, 1 I(θ)).

- Autrement dit :

pn I(θ)( ˆθn−θ)loi

n−→→∞N (0,1).

P

−u^α

2 ≤

q

n I( ˆθn)( ˆθn−θ)≤u^α

2

= 1−α d’oùl’intervalle de confiance asymptÙtique :



θˆn− uα 2

q n I( ˆ)

,θˆn+ uα 2

q n I( ˆ )



.

(38)

Intervalle de Confiance Asymptotique : Exemple

Remarque On a mentionnÈ l’EMV car il est asymptÙtiquement normal, donc il converge en loi vers une loi connue (ici la loi normale).

Exemple 3.5 SoitX1, ...,Xn un Èchantillon de loi uniformeU([0,θ]).

L’Estimateur de Maximum de Vraisemblance :θˆn= sup

1≤i≤n

Xi.

SoitTn:=n 1−^θ^ˆⁿ

θ

,Tn est une statistique asymptÙtiquement libre pour θ, en effet ;

FT_n(x) = P(Tn≤x)

= P

θˆn≥θ(1−x n)n

= 1−(1−x n)ⁿ et lim

n→∞FT_n(x) =1−e⁻^x. Donc,Tn→T, oùT suit une loi exponentielle Exp(1).

(39)

Intervalle de Confiance Asymptotique : Exemple

On cherche un intervalle de la forme[ ˆθn;b]tel que pour un α donnÈ on ait P( ˆθn≤θ≤b) =1−α.

P( ˆθn≤θ≤b) = P 0≤Tn≤n 1−θˆn

b

!!

≈n→∞ FT n(1−θˆn

b)

!

=1−α

d’oùb= ^θ^ˆⁿ

1−_n¹F_T⁻¹(1−α) = ^θ^ˆⁿ

1−¹_nlogα On a donc

IC=

"

θˆn; θˆn

1−¹_nlogα

#