• Aucun résultat trouvé

INTRODUCTION À LA STATISTIQUE

N/A
N/A
Protected

Academic year: 2022

Partager "INTRODUCTION À LA STATISTIQUE"

Copied!
8
0
0

Texte intégral

(1)

INTRODUCTION À LA STATISTIQUE

4.1. Modèle statistique et problèmes statistiques

Dans la théorie des probabilités, on dispose un espace de probabilité. En statistique, on ne connaît pas la vraie probabilité P derière une expérience aléatoire. On suppose cependant que la mesure de probabilité appartient à une famille connue. Le but est donc de tirer des informations les plus précises possible, de la mesure de probabilité P, via les résultats de l’expérience.

On considère un espace mesurable(Ω,F) muni d’une famille P de mesures de probabilité sur(Ω,F). Le triplet(Ω,F,P)est appelé un modèle statistique.

S’il existe une mesureσ-finieµsur(Ω,F)telle que toute mesure de probabilité P∈ Pest absolument continue par rapport àµ, on dit que le modèle statistique (Ω,F,P) est dominé par µ. Dans ce cours, on considère surtout des modèles paramétriques, où la famille P est paramétrée par un sous-ensemble Θ de Rd (d∈N,d>1).

Exemple 4.1.1. — On lance nfois un dé à six faces qui est éventuellement piégé. L’espace Ω de cette expérience est donc {1, . . . ,6}n. On le munit de la tribu de tous les événements possibles. On suppose que les n lances sont indépendantes. Ainsi les mesures de probabilité possibles pour cette expérience sont de la formeµ⊗n, oùµest une mesure de probabilité sur{1, . . . ,6}. Cette famille peut donc être paramétrée par

Θ ={(a1, . . . , a6)∈[0,1]6|a1+· · ·+a6 = 1}.

Bien que les problèmes statistiques sont très variés, on peut les classifiés en trois catégories.

(2)

82 CHAPITRE 4. INTRODUCTION À LA STATISTIQUE

(1) Estimation de paramètre. Étant donnée une fonction borélienne g(.) surΘ, estimer la valeur de la fonction évaluée en paramètre correspondant à la vrai mesure de probabilité.

(2) Test d’hypothèse. On décompose l’espace de paramètres Θ en réunion disjointe de deux sous-ensembles Θ0 et Θ1. Déterminer si la vraie valeur du paramètre se trouve dansΘ0 ou plutôt dansΘ1.

(3) Région de confiance.On se donne aussi une fonction borélienneg(.). Le but est de proposer un sous-ensemble deg(Θ) où la valeur degévaluée en vraie paramètre est censée appartienir.

4.2. Statistique

Soient (Ω,F,P) un modèle statistique et (E,E) un espace mesurable. On appellestatistique à valeurs dans(E,E)toute application mesurable de(Ω,F) vers (E,E). On dit qu’une statistique S : Ω → E est exhaustive si les lois conditionnelles dePsachantSsont identiques. Dans la suite, on désigne parY : (Ω,F)→(Ω,F)l’application d’identité, appelée lastatistique des observation.

C’est une statistique exhaustive car la loi conditionnelle de n’import quelle mesure de probabitilié sur(Ω,F) sachantY est la mesure de Dirac δY. Exemple 4.2.1. — Considérons le modèle statistique d’échantillonnnage des lois de Bernoulli {0,1}n paramétré par Θ = [0,1]. On désigne par Y = (Y1, . . . , Yn) la statistique des observations. Alors la statistique de somme S =Y1+· · ·+Yn est exhaustive. En effet, pour toutθ∈[0,1]on a

Pθ(Y =y|S=s) = P(Y =y, S =s) P(S=s) . Siy1+· · ·+yn6=s, on aPθ(Y =y|S =s) = 0; sinon on a

Pθ(Y =y|S=s) = θs(1−θ)n−s

n s

θs(1−θ)n−s = n

s −1

.

Le calcul des lois conditionnelles pourrait être assez compliqué. Le théorème suivant donne un critère pour les statistiques exhaustive.

Théorème 4.2.2. — Soit (Ω,F,P) un modèle statistique paramétré par Θ, qui est dominé par une mesure σ-finie µ. Pour qu’une statstique S à valeurs dans un espace mesurable (E,E) soit exhaustive, il faut et il suffit que, pour tout θ∈Θ, la densité pθ(.) de Pθ par rapport à µ se décompose sous la forme ψθ(S(·))f(·), où f est une fonction positive F-mesurable sur Ω et ψθ est une fonction positive E-mesurable sur E.

(3)

Démonstration. — Montrons seulement la partie de suffisance. SoitA∈σ(S) etX une variable aléatoire positive etF-mesurable surΩ. Quitte à remplacer µ par une mesure de probabilité équivalente, on peut supposer queµest elle- même une mesure de probabilité. On a

EPθ[1lAX] =Eµ[1lAXpθ] =Eµ[1lAθ(S)f] =Eµ[1lAψθ(S)Eµ[f X|S]]

=Eµ h

1lAψθ(S)fEµ[f X|S]

Eµ[f|S]

i

=EPθ h

1lAEµ[f X|S]

Eµ[f|S]

i .

Cela montre que

EPθ[X|S] = Eµ[f X|S]

Eµ[f|S]

ne dépend pas de θ.

4.3. Information de Fisher

On considère un modèle statistique paramétrique(Ω,F,(Pθ)θ∈Θ), où Θest un sous-ensemble ouvert deRd. On suppose que toutes les mesures de proba- bilité Pθ sont équivalentes à une mesure σ-finie µ, et on désigne par p(θ) la densité de Radon-Nikodym dPθ/dµ. C’est une variable aléatoire strictement positive sur l’espace mesurable (Ω,F). On considère p comme une fonction définie sur Θ×Ω. On suppose que

(1) la fonctionp est deux fois différentiable par rapport àθ,

(2) pour tout θ∈Θ, la matrice de covariance du vecteur ∂θlnp par rapport à la mesure de probabilité Pθ existe.

(3) il existe une fonction F-mesurable ϕ: Ω→ R intégrable par rapport à µ telle que

∀ω ∈Ω, sup

θ∈Θ

max(k∂θp(θ, ω)k,k∂θ2p(θ, ω)k)6ϕ(ω).

On appelle information de Fisher du modèle statistique la matrice de cova- riance du vecteur∂θlnp par rapport à Pθ, notée commeI(θ).

Lemme 4.3.1. — Pour tout θ∈Θ, on a EPθ[∂θlnp(θ)] = 0.

Démonstration. — Commep(θ)est la densité d’une mesure de probabilité par rapport à µ, on a

∀θ∈Θ, Z

p(θ) dµ= 1,

(4)

84 CHAPITRE 4. INTRODUCTION À LA STATISTIQUE

d’où (la condition (3) comme ci-dessus nous permet de dériver sous signe somme)

∀θ∈Θ, Z

θp(θ) dµ=EPθ

h∂θp(θ) p(θ)

i

=EPθ[∂θlnp(θ)] = 0.

Théorème 4.3.2. — La matrice d’information de Fisher est égale à

−EPθ[∂θ2lnp(θ)].

Démonstration. — On a vu que Z

θp(θ) dµ= 0.

On dérive encore une fois cette formule pour obtenir Z

θ2p(θ) dµ=EPθ[p(θ)−1θ2p(θ)] = 0.

En outre, on a

θ2lnp(θ) =∂θ(p(θ)−1θp(θ)) =−∂θp(θ)⊗2

p(θ)2 +∂θ2p(θ) p(θ) . D’où

EPθ[∂θ2lnp(θ)] =−EPθ

h∂θp(θ)⊗2 p(θ)2

i

= covPθ(∂θlnp(θ)),

où la dernière égalité provient du lemme 4.3.1. Le résultat est donc démontré.

4.4. Estimateur sans biais

On fixe dans ce paragraphe un modèle statistique (Ω,F,P) paramétré par Θ⊂Rk. Étant donnée une fonction borélienne gsur Θà valeurs dansRm, on appelleestimateur deg toute statistique sur le modèle à valeurs dansRm. On dit qu’un statistiquebg: Ω→Rm est un estimateur sans biais siEPθ[bg] =g(θ) quel que soit θ∈Θ.

Pour tout estimateur S, on définit RM(S) comme l’application de Θ vers l’ensemble des matrices symétriques qui envoieθ∈Θen

EPθ[(bg−g(θ))(bg−g(θ))τ],

appelée la matrice de risque quadratique. Sibg1 etbg2 sont deux estimateurs de g tels que RM(bg2)−RM(bg1) soit une matrice semi-positive, on dit quebg1 est quadratiquement préférable à bg2. On voit aussitôt que, si bg est un estimateur

(5)

sans biais, alorsRM(bg)n’est rien d’autre que la matrice de variance-covariance de bg.

Théorème 4.4.1 (Rao-Blackwell). — Si bg est un estimateur sans biais et siSest une statistique exhaustive, alors l’estimateurbgS=E[bg|S]est sans biais et quadratiquement préférable àg.b

Démonstration. — Bien que l’on n’a pas précisé dans l’énoncé du théorème la mesure de probabilité que l’on utilise à calculer l’espérance conditionnelle, le fait queS est une statistique exhaustive montre que cette espérance condition- nelle ne dépend pas du choix d’une mesure de probabilité dans P. En outre, commeEPθ[EPθ[g|S]] =b EPθ[bg] =g(θ), on obtient que la statistiquebgS est sans biais. En outre, pour tout x∈Rm, on a

EPθ[(xτ(bg−g(θ)))2] =EPθ[EPθ[(xτ(bg−g(θ)))2|S]]>EPθ[(xτ(bgS−g(θ)))2], d’après l’inégalité de Jensen. Le théorème est donc démontré.

Dans le cas où l’information de Fisher est bien définie, le théorème suivant du à Cramer et Rao donne une minoration pour la matrice de variance-covariance d’un estimateur sans biais. Dans la suite, on suppose que le modèle statistique est dominé par une mesure σ-finie µ et on désigne par p(θ, .) la densité de Radon-Nikodym de Pθ par rapport à µ. On suppose en outre que Θ est un ouvert deRk et que la fonction gest différentiable.

Théorème 4.4.2 (Cramer-Rao). — On suppose que l’information de Fi- sher pour le modèle statistique est bien définie. Soit bgun estimateur sans biais tel que EPθ[kbgk2]<+∞ pour tout θ∈Θ et que

Z

p(θ)bgdµ est différentiable en θ sous signe intégrale. Alors

covPθ(bg)−Dg(θ)τI(θ)−1Dg(θ) est une matrice symétrique semi-positive.

Démonstration. — Pour toutθ∈Θ, on a Z

p(θ)bgdµ=g(θ).

On en déduit

Z

θp(θ)τbgdµ=Dg(θ),

(6)

86 CHAPITRE 4. INTRODUCTION À LA STATISTIQUE

ou encore

EPθ[∂θ(lnp(θ))τbg] =Dg(θ) Considérons le vecteur de variables aléatoires

X= (bg−g(θ))−Dg(θ)τI(θ)−1θ(lnp(θ)).

Il est d’espérance nulle. Sa matrice de variance-covariance est

EPθ[(bg−g(θ))(bg−g(θ))τ]−EPθ[(bg−g(θ))(∂θlnp(θ))τ(I(θ)−1)τDg(θ)]

−EPθ[Dg(θ)τI(θ)−1θ(lnp(θ))(gb−g(θ))τ]

+EPθ[Dg(θ)τI(θ)−1θ(lnp(θ))(∂θlnp(θ))τ(I(θ)−1)τDg(θ)], qui est égale à

covPθ(bg)−Dg(θ)τI(θ)−1Dg(θ).

Le théorème est donc démontré.

4.5. Le maximum de vraisemblance

On considère un modèle statistique de la forme((E,E)⊗n,(Pθ =Q⊗nθ )θ∈Θ)), où (Qθ)θ∈Θ est une famille de mesures de probabilité sur(E,E), qui sont ab- solument continues par rapport à une mesure σ-finie ν. Pour tout θ∈Θ, soit f(θ,·) la densité de Qθ par rapport à ν. Alors la densité p(θ, .) de Pθ par rapport à µ=ν⊗nest donnée par la relation

p(θ, x1, . . . , xn) =

n

Y

i=1

f(θ, xi).

Le principe de maximum de vraisemblance consiste à maximiser la fonction de vraisemblance

(θ∈Θ)7−→`(θ, x1, . . . , xn) = 1

nlnp(θ, x1, . . . , xn) = 1 n

n

X

i=1

lnf(θ, xi).

On suppose l’existence d’une application mesurable θ :En→Θtelle que

`(θ(x),x) = sup

θ∈Θ

`(θ,x).

On désigne par θbl’estimateur θ(Y), où Y = (Y1, . . . , Yn) est la statistique d’observation.

(7)

Exemple 4.5.1. — On considère le cas où (E,E) = (R,B(R)) et Q(µ,σ) = N(µ, σ2). Dans ce cas-là la fonction de vraisemblance est donnée par

`(µ, σ,x) = 1 n

n

X

i=1

− 1

2ln(2πσ2)− 1

2(xi−µ)2

.

En particulier, on a

∂µ`(µ, σ,x) =−1 n

n

X

i=1

xi−µ σ2 . Donc

µ(x1, . . . , xn) = 1

n(x1+· · ·+xn).

L’estimateur du maximum de vraisemblance deµest donc

µb= 1

n(Y1+· · ·+Yn), qui est un estimateur sans biais. De façon similaire, on a

∂σ`(µ, σ,x) = 1 n

n

X

i=1

− 1 σ + 1

σ3(xi−µ)2 D’où

σ(x)2 = 1 n

n

X

i=1

(xi−µ(x))2= 1 n

n

X

i=1

x2i − 1 n2

n

X

i=1 n

X

j=1

xixj

En particulier, on a

E[bσ2] = n−1 n σ2.

Cela montre que l’estimateur bσ2 de σ2 n’est pas sans biais.

Exemple 4.5.2. — On considère le cas où (E,E) = (R,B(R)) et Qσ = N(0, σ2). Dans ce cas-là la fonction de vraisemblance est donnée par

`(σ,x) = 1 n

n

X

i=1

−1

2ln(2πσ2)− 1 2σ2x2i

.

On obtient

σb2 = 1 n

n

X

i=1

Yi2,

qui est un estimateur san biais. La variance de cet estimateur est alors var(bσ2) = 1

n2(2σ4n) = 2σ4 n

(8)

88 CHAPITRE 4. INTRODUCTION À LA STATISTIQUE

Rappelons que l’information de Fisher est donnée par I(σ) =EPσ[∂σlnp(σ, Y)2] =

n

X

i=1

EQσ h

− 1 σ + 1

σ3Yi22i

= 2n σ2.

On voit que la variance debσatteint la borne prédite par l’inégalité de Cramér- Lao. Cependant, si on considère l’estimateur

T = 1 n+ 2

n

X

i=1

Yi2,

dont l’espérance est n+22. On a

var(T) = 2nσ4 (n+ 2)2. Donc on a

RM(T) = 2σ4 n+ 2,

qui est plus petit que RM(σb2). On en déduit queT est quadratiquement pré- férable à bσ2.

Références

Documents relatifs

[r]

On note Y la variable aléatoire comptant le nombre de matchs nuls et on admet que la loi de Y peut être approchée par la loi normale d’espérance 24 et d’écart-type 4 (bonus

d’indice fini (respectivement d’indice fini, respectivement fortement d’indice fini) alors toute autre espérance E’ de E(M, N) est faiblement d’indice ,

Les positions théoriques et épistémologiques sur le corps sont partagées entre deux types de points de vue : d’un côté un corps vécu de l’intérieur en lien avec sa

 Résultats:  analyse  mul?centrique  européenne  ...  Cardiovasc  Intervent

Tenant compte de l’heure à laquelle celle-ci termine son travail, Pierre pense qu’elle a 30% de chance d’arriver par le train de 17h, 50% de chance d’arriver par celui de 18h

Confirmer ainsi le r´ esultat de la question pr´ ec´

ADL : Une règle d’affectation probabiliste peut s’interpréter comme une règle géométrique, elle peut également se voir comme une méthode de partitionnement de l’espace