INTRODUCTION À LA STATISTIQUE

(1)

INTRODUCTION À LA STATISTIQUE

4.1. Modèle statistique et problèmes statistiques

Dans la théorie des probabilités, on dispose un espace de probabilité. En statistique, on ne connaît pas la vraie probabilité P derière une expérience aléatoire. On suppose cependant que la mesure de probabilité appartient à une famille connue. Le but est donc de tirer des informations les plus précises possible, de la mesure de probabilité P, via les résultats de l’expérience.

On considère un espace mesurable(Ω,F) muni d’une famille P de mesures de probabilité sur(Ω,F). Le triplet(Ω,F,P)est appelé un modèle statistique.

S’il existe une mesureσ-finieµsur(Ω,F)telle que toute mesure de probabilité P∈ Pest absolument continue par rapport àµ, on dit que le modèle statistique (Ω,F,P) est dominé par µ. Dans ce cours, on considère surtout des modèles paramétriques, où la famille P est paramétrée par un sous-ensemble Θ de R^d (d∈N,d>1).

Exemple 4.1.1. — On lance nfois un dé à six faces qui est éventuellement piégé. L’espace Ω de cette expérience est donc {1, . . . ,6}ⁿ. On le munit de la tribu de tous les événements possibles. On suppose que les n lances sont indépendantes. Ainsi les mesures de probabilité possibles pour cette expérience sont de la formeµ^⊗n, oùµest une mesure de probabilité sur{1, . . . ,6}. Cette famille peut donc être paramétrée par

Θ ={(a₁, . . . , a6)∈[0,1]⁶|a1+· · ·+a6 = 1}.

Bien que les problèmes statistiques sont très variés, on peut les classifiés en trois catégories.

(2)

82 CHAPITRE 4. INTRODUCTION À LA STATISTIQUE

(1) Estimation de paramètre. Étant donnée une fonction borélienne g(.) surΘ, estimer la valeur de la fonction évaluée en paramètre correspondant à la vrai mesure de probabilité.

(2) Test d’hypothèse. On décompose l’espace de paramètres Θ en réunion disjointe de deux sous-ensembles Θ₀ et Θ₁. Déterminer si la vraie valeur du paramètre se trouve dansΘ0 ou plutôt dansΘ1.

(3) Région de confiance.On se donne aussi une fonction borélienneg(.). Le but est de proposer un sous-ensemble deg(Θ) où la valeur degévaluée en vraie paramètre est censée appartienir.

4.2. Statistique

Soient (Ω,F,P) un modèle statistique et (E,E) un espace mesurable. On appellestatistique à valeurs dans(E,E)toute application mesurable de(Ω,F) vers (E,E). On dit qu’une statistique S : Ω → E est exhaustive si les lois conditionnelles dePsachantSsont identiques. Dans la suite, on désigne parY : (Ω,F)→(Ω,F)l’application d’identité, appelée lastatistique des observation.

C’est une statistique exhaustive car la loi conditionnelle de n’import quelle mesure de probabitilié sur(Ω,F) sachantY est la mesure de Dirac δY. Exemple 4.2.1. — Considérons le modèle statistique d’échantillonnnage des lois de Bernoulli {0,1}ⁿ paramétré par Θ = [0,1]. On désigne par Y = (Y1, . . . , Yn) la statistique des observations. Alors la statistique de somme S =Y1+· · ·+Yn est exhaustive. En effet, pour toutθ∈[0,1]on a

Pθ(Y =y|S=s) = P(Y =y, S =s) P(S=s) . Siy1+· · ·+yn6=s, on aPθ(Y =y|S =s) = 0; sinon on a

Pθ(Y =y|S=s) = θ^s(1−θ)^n−s

n s

θ^s(1−θ)^n−s = n

s −1

.

Le calcul des lois conditionnelles pourrait être assez compliqué. Le théorème suivant donne un critère pour les statistiques exhaustive.

Théorème 4.2.2. — Soit (Ω,F,P) un modèle statistique paramétré par Θ, qui est dominé par une mesure σ-finie µ. Pour qu’une statstique S à valeurs dans un espace mesurable (E,E) soit exhaustive, il faut et il suffit que, pour tout θ∈Θ, la densité pθ(.) de Pθ par rapport à µ se décompose sous la forme ψ_θ(S(·))f(·), où f est une fonction positive F-mesurable sur Ω et ψ_θ est une fonction positive E-mesurable sur E.

(3)

Démonstration. — Montrons seulement la partie de suffisance. SoitA∈σ(S) etX une variable aléatoire positive etF-mesurable surΩ. Quitte à remplacer µ par une mesure de probabilité équivalente, on peut supposer queµest elle- même une mesure de probabilité. On a

E^P^θ[1l_AX] =E^µ[1l_AXp_θ] =E^µ[1l_AXψ_θ(S)f] =E^µ[1l_Aψ_θ(S)E^µ[f X|S]]

=E^µ h

1l_Aψ_θ(S)fE^µ[f X|S]

E^µ[f|S]

i

=E^P^θ h

1l_AE^µ[f X|S]

E^µ[f|S]

i .

Cela montre que

E^P^θ[X|S] = E^µ[f X|S]

E^µ[f|S]

ne dépend pas de θ.

4.3. Information de Fisher

On considère un modèle statistique paramétrique(Ω,F,(Pθ)θ∈Θ), où Θest un sous-ensemble ouvert deR^d. On suppose que toutes les mesures de proba- bilité Pθ sont équivalentes à une mesure σ-finie µ, et on désigne par p(θ) la densité de Radon-Nikodym dPθ/dµ. C’est une variable aléatoire strictement positive sur l’espace mesurable (Ω,F). On considère p comme une fonction définie sur Θ×Ω. On suppose que

(1) la fonctionp est deux fois différentiable par rapport àθ,

(2) pour tout θ∈Θ, la matrice de covariance du vecteur ∂θlnp par rapport à la mesure de probabilité Pθ existe.

(3) il existe une fonction F-mesurable ϕ: Ω→ R intégrable par rapport à µ telle que

∀ω ∈Ω, sup

θ∈Θ

max(k∂_θp(θ, ω)k,k∂_θ²p(θ, ω)k)6ϕ(ω).

On appelle information de Fisher du modèle statistique la matrice de covariance du vecteur∂_θlnp par rapport à Pθ, notée commeI(θ).

Lemme 4.3.1. — Pour tout θ∈Θ, on a E^P^θ[∂_θlnp(θ)] = 0.

Démonstration. — Commep(θ)est la densité d’une mesure de probabilité par rapport à µ, on a

∀θ∈Θ, Z

Ω

p(θ) dµ= 1,

(4)

d’où (la condition (3) comme ci-dessus nous permet de dériver sous signe somme)

∀θ∈Θ, Z

Ω

∂_θp(θ) dµ=E^P^θ

h∂_θp(θ) p(θ)

i

=E^P^θ[∂_θlnp(θ)] = 0.

Théorème 4.3.2. — La matrice d’information de Fisher est égale à

−E^P^θ[∂_θ²lnp(θ)].

Démonstration. — On a vu que Z

Ω

∂_θp(θ) dµ= 0.

On dérive encore une fois cette formule pour obtenir Z

Ω

∂_θ²p(θ) dµ=E^P^θ[p(θ)⁻¹∂_θ²p(θ)] = 0.

En outre, on a

∂_θ²lnp(θ) =∂θ(p(θ)⁻¹∂θp(θ)) =−∂_θp(θ)^⊗2

p(θ)² +∂_θ²p(θ) p(θ) . D’où

E^P^θ[∂_θ²lnp(θ)] =−E^P^θ

h∂θp(θ)^⊗2 p(θ)²

i

= cov^P^θ(∂θlnp(θ)),

où la dernière égalité provient du lemme 4.3.1. Le résultat est donc démontré.

4.4. Estimateur sans biais

On fixe dans ce paragraphe un modèle statistique (Ω,F,P) paramétré par Θ⊂R^k. Étant donnée une fonction borélienne gsur Θà valeurs dansR^m, on appelleestimateur deg toute statistique sur le modèle à valeurs dansR^m. On dit qu’un statistiquebg: Ω→R^m est un estimateur sans biais siE^P^θ[bg] =g(θ) quel que soit θ∈Θ.

Pour tout estimateur S, on définit RM(S) comme l’application de Θ vers l’ensemble des matrices symétriques qui envoieθ∈Θen

E^P^θ[(bg−g(θ))(bg−g(θ))^τ],

appelée la matrice de risque quadratique. Sibg1 etbg2 sont deux estimateurs de g tels que R_M(bg2)−R_M(bg1) soit une matrice semi-positive, on dit quebg1 est quadratiquement préférable à bg₂. On voit aussitôt que, si bg est un estimateur

(5)

sans biais, alorsRM(bg)n’est rien d’autre que la matrice de variance-covariance de bg.

Théorème 4.4.1 (Rao-Blackwell). — Si bg est un estimateur sans biais et siSest une statistique exhaustive, alors l’estimateurbg_S=E[bg|S]est sans biais et quadratiquement préférable àg.b

Démonstration. — Bien que l’on n’a pas précisé dans l’énoncé du théorème la mesure de probabilité que l’on utilise à calculer l’espérance conditionnelle, le fait queS est une statistique exhaustive montre que cette espérance conditionnelle ne dépend pas du choix d’une mesure de probabilité dans P. En outre, commeE^P^θ[E^P^θ[g|S]] =b E^P^θ[bg] =g(θ), on obtient que la statistiquebg_S est sans biais. En outre, pour tout x∈R^m, on a

E^P^θ[(x^τ(bg−g(θ)))²] =E^P^θ[E^P^θ[(x^τ(bg−g(θ)))²|S]]>E^P^θ[(x^τ(bg_S−g(θ)))²], d’après l’inégalité de Jensen. Le théorème est donc démontré.

Dans le cas où l’information de Fisher est bien définie, le théorème suivant du à Cramer et Rao donne une minoration pour la matrice de variance-covariance d’un estimateur sans biais. Dans la suite, on suppose que le modèle statistique est dominé par une mesure σ-finie µ et on désigne par p(θ, .) la densité de Radon-Nikodym de Pθ par rapport à µ. On suppose en outre que Θ est un ouvert deR^k et que la fonction gest différentiable.

Théorème 4.4.2 (Cramer-Rao). — On suppose que l’information de Fi- sher pour le modèle statistique est bien définie. Soit bgun estimateur sans biais tel que E^P^θ[kbgk²]<+∞ pour tout θ∈Θ et que

Z

Ω

p(θ)bgdµ est différentiable en θ sous signe intégrale. Alors

cov^P^θ(bg)−Dg(θ)^τI(θ)⁻¹Dg(θ) est une matrice symétrique semi-positive.

Démonstration. — Pour toutθ∈Θ, on a Z

Ω

p(θ)bgdµ=g(θ).

On en déduit

Z

Ω

∂_θp(θ)^τbgdµ=Dg(θ),

(6)

ou encore

E^P^θ[∂_θ(lnp(θ))^τbg] =Dg(θ) Considérons le vecteur de variables aléatoires

X= (bg−g(θ))−Dg(θ)^τI(θ)⁻¹∂_θ(lnp(θ)).

Il est d’espérance nulle. Sa matrice de variance-covariance est

E^P^θ[(bg−g(θ))(bg−g(θ))^τ]−E^P^θ[(bg−g(θ))(∂_θlnp(θ))^τ(I(θ)⁻¹)^τDg(θ)]

−E^P^θ[Dg(θ)^τI(θ)⁻¹∂θ(lnp(θ))(gb−g(θ))^τ]

+E^P^θ[Dg(θ)^τI(θ)⁻¹∂_θ(lnp(θ))(∂_θlnp(θ))^τ(I(θ)⁻¹)^τDg(θ)], qui est égale à

cov^P^θ(bg)−Dg(θ)^τI(θ)⁻¹Dg(θ).

Le théorème est donc démontré.

4.5. Le maximum de vraisemblance

On considère un modèle statistique de la forme((E,E)^⊗n,(Pθ =Q^⊗n_θ )θ∈Θ)), où (Qθ)θ∈Θ est une famille de mesures de probabilité sur(E,E), qui sont absolument continues par rapport à une mesure σ-finie ν. Pour tout θ∈Θ, soit f(θ,·) la densité de Qθ par rapport à ν. Alors la densité p(θ, .) de Pθ par rapport à µ=ν^⊗nest donnée par la relation

p(θ, x1, . . . , xn) =

n

Y

i=1

f(θ, xi).

Le principe de maximum de vraisemblance consiste à maximiser la fonction de vraisemblance

(θ∈Θ)7−→`(θ, x₁, . . . , x_n) = 1

nlnp(θ, x₁, . . . , x_n) = 1 n

n

X

i=1

lnf(θ, x_i).

On suppose l’existence d’une application mesurable θ^∗ :Eⁿ→Θtelle que

`(θ^∗(x),x) = sup

θ∈Θ

`(θ,x).

On désigne par θbl’estimateur θ^∗(Y), où Y = (Y1, . . . , Yn) est la statistique d’observation.

(7)

Exemple 4.5.1. — On considère le cas où (E,E) = (R,B(R)) et Q(µ,σ) = N(µ, σ²). Dans ce cas-là la fonction de vraisemblance est donnée par

`(µ, σ,x) = 1 n

n

X

i=1

− 1

2ln(2πσ²)− 1

2σ²(xi−µ)²

.

En particulier, on a

∂

∂µ`(µ, σ,x) =−1 n

n

X

i=1

xi−µ σ² . Donc

µ^∗(x₁, . . . , x_n) = 1

n(x₁+· · ·+x_n).

L’estimateur du maximum de vraisemblance deµest donc

µb= 1

n(Y₁+· · ·+Y_n), qui est un estimateur sans biais. De façon similaire, on a

∂

∂σ`(µ, σ,x) = 1 n

n

X

i=1

− 1 σ + 1

σ³(x_i−µ)² D’où

σ^∗(x)² = 1 n

n

X

i=1

(x_i−µ^∗(x))²= 1 n

n

X

i=1

x²_i − 1 n²

n

X

i=1 n

X

j=1

x_ix_j

En particulier, on a

E[bσ²] = n−1 n σ².

Cela montre que l’estimateur bσ² de σ² n’est pas sans biais.

Exemple 4.5.2. — On considère le cas où (E,E) = (R,B(R)) et Qσ = N(0, σ²). Dans ce cas-là la fonction de vraisemblance est donnée par

`(σ,x) = 1 n

n

X

i=1

−1

2ln(2πσ²)− 1 2σ²x²_i

.

On obtient

σb² = 1 n

n

X

i=1

Y_i²,

qui est un estimateur san biais. La variance de cet estimateur est alors var(bσ²) = 1

n²(2σ⁴n) = 2σ⁴ n

(8)

Rappelons que l’information de Fisher est donnée par I(σ) =E^P^σ[∂_σlnp(σ, Y)²] =

n

X

i=1

E^Q^σ h

− 1 σ + 1

σ³Y_i²2i

= 2n σ².

On voit que la variance debσatteint la borne prédite par l’inégalité de Cramér- Lao. Cependant, si on considère l’estimateur

T = 1 n+ 2

n

X

i=1

Y_i²,

dont l’espérance est _n+2^nσ². On a

var(T) = 2nσ⁴ (n+ 2)². Donc on a

R_M(T) = 2σ⁴ n+ 2,

qui est plus petit que R_M(σb²). On en déduit queT est quadratiquement pré- férable à bσ².