Apprentissage statistique Chapitre 1 : Introduction aux statistiques

(1)

Apprentissage statistique

Chapitre 1 : Introduction aux statistiques

Lucie Le Briquer 18 février 2018

Table des matières

1 Rappels sur les lois conditionnelles 2

2 Modélisation statistique 2

3 Estimation de paramètres 3

4 Statistiques suffisantes 4

5 Estimation de paramètres 5

6 Test statistique 6

(2)

1 Rappels sur les lois conditionnelles

On se placera dans(Ω,F,P).

SoitX, Y deux variables aléatoires dans(X,X)et (Y,Y). SoitA⊂ Y.E[1^Y∈A|X]définie dans L¹(Ω). On aimerait queA7→E[1^A |X]soit une probabilité P−p.s.

On définit un noyau Markovien (ou de Markov) sur(X,Y):P tel quex∈X7→P(x, A)soit mesurable sur(X,X),∀A∈ Y et A7→P(x, A)est une probabilité∀x∈X.

Définition 1(noyau Markovien)

On dit queP un noyau de Markov sur(X,Y)est une loi conditionnelle régulière pour la loi conditionnelle deY|X si :

E[1^A |X] =P(X, A) P−p.s.

Définition 2(loi conditionnelle régulière)

SoitP une loi conditionnelle régulière pour la loiY|X. ∀g:Y−→R+ mesurable : E[g(Y)|X] =

Z

g(y)P(X, dy) Proposition 1

Remarque.On supposera dans ce cours qu’il existe toujours des versions régulières des lois conditionnelles.

2 Modélisation statistique

x₁, . . . , x_ntirages de pile-face. On veut savoir si la pièce n’est pas pipée. On suppose quex₁, . . . , x_n sont des réalisations i.i.d. de variables aléatoires sur(Ω,F).

On cherche une probabilité sur(Ω,F)qui explique le mieux nos donnéesx1, . . . , xn.

Soit(Ω, F)et (X,X)des espaces mesurables et X: Ω−→Xune variable aléatoire. P une famille de probabilités sur(Ω,F).

(Ω,F,X,X, X,P)est appelée une expérience statistique Définition 3(expérience statistique)

• On se limitera dans ce cours àX⊂R^d mesurable assez sympa (ouvert/fermé)

• En général, on prend Ω =X,F =X et X:ω7→ω

(3)

• P etX définissent une famille de lois sur(X,X). On la notePX, et pourP∈ P on note la loi deX suivantP,P^X

• Dans le cas où on se permet un nombre infini d’observations, on est dans le cadre d’une expérience statistique dite “répétée”.

(Ω,F,X^N,X^⊗^N, X,P^N)

oùP^N={ensemble des probasP|(Xi)i∈Nsoit i.i.d. de loiP∈ P}

Exemple.Ω =X={0,1}ⁿ,F =X =P(Ω). P={Ber(p)|p∈[0,1]}.

Soit P un modèle statistique pour X. P est dominé par ν mesure σ−finie sur (X,X) si

∀P∈ P, P^Xν. Définition 4

SiPest dominé parν, alors il existe une partie dénombrable deP,(Pn)n∈Ntel que la mesure Q=P2⁻ⁿP^Xn domineP.

Lemme 1

3 Estimation de paramètres

On dit queP, un modèle statistique pour X, est paramétrique s’il existe un ensemble me- surableΘ⊂R^d tel que P peut être paramétré par Θi.e. P={Pθ}_θ∈Θ.

On dit queθestidentifiable siPθ=P⁰θ⇒θ=θ⁰. Définition 5(modèle paramétrique)

Remarque.Dans les autres cas on dit P est non-paramétrique. On dit qu’une quantité ψ(P) est identifiable si elle ne dépend que deP∈ P.

SoitP un modèle surX. On appelle statistique ou estimateur toute v.a.T telle qu’il existe g:X−→R^d mesurable avecg(X) =T.

Définition 6(estimateur)

SoitT un estimateurψ(P)|θ. On définit le biais deT par : P7−→Biais(T,P) =EP[T]−ψ(P) Définition 7(biais)

On définit le coût quadratique de l’estimateur pour le paramètreψ(P)par : MSE(T,P) =EP[kT−ψ(P)k²]

Définition 8(coût quadratique)

(4)

MSE(T,P) =Biais(T,P)²+Var_P(T) Propriété 1

Preuve.

EP[kT−ψ(P)k²] =E[kT±E[T]−ψ(P)k²]

4 Statistiques suffisantes

P modèle statistique pourX. On dit queS est une statistique suffisante si la loi conditionnelle deX|S ne dépend pas deP i.e. s’il existe un noyau de MarkovK tel que∀P∈ P :

P^X|S(.) =K(S, .) Définition 9(statistique suffisante)

Exemple.(de la modélisation pile-face)

P ={Ber(p)^⊗n |p∈[0,1]}

nnombre d’observations.X₁, . . . , X_n i.i.d.∼ B(p). Un estimateur depest :

T(X1, . . . , Xn) = 1 n

n

X

i=1

Xi

Regardons le biais et la variance :

Biais(T,P) = 0 =E[T(X1, . . . , Xn)]−p Var(T(X1, . . . , Xn)) = 1

n

2X

Var(Xi) =p(1−p) n T est-il suffisant ?

Calcul de loi conditionnelle. SoientA, B∈ X,Y, on veut trouverψ tel que : E[1A(X)1B(X)] =E[1B(X)ψ_A(X)]

On identifie en général la loi conditionnelle parψ_A(X).

Exemple.Loi conditionnelle de(X1, . . . , Xn)|PXi à faire en exo.

SoientX, Y deux variables aléatoires réelles indépendantes etZ=X+Y. SoientA, B∈ B(R).

E[1A(X)1B(Z)] =E ï

1A(X)E[1B(X+Y)|X]

ò

=E[ϕ(X)]

(5)

E[ψ(X, Y)|X] =ϕ(X)où∀x ϕ(x) =E[ψ(x, Y)]Iciϕ(x) =R

R1^B(y+x)dP^Y(y). SiY ∼ N(0,1): ϕ(x) = 1

√2π Z

R

1^B(y+x) exp Å

−y² 2

ã dy

= Z

R

1B(z) exp Å

−−(z−x)² 2

ã dz

=ψB(z)

=P( ˜Z∈B) oùZ˜∼ N(x,1). On en déduit queZ|X ∼ N(X,1).

S est une statistique suffisante ssi il existe une fonction mesurable positive h: X −→ R+

telle que∀P∈ P on ait :

dP^X

dν =h×ρ_P◦g oùg(X) =S et ρ_P:R^d−→R+−mesurable.

Théorème 1(de factorisation de Fisher)

Exemple.(cas pile-face)

ν la mesure de comptage domineP. SoitPp∈ P.

Pp= (pδ1+ (1−p)δ0)^⊗n Par exemple pourn= 1,ν =δ0+δ1.

P(X1∈A) =

1

X

k=0

P(X1=k, k∈A) =X

P(X1=k, k∈A)δk(A)

dPp

dν (x₁, . . . , x_n) =Pp(X₁=x₁, . . . , X_n=x_n) =

n

Y

i=1

Pp(X_i=x_i)

=

n

Y

i=1

p^xⁱ(1−p)^1−xⁱ=pP_x

i(1−p)ⁿ⁻P_x

i

On s’intéresse à

S =

n

X

i=1

Xi=g(X1, . . . , Xn) =ρ_P_p◦g oùρ_P_p(s) =p^s(1−p)^1−s

5 Estimation de paramètres

On suppose que les observations proviennent d’une vraie loiP∗∈ P et on voudrait l’identifier.

On définit la vraisemblance comme la fonction P 7−→ ρ_P ◦X où ρ_P = ^d_dν^P^X. Dans le cas paramétrique c’est une fonctionΘ−→R+,θ7−→ρθ◦X,ρθ= ^d_dν^P^X^θ .

Définition 10(vraisemblance)

(6)

Dans le cas paramétrique, on dit qu’un estimateur θˆ est un estimateur du maximum de vraisemblance ssi

θˆ∈argmax

θ∈Θ

ρθ◦X Définition 11

6 Test statistique

P ={P0,P1}.H0=“Xa pour distributionP0”,H1=“Xa pour distributionP1”.H0est l’hypothèse nulle,H1l’hypothèse alternative.

Un test statistique est une statistiqueδ à valeurs dans{0,1}.

Définition 12

Siδ= 0on dit queH0 est acceptée, sinonH0est rejetée.

On définit deux types de risques pour un testδ.

P0(δ= 1) risque de 1ère espèce c’est le risque de rejeter à tort.

P1(δ= 0) risque de 2nde espèce c’est le risque d’accepter à tort.

On ditδest de niveauα∈(0,1) si :

P0(δ= 1)6α

soitδ, δ⁰ deux tests de niveau α, alors on dit queδest plus puissant que δ⁰ si : P1(δ= 1)>P1(δ⁰ = 1)

⇔ P¹(δ= 0)6P¹(δ⁰ = 0) Définition 13

Test de Neyman-Pearson(ou du ratio de vraisemblance)

On prendρ0etρ1les densités deP0etP1par rapport àν(=P0+P1ici). Le ratio de vraisemblance est défini par :

TL(X) =ρ1(X)/ρ0(X) On définit le test de N.-P. de seuilt∈[0,+∞]par :

δt=

ß 1 siTL>t 0 sinon

(7)

SoitP ={P0,P1}modèle statistique deX. Soitt∈[0,+∞]. On définit : αt=P0(δt= 1)

Alors, pour toutδ⁰ de niveau αt, δtest plus puissant que δ⁰. Théorème 2

Preuve.

Soity <+∞. Soitδ⁰ un test de niveauαt=P0(δt= 1). On veut montrer : P1(δ⁰= 0)>P1(δt= 0)

δ⁰ associée à une fonctiong: X−→ {0,1},δ⁰ =g(X). δt=gt(X). Dans le cas t <+∞ Pi−p.s.

surδt= 1

ρ1(X)>tρ0(X) par définition deδ_t.

P1(δ⁰= 0) = Z

10(g(x))ρ₁(x)ν(dx)±t Z

11(g(x))ρ₀(x)ν(dx)

= Z

X

1⁰(g(x))ρ1(x)ν(dx) + Z

X

1(g(x))tρ0(x)ν(dx)−P0(δ⁰= 1)

>

Z

X

10(g(x))ρ₁(x) +11(g(x))tρ₀(x)ν(dx)−α_tcarδ⁰ de niveauα_t donc la fonctionnelle :

g7−→

Z

1⁰(g(x))ρ1(x) +t1¹(g(x))ρ0(x)ν(dx) est optimale pourg=gt.

x∈X, siρ1(x)>tρ0(x)alorsδt(x) = 1

1⁰(gt(x))ρ1(x) +t1¹(gt(x))ρ0(x) = min(ρ1(x), tρ0(x)) Pareil pourδt= 0. Or

1⁰(g(x))ρ1(x) +1¹(g(x))tρ0(x)>min(ρ1(x), tρ0(x)) et ceminest atteint pourgtce qui conclue.