Apprentissage statistique
Chapitre 1 : Introduction aux statistiques
Lucie Le Briquer 18 février 2018
Table des matières
1 Rappels sur les lois conditionnelles 2
2 Modélisation statistique 2
3 Estimation de paramètres 3
4 Statistiques suffisantes 4
5 Estimation de paramètres 5
6 Test statistique 6
1 Rappels sur les lois conditionnelles
On se placera dans(Ω,F,P).
SoitX, Y deux variables aléatoires dans(X,X)et (Y,Y). SoitA⊂ Y.E[1Y∈A|X]définie dans L1(Ω). On aimerait queA7→E[1A |X]soit une probabilité P−p.s.
On définit un noyau Markovien (ou de Markov) sur(X,Y):P tel quex∈X7→P(x, A)soit mesurable sur(X,X),∀A∈ Y et A7→P(x, A)est une probabilité∀x∈X.
Définition 1(noyau Markovien)
On dit queP un noyau de Markov sur(X,Y)est une loi conditionnelle régulière pour la loi conditionnelle deY|X si :
E[1A |X] =P(X, A) P−p.s.
Définition 2(loi conditionnelle régulière)
SoitP une loi conditionnelle régulière pour la loiY|X. ∀g:Y−→R+ mesurable : E[g(Y)|X] =
Z
g(y)P(X, dy) Proposition 1
Remarque.On supposera dans ce cours qu’il existe toujours des versions régulières des lois conditionnelles.
2 Modélisation statistique
x1, . . . , xntirages de pile-face. On veut savoir si la pièce n’est pas pipée. On suppose quex1, . . . , xn sont des réalisations i.i.d. de variables aléatoires sur(Ω,F).
On cherche une probabilité sur(Ω,F)qui explique le mieux nos donnéesx1, . . . , xn.
Soit(Ω, F)et (X,X)des espaces mesurables et X: Ω−→Xune variable aléatoire. P une famille de probabilités sur(Ω,F).
(Ω,F,X,X, X,P)est appelée une expérience statistique Définition 3(expérience statistique)
• On se limitera dans ce cours àX⊂Rd mesurable assez sympa (ouvert/fermé)
• En général, on prend Ω =X,F =X et X:ω7→ω
• P etX définissent une famille de lois sur(X,X). On la notePX, et pourP∈ P on note la loi deX suivantP,PX
• Dans le cas où on se permet un nombre infini d’observations, on est dans le cadre d’une expérience statistique dite “répétée”.
(Ω,F,XN,X⊗N, X,PN)
oùPN={ensemble des probasP|(Xi)i∈Nsoit i.i.d. de loiP∈ P}
Exemple.Ω =X={0,1}n,F =X =P(Ω). P={Ber(p)|p∈[0,1]}.
Soit P un modèle statistique pour X. P est dominé par ν mesure σ−finie sur (X,X) si
∀P∈ P, PXν. Définition 4
SiPest dominé parν, alors il existe une partie dénombrable deP,(Pn)n∈Ntel que la mesure Q=P2−nPXn domineP.
Lemme 1
3 Estimation de paramètres
On dit queP, un modèle statistique pour X, est paramétrique s’il existe un ensemble me- surableΘ⊂Rd tel que P peut être paramétré par Θi.e. P={Pθ}θ∈Θ.
On dit queθestidentifiable siPθ=P0θ⇒θ=θ0. Définition 5(modèle paramétrique)
Remarque.Dans les autres cas on dit P est non-paramétrique. On dit qu’une quantité ψ(P) est identifiable si elle ne dépend que deP∈ P.
SoitP un modèle surX. On appelle statistique ou estimateur toute v.a.T telle qu’il existe g:X−→Rd mesurable avecg(X) =T.
Définition 6(estimateur)
SoitT un estimateurψ(P)|θ. On définit le biais deT par : P7−→Biais(T,P) =EP[T]−ψ(P) Définition 7(biais)
On définit le coût quadratique de l’estimateur pour le paramètreψ(P)par : MSE(T,P) =EP[kT−ψ(P)k2]
Définition 8(coût quadratique)
MSE(T,P) =Biais(T,P)2+VarP(T) Propriété 1
Preuve.
EP[kT−ψ(P)k2] =E[kT±E[T]−ψ(P)k2]
4 Statistiques suffisantes
P modèle statistique pourX. On dit queS est une statistique suffisante si la loi condition- nelle deX|S ne dépend pas deP i.e. s’il existe un noyau de MarkovK tel que∀P∈ P :
PX|S(.) =K(S, .) Définition 9(statistique suffisante)
Exemple.(de la modélisation pile-face)
P ={Ber(p)⊗n |p∈[0,1]}
nnombre d’observations.X1, . . . , Xn i.i.d.∼ B(p). Un estimateur depest :
T(X1, . . . , Xn) = 1 n
n
X
i=1
Xi
Regardons le biais et la variance :
Biais(T,P) = 0 =E[T(X1, . . . , Xn)]−p Var(T(X1, . . . , Xn)) = 1
n
2X
Var(Xi) =p(1−p) n T est-il suffisant ?
Calcul de loi conditionnelle. SoientA, B∈ X,Y, on veut trouverψ tel que : E[1A(X)1B(X)] =E[1B(X)ψA(X)]
On identifie en général la loi conditionnelle parψA(X).
Exemple.Loi conditionnelle de(X1, . . . , Xn)|PXi à faire en exo.
SoientX, Y deux variables aléatoires réelles indépendantes etZ=X+Y. SoientA, B∈ B(R).
E[1A(X)1B(Z)] =E ï
1A(X)E[1B(X+Y)|X]
ò
=E[ϕ(X)]
E[ψ(X, Y)|X] =ϕ(X)où∀x ϕ(x) =E[ψ(x, Y)]Iciϕ(x) =R
R1B(y+x)dPY(y). SiY ∼ N(0,1): ϕ(x) = 1
√2π Z
R
1B(y+x) exp Å
−y2 2
ã dy
= Z
R
1B(z) exp Å
−−(z−x)2 2
ã dz
=ψB(z)
=P( ˜Z∈B) oùZ˜∼ N(x,1). On en déduit queZ|X ∼ N(X,1).
S est une statistique suffisante ssi il existe une fonction mesurable positive h: X −→ R+
telle que∀P∈ P on ait :
dPX
dν =h×ρP◦g oùg(X) =S et ρP:Rd−→R+−mesurable.
Théorème 1(de factorisation de Fisher)
Exemple.(cas pile-face)
ν la mesure de comptage domineP. SoitPp∈ P.
Pp= (pδ1+ (1−p)δ0)⊗n Par exemple pourn= 1,ν =δ0+δ1.
P(X1∈A) =
1
X
k=0
P(X1=k, k∈A) =X
P(X1=k, k∈A)δk(A)
dPp
dν (x1, . . . , xn) =Pp(X1=x1, . . . , Xn=xn) =
n
Y
i=1
Pp(Xi=xi)
=
n
Y
i=1
pxi(1−p)1−xi=pPx
i(1−p)n−Px
i
On s’intéresse à
S =
n
X
i=1
Xi=g(X1, . . . , Xn) =ρPp◦g oùρPp(s) =ps(1−p)1−s
5 Estimation de paramètres
On suppose que les observations proviennent d’une vraie loiP∗∈ P et on voudrait l’identifier.
On définit la vraisemblance comme la fonction P 7−→ ρP ◦X où ρP = ddνPX. Dans le cas paramétrique c’est une fonctionΘ−→R+,θ7−→ρθ◦X,ρθ= ddνPXθ .
Définition 10(vraisemblance)
Dans le cas paramétrique, on dit qu’un estimateur θˆ est un estimateur du maximum de vraisemblance ssi
θˆ∈argmax
θ∈Θ
ρθ◦X Définition 11
6 Test statistique
P ={P0,P1}.H0=“Xa pour distributionP0”,H1=“Xa pour distributionP1”.H0est l’hypothèse nulle,H1l’hypothèse alternative.
Un test statistique est une statistiqueδ à valeurs dans{0,1}.
Définition 12
Siδ= 0on dit queH0 est acceptée, sinonH0est rejetée.
On définit deux types de risques pour un testδ.
P0(δ= 1) risque de 1ère espèce c’est le risque de rejeter à tort.
P1(δ= 0) risque de 2nde espèce c’est le risque d’accepter à tort.
On ditδest de niveauα∈(0,1) si :
P0(δ= 1)6α
soitδ, δ0 deux tests de niveau α, alors on dit queδest plus puissant que δ0 si : P1(δ= 1)>P1(δ0 = 1)
⇔ P1(δ= 0)6P1(δ0 = 0) Définition 13
Test de Neyman-Pearson(ou du ratio de vraisemblance)
On prendρ0etρ1les densités deP0etP1par rapport àν(=P0+P1ici). Le ratio de vraisemblance est défini par :
TL(X) =ρ1(X)/ρ0(X) On définit le test de N.-P. de seuilt∈[0,+∞]par :
δt=
ß 1 siTL>t 0 sinon
SoitP ={P0,P1}modèle statistique deX. Soitt∈[0,+∞]. On définit : αt=P0(δt= 1)
Alors, pour toutδ0 de niveau αt, δtest plus puissant que δ0. Théorème 2
Preuve.
Soity <+∞. Soitδ0 un test de niveauαt=P0(δt= 1). On veut montrer : P1(δ0= 0)>P1(δt= 0)
δ0 associée à une fonctiong: X−→ {0,1},δ0 =g(X). δt=gt(X). Dans le cas t <+∞ Pi−p.s.
surδt= 1
ρ1(X)>tρ0(X) par définition deδt.
P1(δ0= 0) = Z
10(g(x))ρ1(x)ν(dx)±t Z
11(g(x))ρ0(x)ν(dx)
= Z
X
10(g(x))ρ1(x)ν(dx) + Z
X
1(g(x))tρ0(x)ν(dx)−P0(δ0= 1)
>
Z
X
10(g(x))ρ1(x) +11(g(x))tρ0(x)ν(dx)−αtcarδ0 de niveauαt donc la fonctionnelle :
g7−→
Z
10(g(x))ρ1(x) +t11(g(x))ρ0(x)ν(dx) est optimale pourg=gt.
x∈X, siρ1(x)>tρ0(x)alorsδt(x) = 1
10(gt(x))ρ1(x) +t11(gt(x))ρ0(x) = min(ρ1(x), tρ0(x)) Pareil pourδt= 0. Or
10(g(x))ρ1(x) +11(g(x))tρ0(x)>min(ρ1(x), tρ0(x)) et ceminest atteint pourgtce qui conclue.