• Aucun résultat trouvé

Apprentissage statistique Chapitre 1 : Introduction aux statistiques

N/A
N/A
Protected

Academic year: 2022

Partager "Apprentissage statistique Chapitre 1 : Introduction aux statistiques"

Copied!
7
0
0

Texte intégral

(1)

Apprentissage statistique

Chapitre 1 : Introduction aux statistiques

Lucie Le Briquer 18 février 2018

Table des matières

1 Rappels sur les lois conditionnelles 2

2 Modélisation statistique 2

3 Estimation de paramètres 3

4 Statistiques suffisantes 4

5 Estimation de paramètres 5

6 Test statistique 6

(2)

1 Rappels sur les lois conditionnelles

On se placera dans(Ω,F,P).

SoitX, Y deux variables aléatoires dans(X,X)et (Y,Y). SoitA⊂ Y.E[1Y∈A|X]définie dans L1(Ω). On aimerait queA7→E[1A |X]soit une probabilité P−p.s.

On définit un noyau Markovien (ou de Markov) sur(X,Y):P tel quex∈X7→P(x, A)soit mesurable sur(X,X),∀A∈ Y et A7→P(x, A)est une probabilité∀x∈X.

Définition 1(noyau Markovien)

On dit queP un noyau de Markov sur(X,Y)est une loi conditionnelle régulière pour la loi conditionnelle deY|X si :

E[1A |X] =P(X, A) P−p.s.

Définition 2(loi conditionnelle régulière)

SoitP une loi conditionnelle régulière pour la loiY|X. ∀g:Y−→R+ mesurable : E[g(Y)|X] =

Z

g(y)P(X, dy) Proposition 1

Remarque.On supposera dans ce cours qu’il existe toujours des versions régulières des lois conditionnelles.

2 Modélisation statistique

x1, . . . , xntirages de pile-face. On veut savoir si la pièce n’est pas pipée. On suppose quex1, . . . , xn sont des réalisations i.i.d. de variables aléatoires sur(Ω,F).

On cherche une probabilité sur(Ω,F)qui explique le mieux nos donnéesx1, . . . , xn.

Soit(Ω, F)et (X,X)des espaces mesurables et X: Ω−→Xune variable aléatoire. P une famille de probabilités sur(Ω,F).

(Ω,F,X,X, X,P)est appelée une expérience statistique Définition 3(expérience statistique)

• On se limitera dans ce cours àX⊂Rd mesurable assez sympa (ouvert/fermé)

• En général, on prend Ω =X,F =X et X:ω7→ω

(3)

• P etX définissent une famille de lois sur(X,X). On la notePX, et pourP∈ P on note la loi deX suivantP,PX

• Dans le cas où on se permet un nombre infini d’observations, on est dans le cadre d’une expérience statistique dite “répétée”.

(Ω,F,XN,XN, X,PN)

oùPN={ensemble des probasP|(Xi)i∈Nsoit i.i.d. de loiP∈ P}

Exemple.Ω =X={0,1}n,F =X =P(Ω). P={Ber(p)|p∈[0,1]}.

Soit P un modèle statistique pour X. P est dominé par ν mesure σ−finie sur (X,X) si

∀P∈ P, PXν. Définition 4

SiPest dominé parν, alors il existe une partie dénombrable deP,(Pn)n∈Ntel que la mesure Q=P2−nPXn domineP.

Lemme 1

3 Estimation de paramètres

On dit queP, un modèle statistique pour X, est paramétrique s’il existe un ensemble me- surableΘ⊂Rd tel que P peut être paramétré par Θi.e. P={Pθ}θ∈Θ.

On dit queθestidentifiable siPθ=P0θ⇒θ=θ0. Définition 5(modèle paramétrique)

Remarque.Dans les autres cas on dit P est non-paramétrique. On dit qu’une quantité ψ(P) est identifiable si elle ne dépend que deP∈ P.

SoitP un modèle surX. On appelle statistique ou estimateur toute v.a.T telle qu’il existe g:X−→Rd mesurable avecg(X) =T.

Définition 6(estimateur)

SoitT un estimateurψ(P)|θ. On définit le biais deT par : P7−→Biais(T,P) =EP[T]−ψ(P) Définition 7(biais)

On définit le coût quadratique de l’estimateur pour le paramètreψ(P)par : MSE(T,P) =EP[kT−ψ(P)k2]

Définition 8(coût quadratique)

(4)

MSE(T,P) =Biais(T,P)2+VarP(T) Propriété 1

Preuve.

EP[kT−ψ(P)k2] =E[kT±E[T]−ψ(P)k2]

4 Statistiques suffisantes

P modèle statistique pourX. On dit queS est une statistique suffisante si la loi condition- nelle deX|S ne dépend pas deP i.e. s’il existe un noyau de MarkovK tel que∀P∈ P :

PX|S(.) =K(S, .) Définition 9(statistique suffisante)

Exemple.(de la modélisation pile-face)

P ={Ber(p)⊗n |p∈[0,1]}

nnombre d’observations.X1, . . . , Xn i.i.d.∼ B(p). Un estimateur depest :

T(X1, . . . , Xn) = 1 n

n

X

i=1

Xi

Regardons le biais et la variance :

Biais(T,P) = 0 =E[T(X1, . . . , Xn)]−p Var(T(X1, . . . , Xn)) = 1

n

2X

Var(Xi) =p(1−p) n T est-il suffisant ?

Calcul de loi conditionnelle. SoientA, B∈ X,Y, on veut trouverψ tel que : E[1A(X)1B(X)] =E[1B(X)ψA(X)]

On identifie en général la loi conditionnelle parψA(X).

Exemple.Loi conditionnelle de(X1, . . . , Xn)|PXi à faire en exo.

SoientX, Y deux variables aléatoires réelles indépendantes etZ=X+Y. SoientA, B∈ B(R).

E[1A(X)1B(Z)] =E ï

1A(X)E[1B(X+Y)|X]

ò

=E[ϕ(X)]

(5)

E[ψ(X, Y)|X] =ϕ(X)où∀x ϕ(x) =E[ψ(x, Y)]Iciϕ(x) =R

R1B(y+x)dPY(y). SiY ∼ N(0,1): ϕ(x) = 1

√2π Z

R

1B(y+x) exp Å

−y2 2

ã dy

= Z

R

1B(z) exp Å

−−(z−x)2 2

ã dz

B(z)

=P( ˜Z∈B) oùZ˜∼ N(x,1). On en déduit queZ|X ∼ N(X,1).

S est une statistique suffisante ssi il existe une fonction mesurable positive h: X −→ R+

telle que∀P∈ P on ait :

dPX

dν =h×ρP◦g oùg(X) =S et ρP:Rd−→R+−mesurable.

Théorème 1(de factorisation de Fisher)

Exemple.(cas pile-face)

ν la mesure de comptage domineP. SoitPp∈ P.

Pp= (pδ1+ (1−p)δ0)⊗n Par exemple pourn= 1,ν =δ01.

P(X1∈A) =

1

X

k=0

P(X1=k, k∈A) =X

P(X1=k, k∈A)δk(A)

dPp

dν (x1, . . . , xn) =Pp(X1=x1, . . . , Xn=xn) =

n

Y

i=1

Pp(Xi=xi)

=

n

Y

i=1

pxi(1−p)1−xi=pPx

i(1−p)n−Px

i

On s’intéresse à

S =

n

X

i=1

Xi=g(X1, . . . , Xn) =ρPp◦g oùρPp(s) =ps(1−p)1−s

5 Estimation de paramètres

On suppose que les observations proviennent d’une vraie loiP∈ P et on voudrait l’identifier.

On définit la vraisemblance comme la fonction P 7−→ ρP ◦X où ρP = dPX. Dans le cas paramétrique c’est une fonctionΘ−→R+,θ7−→ρθ◦X,ρθ= dPXθ .

Définition 10(vraisemblance)

(6)

Dans le cas paramétrique, on dit qu’un estimateur θˆ est un estimateur du maximum de vraisemblance ssi

θˆ∈argmax

θ∈Θ

ρθ◦X Définition 11

6 Test statistique

P ={P0,P1}.H0=“Xa pour distributionP0”,H1=“Xa pour distributionP1”.H0est l’hypothèse nulle,H1l’hypothèse alternative.

Un test statistique est une statistiqueδ à valeurs dans{0,1}.

Définition 12

Siδ= 0on dit queH0 est acceptée, sinonH0est rejetée.

On définit deux types de risques pour un testδ.

P0(δ= 1) risque de 1ère espèce c’est le risque de rejeter à tort.

P1(δ= 0) risque de 2nde espèce c’est le risque d’accepter à tort.

On ditδest de niveauα∈(0,1) si :

P0(δ= 1)6α

soitδ, δ0 deux tests de niveau α, alors on dit queδest plus puissant que δ0 si : P1(δ= 1)>P10 = 1)

⇔ P1(δ= 0)6P10 = 0) Définition 13

Test de Neyman-Pearson(ou du ratio de vraisemblance)

On prendρ0etρ1les densités deP0etP1par rapport àν(=P0+P1ici). Le ratio de vraisemblance est défini par :

TL(X) =ρ1(X)/ρ0(X) On définit le test de N.-P. de seuilt∈[0,+∞]par :

δt=

ß 1 siTL>t 0 sinon

(7)

SoitP ={P0,P1}modèle statistique deX. Soitt∈[0,+∞]. On définit : αt=P0t= 1)

Alors, pour toutδ0 de niveau αt, δtest plus puissant que δ0. Théorème 2

Preuve.

Soity <+∞. Soitδ0 un test de niveauαt=P0t= 1). On veut montrer : P10= 0)>P1t= 0)

δ0 associée à une fonctiong: X−→ {0,1},δ0 =g(X). δt=gt(X). Dans le cas t <+∞ Pi−p.s.

surδt= 1

ρ1(X)>tρ0(X) par définition deδt.

P10= 0) = Z

10(g(x))ρ1(x)ν(dx)±t Z

11(g(x))ρ0(x)ν(dx)

= Z

X

10(g(x))ρ1(x)ν(dx) + Z

X

1(g(x))tρ0(x)ν(dx)−P00= 1)

>

Z

X

10(g(x))ρ1(x) +11(g(x))tρ0(x)ν(dx)−αtcarδ0 de niveauαt donc la fonctionnelle :

g7−→

Z

10(g(x))ρ1(x) +t11(g(x))ρ0(x)ν(dx) est optimale pourg=gt.

x∈X, siρ1(x)>tρ0(x)alorsδt(x) = 1

10(gt(x))ρ1(x) +t11(gt(x))ρ0(x) = min(ρ1(x), tρ0(x)) Pareil pourδt= 0. Or

10(g(x))ρ1(x) +11(g(x))tρ0(x)>min(ρ1(x), tρ0(x)) et ceminest atteint pourgtce qui conclue.

Références

Documents relatifs

Loi d’une variable al´eatoire Fonction de r´epartition empirique pr´ecision d’estimation.. MAP 433 : Introduction

Exemple : On place aléatoirement des boules dans deux sacs A et B , de telle manière que chacun des deux sacs a une chance sur deux de recevoir une boule, et une chance sur deux de

Dans ce cadre, on va chercher à prédire le prochain label Y d’une nouvelle observation X.. Moralement, on veut donc comprendre la dépendance entre X

[r]

Le graphique des fréquences cumulatives doit toujours atteindre la valeur n, soit le nombre total de données brutes (117 dans cet exemple). Pour donner un exemple où le nombre

L’essentiel de ces calculs de dénombrement « tourne » autour du résultat classique concernant le nombre d’applications d’un ensemble fini dans un autre ensemble fini?. Dans

Le processus itératif appliqué lors du développement de la structure d’un modèle peut être comparé à ce qui se passe dans un laboratoire ou dans un tunnel où les

Au sens large, un modèle prévisionnel a pour fonction, à partir de la connaissance d’un système dans des situations données, d’inférer son comportement dans des situations