• Aucun résultat trouvé

Apprentissage statistique TD1 : Modèle statistique

N/A
N/A
Protected

Academic year: 2022

Partager "Apprentissage statistique TD1 : Modèle statistique"

Copied!
2
0
0

Texte intégral

(1)

Apprentissage statistique TD1 : Modèle statistique

Lucie Le Briquer 9 janvier 2018

Exercice 1 Modèle :

Y =x1β1+. . .+xdβd+ε∈R

On supposeεcentrée et de variance bornée.nréalisations de ce modèle indépendantes àxfixé.

1. Modèle statistique : Ω =Rn,F =B(Rn),Y = (Y1, . . . , Yn),

P = (

Pproba sur(Rn,B(Rn)|E[Yi] =

d

X

j=1

xjiβj, E[Yi2]<+∞, (Yi)16i6n idp sousP )

2.

P ={Px,β,σ2 =N(xβ, σ2In)oùxest la matrice(xji)i,j} P est dominé par la mesure de Lebesgue et les densités associées sont :

αexp Å

−ky−xβk22

ã

3. Pour tout(y1, x1i, . . . , xdi)16i6n montrons que : inf

β∈Rd

X(yi−(xβ)i)2= min(. . .)

Soitρ(β) =ky−xβk2,ρest convexe. On considèreV ⊂Rn défini par : V ={z |z=xβ, β∈Rd}

On a :

inf

β∈Rd

ρ(β) = inf

z∈Vky−zk2= min

z∈V ky−zk2

atteint enz=pV(y)(la projection orthogonale deysurV) carV est un sev de dimension finie.

1

(2)

Remarque. βˆn(x1. . . xn, y1. . . yn)est l’EMV deβ dans le modèle gaussien.

4. On suppose maintenant xinjective,d6 n. Montrons que∀(x, y) ∈R(d+1)n, l’estimateur des moindres carrés est unique et donné par :

βˆn(x, y) = (xTx)−1xTy

1ère étape.Montrons quexTxest inversible. Soitβ∈Ker(xTx).xTxβ= 0alorsβTxTxβ= 0 i.e.kxβk2= 0 doncxβ= 0⇒β= 0carxinjective.

2nde étape.On a plusieurs solutions :

(a) Sixest injective alorsρest fortement convexe i.e.∇2ρ(β)>0∀β ∈Rd. Doncρadmet un unique minimum tel que ∇f(β) = 0i.e.−2xTy+ 2xTxβ= 0ainsi forcément :

β= (xTx)−1xy

(b) Montrons que le minimum est unique et queβˆn atteint le minimum.

(c) Caractérisation de la projection orthogonale :z=pV(y)ssi∀˜z∈V, hy−z,zi˜ = 0 5. On se place maintenant dans le cas gaussien etxTxinversible,d6n. On définit le vecteur

des résidus comme : ˆ

εn(Y) =Y −xβˆn= In−x(xTx)−1 Y Y ∼ N(xβ, Inσ2),βˆn∼ N (xTx)−1xTxβ, σ2(xTx)−1

carxTxest symétrique donc(xTx)−1 aussi on donc on a la loi deβˆn.

ˆ

εn(Y)∼ N

0, σ2(In−x(xTx)−1xT)2

B projection ? Soit z∈Rn.Bz∈V,β projecteur surF sev deV. Il suffit de montrer que

∀z∈V,Bz=z.z∈V,∃β ∈Rd tel quez=xβ βxβ =x(xTx)−1xTx

| {z }

=id

β=xβ=x

DoncF =V. Conclusion,β projecteur et id−β aussi.

6. Un estimateur deβ estβˆn. Un estimateur deσ2?

E[kεˆnkn] =σ2Tr(I−B) =σ2(n−d) Un estimateur de σ2est n−dεnk2.

7. β¯ est dit linéaire si β¯(Y) = AY pour A ∈ Md,n(R), E[ ¯β] = β. Montrons qu’il existe R définie positive telle que :

Cov( ¯βA) =Cov( ˆβn) +R

Solution : comme β¯A est non biaisé,E[ ¯β] =β, or E[ ¯β] =E[AY] =AE[Y] =Axβ. Ainsi, Axβ=β.

Cov( ¯βA) =E

(AY −β)(AY −β)

=ACov(Y)AT

2

Références

Documents relatifs

Les choix de méthodes, de modèles, sont complexes à opérer et se dé- clinent en sous-objectifs qui restreignent où précisent les classes de modèles à considérer. L’objectif

Les choix de méthodes, de modèles, sont complexes à opérer et se dé- clinent en sous-objectifs qui restreignent où précisent les classes de modèles à considérer. L’objectif

Dans ce cadre, on va chercher à prédire le prochain label Y d’une nouvelle observation X.. Moralement, on veut donc comprendre la dépendance entre X

Dorénavant on suppose que l’on a une famille convexe de classifieurs

La convergence en probabilité est beaucoup

Ceci nous paraît éclairer le faux débat sur la « taille » de O à partir de laquelle un problème serait non paramétrique. S’il. admet une limite projective avec

une procédure statistique presque sûrement consistante pour ~, alors la famille est fortement séparée pour la d ouvert de

Par exemple, la classification de données de très grande dimension ou la classification de données corrélées sont des problèmes particulièrement présents en analyse d’images