• Aucun résultat trouvé

Apprentissage statistique TD1 : Modèle statistique

N/A
N/A
Protected

Academic year: 2022

Partager "Apprentissage statistique TD1 : Modèle statistique"

Copied!
2
0
0

Texte intégral

(1)

Apprentissage statistique TD1 : Modèle statistique

Lucie Le Briquer 9 janvier 2018

Exercice 1 Modèle :

Y =x1β1+. . .+xdβd+ε∈R

On supposeεcentrée et de variance bornée.nréalisations de ce modèle indépendantes àxfixé.

1. Modèle statistique : Ω =Rn,F =B(Rn),Y = (Y1, . . . , Yn),

P = (

Pproba sur(Rn,B(Rn)|E[Yi] =

d

X

j=1

xjiβj, E[Yi2]<+∞, (Yi)16i6n idp sousP )

2.

P ={Px,β,σ2 =N(xβ, σ2In)oùxest la matrice(xji)i,j} P est dominé par la mesure de Lebesgue et les densités associées sont :

αexp Å

−ky−xβk22

ã

3. Pour tout(y1, x1i, . . . , xdi)16i6n montrons que : inf

β∈Rd

X(yi−(xβ)i)2= min(. . .)

Soitρ(β) =ky−xβk2,ρest convexe. On considèreV ⊂Rn défini par : V ={z |z=xβ, β∈Rd}

On a :

inf

β∈Rd

ρ(β) = inf

z∈Vky−zk2= min

z∈V ky−zk2

atteint enz=pV(y)(la projection orthogonale deysurV) carV est un sev de dimension finie.

1

(2)

Remarque. βˆn(x1. . . xn, y1. . . yn)est l’EMV deβ dans le modèle gaussien.

4. On suppose maintenant xinjective,d6 n. Montrons que∀(x, y) ∈R(d+1)n, l’estimateur des moindres carrés est unique et donné par :

βˆn(x, y) = (xTx)−1xTy

1ère étape.Montrons quexTxest inversible. Soitβ∈Ker(xTx).xTxβ= 0alorsβTxTxβ= 0 i.e.kxβk2= 0 doncxβ= 0⇒β= 0carxinjective.

2nde étape.On a plusieurs solutions :

(a) Sixest injective alorsρest fortement convexe i.e.∇2ρ(β)>0∀β ∈Rd. Doncρadmet un unique minimum tel que ∇f(β) = 0i.e.−2xTy+ 2xTxβ= 0ainsi forcément :

β= (xTx)−1xy

(b) Montrons que le minimum est unique et queβˆn atteint le minimum.

(c) Caractérisation de la projection orthogonale :z=pV(y)ssi∀˜z∈V, hy−z,zi˜ = 0 5. On se place maintenant dans le cas gaussien etxTxinversible,d6n. On définit le vecteur

des résidus comme : ˆ

εn(Y) =Y −xβˆn= In−x(xTx)−1 Y Y ∼ N(xβ, Inσ2),βˆn∼ N (xTx)−1xTxβ, σ2(xTx)−1

carxTxest symétrique donc(xTx)−1 aussi on donc on a la loi deβˆn.

ˆ

εn(Y)∼ N

0, σ2(In−x(xTx)−1xT)2

B projection ? Soit z∈Rn.Bz∈V,β projecteur surF sev deV. Il suffit de montrer que

∀z∈V,Bz=z.z∈V,∃β ∈Rd tel quez=xβ βxβ =x(xTx)−1xTx

| {z }

=id

β=xβ=x

DoncF =V. Conclusion,β projecteur et id−β aussi.

6. Un estimateur deβ estβˆn. Un estimateur deσ2?

E[kεˆnkn] =σ2Tr(I−B) =σ2(n−d) Un estimateur de σ2est n−dεnk2.

7. β¯ est dit linéaire si β¯(Y) = AY pour A ∈ Md,n(R), E[ ¯β] = β. Montrons qu’il existe R définie positive telle que :

Cov( ¯βA) =Cov( ˆβn) +R

Solution : comme β¯A est non biaisé,E[ ¯β] =β, or E[ ¯β] =E[AY] =AE[Y] =Axβ. Ainsi, Axβ=β.

Cov( ¯βA) =E

(AY −β)(AY −β)

=ACov(Y)AT

2

Références

Documents relatifs

Dans ce cadre, on va chercher à prédire le prochain label Y d’une nouvelle observation X.. Moralement, on veut donc comprendre la dépendance entre X

Dorénavant on suppose que l’on a une famille convexe de classifieurs

La convergence en probabilité est beaucoup

Les choix de méthodes, de modèles, sont complexes à opérer et se dé- clinent en sous-objectifs qui restreignent où précisent les classes de modèles à considérer. L’objectif

Ceci nous paraît éclairer le faux débat sur la « taille » de O à partir de laquelle un problème serait non paramétrique. S’il. admet une limite projective avec

une procédure statistique presque sûrement consistante pour ~, alors la famille est fortement séparée pour la d ouvert de

Par exemple, la classification de données de très grande dimension ou la classification de données corrélées sont des problèmes particulièrement présents en analyse d’images

Les choix de méthodes, de modèles, sont complexes à opérer et se dé- clinent en sous-objectifs qui restreignent où précisent les classes de modèles à considérer. L’objectif