TP 3 : Régression linéaire

(1)

Université Paris 13, Institut Galilée Préparation à l’agrégation Année universitaire 2013-2014

TP 3 : Régression linéaire

1 Rappels de théorie (cf. poly)

On suppose que l’on dispose de donnéesx₁, . . . ,x_n∈R^p ety₁, . . . ,y_n ∈Rliées par une relation de la forme yk=f(xk) +εk,

oùf(x) = ^tax+b est une fonction affineR^p →R inconnue etε1, . . . ,εn sont des erreurs de mesures, inconnues elles aussi. L’objectif est de déterminer la fonctionf à partir des données.

Sous forme matricielle, ceci s’écrit

Y =XΘ +ε, où

Y =





 y1

... y_n





, X =







1 x1,1 · · · x1,p

1 x2,1 · · · x2,p

· · · 1 x_n,1 · · · x_n,p





 , Θ =





 b a1

... a_p





 , ε=





 ε1

... ε_n





.

Pour queΘsoit défini de façon unique, il faut queX soit une matrice injective, donc de rang maximalrg(X) =p+ 1.

En particulier, il faut bien sûrn≥p+ 1.

On peut considérer ce modèle de façon probabiliste :εest aléatoire, et par suiteY aussi, tandis queX etΘsont fixés.

Le modèle a notamment des propriétés intéressantes lorsqueε₁, . . . ,ε_n sont indépendantes et de même loi N(0,σ²).

On cherche le vecteurΘb qui minimisekY −XΘkb ₂, autrement dit la fonction affinefbqui minimiseP

k|y_k−fb(xk)|². C‘est l’« estimateur des moindres carrés », ou « régression linéaire ».

Calcul de Θ.b Par définition, XΘb est la projection orthogonale de Y sur E= Im(X). Autrement dit,Y =XΘ +b Z oùZ⊥E. On a donc^tXZ= 0d’où

tXY =^tXXΘ,b

et l’hypothèse kerX ={0} implique que^tXX est inversible (si^tXXu= 0, alors0 =^tu^tXXu=kXuk² d’oùXu= 0 puisu= 0), donc

Θ = (b ^tXX)⁻¹(^tX)Y.

Le cas où lesx_k sont réels (p= 1) admet une expression simple : alorsΘ =b

bb ba

avec

ba= Cov(x,y)

Var(x) =xy−x y x²−x² oùz= _n¹Pn

k=1zk (aveczk =xkyk,xk, etc.), etbbse déduit dey=bax+bb.

Cas gaussien.Siε∼ N(0,σ²I_n), alorsY ∼ N(XΘ,σ²I_n). Ainsi, pour touty∈Rⁿ, la densité deY enyvautf_Θ(y) = (2πσ²)^−n/2e^−ky−XΘk²^/(2σ²⁾et est maximale (comme fonction deΘ) quandky−XΘk²est minimale : l’estimateur des moindres carrés est aussi ici l’estimateur du maximum de vraisemblance.

On poseYb =XΘ =b P_E(Y). On aY −Yb =P_E⊥(Y), donc le théorème de Cochran montre queY−Yb est indépendant deYb (et donc deΘ), et queb kY −Ybk²₂suit la loiχ²_n−(p+1). En particulier, la variable aléatoire

bσ²= kY −Ybk² n−(p+ 1)

est un estimateur sans biais deσ². On pourrait aussi déduire des régions de confiance pourΘ(voir poly).

1

(2)

2 Dans Scilab

Si Xest une matrice de taille (p,n)dont les colonnes sont les différentes donnéesxk, et Yest un vecteur colonne de taille n,[a,b]=reglin(X,Y) renvoie le vecteur ligne aet le réelb tels quea*X+b est l’estimateur deY au moindres carrés.

De plus,[a,b,s]=reglin(x,y)permet d’obtenir égalementbσ.

NB. L’exposé précédent utilise la présentation usuelle en statistique Y = XΘ +ε, tandis que Scilab considère le modèle équivalentY =aX+b+ε, ce qui revient à transposer X, sans ajouter une série de 1, et à avoir^tΘ = b a

.

1) Pourn= 50et p= 1: prendreX=1:n; Y=2*X-7+grand(1,n,"nor",0,0.3), et retrouver les coefficients 2 et−7 par reglin, puis par les formules précédentes. Calculerbσet comparer avec la valeur fournie parreglin.

2) Pour n = 50 et p = 2 : partir de X=[(1:n);(1:n)^2]; Y=[2 -1]*X+5+grand(1,n,"nor",0,0.3), et adapter les questions précédentes.

3) Calculer les 100 premiers termes de la suite(u_n)_n≥0définie par récurrence paru₀= 1puisu_n+1 = sin(u_n). Représenter graphiquement log(u_n) en fonction de logn; qu’est-ce que ceci suggère ? Utiliser reglin pour deviner l’ordre de grandeur deu_n. Comparer graphiquement cette estimation avec la suiteu_n.

2