∼ Mémo Régression ∼

(1)

∼ Mémo Régression ∼

Intro : Ajustement d’un nuage de points

Objectif : On souhaite prédire et expliquer les valeurs d’une variable quantitativeY à partir des valeurs d’une variable quantitativeX. Données : On anobservations de(X, Y)notées(x1, y1), . . . ,(xn, yn).

Estimation : À partir des données, on veut estimer la liaison existante entreY etX.

Nuage de points : Ensemble des points{M₁, . . . , Mn}, oùMi est le point de coordonnées(xi, yi)dansR².

Ajustement affine : Si la silhouette du nuage de points est étirée dans une direction, une relation affine/linéaire entreY etXest envisageable.

Modèle de régression linéaire ; forme générique : Y =α+βX+, où αetβsont des coefficients inconnus etest un terme d’erreur.

Estimation : Pour toute valeurxdeX, une valeur estiméeydeY est y=a+bx, oùaetbsont des valeurs estimées deαetβ.

Ajustement : À partir des valeursxdeX, estimer avec précision les valeurs deY correspondantes revient à détermineraetbde sorte à ce que la droite d’équationy=a+bxajuste au mieux le nuage de points.

Méthodes d’ajustement : Méthode des points observés, Méthode des points moyens, Méthode des moindres carrés (et plein d’autres).

Méthode des points observés : On considère la droite passant par2 points, Mj(xj, yj) et Mk(xk, yk), choisis parmi M1, . . . , Mn. Cette droite est d’équationy=a+bxavecb= y_k−yj

xk−xj

eta=yj−bxj. Méthodes des points moyens : Soient deux ensembles de points du nuage, l’un formé des points les plus à gauche, et l’autre formé des points les plus à droite. On considère la droite passant par les deux points moyens de ces ensembles : G1(x1, y₁) et G2(x2, y₂). Cette droite est d’équationy=a+bx, avecb=y₂−y₁

x2−x1

eta=y₁−bx1. Méthodes des moindres carrés (ordinaires) : On considère la droite d’équationy=a+bx, avecaetbqui rendent minimale la somme des carrés :

n

X

i=1

(yi−(a+bxi))².

Idée : Minimiser la somme des carrés des distancesdi=|y_i−(a+bx_i)|, longueur entreMi(xi, yi)et le pointPi(xi, a+bxi):

Outils :scex=

n

P

i=1

(xi−x)²= (n−1)s²_x,scey=

n

P

i=1

(yi−y)²= (n−1)s²_y, spe_x,y=

n

P

i=1

(xi−x)(yi−y) =

n

P

i=1

xiyi−nxy.

Formules : On a b = spe_x,y scex

eta = y−bx. La droite d’équation y=a+bxest appelée droite de régression.

Coefficient de corrélation linéaire : rx,y = spe_x,y

√scexscey

,rx,y ∈[−1,1].

Plus|rx,y|est proche de1, plus la liaison linéaire entre Y etX est forte.

On ab= sy

sx

rx,y et|rx,y|= v u ut1− 1

scey n

X

i=1

(yi−(a+bxi))².

Exemples de nuages de points et des valeurs derx,y associées :

Ajustement non-affine : Un nuage de points peut être visuellement mieux ajusté par une courbe que par une droite.

Modèle de régression non-linéaire ; forme générique :

g(Y) =α+βf(X) +, oùαetβsont des coefficients inconnus,fetg sont des fonctions à choisir etest un terme d’erreur.

Choix des fonctions : On choisit f et g de sorte à ce que le nuage de points {(f(x1), g(y1)), . . . ,(f(xn), g(yn))} ait une silhouette très étirée dans une direction.

Estimation : Pour toute valeur xde X, une valeur estiméey deY vérifie g(y) = a+bf(x) ⇔y =g⁻¹(a+bf(x)), où aetb sont des valeurs estimées deαetβ.

Méthodes : Une des méthodes introduites précédemment avec le nou- veau nuage de points{(f(x1), g(y1)), . . . ,(f(xn), g(yn))}.

Transition

Méthode des moindres distances : On considère la droite d’équation y=a+bx, avecaetbqui rendent minimale la somme des carrés

n

P

i=1

d²_i, avecdi la distance entre le pointMi(xi, yi)et le point sur la droite mesurée de façon perpendiculaire. Il y a bien d’autres méthodes . . . Question : Pourquoi se focaliser sur la méthode des moindres carrés ?

◦ Les formules deaetbsont aisément calculables.

◦ On a des garanties théoriques sur la précision de l’ajustement.

◦ Elle s’étend à plusieurs "variables explicatives"X1, . . . , Xp. Estimateur des moindres carrés ordinaires (emco)

Objectif : On souhaite prédire et expliquer les valeurs d’une variable quantitativeY à partir des valeurs depvariablesX1, . . . , Xp. Vocabulaire : On veut "expliquerY à partir deX1, . . . , Xp",Y est une

"variable à expliquer" etX1, . . . , Xpsont des "variables explicatives".

Données : On a n observations de (Y, X1, . . . , Xp) notées

(y1, x1,1, . . . , xp,1), . . . ,(yn, x1,n, . . . , xp,n):

Y X1 . . . Xp

y1 x1,1 . . . xp,1

.. .

.. . yn x1,n . . . xp,n

Estimation : À partir des données, on veut estimer la liaison existante entreY etX1, . . . , Xp.

Modèle de régression linéaire multiple (rlm) ; forme générique : Y = β0+β1X1+. . . βpXp+, où β0, . . . , βp sont des coefficients inconnus etest un terme d’erreur.

Objectif : Estimer convenablementβ0, . . . , βpà partir des données.

Modèle derlm: On modélise les variables comme desvar,

◦ (x1,i, . . . , xp,i)est une réalisation de(X1, . . . , Xp),

◦ sachant que(X1, . . . , Xp) = (x1,i, . . . , xp,i),yi est une réalisa- tion deYi=β0+β1x1,i+. . .+βpxp,i+i, oùi est unevar indépendante deX1, . . . , XpavecE(i) = 0.

Écriture matricielle : Y =Xβ+, Y =





 Y1

.. . Yn





,X=







1 x1,1 · · · xp,1

.. .

.. . 1 x1,n · · · xp,n





,β=





 β0

.. . βp





,=





 1

.. . n





. Emcodeβ: On posekxk²=x^tx. Sous l’hypothèse qu’il soit unique, l’emcodeβest leβbqui rend minimale la somme des carrés : kY−Xβkb ²

⇔βb= (X^tX)⁻¹X^tY.

Emcodeβj:βbj= [bβ]j+1est l’emcodeβj.

Christophe Chesneau Mémo Régression

(2)

Valeur moyenne : La valeur moyenne deY lorsque (X1, . . . , Xp) = (x1, . . . , xp) =xest : yx=β0+β1x1+. . .+βpxp.

Estimateur deyx: Un estimateur deyxestYbx=βb0+βb1x1+. . .+βbpxp. Emcoponctuel deβ:b= (X^tX)⁻¹X^tyavecy=





 y1

.. . yn





. Emcoponctuel deβj:bj= [b]j+1est l’emcoponctuel deβ.

Estimation ponctuelle deyx:dx=b0+b1x1+. . .+bpxp. On dit que dx est la valeur prédite deY quand(X1, . . . , Xp) =x.

Coefficient de détermination :R²= 1− kXb−yk²

ky1_n−yk². On aR²∈[0,1].

PlusR²est proche de1, plus la liaison linéaire entreY etX1, . . . , Xp

est forte, plus le modèle derlmest pertinent.

Coefficient de détermination ajusté :R²= 1− n−1

n−(p+ 1)(1−R²).

Retour sur le modèle de régression linéaire simple (rls) Modèle derls: Modèle derlmavecp= 1:Y =β0+β1X1+. Emcoponctuel deβj:b= (X^tX)⁻¹X^ty⇒b1=spe_x,y

scex

,b0=y−b1x1. Estimation deyx: dx=b0+b1x1.

Droite de régression : Droite d’équation : y=b0+b1x.

Coefficient de corrélation linéaire : rx,y= spe_x,y

√scexscey

. On arx,y∈[−1,1],b1= sy

sx

rx,y etr_x,y² =R² ⇒même rôle queR². Propriétés standards et lois associées

Hypothèses standards : On suppose que

◦ X est de rang colonnes plein,

◦ etX1, . . . , Xpsont indépendantes,

◦ ∼ N_n(0n, σ²In)oùσ >0est un paramètre inconnu.

Loi deY :Y ∼ N_n Xβ, σ²In

. Loi deβb:βb∼ N_p+1 β, σ²(X^tX)⁻¹

. En particulier :

◦ βbest un estimateur sans biais deβ: Ep+1(bβ) =β,

◦ Vp+1(bβ) =σ²(X^tX)⁻¹,

◦ βbj∼ N βj, σ²[(X^tX)⁻¹]j+1,j+1 ,

◦ si[(X^tX)⁻¹]j+1,k+1= 0, alorsβbjetβbksont indépendantes.

EmvetEmco: L’emcoβbest l’emvdeβ. Il est donc fortement consis- tant et asymptotiquement efficace.

Estimateur deσ² : Un estimateur sans biais deσ²est bσ²= 1

n−(p+ 1)kY −Xβkb ². Il vérifie :

◦ bσ²etβbsont indépendantes,

◦ (n−(p+ 1))σb²

σ² ∼χ²(n−(p+ 1)).

Degré de libertéν: On poseν=n−(p+ 1).

Emcoet loi de Student : βbj−βj

bσp

[(X^tX)⁻¹]j+1,j+1

∼ T(ν), Ybx−yx

bσp

x•(X^tX)⁻¹x^t•

∼ T(ν).

Emcoet loi de Fisher : SoitQune matrice àp+ 1colonnes etklignes : (Qbβ−Qβ)^t(Q(X^tX)⁻¹Q^t)⁻¹(Qbβ−Qβ)

kbσ² ∼ F(k, ν).

Estimations ponctuelles : Une estimation ponctuelle de

◦ σests=

s 1

n−(p+ 1)ky−Xbk²,

◦ l’écart-type deβbjestetej=sp

[(X^tX)⁻¹]j+1,j+1,

◦ l’écart-type deYbxestetex=sp

x•(X^tX)⁻¹x^t•. Résidus : e1, . . . , enavecei=yi−dx_i.

Graphique des résidus : Nuage de pointsN_e={(1, e₁), . . . ,(n, en)}.

Validation des hypothèses standards avec le graphique des résidus :

Re(re)tour sur le modèle derls Lois deβbj:βb1∼ N

β1, σ² 1

scex

,βb0∼ N

β0, σ²

1 n+ x²₁

scex

. Loi deYbx:Ybx=βb0+βb1x1∼ N

yx, σ²

1

n+(x1−x1)² scex

. Estimations ponctuelles : Une estimation ponctuelle de

◦ σests= r 1

n−2ky−Xbk²= s

(n−1)s²_y(1−r_x,y² )

n−2 ,

◦ l’écart-type deβb1 estete1=s r 1

scex

,

◦ l’écart-type deβb0 estete0=s s

1 n+ x²₁

scex

,

◦ l’écart-type deYbx=βb0+βb1x1estetex=s s

1

n+(x1−x1)² scex

. Intervalles et volume de confiance (niveau 100(1−α)%) Quantitétα(ν): P(|T| ≥tα(ν)) =α,T ∼ T(ν).

Intervalle de confiance pourβj:i_β_j = [bj−tα(ν)etej, bj+tα(ν)etej].

Intervalle de confiance pouryx:iy_x= [dx−tα(ν)etex, dx+tα(ν)etex].

Volume de confiance pourQβ: SoitQune matrice àp+ 1colonnes et klignes.vQβ={u∈R^p+1; (Qb−Qu)^t(Q(X^tX)⁻¹Q^t)⁻¹(Qb−Qu)≤ ks²fα(k, ν)},P(F ≥fα(k, ν)) =α,F ∼ F(k, ν).

Tests statistiques (risque100α%)

Tests statistiques pourβj:

H1 p-valeurs βj6=r P(|T| ≥ |t_obs|) βj> r P(T ≥tobs) βj< r P(T ≤tobs)

,tobs=bj−r etej

,

T ∼ T(ν). Par exemple, sir= 0,H1:βj6= 0et p-valeur∈]0.001,0.01]

;∗∗, l’influence deXjsurY est très significative.

Test de Fisher : SoitQune matrice àp+ 1colonnes etklignes,H1 : Qβ6=r, p-valeur=P(F≥f_obs),

fobs= (Qb−r)^t(Q(X^tX)⁻¹Q^t)⁻¹(Qb−r)

ks² ,F ∼ F(k, ν).

Test global de Fisher :H1:"il y a au moins un coefficientβjnon nul", p-valeur=P(F ≥fobs),fobs= R²

1−R²

n−(p+ 1)

p ,F∼ F(p, ν).

Comparaison de modèles : Λun sous-ensemble de{1, . . . , p}ayantk éléments, H0 :"βj = 0pour tout j ∈ Λ", p-valeur= P(F ≥fobs), fobs= ||XΛbΛ−Xb||²

ks² ,bΛ= (X_Λ^tXΛ)⁻¹X_Λ^ty,F ∼ F(k, ν). S’il y a non rejet deH0, on admet que l’on peut enlever(Xj)j∈Λdu modèle.