∼ Mémo Régression ∼
Intro : Ajustement d’un nuage de points
Objectif : On souhaite prédire et expliquer les valeurs d’une variable quantitativeY à partir des valeurs d’une variable quantitativeX. Données : On anobservations de(X, Y)notées(x1, y1), . . . ,(xn, yn).
Estimation : À partir des données, on veut estimer la liaison existante entreY etX.
Nuage de points : Ensemble des points{M1, . . . , Mn}, oùMi est le point de coordonnées(xi, yi)dansR2.
Ajustement affine : Si la silhouette du nuage de points est étirée dans une direction, une relation affine/linéaire entreY etXest envisageable.
Modèle de régression linéaire ; forme générique : Y =α+βX+, où αetβsont des coefficients inconnus etest un terme d’erreur.
Estimation : Pour toute valeurxdeX, une valeur estiméeydeY est y=a+bx, oùaetbsont des valeurs estimées deαetβ.
Ajustement : À partir des valeursxdeX, estimer avec précision les valeurs deY correspondantes revient à détermineraetbde sorte à ce que la droite d’équationy=a+bxajuste au mieux le nuage de points.
Méthodes d’ajustement : Méthode des points observés, Méthode des points moyens, Méthode des moindres carrés (et plein d’autres).
Méthode des points observés : On considère la droite passant par2 points, Mj(xj, yj) et Mk(xk, yk), choisis parmi M1, . . . , Mn. Cette droite est d’équationy=a+bxavecb= yk−yj
xk−xj
eta=yj−bxj. Méthodes des points moyens : Soient deux ensembles de points du nuage, l’un formé des points les plus à gauche, et l’autre formé des points les plus à droite. On considère la droite passant par les deux points moyens de ces ensembles : G1(x1, y1) et G2(x2, y2). Cette droite est d’équationy=a+bx, avecb=y2−y1
x2−x1
eta=y1−bx1. Méthodes des moindres carrés (ordinaires) : On considère la droite d’équationy=a+bx, avecaetbqui rendent minimale la somme des carrés :
n
X
i=1
(yi−(a+bxi))2.
Idée : Minimiser la somme des carrés des distancesdi=|yi−(a+bxi)|, longueur entreMi(xi, yi)et le pointPi(xi, a+bxi):
Outils :scex=
n
P
i=1
(xi−x)2= (n−1)s2x,scey=
n
P
i=1
(yi−y)2= (n−1)s2y, spex,y=
n
P
i=1
(xi−x)(yi−y) =
n
P
i=1
xiyi−nxy.
Formules : On a b = spex,y scex
eta = y−bx. La droite d’équation y=a+bxest appelée droite de régression.
Coefficient de corrélation linéaire : rx,y = spex,y
√scexscey
,rx,y ∈[−1,1].
Plus|rx,y|est proche de1, plus la liaison linéaire entre Y etX est forte.
On ab= sy
sx
rx,y et|rx,y|= v u ut1− 1
scey n
X
i=1
(yi−(a+bxi))2.
Exemples de nuages de points et des valeurs derx,y associées :
Ajustement non-affine : Un nuage de points peut être visuellement mieux ajusté par une courbe que par une droite.
Modèle de régression non-linéaire ; forme générique :
g(Y) =α+βf(X) +, oùαetβsont des coefficients inconnus,fetg sont des fonctions à choisir etest un terme d’erreur.
Choix des fonctions : On choisit f et g de sorte à ce que le nuage de points {(f(x1), g(y1)), . . . ,(f(xn), g(yn))} ait une silhouette très étirée dans une direction.
Estimation : Pour toute valeur xde X, une valeur estiméey deY vérifie g(y) = a+bf(x) ⇔y =g−1(a+bf(x)), où aetb sont des valeurs estimées deαetβ.
Méthodes : Une des méthodes introduites précédemment avec le nou- veau nuage de points{(f(x1), g(y1)), . . . ,(f(xn), g(yn))}.
Transition
Méthode des moindres distances : On considère la droite d’équation y=a+bx, avecaetbqui rendent minimale la somme des carrés
n
P
i=1
d2i, avecdi la distance entre le pointMi(xi, yi)et le point sur la droite mesurée de façon perpendiculaire. Il y a bien d’autres méthodes . . . Question : Pourquoi se focaliser sur la méthode des moindres carrés ?
◦ Les formules deaetbsont aisément calculables.
◦ On a des garanties théoriques sur la précision de l’ajustement.
◦ Elle s’étend à plusieurs "variables explicatives"X1, . . . , Xp. Estimateur des moindres carrés ordinaires (emco)
Objectif : On souhaite prédire et expliquer les valeurs d’une variable quantitativeY à partir des valeurs depvariablesX1, . . . , Xp. Vocabulaire : On veut "expliquerY à partir deX1, . . . , Xp",Y est une
"variable à expliquer" etX1, . . . , Xpsont des "variables explicatives".
Données : On a n observations de (Y, X1, . . . , Xp) notées
(y1, x1,1, . . . , xp,1), . . . ,(yn, x1,n, . . . , xp,n):
Y X1 . . . Xp
y1 x1,1 . . . xp,1
.. .
.. .
.. .
.. . yn x1,n . . . xp,n
Estimation : À partir des données, on veut estimer la liaison existante entreY etX1, . . . , Xp.
Modèle de régression linéaire multiple (rlm) ; forme générique : Y = β0+β1X1+. . . βpXp+, où β0, . . . , βp sont des coefficients inconnus etest un terme d’erreur.
Objectif : Estimer convenablementβ0, . . . , βpà partir des données.
Modèle derlm: On modélise les variables comme desvar,
◦ (x1,i, . . . , xp,i)est une réalisation de(X1, . . . , Xp),
◦ sachant que(X1, . . . , Xp) = (x1,i, . . . , xp,i),yi est une réalisa- tion deYi=β0+β1x1,i+. . .+βpxp,i+i, oùi est unevar indépendante deX1, . . . , XpavecE(i) = 0.
Écriture matricielle : Y =Xβ+, Y =
Y1
.. . Yn
,X=
1 x1,1 · · · xp,1
.. .
.. .
.. .
.. . 1 x1,n · · · xp,n
,β=
β0
.. . βp
,=
1
.. . n
. Emcodeβ: On posekxk2=xtx. Sous l’hypothèse qu’il soit unique, l’emcodeβest leβbqui rend minimale la somme des carrés : kY−Xβkb 2
⇔βb= (XtX)−1XtY.
Emcodeβj:βbj= [bβ]j+1est l’emcodeβj.
Christophe Chesneau Mémo Régression
Valeur moyenne : La valeur moyenne deY lorsque (X1, . . . , Xp) = (x1, . . . , xp) =xest : yx=β0+β1x1+. . .+βpxp.
Estimateur deyx: Un estimateur deyxestYbx=βb0+βb1x1+. . .+βbpxp. Emcoponctuel deβ:b= (XtX)−1Xtyavecy=
y1
.. . yn
. Emcoponctuel deβj:bj= [b]j+1est l’emcoponctuel deβ.
Estimation ponctuelle deyx:dx=b0+b1x1+. . .+bpxp. On dit que dx est la valeur prédite deY quand(X1, . . . , Xp) =x.
Coefficient de détermination :R2= 1− kXb−yk2
ky1n−yk2. On aR2∈[0,1].
PlusR2est proche de1, plus la liaison linéaire entreY etX1, . . . , Xp
est forte, plus le modèle derlmest pertinent.
Coefficient de détermination ajusté :R2= 1− n−1
n−(p+ 1)(1−R2).
Retour sur le modèle de régression linéaire simple (rls) Modèle derls: Modèle derlmavecp= 1:Y =β0+β1X1+. Emcoponctuel deβj:b= (XtX)−1Xty⇒b1=spex,y
scex
,b0=y−b1x1. Estimation deyx: dx=b0+b1x1.
Droite de régression : Droite d’équation : y=b0+b1x.
Coefficient de corrélation linéaire : rx,y= spex,y
√scexscey
. On arx,y∈[−1,1],b1= sy
sx
rx,y etrx,y2 =R2 ⇒même rôle queR2. Propriétés standards et lois associées
Hypothèses standards : On suppose que
◦ X est de rang colonnes plein,
◦ etX1, . . . , Xpsont indépendantes,
◦ ∼ Nn(0n, σ2In)oùσ >0est un paramètre inconnu.
Loi deY :Y ∼ Nn Xβ, σ2In
. Loi deβb:βb∼ Np+1 β, σ2(XtX)−1
. En particulier :
◦ βbest un estimateur sans biais deβ: Ep+1(bβ) =β,
◦ Vp+1(bβ) =σ2(XtX)−1,
◦ βbj∼ N βj, σ2[(XtX)−1]j+1,j+1 ,
◦ si[(XtX)−1]j+1,k+1= 0, alorsβbjetβbksont indépendantes.
EmvetEmco: L’emcoβbest l’emvdeβ. Il est donc fortement consis- tant et asymptotiquement efficace.
Estimateur deσ2 : Un estimateur sans biais deσ2est bσ2= 1
n−(p+ 1)kY −Xβkb 2. Il vérifie :
◦ bσ2etβbsont indépendantes,
◦ (n−(p+ 1))σb2
σ2 ∼χ2(n−(p+ 1)).
Degré de libertéν: On poseν=n−(p+ 1).
Emcoet loi de Student : βbj−βj
bσp
[(XtX)−1]j+1,j+1
∼ T(ν), Ybx−yx
bσp
x•(XtX)−1xt•
∼ T(ν).
Emcoet loi de Fisher : SoitQune matrice àp+ 1colonnes etklignes : (Qbβ−Qβ)t(Q(XtX)−1Qt)−1(Qbβ−Qβ)
kbσ2 ∼ F(k, ν).
Estimations ponctuelles : Une estimation ponctuelle de
◦ σests=
s 1
n−(p+ 1)ky−Xbk2,
◦ l’écart-type deβbjestetej=sp
[(XtX)−1]j+1,j+1,
◦ l’écart-type deYbxestetex=sp
x•(XtX)−1xt•. Résidus : e1, . . . , enavecei=yi−dxi.
Graphique des résidus : Nuage de pointsNe={(1, e1), . . . ,(n, en)}.
Validation des hypothèses standards avec le graphique des résidus :
Re(re)tour sur le modèle derls Lois deβbj:βb1∼ N
β1, σ2 1
scex
,βb0∼ N
β0, σ2
1 n+ x21
scex
. Loi deYbx:Ybx=βb0+βb1x1∼ N
yx, σ2
1
n+(x1−x1)2 scex
. Estimations ponctuelles : Une estimation ponctuelle de
◦ σests= r 1
n−2ky−Xbk2= s
(n−1)s2y(1−rx,y2 )
n−2 ,
◦ l’écart-type deβb1 estete1=s r 1
scex
,
◦ l’écart-type deβb0 estete0=s s
1 n+ x21
scex
,
◦ l’écart-type deYbx=βb0+βb1x1estetex=s s
1
n+(x1−x1)2 scex
. Intervalles et volume de confiance (niveau 100(1−α)%) Quantitétα(ν): P(|T| ≥tα(ν)) =α,T ∼ T(ν).
Intervalle de confiance pourβj:iβj = [bj−tα(ν)etej, bj+tα(ν)etej].
Intervalle de confiance pouryx:iyx= [dx−tα(ν)etex, dx+tα(ν)etex].
Volume de confiance pourQβ: SoitQune matrice àp+ 1colonnes et klignes.vQβ={u∈Rp+1; (Qb−Qu)t(Q(XtX)−1Qt)−1(Qb−Qu)≤ ks2fα(k, ν)},P(F ≥fα(k, ν)) =α,F ∼ F(k, ν).
Tests statistiques (risque100α%)
Tests statistiques pourβj:
H1 p-valeurs βj6=r P(|T| ≥ |tobs|) βj> r P(T ≥tobs) βj< r P(T ≤tobs)
,tobs=bj−r etej
,
T ∼ T(ν). Par exemple, sir= 0,H1:βj6= 0et p-valeur∈]0.001,0.01]
;∗∗, l’influence deXjsurY est très significative.
Test de Fisher : SoitQune matrice àp+ 1colonnes etklignes,H1 : Qβ6=r, p-valeur=P(F≥fobs),
fobs= (Qb−r)t(Q(XtX)−1Qt)−1(Qb−r)
ks2 ,F ∼ F(k, ν).
Test global de Fisher :H1:"il y a au moins un coefficientβjnon nul", p-valeur=P(F ≥fobs),fobs= R2
1−R2
n−(p+ 1)
p ,F∼ F(p, ν).
Comparaison de modèles : Λun sous-ensemble de{1, . . . , p}ayantk éléments, H0 :"βj = 0pour tout j ∈ Λ", p-valeur= P(F ≥fobs), fobs= ||XΛbΛ−Xb||2
ks2 ,bΛ= (XΛtXΛ)−1XΛty,F ∼ F(k, ν). S’il y a non rejet deH0, on admet que l’on peut enlever(Xj)j∈Λdu modèle.