• Aucun résultat trouvé

∼ Mémo Régression ∼

N/A
N/A
Protected

Academic year: 2022

Partager "∼ Mémo Régression ∼"

Copied!
2
0
0

Texte intégral

(1)

∼ Mémo Régression ∼

Intro : Ajustement d’un nuage de points

Objectif : On souhaite prédire et expliquer les valeurs d’une variable quantitativeY à partir des valeurs d’une variable quantitativeX. Données : On anobservations de(X, Y)notées(x1, y1), . . . ,(xn, yn).

Estimation : À partir des données, on veut estimer la liaison existante entreY etX.

Nuage de points : Ensemble des points{M1, . . . , Mn}, oùMi est le point de coordonnées(xi, yi)dansR2.

Ajustement affine : Si la silhouette du nuage de points est étirée dans une direction, une relation affine/linéaire entreY etXest envisageable.

Modèle de régression linéaire ; forme générique : Y =α+βX+, où αetβsont des coefficients inconnus etest un terme d’erreur.

Estimation : Pour toute valeurxdeX, une valeur estiméeydeY est y=a+bx, oùaetbsont des valeurs estimées deαetβ.

Ajustement : À partir des valeursxdeX, estimer avec précision les valeurs deY correspondantes revient à détermineraetbde sorte à ce que la droite d’équationy=a+bxajuste au mieux le nuage de points.

Méthodes d’ajustement : Méthode des points observés, Méthode des points moyens, Méthode des moindres carrés (et plein d’autres).

Méthode des points observés : On considère la droite passant par2 points, Mj(xj, yj) et Mk(xk, yk), choisis parmi M1, . . . , Mn. Cette droite est d’équationy=a+bxavecb= yk−yj

xk−xj

eta=yj−bxj. Méthodes des points moyens : Soient deux ensembles de points du nuage, l’un formé des points les plus à gauche, et l’autre formé des points les plus à droite. On considère la droite passant par les deux points moyens de ces ensembles : G1(x1, y1) et G2(x2, y2). Cette droite est d’équationy=a+bx, avecb=y2−y1

x2−x1

eta=y1−bx1. Méthodes des moindres carrés (ordinaires) : On considère la droite d’équationy=a+bx, avecaetbqui rendent minimale la somme des carrés :

n

X

i=1

(yi−(a+bxi))2.

Idée : Minimiser la somme des carrés des distancesdi=|yi−(a+bxi)|, longueur entreMi(xi, yi)et le pointPi(xi, a+bxi):

Outils :scex=

n

P

i=1

(xi−x)2= (n−1)s2x,scey=

n

P

i=1

(yi−y)2= (n−1)s2y, spex,y=

n

P

i=1

(xi−x)(yi−y) =

n

P

i=1

xiyi−nxy.

Formules : On a b = spex,y scex

eta = y−bx. La droite d’équation y=a+bxest appelée droite de régression.

Coefficient de corrélation linéaire : rx,y = spex,y

√scexscey

,rx,y ∈[−1,1].

Plus|rx,y|est proche de1, plus la liaison linéaire entre Y etX est forte.

On ab= sy

sx

rx,y et|rx,y|= v u ut1− 1

scey n

X

i=1

(yi−(a+bxi))2.

Exemples de nuages de points et des valeurs derx,y associées :

Ajustement non-affine : Un nuage de points peut être visuellement mieux ajusté par une courbe que par une droite.

Modèle de régression non-linéaire ; forme générique :

g(Y) =α+βf(X) +, oùαetβsont des coefficients inconnus,fetg sont des fonctions à choisir etest un terme d’erreur.

Choix des fonctions : On choisit f et g de sorte à ce que le nuage de points {(f(x1), g(y1)), . . . ,(f(xn), g(yn))} ait une silhouette très étirée dans une direction.

Estimation : Pour toute valeur xde X, une valeur estiméey deY vérifie g(y) = a+bf(x) ⇔y =g−1(a+bf(x)), où aetb sont des valeurs estimées deαetβ.

Méthodes : Une des méthodes introduites précédemment avec le nou- veau nuage de points{(f(x1), g(y1)), . . . ,(f(xn), g(yn))}.

Transition

Méthode des moindres distances : On considère la droite d’équation y=a+bx, avecaetbqui rendent minimale la somme des carrés

n

P

i=1

d2i, avecdi la distance entre le pointMi(xi, yi)et le point sur la droite mesurée de façon perpendiculaire. Il y a bien d’autres méthodes . . . Question : Pourquoi se focaliser sur la méthode des moindres carrés ?

◦ Les formules deaetbsont aisément calculables.

◦ On a des garanties théoriques sur la précision de l’ajustement.

◦ Elle s’étend à plusieurs "variables explicatives"X1, . . . , Xp. Estimateur des moindres carrés ordinaires (emco)

Objectif : On souhaite prédire et expliquer les valeurs d’une variable quantitativeY à partir des valeurs depvariablesX1, . . . , Xp. Vocabulaire : On veut "expliquerY à partir deX1, . . . , Xp",Y est une

"variable à expliquer" etX1, . . . , Xpsont des "variables explicatives".

Données : On a n observations de (Y, X1, . . . , Xp) notées

(y1, x1,1, . . . , xp,1), . . . ,(yn, x1,n, . . . , xp,n):

Y X1 . . . Xp

y1 x1,1 . . . xp,1

.. .

.. .

.. .

.. . yn x1,n . . . xp,n

Estimation : À partir des données, on veut estimer la liaison existante entreY etX1, . . . , Xp.

Modèle de régression linéaire multiple (rlm) ; forme générique : Y = β01X1+. . . βpXp+, où β0, . . . , βp sont des coefficients inconnus etest un terme d’erreur.

Objectif : Estimer convenablementβ0, . . . , βpà partir des données.

Modèle derlm: On modélise les variables comme desvar,

◦ (x1,i, . . . , xp,i)est une réalisation de(X1, . . . , Xp),

◦ sachant que(X1, . . . , Xp) = (x1,i, . . . , xp,i),yi est une réalisa- tion deYi01x1,i+. . .+βpxp,i+i, oùi est unevar indépendante deX1, . . . , XpavecE(i) = 0.

Écriture matricielle : Y =Xβ+, Y =

 Y1

.. . Yn

,X=

1 x1,1 · · · xp,1

.. .

.. .

.. .

.. . 1 x1,n · · · xp,n

,β=

 β0

.. . βp

,=

1

.. . n

. Emcodeβ: On posekxk2=xtx. Sous l’hypothèse qu’il soit unique, l’emcodeβest leβbqui rend minimale la somme des carrés : kY−Xβkb 2

⇔βb= (XtX)−1XtY.

Emcodeβj:βbj= [bβ]j+1est l’emcodeβj.

Christophe Chesneau Mémo Régression

(2)

Valeur moyenne : La valeur moyenne deY lorsque (X1, . . . , Xp) = (x1, . . . , xp) =xest : yx01x1+. . .+βpxp.

Estimateur deyx: Un estimateur deyxestYbx=βb0+βb1x1+. . .+βbpxp. Emcoponctuel deβ:b= (XtX)−1Xtyavecy=

 y1

.. . yn

. Emcoponctuel deβj:bj= [b]j+1est l’emcoponctuel deβ.

Estimation ponctuelle deyx:dx=b0+b1x1+. . .+bpxp. On dit que dx est la valeur prédite deY quand(X1, . . . , Xp) =x.

Coefficient de détermination :R2= 1− kXb−yk2

ky1n−yk2. On aR2∈[0,1].

PlusR2est proche de1, plus la liaison linéaire entreY etX1, . . . , Xp

est forte, plus le modèle derlmest pertinent.

Coefficient de détermination ajusté :R2= 1− n−1

n−(p+ 1)(1−R2).

Retour sur le modèle de régression linéaire simple (rls) Modèle derls: Modèle derlmavecp= 1:Y =β01X1+. Emcoponctuel deβj:b= (XtX)−1Xty⇒b1=spex,y

scex

,b0=y−b1x1. Estimation deyx: dx=b0+b1x1.

Droite de régression : Droite d’équation : y=b0+b1x.

Coefficient de corrélation linéaire : rx,y= spex,y

√scexscey

. On arx,y∈[−1,1],b1= sy

sx

rx,y etrx,y2 =R2 ⇒même rôle queR2. Propriétés standards et lois associées

Hypothèses standards : On suppose que

◦ X est de rang colonnes plein,

◦ etX1, . . . , Xpsont indépendantes,

◦ ∼ Nn(0n, σ2In)oùσ >0est un paramètre inconnu.

Loi deY :Y ∼ Nn Xβ, σ2In

. Loi deβb:βb∼ Np+1 β, σ2(XtX)−1

. En particulier :

◦ βbest un estimateur sans biais deβ: Ep+1(bβ) =β,

◦ Vp+1(bβ) =σ2(XtX)−1,

◦ βbj∼ N βj, σ2[(XtX)−1]j+1,j+1 ,

◦ si[(XtX)−1]j+1,k+1= 0, alorsβbjetβbksont indépendantes.

EmvetEmco: L’emcoβbest l’emvdeβ. Il est donc fortement consis- tant et asymptotiquement efficace.

Estimateur deσ2 : Un estimateur sans biais deσ2est bσ2= 1

n−(p+ 1)kY −Xβkb 2. Il vérifie :

◦ bσ2etβbsont indépendantes,

◦ (n−(p+ 1))σb2

σ2 ∼χ2(n−(p+ 1)).

Degré de libertéν: On poseν=n−(p+ 1).

Emcoet loi de Student : βbj−βj

bσp

[(XtX)−1]j+1,j+1

∼ T(ν), Ybx−yx

bσp

x(XtX)−1xt

∼ T(ν).

Emcoet loi de Fisher : SoitQune matrice àp+ 1colonnes etklignes : (Qbβ−Qβ)t(Q(XtX)−1Qt)−1(Qbβ−Qβ)

kbσ2 ∼ F(k, ν).

Estimations ponctuelles : Une estimation ponctuelle de

◦ σests=

s 1

n−(p+ 1)ky−Xbk2,

◦ l’écart-type deβbjestetej=sp

[(XtX)−1]j+1,j+1,

◦ l’écart-type deYbxestetex=sp

x(XtX)−1xt. Résidus : e1, . . . , enavecei=yi−dxi.

Graphique des résidus : Nuage de pointsNe={(1, e1), . . . ,(n, en)}.

Validation des hypothèses standards avec le graphique des résidus :

Re(re)tour sur le modèle derls Lois deβbj:βb1∼ N

β1, σ2 1

scex

,βb0∼ N

β0, σ2

1 n+ x21

scex

. Loi deYbx:Ybx=βb0+βb1x1∼ N

yx, σ2

1

n+(x1−x1)2 scex

. Estimations ponctuelles : Une estimation ponctuelle de

◦ σests= r 1

n−2ky−Xbk2= s

(n−1)s2y(1−rx,y2 )

n−2 ,

◦ l’écart-type deβb1 estete1=s r 1

scex

,

◦ l’écart-type deβb0 estete0=s s

1 n+ x21

scex

,

◦ l’écart-type deYbx=βb0+βb1x1estetex=s s

1

n+(x1−x1)2 scex

. Intervalles et volume de confiance (niveau 100(1−α)%) Quantitétα(ν): P(|T| ≥tα(ν)) =α,T ∼ T(ν).

Intervalle de confiance pourβj:iβj = [bj−tα(ν)etej, bj+tα(ν)etej].

Intervalle de confiance pouryx:iyx= [dx−tα(ν)etex, dx+tα(ν)etex].

Volume de confiance pourQβ: SoitQune matrice àp+ 1colonnes et klignes.v={u∈Rp+1; (Qb−Qu)t(Q(XtX)−1Qt)−1(Qb−Qu)≤ ks2fα(k, ν)},P(F ≥fα(k, ν)) =α,F ∼ F(k, ν).

Tests statistiques (risque100α%)

Tests statistiques pourβj:

H1 p-valeurs βj6=r P(|T| ≥ |tobs|) βj> r P(T ≥tobs) βj< r P(T ≤tobs)

,tobs=bj−r etej

,

T ∼ T(ν). Par exemple, sir= 0,H1j6= 0et p-valeur∈]0.001,0.01]

;∗∗, l’influence deXjsurY est très significative.

Test de Fisher : SoitQune matrice àp+ 1colonnes etklignes,H1 : Qβ6=r, p-valeur=P(F≥fobs),

fobs= (Qb−r)t(Q(XtX)−1Qt)−1(Qb−r)

ks2 ,F ∼ F(k, ν).

Test global de Fisher :H1:"il y a au moins un coefficientβjnon nul", p-valeur=P(F ≥fobs),fobs= R2

1−R2

n−(p+ 1)

p ,F∼ F(p, ν).

Comparaison de modèles : Λun sous-ensemble de{1, . . . , p}ayantk éléments, H0 :"βj = 0pour tout j ∈ Λ", p-valeur= P(F ≥fobs), fobs= ||XΛbΛ−Xb||2

ks2 ,bΛ= (XΛtXΛ)−1XΛty,F ∼ F(k, ν). S’il y a non rejet deH0, on admet que l’on peut enlever(Xj)j∈Λdu modèle.

Christophe Chesneau Mémo Régression

Références

Documents relatifs

Cela signifie que si l’on imagine les points du nuage placés (avec leurs poids correspondants) sur une plaque horizontal, il suffit de placer une tige vertical sous le plateau en

L’extrémité A de la poutre n’étant pas fixée sur le tablier du camion, elle glisse vers l’arrière avec une vitesse de 0,6 m/s par rapport au camion quand celui-ci se met

Je sbjppóse tihré 1 lin'ttMIt &amp;&amp;trfc elifcmm. 'Soif M un de ses points. Je substilue à la courbe une ligne brisée inscrite* partant de A et finissant en B, dont je rabats

En effet, tout chemin ApqB ne passant pas par le point M coupe les petits cercles en p et q\ or le plus court chemin de A en p est égal au plus court chemin de A en M (lemme connu),

Voici la composition de l’équipe de France lors d’un match amical.. Représenter le nuage de points dans

Calculer le poids moyen et la taille moyenne et placer le point correspondant (en rouge). Représenter les nuages de points en choisissant judicieusement

— Si K est un compact contenu dans R, propre pour une suite de Sidon réelle A , alors, pour tout procédé régulier de sommation A, l'ensemble des points exceptionnels de K est

Nous avons donc établi que tout point fini de F(E^, E.j) est situé dans un domaine choisi suffisamment petit, où F se compose d'un nombre pair d'arcs de Jordan, munis en chaque point