• Aucun résultat trouvé

Cours 06 R´ egression lin´ eaire

N/A
N/A
Protected

Academic year: 2022

Partager "Cours 06 R´ egression lin´ eaire"

Copied!
2
0
0

Texte intégral

(1)

Universit´ e de Nice L1MASS, ann´ ee 2015-2016

D´ epartement de Math´ ematiques Statistique

Cours 06 egression lin´ eaire

1 Nuage et droite

Dans ce chapitre nous abordons la question de la comparaison de deux (ou plusieurs caract` eres) x et y, pour un mˆ eme individu en consid´ erant les propri´ et´ es du nuage des points M

i

= (x

i

, y

i

). La commande plot(x,y,pch=3) permet de repr´ esenter ce nuage ; si on a plus de deux caract` eres pour un mˆ eme individu on peut repr´ esenter les nuages de caract` eres deux-` a-deux au moyen de la commande

pairs(~x+y+z,data=MonTableau, main="Matrice des nuages deux ` a deux") en d´ efinissant au pr´ ealable MonTableau par MonTableau=data.frame(x,y,z).

14 16 18 20 22

141822

x

y

x

14 16 18 20 22

1422

1422

y

14 16 18 20 22 160 180 200

160200

z Matrice des nuages deux à deux

14 16 18 20 22

141822

x

y

Le centre de gravit´ e du nuage est la moyenne de ses points. Pour le nuages des x et y c’est donc le point (¯ x, y) =(mean(x),mean(y)). Nous abordons ici la question de choisir un ¯ mod` ele lin´ eaire dans le cas o` u ce nuage semble s’´ etirer le long d’une droite, comme c’est le cas dans les exemples ci-dessus.

2 esidus

Choisir un mod` ele lin´ eaire de y sur x revient ` a choisir a et b tels que pour tout (x

i

, y

i

), y

i

= ax

i

+ b + ϵ

i

. On dit qu’on r´ egresse les y

i

sur les x

i

, et les ϵ

i

sont les esidus pour cette r´ egression ˆ y = ax + b, ou encore Res= ϵ, et Res=y-(a*x+b). Le choix des a at b est tel que Res est n´ ecessairement de moyenne mean(Res) ´ egale

`

a 0. On a choisi de repr´ esenter les r´ esidus de la r´ egression des z sur les x car ils sont plus grands que ceux de la r´ egression des y sur les x : cette diff´ erence se voit aussi sur leurs histogramme et leurs boite ` a moustaches.

14 16 18 20 22

160190

x

z

14 16 18 20 22

−20020

x

Res_z2x

−2 −1 0 1 2

−20−1001020

Q−Q−plot gaussien des Res_z2x

Theoretical Quantiles

Sample Quantiles

Histogram of Res_z2x

Res_z2x

Frequency

−20 −10 0 10 20

02040

1 2

−20020

−2 −1 0 1 2

−2−101

Q−Q−plot gaussien des Res_y2x

Theoretical Quantiles

Sample Quantiles

Sous R la commande lm permet de produire cette r´ egression (choix de a et b), comme dans l’exemple suivant : DteReg y sur x=lm(y~x,data=MonTableau), qui permets ensuite d’obtenir la repr´ esentation de la droite de r´ egression au moyen d’une commande telle que abline(coef(DteReg y sur x),col="blue").

1

(2)

Les valeurs pr´ edites par le mod` ele lin´ eaire : y2x[i]= ˆ y

i

= ax

i

+ b. Elles sont donn´ ees par la commande y2x= fitted (DteReg y sur x) dans le premier exemple du cours.

Les esidus : Res[i]= ϵ

i

= y

i

y ˆ

i

Les a et b sont choisis de mani` ere ` a minimiser la somme des carr´ es des r´ esidus ∑

n

i=1

ϵ

2i

. Soit φ(a, b) cette somme : φ(a, b) =

n

i=1

ϵ

2i

=

n

i=1

(y

i

ax

i

b)

2

=

n

i=1

y

i2

+ a

2

n

i=1

x

2i

+ nb

2

2a

n

i=1

x

i

y

i

2b

n

i=1

y

i

+ 2ab

n

i=1

x

i

.

Pour que cette fonction soit minimale, il faut qu’elle le soit tant du point de vue de a que de b, et donc les deux d´ eriv´ ees (partielles) doivent ˆ etre nulles

∂φ∂a

= 0 =

∂φ∂b

; ce qui nous donne les deux ´ equations 0 =

∂φ∂a

= 2a ∑

n

i=1

x

2i

2 ∑

n

i=1

x

i

y

i

+ 2b ∑

n

i=1

x

i

et 0 =

∂φ∂b

= 2nb 2 ∑

n

i=1

y

i

+ a

n

i=1

x

i

. Notons ¯ x =

n1

n

i=1

x

i

et ¯ y =

1 n

n

i=1

y

i

les moyennes des x et des y. La deuxi` eme ´ equation donne alors b = ¯ y x , et la premi` ere ´ equation 0 = a

n

i=1

x

2i

n

i=1

x

i

y

i

+ (¯ y x)n¯ x = a(

n

i=1

x

2i

x

2

) ( ∑

n

i=1

x

i

y

i

y), d’o` u a =

n

i=1

x

i

y

i

y

n

i=1

x

2i

x

2

. Au prochain cours nous d´ efinirons (enfin) les notions de variance Var (x) d’un ´ echantillon x et covariance cov (x, y) de deux ´ echantillons x et y et cette derni` ere formule pourra encore s’´ ecrire a = cov (x, y)/Var (x).

Normalit´ e des r´ esidus : Il y a de bonne raison pour esp´ erer que les r´ esidus d’une r´ egression forment un

´

echantillon gaussien (on dit aussi qu’ils r´ esultent d’un “bruit” tel que des erreurs d’arrondis). Un peut examiner cette hypoth` ese en comparant les quantiles des r´ esidus avec ceux d’une loi normale au moyen de qqnorm. C’est ce qui a ´ et´ e reproduit sur la figure, o` u on a not´ e Res y2x et Res z2x les r´ esidus des regressions de y et de z sur x. Pour la r´ egression de y sur x nous retrouvons l’artefact d´ ej` a observ´ e que les d´ ecimales 0 et 5 dans la mesure en centim` etres ont ´ et´ e favoris´ ees, peut-ˆ etre parce que certaines personnes charg´ ees de proc´ eder aux mesures des empans ont renonc´ e ` a la pr´ ecision du millim` etre et se sont limit´ ees ` a la pr´ ecision du demi-centim` etre.

3 esum´ e

Le code utilis´ e comporte ` a la fois des commandes R d´ ej` a connues et des commandes nouvelles, qui elles-mˆ eme se divisent en commandes de type gestion graphique, et des commandes sp´ ecifiques ` a la notion de statistique qui est l’objet de ce cours : la r´ egression lin´ eaire ; il y a aussi quelques commandes de manipulation de donn´ ees qui seront approfondies plus tard : nous pensons que vous pouvez commencer ` a les utiliser en mimant les exemples. Il y a enfin des noms de variables, choisis de fa¸ con ` a ˆ etre facilement m´ emoris´ es, mais dont le choix est totalement arbitraire. C’est un bon exercice de distinguer ces trois derniers types, en soulignant/stabilotant de fa¸con distincte ces trois derniers types (r´ eservez le stabilo ` a la r´ egression lin´ eaire).

Regression lin´ eaire

lm Exemple : DteReg y sur x=lm(y~ x,data=MonTableau). Effectue la r´ egression des y sur les x.

coef Exemple : coef(DteReg y sur x). Retournes les coefficients b =Intercept et a.

abline Exemple : abline(coef(DteReg y sur x),col="blue"). Ajoute la droite de r´ egression.

fitted Exemple : y2x=fitted(DteReg y sur x). Retourne le vecteurs des valeurs ˆ y

i

que pr´ edit le mod` ele pour chaque x

i

=x[i] de l’´ echantillon x ; les diff´ erences avec les valeurs mesur´ ees y s’appellent les r´ esidus du mod` ele.

Commandes graphiques

plot Exemple : plot(x,z,type="p",pch=8) : dessine le nuage de points.

points Exemple : points(mean(x ),mean(y ),col="white",pch=19) : ajoute un ou des points, ici le centre de gravit´ e du nuage.

windows Exemple : windows() : ouvre et active une nouvelle fenˆ etre.

dev.cur Exemple : dev.cur() : r´ ecup` ere le num´ ero de la fenˆ etre active.

dev.set Exemple : dev.set(2) : active la fenˆ etre 2.

Commandes qui seront revues plus tard

data.frame Exemple : MonTableau =data.frame(x,y,z )

pairs Exemple : pairs(~x +y +z,data=MonTableau, main="Matrice des nuages deux ` a deux "). Donne le scatter-plot des ´ echantillons x , y et z

Les noms de variables utilis´ ees

Ce sont x , y, z qui sont les noms des ´ echantillons utilis´ es, MonTableau qui est le tableau (data.frame) constitu´ e de ces trois ´ echantillons, DteReg y sur x qui est le r´ esultat de la r´ egression lin´ eaire des y sur les x, DteReg z sur x , idem pour les z, y2x et z2x sont, pour l’´ echantillon x, les valeurs qui seraient pr´ edites par le mod` ele lin´ eaire y = a

1

x + b

1

et z = a

2

x + b

2

. Enfin Res z2x , et Res y2x sont les r´ esidus des deux r´ egressions.

2

Références

Documents relatifs

attach(x) place l’objet x dans l’itinéraire de recherche; x peut être une liste, un tableau de données ou un objet créé à l’aide de la fonction savex. detach(x) ôte l’objet

Ceci entraîne une rotation à droite autour de l’axe de ………. Le braquage du palonnier vers

La commande ls affiche tout d'abord l'ensemble de ses arguments fichier autres que des répertoires, puis affiche l'ensemble des fichiers contenus dans

Pour faire évoluer les formulations des élèves de la colonne de gauche à la colonne de droite, l’enseignant demande aux élèves d’expliquer pourquoi ça marche

Pour faire évoluer les formulations des élèves de la colonne de gauche à la colonne de droite, l’enseignant demande aux élèves d’expliquer pourquoi ça

Entraînement direct de ce qui a été travaillé dans le jeu des commandes, dans un autre contexte déjà connu des élèves (cubes multi base).. Cependant on introduit une

Souhaitant améliorer l'inviolabilité de ses cartons et faciliter leur ouverture chez ses clients, l'entreprise a fait appel à SMURFIT KAPPA pour la mise en place, dans son entrepôt

Selon l’invention, on prévoit un ensemble colleoteur d ’amenée de l'eau de refroidissement pour réacteur nucléaire, comprenant une pluralité de tubes sous- collecteurs