• Aucun résultat trouvé

Modèle linéaire Rappel du cours de L3

N/A
N/A
Protected

Academic year: 2022

Partager "Modèle linéaire Rappel du cours de L3"

Copied!
9
0
0

Texte intégral

(1)

Modèle linéaire Rappel du cours de L3

Master 1, EURIA Année 2020-2021

Le modèle linéaire gaussien fait partie des méthodes de "régression". L’objectif général de la régression est d’expliquer une variableY, dite réponse, variable exogène ou variable à expliquer, en fonction de p variablesX1, ..., Xp, dites variables explicatives ou endogènes. On dispose d’observations de ces variables surnindividus, c’est à dire d’un tableau de données de la forme :

y1 x1,1 x1,2 . . . x1,p y2 x2,1 x2,2 . . . x2,p

... ... ... ... ... yn xn,1 xn,2 . . . xn,p

Table1 – Lignes : individus, Colonnes : variables

La première colonne est la variable à prédire à partir des variables explicatives données dans les p dernières colonnes. Historiquement, le terme "régression" a été introduit dans un article de Galton (1896) pour décrire le fait que les individus "‘extrêmes (par exemple très grands) vont avoir tendance à avoir des enfants plus proches de la moyenne qu’eux (donc seront moins grands, "régression" vers la moyenne).

1 Modèle de régression linéaire

Dans le modèle de régression linéaire la variable à expliquer se décompose comme la somme d’une fonction linéaire des prédicteurs et d’un résidu aléatoire.

Définition. Le modèle de régression linéaire (appelémodèle linéairedans la suite) s’écrit Yi =β0+β1xi,1+β2xi,2+. . . βpxi,p+Wi

avec(W1, ..., Wn)des variables aléatoires i.i.d. vérifiant E[Wi] = 0etvar(Wi) =σ2<∞.

Sous les hypothèses du modèle linéaire, on obtient que (Y1, ..., Yn)est une échantillon de variables indépendantes vérifiant

E[Yi] =β0+β1xi,1+β2xi,2+. . . βpxi,p,

var(Yi) =σ2.

Le modèle se récrit sous la forme matricielle

Y =+W

(2)

avecY = (Y1, ..., Yn),β= (β0, β1, ..., βp),W = (W1, ..., Wn) et

X =





1 x1,1 x1,2 . . . x1,p

1 x2,1 x2,2 . . . x2,p

... ... ... ... ... 1 xn,1 xn,2 . . . xn,p



.

En particulier, on obtient queE[Y] = etvar(Y) =σ2In.

Remarque. 1. Dans la suite du cours, les lettres majuscules représentent généralement des variables aléatoires, les lettres minuscules des valeurs numériques et les lettres grecques des paramètres inconnus. Une exception :X est une matrice (déterministe) et pas une variable aléatoire !

2. La première colonne est le vecteure= (1, ...,1) (avec qui désigne la transposition).

3. Lorsque le nombre de variables explicatives estp= 1, alors on parle de "régression linéaire simple". Lorsque p >1, alors on parle de "régression linéaire multiple".

Afin de pouvoir construire des intervalles de confiances (IC) ou réaliser des tests d’hypothèse, on suppose généralement que les résidus suivent une loi normale, c’est à dire que Wi∼ N(0, σ2). On parle alors demodèle de régression linéaire gaussienou (modèle linéaire Gaussien).

Définition. Le modèle linéaire gaussien s’écrit

Yi =β0+β1xi,1+β2xi,2+. . . βpxi,p+Wi

avecW1, ..., Wn)iidN(0, σ2).

Remarque. Sous les hypothèses du modèle linéaire gaussien, on aW ∼ N(0, σ2In)et doncY est un vecteur gaussien

Y =+W ∼ N(Xβ, σ2In).

2 Estimation des paramètres (résidus quelconque)

2.1 Méthode des moindres carrés (Gauss (1795), Legendre (1805))

Les paramètres (β0, ..., βp)sont généralement estimés par laméthode des moindres carrésqui consiste à chercher l’hyperplan d’équation

y=b0+b1x1..., bpxp

qui passe "le plus près" des données.

Plus précisément, notons

F(b) =

n i=1

(yi−b0−b1xi,1−. . .−bpxi,p)2.

β est alors estimé par la valeur des paramètresˆbqui réalise le minimum de la fonctionF, c’est à dire tel que

Fb) =inf{F(b)|b∈Rp+1} (en statistique on noteˆb=argminb∈Rp+1(F))

Différentes méthodes permettent de résoudre ce problème d’optimisation et d’obtenir les coefficientsˆb.

— Etude des points critiques de F. On peut montrer quegrad(F) = (XX)b−Xy, et donc queˆb= (XX)1Xy.

(3)

— Interprétation en terme de projection orthogonale. Par définition, on aF(b) =∥y−Xb∥2 et donc

y−Xˆb2=infb∈Rp∥y−Xb∥2 ˆ

y=Xˆbest la combinaison linéaire des colonnes deX qui minimise la distance avecy. yˆest donc la projection orthogonale dey sur l’e.v.E={Xβ|β Rp+ 1}=Im(X)engendré par les

colonnes de la matriceX. La matrice de la projection est donnée parA=X(XX)1X (cf notes sur le théorème de Cochran). On a donc

ˆ

y=Xˆb=X(XX)1Xy.

La matrice(XX)est inversible dès que les vecteurs colonnes de la matriceX sont libres. On fera cette hypothèse dans la suite de ce chapitre (interprétation : il n’y a pas d’information redondante dans les prédicteurs). On en déduit alors queˆb= (XX)1Xy.

Définition. On appelle estimateurs des moindres carrésdeβ le vecteur aléatoire Bˆ= (XX)1XY

Remarque. On peut retrouver l’expression de l’estimateur des moindres carrés en écrivant que le projeté orthogonal yˆ=Xˆb dey sur E est tel que y−yˆ∈E et donc vérifie

< Xα|Y −Xˆb >= 0

∀α∈Rp+1. On retrouve ensuite le résultat en écrivant que< Xα|Y −Xˆb >=αX(Y −Xˆb).

Cas particulier de la régression linéaire simple. On considère le cas p= 1 qui correspond au modèle de régression linéaire simple. Pour simplifier les notations, on pose xi,1=xi. On a

X =



 1 x1

1 x1

... ... 1 xn



.

On en déduit que XX =

( nxi

xi

x2i )

puis que

(XX)1= 1 n

x2i (∑ xi)2

( ∑x2i xi

xi n )

= 1

∑(xi−x)¯ 2

( ∑x2i/n −x¯

−x¯ 1 )

Par ailleurs, on a Xy=

( ∑∑ yi

xiyi

)

et on retrouve donc l’équation de la droite des moindres carrés :

ˆb1=

n

i=1(yi−y)(x¯ i−x)¯

n

i=1(xi−x)¯ 2 =cx,y

s2x =rsy

sx

ˆb0= ¯y−bˆ1x¯

avecrle coefficient de corrélation entre(xi)et(yi),cx,y la covariance empirique,x¯ etsx respectivement la moyenne et l’écart-type empirique de(xi),y¯etsy respectivement la moyenne et l’écart-type empirique de(yi). L’équation de la droite des moindres carrés s’écrit aussi

y−y¯ sy

=rx−x¯ sx

.

Avec cette équation on voit que la droite des moindres carrés passe par le centre de gravitéx,y)¯ du nuage de points et que le coefficient de corrélation s’interprète directement comme la pente de la droite après centrage-réduction des données.

(4)

Proposition. Sous les hypothèses du modèle linéaire on aE[ ˆB] =β (estimateur sans biais) et var( ˆB) =σ2(XX)1.

Démonstration. On aBˆ= (XX)1XY avec, d’après les hypothèses du modèle linéaire,E[Y] =Xβ, var(Y) =σ2In. On en déduit que

E[ ˆB] =E[(XX)1XY] = (XX)1XE[Y] = (XX)1X=β

var( ˆB) =var[(XX)1XY] = (XX)1Xvar(Y)((XX)1X)=σ2(XX)1

2.2 Estimation de la variance des résidus

Par définition, on aσ2=E[Wi2]avecWi=Yi0+β1xi,1+...+βpxi,p)et donc 1

n

n i=1

(Yi0+β1xi,1+...+βpxi,p))2

est un estimateur sans biais deσ2. Cependant cet estimateur fait intervenir le vecteurβ qui est inconnu et lorsqu’on remplaceβ par son estimateurBˆ dans l’expression ci-dessus, on obtient un estimateur biaisé. On préfère alors utiliser l’estimateur sans biais de la proposition suivante.

Notons Yˆ =XBˆ et Wˆ =Y −Yˆ .Yˆi= ˆB0+ ˆBxi,1+...+ ˆBxi,preprésente l’ordonnée du ième individu sur l’hyperplan de régression obtenu par la méthode des moindres carrés etWˆi=Yi−Yˆi l’écart résiduel.Wˆ est généralement appelé levecteur des résidus empiriques.

Proposition. Sous les hypothèses du modèle linéaire, on a n1n

i=1Wˆi= 0 et

S2= 1 n−p−1

n i=1

( ˆWi)2=

Y −Yˆ2 n−p−1 est un estimateur sans biais de σ2.

Démonstration. Montrons queWˆ =πE(W). On a

W =Y −Xβ= (Y −Yˆ) + ( ˆY −Xβ) avecY −Yˆ = (id−πE)(Y) =πE(Y)∈E etYˆ −Xβ∈E. Donc on a bien

Y −Yˆ = ˆW =πE(W) = (I−A)W En particulier,u= (1, ...,1)∈Eet donc Wˆ⊥u. On en déduit quen

i=1Wˆi=< u|W >= 0. De plus (n−p−1)S2 = Y −Yˆ2

= W(I−A)(I−A)W

= W(I−A)W

d’après les propriétés des projections orthogonales ((I−A) =I−A et(I−A)2=I−A). Notons (I−A) = (αi,j)(i,j)∈{1,...,p+1}2.

E[W(I−A)W] = E[

n i=1

αi,jWiWj]

=

n i=1

αi,jE[WiWj]

D’après les hypothèses faites sur(W1, ..., Wn), on a

E[WiWj] = σ2 si i=j 0 sinon

(5)

et donc

E[W(I−A)W] = σ2

n i=1

αi,i

= σ2tr(I−A) Or d’après les propriétés de projections orthogonales

tr(I−A) =dim(E) =n−dim(E) =n−(p+ 1).

Proposition. Sous les hypothèses du modèle linéaire, on aE[ ˆY] = etvar( ˆY) =σ2X(XX)1X Démonstration. Conséquence immédiate deYˆ =XB,ˆ E[ ˆB] =β et var( ˆB) =σ2(XX)1

3 Propriétés supplémentaires dans le cas où le résidu suit une loi normale

Dans la suite du cours, sauf mention contraire, on fait l’hypothèse supplémentaire queWi∼ N(0, σ2) (modèle linéaire gaussien). On rappelle qu’on a alors W ∼ N(0, σ2In)etY ∼ N(Xβ, σ2In).

3.1 Fonction de vraisemblance

Avec les hypothèses du modèle linéaire gaussien, Y est un vecteur gaussien avec une matrice de

covariance diagonale dont on peut facilement écrire la densité de probabilité par rapport à la mesure de Lebesgue. La fonction de vraisemblance est alors donnée par

L(θ) = p(y1, ..., yn;θ)

= 1

(2π)n/2σnexp (

n

i=1(yi−β0−β1xi,1−...−βpxi,p)22

)

= 1

(2π)n/2σnexp (

−F(β) 2σ2

)

avecθ= (β0, β1, ..., βp, σ)l’ensemble des paramètres inconnus etF définie en 2.1. On vérifie aisément que l’estimateur du maximum de vraisemblance deβ coïncide avec l’estimateur des moindres carrés.

Par contre, l’estimateur du maximum de vraisemblance de σ2 est l’estimateur biaisé 1nn i=1Wˆi2.

3.2 Inférence sur les paramètres du modèle

Proposition. Sous les hypothèses du modèle linéaire gaussien, on a les propriétés suivantes :

Bˆ∼ N(β, σ2(XX)1)

Yˆ ∼ N(Xβ, σ2X(XX)1X)

(n−p−1)Sσ22 suit une loiχ2np1 indépendante deBˆ et Yˆ.

Démonstration. Par hypothèse,Y est un vecteur gaussien et on aBˆ= (XX)1XY et

Yˆ =X(XX)1XY. On en déduit queBˆ etYˆ sont également des vecteurs gaussiens. En utilisant la proposition 2.1 on en déduit aisément les 2 premiers points de la proposition.

De plus, on aYˆ −Xβ=πE(W)etY −Yˆ =πE(W). D’après le théorème de Cochran, on a donc

Yˆ −Xβet Y −Yˆ sont indépendants,

— (n−p−1)Sσ22 =YYˆ2

σ2 =πE⊥(W)2

σ2 ∼χ2np1 (en effet,πE est un projecteur de rangp+ 1et doncπE projecteur de rangn−p−1).

On déduit du premier point queYˆ est indépendant deY −Yˆ et donc deS2. Puis la relation Yˆ =X(XX)1XY =XBˆ implique queBˆ= (XX)1XYˆ. Finalement, on obtient queBˆ est indépendant de S2.

(6)

Remarque. Pour le modèle linéaire gaussien, la proposition 2.2 se déduit de la proposition 3.2 et du fait que l’espérance de la loi χ2np1 est égale àn−p−1.

Corollaire. NotonsH = (XX)1,diag(H) = (h0,0, ..., hp,p)les éléments de la diagonale de la matrice H,σ2( ˆBi) =σ2hi,i etS2( ˆBi) =S2hi,i. Sous les hypothèses du modèle linéaire gaussien, on a les propriétés suivantes :

Bˆi∼ Ni, σ2( ˆBi)),

Bˆiβi

S( ˆBi) ∼ Tnp1. Démonstration. Exercice

On peut utiliser ces résultats pour calculer des intervalles de confiance et faire des tests sur les paramètres inconnus.

— Intervalle de confiance au niveau 1−α pour βi :

[ ˆBi−tnp1,1α/2∗S( ˆBi),Bˆi+tnp1,1α/2∗S( ˆBi)]

— Intervalle de confiance au niveau 1−α pour σ2 :

[(n−p−1)

Sˆ2

χ2np1,1α/2,(n−p−1) Sˆ2 χ2np1,α/2]

— Test de l’hypothèse :

H0 :βi =βi(0)contreH1:βi̸=βi(0)

avecβi(0)Rfixé (en général,βi(0) = 0 : siH0 est acceptée, alors laiemevariable explicative n’a pas d’effet sur la réponse). On considère la statistique de testTc= Bˆiβi(0)

S( ˆBi) . SousH0, Tc∼ Tnp1 et on accepteH0, avec un risque de première espèceαfixé, si et seulement si

|Tc|< tnp1,1α/2(i.e. l’estimateurBˆi est "suffisamment" proche" deβi(0)). La p-value (ou degré de signification) du test est

pv =P(|T|> tc)

avecT ∼ Tnp1 ettc la valeur observée pour la statistique de test. On refuseH0avec le risque de première espèceαlorsque pv< α.

— Test de l’hypothèse :

H0: σ=σ0 contreH1:σ̸=σ0

avecσ >0fixé. On considère la statistique de test X= (n−p−1)Sσ22 0

. SousH0,X ∼χ2np1 et on accepteH0, avec un risque de première espèceαfixé, si et seulement si

χ2np1,α/2< X < χ2np1,1α/2(i.e. l’estimateurS2 est "suffisamment" proche" deσ2).

Cas particulier de la régression linéaire simple. Si p= 1, alorsσ2( ˆB1) =n σ2 i=1(xix)¯2 et σ2( ˆB0) =σ2

(1

n+n x¯2 i=1(xi¯x)2

) .

3.3 Mesure de la qualité globale du modèle : coefficient R

2

Notons e= (1, ..,1)Rn et

SCtot=Y −Y e¯ 2=∑n

i=1(Yi−Y¯)2 la somme des carrés totale.

SCreg =Yˆ −Y e¯ 2=∑n

i=1( ˆYi−Y¯)2 lasomme des carrés expliquée par la régression.

SCres=Y −Yˆ2=∑n

i=1(Yi−Yˆi)2 lasomme des carrés résiduelle.

Comme nous considérons des modèles de régression linéaire avec constante (ou "intercept"),eest la première colonne deX et donce∈E. On en déduit queYˆ −Y e¯ ∈E. Par ailleurs, on aY −Y eˆ ∈E et doncYˆ −Y e¯ ⊥Y −Yˆ. On en déduit, d’après le théorème de Pythagore, la formule d’analyse de la variance

SCtot=SCres+SCreg.

(7)

Afin de mesurer la qualité globale du modèle, on utilise généralement lecoefficient de détermination (ou "coefficient de corrélation multiple")

R2= SCreg

SCtot

.

Le coefficientR2[0,1]représente la proportion devariation totaleexpliquée par le modèle et vérifie R2=cos(θ)2, avecθl’angle entre les vecteursY −Y e¯ etYˆ −Y e¯ . SiR2 est proche de1, l’ajustement est bon (Yˆ ≈Y). Par contre, si il est proche de0, les variables explicatives apportent peu d’information sur la réponse.

Cas particulier de la régression linéaire simple. Si p= 1, on peut montrer queR2=r2 avecr le coefficient de corrélation usuel (exercice)

3.4 Analyse des résidus du modèle

Si les hypothèses du modèle linéaire gaussien sont vérifiées, alors le résidu Wi=Yi0+β1xi,1+...+βpxi,p)

est tel que(W1, ..., Wn)est un échantillon i.i.d. d’une loiN(0, σ2). Comme le vecteur de paramètres β est inconnu, il est naturel de le remplacer par son estimateur est de considérerles résidus empiriques définis par Wˆi=Yi−Yˆi avecYˆi= ˆB0+ ˆB1xi,1+...+ ˆBpxi,p.

On a vu que Wˆ = (I−A)W avecA=X(XX)1X la matrice de projection surE. On a donc var( ˆW) =σ2(I−A). Afin d’éliminer la non-homogénéité de la variance des résidus estimés (var( ˆWi) dépend dei), on considère souventles résidus standardisés définis parRˆi= Wˆi

S

1ai,i.

La fonctionplot.lm deRpropose différents graphiques pour vérifier les différentes hypothèses du modèle linéaire :

— Graphique des résidus estimés (’Residuals’) Wˆi en fonction de la valeur prédite (’Fitted values’) Yˆi : permet de vérifier la linéarité de la relation entre les variables.

— Droite de henry pour les résidus standardisés (’Standardized residuals’) Rˆi : permet de vérifier que les résidus sont approximativement gaussiens. Le principe de la droite de Henry est le suivant : soit(Z1, ..., Zn)iidN(µ, σ2)et(z1, ..., zn)une réalisation de (Z1, ..., Zn). Notons Fˆ la fonction de répartition empirique de l’échantillon. D’après le théorème de Glivenko-Cantelli, on a

F(Zˆ i)≈FZ(Zi) = Φ(Zi−µ σ )

avecΦla fonction de répartition de la loiN(0,1). On en déduit queZi≈µ+σΦ1( ˆF(Zi)). On trace alors le nuage de points(Φ1( ˆF(zi)), zi). Si l’échantillon est gaussien, alors les points doivent être proches de la droite d’équationy=µ+σx. C’est un cas particulier de

’Quantile-Quantile plot’ ou ’QQ-plot’, adapté au cas particulier des variables gaussiennes. Ce type de graphique est couramment utilisé pour valider graphiquement des ajustements de loi.

— Graphique de

|Rˆi| en fonction de la valeur prédite Yˆi : permet de vérifier

“l’homoscédasticité” des résidus, c’est à dire que la variance des résidus ne dépend pas des variables explicatives.

Dans les applications pratiques, il est classique d’appliquer une transformation simple sur les variables (ex y:=log(y),y=y2) pour rendre la relation entre les variables plus conformes aux hypothèses du modèle linéaire.

3.5 Prévision

Une application usuelle des modèles de régression est de prévoir la valeur prise par la réponseY pour un nouvel individu pour lequel on connaît les valeurs prises par les variables explicatives

X0= (1, x0,1, ...x0,p). On suppose alors que la valeur prise par cet individu est une réalisation de Y0=X0β+W0 avecW0∼ N(

0, σ2)

indépendant de (W1, ..., Wn). La prévision naturelle est alors

(8)

X0β=β0+β1x0,1+...+βpx0,pque l’on estime parYˆ0= ˆB0+ ˆB1x0,1+...+ ˆBpx0,p=X0B. Selonˆ l’application considérée, on peut construire soit des intervalles de confiance soit des intervalles de prédiction en utilisant la proposition suivante.

Proposition. Notonsσ2( ˆY0) =σ2X0(XX)1X0 etS( ˆY0)2=S2X0(XX)1X0. Sous les hypothèses du modèle linéaire gaussien, on a :

Yˆ0∼ N(

X0β, σ2( ˆY0) )

Yˆ0X0β

S( ˆY0) ∼ Tnp1

YˆS(Y0Y0

0) ∼ Tnp1 avec S(Y0)2=S2+S( ˆY0)2=S2(1 +X0(XX)1X0).

Démonstration. Le premier point se déduit aisément de la relationYˆ0=X0Bˆ et des formules des paragraphes précédents pourE[ ˆB] etvar( ˆB). On utilise ensuite l’indépendance entreBˆ etS.

Conséquences

— Intervalle de confiancepour le paramètre inconnuE[Y0] =X0β :

P[ ˆY0+tnp1,α/2S( ˆY0)≤X0β ≤Yˆ0+tnp1,1α/2S( ˆY0)] = 1−α

— Intervalle de prédictionpour la variable aléatoireY0=X0β+W0 avecW0∝ N(0, σ2) indépendante de(W1, ..., Wn). On en déduit (intervalle de prédiction au niveau1−α) :

P[ ˆY0+tnp1,α/2S(Y0)≤Y0≤Yˆ0+tnp1,α/2S(Y0)] = 1−α

Cas particulier de la régression linéaire simple. Si p= 1, on obtient

S( ˆY0)2=S2 (

1

n+ (x0−x)¯ 2

n

j=1(xj−x)¯ 2 )

On remarque donc que la largeur de l’intervalle de confiance est minimale pourx0= ¯xpuis croit avec la distance entre x0 etx¯ : la prévision obtenue pour un individu "éloigné" de l’"individu moyen" est moins précise que celle obtenue pour un individu "proche" de l’"individu moyen".

4 Exercice

Exercice 4.1.

L’objectif de cet exercice est de tester les fonctions usuelles proposées par R pour le modèle linéaire en utilisant des simulations.

1. Simuler un échantillon de taillendu modèle linéaire Gaussien Yi=β0+β1xi+Wi

avec(W1, ..., Wn)des variables aléatoires indépendantes et identiquement distribuées de moyenne 0 et de varianceσ2. On pourra prendre les valeursβ0= 0, β1= 1,σ= 0.1, n= 50et xi= ni. 2. Calculer l’estimation des moindres carrés deβ0 etβ1sur l’échantillon simulé dans la question 1.

On utilisera la fonction Rlm. Tracer sur une même figure le nuage de point et la droite des moindres carrés.

3. Recommencer la question précédenteN = 1000fois, en simulant à chaque fois un nouvel échantillon. Calculer la moyenne, la variance des estimations deβ0 etβ1 obtenues : les résultats obtenus par simulation sont-ils conformes aux résultats donnés dans le cours ?

4. Tracer un histogramme des estimations deβ0 etβ1obtenues : les résultats obtenus par simulation sont-ils conformes aux résultats donnés dans le cours ?

(9)

5. Tracer la droite de Henry des estimations deβ0 etβ1 obtenues avec la fonctionqqnorm. Discuter.

6. Calculer un intervalle de confiance à95%pourβ1 sur l’échantillon simulé dans la question 1. On utilisera la fonction Rconfint. Est-ce que les vraies valeurs des paramètres sont dans ces

intervalles de confiance ? Qu’est-ce qui est attendu d’après la théorie ?

7. Recommencer la question précédenteN = 1000fois, en simulant à chaque fois un nouvel échantillon. Les résultats obtenus par simulation sont-ils conformes à la théorie ?

8. Réaliser un test de l’hypothèseH0:β1= 0puis de l’hypothèseH0:β1= 1sur l’échantillon simulé dans la question 1. On utilisera la fonction R summary. Est-ce que l’hypothèseH0 est acceptée ? Qu’est-ce qui est attendu d’après la théorie ?

9. Recommencer la question précédenteN = 1000fois, en simulant à chaque fois un nouvel échantillon. Combien de fois l’hypothèseH0est acceptée ? Les résultats obtenus par simulation sont-ils conformes à la théorie ?

10. Calculer un intervalle de prédiction puis un intervalle de confiance à 95% sur l’échantillon simulé dans la question 1 pour un individu tel que la variable explicative prend la valeurx0= 1.

11. Recommencer la question précédenteN = 1000fois, en simulant à chaque fois un nouvel échantillon. Qu’est-ce qui est attendu d’après la théorie ? Vérifier le sur les simulations.

12. Analyser les résidus du modèle ajusté sur l’échantillon simulé dans la question 1 à l’aide de la fonctionplot.lm. Vérifier que les trois premiers graphiques sont conformes à ce qui est attendu pour un modèle linéaire gaussien. Proposer des modifications du modèle simulé (par exemple modèle non-linéaire ou non-gaussien) qui permettent d’illustrer l’intérêt de chacun de ces graphiques.

Références

Documents relatifs

Supposons de plus que chaque variable Xi soit moyenne arithmétique de wi variables indépendantes, dites composantes élémentaires de Xi, chacune avec espérance

Le théorème de Hahn-Banach et le théorème de Riesz impliquent en outre que si la fonctionnelle analytique T est portable par le compact K, pour tout ouvert œ =&gt; K, il existe

Mots clés : Modèle de régression linéaire, sélection bayésienne de variables, loi a priori de Zellner, lois a priori compatibles, modèles hiérarchiques, échantillonneur de

Comme un plan X = X&lt; coupe la surface suivant une conique passant en B et C, si cette conique se compose de deux droites, deux cas sont possibles : l'une des droites passera en

Comme dans le chapitre précédent, les modèles décrits dans ce chapitre s’intéressent plus particulièrement à la description ou l’explication d’obser- vations

(e) Ajuster un modèle de régression linéaire multiple avec interaction permettant d’expliquer la variable logclaimcst0 en fonction des variables gender et agecat, considérée comme

Le tableau donné dans le fichier exo1.txt donne les pourcentages de variation par rapport à la période précédente du PIB en volume et de la con- sommation privée en volume en

• Indiquer List1 sur la ligne Var-X-List et List2 sur la ligne Var-Y-List.. Appuyez