• Aucun résultat trouvé

Régression linéaire multiple ou modèle gaussien

N/A
N/A
Protected

Academic year: 2022

Partager "Régression linéaire multiple ou modèle gaussien"

Copied!
13
0
0

Texte intégral

(1)

Régression linéaire multiple ou modèle gaussien

Résumé

Introductions au modèle linéaire et modèle linéaire général. Retour auplan du cours.

1 Introduction

Le modèle de régression linéaire multiple est l’outil statistique le plus ha- bituellement mis en œuvre pour l’étude de données multidimensionnelles. Cas particulier de modèle linéaire, il constitue la généralisation naturelle de la ré- gression simple.

2 Modèle

Une variable quantitativeY diteà expliquer(ou encore, réponse, exogène, dépendante) est mise en relation avecpvariables quantitatives X1, . . . , Xp ditesexplicatives (ou encore de contrôle, endogènes, indépendantes, régres- seurs).

Les données sont supposées provenir de l’observation d’un échantillon sta- tistique de taillen(n > p+ 1) deR(p+1):

(x1i, . . . , xji, . . . , xpi, yi) i= 1, . . . , n.

L’écriture du modèle linéaire dans cette situation conduit à suppo- ser que l’espérance de Y appartient au sous-espace de Rn engendré par {1, X1, . . . , Xp} où1désigne le vecteur de Rn constitué de “1” . C’est-à- dire que les(p+ 1)variables aléatoires vérifient :

yi01x1i2x2i +· · ·+βpxpi +ui i= 1,2, . . . , n avec les hypothèses suivantes :

1. Lesuisont des termes d’erreur, d’une variableU, non observés, indépen- dants et identiquement distribués ;E(ui) = 0, V ar(U) =σ2uI.

2. Les termesxj sont supposés déterministes (facteurs contrôlés) ou bien l’erreurU est indépendante de la distribution conjointe deX1, . . . , Xp. On écrit dans ce dernier cas que :

E(Y|X1, . . . , Xp) =β01X1+β2X2+· · ·+βpXpet Var(Y|X1, . . . , Xp) =σ2u.

3. Les paramètres inconnusβ0, . . . , βpsont supposés constants.

4. En option, pour l’étude spécifique des lois des estimateurs, une quatrième hypothèse considère la normalité de la variable d’erreurU (N(0, σu2I)).

Lesuisont alors i.i.d. de loiN(0, σ2u).

Les données sont rangées dans une matriceX(n×(p+ 1))de terme gé- néralxji, dont la première colonne contient le vecteur 1(xi0 = 1), et dans un vecteurYde terme généralyi. En notant les vecteursu= [u1· · ·up]0 et β= [β0β1· · ·βp]0, le modèle s’écrit matriciellement :

y=Xβ+u.

3 Estimation

Conditionnellement à la connaissance des valeurs desXj, les paramètres inconnus du modèle : le vecteurβ et σ2u (paramètre de nuisance), sont es- timés par minimisation du critère des moindres carrés (M.C.) ou encore, en supposant (iv), par maximisation de la vraisemblance (M.V.). Les estimateurs ont alors les mêmes expressions, l’hypothèse de normalité et l’utilisation de la vraisemblance conférant à ces derniers des propriétés complémentaires.

3.1 Estimation par M.C.

L’expression à minimiser surβ∈Rp+1s’écrit :

n

X

i=1

(yi−β0−β1x1i −β2x2i − · · · −βpxpi)2 = ky−Xβk2

= (y−Xβ)0(y−Xβ)

= y0y−2β0X0y+β0X0Xβ.

Par dérivation matricielle de la dernière équation on obtient les“équations normales”:

X0y−X0Xβ= 0

(2)

dont la solution correspond bien à un minimum car la matrice hessienne2X0X est semi définie-positive.

Nous faisons l’hypothèse supplémentaire que la matriceX0Xest inversible, c’est-à-dire que la matriceXest de rang(p+ 1)et donc qu’il n’existe pas de colinéarité entre ses colonnes. En pratique, si cette hypothèse n’est pas vérifiée, il suffit de supprimer des colonnes deXet donc des variables du modèle. Des diagnostics de colinéarité et des aides au choix des variables seront explicités plus loin.

Alors, l’estimation des paramètresβjest donnée par : b= (X0X)−1X0y

et les valeurs ajustées (ou estimées, prédites) deyont pour expression :

by=Xb=X(X0X)−1X0y=Hy

oùH=X(X0X)−1X0 est appelée “hat matrix” ; elle met un chapeau à y.

Géométriquement, c’est la matrice de projection orthogonale dansRn sur le sous-espace Vect(X) engendré par les vecteurs colonnes deX.

On note

e=y−yb=y−Xb= (I−H)y

le vecteur des résidus ; c’est la projection deysur le sous-espace orthogonal de Vect(X) dansRn.

3.2 Propriétés

Les estimateurs des M.C. b0, b1, . . . , bp sont des estimateurs sans biais : E(b) = β, et, parmi les estimateurs sans biais fonctions linéaires des yi, ils sont de variance minimum (propriété de Gauss-Markov) ; ils sont donc

“BLUE” :best linear unbiaised estimators. Sous hypothèse de normalité, les estimateurs du M.V., qui coïncident avec ceux des moindres carrés, sont unifor- mément meilleurs ; ils sont efficaces c’est-à-dire que leur matrice de covariance atteint la borne inférieure de Cramer-Rao.

On montre que la matrice de covariance des estimateurs se met sous la forme E[(b−β)(b−β)0] =σ2u(X0X)−1,

celle des prédicteurs est

E[(yb−Xβ)(by−Xβ)0] =σu2H

et celle des estimateurs des résidus est

E[(e−u)((e−u))0] =σu2(I−H) tandis qu’un estimateur sans biais deσ2uest fourni par :

s2= kek2

n−p−1 =ky−Xβk2

n−p−1 = SSE n−p−1.

Ainsi, les termess2hiisont des estimations des variances des prédicteursbyi.

3.3 Sommes des carrés

SSE est la somme des carrés des résidus (sum of squared errors), SSE=ky−ykb 2=kek2.

On définit également la somme totale des carrés (total sum of squares) par SST=ky−y1k2=y0y−ny2

et la somme des carrés de la régression (regression sum of squares) par SSR=kyb−y1k2=yb0by−ny2=y0Hy−ny2=b0X0y−ny2. On vérifie alors : SST=SSR+SSE.

3.4 Coefficient de détermination

On appellecoefficient de déterminationle rapport R2= SSR

SST

qui est donc la part de variation deY expliquée par le modèle de régression.

Géométriquement, c’est un rapport de carrés de longueur de deux vecteurs.

(3)

C’est donc le cosinus carré de l’angle entre ces vecteurs :yet sa projectionyb sur Vect(X).

Attention, dans le cas extrême oùn= (p+ 1), c’est-à-dire si le nombre de variables explicatives est grand comparativement au nombre d’observations, R2 = 1. Ou encore, il est géométriquement facile de voir que l’ajout de va- riables explicatives ne peut que faire croître le coefficient de détermination.

La quantitéRest appeléecoefficient de corrélation multipleentreY et les variables explicatives, c’est le coefficient de corrélation usuel entre y et sa prédiction (ou projection)by.

4 Inférences dans le cas gaussien

En principe, l’hypothèse optionnelle (iv) de normalité des erreurs est néces- saire pour cette section. En pratique, des résultats asymptotiques, donc valides pour de grands échantillons, ainsi que des études de simulation, montrent que cette hypothèse n’est pas celle dont la violation est la plus pénalisante pour la fiabilité des modèles.

4.1 Inférence sur les coefficients

Pour chaque coefficientβjon montre que la statistique bj−βj

σbj

oùσb2

j, variance debj est lejième terme diagonal de la matrices2(X0X)−1, suit une loi de Student à(n−p−1) degrés de liberté. Cette statistique est donc utilisée pour tester une hypothèseH0 : βj = aou pour construire un intervalle de confiance de niveau100(1−α)%:

bj±tα/2;(n−p−1)σbj.

Attention, cette statistique concerne un coefficient et ne permet pas d’inférer conjointement (cf. §3.4) sur d’autres coefficients car ils sont corrélés entre eux ; de plus elle dépend des absences ou présences des autres variablesXkdans le modèle. Par exemple, dans le cas particulier de deux variablesX1etX2très corrélées, chaque variable, en l’absence de l’autre, peut apparaître avec un co-

efficient significativement différent de 0 ; mais, si les deux sont présentes dans le modèle, elles peuvent chacune apparaître avec des coefficients insignifiants.

De façon plus générale, sicdésigne un vecteur non nul de(p+1)constantes réelles, il est possible de tester la valeur d’une combinaison linéairec0bdes paramètres en considérant l’hypothèse nulleH0 : c0b = a;aconnu. Sous H0, la statistique

c0b−a (s2c0(X0X)−1c)1/2 suit une loi de Student à(n−p−1)degrés de liberté.

4.2 Inférence sur le modèle

Le modèle peut être testé globalement. Sous l’hypothèse nulleH0 : β1 = β2=. . .=βp= 0, la statistique

SSR/p

SSE/(n−p−1) =MSR MSE

suit une loi de Fisher avecpet(n−p−1)degrés de liberté. Les résultats sont habituellement présentés dans un tableau“d’analyse de la variance”sous la forme suivante :

Source de

variation d.d.l.

Somme des

carrés Variance F

Régression p SSR MSR=SSR/p MSR/MSE

Erreur n−p−1 SSE MSE=SSE/(n−p−1)

Total n−1 SST

4.3 Inférence sur un modèle réduit

Le test précédent amène à rejeterH0dès que l’une des variablesXjest liée àY. Il est donc d’un intérêt limité. Il est souvent plus utile de tester un modèle réduit c’est-à-dire dans lequel certains coefficients sont nuls (à l’exception du terme constant) contre le modèle complet avec toutes les variables. En ayant éventuellement réordonné les variables, on considère l’hypothèse nulleH0 : β12=. . .=βq= 0, q < p.

(4)

Notons respectivement SSRq, SSEq,Rq2 les sommes de carrés et le coef- ficient de détermination du modèle réduit à(p−q)variables. Sous H0, la statistique

(SSR−SSRq)/q

SSE/(n−p−1) = (R2−R2q)/q (1−R2)/(n−p−1) suit une loi de Fisher àqet(n−p−1)degrés de liberté.

Dans le cas particulier oùq= 1(βj = 0), laF-statistique est alors le carré de lat-statistique de l’inférence sur un paramètre et conduit donc au même test.

4.4 Ellipsoïde de confiance

Les estimateurs des coefficientsβjétant corrélés, la recherche d’une région de confiance de niveau100(1−α)%pour tous les coefficients conduit à consi- dérer l’ellipsoïde décrit par

(b−β)0X0X(b−β)∼(p+ 1)s2Fα;p+1,(n−p−1).

Plus généralement, un ellipsoïde de confiance conjoint à q combinaisons linéairesTβest donné par

(Tb−Tβ)0[T(X0X)−1T0]−1(Tb−Tβ)≤qs2Fα;q,(n−p−1)

oùT(q×(p+ 1))est une matrice de rangqde constantes fixées.

En application, étant donnés une matriceTet un vecteura, un test de l’hy- pothèseH0 :Tβ =aest obtenu en considérant la statistique

(Tb−a)0[T(X0X)−1T0]−1(Tb−a)/qs2

qui suit sousH0une loi de Fisher àqet(n−p−1)degrés de liberté.

4.5 Prévision

Connaissant les valeurs des variablesXj pour une nouvelle observation : x00 = [x10, x20, . . . , xp0]appartenant au domaine dans lequel l’hypothèse de li- néarité reste valide, une prévision, notéeyb0deY ouE(Y)est donnée par :

yb0=b0+b1x10+· · ·+bpxp0.

Les intervalles de confiance des prévisions de Y et E(Y), pour unevaleur x0∈Rpet en posantv0= (1|bmx00)0∈Rp+1, sont respectivement

yb0 ± tα/2;(n−p−1)s(1 +v00(X0X)−1v0)1/2, yb0 ± tα/2;(n−p−1)s(v00(X0X)−1v0)1/2.

Enfin, un intervalle de confiance de niveau100(1−α)%recouvrant globa- lement la surface de régression est donné par

by0±[(p+ 1)Fα;(p+1),(n−p−1)]1/2s(v00(X0X)−1v0)1/2. Il peut être utilisé pour définir un intervalle conjoint à plusieurs prédictions.

5 Sélection de variables, choix de modèle

De façon un peu schématique, on peut associer la pratique de la modélisa- tion statistique à trois objectifs qui peuvent éventuellement être poursuivis en complémentarité.

Descriptif : Il vise à rechercher de façon exploratoire les liaisons entreY et d’autres variables, potentiellement explicatives,Xjqui peuvent être nom- breuses afin, par exemple d’en sélectionner un sous-ensemble. À cette stratégie, à laquelle peuvent contribuer des Analyses en Composantes Principales, correspond des algorithmes de recherche (pas à pas) moins performants mais économiques en temps de calcul sipest grand.

Attention, sinest petit, et la recherche suffisamment longue avec beau- coup de variables explicatives, il sera toujours possible de trouver un

“bon” modèle expliquanty; c’est l’effet data miningdans les modèles économétriques.

Explicatif : Le deuxième objectif est sous-tendu par une connaissance a prioridu domaine concerné et dont des résultats théoriques peuvent vou- loir être confirmés, infirmés ou précisés par l’estimation des paramètres.

Dans ce cas, les résultats inférentiels précédents permettent de construire lebon test conduisant à la prise de décision recherchée. Utilisées hors de ce contexte, les statistiques de test n’ont plus alors qu’une valeur indica- tive au même titre que d’autres critères plus empiriques.

Prédictif : Dans le troisième cas, l’accent est mis sur la qualité des estima- teurs et des prédicteurs qui doivent, par exemple, minimiser une erreur

(5)

quadratique moyenne. Ceci conduit à rechercher des modèlesparcimo- nieux c’est-à-dire avec un nombre volontairement restreint de variables explicatives. Le “meilleur” modèle ainsi obtenu peut donner des estima- teurs légèrement biaisés au profit d’un compromis pour une variance plus faible. Un bon modèle n’est donc plus celui qui explique le mieux les don- nées au sens d’une déviance (SSE) minimale (ou d’un R2max) au prix d’un nombre important de variables pouvant introduire des colinéarités.

Le bon modèle est celui qui conduit aux prédictions les plus fiables.

5.1 Critères

De nombreux critères de choix de modèle sont présentés dans la littérature sur la régression linéaire multiple. Citons le critère d’information d’Akaïke (AIC), celui bayésien de Sawa (BIC), l’erreur quadratique moyenne de pré- diction (cas gaussien). . . . Ils sont équivalents lorsque le nombre de variables à sélectionner, ou niveau du modèle, est fixé. Le choix du critère est détermi- nant lorsqu’il s’agit de comparer des modèles de niveaux différents. Certains critères se ramènent, dans le cas gaussien, à l’utilisation d’une expression pé- nalisée de la fonction de vraisemblance afin de favoriser des modèles parci- monieux. En pratique, les plus utilisés ou ceux généralement fournis par les logiciels sont les suivants.

5.1.1 Statistique duF de Fisher

Ce critère, justifié dans le cas explicatif est aussi utilisé à titre indicatif pour comparer des séquences de modèles emboîtés. La statistique partielle de Fisher est

(SSR−SSRq)/q

SSE/(n−p−1) = (R2−Rq2) (1−R2)

n−p−1 q

dans laquelle l’indiceq désigne les expressions concernant le modèle réduit avec(p−q)variables explicatives. On considère alors que si l’accroissement (R2−R2q)est suffisamment grand :

R2−R2q > q(1−R2)

(n−p−1)Fα;q,(n−p−1), l’ajout desqvariables au modèle est justifié.

5.1.2 R2etR2ajusté

Le coefficient de déterminationR2 = 1−SSE/SST, directement lié à la dé- viance (SSE) est aussi un indice de qualité mais qui a la propriété d’être mono- tone croissant en fonction du nombre de variables. Il ne peut donc servir qu’à comparer deux modèles de même niveau c’est-à-dire avec le même nombre de variables.

En revanche, leR2ajusté: R02= 1− n−1

n−p−1(1−R2) = 1−SSE/(n−p−1) SST/(n−1) .

dans lequel le rapport SSE/SST est remplacé par un rapport des estimations sans biais des quantitésσ2uetσy2introduit une pénalisation liée au nombre de paramètres à estimer.

Ce coefficient s’exprime encore par

1−(n−1)MSE SST

ainsi dans la comparaison de deux modèles partageant la même SST, on ob- serve queR02> R02jsi et seulement si MSE<MSEj; MSE et MSEjdésignant respectivement l’erreur quadratique moyenne du modèle complet et celle d’un modèle àjvariables explicatives. Maximiser leR2ajusté revient donc à mini- miser l’erreur quadratique moyenne.

5.1.3 Cpde Mallows

Une erreur quadratique moyenne s’écrit comme la somme d’une variance et du carré d’un biais. L’erreur quadratique moyenne de prédiction sécrit ainsi :

MSE(byi) =Var(ybi) + [Biais(ybi)]2 puis après sommation et réduction :

1 σ2u

n

X

i=1

MSE(byi) = 1 σu2

n

X

i=1

Var(byi) + 1 σu2

n

X

i=1

[Biais(byi)]2.

En supposant que les estimations du modèle complet sont sans biais et en uti- lisant des estimateurs deV ar(ybi)etσu2, l’expression de l’erreur quadratique

(6)

moyenne totale standardisée (ou réduite) pour un modèle àqvariables expli- catives s’écrit :

Cp= (n−q−1)MSEq

MSE −[n−2(q+ 1)]

et définit la valeur duCp de Mallow pour lesqvariables considérées. Il est alors d’usage de rechercher un modèle qui minimise leCptout en fournissant une valeur inférieure et proche de(q+ 1). Ceci revient à considérer que le

“vrai” modèle complet est moins fiable qu’un modèle réduit donc biaisé mais d’estimation plus précise.

5.1.4 PRESS de Allen

On désigne parby(i)la prédiction deyicalculée sans tenir compte de laième observation(yi, x1i, . . . , xpi), la somme des erreurs quadratiques de prédiction (PRESS) est définie par

PRESS=

n

X

i=1

(yi−yb(i))2

et permet de comparer les capacités prédictives de deux modèles.

5.2 Algorithmes de sélection

Lorsquepest grand, il n’est pas raisonnable de penser explorer les2p mo- dèles possibles afin de sélectionner le “meilleur” au sens de l’un des critères ci-dessus. Différentes stratégies sont donc proposées qui doivent être choi- sies en fonction de l’objectif recherché et des moyens de calcul disponibles ! Trois types d’algorithmes sont résumés ci-dessous par ordre croissant de temps de calcul nécessaire c’est-à-dire par nombre croissant de modèles considé- rés parmi les2p et donc par capacité croissante d’optimalité. On donne pour chaque algorithme l’optionselectionà utiliser dans la procédureREGde SAS.

5.2.1 Pas à pas

Sélection (forward) À chaque pas, une variable est ajoutée au modèle. C’est celle dont la valeurp(“prob value”)associée à la statistique partielle du test de Fisher qui compare les deux modèles est minimum. La procédure

s’arrête lorsque toutes les variables sont introduites ou lorsquepreste plus grande qu’une valeur seuil fixée par défaut à0,50.

Élimination (backward) L’algorithme démarre cette fois du modèle com- plet. À chaque étape, la variable associée à la plus grande valeurpest éliminée du modèle. La procédure s’arrête lorsque les variables restant dans le modèle ont des valeurspplus petites qu’un seuil fixé par défaut à 0,10.

Mixte (stepwise) Cet algorithme introduit une étape d’élimination de va- riable après chaque étape de sélection afin de retirer du modèle d’éven- tuels variables qui seraient devenues moins indispensables du fait de la présence de celles nouvellement introduites.

5.2.2 Par échange

Maximisation deR2 (maxr) Cet algorithme tente de trouver le meilleur mo- dèle pour chaque niveau c’est-à-dire pour chaque nombre de variables explicatives. À chaque niveau il commence par sélectionner une variable complémentaire qui rend l’accroissement deR2 maximum. Puis il re- garde tous les échanges possibles entre une variable présente dans le mo- dèle et une extérieure et exécute celui qui fournit l’accroissement maxi- mum ; ceci est itéré tant que leR2croit.

Minimisation deR2 (minr) Il s’agit du même algorithme que le précédent sauf que la procédure d’échange fait appel au couple de variables associé au plus petit accroissement duR2. L’objectif est ainsi d’explorer plus de modèles que dans le cas précédent et donc, éventuellement, de tomber sur un meilleur optimum.

Remarque Pour tous ces algorithmes de sélection ou d’échange, il est impor- tant de compléter les comparaisons des différentes solutions retenues à l’aide de critères globaux (Cpou PRESS).

5.2.3 Global

L’algorithme de Furnival et Wilson est utilisé pour comparer tous les mo- dèles possibles en cherchant à optimiser l’un des critères : R2, R2 ajusté, ouCp de Mallow (rsquare, adjrsq, cp) choisi par l’utilisateur. Par souci d’économie, cet algorithme évite de considérer des modèles de certaines

(7)

sous-branches de l’arborescence dont on peut savoir a priori qu’ils ne sont pas compétitifs. En général les logiciels exécutant cet algorithme affichent le (best=1) ou les meilleurs modèles de chaque niveau.

6 Multi-colinéarité

L’estimation des paramètres ainsi que celle de leur écart-type (standard er- ror) nécessite le calcul explicite de la matrice(X0X)−1. Dans le cas ditmal conditionnéoù le déterminant de la matriceX0Xn’est que légèrement diffé- rent de0, les résultats conduiront à des estimateurs de variances importantes et même, éventuellement, à des problèmes de précision numérique. Il s’agit donc de diagnostiquer ces situations critiques puis d’y remédier. Dans les cas des- criptif ou prédictif on supprime des variables à l’aide des procédures de choix de modèle mais, pour un objectif explicatif nécessitant toutes les variables, d’autres solutions doivent être envisagées : algorithme de résolution des équa- tions normales par transformations orthogonales (procédure orthoreg de SAS) sans calcul explicite de l’inverse pour limiter les problèmes numériques, régression biaisée (ridge), régression sur composantes principales.

6.1 Diagnostics

Notons Xe la matrice des données observées, c’est-à-dire X privée de la première colonne1et dont on a retranché à chaque ligne le vecteur moyenx= 1/nPn

i=1xi,Sla matrice diagonale contenant les écarts-types empiriques des variablesXjet enfinRla matrice des corrélations :

R= 1

(n−1)S−1Xf0XSe −1.

6.1.1 Facteur d’inflation de la variance (VIF)

Avec ces notations, la matrice de covariance des estimateurs des coefficients (β1, . . . , βp)s’écrit :

σ2u

n−1(Xe0X)e −1= σ2u

n−1SR−1S.

On montre alors que chaque élément diagonal s’exprime comme Vj = 1

1−R2j

oùR2j désigne le coefficient de détermination de la régression de la variable Xj sur les autres variables ;Rj est alors un coefficient de corrélation mul- tiple, c’est le cosinus de l’angle dansRn entreXjet le sous-espace vectoriel engendré par les variables{X1, . . . , Xj−1, Xj+1, . . . , Xp}. PlusXj est “li- néairement” proche de ces variables et plusRj est proche de 1 et donc plus la variance de l’estimateur deβj est élevée ;Vj est appeléfacteur d’inflation de la variance(VIF). Évidemment, cette variance est minimum lorsqueXjest orthogonal au sous-espace engendré par les autres variables.

Le simple examen de la matriceRpermet de relever des corrélations dan- gereuses de variables deux à deux mais est insuffisant pour détecter des cor- rélations plus complexes ou multi-colinéarités. C’est donc l’inverse de cette matrice qu’il faut considérer en calculant lesVjou encore les valeurs(1−R2j) qui sont appeléestolérances.

6.1.2 Conditionnement

On noteλ1, . . . , λp les valeurs propres de la matriceRrangées par ordre décroissant. Le déterminant deRest égal au produit des valeurs propres. Ainsi, des problèmes numériques, ou de variances excessives apparaissent dès que les dernières valeurs propres sont relativement trop petites.

On appelleindice de conditionnementle rapport κ=λ1p

de la plus grande sur la plus petite valeur propre.

En pratique, siκ < 100on considère qu’il n’y a pas de problème. Celui-ci devient sévère pourκ >1000. Cet indice de conditionnement donne un aperçu global des problèmes de colinéarité tandis que les VIF, les tolérances ou encore l’étude des vecteurs propres associés au plus petites valeurs propres permettent d’identifier les variables les plus problématiques.

Remarque : Lorsque le modèle est calculé avec un terme constant, la co- lonne1 joue le rôle d’une variable et peut considérablement augmenter les

(8)

problèmes de multi-colinéarité. La matriceRest alors remplacée par la matrice T=diag(X0X)−1/2X0Xdiag(X0X)−1/2dans les discussions précédentes.

6.2 Régression “ridge”

Ayant diagnostiqué un problème mal conditionné mais désirant conserver toutes les variables, il est possible d’améliorer les propriétés numériques et la variance des estimations en considérant un estimateur légèrement biaisé des paramètres. L’estimateur “ridge” introduisant unerégularisationest donné par

bR= (X0X+kI)−1X0y,

qui a pour effet de décaler de la valeurktoutes les valeurs propres de la matrice à inverser et, plus particulièrement, les plus petites qui reflètent la colinéarité.

On montre que l’erreur quadratique moyenne sur l’estimation des paramètres se met sous la forme :

MSE(bR) =σu2

p

X

j=1

λj

j+k)2+k2β0(X0X+kI)−1β.

La difficulté est alors de trouver une valeur dekminimisant la quantité ci- dessus. Des méthodes de ré-échantillonnage (jackknife, bootstrap) peuvent être mises en œuvre mais celles-ci sont coûteuses en temps de calcul. Une valeur heuristique dek peut être fixée en considérant le graphique des paramètres en fonction dek. Elle est choisie dans la zone où les valeurs absolues des paramètres commencent à se stabiliser.

6.3 Régression sur composantes principales

L’Analyse en Composantes Principales est, entre autre, la recherche depva- riables dites principales qui sont des combinaisons linéaires des variables ini- tiales de variance maximale sous une contrainte d’orthogonalité. En désignant parVla matrice des vecteurs propres de la matrice des corrélationsRrangés dans l’ordre décroissant des valeurs propres, les valeurs prises par ces variables principales sont obtenues dans la matrice des composantes principales

C= (Xe −1x0)V.

Elles ont chacune pour variance la valeur propreλjassociée. Le sous-espace engendré par ces variables principales est le même que celui engendré par les

variables initiales. Il est donc géométriquement équivalent de régresserY sur les colonnes deCque sur celles deX. Les problèmes de colinéarité sont alorse résolus en supprimant les variables principales de plus faibles variances c’est- à-dire associées aux plus petites valeurs propres.

La solution obtenue présente ainsi de meilleures qualités prédictives mais, les coefficients de la régression s’appliquant aux composantes principales, un calcul complémentaire est nécessaire afin d’évaluer et d’interpréter les effets de chacune des variables initiales.

6.4 Modèles curvilinéaires

En cas d’invalidation de l’hypothèse de linéarité, il peut être intéressant de considérer des modèles polynômiaux, très classiques pour décrire des phéno- mènes physiques, de la forme

Y =β0+· · ·+βjXj+· · ·+γklXkXl+· · ·+δjXj2

qui sont encore appeléssurfaces de réponse. Ces modèles sont faciles à étudier dans le cadre linéaire, il suffit d’ajouter des nouvelles variables constituées des produits ou des carrés des variables explicatives initiales. Les choix : présence ou non d’une interaction entre deux variables, présence ou non d’un terme qua- dratique se traitent alors avec les mêmes outils que ceux des choix de variable mais en intégrant une contrainte lors de la lecture des résultats : ne pas considé- rer des modèles incluant des termes quadratiques dont les composants linéaires auraient été exclus ou encore, ne pas supprimer d’un modèle une variable d’un effet linéaire si elle intervient dans un terme quadratique.

La procédurersregde SAS est plus particulièrement adaptée aux modèles quadratiques. Elle ne comporte pas de procédure de choix de modèle mais fournit des aides et diagnostics sur l’ajustement de la surface ainsi que sur la recherche des points optimaux.

Attention :Ce type de modèle accroît considérablement les risques de coli- néarité, il est peu recommandé de considérer des termes cubiques.

7 Influence, résidus, validation

Avant toute tentative de modélisation complexe, il est impératif d’avoir conduit des analyses uni et bivariées afin d’identifier des problèmes sur les

(9)

distributions de chacune des variables : dissymétrie, valeurs atypiques (out- liers) ou sur les liaisons des variables prises deux par deux : non-linéarité. Ces préliminaires acquis, des aides ou diagnostics associés à la régression linéaire multiple permettent de détecter des violations d’hypothèses (homoscédasticité, linéarité) ou des points influents dans ce contexte multidimensionnel.

7.1 Effet levier

Comme toute méthode quadratique, l’estimation des paramètres est très sen- sible à la présence de points extrêmes susceptibles de perturber gravement les résultats. À partir de l’équation de prédiction :yb =Hyon remarque qu’une observationiest influente si le terme correspondanthii de la diagonale deH est grand.

On écrit encore :

H=110

n +X(e Xe0X)e −1Xe0 et

hii= 1

n+ (xi−x)0(Xe0X)e −1(xi−x) = 1 n+

p

X

j=1

v0j(xi−x) pλj

!2

où lesλj,vjsont respectivement les valeurs et vecteurs propres de la matrice Xe0X. Ainsi, plus une observation est éloignée du barycentre, et ce dans lae direction d’un vecteur propre associé à une petite valeur propre, et plus cette observation a un effet levier important.

7.2 Résidus

Nous désignons comme précédemment parb(i),yb(i),e(i),et s2(i)=

e0(i)e(i) n−p−2

les estimations réalisées sans laième observation. Les expressions e = (I−H)y,

r = diag[s2(1−hii)]−1/2e, t = diag[s2(i)(1−hii)]−1/2e

définissent respectivement les résidus calculés, les résidusstandardisés(cha- cun divisé par l’estimation de l’écart-type) et les résidusstudentisésdans les- quels l’estimation deσu2ne fait pas intervenir laième observation.

De trop grands résidus sont aussi des signaux d’alerte. Par exemple, un ré- sidu studentisé de valeur absolue plus grande que 2 peut révéler un problème.

7.3 Mesures d’influence

L’effet levier peut apparaître pour des observations dont les valeurs prises par les variables explicatives sont élevées (observation loin du barycentrex).

De grands résidus signalent plutôt des valeurs atypiques de la variable à expli- quer. Les deux diagnostics précédents sont combinés dans des mesures synthé- tiques proposées par différents auteurs. Les plus utilisées sont

Di = 1

s2(p+ 1)(yb−by(i))0(by−yb(i)) = hii

1−hii r2i

(p+ 1), (1)

DFFITSi = 1

s(i)

phii(ybi−by(i)i) = hii

1−hii 1/2

ti. (2)

La première, notéeCook’sDconclut à une influence de l’observationilorsque la valeur deDidépasse 1.

D’autres mesures moins fréquemment utilisées sont proposées dans les lo- giciels. Certaines considèrent les écarts entre l’estimation d’un paramètrebiet son estimation sans laième observation, une autre le rapport des déterminants des matrices de covariance des estimateurs des paramètres calculées avec et sans laième observation. . .

7.4 Régression partielle

Un modèle de régression multiple est une techniquelinéaire. Il est raison- nable de s’interroger sur la pertinence du caractère linéaire de la contribution d’une variable explicative à l’ajustement du modèle. Ceci peut être réalisé en considérant unerégression partielle.

On calcule alors deux régressions :

– la régression deY sur les variablesX1, . . . , Xj−1, Xj+1, . . . , Xp, dans laquelle lajème variable est omise, soitry(j)le vecteur des résidus obte- nus.

(10)

– La régression deXjsur les variablesX1, . . . , Xj−1, Xj+1, . . . , Xp. Soit rx(j)le vecteur des résidus obtenus.

La comparaison des résidus par un graphe (nuage de pointsry(j)×rx(j)) per- met alors de représenter la nature de la liaison entreXjetY conditionnelle- mentaux autres variables explicatives du modèle.

7.5 Graphes

Différents graphiques permettent finalement de contrôler le bien fondé des hypothèses de linéarité, d’homoscédasticité, éventuellement de normalité des résidus.

– Le premier considère le nuage de points des résidus studentisés croisés avec les valeurs prédites. Les points doivent être uniformément répartis entre les bornes−2et+2et ne pas présenter de formes suspectes.

– Le deuxième croise les valeurs observées deY avec les valeurs prédites.

Il illustre le coefficient de détermination R qui est aussi la corrélation linéaire simple entre by et y. Les points doivent s’aligner autour de la première bissectrice. Il peut être complété par l’intervalle de confiance desyiou celui de leurs moyennes.

– La qualité, en terme de linéarité, de l’apport de chaque variable est étudiée par des régressions partielles. Chaque graphe de résidus peut être com- plété par une estimation fonctionnelle ou régression non-paramétrique (loess, noyau, spline) afin d’en facilité la lecture.

– Le dernier trace la droite de Henri (Normal QQplot) des résidus dont le caractère linéaire de la représentation donne une idée de la normalité de la distribution.

8 Exemple

8.1 Les données

Elles sont extraites de Jobson (1991) et décrivent les résultats comptables de 40 entreprises du Royaume Uni.

Descriptif des 13 variables (en anglais pour éviter des traductions erronées) :

RETCAP Return on capital employed

WCFTDT Ratio of working capital flow to total debt LOGSALE Log to base 10 of total sales

LOGASST Log to base 10 of total assets CURRAT Current ratio

QUIKRAT Quick ratio

NFATAST Ratio of net fixed assets to total assets FATTOT Gross sixed assets to total assets PAYOUT Payout ratio

WCFTCL Ratio of working capital flow to total current liabilities GEARRAT Gearing ratio (debt-equity ratio)

CAPINT Capital intensity (ratio of total sales to total assets) INVTAST Ratio of total inventories to total assets

8.2 Résultat du modèle complet

La procédure SAS/REG est utilisée dans le programme suivant. La plupart des options sont actives afin de fournir la plupart des résultats même si certains sont redondants ou peu utiles.

options linesize=110 pagesize=30 nodate nonumber;

title;

proc reg data=sasuser.ukcomp1 all;

model RETCAP = WCFTCL WCFTDT GEARRAT LOGSALE LOGASST NFATAST CAPINT FATTOT INVTAST PAYOUT QUIKRAT CURRAT /dw covb Influence cli clm tol vif collin R P;

output out=resout h=lev p=pred r=res student=resstu ; run;

Les résultats ne sont pas listés de façon exhaustive, les matrices et tableaux trop volumineux et peu significatifs ont été tronqués.

Descriptive Statistics

Variables Sum Mean Uncorrected SS Variance Std Deviation

INTERCEP 40 1 40 0 0

WCFTCL 10.29 0.25725 6.4339 0.0970973718 0.3116045118

WCFTDT 9.04 0.226 4.9052 0.0733887179 0.2709035215

...

CURRAT 72.41 1.81025 279.0039 3.7929153205 1.9475408392

RETCAP 5.71 0.14275 1.5233 0.0181589103 0.1347550009

Uncorrected Sums of squares and Crossproducts

USSCP INTERCEP WCFTCL WCFTDT GEARRAT LOGSALE LOGASST NFATAST

INTERCEP 40 10.29 9.04 12.2 173.7 174.81 13.46

WCFTCL 10.29 6.4339 5.4926 1.5997 40.8722 46.2433 3.5523

WCFTDT 9.04 5.4926 4.9052 1.3972 34.4091 39.8937 2.9568

...

CURRAT 72.41 35.222 33.248 16.3188 265.2051 314.449 20.4126

RETCAP 5.71 2.0009 1.6226 1.5391 26.3636 25.379 1.6199

Correlation

CORR WCFTCL WCFTDT GEARRAT LOGSALE LOGASST NFATAST CAPINT

WCFTCL 1.0000 0.9620 -0.5520 -0.3100 0.1829 0.0383 -0.2376

WCFTDT 0.9620 1.0000 -0.5611 -0.4533 0.0639 -0.0418 -0.2516 GEARRAT -0.5520 -0.5611 1.0000 0.2502 0.0387 -0.0668 0.2532 ...

(11)

CURRAT 0.7011 0.8205 -0.3309 -0.6406 -0.0460 -0.2698 -0.3530

RETCAP 0.3249 0.2333 -0.1679 0.2948 0.1411 -0.2974 0.3096

La matrice des corrélations montre des valeurs élevées, on peut déja s’at- tendre à des problèmes de colinéarité.

Model Crossproducts X’X X’Y Y’Y

X’X INTERCEP WCFTCL WCFTDT GEARRAT LOGSALE LOGASST NFATAST

INTERCEP 40 10.29 9.04 12.2 173.7 174.81 13.46

WCFTCL 10.29 6.4339 5.4926 1.5997 40.8722 46.2433 3.5523

WCFTDT 9.04 5.4926 4.9052 1.3972 34.4091 39.8937 2.9568

...

X’X Inverse, Parameter Estimates, and SSE

INTERCEP WCFTCL WCFTDT GEARRAT LOGSALE LOGASST NFATAST INTERCEP 3.2385537 1.3028641 -1.570579 -0.05877 0.3001809 -0.826512 -0.238509 WCFTCL 1.3028641 7.0714100 -9.955073 -0.54391 -0.007877 -0.292412 -0.233915 WCFTDT -1.570579 -9.955073 15.968504 1.582975 0.0112826 0.3138925 0.149976 ...

Analysis of Variance

Sum of Mean

Source DF Squares Square F Value Prob>F

(1)

Model 12 0.55868 (2) 0.04656 (5) 8.408 (7) 0.0001 (8)

Error 27 0.14951 (3) 0.00554 (6)

C Total 39 0.70820 (4)

Root MSE 0.07441 (9) R-square 0.7889 (12) Dep Mean 0.14275 (10) Adj R-sq 0.6951 (13) C.V. 52.12940 (11)

(1) degrés de liberté de la loi de Fisher du test global

(2) SSR

(3) SSE ou déviance (4) SST=SSE+SSR (5) SSR/DF

(6) s2=MSE=SSE/DF est l’estimation deσ2u (7) StatistiqueF du test de Fisher du modèle global (8) P(fp;n−p−1> F);H0est rejetée au niveauαsiP < α (9) s=racine de MSE

(10) moyenne empirique de la variable à expliquée (11) Coefficient de variation100×(9)/(10) (12) Coefficient de déterminationR2 (13) Coefficient de détermination ajustéR02

Parameter Estimates

Parameter Standard T for H0: Variance

Variable DF Estimate Error Parameter=0 Prob>|T| Tolerance Inflation

(1) (2) (3) (4) (5) (6)

INTERCEP 1 0.188072 0.13391661 1.404 0.1716 . 0.00000000

WCFTCL 1 0.215130 0.19788455 1.087 0.2866 0.03734409 26.77799793 WCFTDT 1 0.305557 0.29736579 1.028 0.3133 0.02187972 45.70441500 GEARRAT 1 -0.040436 0.07677092 -0.527 0.6027 0.45778579 2.18442778 LOGSALE 1 0.118440 0.03611612 3.279 0.0029 0.10629382 9.40788501

LOGASST 1 -0.076960 0.04517414 -1.704 0.0999 0.21200778 4.71680805 NFATAST 1 -0.369977 0.13739742 -2.693 0.0120 0.20214372 4.94697537 CAPINT 1 -0.014138 0.02338316 -0.605 0.5505 0.37587215 2.66047911 FATTOT 1 -0.100986 0.08764238 -1.152 0.2593 0.23929677 4.17891139 INVTAST 1 0.250562 0.18586858 1.348 0.1888 0.13770716 7.26178633 PAYOUT 1 -0.018839 0.01769456 -1.065 0.2965 0.84271960 1.18663431 QUIKRAT 1 0.176709 0.09162882 1.929 0.0644 0.00408524 244.78377222 CURRAT 1 -0.223281 0.08773480 -2.545 0.0170 0.00486336 205.61923071

(1) estimations des paramètres(bj) (2) écarts-types de ces estimations(sbj)

(3) statistiqueT du test de Student deH0 :bj= 0 (4) P(tn−p−1> T);H0est rejetée au niveauαsiP < α (5) 1−R2(j)

(6) VIF=1/(1−R2(j))

Ces résultats soulignent les problèmes de colinéarités. De grands “VIF” sont associés à de grands écart-types des estimations des paramètres. D’autre part les nombreux tests de Student non significatifs renforcent l’idée que trop de variables sont présentes dans le modèle.

Covariance of Estimates

COVB INTERCEP WCFTCL WCFTDT GEARRAT LOGSALE LOGASST NFATAST INTERCEP 0.0179336 0.0072146 -0.008697 -0.000325 0.0016622 -0.004576 -0.001320 WCFTCL 0.0072146 0.039158 -0.055126 -0.003011 -0.000043 -0.00161 -0.00129 WCFTDT -0.008697 -0.055126 0.0884264 0.0087658 0.0000624 0.0017381 0.0008305 ...

Collinearity Diagnostics Condition Eigenvalue Index

8.76623 1.00000 2.22300 1.98580 0.68583 3.57518 0.56330 3.94489 0.31680 5.26036 0.18140 6.95173 0.12716 8.30291 0.08451 10.18479 0.02761 17.82007 0.01338 25.59712 0.00730 34.66338 0.00223 62.63682 0.00125 83.83978

Valeurs propres deX0Xet indice de conditionnement égal au rapportp

λ1j. Les grandes

(12)

valeurs(>10)insistent encore sur le mauvais conditionnement de la matrice à inverser.

Dep Var Predict Std Err Lower95 Upper95 Lower95 Upper95 Std Err Student Obs RETCAP Value Predict Mean Mean Predict Predict Residual Residual Residual

(1) (2) (3) (4) (5) (6) (7) (8) (9) (10)

1 0.2600 0.2716 0.053 0.1625 0.3808 0.0839 0.4593 -0.0116 0.052 -0.223 2 0.5700 0.3690 0.039 0.2882 0.4497 0.1962 0.5417 0.2010 0.063 3.183 3 0.0900 0.00897 0.063 -0.1205 0.1385 -0.1912 0.2092 0.0810 0.039 2.055 4 0.3200 0.2335 0.021 0.1903 0.2768 0.0748 0.3922 0.0865 0.071 1.212 5 0.1700 0.1164 0.046 0.0215 0.2113 -0.0634 0.2961 0.0536 0.058 0.920 6 0.2400 0.2542 0.033 0.1864 0.3219 0.0871 0.4212 -0.0142 0.067 -0.213 ...

Cook’s Hat Diag Cov INTERCEP WCFTCL WCFTDT

Obs -2-1-0 1 2 D Rstudent H Ratio Dffits Dfbetas Dfbetas Dfbetas

(11) (12) (13) (14) (15) (15) (15) (15) (15)

1 | | | 0.004 -0.2194 0.5109 3.2603 -0.2242 0.0299 0.0632 -0.0911 2 | |******| 0.302 3.9515 0.2795 0.0050 2.4611 0.9316 -0.3621 0.3705 3 | |**** | 0.832 2.1955 0.7192 0.6375 3.5134 0.5543 2.1916 -2.0241 4 | |** | 0.010 1.2228 0.0803 0.8585 0.3613 -0.0132 -0.0835 0.1207 5 | |* | 0.041 0.9175 0.3864 1.7591 0.7280 -0.0386 0.0906 0.0060 6 | | | 0.001 -0.2088 0.1969 1.9898 -0.1034 0.0189 -0.0203 0.0243 15 | ***| | 0.150 -1.9223 0.3666 0.4583 -1.4623 -0.2063 0.3056 -0.6231 16 | |*** | 3.471 1.6394 0.9469 8.5643 6.9237 -0.9398 0.2393 -0.2323 17 | | | 0.000 0.1401 0.1264 1.8514 0.0533 0.0223 0.0090 -0.0113 20 | ***| | 0.054 -1.9588 0.1677 0.3278 -0.8794 -0.0360 -0.3302 0.4076 21 | ****| | 4.970 -2.2389 0.9367 2.6093 -8.6143 -1.2162 0.1768 -0.1422

...

(1) variable à expliqueryi

(2) valeur ajustéeybi

(3) écart-type de cette estimations

ybi

(4)et (5) Intervalle de confiance pour l’estimation deE(yi) (6) et (7) Intervalle de confiance pour l’estimation deyi

(8) résidus calculései

(9) écarts-types de ces estimations

(10) résidus standardisés (ou studentisés internes)ri (11) repérage graphique des résidus standardisés :∗= 0.5.

(12) Distance de Cook

(13) résidus studentisés (externes)ti

(14) Termes diagonaux de la matrice chapeauH (15) autres indicateurs d’influence

Seules les observations 16 et 21 seraient à inspecter avec attention.

Sum of Residuals 0

Sum of Squared Residuals 0.1495 (SSE) Predicted Resid SS (Press) 1.0190 (PRESS)

Sélection du modèle

Parmi les trois types d’algorithmes et les différents critères de choix, une des façons les plus efficaces consistent à choisir les options du programme ci-dessous. Tous les modèles (parmi les plus intéressants selon l’algorithme de Furnival et Wilson) sont considérés. Seul le meilleur pour chaque niveau, c’est- à-dire pour chaque valeurpdu nombre de variables explicatives sont donnés.

Il est alors facile de choisir celui minimisant l’un des critères globaux (Cpou BIC ou . . . ).

options linesize=110 pagesize=30 nodate nonumber;

title;

proc reg data=sasuser.ukcomp2 ;

model RETCAP = WCFTCL WCFTDT GEARRAT LOGSALE LOGASST

NFATAST CAPINT FATTOT INVTAST PAYOUT QUIKRAT CURRAT / selection=rsquare cp rsquare bic best=1;

run;

N = 40 Regression Models for Dependent Variable: RETCAP R-square Adjusted C(p) BIC Variables in Model

In R-square

1 0.1055 0.0819 78.3930 -163.26 WCFTCL 2 0.3406 0.3050 50.3232 -173.72 WCFTDT QUIKRAT 3 0.6154 0.5833 17.1815 -191.14 WCFTCL NFATAST CURRAT 4 0.7207 0.6888 5.7146 -199.20 WCFTDT LOGSALE NFATAST CURRAT 5 0.7317 0.6923 6.3047 -198.05 WCFTDT LOGSALE NFATAST QUIKRAT CURRAT 6 0.7483 0.7025 6.1878 -197.25 WCFTDT LOGSALE NFATAST INVTAST QUIKRAT CURRAT 7 0.7600 0.7075 6.6916 -195.77 WCFTDT LOGSALE LOGASST NFATAST FATTOT QUIKRAT CURRAT 8 0.7692 0.7097 7.5072 -193.87 WCFTDT LOGSALE LOGASST NFATAST FATTOT INVTAST QUIKRAT CURRAT 9 0.7760 0.7088 8.6415 -191.59 WCFTCL WCFTDT LOGSALE LOGASST NFATAST FATTOT INVTAST QUIKRAT

CURRAT

10 0.7830 0.7082 9.7448 -189.15 WCFTCL WCFTDT LOGSALE LOGASST NFATAST FATTOT INVTAST PAYOUT QUIKRAT CURRAT

11 0.7867 0.7029 11.2774 -186.40 WCFTCL WCFTDT LOGSALE LOGASST NFATAST CAPINT FATTOT INVTAST PAYOUT QUIKRAT CURRAT

12 0.7888 0.6950 13.0000 -183.51 WCFTCL WCFTDT GEARRAT LOGSALE LOGASST NFATAST CAPINT FATTOT INVTAST PAYOUT QUIKRAT CURRAT

Dans cet example,Cpet BIC se comportent de la même façon. Avec peu de variables, le modèle est trop biaisé. Ils atteignent un minimum pour un modèle à 4 variables explicatives puis croissent de nouveau selon la première bissec- trice. La maximisation duR2ajusté conduirait à une solution beaucoup moins parcimonieuse. On note par ailleurs que l’algorithme remplace WCFTCL par WCFTDT. Un algorithme par sélection ne peut pas aboutir à la solution opti- male retenue.

Résultats du modèle réduit

proc reg data=sasuser.ukcomp1 all;

model RETCAP = WCFTDT NFATAST LOGSALE CURRAT /dw Influence cli clm tol vif collin r p ;

(13)

output out=resout h=lev p=pred r=res student=resstu ; plot (student. r.)*p.;

plot p.*retcap;

run;

Analysis of Variance

Sum of Mean

Source DF Squares Square F Value Prob>F

Model 4 0.51043 0.12761 22.583 0.0001

Error 35 0.19777 0.00565

C Total 39 0.70820

Root MSE 0.07517 R-square 0.7207 Dep Mean 0.14275 Adj R-sq 0.6888

C.V. 52.65889

Parameter Estimates

Parameter Standard T for H0: Variance

Variable DF Estimate Error Parameter=0 Prob > |T| Tolerance Inflation

INTERCEP 1 0.024204 0.07970848 0.304 0.7632 . 0.00000000

WCFTDT 1 0.611885 0.08257125 7.410 0.0001 0.28956358 3.45347296 NFATAST 1 -0.474448 0.07015433 -6.763 0.0001 0.79119995 1.26390301 LOGSALE 1 0.060962 0.01606877 3.794 0.0006 0.54792736 1.82505944 CURRAT 1 -0.068949 0.01321091 -5.219 0.0001 0.21887292 4.56886122 Collinearity Diagnostics

Condition Var Prop Var Prop Var Prop Var Prop Var Prop Number Eigenvalue Index INTERCEP WCFTDT NFATAST LOGSALE CURRAT

1 3.86169 1.00000 0.0014 0.0076 0.0098 0.0016 0.0052 2 0.87647 2.09904 0.0014 0.0608 0.0355 0.0046 0.0427 3 0.17128 4.74821 0.0206 0.1731 0.5177 0.0170 0.0667 4 0.07821 7.02670 0.0026 0.7201 0.4369 0.0388 0.5481 5 0.01235 17.68485 0.9741 0.0384 0.0000 0.9381 0.3373

Cook’s Hat Diag Cov INTERCEP WCFTDT NFATAST Obs -2-1-0 1 2 D Rstudent H Ratio Dffits Dfbetas Dfbetas Dfbetas 15 | ***| | 0.211 -1.9115 0.2372 0.9096 -1.0659 -0.0240 -0.8161 -0.3075 16 | |* | 1.554 0.9919 0.8876 8.9162 2.7871 0.0320 -0.0746 0.1469 17 | | | 0.001 0.3866 0.0460 1.1854 0.0849 0.0348 -0.0430 0.0256

Sum of Residuals 0

Sum of Squared Residuals 0.1978 (Par rapport au modèle complet, la déviance augmente Predicted Resid SS (Press) 0.3529 mais PRESS diminue très sensiblement)

Références

Documents relatifs

Dans la section 2 nous d´ecrivons comment le mod`ele de r´egression `a processus latent peut ˆetre exploit´e dans le cadre de la r´egression non lin´eaire.. La section 3 pr´esente

En présence d’hétérogénéité inobservée dans l’équation de sélection il est connu que les méthodes à variables instrumentales n’utilisant pas explicitement de modèle

Nous obtenons une repr´ esentation asymptotique de notre statistique de test se rap- prochant de celle obtenue sous des hypothses plus restrictives par Lopez et Patilea (2009)

Enfin la méthode à double noyau semble plus avantageuse que celle à simple noyau : erreur quadratique plus faible, courbes quantiles plus lisses et ne pouvant pas se croiser.. Elle

Ajuster un modèle de régression linéaire simple permettant d’expliquer la variable CRIM à partir de la variable URBE qui est la plus corrélée avec CRIM (on pourra utiliser la

(e) Ajuster un modèle de régression linéaire multiple avec interaction permettant d’expliquer la variable logclaimcst0 en fonction des variables gender et agecat, considérée comme

Les choix : pr´esence ou non d’une interaction entre deux variables, pr´esence ou non d’un terme quadratique se traitent alors avec les mˆemes outils que ceux des choix de

A moins que y ; ne soit injective, G t ne sera pas antisymétrique : la présences de deux arcs entre e et e' traduit en effet précisément le fait que Yi{e) = y«(e')- ^ e s t t r e