Tests d’hypothèse en présence d’homoscédasticité

Le cas de l’homoscédasticité ne présente en principe rien de différent par rapport au cas général.

On peut en principe remplacerΣˆ_β_ˆdans la formule ci-dessus pourF parΣ˜_β_ˆqui provient de la sous-section6.1ci-dessus. Donc, nous avons :

F ≡

Rβˆ−r⁰h

RΣ˜βˆR⁰i⁻¹

Rβˆ−r /q,

Par contre, dans le cas homosc´edastique, il y a une fac¸on plus simple d’effectuer des tests

d’hypothèse. On peut estimer le modèle sous l’hypothèse nulle et sous l’hypothèse alternative, et utiliser la formule suivante :

F = (SSR_restricted−SSRunrestricted)/q SSRunrestricted/(n−kunrestricted−1),

oùSSR_restricted est la somme des résidus carrés du modèle estimé en imposant les contraintes et SSRunrestricted est la somme des résidus carrés du modèle estimé sans imposer les contraintes.

L’hypothèse nulle que l’on veut tester revient à imposer des contraintes sur les valeurs des coefficients. Une formule équivalente est la suivante :

F = (R²unrestricted−R²_restricted)/q

(1−R²unrestricted)/(n−kunrestricted−1),

oùR²_restrictedest la mesure de l’ajustement statistiqueR²du modèle estimé en imposant les contraintes etSSRunrestrictedest leR²du modèle estimé sans imposer les contraintes. Vous devriez montrer algébriquement comment passer de la première à la deuxième version de ce test.

La d´emonstration est en fait tr`es simple.

Nous n’allons pas montrer formellement pourquoi les statistiquesF dans le cas homoscédastique peuvent être transformées pour être écrites sous cette forme. On peut trouver une démonstration dans la plupart des manuels d’économétrie avancés comme Greene (2000, section 7.2.3). Je reproduis la preuve dans l’encadré qui suit. La lecture de cet encadré est recommandé seulement à

ceux qui s’y int´eressent vraiment.

Dans cet encadr´e je montre l’´equivalance

La preuve passe par l’estimation du modèle de régression multiple sujet aux contraintes que nous voulons tester. Le problème peut s’écrire

minβ (Y −Xβ)⁰(Y −Xβ)

sujet `a la contrainte

Rβ =r.

Nous pouvons écrire le problème de minimisation à l’aide d’un vecteur de multiplicateurs de Lagrangeλcomme suit, définissantS comme l’expression lagrangienne à minimiser.

min

β,λ S = (Y −Xβ)⁰(Y −Xβ) + 2λ⁰(Rβ−r). Les conditions du premier ordre du probl`eme sont

∂S

∂β = 0 = 2X⁰(y−Xβ) + 2R⁰λ;

∂S

∂λ = 0 = 2 (Rβ−r).

Je vous invite à faire le lien entre ces conditions du premier ordre et les règles de différentiation matricielle que nous avons vues en début de chapitre.

Nous pouvons regrouper les CPO ensemble en notation matricielle comme suit.







X⁰X R⁰

R 0











 β˜

˜λ





=





 X⁰Y r







où j’ai écrit des˜sur les inconnus du problème pour souligner le fait que les solutions au

probl`eme constituent notre estimateur MCO sous contraintes.

La solution est donn´ee par



Je suppose ici que la matrice qu’il faut inverser est non singuli`ere. Pour trouver l’inverse de la matrice, nous pouvons utiliser la formule suivante pour les matrices partitionn´ees.



Je vous invite à vérifier qu’il s’agit bel et bien de l’inverse de la matrice originale en faisant les multiplications matricielles appropriées pour retrouver la matrice identité. Appliquant cette formule dans le cas qui nous préoccupe, nous obtenons

β˜= ˆβ−(X⁰X)⁻¹R⁰h satisfait ces restrictions exactement (autrement dit siRβˆ=r), alors nous avonsλ˜ = 0et

l’estimateur des MCO sous contraintes devient ´egal `a l’estimateur MCO sans contrainte.

Nous sommes sur le point de pouvoir montrer que la formule générale pour la statistiqueF se réduit au cas spécial sous l’hypothèse de l’homoscédasticité. Je prends à ce stade-ci un

raccourci en faisant appel à un résultat développé dans l’article de Greene et Seaks (1991), qui montrent que la variance de l’estimateurβ˜(sous l’hypothèse de l’homoscédasticité) est donnée par

Var β|X˜

=σ²(X⁰X)⁻¹−σ²R⁰h

R(X⁰X)⁻¹R⁰i−1

R(X⁰X)⁻¹.

o`u

σ² ≡Var(ui|Xi).

Notez que le premier terme est la variance de l’estimateur MCOβˆsous l’hypoth`ese

d’homoscédasticité. Pour calculer la variance deβ, il faut soustraire une matrice qui (on peut˜ montrer) est une matrice positive-définie. Cela veut dire que la variance deβ˜estplus petite que la variance deβ, la différence étant une matrice positive-définie. L’interprétation, c’estˆ que le fait d’imposer les contraintes et donc d’imposer de l’information additionnelle

concernant les valeurs des param`etresβr´eduit la variance de l’estimateur.

Après cette petite parenthèse, procédons maintenant à notre démonstration. Définissons

U˜ ≡Y −Xβ˜

=Y −Xβˆ−X

β˜−βˆ

= ˆU −X

β˜−βˆ . Nous avons

U˜⁰U˜ =

Uˆ−X

β˜−βˆ⁰

Uˆ −X

β˜−βˆ

= ˆU⁰Uˆ −Uˆ⁰X

β˜−βˆ

−

β˜−βˆ

X⁰Uˆ +

β˜−βˆ

X⁰X

β˜−βˆ

= ˆU⁰Uˆ +

β˜−βˆ

X⁰X

β˜−βˆ

où les deux termes dans l’avant dernière expression sont égaux à zéro puisque les résidus MCO sont orthogonaux àX. Donc

U˜⁰U˜ = ˆU⁰Uˆ +

β˜−βˆ0

X⁰X

β˜−βˆ

≥Uˆ⁰U .ˆ

Notez que dans ce casU˜⁰U˜ etUˆ⁰Uˆ sont des scalaires, et donc l’inégalité est une inégalité ordinaire. Le dernier terme du côté droit dans cette équation est une forme quadratique est donc doit être positif. À moins queβ˜= ˆβ, il va être strictement positif. Ceci est logique.U˜⁰U˜ est une somme de résidus au carré qui résulte de la solution d’un problème de minimisation sous contrainte, tandis queUˆ⁰Uˆ est une somme de résidus au carré qui résulte de la solution du même problème de minimisation, sans imposer la contrainte. Il est normal que le minimum trouvé comme solution au problème non contraint soit inférieur au minimum trouvé au

probl`eme sous contrainte.

Cela veut dire queU˜⁰U˜ −Uˆ⁰Uˆ est une mesure de la détérioration de l’ajustement en imposant les restrictions, et peut être utilisé pour construire le testF. La solution que nous avons trouvée pourβñous donne

β˜−βˆ

=−(X⁰X)⁻¹R⁰h

R(X⁰X)⁻¹R⁰i⁻¹

Rβˆ−r .

Substituant, on a

U˜⁰U˜ −Uˆ⁰Uˆ =

β˜−βˆ0

X⁰X

β˜−βˆ

Rβˆ−r0h

R(X⁰X)⁻¹R⁰i−1

(X⁰X)⁻¹ R(X⁰X)⁻¹X⁰X(X⁰X)⁻¹R⁰

R(X⁰X)⁻¹R⁰i−1

Rβˆ−r

Rβˆ−r0h

R(X⁰X)⁻¹R⁰i−1h

R(X⁰X)⁻¹R⁰i h

R(X⁰X)⁻¹R⁰i−1

Rβˆ−r

Rβˆ−r0h

R(X⁰X)⁻¹R⁰i−1

Rβˆ−r .

Notez aussi que dans ce cas,

U˜⁰U˜ ≡SSR_restricted et

Uˆ⁰Uˆ ≡SSRunrestricted.

Voici la dernière étape dans l’argument. Sous l’hypothèse nulle (queRβ =r), puisqueβˆsuit (asymptotiquement ou approximativement) une distribution normale, alors

Rβˆ=r suit une distribution asymptotiquement normale aussi, puisqu’il s’agit d’une combinaison linéaire de variables aléatoires (asymptotiquement) normales. Sa variance est donnée par

Var

Rβˆ−r

=R Varβˆ

R⁰ =σ²R(X⁰X)⁻¹R⁰

sous l’hypothèse d’homoscédasticité. Pour cette raison, nous pouvons montrer que

Rβˆ−r0

σ²R(X⁰X)⁻¹R⁰ Rβˆ−r

suit (asymptotiquement ou approximativement en échantillon fini) une distribution chi-carré avecqdegrés de liberté, où comme d’habitudeqest le nombre de restrictions. Le problème, c’est queσ² n’est pas observable. La dernière étape est de convertir en une statistique que

nous pouvons calculer avec les donn´ees que nous avons. Nous pouvons montrer que

F ≡

Rβˆ−r0

σ²R(X⁰X)⁻¹R⁰

Rβˆ−r /q [(n−k−1)s²/σ²]/(n−k−1)

est le ratio de deux variables chi-carr´e (encore une fois asymptotiquement ou

approximativement en échantillon fini), chacune divisée par son nombre de degrés de liberté.

Lesσ² au numérateur et au dénominateur s’annulent, et nous savons que notre estimateur (convergent et non biaisé)s² est donné par

s² ≡ Uˆ⁰Uˆ

(n−k−1) =SSRunrestricted/(n−k−1).

⇒(n−k−1)s² =SSRunrestricted

Donc nous avons

F =

Rβˆ−r 0

R(X⁰X)⁻¹R⁰

Rβˆ−r

/q SSRunrestricted/(n−kunrestricted−1)

= (SSR_restricted−SSRunrestricted)/q SSRunrestricted/(n−kunrestricted−1),

ce qui fut à montrer. Le ratio de ces variables chi-carré, les deux divisées par les degrés de liberté, suit une distributionF. Encore une fois, si nous ne sommes pas prêts à faire

l’hypothèse que les erreurs du modèle non contraintu_i sont générées par une loi normale, ce résultat est un résultat asymptotique et ne tient que de façon approximative en échantillon fini.

Puisque nous utilisons un r´esultat qui tient asymptotiquement ou approximativement en grand

´echantillon, nous utilisons la fonction de distribution cumul´ee deF_q,∞.

Ces tests sont faciles à calculer et ont une interprétation intuitive simple. Par contre, ils ne sont valides que dans le cas d’erreurs homoscédastiques.

Un exemple concret pourrait aider à rendre plus clair le conceptestimer le modèle en imposant les contraintes. Soit le modèle de régression multiple standard, écrit en notation non matricielle :

Y_i =β₀+X_1iβ₁+X_2iβ₂+. . .+X_kiβ_k+u_i.

Nous voulons tester l’hypothèse nulle queβ₁+β₂ = 1. Notez que l’hypothèse nulle revient à imposer une restriction (contrainte) sur la valeur de ces deux coefficients. Isolantβ₂ nous donne

β₂ = 1−β₁.

Maintenant, substituant dans le mod`ele, nous avons :

Y_i =β₀+X_1iβ₁+X_2i(1−β₁) +. . .+X_kiβ_k+u_i,

que nous pouvons r´e´ecrire comme :

Y_i−X_2i =β₀+ (X_1i−X_2i)β₁+X_3iβ₃+. . .+X_kiβ_k+u_i.

On peut estimer ce modèle (la version contrainte) avec un logiciel commeR,STATAouGRETL en définissant une nouvelle variable dépendanteY˜_i ≡Y_i−X_2i et une nouvelle variable

explicativeZ_i ≡X_1i−X_2i. Le mod`ele `a estimer devient :

Y˜_i =β₀+Z_iβ₁+X_3iβ₃+. . .+X_kiβ_k+u_i.

Notez bien que ce que nous venons de fairen’est pas la même choseque ce que nous avons fait pour transformer le modèle pour tester une seule hypothèse dans le cadre d’une combinaison linéaire de coefficients. Dans ce dernier cas, nous avons proposé d’estimer un modèle équivalent au modèle initial. Puisqu’il était équivalent, l’estimation était valide sans imposer des hypothèses additionnelles. Dans le présent contexte, le modèle transformé n’est pas équivalent au modèle

initial. Il n’est valide que sous les contraintes deH₀.

Nous savons que la loiF est d´efinie seulement pour des valeurs positives de la variable al´eatoire.

Dans ce cas, les estimés MCO du modèle contraint proviennent de la solution à un problème de minimisation contraint, où la contrainte est l’hypothèse nulle que nous voulons tester. Les estimés MCO du modèle non contraint proviennent de la solution à un problème de minimisation où cette contrainte n’est pas imposée. Pour cette raison, la somme des résidus carrés du modèle contraint doit être au moins aussi élevée que pour le modèle non contraint, et la statistiqueF calculée par une des formules ou par l’autre doit être positive.¹³

L’extension au cas d’hypoth`eses jointes est directe.

Dans le document Département des sciences économiques Ecole des sciences de la gestion ´ Université du Québec à Montréal (Page 80-88)