• Aucun résultat trouvé

Tests valident d’un côté de la distribution I

N/A
N/A
Protected

Academic year: 2022

Partager "Tests valident d’un côté de la distribution I"

Copied!
61
0
0

Texte intégral

(1)

Chapitre 4

Analyse de la regression multiple : l’inférence

Ahmed Tritah, Université du Maine

Novembre 2012

(2)

Introduction

I On souhaite tester des hypothèses sur les paramètres du modèle de régression sur la population

I On doit connaître la distribution des estimateurs obtenus par les MCO. Pour cela on rajoute l’hypothèse que les erreurs dans la population suivent une loi de distribution normale.

I A partir de là, on présente les tests d’hypothèses :

I concernant les paramètres individuels

I concernant un ensemble de paramètres

I concernant des restrictions multiples sur les paramètres.

I On évalue ensuite dans quelles mesures on peut exclure du modèle un groupe de variables explicatives.

(3)

I Sous les hypothèses de Gauss-Markov (MLR1-MLR5) on connaît l’espérance et la variance des estimateurs des MCO.

I Pour procéder à des inférences sur les paramètres on doit connaître l’ensemble de distribution des βˆj.

I Pour une valeur donnée d’échantillonnage de nos variables explicatives, cette distribution va dépendre de la distribution sous-jacente non-observable des erreurs (u).

I On fait l’hypothèse supplémentaire que les erreurs suivent une loi de distribution normale dans la population :

) c’est l’hypothèse de normalité des erreurs Hypothèse MLR6 (Normalité)

Les termes d’erreurs de la population sont indépendants des variables explicatives, x1,x1, ...,xk et suivent une loi de distribution normale de moyenne égale à zéro et de variance σ2 :u Normal(0,σ2).

(4)

I MLR6 implique MLR4 (moyenne conditionelle nulle des erreurs) et MLR5 (homosédasticité)

I MLR1-MLR6 : forment les hypothèses du modèle linéaire classique (MLC).

I Sous les hypothèses MLC, les estimateurs des MCO sont sans biais et à variance minimale. A partir de là :

I Non nécessaire de se limiter à des estimateurs linéaires.

)Propriété d’e¢ cacité plus forte que sous les hypothèses G-M I De façon synthétique les hypothèses MLC sur la population

s’écrivent :

yjx Normal(β+β1x1+β2x2+...+βkxk,σ2),

I L’hypothèse de normalité peut être justi…ée par Le Théorème Centrale Limite (TCL) :

I Ce théorème suppose que les facteurs qui a¤ectent sont additifs : peu vraissemblable

(5)

I Dans la pratiique, la normalité est une question empirique.

I Ex. : Peut-on considérer que le salaire, conditionel au niveau d’éducation, d’ancienneté et d’expérience, suit loi normale ?

I Parfois la transformation de la variable dépendante (log(salaire);log(prix)) permet de se rapprocher d’une distribution normale.

I MLR6 est clairement invalide lorsquey ne prend que quelques valeurs discrètes.

I Le problème lié à la non nomalité des erreurs est limité lorsqu’on travaille sur de grands échantillons.

I La normalité des erreurs implique la nomalité de la distribution d’échantillonage des estimateurs MCO.

(6)

Theorem (Distribution d’Echantillonage Normale)

Sous les hypothèses CLM (MLR1-MLR6), conditionelle à la valeur d’échantillon des variables indépendantes,

βˆj Normal[βj,Var(βˆj)] (1) où Var(βˆj)est donné dans Chap. 3, Eq.(). Donc,

(βˆj βj)/sd(βˆj) Normal[0,1]

I Eléments de démonstration: βˆj =βj +ni=1wijui, wij =rˆij/SSRj (cf chap. 3, Eq.) ;wij fonction desxij ) βˆj : fonctions linéaires des erreurs dans l’échantillon fui,i =1, ..,ng.

Sous MLR6 et MLR2,ui sont des VA indépendantes qui suivent la même loi de distribution normaleN(0,σ2),leur combinaison linéaire suit également une loi normale.

(7)

I En plus de Eq. (1), toutes combinaisons linéaire des

fβˆj,j =1,2, ...,kg suit également une distribution normale, et tout sous ensemble desfβˆj,j =1,2, ...,kgsuit une loi de distribution normale jointe. Ces résultats sont utilisés dans les procédures de tests.

(8)

I Le modèle de population s’écrit

y =β0+β1x1+...+βkxk+u, (2)

I On suppose que les hypothèse MLC sont véri…ées ) estimateur MCO sans biais.

I Remarque : les βj sont une propriété de la population inconnue, et ne seront jamais connu avec certitude. On fait des hypothèses sur la valeur des βj. On utilise l’inférence statistique pour tester ces hypothèses.

I Le résultat suivant est essentiel pour construire les tests d’hypothèse

Theorem (La distribution t, des estimateurs standardisés) Sous les hypothèses MLC (MLR1-MLR6),

(βˆj βj)/se(βˆj) tn k 1 (3) où k+1 est le nombre de paramètres inconnu dans le modèle de population Eq. (2).

(9)

I La distribution de student provient de la VAσˆ qui remplace la constanteσ dans sd(βˆj) (cf Eq. ()).

I Ce théorème important permet de tester des hypothèses sur βj,tel que

H0 :βj =0 (4)

une fois x1,x2, ...,xj 1,xj+1, ...,xk pris en compte,xj n’a aucun impact sur la valeur espérée de y.

I Attention la valeur de y est en éspérance. On ne peut pas postuler H0 :"xj a un e¤et partiel sur y".

I Exemple :

log(salaire) =β0+β1educ+β2exper+β3anc+u

I On peut souhaiter tester H0 :β2=0

I La statistique utilisée pour tester (4) est let de studentde βˆj : tβˆ

j

βˆj/se(βˆj) (5)

(10)

I tβˆ

j a les propriétés necessaires pour detecter si βˆj 6=0

I tβˆ

j est de même signe que βˆj

I Pour une valeur donné dese(βˆj),tˆ

βj sera d’autant plus élevée que βˆj est élevée

I En pratique βˆj ne sera jamais égal à zéro. On souhaite

connaître la distance à zéro. Il faut prendre en compte l’erreur d’échantillonage de βˆj quand on évalue cette distance, d’où la division parse(βˆj).

I tβˆ

j mesure donc de combien d’écartype estimé βˆj est distant de zéro (similitude avec un test de moyenne).

I Plus tβˆ

j est élevée plus la probabilité de rejeter H0 sera élevée.

I Règle de rejet de (4) à un niveau de signi…cation donnée :

I On doit connaître la distribution detβˆ

j lorsque H0 est vrai.

I Le théorème Eq.(3) donne cette distribution il s’agit de tn k 1.

(11)

Tests valident d’un côté de la distribution I

I Pour déterminer la régle de rejet on doit dé…nir une alternative

I Une alternative valide sur un côté de la distribution est :

H1 :βj >0 (6)

I La théorie peut suggérer une telle alternative

I Cele revient à poser H0 :βj 0

I Choix d’une règle de rejet à un niveau de signi…cativité (probabilité de rejeter H0 lorsque H0 est vraie).

I Ici sous H0,tβˆ

j suit une distributiont (moyenne nulle), sous H1 la moyenne est positive. On recherche donc des valeurs de tβˆ

j positives et su¢ sement éloignées de zéro pour rejeter H0

en faveur de H1.

(12)

I Pour un seuil de signi…cativité de 5%, on cherche le 95e me` percentile de la distribution det àn k 1 degrés de liberté.

Larégle de rejet de H0 est alors : tβˆ

j >sc (7)

I s (out critique) dénote le seuil de signi…cativité (àc%)

I s est obtenu pour un niveau de signi…cativité et un nombre de degré de liberté

I Valeur négative pourtβˆ

j )on ne peut pas rejeter H0 (cf …g.

tableau).

I Pour des degrés de liberté su…sement élevés

(n k 1>120) la distribution de student tend vers une loi de distribution normale standard.

(13)

Example (Equation de salaire)

Soit l’estimation de l’équation de salaire suivante : log(salaire) = 0,284

(,104)

+0,092

(,007)

+0.0041

(,0017)exper+0.022

(,003)anc n = 526, R2 =0,316

Les erreurs types sont indiqués entre parenthèse sous chaque coe¢ cients. On souhaite tester l’hypothèse H0 : βexper=0 contre H1 :βexper >0.

I Quel est le nombre de degré de liberté ?

I βˆexper est-il statistiquement signi…cative (i.e. supérieur à zéro) à 5% ? Qu’en est-il à 1% ?

I Quel est le gain de salaire associé à 3 années supplémentaires d’expérience ?

(14)

I En pratique on peut également considérer :

H1 : βj <0, (8)

I La régle de rejet de (8) est symétrique à celle de (6), la valeur critique se trouvera à gauche de la distribution t :

tβˆ

j < c (9)

c est la valeur critique de l’alternative H1 :βj >0 (avec c >0, schéma tableau).

(15)

Example (Résultats scolaires et taille des écoles) L’apprentissage est-il meilleur dans des écoles avec moins d’e¤ectifs ("toutes choses égales par ailleurs", notemment à e¤ectifs par classes identiques) ?

La variable dépendante est le % d’étudiants d’une école qui obtiennent un résultat satisfaisants aux tests (math10). Taille des écoles mesurée par le nombre d’élèves insrits (enroll).

On teste H0 :βenroll =0 contre : H1 : βenroll <0.

Autres variables de controles : salaire annuel moyen des

enseignants (totcomp), Personnels par milliers d’étudiants (sta¤).

L’équation estimée, avec les écartypes est :

\

math10 = 2,274

(6,113)

+,00046

(,00010)

totcomp+, 048

(,040)sta¤ 0.00020

(,00022)enroll n = 408, R2 =0,0541

(16)

Example (suite)

I Commentez le signe des coe¢ cients

I Faites un test de student sur le coe¢ cient associé à enroll

I Puis-je rejeter H0 à 5% qu’en est-il à 15% ?

I La variable totcomp est-elle signi…cative à 1%

I Puis-je rejeter l’hypothèse H0 : βsta¤ =0?

Pour illustrer l’importance des formes fonctionelle on ré-éstime le modèle avec toutes les variables explicative en log.

\

math10= 207,66

(48,70)

+21,16

(4,06)

log(totcomp) +3,98

(4,19)

log(sta¤) 1,29

(0,69)

log(enroll) n =408, R2 =0,0654

(17)

Example (suite)

I Puis-je rejeter l’hypothèse H0 : βenroll =0 à 5% ?

I De combien augmente math10 si les e¤ectifs d’une école\ augmente de 10% ?

I Quel est le modèle préférable ?

(18)

Tests valident des deux côtés de la distribution (bilatérals)

I Ces tests, plus répandus, prennent la forme

H1 :βj 6=0 (10)

I plus prudent lorsqu’on a pas d’idée à-priori sur le signe deβj.

I Attention : ne pas utiliser les résultats d’estimation à-posteri pour former une hypothèse à priori sur le signe de βj. I La règle de rejet est alors :

jtβˆjj>c (11)

I c prend en compte que la zone de rejet se situe des deux côtés de la distribution

I Exemple : pour un seuil à 5%,cest le 97,5 percentile de la distribution det à n k 1 degrés de liberté.

I Si le test est rejeté on indique "xj est statistiquement

signi…catif, ou statistiquement di¤érent de zéro à 5%". Sinon,

I "xj est statistiquement non signi…catif à 5%"

(19)

Example (Déterminants des résultats à l’université) L’absentéisme (skipped : # de cours absents) a¤ecte t-il les résultats aux examens (colGPA). Le modèle estimé est :

\

colGPA = 1,39

(,33)

+,412

(,094)

hsGPA+, 015

(,011)ACT ,083

(,026)

skipped n = 141, R2 =0,234

I Quelles sont les valeurs critiques à 5% et à 1%.

I Les coe¢ cients associés à hsGPAetACT sont-ils signi…catifs ?

I Commentez l’impact de ACT.

I L’absentéisme a t-il un e¤et statistiquement et économiquement signi…catif ? (infocolGPA=3,06;

σcolGPA=0,37)

I Dans ce modèle des tests unilatéraux sont-ils appropriés (ACT est-elle signi…catif dans ce cas).

(20)

Tester d’autres hypothèses sur

βj

I Exemple : test de l’égalité de βj à une certaine valeur.

L’hypothèse nulle est :

H0: βj =aj (12)

I Le t-student approprié est :

t = (βˆj aj)/se(βˆj) estimation valeur testee´ erreur type

sous l’hypothèse (12) cette statistique (noté aussi tcal) suit une loi de student tn k 1 (cf Theorème)

I On peut e¤ectuer des test unilatéraux : on teste H0 contre H1 :βj >aj avec rejet de H0 si tcal >c;

I ou bilatéraux :on teste H0 contre H1: βj 6=aj avec rejet de H0 si jtcalj>c.

(21)

Example (taille des campus et nombre d’infractions) On postule le modèle à élasticité constante :

log(delits) =β0+β1log(etudiants) +u

I Tester β1 =0 a peu d’intérêt ( ?). Plus intéressant de tester : H0 =1 contre H1 =β1>1

I Les résultats sur un échantillon de 97 campus fournissent : log\(delits) = 6,63

(1,03)

+1,27

(0,11)

log(etudiants); n=97, R2 =0,585

I Les délits sont-ils (statistiquement) plus fréquents dans les campus avec plus d’étudiants ?

I Attention : regression linéaire simple )di¢ cile d’établir une relation "toutes choses égales par ailleurs".

(22)

Example (Pollution et prix de l’immobilier)

I Lien entre prix median des habitations dans une localité (price) et niveau de pollution à l’oxyde d’azote (nox). On controlle pour la distance aux bassins d’emploi (dist), le nombre moyen de chambre par habitations (rooms), et le nombre moyen d’étudiants par enseignant dans les écoles de la localité (stratio). Le modèle postulé est :

log(price) = β0+β1log(nox) +β2log(dist) +β3rooms +β4stratio+u

I Quel est l’interprétation de β1?

I On souhaite tester H0 : β1= 1 contre H1 : β1 6= 1.Le modèle estimé est :

(23)

Example (suite)

log\(price) = 11,08

(0,32)

,954

(,117)

log(nox) +,134

(,043)

log(dist) +,255

(,019)

rooms ,052

(,006)

stratio n = 506, R2 =,581

I Les coe¢ cients estimés ont-ils le signe attendu ?

I Les coe¢ cients estimés sont-ils statistiquements signi…catifs ?

I L’élasticité du prix des logements à la pollution est t-elle di¤érente de -1 ?

(24)

Calcul des probabilités (p-valeurs) pour les t tests

I Plutôt que de choisir un niveau de signi…cativité à priori, on utilise le tcalcule´ pour déterminer le niveau de signi…cativité minimale à partir de laquelle H0 peut être rejeté.

I La p-valeur (des sorties logiciels) est dé…nie comme Prob(jTj>jtcalj)

T : VA qui suit une loi de student à n-k-1 degré de liberté.

I Les p-valeurs faibles sont en defaveurs de H0

I Exemple : pour dl=40 et tcal=1,85, la p-valeur est

P(jTj>1,85) =2P(T >1,85) =2 0,0359=0,0718.

I signi…cation : si H0 vrai on observe unt au plus égal à 1,85 dans 7,2% des cas.

I p-valeurs unilatérales : on divise les p-valeurs précédentes par 2.

(25)

I QUESTION : Supposez que vous obtenez aprés régression une valeur βˆ1 =0,56 et une p-value=0,086 pour tester

H0 :β1=0 contre H1 :β1 6=0.Quelle est la p-value pour tester H0 :β1 =0 contre H1 :β1 >0?

I Notes de terminologie :

I On préfère indiquer "On ne peut pas rejeter H0 àx %" plutôt que "H0 est accepté àx %"

I Important de distinguer l’importance économiquede la signi…cativité statistique. L’e¤et d’une variable peut être statistiquement signi…cative mais peu important d’un point de vue économique.

(26)

Example (Formation professionelle et productivité)

Quel est l’impact de la formation professionelle sur la productivité mesurée par le taux de rebus (pièces defectueuses/100 pièces produites) ? L’équation estimée est :

log(scrap) = 12,46

(5,69)

,029

(0,023)

hrs ,962

(0,453)

log(sales) + ,761

(0,407)

log(emp) n = 29, R2 =0,262

I hrs : heures de formation par employé, sales :valeur annuelle des ventes,emp : nombre d’employés dans la …rme.

I scrap : taux de rebus. On a scrap =4,6 ethrs =8,9

I Quel est l’e¤et, sur le taux de rebus, de 5 h de formation supplémentaires ?

I La formation a-elle un e¤et signi…catif à 5% ?

I Caluler la p-value dehrs.L’e¤et est-il signi…catif à 10% ?

(27)

I Remarque : Pour intérpréter l’exemple précédent, gardez en mémoire que les problèmes de multicollinéarité peuvent conduire à des écartypes élevés. Ce problème est aggravé lorsque les échantillons sont petits.

I Un guide pour discutter la signi…cation d’une variable : 1. Véri…er la signi…cativité statistique. En cas de signi…cativité,

discuttez de l’importance économique.

2. Si la variable n’est pas statistiquement signi…cative. Le coe¢ cient est-il de signe attendu et sa valeur est-elle importante ? Si c’est le cas, calculez lap-valeur. Pour des échantillon petits vous pouvez discuttez jusqu’à des valeurs proches de 0,20 (mais pas de règles).

3. sit petits et coe¢ cients de signe non attendus, on peut ignorer ce résultat statistiquement non signi…catif. Plus di¢ cile si le coe¢ cient n’a pas le signe attendu et la variable est signi…cative. Dans ce cas, il est possible qu’une variable importante ai été omise du modèle ou que le modèle thèorique postulé soit faux.

(28)

Intervals de con…ance

I Un interval de con…ance fournit un ensemble de valeur probable pour un paramètre.

I Sous les hypothèses du modèle linéaire classique, un interval de con…ance pour βj est :

hβˆj cse(βˆj),βˆj+cse(βˆj)i (13)

oùc est le seuil critiqiue de signi…cativité (97,5ie me` percentile de la distributiontn k 1 pour un test à 5% de signi…cativité).

Remarque si n>120, on a c '2

(29)

Example (Un modèle de dépenses en R&D)

Quel est l’e¤et de la taille des entreprises (sales) et de leur marge de pro…ts (profmarg :(pro…ts/ventes*100)%) sur leurs dépenses en R&D (rd) ? L’estimation sur un échantillon d’entreprises donne :

log(rd) = 4,38

(0,47)

+1,084

(0,060)

log(sales) + ,0217

(0,0218)

profmarg n = 32, R2 =0,918

I Interprétez le coe¢ cient associé à log(sales)

I Construisez un intervalle de con…ance à 95% pour log(sales)

I La valeur 0 est-elle en dehors de l’interval. Qu’en est-il de 1?

I Construisez un interval de con…ance à 95% pourprofmarg. Intéprétez le coe¢ cient associé à profmarg.

I Calculez la p-value pour profmarg;profmarg est-il signi…catif à 10%

(30)

I Remarque sur les intervals de con…ance

La validité des intervals de con…ances est contingente à la validité des hypothèses postulées pour les construire :

1. Si une variable importante et corrélée avec les variable explicative est omise, l’estimation des coe¢ cients est biaisée.

Notre interval de con…ance sera erroné.

2. En présence d’hétérocédasticité (pour l’exemple précédent, si la variance delog(rd) dépend des variables explicatives du modèle) alors les erreurs types ne contituent plus une estimation valide desd(βˆj).Notre interval de con…ance sera erroné.

3. On a mobilisé l’hypothèse de normalité : en pratique on considère cette hypothèse toujours valide sur des échantillons su¢ semment grands (résultat asymptotique).

(31)

I Souvent on est amené à tester une hypothèse dans laquelle plusieurs paramètres

I Suposons que l’on souhaite tester les di¤érences de rendement entre un diplôme de premier cycle (BAC+1 à BAC+3) et un diplôme de second/troisième cycle universitaire (BAC+4 à BAC+8). Notre population est composée de travailleurs ayant au moins le BAC. On postule le modèle

log(wage) =β0+β1cycle1+β2cycle2+β3exper+u (14) cycle1 : # d’anné au premier cycle, cycle2 : # d’année en second cycle, expper : mois d’experience sur le marché du travail.

I Pour repondre à notre question on pose :

H0 :β1 = β2 (15)

sous H0 une année d’étude supplémentaire procure le même gains quelque soit le cycle.

(32)

I L’alternative est :

H1 :β1 < β2 (16)

I Pour tester (15) on réècrit H0 et H1 de sorte que H0 :β1 β2 =0 et H1 :β1 β2 <0.

I On est donc amené à tester si le di¤érence entre β1 β2 est su¢ sement négative pour rejeter H0 à un degré de

signi…cativité relativement élevé. Comme précédement on divise par l’erreur type pour obtenir le test de student :

t= βˆ1 βˆ2

se(βˆ1 βˆ2) (17)

I il su¢ t ensuite de procéder comme précedemment I La di¢ culé du test provient du calcul de se(βˆ1 βˆ2)

I Pour cela on doit calculer la variance de βˆ1 βˆ2 :

Var(βˆ1 βˆ2) =Var(βˆ1) +Var(βˆ2) 2Cov(βˆ1,βˆ2) (18)

(33)

I On se sert ensuite des estimateurs de Var(βˆ1), Var(βˆ2)et Cov(βˆ1,βˆ2) dénoté[se(βˆ1)]2,[se(βˆ2)]2 et s12 pour obtenir un estimateur de [Var(βˆ1 βˆ2)]1/2:

se(βˆ1 βˆ2) = [se(βˆ1)]2+ [se(βˆ2)]2 2s12 , (19)

I La plupart des logiciels économétrique, dont SAS, possèdent une commande permettant de tester des combinaisons linéaires sur les paramètres.

I Néammoins, on peut estimer un modèle sensiblement qui fait intervenir βˆ1 βˆ2.

I Pour cela on dé…nit le paramètre : θ1= β1 β2 que l’on incorpore dans (14), qui aprés regroupement donne :

log(wage) = β0+ (θ1+β2)cycle1+β2cycle2+β3exper+u

= β0+θ1cycle1+β2(cycle1+cycle2) +β3exper+u

(34)

I Pour obtenir l’erreur type de se(βˆ1 βˆ2) =se(θˆ1)on estime le modèle :

log(wage) =β0+θ1cycle1+β2totuniv+β3exper+u (20) oùtotuniv =cycle1+cycle2,est le nombre d’années passé à l’université. La statistique de student (17) est celle associé au coe¢ cient θˆ1.

I Cette strategie qui consiste à réécrire le modèle de sorte qu’apparaisse les paramètres souhaités fonctionne toujours et est facile à appliquer.

(35)

Tester des contraintes d’exclusion

I On teste l’hypothèse qu’un groupe de variable, conjointement, n’a pas d’impact statistiquement signi…catif sury

I Exemple : on explique le salaire des footballer en division 1 en fonction de l’ancienneté dans la division (yrs), du nombre de matchs joués par an (nmatch), de passes décisives (pass), de tires e¤ectués (tottire), et de buts marqués (buts) :

log(salaire) =β0+β1yrs+β2match+β3pass+β4tir+β5but+u, (21)

I On teste l’hypothèse que les performances n’ont pas d’impact sur les salaires, étant donné years et match:

H0 :β3 =0,β4 =0,β5 =0 (22) H0 impose trois contraintes d’exclusions.

(36)

I Il s’agit de restrictions multiples car on impose plus d’une restrictions sur les paramètres du modèle (21)

I Un test de contraintes multiples est appelétest

d’hypothèses multiples outest d’hypothèse jointes.

I L’alternative à H0 dans (22) est :

H1 :H0 n’est pas vrai (23)

I L’alternative est véri…é dés lors qu’au moins un des coe¢ cients β3, β4 ou β5 est di¤érent de zéro.

I Il n’est pas correct d’utiliser un test de student sur chaqune des variablespass,tir,but pour tester (22)

I En e¤et les tests individuels n’imposent aucune contrainte sur la valeur des autres paramètres.

(37)

I Des test de student séparés peuvent être trompeurs : log\(salaire) = 11,19

(0,29)

+,0689

(,0121)

yrs+,0126

(,0026)

match (24) +,00098

(,00110)

pass+,0144

(,0161)

tir+,0108

(,0072)

but(25) n = 353, SSR =183,186,R2 =0,6278

I Aucune variables de performance n’est signi…cative à 5%.

I Il semble que H0 ne soit pas invalidé : ici c’est faux

I Pour le véri…er on dérive un test de contraintes multiples avec une distribution connue et tabulée.

I La somme des carrés des résidus (SSR) dans (24) ne permet pas à elle seule de valider H0.

I La question est : la partie non expliquée de la variation de log(salary) augmente t-elle de façon signi…cative lorsque passdec,tirs,buts sont exclues du modèle ?

(38)

I La variation de SSR, lorsque ces variables sont exclus du modèles, permet de répondre à cette question.

I On doit donc estimer le modèle contraint qui correspond aux restrictions (22) :

log(salary) =β0+β1years+β2matchs+u. (26) (21) forme le modèle non contraint.

I L’estimation de ce modèle donne : log\(salary) = 11,22

(0,11)

+,0713

(,0125)

years+,0202

(,0013)

matchs (27) n = 353, SSRc =198,311, Rc2 =0,5971

I La variation de SSR entre le modèle contraint (26) et non-constraint (21) est-elle statistiquement signi…cative pour rejetter H0?

I On doit combiner les informations contenues dans les deux SSR (SSRc et SSRnc).

(39)

Cas général

I Model non-restreint avec k+1 paramètres : y = β0+β1x1+...+βkxk +u;

I On impose q restrictions (par exemple les q dernières variables) :

H0 :βk q+1=0, ...βk =0,

I Le modèle restreint sous H0 est :

y = β0+β1x1+...+βk q+1xk+u.

(40)

I La statistique de F mesure la variation relative des carrés des résidus entre le modèle restreint (SSRr) et non-restreint :

F (SSRc SSRnc)/q

SSRnc/(n k 1) (28)

I degrés de liberté au numérateur = # de restrictionsq

I degrés de liberté au dénominateur : celui du modèle non restreint.

I Les SSR sont reportés par tous les logiciels dans les résultats d’estimation ; F est donc trés facile à obtenir

Exo : calculer F dans notre exemple

I La statistique de F est distribuée comme une variable aléatoire de Fisher avec (q,n k 1)degrés de liberté :

F Fq,n k 1 (29)

Fq,n k 1 est tabulée dans les tables et les logiciels statistiques.

(41)

I Etant donné la dé…nition de F, on va rejeter H0 si F est su¢ sement élevée.

I La règle de rejet dépend du niveau de signi…cativité choisit (10%, 5%, 1%)

I Exemple : soit c le 95th percentile de la distribution

deFq,n k 1. La valeur critique c dépend des degrés de liberté (dl)q et n k 1.

I Règle de rejet : on rejette H0 au seuil de 5% si

F >c (30)

I Dans notre exemple c=2,76 (à véri…er).

I Remarque : si au dénominateurdl >120, la distribution de F devient insensible à ce nombre. On suppose donc dl =∞.

I Si on rejette H0,les variables testées sont statistiquement conjointement signi…cative. Sinon, les variables sont conjointement non signi…cative. Dans ce cas on peut les enlever du modèle.

(42)

I Dans notre exemple : pouvez rejeter l’hypothèse que les variables de performances n’expliquent pas les di¤érences de salaires à 5% ? Qu’en est-il et à 1% ?

I On peut avoir des variables conjointement signi…catives mais non signi…catives individuellement.

I c’est le cas lorsque les variables sont collinéaires : en présence de multicollinéarité il devient di¢ cile de séparer l’e¤et partiel de chaque variable tel que le capte les t de student individuels.

I La statistique de F est particuliérement adapté pour tester la signi…cativié conjointe de variable collinéaire

I On peut le véri…er en enlevant certaines variables colinéaire, parfois les t deviennent alors signi…cative.

I Exemple : salaires des dirigeant et performance des entreprises. En général les résultats de performance sont fortement collinéaires. Il sera di¤cile de trouvers des mesures individuellement signi…cative. On peut alors utiliser un test de student pour véri…er la signi…cativité conjointe.

(43)

lien entre la statistique t et F

I On peut appliquer la statitique de F pour tester la signi…cativité d’une seule variable.

I Il su¢ t pour cela dans la calcul de F d’introduire une contrainte d’exclusionq =1

I Pour une seule variable tester F et t donnent les mêmes résultats. Dans ce cas F est égal au carré de la statistique de t correspondante (pour le cas d’un test bilatéral) :

t2 F1,n k 1

I Pour tester une seule variable, on préférera le test Student qui est ‡exible et facile à calculer.

I Il est possible qu’une variable soit signi…cative, mais que prise coinjointement avec d’autres variables, l’ensemble est non signi…catif. Que faire avec un tel résultat ?

(44)

I La statistique F est adaptée pour tester la signi…cativité d’un ensemble de variables prises conjointement. Ce test est moins e¢ cace que celui de student lorsqu’il s’agit de tester une hypothèse sur un seul coe¢ cient.

I Il n’est donc pas correcte de conclure sur la signi…cativité d’une variable à partir d’un test F.

I En général, lorqu’une variable est statistiquement fortement signi…cative, le fait de l’inclure dans un test conjoint avec d’autres variable aboutit au rejet de l’hypothèse nulle : pas de con‡its entre le test t et le testF

(45)

La forme R2 de la statistique de F

I On peut faire appel au R2 des modèles contraints et non contraints pour obtenir la statistique de F.

I Pour cela il su¢ t d’exprimer SSRc et SSRnc en fonction des R2 respectif (R2c et R2nc) (exo).On obtient alors :

F = (Rnc2 Rc2)/q

(1 Rnc2 )/(n k 1) = (Rnc2 Rc2)/q (1 Rnc2 )/dlnc

(31)

I Le R2 est reporté par tous les résulats d’estimation. Cette expression est donc facile à calculer.

Exercice : appliquez (31) pour calculer F dans l’exemple du salaire des footballers

I Attention : on verra plus loin que parfois cette fomule n’est pas utilisable pour tester toutes les restrictions linéaires.

(46)

Example (Education des parents et poids à la naissance)

I On explique le poids à la naissance (bwght) en fonction de l’éducation des parents (motheduc et fatheduc), du nombre de moyen de cigarettes fumées par jour (cigs) et de l’ordre dans la fratrie (parity) et du revenu du ménage (faminc).

I On possède 1191 observations

I Le modèle contraint (estimé sans l’éducation des parents) donne R2c =0,0364 et le modèle non contraint R2nc=0,0387.

L’éducation des parents a-t-il un impact sur le poids des enfants ?

(47)

Calcul des probablité critique (p-value) pour le test F

I Pour la statistique de F, la probabilité cririque est dé…nie comme :

p value =P(φ>F),

φest une variable aléatoireF avec (q,n k 1) degrés de liberté et F et la statistique de Fisher calculée.

I lap value est donc la probabilité d’observer une valeur deF au moins aussi grande que celle calculée, étant donné

l’hypothèse nulle.

I Une p value faible conduit au rejet de l’hypothèse H0 (F est élevée).

I Ainsi sip value =0,024 on rejette H0 à 5% mais pas à 1%.

(48)

I Question on estime les deux modèles suivant pour expliquer explique l’assiduité en cours des étudiants :

\

atndrte = 47,13

(2,87)

+13,37

(1,09)

priGPA n = 680, R2=0,183 et,

\

atndrte = 75,70

(3,88)

+17,26

(1,08)

priGPA 1,72

(?)

ACT n = 680, R2 =0,183

Les erreurs types sont entre parenthèses. L’erreur type pour la variable ACT (résultats aux examens d’entré à l’université) sont manquants dans la seconde équation.

Quel est la statistique de student pour le coe¢ cient associé à ACT?

(49)

La statistique de F pour tester la signi…cativité de l’ensemble des variables d’un modèle

I Dans ce cas l’hypothèse nulle est qu’aucune des variables explicatives n’explique y :

H0 : β1 =β2 =...= βk =0, (32) ou de façon équivalente : H0 :E(yjx1,x1, ...,xk) =E(y)

I L’alternative est H1 : au moins un des βj est di¤érent de zéro.

I On impose k contraintes, le modèle contraint est donc : y =β0+u

I Quel est le R2 du modèle contraint ?

I La statistique de F pour tester (32) est : R2/k

(1 R2)/(n k 1) (33)

(50)

I La forme spécial du test de F dans (33) est utilisé pour tester l’exclusion jointe de l’ensemble des variables du modèle.

I Si on ne rejette pas H0 alors il n’y a pas d’évidence statistiquement en faveur des variables explicatives pour expliquer la variation de y.

I Dans l’exemple précédent (poids à la naissance), la statistique de F correspondant à (32) est 9,55. Peut-on rejeter H0?

I Remarque un R2 faible est compatible avec une statistique de F correspondant à H0 dans (32) trés élevé. Dans ce cas, la variation expliquée de y par le modèle, même faible, est signi…cative.

(51)

Tester des contraintes linéaires générales

I Parfois la théorie impose des contraintes plus compliquées que la simple explusion variables explicatives.

I Exemple : hypothèse de rationalité des estimations de vente On teste cette hypothèse en estimant un modèle qui explique les prix de vente en fonction des estimations faites par les vendeurs (estimate), de la taille du logement (tailo) de la taille du terrain (taiter) et du nombre de chambre (chbr) :

log(prix) = β0+β1log(estimate) +β2log(tailo) +β3log(taiter) +β4chbr +u, (34)

I L’hypothèse de rationalité prend la forme (pourquoi) :

H0 :β1=1, β2 =0, β3 =0, β4 =0. (35)

I On teste 4 constraintes dont trois contraintes d’exlusion.

(52)

I On calcul la statistique deF en récupérant les SSR des modèle contraint et non contraint estimés.

I le modèle non contraint est :

y =β0+β1x1+β2x2+β1x3+β1x4+u (36)

I le modèle contraint esty =β0+x1+u

I Pour imposer la contrainte d’élasiticité unitaire (β1 =1)on estime :

y x1 =β0+u (37)

Il s’agit d’un modèle avec constante mais avec une variable explicative di¤érente de celle du modèle non contraint.

I Le calcule des carré des résidus dans (36) et (37) donne SSRnc

et SSRc à utiliser dans la statistique de F sous la forme (28).

I Attention : on ne peut pas utliser la forme R2 du test de F (31). Cette forme est valide seulement lorsque les variables dépendantes des modèles contraints et non contraints sont identiques.

(53)

I Dans notre exemple la statistique de F est : [(SSRc SSRnc)/SSRnc][(n 5)/4]

I Les résultats d’estimations du modèle non contraint donnent log\(prix) = ,264

(,570)

+1,043

(,151)

log(estimate) +,0074

(,0386)

log(tailo) ,1032

(,1384)

log(taiter) +,0338

(,0221)

chbr+u, (38) n = 88, SSR=1822, R2 =0,773

I A partir des test de t, les variables sont-elles signi…catives ?

I Ces résulats permettent t-ils de tester la rationalité des évaluations ?

I Le modèle contraint () donne SSRc =1880:quelle la statistique de F correpondante ?

I Pouvez-vous rejeter l’hypothèse que les estimations sont rationelles

(54)

Guide de présentation des résultats de régressions

I Référence pour lire des articles et présentez vos résultats dans vos projets d’économétrie.

I Les coe¢ cient estimés doivent toujours être présentés.

I Intérprétez les coe¢ cient des variables clés : celles pour lesquelles vous avez développé une "théorie" ou un

argumentaire économique en faveur de certains e¤ets à-priori.

I unités de mesure et dé…nition des variables sont importantes (élasticité, etc.)

I importance économique vs importance statistique I Toujours inclure les erreurs types avec les coe¢ cients

(préférable au t de student).

I Inclure le R2 de la régression

I mesure de la qualité de l’ajustement aux données

I permet de calculer aisément la statistique de F pour les contraintes d’exclusions

(55)

I Parfois utile d’indiquer la somme des carrés des résidus et l’erreur type du modèle (SSR et σ)ˆ

I Toujours indiquer le nombre d’observations utilisées dans les régressions

I Si seulement deux ou trois équations estimés les résultats peuvent être indiqués sous forme d’équation

I Souvent plusieurs modèles sont estimés sur des échantillon di¤érents et avec des variables explicatives et expliquées di¤érentes. Dans ce cas les résultats doivent apparâitre sous la forme d’une table.

(56)

Example (arbitrage salaire et autres béné…ces dans la rémunération des enseignants)

Soittotcomp la rémunération totale des enseignants (salaire + autres béné…ces tel que l’assurance maladie, les droits à la retraite, etc). On postule la relation :

log(totcomp) =f(caractéristiques de productivité, autres déterminants) où f(.) est une fonction inconnue. On remarque que :

totcomp=salaire+ben´´ e…ce=salaire(1+be n´´salairee …ces) En prenant le log des deux côtés et en notant que log(1+bensal) bensal pour bensal petit :

log(salaire) =β0+β1bensal+autres facteurs +u (39) oùu dénote les facteurs non observables.

(57)

Example (suite)

L’arbitrage salaire-béné…ce revient à tester : H0 :β1 = 1 contre H1 : β1 6= 1.

On teste cette hypothèse sur un échantillon de 408 écoles. Les autres facteurs observables au niveau de l’école et qui peuvent a¤ecter les salaires sont la taille de l’école (enroll), le personnel pour 1000 élèves (sta¤) et les mesures de la qualité de

l’enseignement (taux de redoublements :droprate et taux de réussite en …n de cycle ;gradrate). La moyenne debensal est 0,205 sa valeur maximale est 0,450.

Les équations estimées sont :

(58)

Example (suite)

Peut-on rejeter H0 dans le modèle 1 ? Qu’en est-il dans le modèle 2 ? Comment varie l’arbitrage salaire-béné…ce une fois rajouterdroprate et gradrate?Ces variables sont-elle conjointement signi…catives à 5% ? Qu’en est-il à 10% ?

(59)

Résumé

L’inférence statistique consiste à tester des hypothèses sur la population à partir d’un échantillon aléatoire.

1. Sous les hypothèses du MLC, RLM1-RLM6, les estimateurs des MCO suivent une loi de distribution normale.

2. Sous les hypothèses MLC, les statistiques t suivent loi de distribution de student sous l’hypothèse nulle

3. La statistique de t teste des hypothèses sur un paramètre du modèle. La plus commune est H0 :βj =0.

4. Dans les tests d’hypothèses classiques, on choisit un niveau de signi…cativité ; le nombre de degré de liberté (dl) et

l’hypothèse H1 détermine ensuite let critique qui est comparé au t calcule´ sous H0. Il est utile de calculer la probabilité critique (p value=niveau de signi…cativité minimum auquel H0 peut être rejetée). On peut ainsi évaluer H0 à un niveau de signi…cativité quelconque.

(60)

5. Sous les hypothèses MLC, les intervales de con…ance peuvent être construits pour chaque βj.Ces intervals de peuvent être utilisés pour tester n’importe quelle hypothèse nulle portant sur βj.

6. Une hypothèse qui incorpore plusieurs paramètres peut toujours être testée en réécrivant le modèle. On utilise ensuite un t-test classique.

7. La statistique de F est utilisée pour tester des contraintes d’exclusion multiples sur les paramètres. Il existe deux formes équivalentes du test. La première est basée sur les SSR des modèles contraints et non contraints. La second fait appel au R2 des deux modèles.

8. Dans la statistique de F, le dl au numérateur est le nombre de contraintes imposées et le dl au dénominateur est celui du modèle non contraint.

(61)

9. L’alternative dans un test de F est bilatérale. Dans l’approche classique on postule un niveau de signi…cativité, qui avec le dl au numérateur et au dénominateur détermine la valeur critique.

L’hypothèse nulle est rejetée lorsque le

F calcule´ >F crititique. Une alternative est de calculer la probabilité critique qui informe sur la vraissamblance statistique de l’hypothèse H0.

10. Des contraintes linéaires multiples générales peuvent être testées en utilisant F exprimée par les SSR

11. La statistique de F qui porte sur la signi…cativité globale d’une regression teste l’hypothèse nulle selon laquelle tous les

paramètres de pentes sont égaux à zéro. Sous H0 les variables explicatives n’ont pas d’impact sur la valeur espérée dey.

Références

Documents relatifs

On lance trois fois de suite une pièce équilibrée, calculer la probabilité des événements suivants:. A : avoir exactement deux piles B : avoir au moins deux piles C : avoir au plus

L’ensemble des résultats de ce chapitre peut donc s’ap- pliquer aux v.a.r.. discrètes comme

Ce problème aborde la notion de moment dans différents contextes : moment d’une variable aléatoire réelle discrète à valeurs positives dans la partie I ; moment d’une

• Le troisième quartile Q 3 est la plus petite valeur pour laquelle on atteint ou dépasse 75% ; Exemple Imaginons que l’on ait le tableau statistique suivant :.. Valeurs 3 5 6 8 11

Faire apparaître les points et tangentes remarquables ainsi que la relation entre les deux courbes..

Revoyez l’exercice classique (avec le th´eor`eme de Weierstrass) qui montre qu’une fonction continue ayant tous ses moments nuls sur un segment est la fonction

Une expérience aléatoire consistant à répéter n fois (n étant un entier naturel non nul), de manière indépendante, une épreuve de Bernoulli de paramètre p s’appelle un schéma

Ensemble fondamental Événement Variable aléatoire Probabilité Probabilité conditionnelle Indépendance Distribution.. Introduction à