Chapitre 4 : Régression linéaire

(1)

1

Méthodes statistiques appliquées aux sciences sociales (STAT-D-203)

Titulaire : Catherine Vermandele

Chapitre 4 : Régression linéaire

Exercice 1

Le diplôme de Master of Business Administration ou MBA est un programme qui vise à dispenser une formation à la gestion et au commerce à des jeunes cadres diplômés faisant déjà partie du monde du travail. Nous étudions un échantillon de 40 MBA européens. Les données proviennent de sources multiples telles que les sites des universités et celui de l’Official MBA guide (http://officialmbaguide.org).

Les économistes s’intéressent énormément au prix des MBA car ces programmes ne sont pas régulés par une instance étatique. En effet, le seul organe jouant ce rôle est l’AACSB (the Association to Advance Collegiate Schools of Business) qui n’a pas pour rôle de faire appliquer des règles, mais seulement d’informer le public de certains critères considérés comme essentiels. Il en résulte donc une grande diversité dans les méthodes, les cours et les objectifs des différents MBA.

La question de recherche posée est la suivante : quels sont les facteurs qui permettent d’expliquer les prix d’inscription à un MBA (Prix) ?

Afin de répondre à cette question, nous avons fait usage d’un modèle de régression linéaire qui nous permet d’étudier quelques caractéristiques qui peuvent expliquer la formation des prix des MBA à travers l’Europe sur un échantillon de 40 écoles. La variable dépendante sera le coût de l’inscription en dollars à charge de l’étudiant pour la totalité du MBA. Les variables explicatives seront le score minimum au GMAT¹ demandé comme critère d’admission (Gmin), le pourcentage d’étudiants de sexe féminin présents au programme par rapport au total des étudiants inscrits (Pfem) et l’âge moyen des étudiants participant au programme (Age).

Les données associées aux différents MBA sont reprises ci-après.

Questions

1) Quelles sont les hypothèses du modèle de régression linéaire ? 2) Quelle est l’équation du modèle?

3) Quelles sont les estimations des paramètres du modèle de régression linéaire multiple ? Ecrivez le modèle estimé.

4) Donnez l’interprétation associée à chaque paramètre du modèle.

5) Donner l’estimation du prix moyen d’un MBA qui requiert un score minimal de 300 au GMAT, qui comporte 20 pourcents de femmes et dont la moyenne d’âge est de 30 ans.

1 Le Graduate Management Admission Test (GMAT) est un examen en anglais qui mesure les compétences des candidats et qui sert à tester l’aptitude à étudier le management.

(2)

2

6) Testez les hypothèses selon lesquelles les paramètres du modèle de régression sont différents de 0. Donnez également un intervalle de confiance (α = 5%) pour chacun des paramètres. Quelles sont vos conclusions ?

7) Tester la validité globale du modèle.

8) Quelle est la qualité globale d’ajustement du modèle ?

9) Examinez les sorties graphiques concernant les résidus et détectez d’éventuelles violations des hypothèses classiques.

(3)

3 Exercice 1 - Output

Statistiques descriptives

Moyenne Ecart-type N

Prix 22021.7750 13582.52875 40

Gmin 325.2500 284.76700 40

Pfem .3738 .11220 40

Age 28.7750 3.08418 40

Corrélations

Prix Gmin Pfem Age

Prix 1.000 -.004 -.726 .513

Gmin -.004 1.000 -.124 .170

Pfem -.726 -.124 1.000 -.419

Age .513 .170 -.419 1.000

Coefficients^a

Modèle Coefficients non standardisés Coefficients standardisés

t Sig.

95.0% % intervalles de confiance pour B

A Erreur standard Bêta Borne inférieure Limite supérieure

1 (Constante) 18006.257 17717.050 1.016 .316 -17925.585 53938.099

Gmin -6.115 5.136 -.128 -1.191 .242 -16.531 4.301

Pfem -76043.267 14148.525 -.628 -5.375 .000 -104737.805 -47348.730

Age 1196.373 518.260 .272 2.308 .027 145.293 2247.454

a. Variable dépendante : Prix

Récapitulatif des modèles

Modèle

R R-deux R-deux ajusté

Erreur standard de l'estimation

dimens

ion0

1 .772^a .596 .562 8985.05610

a. Valeurs prédites : (constantes), Age, Gmin, Pfem

(4)

4

ANOVA^b

Modèle Somme des

carrés ddl

Moyenne des

carrés F Sig.

1 Régression 4.289E9 3 1.430E9 17.707 .000^a

Résidu 2.906E9 36 8.073E7

Total 7.195E9 39

a. Valeurs prédites : (constantes), Age, Gmin, Pfem b. Variable dépendante : Prix

(5)

5

(6)

6 Exercice 2 (question d’examen)

Les données présentées en Annexe A ont été récoltées par J.C. Fisher et ont été utilisées dans son article : « Homicide in Detroit : The Role of Firearms », Criminology, vol.14, 387-400 (1976). Ces données portent sur le taux d’homicides à Detroit durant les années 1961 à 1973.

Les variables observées sont les suivantes :

- HOM : nombre d’homicides par 100 000 habitants ;

- POLI : nombre de policiers à temps-plein par 100 000 habitants ; - SEMP : pourcentage de personnes sans emploi dans la population ; - OUVR : nombre d’ouvriers (en milliers) ;

- LIC : nombre de licences d’armes à feu par 100 000 habitants ; - ARR : pourcentage d’homicides élucidés par des arrestations ; - HBL : nombre d’hommes de race blanche dans la population ; - NOUVR : nombre de travailleurs non ouvriers (en milliers) ; - FONCT : nombre de fonctionnaires (en milliers) ;

- SHOR : salaire horaire moyen ;

- SHEBD : salaire hebdomadaire moyen.

La matrice de corrélation entre les variables est donnée en Annexe A.

Deux modèles de régression linéaire dans lesquels on cherche à expliquer la variable HOM ont été estimés :

- modèle 1 : modèle dans lequel toutes les variables autres que HOM sont utilisées comme variables explicatives ;

- modèle 2 : modèle n’incluant que les variables ARR, LIC et SHOR comme variables explicatives.

Les résultats de l’estimation de ces deux modèles de régression sont présentés en Annexe A.

a) Au vu de ces résultats, lequel des deux modèles vous semble le plus approprié pour expliquer la variable HOM ? Indiquez avec soin sur quels éléments vous fondez votre choix (soyez le plus complet possible).

b) Dans le modèle 2,

b.1) interprétez le signe et la valeur du coefficient associé à la variable ARR.

b.2) calculez l’intervalle de confiance au niveau de confiance de 95% pour le coefficient de régression associé à la variable SHOR. Interprétez le résultat obtenu.

(7)

7

ANNEXE A : REGRESSION LINEAIRE – Exercice 2

● DONNEES

● MATRICE DE CORRELATION

POLI SEMP OUVR NOUVR FONCT LIC ARR HBL SHOR SHEBD HOM POLI 1 ,293 ,418 ,882 ,879 ,569 -,974 -,884 ,937 ,922 ,964

SEMP 1 -,652 -,039 ,008 -,167 -,306 ,073 ,231 ,131 ,210

OUVR 1 ,750 ,710 ,698 -,429 -,753 ,454 ,502 ,546

NOUVR 1 ,990 ,785 -,892 -,994 ,870 ,856 ,956

FONCT 1 ,804 -,893 -,989 ,857 ,826 ,958

LIC 1 -,555 -,784 ,422 ,391 ,726

ARR 1 ,891 -,957 -,936 -,968

HBL 1 -,867 -,860 -,953

SHOR 1 ,983 ,913

SHEBD 1 ,888

HOM 1

● MODELE 1

Variables explicatives : POLI, SEMP, OUVR, LIC, ARR, HBL, NOUVR, FONCT, SHOR, SHEBD

Model Summary

R R Square Adjusted

R Square F Sig.

1,000 1,000 ,999 919,279 ,001

POLI SEMP OUVR NOUVR FONCT LIC ARR HBL SHOR SHEBD HOM AGR

260,35 11,00 455,50 538,10 133,90 178,15 93,40 558 724,00 2,98 117,18 8,60 306,18 269,80 7,00 480,20 547,60 137,60 156,41 88,50 538 584,00 3,09 134,02 8,90 315,16 272,04 5,20 506,10 562,80 143,60 198,02 94,40 519 171,00 3,23 141,68 8,52 277,53 272,96 4,30 535,80 591,00 150,30 222,10 92,00 500 457,00 3,33 147,98 8,89 234,07 272,51 3,50 576,00 626,10 164,30 301,92 91,00 482 418,00 3,46 159,85 13,07 230,84 261,34 3,20 601,70 659,80 179,50 391,22 87,40 465 029,00 3,60 157,19 14,57 217,99 268,89 4,10 577,30 686,20 187,50 665,56 88,30 448 267,00 3,73 155,29 21,36 286,11 295,99 3,90 596,90 699,60 195,40 1 131,21 86,10 432 109,00 2,91 131,75 28,03 291,59 319,87 3,60 613,50 729,90 210,30 837,60 79,00 416 533,00 4,25 178,74 31,49 320,39 341,43 7,10 569,30 757,80 223,80 794,90 73,90 401 518,00 4,47 178,30 37,39 323,03 356,59 8,40 548,80 755,30 227,70 817,74 63,40 387 046,00 5,04 209,54 46,26 357,38 376,69 7,70 563,40 787,00 230,90 583,17 62,50 373 095,00 5,47 240,05 47,24 422,07 390,19 6,30 609,30 819,80 230,20 709,59 58,90 359 647,00 5,76 258,05 52,33 473,01

(8)

8 Coefficients

Model B Std. Error t Sig.

(Constant) -46,031 52,607 -,875 ,474

POLI ,029 ,020 1,434 ,288

SEMP ,693 ,369 1,876 ,201

OUVR -,033 ,025 -1,286 ,327

NOUVR ,035 ,032 1,087 ,391

FONCT ,074 ,089 ,837 ,491

LIC ,019 ,003 6,717 ,021

ARR -,168 ,103 -1,626 ,245

HBL 3,72E-005 ,000 ,544 ,641 SHOR -2,360 2,438 -,968 ,435

SHEBD ,206 ,071 2,892 ,102

● MODELE 2

Variables explicatives : ARR, LIC, SHOR

Model Summary

R R Square Adjusted

R Square F Sig.

,997 ,993 ,991 453,058 ,000

Coefficients

Model B Std. Error t Sig.

(Constant) 59,406 19,522 3,043 ,014 ARR -,728 ,148 -4,901 ,001

LIC ,016 ,002 8,533 ,000

SHOR 4,132 1,784 2,316 ,046