1
Méthodes statistiques appliquées aux sciences sociales (STAT-D-203)
Titulaire : Catherine Vermandele
Chapitre 4 : Régression linéaire
Exercice 1
Le diplôme de Master of Business Administration ou MBA est un programme qui vise à dispenser une formation à la gestion et au commerce à des jeunes cadres diplômés faisant déjà partie du monde du travail. Nous étudions un échantillon de 40 MBA européens. Les données proviennent de sources multiples telles que les sites des universités et celui de l’Official MBA guide (http://officialmbaguide.org).
Les économistes s’intéressent énormément au prix des MBA car ces programmes ne sont pas régulés par une instance étatique. En effet, le seul organe jouant ce rôle est l’AACSB (the Association to Advance Collegiate Schools of Business) qui n’a pas pour rôle de faire appliquer des règles, mais seulement d’informer le public de certains critères considérés comme essentiels. Il en résulte donc une grande diversité dans les méthodes, les cours et les objectifs des différents MBA.
La question de recherche posée est la suivante : quels sont les facteurs qui permettent d’expliquer les prix d’inscription à un MBA (Prix) ?
Afin de répondre à cette question, nous avons fait usage d’un modèle de régression linéaire qui nous permet d’étudier quelques caractéristiques qui peuvent expliquer la formation des prix des MBA à travers l’Europe sur un échantillon de 40 écoles. La variable dépendante sera le coût de l’inscription en dollars à charge de l’étudiant pour la totalité du MBA. Les variables explicatives seront le score minimum au GMAT1 demandé comme critère d’admission (Gmin), le pourcentage d’étudiants de sexe féminin présents au programme par rapport au total des étudiants inscrits (Pfem) et l’âge moyen des étudiants participant au programme (Age).
Les données associées aux différents MBA sont reprises ci-après.
Questions
1) Quelles sont les hypothèses du modèle de régression linéaire ? 2) Quelle est l’équation du modèle?
3) Quelles sont les estimations des paramètres du modèle de régression linéaire multiple ? Ecrivez le modèle estimé.
4) Donnez l’interprétation associée à chaque paramètre du modèle.
5) Donner l’estimation du prix moyen d’un MBA qui requiert un score minimal de 300 au GMAT, qui comporte 20 pourcents de femmes et dont la moyenne d’âge est de 30 ans.
1 Le Graduate Management Admission Test (GMAT) est un examen en anglais qui mesure les compétences des candidats et qui sert à tester l’aptitude à étudier le management.
2
6) Testez les hypothèses selon lesquelles les paramètres du modèle de régression sont différents de 0. Donnez également un intervalle de confiance (α = 5%) pour chacun des paramètres. Quelles sont vos conclusions ?
7) Tester la validité globale du modèle.
8) Quelle est la qualité globale d’ajustement du modèle ?
9) Examinez les sorties graphiques concernant les résidus et détectez d’éventuelles violations des hypothèses classiques.
3 Exercice 1 - Output
Statistiques descriptives
Moyenne Ecart-type N
Prix 22021.7750 13582.52875 40
Gmin 325.2500 284.76700 40
Pfem .3738 .11220 40
Age 28.7750 3.08418 40
Corrélations
Prix Gmin Pfem Age
Prix 1.000 -.004 -.726 .513
Gmin -.004 1.000 -.124 .170
Pfem -.726 -.124 1.000 -.419
Age .513 .170 -.419 1.000
Coefficientsa
Modèle Coefficients non standardisés Coefficients standardisés
t Sig.
95.0% % intervalles de confiance pour B
A Erreur standard Bêta Borne inférieure Limite supérieure
1 (Constante) 18006.257 17717.050 1.016 .316 -17925.585 53938.099
Gmin -6.115 5.136 -.128 -1.191 .242 -16.531 4.301
Pfem -76043.267 14148.525 -.628 -5.375 .000 -104737.805 -47348.730
Age 1196.373 518.260 .272 2.308 .027 145.293 2247.454
a. Variable dépendante : Prix
Récapitulatif des modèles
Modèle
R R-deux R-deux ajusté
Erreur standard de l'estimation
dimens
ion0
1 .772a .596 .562 8985.05610
a. Valeurs prédites : (constantes), Age, Gmin, Pfem
4
ANOVAb
Modèle Somme des
carrés ddl
Moyenne des
carrés F Sig.
1 Régression 4.289E9 3 1.430E9 17.707 .000a
Résidu 2.906E9 36 8.073E7
Total 7.195E9 39
a. Valeurs prédites : (constantes), Age, Gmin, Pfem b. Variable dépendante : Prix
5
6 Exercice 2 (question d’examen)
Les données présentées en Annexe A ont été récoltées par J.C. Fisher et ont été utilisées dans son article : « Homicide in Detroit : The Role of Firearms », Criminology, vol.14, 387-400 (1976). Ces données portent sur le taux d’homicides à Detroit durant les années 1961 à 1973.
Les variables observées sont les suivantes :
- HOM : nombre d’homicides par 100 000 habitants ;
- POLI : nombre de policiers à temps-plein par 100 000 habitants ; - SEMP : pourcentage de personnes sans emploi dans la population ; - OUVR : nombre d’ouvriers (en milliers) ;
- LIC : nombre de licences d’armes à feu par 100 000 habitants ; - ARR : pourcentage d’homicides élucidés par des arrestations ; - HBL : nombre d’hommes de race blanche dans la population ; - NOUVR : nombre de travailleurs non ouvriers (en milliers) ; - FONCT : nombre de fonctionnaires (en milliers) ;
- SHOR : salaire horaire moyen ;
- SHEBD : salaire hebdomadaire moyen.
La matrice de corrélation entre les variables est donnée en Annexe A.
Deux modèles de régression linéaire dans lesquels on cherche à expliquer la variable HOM ont été estimés :
- modèle 1 : modèle dans lequel toutes les variables autres que HOM sont utilisées comme variables explicatives ;
- modèle 2 : modèle n’incluant que les variables ARR, LIC et SHOR comme variables explicatives.
Les résultats de l’estimation de ces deux modèles de régression sont présentés en Annexe A.
a) Au vu de ces résultats, lequel des deux modèles vous semble le plus approprié pour expliquer la variable HOM ? Indiquez avec soin sur quels éléments vous fondez votre choix (soyez le plus complet possible).
b) Dans le modèle 2,
b.1) interprétez le signe et la valeur du coefficient associé à la variable ARR.
b.2) calculez l’intervalle de confiance au niveau de confiance de 95% pour le coefficient de régression associé à la variable SHOR. Interprétez le résultat obtenu.
7
ANNEXE A : REGRESSION LINEAIRE – Exercice 2
● DONNEES
● MATRICE DE CORRELATION
POLI SEMP OUVR NOUVR FONCT LIC ARR HBL SHOR SHEBD HOM POLI 1 ,293 ,418 ,882 ,879 ,569 -,974 -,884 ,937 ,922 ,964
SEMP 1 -,652 -,039 ,008 -,167 -,306 ,073 ,231 ,131 ,210
OUVR 1 ,750 ,710 ,698 -,429 -,753 ,454 ,502 ,546
NOUVR 1 ,990 ,785 -,892 -,994 ,870 ,856 ,956
FONCT 1 ,804 -,893 -,989 ,857 ,826 ,958
LIC 1 -,555 -,784 ,422 ,391 ,726
ARR 1 ,891 -,957 -,936 -,968
HBL 1 -,867 -,860 -,953
SHOR 1 ,983 ,913
SHEBD 1 ,888
HOM 1
● MODELE 1
Variables explicatives : POLI, SEMP, OUVR, LIC, ARR, HBL, NOUVR, FONCT, SHOR, SHEBD
Model Summary
R R Square Adjusted
R Square F Sig.
1,000 1,000 ,999 919,279 ,001
POLI SEMP OUVR NOUVR FONCT LIC ARR HBL SHOR SHEBD HOM AGR
260,35 11,00 455,50 538,10 133,90 178,15 93,40 558 724,00 2,98 117,18 8,60 306,18 269,80 7,00 480,20 547,60 137,60 156,41 88,50 538 584,00 3,09 134,02 8,90 315,16 272,04 5,20 506,10 562,80 143,60 198,02 94,40 519 171,00 3,23 141,68 8,52 277,53 272,96 4,30 535,80 591,00 150,30 222,10 92,00 500 457,00 3,33 147,98 8,89 234,07 272,51 3,50 576,00 626,10 164,30 301,92 91,00 482 418,00 3,46 159,85 13,07 230,84 261,34 3,20 601,70 659,80 179,50 391,22 87,40 465 029,00 3,60 157,19 14,57 217,99 268,89 4,10 577,30 686,20 187,50 665,56 88,30 448 267,00 3,73 155,29 21,36 286,11 295,99 3,90 596,90 699,60 195,40 1 131,21 86,10 432 109,00 2,91 131,75 28,03 291,59 319,87 3,60 613,50 729,90 210,30 837,60 79,00 416 533,00 4,25 178,74 31,49 320,39 341,43 7,10 569,30 757,80 223,80 794,90 73,90 401 518,00 4,47 178,30 37,39 323,03 356,59 8,40 548,80 755,30 227,70 817,74 63,40 387 046,00 5,04 209,54 46,26 357,38 376,69 7,70 563,40 787,00 230,90 583,17 62,50 373 095,00 5,47 240,05 47,24 422,07 390,19 6,30 609,30 819,80 230,20 709,59 58,90 359 647,00 5,76 258,05 52,33 473,01
8 Coefficients
Model B Std. Error t Sig.
(Constant) -46,031 52,607 -,875 ,474
POLI ,029 ,020 1,434 ,288
SEMP ,693 ,369 1,876 ,201
OUVR -,033 ,025 -1,286 ,327
NOUVR ,035 ,032 1,087 ,391
FONCT ,074 ,089 ,837 ,491
LIC ,019 ,003 6,717 ,021
ARR -,168 ,103 -1,626 ,245
HBL 3,72E-005 ,000 ,544 ,641 SHOR -2,360 2,438 -,968 ,435
SHEBD ,206 ,071 2,892 ,102
● MODELE 2
Variables explicatives : ARR, LIC, SHOR
Model Summary
R R Square Adjusted
R Square F Sig.
,997 ,993 ,991 453,058 ,000
Coefficients
Model B Std. Error t Sig.
(Constant) 59,406 19,522 3,043 ,014 ARR -,728 ,148 -4,901 ,001
LIC ,016 ,002 8,533 ,000
SHOR 4,132 1,784 2,316 ,046