P. Ailliot
7 octobre 2010
Exercice 1 Onconsidèredanscetexercicedesdonnées quiproviennentduGroupe d'Etudeetde
RéexionInter-régional(GERI).Ellesdécriventquatregrandsthèmes:la démographie,l'emploi,
lascalitédirectelocale etla criminalité.Lesindicateurs sontmesuréssurl'ensemble des
départements françaismétropolitainsetla Corse (regroupée) pendant l'année1990.Ilssont, pour
laplupart, destauxcalculésrelativementàla populationtotale dudépartement concerné.Voici la
listedesparamètres:
identicateur:numérodudépartement
identicateur:code dudépartement
identicateur:code de la région
TXCR :tauxdecroissance dela population surla période intercensitaire1982-1990
ETRA:partdesétrangersdansla population totale
JEUN:partdes0-19 ansdansla population totale
AGE:partdesplusde 65 ansdansla population totale
CHOM:tauxde chômage
Partsde chaqueprofessionetcatégoriesocio-professionnelle (PCS) danslapopulation active
occupéedudépartement :
AGRI:agriculteurs
ARTI :artisans
CADR:cadres supérieurs
EMPL:employés
OUVR:ouvriers
PROF:professionsintermédiaire
FISC:produit,en francsconstants 1990 etparhabitant, desquatretaxesdirecteslocales
(professionnelle,habitation, foncier bâti,foncier nonbâti)
CRIM:tauxde criminalité:nombrede délitsparhabitant
FE90:tauxde fécondité (pour1000), égal aunombrede naissances rapportéaunombrede
femmesfécondes(15 à49 ans) enmoyennetriennale
Les donnéessont disponiblessurla page webducours.L'objectif de cetexerciceest d'étudierla
variable CRIMenfonction desautresvariables.
1. Importerlesdonnéessous R etcalculer lamatrice decorrélation. Quellesvariables sont
signicativement corrélées avecla variable CRIM?On répondreàl'aide d'untest
statistiqueadapté vuen cours.
2. Réaliser une analyseencomposantesprincipales. Discuterlesrésultatsobtenusenportant
une attentionspéciqueàlavariable CRIM.
3. Ajusterunmodèle de régressionlinéaire simplepermettant d'expliquerla variable CRIMà
partirde la variable quiest la pluscorréléeavecCRIM. Discuterlesrésultatsobtenus.
4. Ajusterunmodèle derégressionlinéairemultiplepermettant d'expliquerla variable CRIMà
partirdesautresvariables disponibles.Discuterlesrésultatsobtenus. Ce modèleest-il
meilleur quelemodèlede la question précédente?
5. Sélectionner lemeilleursous-modèledumodèle précédent. Discuterles résultatsobtenus.
estimateursdanslemodèlelinéaire. Ondisposede deuxvariables explicatives
X 1 = (x 1,1 , ..., x n,1 ) etX 2 = (x 1,2 , ..., x n,2 ) etonsupposequela réponseY
dépenduniquement
Y
dépenduniquementde lapremière variable explicative,c'est àdirequele"vrai" modèleestunmodèle de régression
linéaire simplegaussiende la forme
Y = β 0 + β 1 X 1 + W
(1)avec
β 0 etβ 1 desparamètresinconnus.
Lors de l'ajustementdumodèle,onignoreque lavariable
X 2 n'apasd'inuencesurla réponse et
onajuste unmodèle de régressionlinéaire multiplegaussiende la forme :
Y = β 0 + β 1 X 1 + β 2 X 2 + W
(2)Onnote
B ˆ = ( ˆ B 0 , B ˆ 1 , B ˆ 2 ) lesestimateursdesmoindrescarréscorrespondantset S 2 l'estimateur
de σ 2.
σ 2.
Poursimplier lescalculs,on supposeque lesvariables explicativessontcentrées-réduites,c'està
dire vérient
n
i=1 x i,j = 0 et n
i=1 x 2 i,j = 1 pourj ∈ {1, 2}
.Onnoteraρ = n
i=1 x i,1 x i,2
.1. Ecrire lesmodèles (1)et(2)sousla forme matricielleetrappelerleshypothèsesdumodèle
de régressionlinéairegaussien.
2. Rappeler pourquoi
|ρ| ≤ 1
.3. Rappeler l'expressionmatricielle de
B ˆ
puis expliciterB ˆ 0,B ˆ 1 etB ˆ 2 en fonctionde ρ
.
B ˆ 2 en fonctionde ρ
.
4. Montreque
B ˆ
estunvecteurgaussiendontonpréciseralescaractéristiques. Endéduirele biais, lavarianceet l'EQMdesestimateursB ˆ 0 etB ˆ 1.Comparer avec cequ'on obtient en
ajustant directement levrai modèle (1).Discuter.
5. Soit
x 0 = (1, x 0,1 , x 0,2 )
avec(x 0,1 , x 0,2 ) ∈ R 2 etY ˆ 0 = x 0 B ˆ
.Quereprésente Y ˆ 0?Montrer que
Y ˆ 0 estune variable gaussiennedontonpréciserales caractéristiques. Comparer avecce qu'on obtient enajustant directementlevraimodèle (1). Discuter:quelleestla
conséquencede lasurparamétrisationsurla qualitéde la prévisionobtenueaveclemodèle
de régressionlinéaire?
6. Rappeler lespropriétésvuesen cours pour l'estimateur
S 2 eten déduire lebiaisetla
variance de cetestimateur.Comparer avecce qu'onobtient en ajustantdirectement levrai
modèle (1).
7. Question ouverte :reprenezl'exerciceen supposantquela vraimodèle estdela forme (2)
etqu'on ajuste unmodèle de la forme (1).Quel estl'impact surlesestimateurs
B ˆ 0,B ˆ 1 et
S 2 (biais, variance) etsurlaqualité dela prévision?
S 2 (biais, variance) etsurlaqualité dela prévision?
Exercice 3 (examen2008)
Soitlemodèlede régressionlinéaire:
Y = Xβ + ε avec ε ∼ N (0, σ 2 I n ) , Y ∈ R n , β ∈ R p X ∈ R n,p .
Onconsidère lesestimateurslinéairespour
β
de laformet = ˆ β + v Y
,v ∈ R n,p étantune matrice
(n × p)
et β ˆ ∈ R p estl'estimateur desmoindrescarrésde β
.
β
.1. Rappeler ladénition de
β ˆ
etdonnerson expression. Quelleest lebiaisde cetestimateur? Quelleestla matricede variance-covarianceV ar( ˆ β)
decet estimateur?2. Montrerque
t
est unestimateursans biaisdeβ
siet seulementsiv X = 0
.3. Montrerque
Cov( ˆ β, v Y ) = 0
.4. Calculer
V ar(t)
.Quelrésultatgénéral peut-onalors énoncersurlavariancedesestimateurs linéaires sans biaisdeβ
?Comparer aveclethéorèmede Gauss-Markov.parattaquecardiaque chez leshommesde 55 à59ans dansdiérents pays. Lesvariables sont les
suivantes:
Y
:100*log(nombrede décèsparcrisecardiaque pour 100000 hommesde 55 à59ans).
X 1 :nombrede téléphonespour1000 habitants.
X 2 :calories grassesen pourcentagedutotalde calories.
X 3 :calories protéinesanimales en pourcentagedutotalde calories.
Les donnéessont disponiblesdansle tableauci-dessous etégalementsurlapage webducours.
1. Oncherche toutd'abordàexpliquerla variable
Y
àpartirde la variableX 1.
(a) Ecrire lemodèlede régressionlinéairecorrespondant enexplicitant lesdiérentes
hypothèses qui sontfaîtes danscemodèle.
(b) Représentez,àl'aide d'unegrapheadapté,la relationentrelesvariables
X 1 etY
.Les
diérenteshypothèses dumodèledurégressionlinéairevoussemble-t-elleêtrevériée?
(c) Donnerune estimationdesdiérents paramètresdumodèle.
(d) Lavariable
X 1 a-t-elleuneet signicatifsurlavariable Y
?Onrépondraà l'aide
d'unteststatistique.
(e) Discuter.
2. Oncherche maintenantàexpliquer lavariable
Y
àpartir desvariablesX 1 etX 2.
(a) Ecrire lemodèlede régressionlinéairecorrespondant.
(b) Donnerune estimationdesdiérents paramètresdumodèle.
(c) Lavariable
X 1 a-t-elleuneet signicatifsurlavariable Y
danscemodèle?On
répondraàl'aide d'unteststatistique.
(d) Discuter.
3. Oncherche maintenantàexpliquer lavariable
Y
àpartir desvariablesX 1,X 2 etX 3.
X 3.
(a) Ecrire lemodèlede régressionlinéairecorrespondant.
(b) Donnerune estimationdesdiérents paramètresdumodèle.
(c) Ce modèleest-il meilleurquecelui de la questionprécédente?
(d) Discuter.
Pays
Y X 1 X 2 X 3
Australie 124 33 8 81
Autriche 49 31 6 55
Canada 181 38 8 80
Ceylan 4 17 2 24
Chili 22 20 4 78
Danemark 152 39 6 52
Finlande 75 30 7 52
France 54 29 7 45
Allemagne 43 35 6 50
Irlande 41 31 5 69
Israël 17 23 4 66
Italie 22 21 3 45
Japon 16 8 3 24
Mexique 10 23 3 43
Pays-Bas 63 37 6 38
Nouvelle-Zélande 170 40 8 72
Norvège 125 38 6 41
Portugal 15 25 4 38
Suède 221 39 7 52
Suisse 171 33 7 52
GrandeBretagne 97 38 6 66
Etats-Unis 254 39 8 89
Tab.1Donnéesrelativesauxattaquescardiaques