• Aucun résultat trouvé

X 1 = (x 1,1 , ..., x n,1 ) etX 2 = (x 1,2 , ..., x n,2 ) etonsupposequela réponseY dépenduniquement

N/A
N/A
Protected

Academic year: 2022

Partager "X 1 = (x 1,1 , ..., x n,1 ) etX 2 = (x 1,2 , ..., x n,2 ) etonsupposequela réponseY dépenduniquement "

Copied!
4
0
0

Texte intégral

(1)

P. Ailliot

7 octobre 2010

Exercice 1 Onconsidèredanscetexercicedesdonnées quiproviennentduGroupe d'Etudeetde

RéexionInter-régional(GERI).Ellesdécriventquatregrandsthèmes:la démographie,l'emploi,

lascalitédirectelocale etla criminalité.Lesindicateurs sontmesuréssurl'ensemble des

départements françaismétropolitainsetla Corse (regroupée) pendant l'année1990.Ilssont, pour

laplupart, destauxcalculésrelativementàla populationtotale dudépartement concerné.Voici la

listedesparamètres:

identicateur:numérodudépartement

identicateur:code dudépartement

identicateur:code de la région

TXCR :tauxdecroissance dela population surla période intercensitaire1982-1990

ETRA:partdesétrangersdansla population totale

JEUN:partdes0-19 ansdansla population totale

AGE:partdesplusde 65 ansdansla population totale

CHOM:tauxde chômage

Partsde chaqueprofessionetcatégoriesocio-professionnelle (PCS) danslapopulation active

occupéedudépartement :

AGRI:agriculteurs

ARTI :artisans

CADR:cadres supérieurs

EMPL:employés

OUVR:ouvriers

PROF:professionsintermédiaire

FISC:produit,en francsconstants 1990 etparhabitant, desquatretaxesdirecteslocales

(professionnelle,habitation, foncier bâti,foncier nonbâti)

CRIM:tauxde criminalité:nombrede délitsparhabitant

FE90:tauxde fécondité (pour1000), égal aunombrede naissances rapportéaunombrede

femmesfécondes(15 à49 ans) enmoyennetriennale

Les donnéessont disponiblessurla page webducours.L'objectif de cetexerciceest d'étudierla

variable CRIMenfonction desautresvariables.

1. Importerlesdonnéessous R etcalculer lamatrice decorrélation. Quellesvariables sont

signicativement corrélées avecla variable CRIM?On répondreàl'aide d'untest

statistiqueadapté vuen cours.

2. Réaliser une analyseencomposantesprincipales. Discuterlesrésultatsobtenusenportant

une attentionspéciqueàlavariable CRIM.

3. Ajusterunmodèle de régressionlinéaire simplepermettant d'expliquerla variable CRIMà

partirde la variable quiest la pluscorréléeavecCRIM. Discuterlesrésultatsobtenus.

4. Ajusterunmodèle derégressionlinéairemultiplepermettant d'expliquerla variable CRIMà

partirdesautresvariables disponibles.Discuterlesrésultatsobtenus. Ce modèleest-il

meilleur quelemodèlede la question précédente?

5. Sélectionner lemeilleursous-modèledumodèle précédent. Discuterles résultatsobtenus.

(2)

estimateursdanslemodèlelinéaire. Ondisposede deuxvariables explicatives

X 1 = (x 1,1 , ..., x n,1 )

et

X 2 = (x 1,2 , ..., x n,2 )

etonsupposequela réponse

Y

dépenduniquement

de lapremière variable explicative,c'est àdirequele"vrai" modèleestunmodèle de régression

linéaire simplegaussiende la forme

Y = β 0 + β 1 X 1 + W

(1)

avec

β 0

et

β 1

desparamètresinconnus.

Lors de l'ajustementdumodèle,onignoreque lavariable

X 2

n'apasd'inuencesurla réponse et

onajuste unmodèle de régressionlinéaire multiplegaussiende la forme :

Y = β 0 + β 1 X 1 + β 2 X 2 + W

(2)

Onnote

B ˆ = ( ˆ B 0 , B ˆ 1 , B ˆ 2 )

lesestimateursdesmoindrescarréscorrespondantset

S 2

l'estimateur de

σ 2

.

Poursimplier lescalculs,on supposeque lesvariables explicativessontcentrées-réduites,c'està

dire vérient

n

i=1 x i,j = 0

et

n

i=1 x 2 i,j = 1

pour

j ∈ {1, 2}

.Onnotera

ρ = n

i=1 x i,1 x i,2

.

1. Ecrire lesmodèles (1)et(2)sousla forme matricielleetrappelerleshypothèsesdumodèle

de régressionlinéairegaussien.

2. Rappeler pourquoi

|ρ| ≤ 1

.

3. Rappeler l'expressionmatricielle de

B ˆ

puis expliciter

B ˆ 0

,

B ˆ 1

et

B ˆ 2

en fonctionde

ρ

.

4. Montreque

B ˆ

estunvecteurgaussiendontonpréciseralescaractéristiques. Endéduirele biais, lavarianceet l'EQMdesestimateurs

B ˆ 0

et

B ˆ 1

.Comparer avec cequ'on obtient en

ajustant directement levrai modèle (1).Discuter.

5. Soit

x 0 = (1, x 0,1 , x 0,2 )

avec

(x 0,1 , x 0,2 ) R 2

et

Y ˆ 0 = x 0 B ˆ

.Quereprésente

Y ˆ 0

?Montrer que

Y ˆ 0

estune variable gaussiennedontonpréciserales caractéristiques. Comparer avecce qu'on obtient enajustant directementlevraimodèle (1). Discuter:quelleestla

conséquencede lasurparamétrisationsurla qualitéde la prévisionobtenueaveclemodèle

de régressionlinéaire?

6. Rappeler lespropriétésvuesen cours pour l'estimateur

S 2

eten déduire lebiaisetla

variance de cetestimateur.Comparer avecce qu'onobtient en ajustantdirectement levrai

modèle (1).

7. Question ouverte :reprenezl'exerciceen supposantquela vraimodèle estdela forme (2)

etqu'on ajuste unmodèle de la forme (1).Quel estl'impact surlesestimateurs

B ˆ 0

,

B ˆ 1

et

S 2

(biais, variance) etsurlaqualité dela prévision?

Exercice 3 (examen2008)

Soitlemodèlede régressionlinéaire:

Y = + ε avec ε ∼ N (0, σ 2 I n ) , Y R n , β R p X R n,p .

Onconsidère lesestimateurslinéairespour

β

de laforme

t = ˆ β + v Y

,

v R n,p

étantune matrice

(n × p)

et

β ˆ R p

estl'estimateur desmoindrescarrésde

β

.

1. Rappeler ladénition de

β ˆ

etdonnerson expression. Quelleest lebiaisde cetestimateur? Quelleestla matricede variance-covariance

V ar( ˆ β)

decet estimateur?

2. Montrerque

t

est unestimateursans biaisde

β

siet seulementsi

v X = 0

.

3. Montrerque

Cov( ˆ β, v Y ) = 0

.

4. Calculer

V ar(t)

.Quelrésultatgénéral peut-onalors énoncersurlavariancedesestimateurs linéaires sans biaisde

β

?Comparer aveclethéorèmede Gauss-Markov.

(3)

parattaquecardiaque chez leshommesde 55 à59ans dansdiérents pays. Lesvariables sont les

suivantes:

Y

:100*log(nombrede décèsparcrisecardiaque pour 100000 hommesde 55 à59ans).

X 1

:nombrede téléphonespour1000 habitants.

X 2

:calories grassesen pourcentagedutotalde calories.

X 3

:calories protéinesanimales en pourcentagedutotalde calories.

Les donnéessont disponiblesdansle tableauci-dessous etégalementsurlapage webducours.

1. Oncherche toutd'abordàexpliquerla variable

Y

àpartirde la variable

X 1

.

(a) Ecrire lemodèlede régressionlinéairecorrespondant enexplicitant lesdiérentes

hypothèses qui sontfaîtes danscemodèle.

(b) Représentez,àl'aide d'unegrapheadapté,la relationentrelesvariables

X 1

et

Y

.Les

diérenteshypothèses dumodèledurégressionlinéairevoussemble-t-elleêtrevériée?

(c) Donnerune estimationdesdiérents paramètresdumodèle.

(d) Lavariable

X 1

a-t-elleuneet signicatifsurlavariable

Y

?Onrépondraà l'aide

d'unteststatistique.

(e) Discuter.

2. Oncherche maintenantàexpliquer lavariable

Y

àpartir desvariables

X 1

et

X 2

.

(a) Ecrire lemodèlede régressionlinéairecorrespondant.

(b) Donnerune estimationdesdiérents paramètresdumodèle.

(c) Lavariable

X 1

a-t-elleuneet signicatifsurlavariable

Y

danscemodèle?On

répondraàl'aide d'unteststatistique.

(d) Discuter.

3. Oncherche maintenantàexpliquer lavariable

Y

àpartir desvariables

X 1

,

X 2

et

X 3

.

(a) Ecrire lemodèlede régressionlinéairecorrespondant.

(b) Donnerune estimationdesdiérents paramètresdumodèle.

(c) Ce modèleest-il meilleurquecelui de la questionprécédente?

(d) Discuter.

(4)

Pays

Y X 1 X 2 X 3

Australie 124 33 8 81

Autriche 49 31 6 55

Canada 181 38 8 80

Ceylan 4 17 2 24

Chili 22 20 4 78

Danemark 152 39 6 52

Finlande 75 30 7 52

France 54 29 7 45

Allemagne 43 35 6 50

Irlande 41 31 5 69

Israël 17 23 4 66

Italie 22 21 3 45

Japon 16 8 3 24

Mexique 10 23 3 43

Pays-Bas 63 37 6 38

Nouvelle-Zélande 170 40 8 72

Norvège 125 38 6 41

Portugal 15 25 4 38

Suède 221 39 7 52

Suisse 171 33 7 52

GrandeBretagne 97 38 6 66

Etats-Unis 254 39 8 89

Tab.1Donnéesrelativesauxattaquescardiaques

Références