Master 1EURIA
Examen de statistique
Jeudi 11 Décembre 2008
Durée:3heures.
Documentsetordinateursautorisés
TOUTCOMMUNICATIONPAR VOIE INFORMATIQUEESTINTERDITE
Exercice 1
Onconsidèredanscetexercicedesdonnéesrelativesauxconditionsclimatiquessurlapériode
1976-2005,àsavoir:
LatempératureannuellemoyenneàBrest,endegrécelsius.CettevariableseranotéeTEMP.
La concentration annuellemoyenneen CO2 dansl'air mesuréeà lastation de Mauna Kea
(Hawai),enpartiesparmillion(ppm).CettevariableseranotéeCO2.
La concentration annuellemoyenneen CH4dans l'airmesurée en Arctique,en parties par
million.CettevariableseranotéeCH4.
Ledioxydedecarbone(C02)et leméthane(CH4) sontdeuxgazàeetdeserre.L'augmentation
de la concentration dans l'atmosphère terrestre de ces gaz à eet de serre serait à l'origine du
réchauement climatique. Ces données sont disponibles dans le tableau 2 page 4. et elles sont
égalementdisponiblesdanslechierdata.txt.
1.Onproposetout d'abordd'ajusterunmodèlederégressionlinéairesimple,delaforme
T EMP = β 0 + β 1 CO2 + W
(1)and'expliquerl'évolutiondelatempératureannuellemoyenneàBrestàpartirdelaconcentration
enCO2.
a.Quereprésente
W
dansl'équation 1?b.Donneruneestimation desparamètres
β 0et β 1 ainsiqu'unintervalledeconanceà95%pour
cesparamètres.
c.Surquelle(s)hypothèse(s)reposelaconstructiondecesintervallesdeconance?Ceshypothèses
voussemblent-elles êtrevériéesparlesdonnéesconsidéréesdanscetexercice?
d.Peut-onobserverunerelationsignicativeentrelaconcentrationenCO2et lestempératuresà
Brest?On répondraàl'aide d'unteststatistique. Onpréciseralastatistiquedetest ainsiquesa
loisousl'hypothèsenulle.
e.LorsdeladernièreréunionduGroupeintergouvernementalsurl'évolutionduclimat,diérents
scénariosontétéenvisagéspourl'évolutiondelaconcentrationenCO2d'ici 2050.
Le scénarioleplusoptimisteprédit unediminution de50%des émissionsde CO2produits
parl'activitéhumaine. CecientraineraituneconcentrationdeCO2de500ppmen2050.
Lescénariolepluspessimisteprédituneaugmentationde30%desémissionsdeCO2produits
parl'activitéhumaine. CecientraineraituneconcentrationdeCO2de650ppmen2050.
Prédire les températures moyennes en 2050 correspondant à ces deux scénarios en utilisant le
modèlederégressionlinéairesimple.Ondonneralesintervallesdeprédictionà95%correspondant.
D'aprèslesexperts,lescénariooptimisteentraineraituneaugmentationdestempératuresmoyennes
de
2.5 0Cetlescénariopessimistede3.5 0C.Comparezceschiresaveclesprédictionsobtenusavec
lemodèlederégressionlinéairesimple.
2.Onproposemaintenantd'ajusterunmodèlederégressionlinéairemultiple,delaforme
T EMP = β 0 + β 1 CO2 + β 2 CH 4 + β 3 AN + W
(2)and'expliquerl'évolutiondelatempératureannuellemoyenneàBrestàpartirdelaconcentration
enCO2et enCH4ainsiquedel'année(variablenotéeAN).
a.DonnerlescommandesRqui permettentd'ajustercemodèle.
b.Quelssontlesparamètresinconnusdanscemodèle?Donneruneestimationpourchacundeces
paramètresainsiqu'unintervalledeconanceà95%.
c.Cemodèleest-il"meilleur"quelemodèledelaquestion1?Justiervotreréponse.
3.Ajuster tousles diérents sous-modèles possibles du modèle (2). Quelest le meilleur modèle
parmitouscessous-modèles?Discuter.
4. Refaire la sélection de modèle en utilisant les méthodes pas à pas d'élimination en avant,
d'élimination en arrière et stepwise. On décrira précisément chaque étape de ces algorithmes
puisoncompareralesrésultatsobtenusaveccestroisalgorithmesainsiqu'aveclesrésultatsdela
question3..
Exercice 2
Ons'intéressedanscetexerciceàl'analysedelavarianceàunfacteur.Onreprendlesnotations
ducours.On considère donc un ensemble de
n
observations répartiesenp
groupes.On noten j
lenombred'observation danslegroupe
j
,(y 1,j , y 2,j , ..., y n j ,j )
lesobservationsdanslegroupej
et¯
y j = n 1 j n j
i=1 y i,j
lamoyenneempirique correspondante.Onaalorsn = n 1 + n 2 + ... + n p.
Atitre d'exemple, on considéreralesdonnéesdutableau 1qui décriventlaproductivitédetrois
variétésdeblé (mesurée entonnes parhectare) dansdes conditionsclimatiquesidentiques.Pour
chaquevariété,cinqobservationsontétéeectuéessur deslots deterrediérents.
Variété 1 2 3
3 6 3
6 8 3
5 7 2
6 8 2
5 6 5
Moyenne 5 7 3
Tab.1Productivitédetrois variétésdeblé
On suppose que les observations du groupe
j
sont des réalisations de variables aléatoires(Y 1,j , Y 2,j , ..., Y n j ,j )
indépendantes qui suiventune même loiN (µ j , σ 2 )
. On supposeraégalementl'indépendance entre lesdiérentsgroupes.L'objectifde l'analysedela varianceàunfacteur est
detesterl'hypothèse:
H 0 : µ 1 = µ 2 = ... = µ p
contrel'hypothèsealternative:
H 1 : ∃i = j
telqueµ i = µ j
1. On note
Y ¯ j = n 1 j n j
i=1 Y i,j
. Montrer, en utilisant le théorème de Cochran, queY ¯ j est une
variablealéatoiregaussienneindépendantede
SC j = n j
i=1 Y i,j − Y ¯ j 2
etqueSC j
σ 2
suituneloiduχ2
dontonpréciseraledegrédeliberté.2. Onnote
Y ¯ = 1 n p
j=1
n j
i=1 Y i,j
.Quereprésentecettequantité?MontrerqueY ¯ = 1 n p
j=1 n j Y ¯ j
.Endéduireque
SC ent = p
j=1 n j ( ¯ Y j − Y ¯ ) 2
est indépendantdeSC int = p
j=1 SC j
.3. Montrerque
SC ent + SC int = SC totavecSC tot = p
j=1
n j
i=1 (Y i,j − Y ¯ ) 2
.Quereprésententles quantitésSC ent,SC int et SC tot?
SC tot?
4. Onnote
Z j = √ n j Y ¯ j pourj ∈ {1...p}
.Quelleestlaloide Z i? MontrerqueZ = t (Z 1 , ..., Z p )
Z = t (Z 1 , ..., Z p )
estunvecteurgaussiendontonpréciseralesparamètres.
5. Onsupposedanscettequestionquel'hypothèse
H 0 estvériée.
a. Montrer que
SC ent
σ 2
suit une loi duχ 2 dont on précisera le degré de liberté. On
pourra utiliser lethéorème deCochran en considérantlevecteur
Z
et laprojectionothogonalesurlesousespaceorthogonalauvecteur
e = t ( √ n 1 , ..., √ n p )
.b. En déduire que
F c = n−p p−1 SC SC ent int suit une loideFisher àp − 1
et n − p
degrésde
liberté.
6. Endéduireuntestdel'hypothèse
H 0 basésurlastatistiquedetestF c.
7. Application numérique : peut on supposer que les trois variétés de blé ont le même
rendement?OndonneralescommandesR quipermettentderéalisercetest.
Exercice 3
Onrappellequ'unevariable aléatoire
X
àvaleursdansN
suitune loidePoisson deparamètreλ
siellevérie,pour
x ∈ N
,P [X = x] = exp(−λ) λ x x!
1.Rappelerladénition dumodèlederégressiondePoisson.
2.Donnerlesfonctionsdevraisemblanceetdelog-vraisemblanceassociéesàcemodèle.
3.Montrer que lesestimateurs dumaximum de vraisemblancevérient un système d'équations
non-linéairesqu'onprécisera.
1976 11.0784 332.15 1515
1977 10.7308 333.90 1531
1978 10.7122 335.50 1547
1979 10.5197 336.85 1563
1980 10.5418 338.69 1578
1981 11.0084 339.93 1593
1982 11.2546 341.13 1608
1983 11.3117 342.78 1622
1984 11.0559 344.42 1636
1985 10.5578 345.90 1649
1986 10.0031 347.15 1662
1987 10.3993 348.93 1673
1988 11.2408 351.48 1683
1989 11.6889 352.91 1698
1990 12.2692 354.19 1710
1991 10.6749 355.59 1720
1992 11.1440 356.37 1724
1993 10.8959 357.04 1732
1994 11.7085 358.88 1738
1995 11.9461 360.88 1742
1996 10.8350 362.64 1741
1997 11.9750 363.76 1751
1998 11.4588 366.63 1753
1999 11.9106 368.31 1755
2000 11.3805 369.48 1760
2001 11.3122 371.02 1769
2002 11.7371 373.10 1768
2003 11.8285 375.64 1778
2004 11.3786 377.38 1776
2005 11.5877 379.30 1779
Moyennes 11.2049 354.73 1685
Tab.2Donnéesdel'exercice1