Simulation
Examen de Statistique Approfondie II
**Corrig´ e **
Ces quatre exercices sont issus du livre d’exercices de Fran¸ cois Husson et de J´ erˆ ome Pag` es intitul´ e Statistiques g´ en´ erales pour utilisateurs, ´ editions PUR.
Exercice 1. Prix d’un appartement en fonction de sa superficie
1. Le coefficient de corr´ elation entre le prix et la superficie d’un appartement T3 correspond ` a la racine carr´ e du coefficient de d´ etermination r = √
0, 495 = 0, 704. Ce coefficient est relativement grand. Ces deux variables sont donc li´ ees comme le montre le dessin.
2. Le mod` ele s’´ ecrit :
∀i Y
i= α + βx
i+
iavec Y
ile prix de l’appartement i en euros, x
ila superficie en m
2de l’appar- tement i et
ile r´ esidu ; on fait d´ esormais les hypoth` eses habituelles pour les r´ esidus puisque l’on n’est pas ` a mˆ eme de pouvoir r´ ealiser les tests ad´ equats :
∀i L(
i) = N (0, σ) et Cov(
i,
j) = 0 ∀j 6= i
Une approche par un mod` ele de r´ egression lin´ eaire compl` ete celle faite par un coefficient de corr´ elation : elle permet de pr´ edire une valeur de Y ` a partir d’une valeur de x.
3. Pour tester si la superficie joue un rˆ ole sur le prix des appatements de type 3, on teste l’hypoth` ese H
0: β = 0 contre H
1: β 6= 0. La statistique de ce test est T =
σˆβˆβ
et, sous l’hypoth` ese H
0cette statistique de test suit une loi de Student ` a n − 2 degr´ es de libert´ e. La probabilit´ e critique ´ etant inf´ erieure
`
a 5 %, on rejette l’hypoth` ese nulle et on consid` ere donc que la superficie d’un appartement de type T3 influe sur son prix. Ce test est ´ equivalent ` a celui qui questionne la nullit´ e du coefficient de corr´ elation. La superficie a donc une influence mais celle-ci est-elle importante ? Le coefficient de d´ etermination r
2s’interpr` ete comme le pourcentage de vrariation observ´ ee qui est expliqu´ ee par le mod` ele. Ici il est de 49, 5 % ; on en conclue que l’influence est importante mais ne suffit pas ` a elle seule pour expliquer la variabilt´ e que l’on observe. Il serait donc bon de consid´ erer d’autres facteurs (emplacement, ´ etage, balcon, ascenseur, vue,. . .).
1
4. L’estimation de la pente de la droite des moindres carr´ es est ˆ β = 6, 657 euros par m
2. On interpr` ete ce coefficient de la mani` ere suivante : un appartement coutera en moyenne 6, 657 euros suppl´ ementaires pour une augmentation de 1 m
2.
5. Le prix moyen d’un m` etre carr´ e se calcule comme le rapportde 591,95 et 68,74 soit 8,61 euros le m` etre carr´ e. Ce prix est diff´ erent de l’estimation de β car le prix des appartements n’est pas directement proportionnel ` a leur surface.
Comme ˆ β est inf´ erieur au prix moyen d’un m` etre carr´ e, proportionnellement
`
a la surface, les petits appartements sont plus chers que les grands. Le mod` ele de r´ egression stipule qu’il faut d’abord une mise de fond α pour louer un T3, et qu’ensuite le prix d’1 m
2coˆ ute β. Remarquons que ce coefficient α est significatif. Il n’est donc pas souhaitable de la retirer du mod` ele.
6. Pour d´ eterminer les appartements “bon march´ e”, on peut se fonder sur l’es- timation des r´ esidus du mod` ele : plus le r´ esidu est faible (n´ egatif et avec une forte valeur absolue), plus l’appartement a un prix faible par rapport ` a celui attendu pour sa superficie.
Exercice 2. Etude de l’appr´ eciation de cocktails de jus de fruits en fonction de leurs saveurs fondamentales et de leur caract` ere pulpeux
1. Le tableau d’analyse de la variance compl´ et´ e est : Analyse de variance
Source DL SC CM F P
R´ egression 4 11,6075 2,9019 6,06 0,008
Erreur r´ esid 11 5,2694 0,4790
Total 15 16,8768
Pour tester l’hypoth` ese de nullit´ e simultan´ ee des 5 coefficients au seuil α = 5
%, on calcule la valeur de la statistique de test f
obs= CM
mod`eleCM
r´esiduelle= 6, 06.
Cette valeur ´ etant sup´ erieure au quantile 0, 95 de la loi de Fisher ` a 4 et 11 degr´ es de libert´ e (3,357), on rejette l’hypoth` ese H
0et on consid` ere qu’au moins un coefficient est non nul.
2. Le fait de centrer et de r´ eduire les donn´ ees ne modifie en rien la pertinence
statistique du mod` ele : toutes les probabilit´ es critiques sont inchang´ ees, ex-
cept´ ee, bien sˆ ur, la probabilit´ e critique relative ` a la constante du mod` ele
puisque cette derni` ere est nullepar construction (ces probabilit´ es critiques
seront comment´ ees ` a la question 5.). L’int´ erˆ et du centrage-r´ eduction est de
rendre les coefficients ˆ β
jcomparables entre eux. Ainsi est-il possible de voir
quelles sont les variables les plus influentes (celles qui ont un coefficient le
plus ´ elev´ e). On consid` erera donc que c’est la variable acide qui influe le plus
sur l’appr´ eciation.
3. Pour les variables amer et pulpeux, le signe de beta ˆ
jest diff´ erent du signe du coefficient de corr´ elation entre cette variable et la variable appr´ eciation.
Ces situations sont inattendues car ` a partir du coefficient de corr´ elation, on dira, par exemple, que plus le cocktail est amer moins il est appr´ eci´ e (r < 0), tandis qu’avec le mod` ele on dira que si l’amertume augmente, alors l’appr´ eciation augmente ( ˆ β
j> 0). Cette contradiction apparente provient du fait que, lorsque l’on interpr` ete un coefficient du mod` ele, on consid` ere implicitement toutes les autres variables ´ egales par ailleurs. Or lorsqu’un cocktail est amer, il est ´ egalement plutˆ ot acide (corr´ elation de 0,858). Et un cocktail acide est moins appr´ eci´ e, ce qui est d´ ej` a pris en compte dans le mod` ele (par la variable acide). Autrement dit, le mod` ele indique qu’` acidit´ e, sucrosit´ e, caract` ere pulpeux constants, les cocktails ont tendance ` a ˆ etre plus appr´ eci´ es lorsqu’ils sont plus amers.
Ceci illustre une des caract´ eristiques de la r´ egression multiple : lorsque les pr´ edicteurs sont corr´ el´ es, leurs coefficients dans le mod` ele ne sont pas ais´ ement interpr´ etables.
4. Le test d’un param` etre se construit de la mˆ eme fa¸con que le test de β en r´ egression simple. Les hypoth` eses test´ ees sont H
0: β
jcontre H
1: β
j6= 0.
La statistique du test est :
σβˆjβj
. Sous l’hypoth` ese nulle, cette statistique suit une loi de Student ` a n − p − 1 degr´ es de libert´ e (i.e. les degr´ es de libert´ e de la r´ esiduelle), soit 11 dans cet exercice. R` edle de d´ ecision : si la valeur absolue de la statistique de test est sup´ erieure au quantile 0,975 de la loi de Student ` a 11 degr´ es de libert´ e, alors on d´ ecide l’hypoth` ese alternative, sinon on accepte l’hypoth` ese nulle. En pratique, il est plus facile de comparer la p−valeur au seuil α choisi.
5. Pris s´ epar´ ement, les tests de nullit´ e d’un coefficient montrent qu’aucun coeffi- cient n’est significativement diff´ erent de 0 au seuil 5 %. Ceci est en apparente contradiction avec le test de nullit´ e simultan´ ee de tous les coefficients (test F ) puisqu’on avait consid´ er´ e qu’au moins un coefficient ´ etait non nul. Mais dans le test d’un coefficient β
j, on teste si ce coefficient est nul, toutes les autres variables ´ etant pr´ esentes dans le mod` ele. L’hypoth` ese test´ ee peut se lire “la variable β
jn’apporte pas d’information suppl´ ementaire pour expliquer Y , i.e.
une information non d´ ej` a expliqu´ ee par les autres variables du mod` ele”. Ainsi, dans l’exemple, chaque pr´ edicteur n’a pas d’apport significatif compte tenu de la pr´ esence de tous les autres. On peut alors se demander s’il ne serait pas judicieux de se limiter ` a un sous-ensemble de pr´ edicteurs. Pour cela, il existe des algorithmes (et donc des programmes) dit de “s´ election de pr´ edicteurs”.
Exercice 3. Pr´ ediction du maximum d’ozone ` a Rennes 1. Le mod` ele s’´ ecrit :
∀i Y
i= β
0+ β
1x
i1+ β
2x
i2+ . . . + β
12x
i12+
iavec les hypoth` eses usuelles pour les r´ esidus :
∀i L(
i) = N (0, σ) et Cov(
i,
j) = 0 ∀j 6= i
3
2. Les hypoth` eses test´ ees sont :
H
0: ∀j, β
j= 0 contre H
1: ∃ j
0| β
j06= 0 La statistique de test utilis´ ee est :
F = CM
mod`eleCM
r´esiduelle= SCE
mod`ele/p SCE
r´esiduelle/(n − p − 1)
Sous l’hypoth` ese nulle, F suit une loi de Fisher ` a p et n − p − 1 degr´ es de libert´ e. D´ ecision : soit on compare f
obs= 30, 84 au quantile 1 − α de la loi de Fisher ` a 12 et 78 degr´ es de libert´ e, soit (ce qui revient au mˆ eme mais est plus commode) on compare la probabilit´ e critique ` a α. Ici la probabilit´ e critique est inf´ erieure ` a 0,0001 donc on rejette l’hypoth` ese H
0au seuil de 5 %. Par cons´ equent, on consid` ere qu’au moins une variable explicative influe sur la concentration d’ozone.
3. Nous allons d´ etailler le test H
0: β
jcontre H
1: β
j6= 0. Si les r´ esidus suivent une loi normale, alors ˆ β
1∼ N (β
1, σ
βˆ1
). Puisque l’on ne connaˆıt pas la vraie valeur de σ
βˆ1, on l’estime et on a :
β ˆ
1− β
1σ
βj∼ Student(n-p-1) Sous l’hypoth` ese nulle, T =
σβˆ1βj