P. Ailliot
2 novembre 2010
Exercice 1 (examen2007-2008)
Ons'intéressedanscet exercice àl'analysede la variance àunfacteur.On reprendles notations
ducours,eton cherche àdémontrer certainsrésultatsqui ontétéadmisdanslecours(il estdonc
interditd'utiliserlesrésultatsducourssurl'analysede lavarianceàunfacteurdanscetexercice).
Onconsidèredonc unensemblede
n
observations réparties enp
groupes. Onnoten j lenombre
d'observationsdanslegroupe
j
,(y 1,j , y 2,j , ..., y n j ,j )
lesobservations danslegroupej
et¯
y j = n 1 j n j
i=1 y i,j
la moyenneempiriquecorrespondante.On aalorsn = n 1 + n 2 + ... + n p.
Atitred'exemple, onconsidérerales donnéesdutableau1qui décriventla productivité de trois
variétésde blé (mesuréeen tonnes par hectare) dansdesconditionsclimatiques identiques. Pour
chaquevariété, cinqobservationsont étéeectuéessurdeslotsde terre diérents.
Variété 1 2 3
3 6 3
6 8 3
5 7 2
6 8 2
5 6 5
Moyenne 5 7 3
Tab.1Productivitédetrois variétésdeblé
Onsupposeque lesobservations
(y 1,j , y 2,j , ..., y n j ,j )
dugroupej
sont desréalisations de variables aléatoires(Y 1,j , Y 2,j , ..., Y n j ,j )
indépendantesqui suiventune même loiN (µ j , σ 2 )
. Onsupposeraégalementl'indépendance entrelesdiérentsgroupes. L'objectif de l'analysede la variance àun
facteurest detester l'hypothèse:
H 0 : µ 1 = µ 2 = ... = µ p
contre l'hypothèse alternative:
H 1 : ∃i = j
telqueµ i = µ j
1. Onnote
Y ¯ j = n 1 j n j
i=1 Y i,j
.Montrer,en utilisantle théorème de Cochran,queY ¯ j estune
variable aléatoiregaussienne, dontonprécisera lesparamètres, indépendantede
SC j = n j
i=1
Y i,j − Y ¯ j 2
etque
SC j
σ 2
suitune loiduχ2
donton préciseraledegré deliberté.2. Onnote
Y ¯ = n 1 p
j=1
n j
i=1 Y i,j
.(a) Que représente
Y ¯
?Montrer queY ¯ = n 1 p
j=1 n j Y ¯ j
.(b) Montrerque
SC ent = p
j=1 n j ( ¯ Y j − Y ¯ ) 2
est indépendantdeSC int = p
j=1 SC j
.(c) Montrerque
SC int suitune loiduχ2
donton préciseraledegré de liberté.
3. Montrerque
SC ent + SC int = SC tot avecSC tot = p
j=1
n j
i=1 (Y i,j − Y ¯ ) 2
.Commentpeut-oninterpréterlesquantités
SC ent,SC int etSC tot?
SC tot?
4. Onnote
Z j = √ n j Y ¯ j pourj ∈ {1...p}
.Quelleestla loide Z j?Montrerque
Z = t (Z 1 , ..., Z p )
estunvecteur gaussiendonton préciseralesparamètres.5. Onsupposedanscettequestion quel'hypothèse
H 0 estvériée.
(a) Montrer,en utilisantlethéorèmede Cochran,que
SC ent
σ 2
suituneloi duχ 2 donton
préciseraledegré deliberté.
(b) Endéduireque
F c = n−p p−1 SC SC ent int suitune loide Fisheràp − 1
etn − p
degrés deliberté.
6. Endéduire untest de l'hypothèse
H 0basésurla statistiquede testF c.
7. Application numérique : peuton supposerque lestrois variétésde blé ont lemême
rendement?On fera l'application numériqueavec Ret ondonnerales commandesutilisées.
Exercice 2 (examen2010) Lesdonnéesutiliséesdanscetexerciceconcernent237enfants,
décrits par leursexe, leurâge enmois, leurtailleen inch (1inch=2.54 cm),etleur poidsen
livres (1livre=0.45kg). Lesdonnéessontdisponibles danslechier "enfants.dat" surla page
webducours
1. Oncherche toutd'abord àexpliquer lavariable "poids"àpartirde la variable "âge"àl'aide
d'unmodèle derégressionlinéaire simple.
(a) Ecrire lemodèlede régressionlinéairecorrespondant enexplicitant lesdiérentes
hypothèses.Cesdiérentes hypothèsesvoussemblent-ellesêtrevériées pour les
donnéesconsidérées ici?
(b) Donnerune estimationdesdiérents paramètresdumodèle.Lavariable "âge" a-t-elle
uneetsignicatifsurla variable "poids"?Onrépondraàl'aided'unteststatistique.
2. Oncherche maintenantàexpliquer lavariable "poids" àpartir de lavariable "taille" à
l'aided'unmodèlede régressionlinéairesimple.
(a) Donnerune estimationdesdiérents paramètresdumodèle.
(b) Lavariable"taille"a-t-elleuneetsignicatifsurla variable "poids"?Cemodèle
est-ilmeilleurque celuide la question précédente?
3. Oncherche maintenantàexpliquer lavariable "poids" àpartir desvariables "âge" et
"taille" àl'aide d'unmodèlede régressionlinéairemultiple.
(a) Décrirelemodèle etdonnerune estimationdesdiérents paramètres.
(b) Ce modèleest-il meilleurquecelui desquestionsprécédentes?
4. Lavariable "sexe"at'elleuneetsurlavariable "poids"?Ondécriraune méthode
permettantde répondreàcettequestion etonla mettraenoeuvreàl'aidede R.
5. Lesvariables "âge" et"sexe" ont-elles uneetsimultané surla variable "poids"?On
décriraune méthode permettant derépondreàcettequestion etonla mettraenoeuvreà
l'aidede R.
Exercice 3 Onconsidèredanscetexercicedesdonnéesqui décrivent lesfraisde santé d'un
groupede salariés. Nousdisposons, pour
n = 17301
actesmédicaux, des6variables suivantes:"MontantFraisReel":montant desfrais desanté eneurosde l'actemédical
"Sexe" :sexedupatient
"Zone":zonegéographique de résidence
"CSP" :catégorie socio-professionelle
"NbEnfant" :nombred'enfants de l'assuré
L'objectifde ceTD estd'analyser l'eetéventueldesdiérentesvariables ("tranche_âge",
NbEnfant, "Zone","Sexe","CSP") surlemontantdesfrais de santé.
Les donnéessont disponiblessurla page webducours.
1. Importation/nettoyage des données
(a) Importerlesdonnées àl'aidede la commande
>z=read.table("nonfichier.txt",header=TRUE)(l'option header=TRUEsignaleque
la premièreligne duchier contientlenom desvariables)
(b) Taperla commande
>summary(z)
Avantde continuerl'analyse, on proposede nettoyer lesdonnées. Parexemple, on
pourraretirerlesindividus pourlesquels
lesfrais de santésont négatifs(on pourraparexemple utiliserlescommandes
>ext=(z$MontantFraisReel>=0);
>z=z[ext,])
lesexeprend lavaleur '0'
la zonegéographique est'Etranger+Outre-Mer' (faible eectif)
l'âgeestinférieur à20 ans(faible eectif)
2. (a) Taperles commandessuivantes:
>attach(z)
>boxplot(MontantFraisReel
∼
Zone)>fit=lm(MontantFraisReel
∼
Zone)>summary(fit)
>plot(fit)
>anova(fit)
Quelest lemodèleajusté parcescommandes?Est-cequela zonegéographique aun
eetsignicatifsurlesfrais de santé(on remplirauntableaud'analysede la variance
à1facteur)?Dans quellerégion lesfraissont-ilslesplusélevés/faibles?Est-cequeles
diérenteshypothèses dumodèlede l'analysedelavarianceàunfacteursontvériées?
(b) Taperles commandessuivantes:
>fit=lm(MontantFraisReel
∼
Zone-1)>summary(fit)
Quelest lemodèleajusté parcescommandes?Comparer avec la questionprécédente
(onregarderaen particulierla valeur du
R 2)etdiscuter lesrésultatsobtenus.
(c) Taperles commandessuivantes:
>fit=lm(MontantFraisReel Zone,contrasts=list(Zone="contr.sum"))
>summary(fit)
Quelest lemodèleajusté parcescommandes?Comparer avec lesquestion précédentes
etdiscuter lesrésultatsobtenus.
(d) Taperles commandessuivantes:
>Zone3=relevel(Zone,ref="Nord-Ouest")
>fit=lm(MontantFraisReel
∼
Zone3)>summary(fit)
Quelest lemodèleajusté parcescommandes?Comparer avec lesquestion précédentes
etdiscuter lesrésultatsobtenus.
disponibles etdiscuter lesrésultatsobtenus. Avecquelvariable obtient-onlemeilleur
modèle?
3. Taper lescommandessuivantes:
>fit=lm(MontantFraisReel
∼
tranche_âge+Sexe+Zone+CSP+NbEnfant)>summary(fit)
>plot(fit)
Quel estlemodèle ajustéparces commandes?Quellesvariables ontuneetsignicatif sur
lesfrais de santé?Est-cequelesdiérentes hypothèses permettantde réaliser l'inférence
statistiquedanslemodèle ajustésont vériées?
4. (a) Taperles commandessuivantes:
>fit1=lm(MontantFraisReel
∼
Zone+CSP+Zone*CSP)>summary(fit1)
>fit2=lm(MontantFraisReel
∼
Zone+CSP)>summary(fit2)
>fit3=lm(MontantFraisReel
∼
Zone :CSP)>summary(fit3) >fit4=lm(MontantFraisReel
∼
Zone + Zone :CSP)>summary(fit4)
Quelsont lesmodèles ajustésparcescommandes?Quel estlemeilleur modèle?
(b) Taperles commandessuivantes:
>anova(fit2,fit1)
Queltest réalise cettecommande?Onécriraleshypothèses correspondantes, la
statistiqusde testetla règlesde décision. Quelleestla conclusion dutest?Interprétez
lesrésultatsobtenus.
(c) Reprendrelesquestionsprécédentes enremplaçantla variable "CSP" parla variable
"SEXE"
5. Calculer, pourchaqueadhérent, lemontant totaldesfrais ainsiquelenombred'actes
consommés.Refairelesanalysesprécédentesenremplacant lavariable MontantFraisReel
parlemontant totaldesfrais.On discuteraégalementl'intérêtéventuelde remplacerle
montant totaldesfrais parsonlogarithme.
6. Créer unevariable numérique age quiprendlesvaleurs
25
sila variable tranche_âge prend lavaleur '[20,30['35
sila variable tranche_âge prend lavaleur '[30,40[' ...(a) Taperles commandes:
> fit1=lm(MontantFraisReel
∼
tranche_âge)> summary(fit1)
> fit2=lm(MontantFraisReel
∼
age)> summary(fit2)
Quelssont lesmodèles ajustés par cescommandes?Quel estlemeilleur modèle?
Discuter.
(b) Taperles commandes:
> fit=lm(MontantFraisReel
∼
age*Zone)> summary(fit)
> fit2=lm(MontantFraisReel
∼
age+Zone)> summary(fit2)
> fit3=lm(MontantFraisReel
∼
age*Zone-Zone)> summary(fit3)
> fit4=lm(MontantFraisReel
∼
age*Zone-Zone-1)> summary(fit4)
> fit5=lm(MontantFraisReel
∼
age+age :Zone)> summary(fit5)
Quelssont lesmodèles ajustés par cescommandes?Quel estlemeilleur modèle?
Discuter.
(c) Taperles commandes:
> anova(fit2,fit)
> anova(fit3,fit)
Quelssont lestestsréalisés par cescommandes?Onécriraleshypothèses
correspondantes, lesstatistiquesde testetles règlesde décision. Interprétezles
résultatsobtenus.
7. Finalement,quellessontles variables quiinuent leplussurlesfrais desanté?Quelserait
lemodèle quevouschoisiriezan d'expliquer/prévoir aumieuxlesfrais desanté?On
pourrarépondreen s'appuyantsurlesfonctionsde sélection de modèlevues dansleTD
précédent.
8. Taper lescommandes:
> fit=glm(Sexe
∼
age,family=binomial)> summary(fit)
> fit=glm(Sexe
∼
CSP,family=binomial)> summary(fit)
> fit=glm(CSP
∼
Sexe,family=binomial)> summary(fit)
> fit=glm(NbEnfant
∼
Zone,family=poisson)> summary(fit)
> fit=glm(NbEnfant
∼
Zone,family=gaussian)> summary(fit)
> fit=glm(CSP
∼
Zone,family=gaussian)> summary(fit)
Décrireprécisémentles modèlesqui sont ajustésparces commandes, donnerla fonctionde
vraisemblance, etinterprétezlesrésultatsobtenus.