• Aucun résultat trouvé

(y 1,j , y 2,j , ..., y n j ,j )

N/A
N/A
Protected

Academic year: 2022

Partager "(y 1,j , y 2,j , ..., y n j ,j )"

Copied!
5
0
0

Texte intégral

(1)

P. Ailliot

2 novembre 2010

Exercice 1 (examen2007-2008)

Ons'intéressedanscet exercice àl'analysede la variance àunfacteur.On reprendles notations

ducours,eton cherche àdémontrer certainsrésultatsqui ontétéadmisdanslecours(il estdonc

interditd'utiliserlesrésultatsducourssurl'analysede lavarianceàunfacteurdanscetexercice).

Onconsidèredonc unensemblede

n

observations réparties en

p

groupes. Onnote

n j

lenombre

d'observationsdanslegroupe

j

,

(y 1,j , y 2,j , ..., y n j ,j )

lesobservations danslegroupe

j

et

¯

y j = n 1 j n j

i=1 y i,j

la moyenneempiriquecorrespondante.On aalors

n = n 1 + n 2 + ... + n p

.

Atitred'exemple, onconsidérerales donnéesdutableau1qui décriventla productivité de trois

variétésde blé (mesuréeen tonnes par hectare) dansdesconditionsclimatiques identiques. Pour

chaquevariété, cinqobservationsont étéeectuéessurdeslotsde terre diérents.

Variété 1 2 3

3 6 3

6 8 3

5 7 2

6 8 2

5 6 5

Moyenne 5 7 3

Tab.1Productivitédetrois variétésdeblé

Onsupposeque lesobservations

(y 1,j , y 2,j , ..., y n j ,j )

dugroupe

j

sont desréalisations de variables aléatoires

(Y 1,j , Y 2,j , ..., Y n j ,j )

indépendantesqui suiventune même loi

Nj , σ 2 )

. Onsupposera

égalementl'indépendance entrelesdiérentsgroupes. L'objectif de l'analysede la variance àun

facteurest detester l'hypothèse:

H 0 : µ 1 = µ 2 = ... = µ p

contre l'hypothèse alternative:

H 1 : ∃i = j

telque

µ i = µ j

1. Onnote

Y ¯ j = n 1 j n j

i=1 Y i,j

.Montrer,en utilisantle théorème de Cochran,que

Y ¯ j

estune

variable aléatoiregaussienne, dontonprécisera lesparamètres, indépendantede

SC j = n j

i=1

Y i,j Y ¯ j 2

etque

SC j

σ 2

suitune loidu

χ2

donton préciseraledegré deliberté.

2. Onnote

Y ¯ = n 1 p

j=1

n j

i=1 Y i,j

.

(a) Que représente

Y ¯

?Montrer que

Y ¯ = n 1 p

j=1 n j Y ¯ j

.

(b) Montrerque

SC ent = p

j=1 n j ( ¯ Y j Y ¯ ) 2

est indépendantde

SC int = p

j=1 SC j

.

(c) Montrerque

SC int

suitune loidu

χ2

donton préciseraledegré de liberté.

(2)

3. Montrerque

SC ent + SC int = SC tot

avec

SC tot = p

j=1

n j

i=1 (Y i,j Y ¯ ) 2

.Comment

peut-oninterpréterlesquantités

SC ent

,

SC int

et

SC tot

?

4. Onnote

Z j = n j Y ¯ j

pour

j ∈ {1...p}

.Quelleestla loide

Z j

?Montrerque

Z = t (Z 1 , ..., Z p )

estunvecteur gaussiendonton préciseralesparamètres.

5. Onsupposedanscettequestion quel'hypothèse

H 0

estvériée.

(a) Montrer,en utilisantlethéorèmede Cochran,que

SC ent

σ 2

suituneloi du

χ 2

donton

préciseraledegré deliberté.

(b) Endéduireque

F c = n−p p−1 SC SC ent int

suitune loide Fisherà

p 1

et

n p

degrés deliberté.

6. Endéduire untest de l'hypothèse

H 0

basésurla statistiquede test

F c

.

7. Application numérique : peuton supposerque lestrois variétésde blé ont lemême

rendement?On fera l'application numériqueavec Ret ondonnerales commandesutilisées.

Exercice 2 (examen2010) Lesdonnéesutiliséesdanscetexerciceconcernent237enfants,

décrits par leursexe, leurâge enmois, leurtailleen inch (1inch=2.54 cm),etleur poidsen

livres (1livre=0.45kg). Lesdonnéessontdisponibles danslechier "enfants.dat" surla page

webducours

1. Oncherche toutd'abord àexpliquer lavariable "poids"àpartirde la variable "âge"àl'aide

d'unmodèle derégressionlinéaire simple.

(a) Ecrire lemodèlede régressionlinéairecorrespondant enexplicitant lesdiérentes

hypothèses.Cesdiérentes hypothèsesvoussemblent-ellesêtrevériées pour les

donnéesconsidérées ici?

(b) Donnerune estimationdesdiérents paramètresdumodèle.Lavariable "âge" a-t-elle

uneetsignicatifsurla variable "poids"?Onrépondraàl'aided'unteststatistique.

2. Oncherche maintenantàexpliquer lavariable "poids" àpartir de lavariable "taille" à

l'aided'unmodèlede régressionlinéairesimple.

(a) Donnerune estimationdesdiérents paramètresdumodèle.

(b) Lavariable"taille"a-t-elleuneetsignicatifsurla variable "poids"?Cemodèle

est-ilmeilleurque celuide la question précédente?

3. Oncherche maintenantàexpliquer lavariable "poids" àpartir desvariables "âge" et

"taille" àl'aide d'unmodèlede régressionlinéairemultiple.

(a) Décrirelemodèle etdonnerune estimationdesdiérents paramètres.

(b) Ce modèleest-il meilleurquecelui desquestionsprécédentes?

4. Lavariable "sexe"at'elleuneetsurlavariable "poids"?Ondécriraune méthode

permettantde répondreàcettequestion etonla mettraenoeuvreàl'aidede R.

5. Lesvariables "âge" et"sexe" ont-elles uneetsimultané surla variable "poids"?On

décriraune méthode permettant derépondreàcettequestion etonla mettraenoeuvreà

l'aidede R.

Exercice 3 Onconsidèredanscetexercicedesdonnéesqui décrivent lesfraisde santé d'un

groupede salariés. Nousdisposons, pour

n = 17301

actesmédicaux, des6variables suivantes:

"MontantFraisReel":montant desfrais desanté eneurosde l'actemédical

(3)

"Sexe" :sexedupatient

"Zone":zonegéographique de résidence

"CSP" :catégorie socio-professionelle

"NbEnfant" :nombred'enfants de l'assuré

L'objectifde ceTD estd'analyser l'eetéventueldesdiérentesvariables ("tranche_âge",

NbEnfant, "Zone","Sexe","CSP") surlemontantdesfrais de santé.

Les donnéessont disponiblessurla page webducours.

1. Importation/nettoyage des données

(a) Importerlesdonnées àl'aidede la commande

>z=read.table("nonfichier.txt",header=TRUE)(l'option header=TRUEsignaleque

la premièreligne duchier contientlenom desvariables)

(b) Taperla commande

>summary(z)

Avantde continuerl'analyse, on proposede nettoyer lesdonnées. Parexemple, on

pourraretirerlesindividus pourlesquels

lesfrais de santésont négatifs(on pourraparexemple utiliserlescommandes

>ext=(z$MontantFraisReel>=0);

>z=z[ext,])

lesexeprend lavaleur '0'

la zonegéographique est'Etranger+Outre-Mer' (faible eectif)

l'âgeestinférieur à20 ans(faible eectif)

2. (a) Taperles commandessuivantes:

>attach(z)

>boxplot(MontantFraisReel

Zone)

>fit=lm(MontantFraisReel

Zone)

>summary(fit)

>plot(fit)

>anova(fit)

Quelest lemodèleajusté parcescommandes?Est-cequela zonegéographique aun

eetsignicatifsurlesfrais de santé(on remplirauntableaud'analysede la variance

à1facteur)?Dans quellerégion lesfraissont-ilslesplusélevés/faibles?Est-cequeles

diérenteshypothèses dumodèlede l'analysedelavarianceàunfacteursontvériées?

(b) Taperles commandessuivantes:

>fit=lm(MontantFraisReel

Zone-1)

>summary(fit)

Quelest lemodèleajusté parcescommandes?Comparer avec la questionprécédente

(onregarderaen particulierla valeur du

R 2

)etdiscuter lesrésultatsobtenus.

(c) Taperles commandessuivantes:

>fit=lm(MontantFraisReel Zone,contrasts=list(Zone="contr.sum"))

>summary(fit)

Quelest lemodèleajusté parcescommandes?Comparer avec lesquestion précédentes

etdiscuter lesrésultatsobtenus.

(d) Taperles commandessuivantes:

>Zone3=relevel(Zone,ref="Nord-Ouest")

>fit=lm(MontantFraisReel

Zone3)

>summary(fit)

Quelest lemodèleajusté parcescommandes?Comparer avec lesquestion précédentes

etdiscuter lesrésultatsobtenus.

(4)

disponibles etdiscuter lesrésultatsobtenus. Avecquelvariable obtient-onlemeilleur

modèle?

3. Taper lescommandessuivantes:

>fit=lm(MontantFraisReel

tranche_âge+Sexe+Zone+CSP+NbEnfant)

>summary(fit)

>plot(fit)

Quel estlemodèle ajustéparces commandes?Quellesvariables ontuneetsignicatif sur

lesfrais de santé?Est-cequelesdiérentes hypothèses permettantde réaliser l'inférence

statistiquedanslemodèle ajustésont vériées?

4. (a) Taperles commandessuivantes:

>fit1=lm(MontantFraisReel

Zone+CSP+Zone*CSP)

>summary(fit1)

>fit2=lm(MontantFraisReel

Zone+CSP)

>summary(fit2)

>fit3=lm(MontantFraisReel

Zone :CSP)

>summary(fit3) >fit4=lm(MontantFraisReel

Zone + Zone :CSP)

>summary(fit4)

Quelsont lesmodèles ajustésparcescommandes?Quel estlemeilleur modèle?

(b) Taperles commandessuivantes:

>anova(fit2,fit1)

Queltest réalise cettecommande?Onécriraleshypothèses correspondantes, la

statistiqusde testetla règlesde décision. Quelleestla conclusion dutest?Interprétez

lesrésultatsobtenus.

(c) Reprendrelesquestionsprécédentes enremplaçantla variable "CSP" parla variable

"SEXE"

5. Calculer, pourchaqueadhérent, lemontant totaldesfrais ainsiquelenombred'actes

consommés.Refairelesanalysesprécédentesenremplacant lavariable MontantFraisReel

parlemontant totaldesfrais.On discuteraégalementl'intérêtéventuelde remplacerle

montant totaldesfrais parsonlogarithme.

6. Créer unevariable numérique age quiprendlesvaleurs

25

sila variable tranche_âge prend lavaleur '[20,30['

35

sila variable tranche_âge prend lavaleur '[30,40[' ...

(a) Taperles commandes:

> fit1=lm(MontantFraisReel

tranche_âge)

> summary(fit1)

> fit2=lm(MontantFraisReel

age)

> summary(fit2)

Quelssont lesmodèles ajustés par cescommandes?Quel estlemeilleur modèle?

Discuter.

(b) Taperles commandes:

> fit=lm(MontantFraisReel

age*Zone)

> summary(fit)

> fit2=lm(MontantFraisReel

age+Zone)

> summary(fit2)

> fit3=lm(MontantFraisReel

age*Zone-Zone)

> summary(fit3)

> fit4=lm(MontantFraisReel

age*Zone-Zone-1)

> summary(fit4)

(5)

> fit5=lm(MontantFraisReel

age+age :Zone)

> summary(fit5)

Quelssont lesmodèles ajustés par cescommandes?Quel estlemeilleur modèle?

Discuter.

(c) Taperles commandes:

> anova(fit2,fit)

> anova(fit3,fit)

Quelssont lestestsréalisés par cescommandes?Onécriraleshypothèses

correspondantes, lesstatistiquesde testetles règlesde décision. Interprétezles

résultatsobtenus.

7. Finalement,quellessontles variables quiinuent leplussurlesfrais desanté?Quelserait

lemodèle quevouschoisiriezan d'expliquer/prévoir aumieuxlesfrais desanté?On

pourrarépondreen s'appuyantsurlesfonctionsde sélection de modèlevues dansleTD

précédent.

8. Taper lescommandes:

> fit=glm(Sexe

age,family=binomial)

> summary(fit)

> fit=glm(Sexe

CSP,family=binomial)

> summary(fit)

> fit=glm(CSP

Sexe,family=binomial)

> summary(fit)

> fit=glm(NbEnfant

Zone,family=poisson)

> summary(fit)

> fit=glm(NbEnfant

Zone,family=gaussian)

> summary(fit)

> fit=glm(CSP

Zone,family=gaussian)

> summary(fit)

Décrireprécisémentles modèlesqui sont ajustésparces commandes, donnerla fonctionde

vraisemblance, etinterprétezlesrésultatsobtenus.

Références

Documents relatifs

20: Also at MTA-ELTE Lendület CMS Particle and Nuclear Physics Group, Eötvös Loránd University, Budapest, Hungary 21: Also at Institute of Nuclear Research ATOMKI, Debrecen,

The input to the first pass is the source program punched with one entry (one line of the coding sheet) per card. The following functions will be performed during

The operator may halt the program inhibit error print-outs, substitute the TTY BELL for error indication, halt after print-out, select any one or group of tests,

parler) sur la jambe qui refuse presque tout service à la suite du coup de pied reçu qui était destiné à des zones plus sensibles et plus vitales. Je m'arrête un instant sur le

Mais ils furent sur- tout les bienfaiteurs des poètes, leurs grands protecteurs (21), dans un temps où la con- dition des gens de lettres était un peu moins sûre qu'elle l'a été

FIGIEL, T., LINDENSTRAUSS, J., MILMAN, V., The dimension of almost spherical sections of convex bodies, Acta Math.. FIGIEL; T., TOMCZAK-JAEGERMANN, N., Projections onto

— SoientXun schéma propre, lisse, géométriquement connexe de dimension n sur Fg, E un F'cristal unité sur X à monodromie finie de groupe G, p : K^(X) -^ G -^ Aut^(M) la

• Graft is filled in scaphoid bone loss.. Institut Institut de la Main de