LM 347 Ann´ee 2011-2012 Analyse de donn´ees et r´egression Universit´e Pierre et Marie Curie
Projet Groupes TP 1B et 2B
Instructions g´en´erales
Pour pr´eparer le projet, vous aurez besoin du logiciel R. Nous vous rappelons que le logiciel peut ˆetre librement t´el´echarg´e sur la plateforme du CRAN (http://cran.fr.r-project.org) pour ˆetre install´e sur un ordinateur personnel. Vous pouvez aussi utiliser les machines en libre- service `a l’UTES.
Ce projet peut ˆetre pr´epar´e seul ou en binˆome, il est `a rendre au plus tard le 21 mai. Tout document rendu apr`es cette date ne sera pas not´e. Le projet est `a rendre sous la forme d’un unique document, de pr´ef´erence de type ´electronique. Dans ce cas le document est `a envoyer par email `a [email protected]. Si vous pr´ef´erez rendre un document papier (par exemple s’il contient des parties manuscrites), il faut d´eposer ce dernier au secr´etariat de la Maison de la P´edagogie.
Les r´eponses doivent ˆetre exhaustives, incluant toutes les commandes R utilis´ees et les gra- phiques. La clart´e des r´eponses sera particuli`erement prise en compte dans la notation du projet.
Le document est `a r´ediger en police 12 et ne devra pas exc´eder 6 pages. Les exercices 9 et 10 sont facultatifs.
Si vous rencontrez de difficult´es ou si vous ˆetes bloqu´e, vous pouvez me contacter par mail ([email protected]).Cependant, je ne r´epondrai qu’`a des questions pr´ecises, bien r´eedig´ees et qui expliquent clairement ce qui vous bloque. Je ne r´epondrai pas `a des questions concernat l’explication des sujets d´ej`a abord´es en cours ou dont la r´eponse peut ˆetre facilement trouv´ee par vous mˆeme ou si la r´eponse est tr`es ´evidente.
Analyse de la variance
Dans le TP 5, nous avons trait´e le probl`eme de la comparaison des moyennes de deux populations en utilisant le t-test. En pratique, pour des nombreuses applications, on d´esire comparer non pas deux, mais plusieurs populations. Plutˆot que d’appliquer successivement le t-test `a tous les couples possibles de deux populations pour comparer leurs moyennes, on pr´ef`ere effectuer un seul test statistique permettant de comparer toutes les moyennes `a la fois, grˆace `a une proc´edure statistique appel´ee analyse de la variance. Il s’agit en r´ealit´e de l’une des m´ethodes les plus utilis´ees dans les applications de la statistique, ou en analyse de donn´ees.
Remarque. Il est essentiel de bien avoir compris le TP5 pour pr´eparer ce projet car le test d’analyse de la variance est en quelque sorte une g´en´eralisation du t-test.
Donn´ees NotesTD
Nous allons ´etudier l’analyse de la variance avec le jeu de donn´eesNotesTD. Ce jeu de donn´ees contient les notes finales de contrˆole continu de la mati`ere ”Chimie Organique”. Etant donn´e le nombre ´el´ev´e d’´etudiants, les ´el`eves ont ´et´e s´epar´es en 3 groupes de TD, chaque groupe ´etant assur´e par un enseignant diff´erent.
1
A la fin du semestre chaque moniteur doit rendre au professeur de Cours Magistraux la note finale de CC de son groupe. Le professeur doit v´erifier s’il existe beaucoup de variation entre les r´esultats de chaque groupe.
Le jeu de donn´eesNotesTD.txt contient 2 variables:
– La variable groupe qui d´ecrit le groupe de TD: G1 (groupe 1), G2 (groupe 2) et G3 (groupe 3) .
– La variable notequi contient la note finale de contrˆole continu sur 25 points.
Exercice 1.
(1) T´el´echarger le fichier NotesTD.txt `a cette adresse et importer les donn´ees sous forme d’un tableau.
(2) Donner une br`eve description de la structure des donn´ees: i.e. pr´eciser les noms des va- riables et leur type; appliquer la fonction summary(); renseigner le nombre total d’´el`eves, le nombre d’´el`eves par groupe. Utiliser la fonction attach()pour pouvoir acc´eder direc- tement aux noms des variables.
(3) Tracer les boˆıtes `a moustaches de la variable note pour les trois groupes d’´el`eves. Sur la base de ces graphiques, des diff´erences entre les trois groupes de TD sont-elles visibles?
Aspects Th´eoriques de l’analyse de la variance
Cette partie pr´esente le test de l’analyse de la variance. Celui-ci permet de tester l’´egalit´e des moyennes de tous les groupes contre l’hypoth`ese contraire. Le test de l’analyse de la variance peut ˆetre utilis´e lorsque les conditions suivantes sont v´erifi´ees :
Conditions d’application du test. On dispose de I ´echantillons ind´ependants de taille ni, not´es Xi := (Xi1, . . . Xini) pour i = 1, . . . ,I. Les observations Xi1, . . . Xini sont des r´ealisations i.i.d. d’une loi gaussienne de param`etre N(µi,σ2).
On remarque que dans le cas de deux populations (I = 2), ces conditions co¨ıncident avec celles du t-test pr´esent´e dans le TP 5. Dans la suite, on noten=PI
i=1nile nombre total d’observations sur l’ensemble des ´echantillons.
Exercice 2. (sans R) Expliciter l’hypoth`ese nulle H0 et l’hypoth`ese alternative H1 du test de l’analyse de la variance.
Construction d’un test statistique.
Bien que l’objectif soit ici de comparer desmoyennes, cette proc´edure est appel´eeanalyse de la variancecar le test repose effectivement sur une comparaison d’estimateurs de la variance. Notons m(X) = n1 PI
i=1
Pni
j=1Xij la moyenne g´en´erale (sur les n observations) et m(Xi) = n1
i
Pni
j=1Xij la moyenne dui-`eme groupe.
Exercice 3.Pour les donn´eesNotesTD, calculer la moyenne g´en´eralem(X) ainsi que les moyennes m(Xi) de chaque groupe.
On appelle somme de carr´es ou encore variation totale des observations le terme
SCtot =
I
X
i=1 ni
X
j=1
[Xij −m(X)]2 .
On peut montrer que la somme de carr´es se d´ecompose en un terme d´ecrivant la dispersion des moyennes autour de la moyenne g´en´erale et un terme d´ecrivant la dispersion des donn´ees `a
2
l’int´erieur de chaque ´echantillon autour de sa moyenne. Plus pr´ecis´ement, on a SCtot =SCexpl+SCres avec
SCexpl =
I
X
i=1
ni [m(Xi)−m(X)]2
| {z }
diff´erence de la moyenne de groupe de la moyenne g´en´erale
et SCres=
I
X
i=1 ni
X
j=1
[Xij −m(Xi)]2
| {z }
diff´erence des observations de la moyenne de groupe
On appelle SCexpl la variation expliqu´ee par le mod`eleet SCres la variation r´esiduelle.
En divisant les variationsSCexpl etSCres par leur degr´e de libert´e respectifs (I−1 etn−I) on obtient le carr´e moyen expliqu´e par le mod`ele CMexpl et le carr´e moyen r´esiduel CMres, d´efinis par
CMexpl = SCexpl
I−1 et CMres= SCres n−I .
Exercice 4. V´erifier cette d´ecomposition de la somme de carr´es pour les donn´ees NotesTD.
Calculer le carr´e moyenCMexpl expliqu´e par le mod`ele et le carr´e moyen r´esiduelCMres. Sous la condition de normalit´e, le carr´e moyen r´esiduel CMres est un estimateur sans biais de la variance σ2. Si toutes les moyennes µ1, . . . ,µI sont ´egales (c’est-`a-dire si l’hypoth`ese nulle H0
est v´erifi´ee), alors le carr´e moyen CMexpl expliqu´e par le mod`ele est ´egalement un estimateur sans biais de ˆσ2. En revanche, sous l’alternative H1 (lorsque les moyennes ne sont pas toutes
´egales), le carr´e moyen CMexpl expliqu´e par le mod`ele est bien plus ´elev´e que le carr´e moyen r´esiduelCMres.
On en d´eduit un test statistique pour v´erifier si les moyennes µ1, . . . ,µI sont ´egales en compa- rant ces deux estimateurs de la variance. On introduit alors la statistique
F = CMexpl
CMres ,
qui est donc proche de 1 sousH0. Par ailleurs, on peut montrer que sousH0 la statistique F suit une loi de Fisher de param`etres I−1 et n−I:
F ∼FI−1,n−I , sous H0 .
Notons fγp,q le quantile d’ordre γ de la loi de Fisher de param`etre p etq. Plus pr´ecis´ement, fγp,q est le nombre qui v´erifieP(U ≤fγp,q) = 1−γ o`u U ∼Fp,q.
Exercice 5. (sans R) Proposer un test de niveau α pour tester H0 contre H1. Pour cela, on commencera d’abord par proposer une forme g´en´erale de r´egion de rejet Rque l’on basera sur la statistiqueF et qui d´ependra d’une constante c. On d´eterminera ensuite la constantecde fa¸con
`
a ce que le test ait le niveau α souhait´e (on utilisera des quantiles de la loi de Fisher).
Exercice 6. Pour les donn´ees NotesTD, calculer la valeur de la statistique F.
Application
Sous R. Plusieurs fonctions du logiciel R permettent de r´ealiser l’analyse de la variance.
Nous d´etaillons ici l’utilisation de la fonction aov(). La syntaxe est la suivante
res <- aov(nom.variable.Xij ~ nom.variable.facteur, data = nom.data.frame) summary(res)
Exercice 7.
(1) Effectuer l’analyse de la variance pour les donn´ees NotesTD pour tester si toutes les moyennes sont ´egales.
3
(2) La fonction summary()renvoie un tableau appel´e tableau de l’analyse de la variance. Ce tableau qui r´esume les r´esultats de l’analyse de la variance est de la forme suivante :
Df Sum Sq Mean Sq F value Pr(>F)
groupe p-value
Residuals
La p-value du test de l’analyse de la variance est donn´ee dans la derni`ere colonne du tableau. `A quoi correspond chacun des autres nombres report´e dans le tableau? Comparer ces nombres avec les valeurs obtenues dans les exercices pr´ec´edents afin d’en d´eterminer la signification.
(3) Posonsα = 0.05. Quelle est alors la conclusion de ce test? Le groupe de TD influence-t-il la note finale de contrˆole continu des ´etudiants? Pour donner la r´eponse, on s’appuyera sur la p-value du test.
Dans le cas o`u le test de l’analyse de la variance rejette l’hypoth`ese nulle, on ne sait cependant pas quels groupes ont effectivement leurs moyennes diff´erentes. Pour r´epondre `a cette question, on peut effectuer le t-test sur toutes les combinaisons possibles de deux populations.
Exercice 8.Effectuer plusieurs t-test de niveauα = 0.05 pour identifier les groupes de TD pour lesquels les notes d’´etudiants sont tr`es diff´erentes.
Questions bonus
Les exercices suivants ne sont pas obligatoires, ils sont propos´es pour vous permettre d’am´e- liorer votre note.
Exercice 9.* (sans R) Montrer que dans le cas de deux populations (I = 2) l’analyse de la variance est ´equivalente au t-test. Plus pr´ecis´ement, on pourra montrer que, d’une part,
F =T2 ,
o`u T est la statistique du TP 5, et d’autre part, le carr´e d’une variable al´eatoire de la loi de Student suit une loi de Fisher.
Exercice 10.* Lorsque l’on effectue un test d’analyse de la variance, on suppose que les condi- tions d’application du test sont v´erifi´ees. Nous souhaitons maintenant v´erifier que ces conditions sont r´ealis´ees pour le jeu de donn´eesNotesTD.
(1) Discuter les hypoth`eses de normalit´e de la variablenote`a l’aide de qq-plots pour comparer les quantiles des diff´erents groupes de TD (apr`es centrage et r´eduction de la variablenote) aux quantiles d’un ´echantillon de loi normale centr´ee r´eduite.
(2) Afin de tester si les variances de la variablenotesont significativement diff´erentes ou non pour les trois groupes, appliquer la fonction var.test()`a toutes les couples possibles de deux groupes d’´etudiants.
4