Vous devez choisir l’un des deux sujets.
Sujet 1 : Pollution des villes aux Etats-Unis
Les données suivantes concernant 20 villes sont extraites d'une étude sur la pollution atmosphérique des villes des Etats-Unis. On note :
pol : teneur annuelle moyenne de l'air en SO2 en mg/m3 tem : Température annuelle moyenne en degrés Farenheit usi : Nombre d'entreprises de plus de 20 personnes pop : Population en milliers d'habitants (1970)
On aimerait étudier l’influence des variables tem, usi et pop sur la teneur annuelle moyenne en SO2.
1) Représenter les nuages de points deux à deux (fonction pairs()). Commenter l’allure de ces nuages.
On décide de travailler avec les variables transformées suivantes : pol =log(pollu$pol)
usi = log(pollu$usi) pop=log(pollu$pop) tem =pollu$tem Justifier ces choix
2) Effectuer les trois régressions simples des variables tem, usi et pop sur la pollution.
Commenter.
3) Effectuer la régression linéaire multiple (modèle 1) et commenter brièvement les résultats.
En particulier, comment interpréter les résultats des tests de Student de l’effet de chaque variable au vu du résultat du test de Fisher de significativité du modèle global et de la question 2) (on pourra s’aider de l’étude des corrélations entre ces variables)?
4) Afin d’obtenir un modèle plus pertinent, on cherche à ne garder que les variables vraiment pertinentes. Comment vous y prendriez-vous pour déterminer le meilleur modèle (modèle 2)?
5) Commenter le modèle 2.
Table de données :
ville pol tem usi pop
Atlanta 24 62 368 497
Baltimore 47 55 625 905
Chicago 110 51 3344 3369
Denver 17 52 454 415
Des_Moines 17 49 104 201
Detroit 35 50 1064 1513
Hartford 56 49 412 258
Indianapolis 28 52 361 746
Jacksonville 14 68 136 529
Kansas_City 14 55 381 507
Little_Rock 13 61 91 132
Louisville 30 56 291 593
Miami 10 76 207 335
Minneapolis 29 44 669 744
New_Orleans 9 68 204 361
Phoenix 10 70 213 482 San_Francisco 12 57 453 716 Washington 29 57 434 657 Wichita 8 57 125 277 Wilmington 36 54 80 80
Sujet 2 : Comparaison de méthodes de prévision de structures de protéines
On cherche à tester la qualité de trois méthodes algorithmiques (CF_AVG, GOR, PHD) permettant à l’utilisateur de prévoir, à partir de la structure primaire d’une protéine les motifs de sa structure
secondaire (chaque algorithme retourne à l'utilisateur quels acides aminés correspondent à quels motifs de structure secondaire).
Pour cela, quatre protéines de structure cristalline connue
(vérifiée empiriquement) ont été utilisées. On regarde ensuite pour chaque algorithme le pourcentage d'acides aminés prédisant correctement les motifs de structure secondaire.
1) On ignore tout d’abord le type de protéine. On veut savoir si le % moyen de correct diffère suivant la méthode utilisée.
a. Effectuer une analyse de variance à un facteur et interpréter les résultats.
b. Déterminer quelle sont les méthodes qui diffèrent significativement (on pourra utiliser la fonction pairwise.t.test). Visualiser les résultats (on pourra utiliser la fonction stripchart ou lieu de boxplot)
2) on veut aussi tester, en plus de l’influence de la méthode, l’effet du type de protéine sur le
% moyen de correct. Effectuer l’analyse de variance correspondante et interpréter les résultats.
Table de données :
Protein Method Correct Ubiquitin CF_AVG 0.467 Ubiquitin GOR 0.645 Ubiquitin PHD 0.868 DeoxyHb CF_AVG 0.472 DeoxyHb GOR 0.844 DeoxyHb PHD 0.879 Rab5c CF_AVG 0.405 Rab5c GOR 0.604 Rab5c PHD 0.787 Prealbumin CF_AVG 0.449 Prealbumin GOR 0.772 Prealbumin PHD 0.780