Vous devez choisir l’un des deux sujets. Sujet 1 : Pollution des villes aux Etats-Unis

(1)

Vous devez choisir l’un des deux sujets.

Sujet 1 : Pollution des villes aux Etats-Unis

Les données suivantes concernant 20 villes sont extraites d'une étude sur la pollution atmosphérique des villes des Etats-Unis. On note :

pol : teneur annuelle moyenne de l'air en SO2 en mg/m3 tem : Température annuelle moyenne en degrés Farenheit usi : Nombre d'entreprises de plus de 20 personnes pop : Population en milliers d'habitants (1970)

On aimerait étudier l’influence des variables tem, usi et pop sur la teneur annuelle moyenne en SO2.

1) Représenter les nuages de points deux à deux (fonction pairs()). Commenter l’allure de ces nuages.

On décide de travailler avec les variables transformées suivantes : pol =log(pollu$pol)

usi = log(pollu$usi) pop=log(pollu$pop) tem =pollu$tem Justifier ces choix

2) Effectuer les trois régressions simples des variables tem, usi et pop sur la pollution.

Commenter.

3) Effectuer la régression linéaire multiple (modèle 1) et commenter brièvement les résultats.

En particulier, comment interpréter les résultats des tests de Student de l’effet de chaque variable au vu du résultat du test de Fisher de significativité du modèle global et de la question 2) (on pourra s’aider de l’étude des corrélations entre ces variables)?

4) Afin d’obtenir un modèle plus pertinent, on cherche à ne garder que les variables vraiment pertinentes. Comment vous y prendriez-vous pour déterminer le meilleur modèle (modèle 2)?

5) Commenter le modèle 2.

Table de données :

ville pol tem usi pop

Atlanta 24 62 368 497

Baltimore 47 55 625 905

Chicago 110 51 3344 3369

Denver 17 52 454 415

Des_Moines 17 49 104 201

Detroit 35 50 1064 1513

Hartford 56 49 412 258

Indianapolis 28 52 361 746

Jacksonville 14 68 136 529

Kansas_City 14 55 381 507

(2)

Little_Rock 13 61 91 132

Louisville 30 56 291 593

Miami 10 76 207 335

Minneapolis 29 44 669 744

New_Orleans 9 68 204 361

Phoenix 10 70 213 482 San_Francisco 12 57 453 716 Washington 29 57 434 657 Wichita 8 57 125 277 Wilmington 36 54 80 80

Sujet 2 : Comparaison de méthodes de prévision de structures de protéines

On cherche à tester la qualité de trois méthodes algorithmiques (CF_AVG, GOR, PHD) permettant à l’utilisateur de prévoir, à partir de la structure primaire d’une protéine les motifs de sa structure

secondaire (chaque algorithme retourne à l'utilisateur quels acides aminés correspondent à quels motifs de structure secondaire).

Pour cela, quatre protéines de structure cristalline connue

(vérifiée empiriquement) ont été utilisées. On regarde ensuite pour chaque algorithme le pourcentage d'acides aminés prédisant correctement les motifs de structure secondaire.

1) On ignore tout d’abord le type de protéine. On veut savoir si le % moyen de correct diffère suivant la méthode utilisée.

a. Effectuer une analyse de variance à un facteur et interpréter les résultats.

b. Déterminer quelle sont les méthodes qui diffèrent significativement (on pourra utiliser la fonction pairwise.t.test). Visualiser les résultats (on pourra utiliser la fonction stripchart ou lieu de boxplot)

2) on veut aussi tester, en plus de l’influence de la méthode, l’effet du type de protéine sur le

% moyen de correct. Effectuer l’analyse de variance correspondante et interpréter les résultats.

Table de données :

Protein Method Correct Ubiquitin CF_AVG 0.467 Ubiquitin GOR 0.645 Ubiquitin PHD 0.868 DeoxyHb CF_AVG 0.472 DeoxyHb GOR 0.844 DeoxyHb PHD 0.879 Rab5c CF_AVG 0.405 Rab5c GOR 0.604 Rab5c PHD 0.787 Prealbumin CF_AVG 0.449 Prealbumin GOR 0.772 Prealbumin PHD 0.780

(3)

(4)

(5)

(6)