• Aucun résultat trouvé

M1Ing ´e nierieMath ´e matique

N/A
N/A
Protected

Academic year: 2022

Partager "M1Ing ´e nierieMath ´e matique"

Copied!
13
0
0

Texte intégral

(1)

Enonc´ ´ e des travaux dirig´ es

M1 Ing´enierie Math´ematique

Tests

etienne.birmele@parisdescartes.fr

Automne 2016 Universit´e d’´Evry Val d’Essonne

(2)
(3)

Travaux dirig´ es 1

Tests - TD1

Exercice 1.1. Un directeur de laboratoire pharmaceutique refuse la mise en fabrica- tion d’un nouveau vaccin propos´e par un des chercheurs du laboratoire. Il invoque pour cela les r´esultats statistiques peu concluants obtenus suite aux tests : le vaccin propos´e n’est pas significativement plus efficace que celui utilis´e actuellement. Les frais suppl´ementaires entraˆın´es pour le produire ne sont donc pas justifi´es.

1. Soient H0 et H1 les hypoth`eses possible :

H0 : le vaccin propos´e n’est pas plus efficace que celui d´ej`a en production ; H1 : le vaccin propos´e est plus efficace que celui d´ej`a en production.

Quels sont les deux types d’erreurs que le directeur pourrait commettre relati- vement `a ces deux hypoth`eses ?

2. En prenant la d´ecision de ne pas mettre en fabrication le vaccin propos´e, lequel des deux types d’erreur le directeur a-t-il tent´e de contrˆoler ?

Exercice 1.2. On d´esigne par pla probabilit´e d’observer un ph´enotype donn´e sur un individu issu d’un certain croisement.

Pour tester l’hypoth`ese p = 169 contre l’hypoth`ese p = 159, on proc`ede ainsi : on observe 2400 individus issus du croisement en question ; si le nombre d’individus pr´esentant le ph´enotype est inf´erieur ou ´egal `a1395, on choisit 169, dans le cas contraire, on choisit 159. Justifier le principe de ce test ; calculer son niveau et sa puissance.

Exercice 1.3. On consid`ere que le taux d’h´ematocrites suit une loi normale de moyenne 45, 5 et d’´ecart-type3, 8.

1. On veut fixer un seuil au-dessus duquel un sportif sera consid´er´e comme dop´e.

Quel seuil fixer si on veut ˆetre sˆur de n’exclure aucun sprotif innocent ? Si on veut exclure un sportif innocent avec une probabilit´e de 0, 05? Par la suite, on consid`ere ce deuxi`eme seuil.

2. Simulez sous R plusieurs ´echantillons de taille 10, 100 et 1000 suivant la loi N(0, 1). Pour chaque ´echantillon, d´eterminez le nombre de valeurs au-dessus du seuil. Qu’observez-vous ? Pourquoi ?

3. On consid`ere (en simplifiant) que le dopage augmente la moyenne du taux d’h´e- matocrite de x sans en changer la variance. Tracez la courbe de puissance du test en fonction de x. Quelle est la probabilit´e de d´etecter un tricheur si x=3.

4. Une mani`ere d’am´eliorer le test serait de prendre trois mesures ind´ependantes et de les moyenner. Quelle serait la nouvelle confiance et la nouvelle puissance du test en gardant le mˆeme seuil et en supposant x = 3? Cette fa¸con de faire est-elle r´ealisable en pratique ?

(4)

5. Une autre piste est le passeport biologique qui consiste `a mesurer r´eguli`erement le taux d’h´ematocrite de chaque sportif. En quoi cela change-t-il le test ? Pour quels sportifs cette nouvelle approche repr´esente-t-elle un progr`es en terme de puissance du test ?

(5)

Travaux dirig´ es 2

Tests - TD2

Exercice 2.1. On consid`ere une route avec une limitation de vitesse fix´ee `a 75 km/h.

On suspecte que les conducteurs empruntant cette route d´epassent en moyenne la vitesse limite. On mesure la vitesse pour un ´echantillon de 25 voitures et on obtient les mesures

70 74 79 80 73 77 78 67 79 81 80 77 71

76 73 82 90 78 71 78 74 75 77 78 79 km/h

On suppose que la vitesse est normalement distribu´ee.

1. Donner une description des donn´ees : calculer moyenne, ´ecart type, tracer la boˆıte `a moustache.

2. Proposer un test param´etrique pour v´erifier si la vitesse moyenne est sup´erieur

`

a 75 km/h.

3. R´ealiser le test au niveau de confiance 1−α = 95%. Donner la p-valeur et conclure.

4. Reprendre les questions pr´ec´edentes si on ne fait pas l’hypoth`ese de normalit´e des distributions.

Exercice 2.2. On se propose de v´erifier si une pi`ece de monnaie est biais´ee. Pour cela on tire la pi`ecen=20fois et on obtient 16 fois pile et 4 fois face. On veut r´ealiser un test pour d´ecider si la probabilit´e p d’obtenir pile est p0 =0.5 ou pas.

1. Donner les hypoth`eses H0 et H1 du test en terme de la proportion p de piles.

2. Un test exact d’ad´equation d’une proportion est letest binomial. Ce test utilise comme statistique sous H0 la loi binomiale B(p0,n). R´ealiser un test binomial

`

a l’aide de la fonctionbinom.test(consulter l’aide si n´ecessaire). Conclure sur la base de la probabilit´e critique en acceptant un risque de premi`ere esp`ece α=0.05.

3. Donner la r´egions de rejetRα. Conclure en v´erifiant si la proportion pˆdu nombre de piles dans l’´echantillon appartient ou pas `a Rα.

4. Comment peut-on modifier le test quand nest suffisament grand ? 5.

6. On veut maintenant calculer la puissance du test. On suppose que sous H1, la probabilit´e d’obtenir pile est p1.

(a) On suppose p1 = 0.7. Calculer la puissance P(pˆ ∈ Rα) et le risque de deuxi`eme esp`ece.

(b) Calculer la puissance pour tous les p1 allant de 0 `a1 par des pas de 0.05.

Tracer la courbe de puissance correspondante et commenter.

(6)

(c) Pour augmenter la puissance du test on doit augmenter le nombre d’obser- vations, c’est `a dire de lancements. Tracer la courbe de la puissance pour n=400dans le mˆeme graphique.

Exercice 2.3. On veut ´evaluer l’efficacit´e d’un nouveau r´egime alimentaire pour r´e- duire le niveau de glucose dans le sang chez les patients diab´etiques. Pour cela, les niveaux de glucose de 10 patients diab´etiques ont ´et´e mesur´es avant et apr`es un mois de r´egime :

Sujet 1 2 3 4 5 6 7 8 9 10

Avant 268 225 252 192 307 228 246 298 231 185 Apr`es 106 186 223 110 203 101 211 176 194 203 On suppose que le taux de glucose dans le sang est normalement distribu´e.

1. Afficher les boxplots de deux ´echantillons : qu’aurait-on envie de conclure concer- nant l’efficacit´e du r´egime ?

2. Les lois des ´echantillons Avant et Apr`es ont-elles le mˆeme ´ecart type ? Faire un test de comparaison de la variance pour le v´erifier.

3. R´epondre `a la question de l’efficacit´e du r´egime avec un risque de premi`ere esp`eceα=5%(penser `a sp´ecifier correctement la lat´eralit´e, l’appariement et la sc´edasticit´e.

4. Quel test appliquer si l’hypoth`ese de normalit´e n’est pas raisonnable ?

Exercice 2.4. On veut d´ecider si deux types de disques durs A et B ont la mˆeme dur´ee de vie. Pour deux ´echantillons deAetBon mesure les dur´ees de vie, en milliers d’heures

Type A 232 228 237 225 214 213 205 233 219 236 Type B 222 234 244 235 229 260 232 224

Le disque B est plus cher. R´ealiser un test permettant d’aiguiller les consomma- teurs.

Exercice 2.5. On veut v´erifier si la perm´eabilit´e du placenta chez les femmes enceintes est plus forte `a la fin de la grossesse qu’`a son d´ebut. Pour cela on a collect´e les deux

´

echantillons ind´ependants :

D´ebut 0.80 0.83 1.89 1.04 1.45 1.38 1.91 1.64 0.73 1.46 Fin 1.15 0.88 0.90 0.74 1.21

On ne dispose d’aucune information sur la loi suivi par les observations dans les deux

´

echantillons. R´ealiser un test et conclure au niveau de confiance1−α=95%.

(7)

Chapitre 2. Tests - TD2

Exercice 2.6. Les apiculteurs du Texas s’inqui`etent de la progression des abeilles africaines (killer bees), plus agressives mais moins productives que les abeilles do- mestiques. Les pouvoirs publics sont prˆets `a donner des fonds pour combattre ce ph´enom`ene si on peut d´emontrer que la proportion d’abeilles africaines a augment´e de mani`ere significative ces derni`eres ann´ees.

Les donn´ees sont r´ecolt´ees `a l’aide de pi`eges r´epartis sur le territoire texan. Des sp´ecialistes identifient les abeilles captur´ees et les d´enombrent, ce qui permet d’associer

`

a chaque pi`ege la proportion d’abeilles africaines que l’on a observ´e. Deux s´eries de donn´ees ont ainsi ´et´e obtenues ; l’une en 1980, l’autre en 1990.

Pi`ege 1 2 3 4 5 6 7 8 9 10

% en 1980 0.330 0.146 0.518 0.339 0.693 0.249 0.438 0.695 0.135 0.388

% en 1990 0.360 0.177 0.524 0.447 0.140 0.392 0.534 0.263 0.157 0.566

1. En l’absence de toute information sur la mani`ere dont on a r´eparti les pi`eges en 1980 et en 1990, que peut-on conclure, au niveau 95%, avec un test sur la somme des rangs ?

2. En fait, les pi`eges ont ´et´e localis´es aux mˆemes endroits en 1980 et 1990 ? Que peut-on conclure avec un test du signe, au niveau 95% ?

Exercice 2.7. Les clubs A,BetCparticipent `a un concours de lancer de javelot. Les clubs des participants en fonction de leur classement final sont les suivants :

Classement 1 2 3 4 5 6 7 8 9 10

Club B A B C C A B A C C

On souhaite savoir si au niveau de ce classement, le niveau moyen des clubs est comparable. Proposer et effectuer un test `a95%.

Exercice 2.8. On d´esire savoir si une certaine vari´et´e de bl´e a un rendement homog`ene dans un d´epartement donn´e. Pour cela, on dispose de r´esultats, exprim´es en quintaux par hectare, obtenus sur vingt-quatre parcelles diff´erentes r´eparties en trois zones A, B,C du d´epartement :

Zone A 48.0 48.2 50.3 53.5 54.6 56.4 57.8 58.5 60.5 Zone B 44.2 46.3 48.3 48.5 50.5 51.2 55.4

ZoneC 51.2 52.3 52.7 56.5 59.1 60.5 62.0 62.2

Peut-on conclure `a une h´et´er´egon´eit´e des rendements ? La r´eponse s’appuiera sur un test construit au niveau 97.5%, en l’absence de toute hypoth`ese sur le type de loi suivie par le rendement d’une parcelle.

Effectuer les tests de comparaison deux `a deux des zones. Commenter.

(8)

Reprendre la question 1. si on suppose que les rendements d’une zone suivent une loi normale.

Exercice 2.9. Le nombre de contractions ventriculaires pr´ematur´ees par heure a ´et´e mesur´e chez douze patients souffrant d’arythmie cardiaque et soumis successivement

`

a trois m´edicaments.

Patient 1 2 3 4 5 6 7 8 9 10 11 12

M´edicament A 170 19 187 10 216 49 7 474 0.4 1.4 27 29 M´edicament B 7 1.4 205 0.3 0.2 33 37 9 0.6 63 145 0

M´edicament C 0 6 18 1 22 30 3 5 0 36 26 0

1. Tester si ces donn´ees prouvent une diff´erence entre les trois m´edicaments.

2. Tester si elles prouvent une diff´erence entre les m´edicaments Aet B.

3. Quel test appliquer dans un cadre param´etrique ? D´eterminer les variances des trois ´echantillons. Commenter.

(9)

Travaux dirig´ es 3

Tests - TD3

Exercice 3.1. Un ´echantillon al´eatoire de 10779 conducteurs ayant subi un accident a donn´e les r´esultats de la table de contingence suivante :

Blessures/Ceinture Port de la ceinture Pas de ceinture

graves ou fatales 5 142

s´erieuses 25 330

pas ou peu de blessures 1229 9049

On se pose la question de savoir si la ceinture de s´ecurit´e est efficace. R´ealiser un test du χ2 pour tester l’ind´ependance entre le port de la ceinture de s´ecurit´e et la gravit´e des blessures en cas d’accident.

Exercice 3.2. On consid`ere la longueur des p´etales des fleurs d’iris, une plante avec trois esp`eces communes :setosa,versicoloretvirginica. Les donn´ees sont dispo- nibles avec data(iris).

1. On s’int´eresse `a l’esp`ecesetosa.

(a) Afficher le graphique des paires (longueur s´epale, longueur p´etale), une pour chaque observation. Ces deux variables vous semblent-elles corr´el´ees ? (b) Calculer le coefficient de corr´elation entre ces deux variables dans l’´echan-

tillon consid´er´e.

(c) V´erifier `a l’aide d’un test de corr´elation si les deux variables sont corr´el´ees dans la population.

2. Mˆeme question pour les deux autres esp`eces.

Exercice 3.3. Dans le cadre d’une ´etude sur les β-bloquants (Sweeting 1982), la consommation cardiaque d’oxyg`ene (CCO) et la pression ventriculaire gauche (PVG) ont ´et´e mesur´es sur six chiens.

Chien A B C D E F G

CCO 78 92 116 90 106 78 99

PVG 32 33 45 30 38 24 44

Calculer les coefficients ρ de Spearman et τ de Kendall. Peut-on conclure `a une corr´elation ?

(10)

Exercice 3.4. Le tableau suivant donne le taux d’ensoleillement (en heures/an) et de pluviom´etrie (en mm/an) en dix villes situ´es sur un axe nord-sud. Utiliser le τ de Kendall pour d´ecider si on peut parler d’une tendance monotone de croissance de l’ensoleillement le long de cet axe ? De diminution de la pluviom´etrie ?

Lille Amiens Paris Auxerre Dijon Lyon Orange Marseille Bastia Ajaccio

1617 1608 1630 1710 1789 1932 2596 2851 2533 2726

686 675 641 637 744 843 722 555 835 640

Exercice 3.5. Le tableau suivant donne le pourcentage de fruits pourris suivant le nombre de jours de stockage.

Stockage 3 5 10 15 20 25 30

Oranges pourries 2 4 9 17 29 45 73

Ajustez une droite `a ces donn´ees. L’ajustement parait-il raisonnable sur un gra- phique ?

Que vaut le coefficient des rangs de Spearman pour ces donn´ees ? Commenter.

Exercice 3.6. Sprent

On a demand´e `a 450´etudiants de donner 2 chiffres au hasard entre1 et3 (avec r´ep´etition si ils le souhaitent). Les r´esultats sont report´es dans la table ci-dessous avec le premier chiffre en ligne et le second en colonne.

1 2 3

1 31 72 60 2 57 27 63 3 53 58 29

Que pouvez-vous conclure ?

Exercice 3.7. Au cours d’un essai clinique, 184 personnes ont re¸cu le m´edicament traditionnel et103personnes ont re¸cu un nouveau m´edicament. Avec le m´edicament traditionnel, on a observ´e129gu´erisons et avec le nouveau80. Que peut-on conclure quand `a l’efficacit´e du nouveau traitement ?

Exercice 3.8. Les notes de math´ematiques au brevet de trois classes de coll`ege se r´epartissent de la fa¸con suivante

Notes 0 2 5 7 8 9 10 11 12 13 15 16 18 20 Effectif 5 1 4 6 9 6 11 12 10 12 5 3 1 3

1. Est-il cr´edible de penser que la notation est une loi uniforme discr`ete sur l’en- semble des entiers entre0 et20?

2. Est-il cr´edible de penser qu’elle suit une loi normale ?

Exercice 3.9. On fait souvent l’hypoth`ese que le temps entre l’arriv´ee de deux clients dans une file d’attente est sans m´emoire, c’est-`a-dire que

P(X≥t+∆t|X≥t) =P(X≥∆t)

— Montrer que le temps d’attente entre deux clients suit alors une loi exponen-

(11)

Chapitre 3. Tests - TD3

— On a mesur´e les temps d’attentes suivant entre dix client 5.4 5.6 0.2 0.4 1.8 1.6 1.1 1.5 2.4 1.3

Est-il cr´edible de penser que des temps d’attente suivent un mod`ele sans m´e- moire ?

Exercice 3.10. Les donn´eesairquality, qui peuvent ˆetre charg´ees sousR`a l’aide de la commandedata(airquality), donnent le taux d’ozone en fonction de la temp´erature, de la vitesse du vent et du rayonnement solaire.

1. Charger les donn´ees et ´eliminer toutes les pr´el`evements pour lesquels une des mesures est absente.

2. On consid`ere un mod`ele lin´eaire gaussien expliquant le taux d’ozone en fonction de la vitesse du vent et de la temp´erature, c’est-`a-dire

Ozonei =α+βWindi+γTempi+ei, ei ∼ N(0,σ2)

La commandemodel1 <- glm(Ozone~Wind+Temp,family=gaussian,data=airquality) permet d’apprendre un tel mod`ele par maximum de vraisemblance. En lisant

l’aide de cette fonction en ce qui concerne l’AIC, calculer la log-vraisemblance maximale associ´ee `a ce mod`ele.

3. Effectuer un test pour d´ecider s’il est pertinent de rajouter la variable du rayon- nement solaire dans le mod`ele ci-dessus.

4. Effectuer un test pour d´ecider si la temp´erature seule aurait aussi bien permis de pr´edire le taux d’ozone.

(12)
(13)

Travaux dirig´ es 4

Tests - TD4

Exercice 4.1. Importer sous R les donn´ees relatives aux poids de poulets en fonction de leur alimentation (data(chickwst)). On cherche `a connaˆıtre l’influence du mode de nutrition sur le poids des poulets.

1. Lire l’aide concernant ce jeu de donn´ees.

2. On applique un mod`ele lin´eaire, c’est-`a-dire que le poidsXijdujemepoulet parmi ceux nourris avec l’aliment i s’´ecrit

Xi =µ+αi+eij

D´eterminer les coefficientsµetαi `a l’aide de la fonctionlmainsi que les valeurs des r´esidus eij.

3. Appliquer un test de normalit´e de l’´echantillon deseij. Peut-on appliquer l’ana- lyse de variance ici ?

4. Tester de mani`ere non-param´etrique si le type de nourriture a une influence sur le poids des poulets.

5. Un ´eleveur h´esite entre le lin et le soja pour nourrir ses poulets. Peut-il prendre une d´ecision au vu de cet ´echantillon ?

6. Ecrire une fonction g´en´erant des ´echantillons bootstrap. G´en´erer 500 ´echan- tillons bootstrap pour les poulets ´elev´es au lin et au soja. Appliquer un test bas´e sur ces ´echantillons. Pouvez-vous r´epondre `a l”´eleveur ?

7. G´en´erer des intervalles de confiance bootstrap `a95%pour les poids des poulets

´

elev´es au lin et au soja. Retrouver la r´eponse pr´ec´edente.

8. R´epondre ´egalement `a la mˆeme question entre le lin et le tournesol.

Références

Documents relatifs

5 Although the alignment / anti-alignment seems to appear at higher redshift for RLQs, we keep the cuto ff in the test at z ≥ 0.2 for con- sistency with RQQs. However, using a

Même question pour deux variables aléatoires de même loi.

Montrer qu’il existe un unique ´ equilibre de Nash o` u chaque joueur ` a un paiement stricte- ment positif (on pourra commencer par remarquer que dans un tel ´ equilibre chaque

La formulation actuelle de ce coefficient est due `a Karl Pearson qui, dans ses ´ecrits his- toriques, a attribu´e la paternit´e de la notion de corr´elation au physicien

En d´ eduire une g´ en´ eralisation du th´ eor` eme de Gauss-Markov au cas de l’esti- mation par moindres carr´ es g´ en´ eralis´ es ainsi que l’optimalit´ e de l’estimateur

9 On remarque que la p−valeur calcul´ ee au paragraphe 8.1 pour le cas d’un test exact de Fisher sur un tableau de taille 2 × 2 n’est pas obtenue de la mˆ eme mani` ere

V´ erifier que l’origine est un point singulier, et que les hypoth` eses du th´ eor` eme d’Hartman-Grobman sont v´ erifi´ ees.. Tracer l’allure des trajectoires au voisinage

variances stemming from a bivariate normal distribution or from two normal ρ -correlated distributions, is hardly known and used, by contrast with the distribution of F , the