Universit´e Joseph Fourier L2/STA230
TP9 : R´ ecapitulatif Estimation et Tests param´ etriques
Compte-Rendu: A rendre la semaine du 24 novembre : deux pages imprim´ees en noir et blanc.
L’´evaluation tiendra particuli`erement compte de la qualit´e de la r´edaction..
Objectifs: Savoir effectuer une estimation ponctuelle ou par intervalle de confiance, savoir poser et faire un test, pour l’un des param`etres inconnus : moyenneµ, variance σ2 ou probabilit´ep. Interprˆeter les r´esultats obtenus et savoir les d´ecrire en une phrase litt´erale et pr´ecise.
Exercice 1
1. ChoisirN = 10 000 etp∈[0.3; 0.7] et navec 50≤n≤100. SimulerN tirages d’unn-´echantillon d’une variable de Bernoulli de param`etrep. Calculer lesN moyennes de chaquen-´echantillon tir´e et les affecter `a freq.
2. Choisirα∈[0.05; 0.2] et calculer lesN intervalles de confiance obtenus en utilisant l’approximation normale (c’est-`a-dire sans utiliser la fonctionprop.test). Evaluer la fr´equence avec laquelle (parmi les N intervalles calcul´es) la valeurpchoisie tombe dans l’intervalle de confiance de niveau 1−α calcul´e. Indiquer la ligne de commande R permettant d’effectuer ce calcul. Commenter.
3. Choisir une valeur de r´ef´erencep0´eloign´ee d’au moins 5% de la valeurpchoisie. Proposer un test de niveau α(avec le αd´ej`a choisi pr´ec´edemment) pour le probl`eme :
H0:p=p0 H1:p6=p0
Calculer la statistique utilis´ee pour tester la proportionpet d´ecider entre les deux hypoth`eses pour chacun desN,n-´echantillons, en utilisant l’approximation gaussienne. Compte tenu du choix fait de p0et puisque l’on connaitp(les donn´ees ´etant simul´ees), laquelle des deux hypoth`eses est-elle vraie
? Avec quelle fr´equence (parmi les N tirages) la d´ecision prise est-elle mauvaise ? Qu’approche cette quantit´e ?
4. R´ediger en au plus une page un compte-rendu de l’exp´erience num´erique r´ealis´ee ci-dessus avec : introduction, d´eveloppement et conclusion et d´ecrivant : les choix de param`etres, les simulations effectu´ees, les estimations et intervalles de confiances calcul´es (en pr´ecisant les niveaux), les tests et d´ecisions prises,... et les commentaires concernant les r´esultats obtenus.
Exercice 2
On travaille sur le fichier de donn´ees r´eelles apnee.csv. Les donn´ees apnee.csv sont constitu´ees d’un ´echantillon de patients admis dans un service du CHU d’Angers pour trouble de sommeil (apn´ee du sommeil). On dispose des variables suivantes:
• iden num´ero de l’individu
• ageen ann´ees
• poids en kg
• tailleen cm
• alcoolNombre de verres bus par jour (en ´equivalent verre de vin rouge)
• sexe sexe de la personne (0=homme, 1=femme)
• apnee Diagnostic d’apnee du sommeil (1=apnee,0=pas d’apnee)
• tabac Comportement au niveau du tabac (1=fumeur,0=non-fumeur)
1. Charger la base de donn´ees. On travaille sur la variableageet le facteursexe.
2. Repr´esenter bri`evement la variableage(histogramme, boxplot, r´esum´es num´eriques, . . . ). R´esumer
´
egalement bri`evement la variableageselon le facteursexe.
3. Sur l’´echantillon des femmes, calculer les estimations sans biais des param`etres moyenne et variance de l’age. On travaille sur le param`etre d’esp´eranceµ.
4. Faire les tests de niveauxα= 1%, . . . ,20% bilat´eraux sur l’´egalit´e ou non de l’esp´erance `aµ0= 56.
A partir de quelle valeur deαaccepte-t-onH1 ?
5. Calculer la p-valeur du test (vous pouvez utiliser la fonctiont.test) et indiquer les intervalles de confiance de niveaux 99%, 95% et 90%. Commenter.
6. R´ealiser un test unilat´eral adapt´e. Commenter.
7. R´ediger en une page un compte rendu de l’´etude effectu´ee (sans ligne de commande R) en d´ecrivant le probl`eme pos´e et les solutions et r´eponses apport´ees en produisant si besoin des graphiques ou sorties R pour illustrer les commentaires.
2