• Aucun résultat trouvé

DUT STID, 1

N/A
N/A
Protected

Academic year: 2022

Partager "DUT STID, 1"

Copied!
8
0
0

Texte intégral

(1)

Université de Perpignan - IUT de Carcassonne Nathalie Villa-Vialaneix Année 2013/2014 - Durée : 2 heures Ce sujet comporte8 pages

DUT STID, 1

ème

année Statistique descriptive II Devoir du mercredi 18 décembre 2013

Nom : / 34

Consignes

• Les réponses sont à donner directement sur le sujet. N'oubliez pas de noter votre nom.

• Toute réponse doit être précisément justiée. Les réponses insusamment justiées ne donneront droit à aucun point.

• Matériel autorisé (à l'exclusion de toute autre chose) : crayons, calculatrices (pas d'ordinateur, pas de téléphone portable), cerveau (pour ceux qui en possèdent un). Les téléphones portables sont formellement interdits sur les tables, sur vos genoux, dans vos poches : ils doivent être déposés, avec vos sacs, à côté de mon bureau.

• Les deux exercices sont indépendants ainsi que la plupart des questions à l'intérieur des exercices.

• Il est formellement interdit de parler (même en language des signes et même pour demander une gomme, un crayon, etc à son voisin).

Exercice 1 Titanic . . . / 10

Cet exercice a été conçu pour conjurer le mauvais sort, an que ce devoir ne soit pas un naufrage. Le jeu de données utilisé pour cet exercice fournit des informations sur le sort des passagers du Titanic (sexe, âge, classe de voyage et survie) et provient de : Dawson, Robert J. MacG. (1995) The `Unusual Episode' Data Revisited. Journal of Statistics Education, 3. http://www.amstat.org/publications/jse/v3n3/datasets.

dawson.html. Nous nous focalisons ici sur les variables classe de voyage et survie et étudions la relation existant entre ces deux variables. Les données sont données dans la table de contingence ci-dessous :

Survie : Non Oui Total

1ère classe 122 203

2ème classe 167 118

3ème classe 528 178

Équipage 673 212

Total

1. Quelle est la population étudiée ? Quelle est sa taille ? Quelles sont les variables étudiées ? Quels sont leurs

(2)

types ?

2. Compléter, dans le tableau ci-dessus, en bleu la distribution marginale de la variable survie et en en rouge la distribution marginale de la variable classe de voyage .

3. Doit-on utiliser

2 La distribution de survie conditionnellement à classe de voyage ; 2 La distribution de classe de voyage conditionnellement à survie .

si on veut étudier les diérences de taux de survie parmi les diérentes classes de passagers ? 4. Donner, dans le tableau ci-dessous, la distribution conditionnelle choisie à la question précédente.

Survie : Non Oui

1ère classe 2ème classe 3ème classe Équipage

Commenter les résultats obtenus.

(3)

5. Calculer les eectifs théoriques d'indépendance et les contributions au χ2.

Quelle paire de modalités contribue le plus auχ2? Est-elle sur/sous-représentée ? Interpréter.

6. Calculer leχ2 puis le Cde Cramer. Interpréter.

Espace supplémentaire (au besoin)

(4)

Exercice 2 Qualité de l'air . . . / 11

Les données utilisées pour cet exercice sont extraites de Chambers, J.M., Cleveland, W.S., Kleiner, B.

and Tukey, P.A. (1983) Graphical Methods for Data Analysis. Belmont, CA : Wadsworth . Elles donnent les statistiques de qualité de l'air à New York entre mai et septembre 1973. Une observation correspond à des mesures eectuées sur un jour de l'année. Nous nous intéresserons ici à deux variables de ce jeu de données :

• le mois de l'année (mai, juin, juillet, août ou septembre) dans lequel se situe la mesure ;

• le taux d'ozone.

Les données sont analysées avec R. Sous R, le chier de données porte le nom de airquality et les variables sont respectivement nommées Month et Ozone. Les commandes R eectuées ainsi que les résultats numériques sont données ci-dessous :

table( airquality$Month )

# m a i j u i n j u i l l e t a o u t s e p t e m b r e

# 24 9 26 23 29

by( airquality$Ozone , airquality$Month , mean)

# a i r q u a l i t y$M o n t h : m a i

# [ 1 ] 2 4 . 1 2 5

# - - - -

# a i r q u a l i t y$M o n t h : j u i n

# [ 1 ] 2 9 . 4 4 4 4 4

# - - - -

# a i r q u a l i t y$M o n t h : j u i l l e t

# [ 1 ] 5 9 . 1 1 5 3 8

# - - - -

# a i r q u a l i t y$M o n t h : a o u t

(5)

by( airquality$Ozone , airquality$Month , var)

# a i r q u a l i t y$M o n t h : m a i

# [ 1 ] 5 2 3 . 7 6 6 3

# - - - -

# a i r q u a l i t y$M o n t h : j u i n

# [ 1 ] 3 3 1 . 5 2 7 8

# - - - -

# a i r q u a l i t y$M o n t h : j u i l l e t

# [ 1 ] 1 0 0 0 . 8 2 6

# - - - -

# a i r q u a l i t y$M o n t h : a o u t

# [ 1 ] 1 7 4 4 . 5 4 5

# - - - -

# a i r q u a l i t y$M o n t h : s e p t e m b r e

# [ 1 ] 5 8 2 . 8 2 7 6

À partir de ces informations, répondre aux questions suivantes :

1. Quelle est la population étudiée ? Quelle est sa taille ? Quelles sont les variables étudiées ? Quels sont leurs types ?

2. Expliquer ce qui est calculé dans chacune des trois commandes R fournies ci-dessus.

3. Entourer toutes les commandes R qui permettent d'obtenir le graphique ci-dessous :

(6)

plot( Ozone~Month , data= airquality , main =" Taux d' ozone par mois ", xlab =" Mois ", ylab =" Taux d' ozone ")

plot( airquality$Month , airquality$Ozone , main =" Taux d' ozone par mois ", xlab =" Mois ", ylab =" Taux d' ozone ")

plot( Month~Ozone , data= airquality , main =" Taux d' ozone par mois ", xlab =" Mois ", ylab =" Taux d' ozone ")

plot( airquality$Ozone , airquality$Month , main =" Taux d' ozone par mois ", xlab =" Mois ", ylab =" Taux d' ozone ")

Commenter ce graphique.

4. Quel est le taux d'ozone moyen sur la population ?

(7)

5. Quelle est la variance intra-classes (les classes sont les mois) du taux d'ozone ?

6. Quelle est la variance inter-classes du taux d'ozone ?

7. Calculer la variance globale du taux d'ozone.

8. Calculer le rapport de corrélation entre taux d'ozone et mois. Interpréter cette valeur.

Espace supplémentaire (au besoin)

(8)

Références

Documents relatifs

Il serait intéressant de connaître le mode de déplacement des 42,1 % de lycéens restant (qui n'utilisent ni les transports en commun, ni le vélo) : marche à pied, voiture. • Mise

Dentistes : La variabilité du nombre total de visites chez le dentiste est diérente selon le type de mutuelles : si les trois premiers quartiles des deux distributions ainsi que

Cette diérence minime entre les deux coecients de corrélation entraine toutefois une diérence très importante entre les deux erreurs sur l'ensemble de validation (d'un facteur

Consignes générales : -0,5 par erreur de calcul ; si pas de détails dans les calculs ou si résultat aberrant 0 ; si détails grossiers -50%.. Aucun résultat numérique non justié

Si X est la variable Sexe du personnage 1 et Y la variable Sexe du personnage 2, laquelle de ces deux distributions permet de répondre à la question : Lorsque le personnage 1 est

Le tableau ci-dessous donne l'âge (âge révolu en années entières) lors de la naissance de leurs enfants des femmes âgées de 20 à 30 ans ayant eu un enfant en France en 2009?.

Si X est la variable Sexe du personnage 1 et Y la variable Sexe du personnage 2, laquelle de ces deux distributions permet de répondre à la question : Lorsque le personnage 1 est

Consignes générales : -0,5 par erreur de calcul ; si pas de détails dans les calculs ou si résultat aberrant 0 ; si détails grossiers -50% Aucun résultat numérique non justié ne