• Aucun résultat trouvé

CM-Diapos

N/A
N/A
Protected

Academic year: 2022

Partager "CM-Diapos"

Copied!
2
0
0

Texte intégral

(1)

Logiciel R 3

TP1 : Début avec R Markdown

Vous allez travailler sur les données (fictives) d’employés d’une entreprise. Elles sont contenues dans le fichier company.csvsur Celene. Ce tableau de données contient les informations suivantes sur plusieurs employés.

• satisfaction_level: niveau de satisfaction de l’employé ;

• last_evaluation: dernière évaluation ;

• number_project: nombre de projets ;

• average_monthly_hours: nombre moyen d’heures par mois ;

• time_spent_company: temps passé dans l’entreprise ;

• Work_accident: s’il a déjà eu un accident de travail ;

• left: si l’employé a quitté l’entreprise ;

• promotion_last_5years: s’il a eu une promotion au cours des 5 dernières années ;

• unit: département ;

• salary: niveau de salaire.

1 Démarrage

• Créer un document .Rmdet sa sortieHTMLreprenant la description des données ci-dessus. Au fur et à mesure du TP, vous compléterez le document.

• Ajouter un morceaux de code afin d’importer les données dans R.

• Ajouter avant la liste de présentation des variables une phrase comportant le nombre d’individus et le nombre de variables. Pour cela, trouver comment insérer un résultat de commande R au sein d’une phrase.

2 Préparation des données

• Afficher, sans travail de présentation, un résumé et la structure du jeu de données.

• Renommer les variables avec des noms plus courts et en français.

• Réordonner les variables pour que la variable indiquant si l’employé a quitté l’entreprise soit en première.

• Transformer en facteur ayant pour levels Ouiet Nonles variables pour lesquelles cela est approprié.

• S’il reste des variables représentant des variables qualitatives qui ne sont pas encore considérées comme des facteurs, les convertir en facteur.

• Traduire en français les levels, encore en anglais, des facteurs.

• Transformer en facteur ordonné (ordered) les facteurs pour lesquels cela a du sens.

• Pour chaque variable quantitative continue, créer une nouvelle variable appeléenomdevariable.classecorres- pondant à cette variable découpée en classe de façon intelligente. Utiliser la commandecut.

3 Observation des données manquantes

• Préciser, dans du texte :

le nombre de données manquantes ;

le nombre d’individus ayant au moins une donnée manquante ; le nombre de variables ayant au moins une donnée manquante ; le nom des variables ayant au moins une donnée manquante.

• Créer un data framecontenant les informations des individus ayant au moins une donnée manquante.

• Visualiser ces données en soignant la présentation. Manipuler les différentes façons de présenter un data frame dans la sortie HTML.

4 Présentation de tableaux

• Présenter le tableau des effectifs par service. Soigner la présentation en utilisant la commandekabledu package knitr.

• Construire un tableau, intitulétab.salaire, avec les effectifs et les fréquences par niveau de salaire.

L3 Économie 1 Université de Tours - 2018-2019

(2)

• On peut encore améliorer la présentation grâce aux packages kableExtra et formattable et aux fonctions kable_stylingetadd_header_above. Tester les commandes suivantes.

kable_styling(kable(tab.salaire,caption="Répartition des niveaux de salaire"),

full_width = F, position = "left",bootstrap_options = c("striped", "hover", "condensed"))

add_header_above(

kable_styling(kable(tab.salaire,caption="Répartition des niveaux de salaire"),

full_width = F, position = "left",bootstrap_options = c("striped", "hover", "condensed")), c(" ", "Salaire" = 3))

5 Manipulations avancées de data frame

• Afficher les informations sur l’évaluation, la satisfaction et les salaires des individus ayant plus 0.5 à l’évaluation ou plus de 0.6 en satisfaction.

• Tester la commande suivante (on suppose queRH,RetDet infosont des levels de la variableservice) df[df$service %in% c("RH","RetD","info"),c("eval","satisf","service")]

• En utilisant la commande order, afficher les informations sur l’évaluation, la satisfaction et le nombre moyen d’heures travaillées par mois des employés en ordonnant selon le nombre d’heures moyennes travaillées par mois.

6 Graphiques

• Représenter graphiquement la répartition des heures moyennes effectuées par mois.

• Représenter graphiquement côte-à-côte la répartition des nombres de projets et de l’ancienneté des employés.

Réduire la hauteur par défaut des graphiques.

• Représenter graphiquement et lisiblement les effectifs par service.

7 Lien descriptif entre variables

7.1 Entre variables qualitatives

• Présenter quelques tableaux croisés d’effectifs entre la variable indiquant si un employé a quitté l’entreprise et d’autres variables qualitatives.

• Réaliser quelques test duχ2entre une variables qualitatives et la variable indiquant si l’employé a quitté l’entreprise.

• Créer la fonction suivante afin de réaliser via la fonction apply plusieurs tests du χ2 dont les résultats seront regroupés dans un tableau.

testchi<-function(x){

t<-chisq.test(table(x,df$depart)) output<-c(min(t$expected),t$p.value)

names(output)<-c("Eff. théo. min.","p-value") return(output)

}

7.2 Entre variables quantitatives

• Calculer les différents coefficients de corrélation entre les variables quantitatives et les représenter graphiquement ces résultats à l’aide de la commandecorrplotdu package du même nom.

7.3 Entre variables quantitative et qualitative (départ)

• Présenter sur le même graphique la répartition des notes d’évaluation selon que l’employé a quitté ou non l’entreprise.

• Automatiser la procédure pour les autres variables grâce à la fonction suivante : bp.depart<-function(x){

boxplot(x~ df$depart,main=names(x),varwidth=TRUE,horizontal=TRUE,las=1) }

• Réaliser des tests de comparaison de moyennes entre les deux sous-populations des employés qui n’ont pas quitté l’entreprise et de ceux qui ont quitté l’entreprise.

• Essayer d’automatiser la procédure. Par exemple en créant une fonction qui extrait dans un vecteur les principale information d’un test.

L3 Économie 2 Université de Tours - 2018-2019

Références

Documents relatifs

Ecrivez l’algorithme puis le programme qui réponde au problème suivant : Vous effectuez une dépense de santé d’un montant MT à saisir. La Sécurité sociale vous rembourse 70%

Finalement sur le stand je décide de mettre 2 Master et 2 Licence et n’importe quels étudiants à l’accueil. • Combien j’ai de façon de choisir les étudiants qui vont

Toutes les opérations classiques sur les nombres réels peuvent être faites avec des nombres complexes.

Plus petite valeur de la série de données telle qu’au moins la moitié de la population prend une valeur inférieure ou égale à celle-ci. Propriété de

– Si on augmente tout le monde d’un même pourcentage, la courbe de concentration et l’indice de Gini ne change pas. + Si on augmente tout le monde de la même quantité, l’indice

Trouvez la droite de régression linéaire à tâtons

Quand est-il justifié de faire une régression linéaire. • expérience, allure générale

• Combien j’ai de façon de choisir les étudiants qui vont m’aider pour les JPO.. En fait, il faut 4 étudiants sur le stand (2 Master, 2 Licence 3) et 3 étudiants de L2