L
OGICIELR - 3
Julie Scholler - Bureau B246
septembre 2019
I. Objectif
Allison Horst
I. Objectif
Allison Horst
I. Objectif
Création de documents propres et parlants d’analyse de données
article pdf • étude sur la réussite des étudiants
• dossier d’analyse des ventes de jeux vidéos par Denis Charles, Timothy Hervier et Valentin Bonneau (ancien M1 Mécen)
article html • devoir des MÉcEn en analyse de données
• TP pour les MÉcEn
dashboard • empreinte écologique par Grégoire Amato et Camille Philippe (ancien L3)
• analyse de vente de liqueurs pour Naoufel Oubaha (ancien MÉcEn)
II. Outils
via
Packages : ggplot2, kable, DT, dplyr, tidyr, etc.
II. Outils
Allison Horst
II. Outils
Allison Horst
II. Outils
Allison Horst based onGarrett Grolemund et Hadley Wickham, in R for Data Science
II. Outils
R
• langage orienté vers le traitement de données et l’analyse statistique
• logiciel libre publié sous licence GNU GPL Usages
• statistiques descriptives : moyenne, médiane, variance, etc.
• tests d’hypothèses et intervalles de confiance
• régressions linéaires, analyse factorielle, machine learning
• graphiques
• rapports/documents intégrant du code R, des tableaux et graphiques via du code R
II. Outils
Pourquoi utiliser R ?
Avantages
• multiplateforme (Linux, Mac OS X, Windows)
• gratuit
• très puissant car les fonctionnalités de base peuvent être étendues à l’aide d’extensions (plus de 10 000)
• possibilités de manipulation de données supérieures à un tableur
• bonnes capacités graphiques et nombreuses possibilités d’export
• les méthodes statistiques récentes sont rapidement disponibles
• création intégrée de documents (pdf, html, etc.)
• communauté d’utilisateurs et de développeurs très active et réactive
• beaucoup d’aide, d’informations et de forum à ce propos sur le web
II. Outils
Inconvénients
• logiciel et documentation de base en anglais (mais de plus en plus de ressources en ligne en français)
• R s’apparente davantage à un langage de
programmation qu’à un logiciel proprement dit
Allison Horst
III. Installation et mise à jour
Logiciel R
http://www.r-project.org/
• rubrique Download, cliquer sur CRAN
• choisir un site miroir en France
• choisir la version en fonction de votre système d’exploitation (pour Linux, il y a de fortes chances que R soit directement disponible via le gestionnaire de paquets)
III. Installation et mise à jour
Interface RStudio
https://www.rstudio.com/
• cliquer sur Download RStudio dans le caroussel
• choisir la version free de RStudio Desktop
• choisir la version en fonction de votre système d’exploitation (pour Linux, il y a des chances que RStudio soit directement disponible via le gestionnaire de paquets)
III. Installation et mise à jour
Mises à jour
RStudio
Il suffit d’installer la version plus récente.
R
Sous Windows
• installer le package installr
• fermer RStudio et ouvrir R GUI
• charger le package installr
• lancer la commande updateR() et suivre la procédure
• normalement on peut automatiquement avoir les packages installés pour la nouvelle version
Sous Mac, utiliser la package updateR
Sous Linux, mise à jour de r-base automatique
IV. Mise au point
Règle 1
Toujours écrire/enregistrer les commandes dans un document :
• script, notebook, etc.
IV. Mise au point
Règle 2
Toujours structurer et commenter son code Par exemple
• utiliser le croisillon # pour décrire l’action des commandes complexes
• utiliser le croisillon # pour décrire les grandes étapes, mettre des titres de sections
• regrouper au début du document le chargement des différents packages utiles
IV. Mise au point
Règle 3
Nommer ses dossiers et fichiers correctement : lisible pour les
machines, lisible pour les humains et bien s’arranger avec le tri par défaut
lisible pour les machines
éviter les espaces, la ponctuation, les accents et les caractères spéciaux
lisible pour les humains
les noms de fichiers doivent informer sur le contenu bien s’arranger avec le tri par défaut
commencer par quelques choses de numériques, ajouter des zéros au début si nécessaire
utiliser la norme ISO 8601 pour les dates (YYYY-MM-DD)
IV. Mise au point
https://xkcd.com/1179/
IV. Mise au point
Packages
Description
bibliothèque externe, souvent thématique,
• de données
• de fonctions Exemples
Il en existe des dizaine de milliers.
• datasets : plein de jeux de données
• readxl : pour importer des données au format .xlsx
• rpart : fonctions autour des arbres de décision
• ggplot2 : graphiques
• shiny : applis web interactives
• Rbnb : spécifique à Airbnb
IV. Mise au point
Aide et informations
Aide de R et des packages
• via la commande help()
• l’interface graphique de RStudio
• le site http://search.r-project.org/
• le site https://www.rdocumentation.org/
Autres sources d’information
• le journal R https://journal.r-project.org/
• les blogs spécialisés : R-bloggers
• des manuels https://cran.r-project.org/manuals.html
• des livres
IV. Mise au point
Sites internet
• site de questions/réponses : StackOverflow
• Quick-R https://www.statmethods.net/
• le site de Duclert http://www.duclert.org/ en français
V. Langage R Markdown
R Markdown
• offre syntaxe simplifiée pour mettre en forme des documents contenant à la fois du texte, des instructions R et le résultat fourni par R lors de l’évaluation de ces instructions
• combine Markdown, un langage de balisage, et R
• permet la création de document dans différents format : pdf, html, word, odt, etc.
V. Langage R Markdown
Allison Horst
V. Langage R Markdown
R for Data science vuqehoê et Hadley Wickam
V. Langage R Markdown
Struture d’un document en R Mardown
• en-tête YAML
• corps de document en markdown
• chunks de code R
Ressources :
• R Markdown Reference Guide
• R Markdown: the definitive guide
V. Langage R Markdown
R for Data science Garrett Grolemund et Hadley Wickham
V. Langage R Markdown
R for Data science Garrett Grolemund et Hadley Wickham
V. Langage R Markdown
Allison Horst
V. Langage R Markdown
Structure d’un document en R Markdown
• en-tête YAML
• corps de document en markdown
• chunks de code R
Ressources :
• R Markdown Reference Guide
• R Markdown: the definitive guide