P
RÉSENTATION GÉNÉRALE DER
Julie Scholler - Bureau B246
septembre 2018
I. Présentation
Qu’est-ce que ?
• langage orienté vers le traitement de données et l’analyse statistique
• logiciel libre publié sous licence GNU GPL
I. Présentation
Usages
Les outils les plus courants permettent de réaliser des analyses statistiques telles que
• statistiques descriptives : moyenne, médiane, variance, etc
• tests d’hypothèses et intervalles de confiance
• régressions linéaires
• analyse factorielle
• machine learning et bien sûr
• des graphiques
I. Présentation
Pourquoi utiliser R ?
Avantages
• multiplateforme (Linux, Mac oS X, Windows)
• gratuit
• très puissant car les fonctionnalités de base peuvent être étendues à l’aide d’extensions (plus de 10 000)
• possibilités de manipulation de données supérieures à un tableur
• bonnes capacités graphiques et nombreuses possibilités d’export
• les méthodes statistiques récentes sont rapidement disponibles
• communauté d’utilisateurs et de développeurs très active et réactive
• beaucoup d’aide, d’informations et de forum à ce propos sur le web
I. Présentation
Inconvénients
• logiciel et documentation de base en anglais (mais de plus en plus de ressources en ligne en français)
• R s’apparente davantage à un langage de programmation qu’à un logiciel proprement dit
II. Installation
Logiciel R
http://www.r-project.org/
• rubrique Download, cliquer sur CRAN
• choisir un site miroir en France
• choisir la version en fonction de votre système d’exploitation (pour Linux, il y a de fortes chances que R soit directement disponible via le gestionnaire de paquets)
II. Installation
Logiciel R
http://www.r-project.org/
• rubrique Download, cliquer sur CRAN
• choisir un site miroir en France
• choisir la version en fonction de votre système d’exploitation (pour Linux, il y a de fortes chances que R soit directement disponible via le gestionnaire de paquets)
II. Installation
Logiciel R
http://www.r-project.org/
• rubrique Download, cliquer sur CRAN
• choisir un site miroir en France
• choisir la version en fonction de votre système d’exploitation (pour Linux, il y a de fortes chances que R soit directement disponible via le gestionnaire de paquets)
II. Installation
Interface RStudio
https://www.rstudio.com/
• cliquer sur Download RStudio dans le caroussel
• choisir la version free de RStudio Desktop
• choisir la version en fonction de votre système d’exploitation (pour Linux, il y a des chances que RStudio soit directement disponible via le gestionnaire de paquets)
II. Installation
Interface RStudio
https://www.rstudio.com/
• cliquer sur Download RStudio dans le caroussel
• choisir la version free de RStudio Desktop
• choisir la version en fonction de votre système d’exploitation (pour Linux, il y a des chances que RStudio soit directement disponible via le gestionnaire de paquets)
II. Installation
Interface RStudio
https://www.rstudio.com/
• cliquer sur Download RStudio dans le caroussel
• choisir la version free de RStudio Desktop
• choisir la version en fonction de votre système d’exploitation (pour Linux, il y a des chances que RStudio soit directement disponible via le gestionnaire de paquets)
III. RStudio
À l’ouverture de Rstudio, la fenêtre se partage ainsi :
Console
Console Aide, fenêtre graphique, fichiers, packages
Scripts Données, historique
III. RStudio
À l’ouverture de Rstudio, la fenêtre se partage ainsi :
Console
Console Aide, fenêtre graphique, fichiers, packages
Scripts Données, historique
III. RStudio
À l’ouverture de Rstudio, la fenêtre se partage ainsi :
Console Console
Aide, fenêtre graphique, fichiers, packages
Scripts Données, historique
III. RStudio
À l’ouverture de Rstudio, la fenêtre se partage ainsi :
Console
Console Aide, fenêtre graphique, fichiers, packages
Scripts
Données, historique
III. RStudio
À l’ouverture de Rstudio, la fenêtre se partage ainsi :
Console
Console Aide, fenêtre graphique, fichiers, packages Scripts
Données, historique
III. RStudio
À l’ouverture de Rstudio, la fenêtre se partage ainsi :
Console
Console
Aide, fenêtre graphique, fichiers, packages
Scripts Données, historique
IV. Premières manipulation
Début avec R
• R est une calculatrice
• création d’objet
• utilisation d’un script
• différents types d’objets
IV. Premières manipulation
Mode d’un objet
Les principaux modes d’un objet de R sont
• numeric (valeur numérique) : 1, pi, 3.1416
• logical (booléen, valeur logique) : TRUE, FALSE, T, F
• character (chaîne de caractères) : "blabla"
Commande autour du mode d’un objet
• connaître le mode d’un objet x : mode(x)
• tester l’appartenance d’un objet à un mode en particulier : is.numeric(x), etc.
• convertir un objet d’un mode à l’autre : as.character(x)
IV. Premières manipulation
Structures de données
Vecteur
• ensemble de valeurs toutes du même mode (numérique, logique, etc.)
Matrice
• tableau de valeurs toutes du même mode (numérique, logique, etc.)
Facteur
• vecteur adapté aux données qualitatives
Data frame
• tableau dont les colonnes ont la même longueur mais les colonnes peuvent être de modes différents
I
MPORTATION,
EXPORTATION DE DONNÉES ET DE GRAPHIQUESJulie Scholler - Bureau B246
octobre 2018
I. Répertoire de travail
Connaître le répertoire de travail getwd()
Fixer le répertoire de travail setwd("nouveau-répertoire")
À la main
I. Répertoire de travail
Connaître le répertoire de travail getwd()
Fixer le répertoire de travail setwd("nouveau-répertoire") À la main
II. Importation de données
• données extérieures sous forme de fichiers
• formats : .txt., .csv, .xls, .xlsx, etc.
Pour les formats : txt et csv
• read.table() ou read.csv() ou read.csv2()
Pour les formats : xls et xlsx
• package xlsx
• read.xlsx() ou read.xlsx2()
II. Importation de données
df <- read.table(file="fichierdedonnees.txt",
header=FALSE, sep="",dec=".",row.names=-1,...)
• file : chemin vers le fichier (peut être une url)
• header : si la première ligne contient les noms des variables
• sep : caractère utilisé pour séparer les données
• dec : séparateur décimal
• row.names : valeur numérique spécifiant le numéro de la colonne contenant les noms ou numéros d’individus
s’il n’y en a pas row.names=-1
II. Importation de données
read.table(file, header=FALSE, sep="",dec=".") read.csv(file, header=TRUE, sep=",",dec=".") read.csv2(file, header=TRUE, sep=";",dec=",")
II. Importation de données
Formats Excel
Il faut d’abord avoir installer le package xlsx.
library("xlsx")
read.xlsx(file, sheetIndex, header=TRUE,...) read.xlsx2(file, sheetIndex, header=TRUE,...)
• sheetIndex : nombre ou nom indiquant la feuille du document à importer
III. Exportation de données
write.table(x, file, sep = " ",
dec = ".", row.names = TRUE, col.names = TRUE)
• x : objet R à écrire dans le fichier
• file : chemin du fichier à créer
• sep et dec : séparateurs de données et séparateur décimal à utiliser dans le fichier créer
• row.names et col.names : si les noms de ligne et de colonnes sont conservés ou non dans le fichier créé
III. Exportation de données
Autres commandes
write.csv(x, file, sep = ",", dec = ".",
row.names = TRUE, col.names = TRUE) write.csv2(x, file, sep = ";", dec = ",",
row.names = TRUE, col.names = TRUE)
library("xlsx")
write.xlsx(x, file, sheetName="Sheet1", col.names=TRUE, row.names=TRUE, append=FALSE)
write.xlsx2(x, file, sheetName="Sheet1",col.names=TRUE, row.names=TRUE, append=FALSE)
• append : si on ajoute la feuille à un nouveau document ou si on crée un nouveau fichier
IV. Exportation de graphiques
Syntaxe de base
pdf(file="nom_souhaité_du_fichier_du_graphique.pdf")
#code de construction du graphique dev.off()
jpeg(file="nom_souhaité_du_fichier_du_graphique.jpg")
#code de construction du graphique dev.off()
png(file="nom_souhaité_du_fichier_du_graphique.png")
#code de construction du graphique dev.off()
IV. Exportation de graphiques
Options générales
• height, width : hauteur et largeur de l’image (en pouces pour les pdf, en pixel sinon)
• pointsize : taille de l’écriture sur les graphiques (par défaut 12)
Pur les pdf
• paper : taille du document
• family : famille d’écriture
Pour les jpeg
• quality : qualité de l’image/taux de compression (entre 1 et 100, par défaut 75)