Outils statistiques
Master ´ Ecophysiologie, ´ Ecologie et ´ Ethologie Masters Plantes
TD 0. Logiciel R – Introduction ` a R et Rcmdr
1 Installation du logiciel R, environnement de travail
1. Les fichiers n´ ecessaires ` a l’installation du logiciel R sont distribu´ es ` a partir du site Internet CRAN (Comprehensive R Archive Network) ` a l’adresse suivante :
http://www.r-project.org/
2. S´ electionner un miroir CRAN puis t´ el´ echarger et installer le logiciel en fonction de votre syst` eme d’exploitation.
3. R d´ emarre chaque session au sein d’un r´ epertoire de travail cr´ e´ e par d´ efaut. Par exemple, sous Windows : C:\Users\Utilisateur\Documents.
On peut connaˆıtre celui-ci grˆ ace ` a la commande getwd() puis ´ eventuellement le modifier par l’interm´ ediaire du menu Fichier ou ` a l’aide de la commande setwd ; par exemple : setwd("D:/Cours/Stats/TD R")
4. Lorsqu’on quitte une session R, le logiciel propose de sauvegarder l’ensemble du travail r´ ealis´ e au sein de deux fichiers :
.RData : environnement de travail (objets R, variables, fonctions, donn´ ees), .Rhistory : historique des commandes ex´ ecut´ ees.
2 Premiers pas sous R
1. Ouvrir le logiciel R. Dans une premi` ere ´ etape, les commandes seront saisies dans la fenˆ etre R console.
2. R permet de r´ ealiser les op´ erations habituelles d’une calculatrice ` a l’aide des op´ erateurs usuels : +, -, *, /, exp, log, ^, etc. Ex´ ecutez par exemple les commandes suiv- antes :
> exp(log(5))^2
> 1/sqrt(2*pi)*exp(-1/2)
Master 1ere annee 2019/2020
3. Pour affecter une valeur ` a un objet, on utilise indiff´ eremment le symbole ´ egal (=) ou une
“fl` eche” ` a gauche (<-) :
> x = 45
> y <- 5
> Y <- 9
Remarques : R diff´ erencie minuscules et majuscules. Le s´ eparateur d´ ecimal est le point.
4. Saisir le nom de la variable permet d’en lire le contenu :
> x
> x/y/Y
5. Il est possible de soumettre plusieurs commandes sur une mˆ eme ligne :
> factorial(5) ; choose(32,4) ; round(pi,4) ; floor(sqrt(2))
6. Affecter une valeur ` a un objet et afficher simultan´ ement le contenu :
> (s = sum(1:10))
7. Il est possible de naviguer dans l’historique des commandes pr´ ec´ edemment ex´ ecut´ ees ` a l’aide des fl` eches
↑ou
↓du clavier.
3 La fenˆ etre de script
En d´ ebut de session R, il est vivement conseill´ e d’ouvrir une fenˆ etre de script afin de saisir les diff´ erentes commandes R ` a soumettre et de les g´ erer plus facilement : conserver les commandes importantes, effacer les commandes erron´ ees ou inutiles, ins´ erer des commentaires, ex´ ecuter plusieurs commandes simultan´ ement, programmer ou ´ ecrire ses propres fonctions.
1. Ouvrir un nouveau script. Dans la fenˆ etre de script, ´ ecrire les deux expressions ci-dessous en langage R puis ex´ ecuter les.
9
2+
192221 4
;
9922206√ 2
Remarque. L’ex´ ecution d’une commande dans la fenˆ etre de script s’effectue ` a l’aide du raccourci clavier CTRL R (en situant le curseur n’importe o` u sur la commande). Pour soumettre plusieurs commandes simultan´ ement, s´ electionner l’int´ egralit´ e des commandes puis CTRL R.
2. ` A l’aide du symbole #, ajouter un commentaire apr` es chaque expression. Tout ce qui suit ce symbole est ignor´ e par R.
3. Sauvegarder le script dans le r´ epertoire de travail courant puis fermer le script.
4. Ex´ ecuter l’int´ egralit´ e du script ` a l’aide de la commande source("script.R", echo=T)
4 R´ esum´ e num´ erique d’une petite s´ erie statistique
1. Saisir la s´ erie statistique ci-dessous (` a noter la fonction c qui permet sous R de saisir une s´ erie de valeurs sous la forme d’un vecteur) :
> age = c(26, 25, 23, 19, 22, 21, 26, 27, 22, 18, 31, 32, 38, 27, 24, 25)
2. Lister le contenu du vecteur age :
> age
3. Il est tr` es simple de transformer les valeurs d’un vecteur :
> age^2 ; sqrt(age) ; log(age)
4. S´ electionner des valeurs de la s´ erie par leurs indices, par des conditions logiques :
> age[3] ; age[10:12] ; age[c(2,4,6)] ; age[-(1:5)] ; jeune = age[age<20]
5. Les commandes suivantes permettent successivement de donner le nombre de valeurs de la s´ erie, de les ordonner, d’en obtenir le min, le max, la somme, la moyenne, la m´ ediane, l’´ ecart-type et la variance:
> length(age) ; sort(age) ; min(age) ; max(age) ; sum(age)
> mean(age) ; median(age) ; sd(age) ; var(age)
Remarque : la variance calcul´ ee par R correspond ` a l’estimation non biais´ e de la variance (avec sd =
√var).
6. Soumettre la fonction g´ en´ erique
summary(age)qui produit un r´ esum´ e statistique succinct des valeurs de la s´ erie.
7. Que repr´ esente la valeur suivante ?
> mean(age^2) - mean(age)^2
5 Repr´ esentation graphique d’une s´ erie statistique
1. La commande g´ en´ erique plot produit un graphe dit index´ e. Les valeurs sont trac´ ees selon leur rang (ou indice) dans la s´ erie :
> plot(age)
Reproduire le mˆ eme graphe, mais avec les valeurs tri´ ees.
Modifier le type de trac´ e des valeurs en ajoutant ` a la fonction l’argument type :
> plot(sort(age), type="h")
2. Une repr´ esentation plus classique des valeurs individuelles : repr´ esentation axiale (ou nuage de points) :
> stripchart(age)
3. Comparer le graphe pr´ ec´ edent avec celui fourni par la commande suivante :
> stripchart(age, method="stack", pch=20, col="blue")
4. Construire un histogramme :
> hist(age)
5. Un histogramme plus joli :
> hist(age, col="steelblue4", border="white", main="Histogramme de la variable Age", xlab="Age de l’enqu^et´e", ylab = "effectif")
Remarque : la commande
colors()affiche toutes les couleurs disponibles sous R.
6. Un histogramme avec d´ ecoupage en classes d’amplitudes in´ egales :
> hist(age, breaks=c(18,20,24,27,32,38), main="Histogramme de la variable Age", col="steelblue4", border="white", xlab="Age de l’enqu^et´e", ylab = "densit´e")
7. Tracer une boˆıte ` a moustaches :
> boxplot(age)
8. Une belle boˆıte ` a moustaches rose et cintr´ ee :
> boxplot(age, col="pink", horizontal=TRUE, notch=TRUE, xlab="Age de l’enqu^et´e")
9. Le param` etre graphique
mfrowpermet de partitionner une feuille graphique ; par exemple :
> par(mfrow=c(3,3))
Plus pr´ ecis´ ement, on a ici la possibilit´ e d’avoir 9 graphiques dispos´ es selon 3 lignes et 3 colonnes. Apr` es avoir soumis la commande pr´ ec´ edente, repr´ esenter tous les graphiques pr´ ec´ edents dans une mˆ eme fenˆ etre.
6 L’installation de nouveaux packages (ou librairies)
Pour des r´ ealiser des traitements statistiques sp´ ecifiques (analyse de donn´ ees, tests d’hypoth` eses, etc.) ou pour appliquer des m´ ethodes sp´ ecifiques ` a un domaine d’application (´ econom´ etrie, donn´ ees de survie, etc.), il est parfois n´ ecessaire d’installer de nouvelles libraries. Cela se fait en deux temps :
1. Installation du package (en le t´ el´ echargeant depuis un miroir CRAN). Par exemple :
> install.packages("FactoMineR", dependencies=TRUE)
2. Chargement du package pour qu’il puisse ˆ etre utilis´ e dans la session courante :
> library(FactoMineR)
L’´ etape d’installation (t´ el´ echargement) est faite une fois pour toutes, mais le chargement de la librairie doit ˆ etre effectu´ ee ` a chaque nouvelle session de R. Ces deux op´ erations peuvent ˆ etre r´ ealis´ ees ` a partir du menu Packages.
Application : installer puis charger la librairie e1071 de R.
7 Utilisation de la librairie Rcommander
7.1 Importation d’un jeu de donn´ ees
1. Consulter le fichier de donn´ ees temperature.txt
(disponible sous http://www-irma.u-strasbg.fr/~fbertran/ )
2. Enregistrer ce fichier sur votre ordinateur puis retourner sous le logiciel R.
3. Charger la librairie (ou package ) Rcmdr :
> library(Rcmdr)4. Importer le jeu de donn´ ees temperature.txt
Donn´ ees
→Importer des donn´ ees
→depuis un fichier texte, le presse papier ou une URL. Donner un nom au jeu de donn´ ees (par exemple temp), renseigner le s´ eparateur de champs (tabulation), le s´ eparateur d´ ecimal (virgule) puis OK. S´ electionner le fichier temperature.txt.
Essayer ´ egalement d’importer les donn´ ees depuis le presse papier (s´ electionner et copier les donn´ ees dans le navigateur) ou en indiquant une adresse URL (clic droit sur le nom de fichier dans le navigateur, copier l’adresse du lien)
Remarque : `a chaque op´eration effectu´ee `a partir du menu d´eroulant, la ligne de com- mande correspondante en langage R est affich´ee automatiquement dans la fenˆetre de script de Rcommander. Pour ex´ecuter `a nouveau une commande, il suffit cliquer avec la souris sur la commande (n’importe o`u) puis de valider avec le bouton Soumettre(ou de faireCTRL R au clavier).
7.2 Premiers traitements statistiques
1.
Visualiser le jeu de donn´ees(bouton Visualiser ). Noter la colonne Ville qui apparaˆıt comme une variable quelconque et non comme l’identificateur des individus. Fermer la fenˆ etre.
Remarque importante. Le logiciel Rcmdr est sensible aux fenˆ etres mal ferm´ ees ! Apr` es avoir visualis´ e ou ´ edit´ e des donn´ ees, il est vivement conseill´ e de refermer la fenˆ etre affichant ces donn´ ees avant de r´ ealiser d’autres analyses (sous peine de planter le logiciel R...)
2. D´ eclarer la premi` ere colonne du tableau comme
identificateurdes individus : Donn´ ees
→Jeu de donn´ ees actif
→nom des cas. S´ electionner la variable Ville.
3. Visualiser ` a nouveau les donn´ ees : le nom des villes doit maintenant apparaˆıtre dans une colonne gris´ ee. La d´ efinition d’un identificateur permet entre autre d’afficher les noms des individus, et non des num´ eros, pour certains graphiques ou traitements statistiques.
4.
Renommer la variableaout en l’appelant d´ esormais aoˆ ut (soit par le menu Donn´ ees
→G´ erer les variables, soit en ´ editant les donn´ ees et en cliquant sur le nom de variable.) 5.
Ajouter une nouvelle variabledonnant pour chaque ville sa temp´ erature maximale de l’ann´ ee :
Donn´ ees
→G´ erer les variables dans le jeu de donn´ ees actif
→Calculer une nouvelle vari- able.
6.
D´ecouper en classesla variable latitude : on choisira un d´ ecoupage en trois classes d’effectifs
´ egaux avec les ´ etendues comme nom de modalit´ es.
7. Faire de mˆ eme avec la variable Longitude.
8. Ajouter au jeu de donn´ ees les 12 variables correspondant aux temp´ eratures mensuelles
centr´ees - r´eduites: Donn´ ees
→G´ erer les variables dans le jeu de donn´ ees actif
→stan- dardiser les variables.
9. Produire un
r´esum´e statistiquede chacune des variables du jeu de donn´ ees : Statistiques
→