L’´et´e 2010 Cours 7 — le 25 mai
7.1. Lecture sugg´er´ee. R pour les sociologues par Julien Barnier, pages 7–20.
7.2. Encore sur la loi normale. SoitXune variable al´eatoire dont la loi de distrubution est normale de moyenneµ= 2et l’´ecart-typeσ = 3. Quelle est la probabilit´e de l’´ev`enement
[3≤X ≤4]?
−5 0 5 10
0.000.040.080.12
Loi de distribution normale: µ = 2, σ = 3
x
densité
x=3 x=4
FIG. 1. La loi normaleN(3,4)deµ= 3etσ = 4et les valeursX = 3,X = 4.
La probabilit´e en question est ´egale `a l’aire sous la courbeN(3,4)entre les valeursX = 3 etX = 4, c.`a.d. :
P[3≤X ≤4] = Z 4
3
N(3,4)dx.
Il est claire que cette valeur est la diff´erence des deux aires sous la courbe : de −∞de4et de−∞de3: Z 4
3
N(3,4)dx= Z 4
−∞
N(3,4)dx− Z 3
−∞
N(3,4)dx.
1
La valeur Z b
−∞
N(3,4)dx
est bien sˆur la valeurF(b)de la fonction de r´epartition deX `ax=b.
Cette valeur est aussi connue comme la queue inf´erieure de la loi normaleN(3,4)(lower tail), et peut ˆetre calculer en utilisant R, ou — ce qui est plus commode — R commander.
Lancer R commander en tapant
> library(Rcmdr)
Dans le menu de la boˆıte de R commander, choisissez Distributions→normal distribution
→Normal Probabilities. Mettez les valeursµ = 2, σ = 3, et choisissez3comme Variable value. Dans la output window vous verrez :
> pnorm(c(3), mean=2, sd=3, lower.tail=TRUE) [1] 0.6305587
De mˆeme fac¸on, pourX = 4, on a
> pnorm(c(4), mean=2, sd=3, lower.tail=TRUE) [1] 0.7475075
D’ici on conclut :
P[3≤X ≤4] =F(4)−F(3) = 0.7475075−0.6305587 = 0.1169488...≈11.7%.
7.3. Sur les quartiles. Voici un petit ´echantillon des valeurs de la pression art´erielle systo- lique des 7 sujets :
151 124 132 170 146 124 113 D´eterminez les quartiles de cet ´echantillons.
D’abord, on ordonne les donn´ees num´eriques :
113 124 124 132 146 151 170
Notons X la variable al´eatoire en question (la pression arterielle). Examinons toutes les valeurs de la gauche `a la droite pour trouverQ1. Est-ce queQ1 = 113? Non, parce que
P[X ≤113] =P{113}= 1
7 = 0.142... < 1 4. Le prochain candidat pourQ1est124. On a
P[X ≤124] =P{113,124,124}= 3
7 = 0.428... > 1 4, et de plus
P[X ≥124 =P{124,124,132,146,151,170}= 6
7 = 0.857... > 3 4. Alors, la valeur124v´erifie la d´efinition du premier quartile. On a
Q1 = 124.
PourQ2, il n’y a aucun probl`eme carQ2 est la valeur m´edianne, et le nombre des sujets,7, est impaire. Le seule choix pourQ2, c’est donc la valeur centrale :
Q2 = 132.
Et on peut voir que
P[X ≤132] =P{113,124,124,132}= 4
7 = 0.571... > 1 2, et de mˆeme
P[X ≥132] = 4 7 > 1
2. Enfin, un argument pareil ´etablit que
Q3 = 151.
Qu’est-ce que R nous dit ? On cr´ee le vecteur des valeurs deX, en le nommant par exemple x:
> x <- c(151, 124, 132, 170, 146, 124, 113)
(La lettre “c” provient de concatenation, il est n´ecessaire pour cr´eer un vecteur de valeurs dans R.) On peut v´erifier que le vecteur a ´et´e cr´e´e correctement :
> x
[1] 151 124 132 170 146 124 113
Maintenant la commande statistique parmi les plus utiles est summary, elle nous donne le sommaire statistique du vecteur :
> summary(x)
Min. 1st Qu. Median Mean 3rd Qu. Max.
113.0 124.0 132.0 137.1 148.5 170.0
On obtient l’´el´ement minimal (113), le 1e quartile, la valeur m´edianne (ou le 2e quartile), la valeur moyenne, le 3e quartile, et le maximum de l’´echantillon. Pourtant, la valeurQ3 = 148.5est diff´erente de la nˆotre. Pourquoi ? Les sources diff´erentes utilisent les d´efinitions l´eg`erement diff´erentes des quartiles. Par exemple, de toute ´evidence, la d´efinition de R exige que le troisi`eme quartile satisfasse
P[X ≤Q3]≥ 3
4 etP[X > Q3]≥ 1 4, tandis que la mienne exige :
(7.1) P[X≤Q3]≥ 3
4 etP[X ≥Q3]≥ 1 4.
Pour cette raison, au sens de R, n’importe quelle valeur strictement interm´ediaire entre146 et151estQ3, par exemple, la moyenne arithm´etique
146 + 151
2 = 148.5, qui a ´et´e choisie par le logiciel.
Cette manque de l’uniformit´e n’importe pas, puisque pour les ´echantillons de donn´ees plus importante la diff´erence est toute petite. Quant `1a moi, je pr´ef`ere fortement la d´efinition des quartiles comme dans (7.1), car elle est plus facile `a m´emoriser et `a utiliser.
Quand mˆeme, on a toujours, de fac¸on informelle : – Q2est la m´ediane des donn´ees,
– Q1est la m´ediane de la moiti´e inf´erieure des donn´ees, et – Q3est la m´ediane de la moiti´e sup´erieure des donn´ees.
D´efinition 7.1. L’intervalle interquartile (I.I.Q., ou bien I.Q.R.) d’une variable al´eatoire X est la diff´erence entre le trois`eme et le premier quartiles :
IIQ=Q3 −Q1.
Pour notre ´echantillon, on a donc (au sens de notre d´efinition des quartiles) : IIQ= 151−124 = 27.
Cr´eerons enfin une boˆıte `a moustaches pour notre ´echantillon, dont la signification est maintenant devenue plus claire. On tape `a l’invite de commandes
> boxplot(x, horizontal=TRUE) pour obtenir le diagramme familier (la figure 2).
120 130 140 150 160 170
FIG. 2. La pression arterielle systolique de7sujets.
Exercice 7.2. Trouvez dans le diagramme 2 les valeurs de tous les quartiles, ainsi que les valeurs maximum et minimum. O`u se cache l’intervalle interquartile ? Y a-t-il des valeurs atypiques ?
Remarque 7.3. La boˆıte `a moustaches (box plot), aussi connue sous le nom de boˆıte `a pattes, est une invention relativement r´ecente : elle a ´et´e invent´ee en 1977 par John Tukey.
7.4. La structure des donn´ees principale utilis´ee par le logiciel R s’appelle data frame. On peut cr´eer ces structures de fac¸ons diff´erentes. Voici une fac¸on possible. On veut cr´eer un data frame pour l’´echantillon de donn´ees sur la pigmentation de poissons. On tape `a l’invite de commandes :
> pigm = data.frame(effectif=c(13,68,44,21,8),
+ row.names=c("aucune","legere","moderee","forte","noir solide")) Maintenant, on peut voir le r´esultat :
> pigm
effectif
aucune 13
legere 68
moderee 44
forte 21
noir solide 8
Veuillez noter que la colonne des noms de lignes n’est pas de nom lui-mˆeme.
La seule colonne num´erique s’appelle effectif (c’est le nom que nous avons choisi). Pour voire cette colonne, on tape :
> pigm$effectif [1] 13 68 44 21 8
Pour voir les noms de toutes les lignes, on tape :
> row.names(pigm)
[1] "aucune" "legere" "moderee" "forte" "noir solide"
Le diagramme en bˆtons nous aide de visualiser l’´echantillon :
> barplot(pigm$effectif,names.arg=row.names(pigm)) (Voir la figure 3).
La distribution est visiblement unimodale, le mode est unique, avec la classe modale
“l´eg`ere”.
Le commande summary est parmi les plus utiles, elle nous donne le sommaire statistique de l’´echantillon, y compris les quartiles :
> summary(pigm) effectif Min. : 8.0 1st Qu.:13.0 Median :21.0 Mean :30.8 3rd Qu.:44.0 Max. :68.0
On peut sauvegarder l’´echantillons dans deux format principaux : le format texte,
> write.table(pigm, file="pigm.txt")
aucune legere moderee forte noir solide
0102030405060
FIG. 3. La pigmentation noire de poissons : diagramme en bˆatons.
ainsi qu’en format R data format, ou .rda :
> save(pigm,file="pigm.rda")
Afin d’acc´eder au jeu de donn´ees au format .txt, on utilise la commande :
> z<- read.table("pigm.txt")
Pour le format .rda, c’est plutˆot load. De plus, on peut acc´eder `a tous les deux formats en utilisant R commander.
R peut t´el´echarger les jeux de donn´ees. Par exemple, voici le jeu de donn´ees concernant la densit´e de singes contre la richesse des esp`eces d’oiseaux :
> download.file("http://pbil.univ-lyon1.fr/R/donnees/pps069.rda", + destfile="pps069.rda")
trying URL ’http://pbil.univ-lyon1.fr/R/donnees/pps069.rda’
Content type ’text/plain’ length 52619 bytes (51 Kb) opened URL
==================================================
downloaded 51 Kb
Maintenant on acc`ede au jeu de donn´ees :
> load("/Users/vova/Classes/2779/pps069.rda")
La commande ls (toujours suivie par deux parenth`eses) montre tous les jeux de donn´ees actuellement dans la memoire de R, par exemple, voici ce que j’ai sur mon MacBook Pro au moment de rediger les notes :
> ls()
[1] "cols" "funcs" "i" "n" "oldpar"
[6] "pigm" "pps069" "pps070" "RegModel.1" "w"
[11] "x" "x1" "y" "y1" "y2"
On peut assigner un nom diff´erent, plus commode, au jeu de donn´ees :
> w<- pps070
La commande dim montre les dimensions de data frame :
> dim(w) [1] 29 7
Au cas de jeux de donn´ees relativement petits, on peut les voir :
> w
name area dist UTMnorth UTMeast dens S
1 Afuera 0.2 2.2 812846 516892 0.0 2
2 Reinita 0.2 9.0 800929 518932 0.0 1 3 Chig\xfcire 0.3 8.0 799823 518013 7.1 9
4 Facil 0.3 9.0 800763 518896 0.0 0
5 Baya 0.6 9.0 799934 518785 3.3 7
6 Colon 0.6 9.2 801058 519043 3.4 0
7 Miedo 0.6 8.1 806291 519795 3.3 2
8 Densa 0.6 6.2 799731 517000 0.0 2
9 Paloma 0.6 11.7 796175 518603 0.0 5
10 Rocas 0.6 6.6 804466 518029 1.7 8
11 Sudor 0.6 3.5 812930 515200 0.0 1
12 Bumeran 0.7 1.3 811246 516592 0.0 7 13 Iguana 0.7 7.6 800099 517865 8.6 12 14 Matajei 0.8 11.2 796322 518335 0.0 3
15 Cola 1.0 8.2 799731 518105 4.1 10
16 Palizada 1.1 0.2 808371 516900 0.0 0
17 Quina 1.1 0.3 810508 515250 0.0 0
18 Aguila 1.3 11.0 796322 518235 0.0 4 19 Tucucito 1.5 9.3 798810 518547 3.3 14 20 Perimetro 1.5 3.8 812940 515475 0.0 4 21 Triangulo 2.3 2.6 812940 515525 0.0 3 22 Chotacabra 2.3 6.6 798920 518547 1.7 16 23 Solitario 2.4 0.5 810674 516188 0.4 10 24 Galbilon 2.6 4.7 801858 517383 0.0 6
25 Coral 7.6 0.4 810730 515949 0.0 8
26 Ambar 8.3 7.7 800189 519975 1.0 15 27 Panarama 10.2 1.5 812246 516792 0.0 19
28 Lomo 11.4 2.0 810730 517450 0.0 7
29 Sombrero 21.4 3.9 817550 515949 0.5 13
Dans ce cas-l`a, la taille de l’´echantillon estn= 29, et il s’agit de6variables al´eatoires dont les valeurs sont calcul´ees pour tous les sujets. le param`etre S designe le nombre d’esp`eces
d’oiseaux sur l’ˆıle corr´espondante, tandis que UTMnorth est la latitude nord. Dist est la distance de la terre. Dens est la fameuse densit´e des singes qui habitent l’ˆıle.
Exercice 7.4. D´ecrire la nature de toutes les variables al´eatoires de l’´echantillon ci-dessus.