L’´et´e 2010 Cours 6 — le 20 mai
6.1. Lecture sugg´er´ee. Tout en esperant que la librairie Cosmos va recevoir la cargaison de livres sous peu (si tel est le probl`eme), je recommende Biostatistique sous la direction de Beuscart, 1.4.3, 3.1, 3.2.
6.2. Encore sur la loi normale. La loi de distribution normale est sans aucune doute la plus importante qui y est en th´eorie de probabilit´es, ainsi que dans ses applications. Voici le graphe de la fonction gausienne (=une courbe en cloche)N(0,1) = (1/√
2π) exp(−x2/2) de densit´e de la loi normale centr´ee (µ= 0) et r´eduite (σ = 1).
−3 −2 −1 0 1 2 3
0.00.10.20.30.4
Densité de distribution normale: µ = 0, σ = 1
x
densité
FIG. 1. La fonction de densit´e de la loi de distribution normale centr´ee r´eduite.
R Afin de produire les graphes de la fonction de densit´e avec R commander, choisissez dans le menu : distributions →continuous distributions→normal distribution →plot normal distribution.
Choisissez les valeurs exig´ees de la moyenne µet de l’´ecart-typeσ. Dans le cas du graphe 1,µ= 0, σ = 1, car il s’agit de la loi normale centr´ee r´eduite. R
Le graphe 2 suivant montre deux fonctions de densit´e dont les moyennes sont diff´erentes (0 et2respectivement), et les ´ecart-types sont diff´erents aussi (1et2). Ce choix des param`etres a l’effet imm´ediat et facile `a interpreter sur la forme de la courbe en question.
1
−5 0 5 10
0.00.10.20.30.4
Densités de la loi normale avec des moyennes et écart−types diff
x
densité
−−− N(0,1) oo N(2,2)
FIG. 2. Les fonctions de densit´e de la loi normale centr´ee r´eduite versusN(2,2).
R Le graphe 2 a ´et´e produit avec
> .x <- seq(-5, 10, length.out=100)
> plot(.x, dnorm(.x, mean=0, sd=1), xlab="x", ylab="densite", + main=expression(paste("Densite de la loi normale avec des moyennes et ecart-types differents")), type="l")
> points(.x,dnorm(.x,mean=2,sd=2))
> legend(6,0.4, c("--- N(0,1)", "oo N(2,2)"), col = c(3,4), + bg = ’gray90’)
> abline(h=0, col="gray")
> remove(.x)
Je vous encourage d’experimenter librement avec les graphes. R
SoitX une variable al´eatoire dont la loi est normale. On s’int´eresse surtout par la proba- bilit´e de l’´ev`enement
[a ≤X ≤b].
Cette probabilit´e est ´egale `a l’aire sous la courbeN(µ, σ)entreaetb: P[a ≤X ≤b] =
Z b
a
N(µ, σ)dx.
Car on peut ´ecrire
P[a≤X ≤b] =P[X ≤b]−P[X ≤a],
il suffit de d´eterminer les probabilit´e des “queues inf´erieures” (“lower tails”), et on peut le faire de fac¸on la plus efficace en utilisant un logiciel statistique tel que R commander.
Exemple 6.1. SoitXune variable al´eatoire dont la distribution est normale avec la moyenne µ= 4et l’´ecart-typeσ= 11. Quelle est la probabilit´e de l’´ev`enement queXprend sa valeur entre−1et7?
R Dans R commander, choisissez dans le menu : Distributions→continuous distributions→nor- mal distribution→normal probabilities. Chosissez lower tail, and mettezµ= 4,σ = 11, et choisis- sez la valeur de la variable (variable value) ´egale `a−1:
> pnorm(c(-1), mean=4, sd=11, lower.tail=TRUE) [1] 0.3247181
Cela veut dire queP[X ≤ −1] = 0.3247181.... Pareillement, pour la valeurx= 7, on obtient :
> pnorm(c(7), mean=4, sd=11, lower.tail=TRUE) [1] 0.6074686
Il ne reste que de soustraire deux valeurs l’une de l’autre. On peut le faire `a l’invite de commande de R, ou bien en tapant dans le Script window :
0.6074686 - 0.3247181
Mettez le curseur sur cette signe, et cliquez sur le Submit. Vous obtiendrez dans la fenˆetre Output window :
> 0.6074686 - 0.3247181 [1] 0.2827505
La r´eponse au probl`eme :
P[−1≤X≤7] = 28.3%.
R
Remarque 6.2. Les observations suivantes sont utiles.
– Environ2/3des valeurs deXse trouvent `a moins d’un ´ecart-type de la moyenne : P[µ−σ≤X ≤µ+σ]≈ 1
3.
– Environs95% des valeurs deXse trouvent `a moins de deux ´ecart-types de la moyenne : P[µ−2σ ≤X ≤µ+ 2σ]≈0.95.
– Environs99.7% des valeurs deXse trouvent `a moins de trois ´ecart-types de la moyenne : P[µ−3σ ≤X ≤µ+ 3σ]≈0.997.
Remarque 6.3. Au mˆeme temps, veuillez noter que la probabilit´e de l’´ev`enement qu’une variable normaleXprend une valeur particuli`ere quelconque, est toujours nulle :
P[X =a] = 0.
Il est facile `a comprendre pourquoi : on a toujours Z a
a
N(µ, σ)dx= 0.
6.3. Fonction de r´epartition (loi cumulative). Soit X une variable al´eatoire r´eelle. On d´efinit la fonction de r´epartition deXcomme suit : quel que soitt ∈R, on pose
F(t) =P[X ≤t].
En d’autres mots,
F(t) = Z t
−∞
f(x)dx, o`uf est la fonction de densit´e de la v.a.X.
On peut dire1que la fonction de densit´ef(x)est la d´eriv´ee de la fonction de r´epartition : f(x) = d
dxF(x).
La fonction de r´epartition est aussi dite la loi cumulative de distribution deX.
0 2 4 6 8 10
0.00.20.40.60.81.0
fonction de répartition de la distribution binômiale, N = 10, p = 0.5
x
probabilité cumulative
−3 −2 −1 0 1 2 3
0.00.20.40.60.81.0
Fonction de répartition de la distribution normale centrée réduite
x
probabilité cumulative
FIG. 3. Les fonctions de r´epartition (lois cumulatives) de la distribution binˆomiale (N = 10,p= 0.5), `a gauche, et normale centr´ee r´eduite, `a droite.
R Dans R commander, choisissez distributions →. . . → plot distribution, suivi par l’option Plot
distribution function dans la boˆıte de dialogue. R
La valeurF(t)est donc ce qu’on appelle la queue inf´erieure (lower tail) de la distribution deX `at.
Quels que soienta, b∈Rtels quea≤b, on a donc
P[a≤X ≤b] =F(b)−F(a).
Quelques propri´et´es de la fonction de r´epartition (distribution function, en anglais).
– On a toujours0≤F(t)≤1.
1En r´ed´efinissant la notion de la d´eriv´ee de fac¸on un peu plus raffin´ee que dans le cours de calcul...
– Sit ≤s, alorsF(t)≤F(s), c.`a.d., la fonctionF est croissante.
– Quandt ↓ −∞, on aF(t)↓0.
– Quandt ↑ ∞, on aF(t)↑1.
6.4. La statistique comme une science distincte de la th´eorie de probabilit´es. En th´eorie de probabilit´es, le cadre th´eorique consiste de l’espace fondamental, S, muni d’une famille de variables al´eatoiresX, Y, Z, . . ., d´efinies surS.
...
l’ensemble fondamental, S
R les variables aleatoires
X Y
Z
FIG. 4. Le cadre de la th´eorie de probabilit´es.
L’ensemble fondamentalS mod´elise la totalit´e de tous les ´ev`enements ´el´ementaires pos- sibles. Pourtant, dans la situation r´eelle, la plupart des valeurs des v.a. aux ´el´ements de S sont inaccessibles.
On a l’acces `a une collection — plus ou moins petite — des valeurs des variables al´eatoires en question aux points quelconquess1, s2, . . . , sn ∈Stir´e au hasard.
Une telle collection finie
s1, s2, . . . , sn, x1 =X(s1), x2 =X(s2), . . . , xn=X(sn), y1 =Y(s1), . . . , yn =Y(sn), . . . , s’appelle un ´echantillon des donn´ees. (Voir la figure 5).
On peut regarder l’´echantillon comme un espace fondamental “tout petit”. Mais c’est prin- cipalement le probl`eme dont la statistique s’occupe qui la met `a part de la th´eorie de la probabilit´es. Le probl`eme central de la statistique, c’est celui-ci : en ´etudiant l’´echantillon de donn´ees, en faire les conclusions plausibles concernant les propri´et´es des variables al´eatoires X, Y, Z, . . .sur la totalit´e de l’ensemble fondamentalS.
Bien ´evidemment, la statistique emploie des concepts, des r´esultats et le language mˆeme de la th´eorie de probabilit´e. N´eanmoins, c’est une science `a part de la th´eorie de probabilit´es.
Donc, on peut dire qu’on commence `a quitter la th´eorie des probabilit´es et `a penetrer le domaine de la statistique d`es lors qu’on parle d’´echantillons.
6.5. Deux exemples d’´echantillons.
l’echantillon de donnees
l’ensemble fondamental, S
R X
Y
Z ...
s1 s2
s3
... s n
y1x1 z 1 x2 . . . zn
FIG. 5. Le cadre de la statistique.
6.5.1. Voici les r´esultats d’une ´etude de la croissance de radis apr`es 3 jours `a l’obscurit´e totale (en millim`etres).
15 20 11 30 33
20 29 35 8 10
22 37 15 25
La taille de l’´echantillon est n = 14. Les valeurs de la variable al´eatoire X qui mesure la croissance sont
x1 = 15, x2 = 20, x3 = 11, . . . , x13= 15, x14= 25.
Cet ´echantillon est dit quantitative, ou num´erique, car il correspond `a une v.a. r´eelle.
6.5.2. On ´etudie la pigmentation noire en poissons. L’´echantillon consiste den = 154pois- sons, class´es selon le degr´e de la pigmentation noire pr´esente.
degr´e de la pigmentation nombre de sujets
aucune 13
l´eg`ere 68
mod´er´ee 44
forte 21
noire solide 8
total 154
La taille de cet ´echantillon est n = 154sujets (poissons). Cet ´echantillon n’est pas visi- blement quantitative. Plutˆot, c’est un exemple d’un ´echantillon qualitative, ou cat´egorique.
Cela veut dire que des valeurs possibles de la variable al´eatoire ne sont pas des nombres r´eels, mais plutˆot les classes dont la nature n’est pas num´erique. Au mˆeme temps, dans cet exemple il y a un ordre entre les classes, qui sont rang´ees de mani`ere naturelle comme suit :
aucune pigmentation≺pigmentation l´eg`ere≺mod´er´ee≺forte≺noire solide.
Dans ce cas, on dit que l’´echantillon est semi-quantitative, ou bien ordinale. Les tailles des classes sont appel´ees les effectifs.
Si les valeurs d’une variable sont, par exemple, Garc¸ons et Filles, alors il n’y a aucun ordre possible entre eux, et dans ce cas-l`a il s’agit d’un ´echantillon qualititative non-ordinale.
6.6. Param`etres statistiques des variables cat´egoriques. L’´echantillon de pigmentation noire en poissons peut ˆetre repr´esent´e par un diagramme en bˆatons (bar chart) suivant.
aucune legere moderee forte noire solide
010203040506070
FIG. 6. Le diagramme en bˆatons repr´esentant le degr´e de pigmentation.
R Pour cr´eer le diagramme, j’ai utilis´e l’invite de commande de R plutˆot que R commander. D’abord, j’ai cr´e´e le vecteur des effectifs que j’ai appel´e effectifs :
> effectifs =c(13,68,44,21,8)
Apr`es quoi, j’ai cr´e´e le vecteur des noms des classes (modalit´es) :
> noms =c("aucune", "legere","moderee","forte","noire solide") Finalement, la commande suivante produit le diagramme :
barplot(effectifs,names.arg = noms)
R La hauteur ni les bˆatons correspond `a la taille de chaque classe (o`u de la modalit´e) cor- respondante, i. Chaque nombreni est appel´e l’effectif de la classe. L’effectif de la classe de
pigmentation l´eg`ere, par exemple, est ´egal `anl´eg`ere = 68. Cette classe est la plus nombreuse.
Elle est dite la classe modale. La classe modale est la classe dont l’effectif est le plus ´elev´e.
On ne peut pas associer `a une variable cat´egorique les param`etres comme la moyenne, la variance, et cetera.
6.7. Param`etres statistiques des variables quantitatives (num´eriques). Pour les variables quantitatives, les param`etres statistiques sont nombreux.
6.7.1. Moyenne, variance, ´ecart-type. D’abord, on a la notion de la moyenne et de la va- riance de l’´echantillon. Elles sont calcul´ees en traitant l’´echantillon comme un ensemble fondamental muni des variables al´eatoires.
Par exemple, dans l’exemple 6.5.1 la moyenne est ´egale `a la moyenne arithm`etique des valeursxi,i= 1,2, . . . ,14.
R Pour calculer la moyenne avec R, on cr´ee d’abord le vecteur de toutes les14valeurs, et utilise la commande mean :
> x = c(15, 20,11,30,33,20,29,35,8,10,22,37,15,25)
> mean(x) [1] 22.14286
De mˆeme fac¸on, la variance est calcul´ee avec l’aide de la commande var, et l’´ecart-type, avec la commande sd (de standard deviation) :
> var(x) [1] 92.5934
> sd(x) [1] 9.622547
R 6.7.2. M´ediane. La valeurM est dite m´ediane pour une variable al´eatoireX, si la probabi- lit´e de l’´ev`enement[X ≤M]est plus grande ou ´egale `a0.5, et la probabilit´e de l’´ev`enement [X ≥M]est aussi plus grande ou ´egale `a0.5.
Pour calculer la m´ediane d’une suite de valeurs x1, x2, . . . , xn, on range les valeurs en ordre grandissant.
R Par exemple, avec R, on utilise la commande sort :
> sort(x)
[1] 8 10 11 15 15 20 20 22 25 29 30 33 35 37
R Si la taillende l’´echantillon est impaire,n= 2m+1, alors la m´ediane est ´egale au nombre au milieu de la liste :
M =xm+1.
Si n est paire, n = 2m, alors la m´ediane n’est pas unique. D’habitude, on choisit comme M la moyenne arithm´etique dexm et xm+1. Dans notre cas, n = 14, m = 7, m+ 1 = 8, x7 = 20,x8 = 22, donc la m´edianeM = (20 + 22)/2 = 21.
R Bien sˆur, on peut toujours calculer la m´ediane directement avec R :
> median(x) [1] 21
R 6.7.3. Quartiles. Il y en a trois, not´es Q1, Q2, Q3. Le deuxi`eme quartile, Q2, est tout sim- plement la m´ediane. La premi`ere,Q1, est un nombre tel que
P[X ≤Q1]≥ 1 4 et
P[X ≥Q1]≥ 3 4.
Une fois de plus, ce nombre-l`a n’est pas unique, et le choix est fait semblablement au choix deM.
Le troisi`eme quartileQ3 est un nombre tel que P[X ≥Q3]≥ 1
4 et
P[X ≤Q3]≥ 3 4.
Exemple 6.4. Trouvons les quartiles du radis, en utilisant le rangement de l’´echantillon. On a14/4 = 3.5, doncQ1 = 15:
P[xi ≤15] =P{810111515}= 5
14 = 35.7%> 1 4, et aussi
P[xi ≥15] =P{1515202022252930333537}= 11
14 = 78.6%> 3 4. On sait d´ej`a que
Q2 =M = 21, et on trouve facilement que
Q3 = 30.
La boˆıte `a moustaches (boxplot) est une repr´esentation visuelle utile des quartiles.
R Pour le radis, on obtient la boˆıte `a moustaches en tapant `a l’invite de commandes :
> boxplot(x, horizontal = TRUE)
C’est sous la forme horisontale que le nom s’explique — il n’y a pas de moustaches si on mettre la
boˆıte verticalement, comme on le fait d’habitude ! R
En bref, le carr´e au centre du diagramme est d´elimit´e par les premi`ere et troisi`eme quar- tiles, avec la ligne au milieu repr´esentant la m´ediane (le deuxi`eme quartile). Les “mousta- ches” vont jusqu’`a la valeur le plus proche `a la valeur `a la distance 1.5 fois la largeur du
10 15 20 25 30 35
10 20 30 40 50 60 70
FIG. 7. La boˆıte `a moustache pour la croissance de radis (en haut) ; de mˆeme, avec deux valeurs extrˆemes rajout´ees (en bas).
carr´e. Toutes les valeurs au-dehors de “moustache” sont repr´esent´ees par les ronds vides, et sont g´en´eralement consider´ee comme extrˆemes (outliers). Par exemple, si on rajoute `a l’´echantillon des valeurs deux valeurs extrˆemes telles que50et70par exemple, on peut voir ce qu’on obtiendra comme boˆıte `a moustache sur le diagramme 7, en bas.
Veuillez lire une explication excellente de la signification de la boˆıte `a moustaches dans le manuel R pour les sociologues du M. Barnier, sur les pages 24–26.