L’´et´e 2010 Cours 10 — le 15 juin
10.1. Manuel de cours. La librairie de notre Universit´e a malheureusement abandonn´e ses efforts pour se procurer des manuels de cours franc¸ais sugg´er´es par moi. Sous ces circons- tances, je croix que la meuilleure solution pour nous, voire le seul choix, c’est d’adopter le texte anglais : “Statistics for the life sciences” par Samuels et Witmer. Il y’en a des nom- breuses copies usag´ees disponibles. Donc, je sugg`ere l’achat de ce livre, avec ses plusieurs exercices.
10.2. Le calcul de la note finale. Si votre note `a l’examen final est inf´erieure 45%, votre lettre finale pour le cours sera un F. Si vous avez manqu´e 2 devoirs ou plus, la note finale sera 60 % examen final plus 30% l’examen partiel plus 10 % devoirs. Autrement, votre note finale pour l’ensemble du cours sera le maximum d’entre :
– 60 % examen final plus 30% l’examen partiel plus 10 % devoirs, ou – 70 % examen final plus 30% partiel, ou
– 90 % examen final plus 10 % devoirs, ou – 100 % l’examen final.
10.3. Convergence d’estimateurs. Soient θ un param`etre probabiliste quelconque, T un param`etre statistique estimantθ, c.`a.d. un estimateur deθ. On regardeT comme une variable al´eatoire : quel que soit ´echantillonx={x1, x2, . . . , xn}, on peut calculer la valeurt =T(x) de l’estimateurT pour cet ´echantillon particulier, et pour les diff´erents ´echantillonsx, x′ les valeurs corr´espondantest, t′ deT seront, en g´en´eral, l´eg´erement diff´erentes. Ici l’exp´erience al´eatoire est le tirage d’´echantillonx. La valeurt=T(x)est dite aussi estimation ponctuelle deθ.
Vraisemblablement l’exemple le plus fondamental de cette situation est le cas o`u θ est l’esp´erance math´ematique d’une variable al´eatoire num´erique, tandis que t est la moyenne arithm´etique d’´echantillon.
D´efinition 10.1. On dit que l’estimateurT converge (plus pr´ecisement : converge en proba- bilit´e) versθsi, quels que soientα, i >0, on a
P[|T(X)−θ|< i]>1−α,
pourvu que la taille d’´echantillon,n, est suffisamment grande. N Le r´esultat suivant (que nous ne montrons pas) forme une source des exemples d’estima- teurs convergents.
1
Th´eor`eme 10.2. Supposons que
(10.1) E(T)→θquandn → ∞
et
(10.2) var(T)→0quandn→ ∞.
Alors l’estimateurT converge en probabilit´e versθ.
Remarque 10.3. La convergence dans les ´equations (10.1) et (10.2) est la convergence usuelle des valeurs d’une suite des nombres r´eels vers un nombre r´eel. Plus pr´ecisement, pour chaque n = 1,2,3, . . .(la taille d’´echantillon) la valeurE(T)est un nombre fixe, et quand n tend vers l’infini, les valeurs corr´espondantes deE(T)forment une suite des nombres. De mˆeme, pour var(T).
Notonsµl’esp´erance math´ematique etσ2la variance d’une variable al´eatoire num´erique.
Soit X la variable al´eatoire du tirage d’´echantillon. Notons X¯ la variable al´eatoire de la moyenne deX. En d’autres mots, sis∈Xest un ´ev`enement ´el´ementaire, alorsX(s) =x= {x1, x2, . . . , xn}est un ´echantillon tir´e au sort, et
X(s) = ¯¯ x= x1 +x2+. . .+xn n
et la moyenne arithm´etique de cet ´echantillon. On a le r´esultat suivant.
Th´eor`eme 10.4. E( ¯X) =µet var( ¯X) =σ2/n.
Remarque 10.5. L’´ecart-type de la v.a.X¯ (la moyenne) est ´egal donc `aσ/√n. N On en d´eduit imm´ediatement :
Th´eor`eme 10.6 (Loi de grandes nombres). La moyenne arithm´etique d’´echantillon converge
en probabilit´e vers l’esp´erance math´ematiqueµ.
On dit aussi que la moyenne est un estimateur sans biais pour l’esp´erance math ´matique.
Remarque 10.7. Rappellons ques2 note la variance d’´echantillon : s2 = (x1−x)¯ 2+ (x2−x)¯ 2+. . .+ (xn−x)¯ 2
n−1 .
La quantit´es2/nest appel´ee la variance de la moyenne d’´echantillon et not´ees2M : s2M = s2
n.
C’est un estimateur de var( ¯X) =σ2/n. N
10.4. Intervalle de pari. Maintenant le probl`eme pratique qui nous int´eresse, c’est le sui- vant : ´etant donn´ei, α > 0, estimer la valeur deN tel que, une fois la taille d’´echantillonn d´epasseN, on a
P[|X¯ −µ|< i]>1−α.
Un tel valeur existe grˆace au th´er`eme 10.6, mais pour faire de la statistique, on a ´evidemment besoin de la calculer `a partir dei >0(le risque) etα >0(la probabilit´e).
L’outil puissant est fourni par le th´eor`eme central limite (parfois aussi appel´e le th´eor`eme de la limite centrale ; Central Limit Theorem, ou bien CLT, en anglais).
Th´eor`eme 10.8 (Th´eor`eme central limite). La taille d’´echantillon,n, ´etant fix´ee, la moyenne X¯ respecte approximativement une loi de probabilit´e normale, l’approximation ´etant d’au-
tant meuilleure quenest plus grand.
Si on remplace la v.a.X¯ avec sa version centr´ee r´eduite, U = X¯ −µ
σ/√ n, alors on a, approximativement,
U ∼N(0,1).
Par suite, ´etant donn´e une probabilit´e α > 0(telle que, par exemple, α = 0,05), on peut trouver la valeur r´eellea >0avec la propri´et´e
P[−a≤U ≤a] = 1−α,
en utilisant le fait queU suit approximativement la loi normale. Ceαest ´egal `a la somme de la queue sup´erieure et la queue inf´erieure de la loi normale qui corr´espondent `a±a.
Cet intervalle[−a, a]est dit intervalle de pari, ou intervalle de pr´ecision, pour la variable U. On peut se parier, avant l’observation, queU prendra une valeur dans l’intervalle[−a, a], et la probabilit´e de perdre,α, est faible.
L’intervalle de pari peut ˆetre traduit facilement `a l’intervalle de pari pour la variableX¯ (la moyenne). On a :
−a ≤U ≤a ⇐⇒ −a ≤ X¯ −µ σ/√
n ≤a
⇐⇒ −aσ
√n ≤X¯ −µ≤ aσ
√n
⇐⇒ µ− aσ
√n ≤X¯ ≤µ+ aσ
√n
⇐⇒ µ−aσM ≤X¯ ≤µ+aσM, o`uσM est l’´ecart-type th´eorique de la moyenne :
σM = σ
√n.
Donc, l’intervalle de pari pourX¯ est
[µ−aσM, µ+aσM].
10.5. Th´eor`eme centrale limite : une petite exploration avec R. La loi de distribution uniforme sur l’intervalle[0,1]a la fonction constantef(x)≡1comme la fonction de densit´e.
En d’autres mots, quels que soient0≤a≤b≤1, on a P[a≤X ≤b] =b−a.
La fonction de r´epartition de la loi uniforme est lin´eaire :
F(t) =
0, sit ≤0, t, si1≤t≤b, 1, sit ≤1.
Tirons n = 1000 points au hasard de la distribution uniforme et construisons l’histo- gramme de leur distribution :
> x <- runif(1000)
> hist(x)
La fac¸on de faire la mˆeme chose avec R commander et de choisir Distributions→conti- nuous distributions →uniform distribution →sample from uniform distribution. Nommez l’´echantillonx, pour la simplicit´e. Posez le nombre des colonnes= 1000. Pour cr´eer l’histo- gramme, tapez la commande suivante :
hist(t(x))
(Cette commande transposexen vecteur-colonne ; car R commander cr´eexcomme data.frame, pour une ´etrange raison la fonction hist n’acceptexque sous la forme transpos´ee).
Voir la figure 1. Il y a des fluctuations ´evidentes, les effectifs de chaque sous-intervalle sont l´eg`erement diff´erents entre eux.
On va maintenant tirer au hasard un ´echantillon x={x1, . . . , x5}
de cinq nombres de la distribution uniforme, et calculer leur moyenne :
¯
x= x1+x2+x3+x4 +x5
5 .
Bien sˆur la moyenne de la distribution uniforme sur[0,1]est ´egale `a µ= 0.5,
donc la valeur dex¯sera proche `a0.5, mais il y aura toujours des fluctuations autour de0.5.
C’est exactement ce genre de choses qui se produit :
> x <- runif(5)
> x
[1] 0.6305619 0.4361355 0.4941666 0.9541813 0.0939425
> mean(x)
Histogram of x
x
Frequency
0.0 0.2 0.4 0.6 0.8 1.0
020406080100
FIG. 1. L’histogramme de la distribution des 1000 valeurs al´eatoires dis- tribu´ees sur l’intervalle[0,1]uniform´ement.
[1] 0.5217976
On peut r´ep´eter la mˆeme exp´erience al´eatoire et obtenir un autre r´esultat :
> x <- runif(5)
> x
[1] 0.3214502 0.5242007 0.9556972 0.9184364 0.8147624
> mean(x) [1] 0.7069094
Ici, la fluctuation (le biais) de la valeur d’´estimateur est assez grande !
Maintenant r´ep´etons la mˆeme exp´erience10,000fois. Bien sˆur qu’il y a des moyens plus efficaces que cela pour executer cette id´ee. Cette fois, on cr´ee un objet data.frame avec 5 lignes et10,000colonnes, o`u chaque colonne cor´espond `a un ´echantillon de5valeurs. On a besoin d’un objet du type data.frame et pas une matrice parce que la fonction mean calcule la moyenne d’un data.frame colonne par colonne, en d’autres mots, pour chaque ´echantillon s´eparamment, qui est pr´ecisement se que nous voulons. La moyenne d’une matrice est cal- cul´e pour toutes les valeurs qui s’y trouvent, c’est la moyenne de tous les coefficients. Pour cr´eer un tel data.frame, utilisez soit R commander, soit l’invite de commandes, en tapant :
> x <- as.data.frame(matrix(runif(10*10000), ncol = 10000)) Calculez le vecteurmdes moyennes des tous les ´echantillons :
> m = mean(x)
> length(m) [1] 10000
moyenne d’échantillon
densité
0.2 0.3 0.4 0.5 0.6 0.7 0.8
01234
FIG. 2. L’histogramme de la distribution des moyennes de 10000
´echantillons de taillen = 5tir´ees de l’intervalle[0,1]uniform´ement.
Maintenant on cr´ee l’histogramme de la distribution des moyennes d’´echantillon. Ici, c’est une bonne id´ee de cr´eer l’histogramme de densit´es, plutˆot que des effectifs (fr´equences) :
> hist(m, probability = TRUE)
Voir la figure 2. La distribution ressemble la loi normale. Pour le v´erifier, on superimpose le graphe d’une loi normale, ayant la mˆeme moyenne et le mˆeme ´ecart-type que le vecteur des moyennes,m. Notamment, il faut engendrer un vecteur des valeurs de premier argument (la grille),
> y = seq(0,1,length=100)
calculez les valeurs de la fonction gausienneN(E(m), σ(m))aux points dey,
> z = dnorm(y, mean = mean(m), sd = sd(m))
et finalement rajouter le graphe deN(E(m), σ(m))`a notre histogramme :
> lines(y,z)
On obtient le diagramme 3, `a gauche. Le sommet de la fonction gaussienne manque. Pour corriger cette omission, on revient `a l’histogramme et change les limites de l’axe des or- donn´ees, par exemple comme suit :
> hist(m, probability = TRUE, ylim=c(0,4.5))
> lines(y,z)
Le r´esultat, sur le diagramme 3 `a la droite, est plus satisfaisant.
Et l’histogramme suit la loi normale tr`es bien. Le th´eor`eme limite centrale fonctionne mˆeme pour une taille d’´echantillon tr`es petite telle quen = 5.
moyenne d’échantillon
densité
0.2 0.3 0.4 0.5 0.6 0.7 0.8
01234
moyenne d’échantillon
densité
0.2 0.3 0.4 0.5 0.6 0.7 0.8
01234
FIG. 3. L’histogramme de la distribution des moyennes de 10000
´echantillons, avec la fonction gausienne des mˆemes param`etres, avant et apr`es la correction des limites dey.
Exercice 10.9. Faites la mˆeme exp´erience avecn= 20.
Exercice 10.10. La mˆeme exp´erience, `a partir de la distribution exponentielle.
0.0 0.2 0.4 0.6 0.8 1.0
−0.8−0.6−0.4−0.20.00.2
y
z
FIG. 4. Le graphe de la fonctionf(x) = cos(10x)×x3.
Exercice 10.11. Choisissez une fonctionf r´eelle quelconque, par exemple, f(x) = cos(10x)×x3.
> y = seq(0,1,length=100)
> z = cos(10*y)*yˆ3
> plot(y,z,type="l") (Voir la figure 4).
SiX est une variable al´eatoire que prend ses valeurs dans l’intervalle[0,1]suivant la loi uniforme, alors f(X) est une variable al´eatoire aussi, dont la distribution est assez com- pliqu´ee. Faire la mˆeme exp´erience `a partir de la loi de distribution de cette f(X). Sugges- tion : utilisez le mˆemextir´e au hasard de la distribution uniforme, apr`es quoi appliquez votre fonction `axpour cr´eer une famille d’´echantillons tir´es de la loi de distribution def(X). Par exemple, dans mon cas, on tape :
x1 <- cos(10*x)*xˆ3
Maintenant on suit le mˆeme chemin.