Introduction `a la biostatistique – Mat 2779

(1)

L’´et´e 2010 Cours 10 — le 15 juin

10.1. Manuel de cours. La librairie de notre Université a malheureusement abandonné ses efforts pour se procurer des manuels de cours français suggérés par moi. Sous ces circons- tances, je croix que la meuilleure solution pour nous, voire le seul choix, c’est d’adopter le texte anglais : “Statistics for the life sciences” par Samuels et Witmer. Il y’en a des nom- breuses copies usagées disponibles. Donc, je suggère l’achat de ce livre, avec ses plusieurs exercices.

10.2. Le calcul de la note finale. Si votre note à l’examen final est inférieure 45%, votre lettre finale pour le cours sera un F. Si vous avez manqué 2 devoirs ou plus, la note finale sera 60 % examen final plus 30% l’examen partiel plus 10 % devoirs. Autrement, votre note finale pour l’ensemble du cours sera le maximum d’entre :

– 60 % examen final plus 30% l’examen partiel plus 10 % devoirs, ou – 70 % examen final plus 30% partiel, ou

– 90 % examen final plus 10 % devoirs, ou – 100 % l’examen final.

10.3. Convergence d’estimateurs. Soient θ un paramètre probabiliste quelconque, T un paramètre statistique estimantθ, c.à.d. un estimateur deθ. On regardeT comme une variable aléatoire : quel que soit échantillonx={x¹, x², . . . , xⁿ}, on peut calculer la valeurt =T(x) de l’estimateurT pour cet échantillon particulier, et pour les différents échantillonsx, x^′ les valeurs corréspondantest, t^′ deT seront, en général, légérement différentes. Ici l’expérience aléatoire est le tirage d’échantillonx. La valeurt=T(x)est dite aussi estimation ponctuelle deθ.

Vraisemblablement l’exemple le plus fondamental de cette situation est le cas où θ est l’espérance mathématique d’une variable aléatoire numérique, tandis que t est la moyenne arithmétique d’échantillon.

Définition 10.1. On dit que l’estimateurT converge (plus précisement : converge en proba- bilité) versθsi, quels que soientα, i >0, on a

P[|T(X)−θ|< i]>1−α,

pourvu que la taille d’´echantillon,n, est suffisamment grande. N Le r´esultat suivant (que nous ne montrons pas) forme une source des exemples d’estimateurs convergents.

1

(2)

Th´eor`eme 10.2. Supposons que

(10.1) E(T)→θquandn → ∞

et

(10.2) var(T)→0quandn→ ∞.

Alors l’estimateurT converge en probabilit´e versθ.

Remarque 10.3. La convergence dans les équations (10.1) et (10.2) est la convergence usuelle des valeurs d’une suite des nombres réels vers un nombre réel. Plus précisement, pour chaque n = 1,2,3, . . .(la taille d’échantillon) la valeurE(T)est un nombre fixe, et quand n tend vers l’infini, les valeurs corréspondantes deE(T)forment une suite des nombres. De même, pour var(T).

Notonsµl’espérance mathématique etσ²la variance d’une variable aléatoire numérique.

Soit X la variable aléatoire du tirage d’échantillon. Notons X¯ la variable aléatoire de la moyenne deX. En d’autres mots, sis∈Xest un évènement élémentaire, alorsX(s) =x= {x¹, x², . . . , xⁿ}est un échantillon tiré au sort, et

X(s) = ¯¯ x= x¹ +x²+. . .+xⁿ n

et la moyenne arithmétique de cet échantillon. On a le résultat suivant.

Th´eor`eme 10.4. E( ¯X) =µet var( ¯X) =σ²/n.

Remarque 10.5. L’écart-type de la v.a.X¯ (la moyenne) est égal donc àσ/√n. N On en déduit immédiatement :

Théorème 10.6 (Loi de grandes nombres). La moyenne arithmétique d’échantillon converge

en probabilité vers l’espérance mathématiqueµ.

On dit aussi que la moyenne est un estimateur sans biais pour l’esp´erance math ´matique.

Remarque 10.7. Rappellons ques² note la variance d’´echantillon : s² = (x1−x)¯ ²+ (x2−x)¯ ²+. . .+ (xⁿ−x)¯ ²

n−1 .

La quantités²/nest appelée la variance de la moyenne d’échantillon et notées²M : s²M = s²

n.

C’est un estimateur de var( ¯X) =σ²/n. N

(3)

10.4. Intervalle de pari. Maintenant le problème pratique qui nous intéresse, c’est le sui- vant : étant donnéi, α > 0, estimer la valeur deN tel que, une fois la taille d’échantillonn dépasseN, on a

P[|X¯ −µ|< i]>1−α.

Un tel valeur existe grâce au thérème 10.6, mais pour faire de la statistique, on a évidemment besoin de la calculer à partir dei >0(le risque) etα >0(la probabilité).

L’outil puissant est fourni par le théorème central limite (parfois aussi appelé le théorème de la limite centrale ; Central Limit Theorem, ou bien CLT, en anglais).

Théorème 10.8 (Théorème central limite). La taille d’échantillon,n, étant fixée, la moyenne X¯ respecte approximativement une loi de probabilité normale, l’approximation étant d’au-

tant meuilleure quenest plus grand.

Si on remplace la v.a.X¯ avec sa version centr´ee r´eduite, U = X¯ −µ

σ/√ n, alors on a, approximativement,

U ∼N(0,1).

Par suite, étant donné une probabilité α > 0(telle que, par exemple, α = 0,05), on peut trouver la valeur réellea >0avec la propriété

P[−a≤U ≤a] = 1−α,

en utilisant le fait queU suit approximativement la loi normale. Ceαest égal à la somme de la queue supérieure et la queue inférieure de la loi normale qui corréspondent à±a.

Cet intervalle[−a, a]est dit intervalle de pari, ou intervalle de pr´ecision, pour la variable U. On peut se parier, avant l’observation, queU prendra une valeur dans l’intervalle[−a, a], et la probabilit´e de perdre,α, est faible.

L’intervalle de pari peut ˆetre traduit facilement `a l’intervalle de pari pour la variableX¯ (la moyenne). On a :

−a ≤U ≤a ⇐⇒ −a ≤ X¯ −µ σ/√

n ≤a

⇐⇒ −aσ

√n ≤X¯ −µ≤ aσ

√n

⇐⇒ µ− aσ

√n ≤X¯ ≤µ+ aσ

√n

⇐⇒ µ−aσ^M ≤X¯ ≤µ+aσ^M, oùσ^M est l’écart-type théorique de la moyenne :

σ^M = σ

√n.

(4)

Donc, l’intervalle de pari pourX¯ est

[µ−aσ^M, µ+aσ^M].

10.5. Théorème centrale limite : une petite exploration avec R. La loi de distribution uniforme sur l’intervalle[0,1]a la fonction constantef(x)≡1comme la fonction de densité.

En d’autres mots, quels que soient0≤a≤b≤1, on a P[a≤X ≤b] =b−a.

La fonction de r´epartition de la loi uniforme est lin´eaire :

F(t) =







0, sit ≤0, t, si1≤t≤b, 1, sit ≤1.

Tirons n = 1000 points au hasard de la distribution uniforme et construisons l’histogramme de leur distribution :

> x <- runif(1000)

> hist(x)

La façon de faire la même chose avec R commander et de choisir Distributions→conti- nuous distributions →uniform distribution →sample from uniform distribution. Nommez l’échantillonx, pour la simplicité. Posez le nombre des colonnes= 1000. Pour créer l’histogramme, tapez la commande suivante :

hist(t(x))

(Cette commande transposexen vecteur-colonne ; car R commander créexcomme data.frame, pour une étrange raison la fonction hist n’acceptexque sous la forme transposée).

Voir la figure 1. Il y a des fluctuations évidentes, les effectifs de chaque sous-intervalle sont légèrement différents entre eux.

On va maintenant tirer au hasard un ´echantillon x={x¹, . . . , x⁵}

de cinq nombres de la distribution uniforme, et calculer leur moyenne :

¯

x= x¹+x²+x³+x⁴ +x⁵

5 .

Bien sûr la moyenne de la distribution uniforme sur[0,1]est égale à µ= 0.5,

donc la valeur dex¯sera proche `a0.5, mais il y aura toujours des fluctuations autour de0.5.

C’est exactement ce genre de choses qui se produit :

> x <- runif(5)

> x

[1] 0.6305619 0.4361355 0.4941666 0.9541813 0.0939425

> mean(x)

(5)

Histogram of x

x

Frequency

0.0 0.2 0.4 0.6 0.8 1.0

020406080100

FIG. 1. L’histogramme de la distribution des 1000 valeurs aléatoires dis- tribuées sur l’intervalle[0,1]uniformément.

[1] 0.5217976

On peut répéter la même expérience aléatoire et obtenir un autre résultat :

> x <- runif(5)

> x

[1] 0.3214502 0.5242007 0.9556972 0.9184364 0.8147624

> mean(x) [1] 0.7069094

Ici, la fluctuation (le biais) de la valeur d’´estimateur est assez grande !

Maintenant répétons la même expérience10,000fois. Bien sûr qu’il y a des moyens plus efficaces que cela pour executer cette idée. Cette fois, on crée un objet data.frame avec 5 lignes et10,000colonnes, où chaque colonne coréspond à un échantillon de5valeurs. On a besoin d’un objet du type data.frame et pas une matrice parce que la fonction mean calcule la moyenne d’un data.frame colonne par colonne, en d’autres mots, pour chaque échantillon séparamment, qui est précisement se que nous voulons. La moyenne d’une matrice est cal- culé pour toutes les valeurs qui s’y trouvent, c’est la moyenne de tous les coefficients. Pour créer un tel data.frame, utilisez soit R commander, soit l’invite de commandes, en tapant :

> x <- as.data.frame(matrix(runif(10*10000), ncol = 10000)) Calculez le vecteurmdes moyennes des tous les ´echantillons :

> m = mean(x)

> length(m) [1] 10000

(6)

moyenne d’échantillon

densité

0.2 0.3 0.4 0.5 0.6 0.7 0.8

01234

FIG. 2. L’histogramme de la distribution des moyennes de 10000

échantillons de taillen = 5tirées de l’intervalle[0,1]uniformément.

Maintenant on crée l’histogramme de la distribution des moyennes d’échantillon. Ici, c’est une bonne idée de créer l’histogramme de densités, plutôt que des effectifs (fréquences) :

> hist(m, probability = TRUE)

Voir la figure 2. La distribution ressemble la loi normale. Pour le vérifier, on superimpose le graphe d’une loi normale, ayant la même moyenne et le même écart-type que le vecteur des moyennes,m. Notamment, il faut engendrer un vecteur des valeurs de premier argument (la grille),

> y = seq(0,1,length=100)

calculez les valeurs de la fonction gausienneN(E(m), σ(m))aux points dey,

> z = dnorm(y, mean = mean(m), sd = sd(m))

et finalement rajouter le graphe deN(E(m), σ(m))`a notre histogramme :

> lines(y,z)

On obtient le diagramme 3, à gauche. Le sommet de la fonction gaussienne manque. Pour corriger cette omission, on revient à l’histogramme et change les limites de l’axe des or- données, par exemple comme suit :

> hist(m, probability = TRUE, ylim=c(0,4.5))

> lines(y,z)

Le r´esultat, sur le diagramme 3 `a la droite, est plus satisfaisant.

Et l’histogramme suit la loi normale très bien. Le théorème limite centrale fonctionne même pour une taille d’échantillon très petite telle quen = 5.

(7)

densité

0.2 0.3 0.4 0.5 0.6 0.7 0.8

01234

densité

0.2 0.3 0.4 0.5 0.6 0.7 0.8

01234

FIG. 3. L’histogramme de la distribution des moyennes de 10000

échantillons, avec la fonction gausienne des mêmes paramètres, avant et après la correction des limites dey.

Exercice 10.9. Faites la mˆeme exp´erience avecn= 20.

Exercice 10.10. La même expérience, à partir de la distribution exponentielle.

0.0 0.2 0.4 0.6 0.8 1.0

−0.8−0.6−0.4−0.20.00.2

y

z

FIG. 4. Le graphe de la fonctionf(x) = cos(10x)×x³.

(8)

Exercice 10.11. Choisissez une fonctionf r´eelle quelconque, par exemple, f(x) = cos(10x)×x³.

> y = seq(0,1,length=100)

> z = cos(10*y)*yˆ3

> plot(y,z,type="l") (Voir la figure 4).

SiX est une variable aléatoire que prend ses valeurs dans l’intervalle[0,1]suivant la loi uniforme, alors f(X) est une variable aléatoire aussi, dont la distribution est assez com- pliquée. Faire la même expérience à partir de la loi de distribution de cette f(X). Sugges- tion : utilisez le mêmextiré au hasard de la distribution uniforme, après quoi appliquez votre fonction àxpour créer une famille d’échantillons tirés de la loi de distribution def(X). Par exemple, dans mon cas, on tape :

x1 <- cos(10*x)*xˆ3

Maintenant on suit le mˆeme chemin.