Introduction `a la biostatistique – Mat 2779

(1)

L’´et´e 2010

Cours 4 — le jeudi 13 mai

4.1. Lecture sugg´er´ee. Biostatistique sous la direction de Beuscart, 1.3.4, 1.3.5, 1.3.6, 1.3.7 (en partie), 1.3.8.

4.2. L’esperance d’une variable aléatoire. Voici une petite introduction. Rappellons que la moyenne arithmétique d’une collection finie des valeurs numériques, x¹, x², . . . , xn, est une valeur très bien connue :

µ = 1

n (x1+x2+. . .+xn)

= 1

nx¹ + 1

nx²+. . .+ 1 nxn. (4.1)

Maintenant, si on regarde x¹, x², . . . , xn comme des valeurs équiprobables d’une variable aléatoireX, alors la probabilité de chacune est1/n, et l’expression (4.1) devient une somme pondérée, où chaque valeurxiest assignée son poids,1/n.

Vue sous cet angle, la définition se rend facilement à une généralisation pour toutes les variables aléatoires discrètes qui ne sont plus forcément équiprobables : on remplace chaque expression1/npar la probabilitéf(xi)corréspondante dexi.

Définition 4.1. SoitX une variable aléatoire discrète dont les valeurs possibles sont x¹, x², . . . , xn.

Soitfla fonction de densité de distribution deX. Alors la moyenne, ou espérance mathématique, deXest la valeur numérique

EX =f(x¹)x¹+f(x²)x²+. . .+f(xn)xn. Parfois on note l’esp´erance deXpar

µ=EX, ou bienX.¯

Exemple 4.2. L’espérance mathématique de la variableX de l’exemple 3.16 est égale à EX = 1

4×0 + 1

2 ×1 + 1

4 ×2 = 1.

1

(2)

Th´eor`eme 4.3.

E(X+Y) = E(X) +E(Y).

E(kX) =kE(X).

E(k) =k.

Pour une d´emonstration, voir Biostatistique sous la direction de Beuscart.

Remarque 4.4. En g´en´eral,

E(XY)6=EXEY.

Cette observation, et bien d’autres, peuvent être comprises facilement en vue de l’observation suivante extrêmement utile : l’espérance mathématique est une espèce de l’intégral. Je dirais que l’intégral familière,

Z b

a

f(x)dx, et l’esp´erance

EX sont autant pr`es l’une `a l’autre que le chat et le tigre.¹

4.3. La variance et l’écart-type d’une variable aléatoire. La variance sert à caractériser la mesure de dispersion d’une variable aléatoireX autour de sa moyenne.

Définition 4.5. SoitX une variable aléatoire. La variance deXest la valeur numérique varX = E(X−EX)²

= E(X−µ)².

Pour comprendre pourquoi il y a un exposant de2, il faut comparer la variance avec son racine carr´ee, l’´ecart-type deX :

σ(X) = p

var(X)

= p

E(X−µ)². (4.2)

(En anglais : standard deviation).

L’écart-type est une vrai distance entre X et sa moyenne, µ. On peut bien sûr définir beaucoup de distances différentes, mais parmi eux la distance la plus utile et possédant les propriétés géometriquement les plus parfaites est la distance euclidienne. Par exemple, la distance euclidienne entre deux pointsx = (x1, x2, x3)ety= (y1, y2, y3)de l’espaceR³ de dimension trois est donnée par

d(x, y) = p

(x¹−y¹)²+ (x²−y²)²+ (x³ −y³)².

Nous avons la racine carrée d’une somme des carrés des diférences entre les coordonnées.

En d’autres mots, on prend la différence de deux vecteurs, x− y, on forme la puissance des toutes les coordinnées, on additionne les trois nombres, et extrait la racine carrée. La

1Je ne sais pas quelle parmi eux est le chat, ou plutˆot la chatte...

(3)

somme sous la racine carrée est une analogue de l’intégrale, c.à.d. de l’espérance E. Donc, l’analogue complète de la distance euclidienne est obtenu en formant la différence entre X −EX, en construisant son carré, en prenant l’espérance de cette valeur, et en extrayant la racine carré. C’est précisement la définition de l’écart-type. Enfin, la variance n’est que lécart-type puissance deux. Voilà une explication intuitive de l’origine de la formule (4.2).

Exemple 4.6. Calculons diréctement la variance de la variable aléatoireXde notre exemple 3.16. La v.a.X−µ=X−1possède la loi suivante : les valeurs possibles sont−1,0,1, et leurs probabilités sont 1/4,1/2, et 1/4, respectivement. Par cons´quent, la v.a. (X−µ)² = (X−1)²a les valeurs possibles0et1, dont les probabilités sont

f(0) = 1 2, f(1) = 1

4+ 1 4 = 1

2. On en conclut finalement :

varX =E(X−1)² = 0×1

2 + 1× 1 2 = 1

2. L’´ecart-type deX :

σ=√

varX = r1

2 =

√2 2 .

N Notons que, quel que soit la variable al´eatoireX, on a

varX = E(X−µ)²

= E(X²−2µX+µ²)

= E(X²)−2µE(X) +µ²

= E(X²)−2µ²+µ²

= E(X²)−µ².

Donc, on peut re-écrire la définition de la variance de façon suivante : varX =E(X²)−µ².

Les propriétés de la variance sont peu usuelles, car la variance n’est une fonction linéaire comme par exemple l’espérance mathématique.

Th´eor`eme 4.7. var(X+k) =varX, et var(kX) =k²X.

Corollaire 4.8. σ(X+k) = σ(X)etσ(kX) =kσ(X).

Remarque 4.9. En g´en´eral,

var(X+Y)6=varX+varY.

Voir Biostatistique sous la direction de Beuscartpour les d´emonstrations.

(4)

4.4. Les variables aléatoires indépendantes. Soit X une variable aléatoire quelconque.

SoitA⊆Run sous-ensemble deR. On définit l’évènement[X ∈A]comme suit : [X ∈A] ={s∈S: X(s)∈A},

o`uS, comme toujours, est l’ensemble fondamental : X: S →R.

Définition 4.10. SoientXetY deux variables aléatoires. On dit queXetY sont indépendantes si, quels que soientA, B ⊆R, les évènements

[X∈A]et[Y ∈B]

sont ind´ependants :

P[X ∈A, Y ∈B] =P[X ∈A]P[Y ∈B].

Ici on note

[X ∈A, Y ∈B] = [X ∈AetY ∈B], cette symbole n’a rien `a voir avec la probabilit´e conditionnelle.

On peut montrer la caract´erisation suivante tr`es utile.

Théorème 4.11. Deux variables aléatoires X et Y sont indépendantes si e seulement si, quels que soienta, b∈R, les évènements

[X ≤a]et[Y ≤b]

sont ind´ependants.

Pour les variables al´eatoires prenant un nombre fini des valeurs, la caract´erisation devient plus simple encore.

Théorème 4.12. Soient X etY deux variables aléatoires telles que l’ensemble des valeurs possible deX,x¹, x², . . . , xm, ainsi que l’ensemble des valeurs possibles deY,y¹, y², . . . , yn, sont finis tous les deux. AlorsXetY sont indépendantes si et seulement si, quels que soient ietj, on a

P[X =xi etY =yj] =P[X =xi]P[Y =yj].

Exemple 4.13. SoitX la valeur du premier jet d’une pièce de monnaie équilibrée, et soit Y la valeur du deuxième jet de la pièce. AlorsXetY sont indépendantes.

L’espace fondamentalSest bien connu `a nous : S ={00,01,10,11}. On a :

X(00) = 0, X(01) = 0, X(10) = 1, X(11) = 1, et pareillement pourY. Alors, sii, j ∈ {0,1}, on a

P[X =i] =P{i0, i1}= 1 2,

(5)

P[Y =j] =P{0j,1j}= 1 2, et

P[X =ietY =j] =P{ij}= 1 4.

On en conclut en utilisant le théorème 4.12 queX etY sont indépendantes. N Exemple 4.14. SoitX la valeur du premier jet d’une pièce de monnaie équilibrée, et soit Y le nombre de faces après trois jets de la pièce. AlorsXetY ne sont pas indépendantes.

Ici l’ensemble fondamental consiste de tous les r´esultats possibles de trois ´epreuves suc- cessives :

S ={000,001,010,011,100,101,110,111}. Posons par exemplei= 1,j = 2. On a

P[X = 1] =P{100,101,110,111}= 1 2, carScontient2³ = 8éléments. De même façon,

P[Y = 2] =P{110,101,011}= 3 8. Donc,

P[X = 1]P[Y = 2] = 1 2 × 3

8 = 3 16. Au mˆeme temps,

P[X = 1etY = 2] =P{110,101}= 2 8 = 1

4 6= 3 16.

Les deux v.a. ne sont pas ind´ependantes. N

Théorème 4.15. SoitX etY deux v.a. indépendantes. Alors on a E(XY) = EXEY.

Remarque 4.16. Ce résultat est un analogue du résultat bien connu suivant pour l’intégration du produit de deux fonctions qui dépendent des coordonnées différentes :

Z b

a

Z d

c

f(x)g(y)dx dy= Z d

c

f(x)dx Z b

a

g(y)dy.

Théorème 4.17. SoitX etY deux v.a. indépendantes. Alors on a var(X+Y) =varX+varY.

Une fois de plus, les preuves (assez simples) peuvent ˆetre retrouv´ees dans le livre Biosta- tistique sous la direction de Beuscart.