Variables aléatoires sur un espace probabilisé fini
Démos de cours
1. V (X) = E(X
2) − E(X)
22. Espérance et variance d’une loi binomiale en écrivant X = X
1+ · · · + X
n. 3. Si X et Y sont indep, E ( XY ) = E ( X ) E ( Y )
4. inégalité de Bienayme-Tchebychev
5. Si X et Y sont indépendantes et suivent une loi binomiale de paramètres n et
12, alors P (X = Y ) = (
2nn)
22n
.
6. Soit M ∈ M
2( R ) une matrice aléatoire dont les coefficients sont indépendants et suivent une même loi de Rademacher (elles prennent les valeurs 1 et − 1 avec proba
12). Alors E(det(M )) = 0 et V (det M) = 2.
Dans tout ce chapitre, on considère (Ω , P (Ω) , P ) un espace probabilisé fini.
I Notion de variable aléatoire
1. Définition : une variable aléatoire est une application de Ω dans un ensemble E. En général, E est égal à R (on parle alors de variable aléatoire réelle, en abrégé var) ou à R
k(on parle alors de vecteur aléatoire). Si rien n’est précisé, les variables aléatoires considérées seront à valeurs dans R .
Si A est une partie de E, l’ensemble { w ∈ Ω | X(w) ∈ A } est un évènement que l’on note (X ∈ A) ou [X ∈ A]. En particulier (X 6 10) = { w ∈ Ω | X(w) 6 10). Comme Ω est fini
1, X ne prend qu’un nombre fini de valeurs. On dit alors que X est une variable aléatoire finie.
Déterminer la loi de probabilité de X c’est déterminer les valeurs x
1, . . . , x
nque prend X et calculer les probabilités associées P (X = x
1), . . . , P (X = x
n).
Remarque :
• les évènements [X = x
1], . . . , [X = x
n] forment un système complet d’évène- ments de Ω. En particulier,
n
X
i=1
P ( X = x
i) = 1 .
• Si A est une partie de X (Ω), on pose P
X( A ) = P ( X ∈ A ). L’application P
Xest alors une probabilité sur X(Ω). Déterminer P
Xrevient à déterminer la loi de X. Elle mesure la vraisemblance des valeurs de X(Ω), c’est-à-dire des valeurs que prend X.
1. l’année prochaine, on généralisera avec X (Ω) dénombrable, la variable aléatoire est dite alors discrète.
Exemple : on lance successivement deux dés, on note S la somme des deux dés. Alors Ω = J1, 6K
2muni de la probabilité uniforme. On a S(Ω) = J2, 12K.
2. Fonction de répartition : si X est une variable aléatoire finie, on appelle fonction de répartition de X la fonction notée F
Xde R dans R définie par :
∀ x ∈ R , F
X( x ) = P ( X 6 x ) . C’est une fonction en escalier, croissante.
Elle détermine totalement la loi d’une variable aléatoire discrète (cad lorsque X(Ω) est dénombrable ou fini). En effet, si par exemple X prend les valeurs x
0< · · · < x
n, on a
P (X = x
0) = P (X 6 x
0) et ∀ k ∈ J2, nK, P (X = x
k) = P (X 6 x
k) − P (X 6 x
k−1).
Astuce : la fonction de répartition pêut être par exemple utile pour déterminer la loi du maximum de plusieurs variables aléatoires. En effet, par exemple
P (max(X, Y ) 6 k) = P ((X 6 k) ∩ (Y 6 k)).
3. Un exercice modèle : on tire successivement sans remise deux boules dans une urne conte- nant des boules numérotés de 1 à n. On note X le plus grand numéro des deux boules tirées. On a pour k ∈ X (Ω) = J2 , n K, P ( X 6 k ) = P ( X
16 k ) P
(X16k)( X
26 k ) =
kn×
n−1k−1ou P (X 6 k) = (
k2)
(
n2) d’où P (X = k) =
n(n−2(k−1)1).
II Deux indicateurs fondamentaux : l’espérance et la va- riance
1. Espérance :
Définition 1 Si X est une variable aléatoire réelle prenant les valeurs x
1, . . . , x
n, on appelle espérance de X le réel
E(X) =
n
X
i=1
x
iP (X = x
i) ou E(X) = X
x∈X(Ω)
xP (X = x) .
Quelques remarques :
• L’espérance est la moyenne des valeurs x
ipondérés par les probabilités P ( X = x
i).
C’est un indicateur de position. Elle est en particulier comprise entre les valeurs extrêmes des x
i.
• Si X est une vecteur aléatoire, c’est-à-dire une varaible aléatoire à valeurs dans un espace vectoriel E , alors on définit de même E ( X ) qui est un vecteur de E .
• Si X représente le gain à un jeu de hasard, on dit que le jeu est équitable si E(X) = 0,
favorable si E ( X ) > 0 et défavorable si E ( X ) < 0. Par exemple, dans le jeu de la
roulette (18 numéros rouges, 18 noires et une verte), l’epérance de gain vaut
−371sa
mise, soit une perte pour le joueur en moyenne d’environ ∼ 2.7% sa mise.
On peut exprimer l’espérance à l’aide des probabilités des évènements élémentaires : Proposition 2
E ( X ) = X
w∈Ω
X ( w ) P ( { w } ) . On en déduit les propriétés suivantes :
Proposition 3 (Propriétés fondamentales)
• Linéarité de l’espérance : si X et Y sont des variables aléatoires réelles et a et b des réels on a :
E(aX + bY ) = aE (X) + bE(Y ) .
• Théorème de transfert : si X est une variable aléatoire réelle prenant les valeurs x
1, . . . , x
n, et g est une fonction de X(Ω) dans R , alors
E(g(X)) =
n
X
i=1
g(x
i)P (X = x
i) .
• Si A est un évènement, on a E(1
A) = P (A) .
• Positivité et croissance : soit X et Y deux variables aléatoires réelles.
Si X > 0, alors E(X) > 0 et si X > Y , alors E(X) > E(Y ).
Remarques :
• En particulier E(aX + b) = aE(X) + b car E(b) = b (comprendre pourquoi) !
• En général, E(XY ) 6 = E(X)E(Y ) (si X prend les valeurs ± 1 de manière équipro- bable, alors X
2= 1, d’où E(X
2) = 1 mais E(X) = 0, d’où E(X
2) 6 = E(X)
2). Nous verrons par la suite que cette égalité est vraie si X et Y sont des variables aléatoires indépendantes.
• L’intérêt du théorème de transfert est de calculer l’espérance de f(X) sans avoir à connaître la loi de f (X) (qui est plus délicat).
Exemple :
• si S = X
1+ X
2est la somme de deux dés, E(S) = 7, par linéarité car E(X
1) = E(X
2) = 1 ×
16+ 2 ×
16+ . . . + 6 ×
16=
7×62×
16=
72• si Y =
2(X−1 1)avec X le max de deux numéros entre 1 et n.
2. Variance
Définition 4 Si X est une variable aléatoire réelle prenant les valeurs x
1, . . . , x
n, on
appelle variance de X le réel V (X) = E (X − E(X))
2et écart-type de X le réel
σ
X= q V (X).
La variance est «la moyenne des carrés des écarts à la moyenne», elle mesure donc la dispersion des valeurs x
ipar rapport à la moyenne E(X). La variance est un nombre toujours positif.
La variance peut se calculer avec la formule suivante V (X) =
n
X
i=1
(x
i− E(X))
2P (X = x
i)
qui découle du théorème de transfert. Mais en général, on la calculera avec la formule dite de Huygens :
Proposition 5 On a
V ( X ) = E ( X
2) − E ( X )
2. De plus, pour tous réels a et b , on a V ( aX + b ) = a
2V ( X )
En particulier, la variance n’est pas linéaire
2et on a V ( a + X ) = V ( X ) et V ( b ) = 0.
Remarques :
• si X est une variable aléatoire de variance non nulle, alors la variable aléatoire Y =
X√
−E(X)V(X)
a une espérance nulle et une variance égale à 1. On dit que Y est centrée et réduite.
• si X a une variance nulle, donc un écart-type nul, alors X est presque sûrement constante, c’est-à-dire P (X = E(X)) = 1.
• Plus généralement, on appelle moment d’ordre k d’une variable aléatoire X le nombre E(X
k).
Exercice : On pose X = 1
A+ 2 × 1
Boù A et B sont deux évènements tels que P (A) =
1
2
, P ( B ) =
13et P ( A ∩ B ) =
14. Calculer l’espérance et la variance de X .
III Lois usuelles finies
Nous allons lister les lois usuelles des variables aléatoires finies.
3Lorsque vous reconnaissez l’une de ces lois, vous pouvez ainsi utiliser sans les redémontrer les résultats de ce paragraphe.
1. Loi uniforme : si X est une variable aléatoire qui prend les valeurs 1 , . . . , n de façon équiprobable, on dit que X suit une loi uniforme sur J1, nK, on note X ֒ → U (J1, nK) et on a :
∀ k ∈ { 1, . . . , n } , P (X = k) = 1
n , E(X) = n + 1
2 , V (X) = n
2− 1 12 .
Exemple modèle : une urne contient n boules numérotées de 1 à n . On en prend une au hasard. Si X est le numéro de la boule tirée, on a X ֒ → U (J1, nK).
2. Nous verrons par la suite que si X et Y sont des variables aléatoires indépendantes, on a quand même V (X + Y ) = V (X ) + V (Y ).
3. L’année prochaine, vous verrez les lois discrètes mais infinies : loi géométrique et loi de Poisson. Il existe
aussi des lois dites continues ou à densité (les variables aléatoires ne prennent alors pas seulement des valeurs
entières, mais toutes les valeurs d’un intervalle), telles que la loi normale, ou loi exponentielle. Mais elles ne sont
pas au programme de prépa.
2. Loi de Bernoulli : si X est une variable aléatoire prenant uniquement les valeurs 0 et 1, et que P (X = 1) = p, on dit que X suit une loi de Bernoulli de paramètre p. Alors
E(X) = p et V (X) = p(1 − p) .
On dit qu’une expérience aléatoire est une épreuve de Bernoulli lorsqu’elle admet seule- ment deux issues possibles, moralement échec ou succès. L’exemple classique est le lancer d’une pièce (équilibrée ou non).
Remarque : si A est un évènement, la fonction indicatrice 1
Aest une variable aléatoire qui suit une loi de Bernoulli de paramètre p = P (A).
3. Loi Binomiale : on répète n fois de manière indépendante une épreuve de Bernoulli de paramètre p . On note X la variable aléatoire donnant le nombre de succès au cours des n épreuves. Alors X peut prendre les valeurs 0, 1, . . . , n et on montre que
∀ k ∈ { 0 , . . . , n } , P ( X = k ) = n k
!
p
k(1 − p )
n−k.
On dit que X suit une loi binomiale de paramètres n et p , on note X ֒ → B ( n, p ). On montre que
4E(X) = np et V (X) = np(1 − p) .
Exemple modèle : une urne contient des boules blanches et noires avec une proportion p de boules blanches. On tire n boules avec remise et on note X la variable aléatoire donnant le nombre de boules blanches tirées après les n tirages. Alors X suit une loi B (n, p).
Contre-exemple : un tireur à l’arc tire n fois sur une cible avec p la probabilité qu’il touche la cible au cours du permier tir. On note X la variable aléatoire donnant le nombre de fois qu’il touche la cible au cours des n tirs. Si on suppose que le tireur n’a «aucune psychologie» à savoir que rater ou réussir son tir n’influe pas sur son tir suivant, alors X suit une loi binomiale de paramètres n et p . Sinon, s’il prend confiance en réussissant un tir (ou stresse s’il a raté), la probabilité de toucher la cible est modifiée à chaque épreuve, et X ne suit plus une loi binomiale.
Exercice : «Surbooking» Un restaurant possède 50 places. La probabilité pour qu’une personne, ayant réservé, ne vienne pas est de 20%. Un jour, le patron a pris 53 réservations.
Quelle est la probabilité qu’il se retrouve dans une situation embarassante ? 4. Loi hypergéométrique (hors-programme) :
Situation modèle : une urne contient N boules, des blanches et des noires. On note p la proportion de boules blanches. On effectue n tirages sans remise et on note X le nombre de boules blanches obtenues. Alors,
∀ k ∈ N , P ( X = k ) =
N pk
N−N pn−k
N
n
.
4. Pour se souvenir de ce résultat, on écrit X = X
1+ · · · + X
noù pour tout i ∈ { 1, . . . , n } , X
iest la variable aléatoire qui vaut 1 si on réalise un succès à la i-ème épreuve et 0 sinon. X
isuit une loi de Bernoulli de paramètre p, donc E(X
i) = p ainsi par linéarité E(X ) = np. De plus comme les variables aléatoires X
1, . . . , X
nsont indépendantes, on a V (X
1+ · · · +X
n) = V (X
1)+ · · · +V (X
n) et on obtient ainsi V (X) = nV (X
1) = np(1 − p).
Dans ce cas, on dit que X suit une loi hypergéométrique de paramètres N , n et p, on note X ֒ → H (N, n, p). Quelques remarques :
• Dans cette formule un peu compliquée, N p est le nombre total de boules blanches et N − N p le nombre total de noires.
• «preuve de la loi de probabilité» : on modélise l’expérience aléatoire par des tirages simultanés (c’est bien équilent à des tirages sans remise). Il y en a
Nn, et ils sont équiprobables, on peut donc écrire P ( X = k ) = Card( X = k )
Nn
. Enfin, l’évènement [X = k] est réalisé si l’on tire k blanches parmi les N p blanches et si l’on tire n − k noires parmi les (N − N p) noires, donc Card(X = k) =
N pkNn−k−N p
d’où le résultat.
• On a écrit P (X = k) pour tout k ∈ N . En fait X ne peut évidemment prendre toutes ces valeurs, par exemple , on est sûr que X 6 n. Mais la formule précédente reste valable lorsque k est une valeur que X ne peut prendre car on a alors P ( X = k ) = 0.
• Si les n tirages étaient effectués avec remise, on pourrait les considérer comme indépendants et ainsi X suivrait une loi binomiale de paramètres n et p .
On retiendra que si X ֒ → H ( N, n, p ), alors
E(X) = np et V (X) = np(1 − p) N − n N − 1 .
IV Indépendance de variables aléatoires
Définition 6 Deux variables aléatoires X et Y sont dites indépendantes si pour tout (x, y) ∈ X (Ω) × Y (Ω) :
∀ (x, y) ∈ X(Ω) × Y (Ω), P ([X = x] ∩ [Y = y]) = P (X = x)P (Y = y).
Plus généralement des variables X
1, . . . , X
nsont dites (mutuellement) indépendantes si pour tout x
1∈ X
1(ω), . . . , x
n∈ X
n(Ω) :
P ([ X
1= x
1] ∩ . . . ∩ [ X
n= x
n]) = P ( X
1= x
1) . . . P ( X
n= x
n) .
Remarque : on peut démontrer et on l’admet que les variables aléatoires X
1, . . . , X
nsont indépendantes, ssi les évènements [ X
1= x
1] , . . . , [ X
n= x
n] sont indépendants.
Exemples :
• Si S = X
1+ X
2est la somme de deux dés, alors X
1et X
2sont indépendantes, mais X
1et S ne le sont pas car P (S = 2 ∩ X
1= 6) = 0 mais P (S = 2)P (X
1= 5) =
361×
166 = 0.
• On peut ainsi modéliser n expériences aléatoires indépendantes par une suite finie X
1, . . . , X
nde variables aléatoires indépendantes. Par exemple, si X
1, . . . , X
nsont indépendantes et
suivent une même loi de Bernoulli de paramètre p, la variable aléatoire X = X
1+ · · · + X
nsuit une loi binomiale de paramètres n et p .
Lemme 7 Si X et Y sont des variables aléatoires, alors pour toute partie A de X(Ω) et toute partie B de Y (Ω), on a :
P ([ X ∈ A ] ∩ [ Y ∈ B ]) = P ( X ∈ A ) P ( Y ∈ B ) . On en déduit la proposition suivante très utile.
Proposition 8 (image de variables aléatoires indépendantes) Soit X et Y deux variables aléatoires indépendantes et f : X(Ω) → F , g : Y (Ω) → G deux fonctions. Alors, les variables aléatoires f ( X ) et g ( Y ) sont indépendantes.
Cette proposition se généralise à n variables indépendantes.
Exemple : si X et Y sont indépendantes, alors X
2et 5Y
3+ Y sont indépendantes.
Proposition 9 (sous-famille d’une famille de variables indépendantes) Toute sous-famille (d’au moins deux variables) d’une famille de variables aléatoires indépendantes est encore une famille de variables aléatoires indépendantes.
Exercice : on suppose X, Y, Z indépendantes. Démontrer que X et Y sont indépendantes, puis que X + Y et Z sont indépendantes, puis que X + Y et X − Y ne sont pas indépendantes.
V Couples de variables aléatoires
1. Notion de loi conjointe et de lois marginales
Soit X et Y deux variables aléatoires. L’application ( X, Y ) : w 7→ ( X ( w ) , Y ( w )) définit une variable aléatoire à valeurs dans X(Ω) × Y (Ω). Sa loi notée P
(X,Y)est appelée loi conjointe de X et Y .
Si X prend les valeurs { x
i| i ∈ I } et Y les valeurs { y
j| j ∈ J } , la loi de (X, Y ) est donc définie par ses valeurs ( x
i, y
j) et les probabilités associées P ([ X = x
i] ∩ [ Y = y
j]) pour (i, j) ∈ I × J .
Si l’on connaît la loi du couple (X, Y ), on peut retrouver les lois de X et de Y . On dit que X et Y sont les lois marginales du couple (X, Y ). En effet, les ensembles [Y = y
j] pour j ∈ J constituent une partition de Ω, donc
∀ i ∈ I, P (X = i) = X
j∈J
P ([X = i] ∩ [Y = y
j]).
Remarque : les lois marginales ne permettent pas de retrouver la loi conjointe.
2. Notion de loi conditionnelle
Soit x une valeur de X, alors l’évènement (X = x) est non négligeable (P (X = x) > 0).
La loi conditionnelle de Y sachant ( X = x ) est la donnée des valeurs y
jque prend Y et des probabilités conditionnelles associées P
X=x(Y = y
j).
Remarque : si X et Y sont deux variables aléatoires, P (X + Y = k) = X
(i,j)∈I×J i+j=k
P (X = i ∩ Y = j).
3. Covariance et variables non corrélées
Définition 10 Soit X et Y deux variables aléatoires réelles, on appelle covariance de X et Y le réel
cov(X, Y ) = E((X − E(X))(Y − E(Y )) . On a aussi
cov(X, Y ) = E(XY ) − E(X)E(Y ) . Les variables X et Y sont dites non corrélées lorsque cov(X, Y ) = 0.
Proposition 11 (Presque un produit scalaire) Soit X une variable aléatoire réelle.
On a :
• Positivité et symétrie : cov( X, X ) = V ( X ) > 0 et cov( X, Y ) = cov( Y, X ).
• cov est bilinéaire, si a et b sont des réels cov( aX + bY, Z ) = a cov( X, Z )+ b cov( Y, Z ).
En particulier cov(X + a, Z) = cov(X, Z).
• si V ( X ) = 0, alors X est presque sûrement constante.
Proposition 12 Si X et Y sont indépendantes, alors X et Y sont non corrélées, c’est- à-dire
cov(X, Y ) = 0 et E(XY ) = E(X)E(Y ).
Remarques :
• la réciproque est fausse, voir en exercice.
• il y a une véritable analogie
5entre la covariance de deux variables et le produit scalaire de deux vecteurs.
Proposition 13 (Variance d’une somme) Soit X, Y, X
1, . . . , X
ndes variables aléa- toires réelles.
(a) On a V ( X + Y ) = V ( X ) + V ( Y ) + 2 cov( X, Y ). Plus généralement V (X
1+ · · · + X
n) = V (X
1) + · · · + V (X
n) + 2 X
16i<j6n