Universit´e Claude Bernard Lyon 1 Ann´ee universitaire 2010-2011
Pr´ eparation au CAPES de Math´ ematiques Probabilit´ es
F. Bienven¨ ue-Duheille
Chapitre 1
Probabilit´ e, probabilit´ e conditionnelle
1 Probabilit´ e
1.1 D´ efinitions
On se place sur un ensemble Ω appel´e espace de probabilit´e ou univers.
Dans le vocabulaire probabiliste,
– Un ´el´ement ω de Ω est appel´e une exp´erience – Un sous-ensemble A de Ω est un ´ev´enement.
– Un ´ev´enement ´el´ementaire est un singleton de Ω.
– L’´ev´enement certain est Ω.
– L’´ev´enement impossible est l’ensemble vide.
– Deux ´ev´enements disjoints sont dits incompatibles.
D´efinition 1.1. Une mesure de probabilit´e P est une fonction d´efinie sur P(Ω) et `a valeurs dans R+ v´erifiant les propri´et´es suivantes :
1. P(Ω) = 1.
2. Si A et B sont deux sous-ensembles disjoints de Ω, on a P(A ∪ B) = P(A) + P(B).
3. Si (An)n≥1 est une famille d´enombrables de sous-ensembles de Ω deux `a deux disjoints, on a
P [
n≥1
An =X
n
P(An).
On d´eduit la proposition suivante de la d´efinition d’une mesure de probabilit´e : Proposition 1.2. 1. P(∅) = 0,
2. Si A est un ´ev´enement, P(Ω\A) = 1 − P(A), 3. Si A ⊂ B sont deux ´ev´enements, P(A) ≤ P(B),
4. Si A et B sont deux ´ev´enements, P(A ∪ B) = P(A) + P(B) − P(A ∩ B).
Remarque : Le troisi`eme point de la d´efinition signifie qu’une probabilit´e est une fonction croissante : c’est une fa¸con de calculer la « taille »des ´ev´enements.
On montre facilement par r´ecurrence le r´esultat suivant appel´e formule de Poincar´e ou formule du crible :
Proposition 1.3. Soit (Ak)1≤i≤n n ´ev´enements quelconques de Ω. On a
P
n
[
i=1
Ak
!
=
n
X
i=1
P (Ai)
− X
1≤i<j≤n
P (Ai∩ Aj) +
+ X
1≤i<j<k≤n
P (Ai∩ Aj ∩ Ak)
+ · · · + (−1)n+1P
n
\
i=1
Ai
! .
Remarque : Si vous avez suivi un cours de probabilit´e en L3, celui se basait certainement sur la th´eorie de la mesure, et vous avez dˆu y croiser des tribus. La notion de tribu est inutile dans le cadre des probabilit´es dont vous avez besoin pour le CAPES : la plupart du temps, vous aurez affaire `a des univers Ω finis ou d´enombrables, et la tribu utilis´ee sera P(Ω). La notion de tribu est utile pour les probabilit´es dites « `a densit´e »par rapport `a la mesure de Lebesgue, mais on peut s’en passer en ne consid´erant que la probabilit´e d’un intervalle.
Pour la suite de ce cours, on se placera sur un espace Ω muni d’une mesure de probabilit´e P.
1.2 Probabilit´ es discr` etes
La mesure de probabilit´e P est dite discr`ete d`es que l’espace Ω est fini ou d´enombrable ou plus g´en´eralement, d`es qu’il existe un sous-ensemble Ω0 de Ω fini ou d´enombrable et tel que P(Ω0) = 1. Une probabilit´e sur un ensemble d´enombrable sera toujours discr`ete.
On se placera dans la suite de ce paragraphe dans le cas o`u Ω est fini ou d´enombrable.
Proposition 1.4. Une probabilit´e sur un ensemble d´enombrable est compl`etement d´etermin´ee par les P({ω}) pour tout ω ∈ Ω. En effet, pour A ⊂ Ω, on a
P(A) = X
ω∈A
P(ω).
NB : le cadre le plus fr´equent des le¸cons de CAPES (hormis les lke¸cons de stat) est le cas o`u l’ensemble Ω est fini.
Remarques :
– Les poids d’une probabilit´e discr`ete P v´erifient P
ω∈ΩP(ω) = 1.
– Une mesure de probabilit´e ne permet d’´evaluer a priori que la taille de sous-ensembles de Ω.
Des exemples
• Lancer d’une pi`ece ´equilibr´ee : on souhaite mod´eliser le r´esultat du lancer d’une pi`ece sans tricherie.
Pour cela, on choisit Ω1 = {pile, face}, et donc card Ω1 = 2. L’ensemble des parties de Ω1 comporte quatre ´el´ements et on d´efinit la mesure de probabilit´e P par P{pile} = P{face} = 1/2 puisque les deux
´ev´enements sont ´equiprobables (c’est-`a-dire de mˆeme probabilit´e)..
Remarque : On aurait tr`es bien pu choisir Ω1 = {pile, face, rouge, vert}, et comme mesure de probabilit´e P{pile} = P{face} = 1/2 et P{rouge} = P{vert} = 0, mais tant qu’`a faire, on choisit le plus simple...
• Lancer de k pi`eces, k ≥ 2 : on prend cette fois-ci Ωk = (Ω1)k, c’est-`a-dire l’ensemble des k-uplets de pile ou face. On a card Ωk= 2k et card P(Ωk) = 22k. Les diff´erents k-uplets sont tous ´equiprobables donc P(ω) = 2−k, pour tout ω ∈ Ωk.
• Probabilit´e uniforme discr`ete : sur un ensemble fini Ω = {ω1, . . . , ωn}, on d´efinit la probabilit´e uniforme par P(ωi) = 1/n pour tout i entre 1 et n. Dans ce cas, tous les ωi ont la mˆeme probabilit´e de se produire (i.e. sont ´equiprobables), et pour une partie A de Ω, on a
P(A) = card A
n = nb cas favorables nb cas possibles .
Par exemple, lors du lancer d’un d´e r´egulier `a six faces, chaque face est obtenue avec la mˆeme probabilit´e 1/6.
Remarque : Il ne peut bien sˆur pas y avoir de loi uniforme sur N.
• Exemple de mesure de probabilit´e sur N∗. On lance un d´e de fa¸con r´ep´et´ee jusqu’`a obtenir un 6, et on note le num´ero du tirage du premier 6. On a ´evidemment P(1) = 1/6.
On a ´egalement
P(2) = P(au premier tirage, on n’a pas eu de 6 ; au deuxi`eme tirage, on a eu un 6)
= 5
36
car sur les 36 tirages possibles ´equiprobables, seuls 5 permettent d’obtenir le premier 6 au deuxi`eme tirage.
De mˆeme, pour tout k ≥ 2,
P(k) = P(k − 1 ´echecs puis une r´eussite) = 5k−1 6k = 5
6
k−1
1 6. Cela constitue bien une mesure de probabilit´e discr`ete sur N∗ puisque P
k≥1P(k) = 1.
Attention : Ne pas confondre cette probabilit´e avec la probabilit´e de tirer un 6 exactement parmi les k premiers lancers.
1.3 Probabilit´ e ` a densit´ e
On se place sur R et on note dx l’´el´ement d’int´egration de la mesure de Lebesgue. Soit f : R → R une fonction positive et d’int´egrale sur R ´egale `a 1. On supposera que f est continue par morceaux. Il est facile de v´erifier que l’on d´efinit une mesure µ en posant, pour tout I ⊂ R :
µ(I) = Z
R
1I(x)f (x) dx.
Une telle mesure est dite `a densit´e (par rapport `a la mesure de Lebesgue sur R). On dit ´egalement que c’est une probabilit´e continue.
Remarque : Pour faire le lien avec la th´eorie de la mesure, la d´efinition ci-dessus est un cas particulier des mesures `a densit´e par rapport `a la mesure de Lebesgue sur R. Dans le cas g´en´eral, il suffit que la fonction f soit bor´elienne, et on peut consid´erer la probabilit´e de tout bor´elien de R.
Des exemples
• La mesure uniforme sur l’intervalle [a, b], o`u a < b : On d´efinit µ(A) =
Z
R
1A∩[a,b](x) dx b − a.
• La mesure de Gauss sur R. On utilise ici la fonction f (x) = 1
√2πσ exp
−(x − m)2 2σ2
, o`u m ∈ R et σ ∈ R+∗ sont deux param`etres fix´es.
2 Probabilit´ e conditionnelle, ind´ ependance
D´efinition 1.5. On se donne deux ´ev´enements A et B de Ω, avec P(B) > 0. On d´efinit la probabilit´e conditionnelle de A sachant B, not´ee P(A|B) ou PB(A) par
PB(A) = P(A|B) = P(A ∩ B)/P(B).
La notation PB(A) est celle `a privil´egier pour le CAPES, notamment pour les le¸cons d’oral. Cette notation ´evite en effet toute confusion sur le rˆole des deux ´ev´enements A et B, et met en ´evidence le fait que PB(.) est une probabilit´e sur Ω (cf ci-dessous). Par contre, elle est plus lourde `a l’usage d`es que l’´ev´enement B est un tant soit peu compliqu´e `a d´ecrire.
Par exemple, si l’on dispose d’un ´echantillon de ma¨ıs comportant des grains lisses (L) ou fripp´es (F) et de couleur jaune (J) ou bleue (B), on peut calculer la proportion de jaunes parmi les fripp´es dans l’´echantillon consid´er´e c’est-`a-dire P(J et F)/P(F). On a donc l`a la probabilit´e de tirer au hasard un grain jaune et frip´e, sachant qu’on a tir´e un grain frip´e.
La probabilit´e conditionnelle v´erifie les mˆemes propri´et´es qu’une probabilit´e : on a ainsi PB(Ω) = 1, PB(∅) = 0, si A1 et A2 sont disjoints, PB(A1∪ A2) = PB(A1) + PB(A2), PB(Ω\A) = 1 − PB(A)...
On peut donc ´enoncer la proposition suivante :
Proposition 1.6. Soit B un ´ev´enement de probabilit´e strictement positive. On note PB la probabilit´e conditionnelle sachant l’´ev´enement B. Alors PB est une probabilit´e sur Ω, c’est-`a-dire que
– Pour tout A ∈ Ω, PB(A) ≥ 0.
– PB(Ω) = 1
– Si A1 et A2 sont incompatibles, PB(A1∪ A2) = PB(A1) + PB(A2).
Les probabilit´es conditionnelles permettent de d´ecomposer un ´ev´enement suivant des sous-ensembles de Ω sur lesquels on maˆıtrise mieux ce qui se passe. Pour cela, introduisons la notion de syst`eme complet d’´ev´enements :
D´efinition 1.7. Un syst`eme complet d’´ev´enements est une famille d´enombrable ou finie (Bn) d’´ev´e- nements deux `a deux disjoints et v´erifiant ∪nBn= Ω.
Remarque : Plusieurs d´efinitions d’un syst`eme complet d’´ev´enements cohabitent : suivant l’une d’elle par exemple, un syst`eme complet d’´ev´enements est une partition de Ω, d’autres d´efinitions imposent que les Bn soient tous de probabilit´e strictement positive ; on peut aussi ne pas imposer que la r´eunion des Bn
soit ´egale `a Ω, mais plutˆot qu’elle soit de probabilit´e 1... Le point commun `a ces d´efinitions est que les Bn sont deux `a deux disjoints et que leur r´eunion est « presque » Ω. La d´efinition indiqu´ee ici n’implique en particulier pas que les Bn soient non vides.
Remarque : Si l’ensemble Ω est fini, tout syst`eme complet ne comporte qu’un nombre fini d’´ev´enements non vides.
Proposition 1.8 (Formule des probabilit´es totales). Soit Bn un syst`eme complet d’´ev´enements tel que, pour tout n ≥ 1, P(Bn) > 0, et A un ´ev´enement quelconque. On a P(A) =P
nPBn(A)P(Bn).
Remarque : Si par exemple P(B1) = 0, on pourait poser PB1(A) = 0, ou 1, ou 1/2 pour tout A, cela n’interviendrait pas dans la formule ci-dessus. N´eanmoins il est plus p´edagogique d’imposer que les Bn soient tous de probabilit´e strictement positive, pour que la formule ci-dessus soit rigoureuse.
D´emonstration. Par d´efinition, PBn(A)P(Bn) = P(A ∩ Bn) et les ´ev´enements A ∩ Bn sont deux `a deux disjoints car les Bn le sont. On en d´eduit donc que
X
n
PBn(A)P(Bn) = P(∪(A ∩ Bn))
= P(A ∩ (∪nBn)) = P(A).
Un probl`eme courant est de d´eterminer PB(A) `a partir de PA(B). La seule donn´ee de PA(B) n’y suffit pas. Il faut par exemple connaˆıtre aussi P(A) et P(B) : on a alors
PB(A) = PA(B)P(A)/P(B).
Une autre possibilit´e est de connaˆıtre P(A) et PA¯(B) o`u ¯A est le compl´ementaire de A : Formule de Bayes :
– Soient A et B deux ´ev´enements de probabilit´e strictement positive. On v´erifie que PB(A) = PA(B)P(A)
PA(B)P(A) + PA¯(B)P(A).
– Soient (An) un syst`eme complet d’´ev´enements tel que, pour tout n, P(An) > 0 et B un ´ev´enement tel que P(B) > 0. On a pour tout i :
PB(Ai) = PAi(B)P(Ai) P
nPAn(B)P(An).
D´emonstration. Le d´enominateur du membre de droite vaut en fait P(B), alors que le num´erateur vaut P(A ∩ B), d’o`u le r´esultat.
D´efinition 1.9. Deux ´ev´enements A et B sont dits ind´ependants si P(A ∩ B) = P(A)P(B). On a alors P(A|B) = P(A) et P(B|A) = P(B) si P(A) > 0 et P(B) > 0.
Exercice :
1. Montrer qu’un ´ev´enement de probabilit´e nulle est ind´ependant de tout ´ev´enement.
2. Montrer que si A et B sont ind´ependants, alors Ω\A et B le sont.
3. Montrer qu’un ´ev´enement de probabilit´e 1 est ind´ependant de tout ´ev´enement.
Exemples :
• Lors d’un lancer de pile ou face, les ´ev´enements « tomber sur pile au premier tirage » et « tomber sur pile au deuxi`eme tirage » sont g´en´eralement ind´ependants (sauf en cas de tricherie...)
• Tirage avec remise. On dispose d’une urne contenant N boutons noirs et J boutons jaunes. `A chaque ti- rage, on prend un bouton au hasard, on note la couleur du bouton obtenu et on le remet dans l’urne. Les ´ev´e- nements A = {tirer un bouton noir au premier tirage} et B = {tirer un bouton jaune au deuxi`eme tirage}
sont-ils ind´ependants ?
• Urne de Polya. On dispose toujours d’une urne contenant N boutons noirs et J boutons jaunes. `A chaque tirage, on note la couleur du bouton obtenu et on le remet dans l’urne accompagn´e d’un bouton de la mˆeme couleur. Mˆeme question que pr´ec´edemment.
D´efinition 1.10. Soit n un entier sup´erieur ou ´egal `a 2. n ´ev´enements A1, . . . , An sont (mutuellement ou n `a n) ind´ependants si pour tout choix d’indices i1, . . . , ik deux `a deux distincts, on a
P(Ai1 ∩ . . . ∩ Aik) = P(Ai1) × · · · × P(Aik).
Des ´ev´enements n `a n ind´ependants le sont bien ´evidemment 2 `a 2 mais la r´eciproque est fausse.
Exercice :
• On choisit Ω = {1, 2, 3, 4} et on le munit de la probabilit´e uniforme. Trouver trois ´ev´enements deux
`
a deux ind´ependants mais pas trois `a trois.
• Sur Ω = {1, . . . , 8} muni de la probabilit´e uniforme, trouver trois ´ev´enements A, B et C tels que P(A ∩ B ∩ C) = P(A)P(B)P(C) mais tels que A, B et C ne sont pas ind´ependants.
Chapitre 2
Variables al´ eatoires r´ eelles
1 La loi
1.1 D´ efinition
Une variable al´eatoire X sur Ω est une fonction X : Ω → R.
Notons µ la fonction d´efinie de P(R) (ou de P(X(Ω))) et `a valeurs r´eelles d´efinie par : pour tout sous-ensemble B de R (ou de X(Ω)),
µ(B) = P(X−1(B)).
Enon¸cons la propri´´ et´e fondamentale de µ :
Proposition 2.1. La fonction µ ainsi d´efinie est une probabilit´e sur R (ou sur l’ensemble X(Ω)).
D´efinition 2.2. La probabilit´e µ est appel´ee la mesure image de P par X, ou la loi de X.
Sa loi est ainsi compl`etement d´etermin´ee par la donn´ee de l’ensemble X(Ω) ainsi que par les quantit´es µ(B) = P(X−1(B)) pour tout sous-ensemble B de R. On note parfois µ = X(P) ou µ = PX (attention dans ce dernier cas `a ne pas faire de confusion avec la probabilit´e conditionnelle).
Notation : Pour tout intervalle I, on note
{X ∈ I} = {ω ∈ Ω, X(ω) ∈ I} = X−1(I), et pour tout x ∈ R,
{X = x} = {ω ∈ Ω, X(ω) = x} = X−1({x}).
Remarque : En lien avec la th´eorie de la mesure : normalement, notamment lorsque Ω n’est pas d´enom- brable, on d´efinit la probabilit´e P sur une tribu Σ, qui est incluse dans P(Ω). Une variable al´eatoire X : (Ω, Σ) → (R, B(R)) est alors une fonction mesurable, c’est-`a-dire que, pour tout bor´elien B ∈ B(R), X−1(B) ∈ Σ.
La loi est la principale information dont on disposera sur une variable al´eatoire : souvent l’ensemble Ω sera inconnu ou implicite, on n’aura donc pas d’information sur X(ω).
D´efinition 2.3. – La variable al´eatoire X sera discr`ete si elle prend ses valeurs dans un ensemble discret (et sa mesure-image est alors une mesure discr`ete). Sa loi sera caract´eris´ee par l’ensemble X(Ω) (ou par un ensemble d´enombrable contenant X(Ω)) et par les probabilit´es P(X = x) pour tout x ∈ X(Ω).
– X sera `a densit´e (on dit aussi que X est continue) si sa mesure image admet une densit´e, c’est-`a- dire s’il existe une fonction f : R → R+ telle que pour tous r´eels a et b v´erifiant a ≤ b,
P(X ∈ [a, b]) = Z b
a
f (x) dx.
En particulier en prenant a = b dans l’´egalit´e ci-dessus, on remarque P(X = a) = 0 pour tout a ∈ R.
Remarque : Si Ω est un ensemble fini ou d´enombrable, toute variable al´eatoire d´efinie sur Ω sera discr`ete.
Attention : Deux variables al´eatoires peuvent suivre la mˆeme loi sans ˆetre ´egales : par exemple deux tirages successifs de pile ou face.
Nous allons maintenant ´etudier quelques exemples de variables al´eatoires discr`etes ou `a densit´e, mais il faut garder `a l’esprit que cela ne recouvre pas tous les types de variables al´eatoires.
1.2 Exemples de variables al´ eatoires discr` etes
D´efinition 2.4. La loi d’une variable al´eatoire discr`ete est donn´ee par – l’ensemble (d´enombrable) X(Ω),
– pour tout x ∈ X(Ω), la quantit´e
P({ω ∈ Ω tels que X(ω) = x}) = P(X−1{x}) = P(X = x) Remarque : On doit avoirP
xP(X = x) = 1, o`u la somme est prise sur x ∈ X(Ω).
Pour construire une variable al´eatoire discr`ete `a valeurs dans N, on peut aussi commencer par d´efinir une mesure de probabilit´e sur N en se donnant le poids pn de chaque entier n (avec P pn = 1) puis consid´erer une variable al´eatoire X d’un certain espace Ω dans N dont la loi est donn´ee par P(X = n) = pn.
Exercice : On se donne une variable al´eatoire X : Ω → N. Montrer que la famille An = {ω, X(ω) = n}
pour tout n ≥ 0 forme un syst`eme complet d’´ev´enements.
Des exemples
• Pour un ´ev´enement A ⊂ Ω, on note 1Ala fonction suivante : 1A(ω) = 1 si ω ∈ A et 1A(ω) = 0 sinon.
Cette fonction, appel´ee l’indicatrice de l’´ev´enement A, est une variable al´eatoire discr`ete tr`es utile.
• Le nombre de piles obtenus lors des 8 premiers tirages d’un jeu de pile ou face est aussi une variable al´eatoire discr`ete.
• Loi de Dirac en a ∈ R. On fixe un nombre r´eel a. La loi de Dirac en a, g´en´eralement not´ee δa, est la loi de la variable al´eatoire suivante : X(Ω) = {a} et P(X = a) = 1. On dit que X vaut « presque-sˆurement » a.
Exercice : Montrer que, pour A ⊂ R, P(X ∈ A) = 1A(a) si X suit la loi de Dirac en a.
• Loi de Bernoulli. La loi de Bernoulli B(p) de param`etre p ∈ [0, 1] est donn´ee par X(Ω) = {0, 1}
et P(X = 1) = p = 1 − P(X = 0). Lors d’un tirage de pile ou face d’une pi`ece ´equilibr´ee, si on note X = 1 si la pi`ece tombe sur pile et 0 sinon, on obtient une variable al´eatoire de loi de Bernoulli B(12).
Plus g´en´eralement, pour un ´ev´enement A quelconque, la variable al´eatoire 1A suit une loi de Bernoulli de param`etre P(A).
• Loi binomiale. La loi binomiale Bin(n, p), pour n ∈ N∗ et p ∈ [0, 1] est donn´ee par X(Ω) = {0, . . . , n}
et P(X = k) = nkpk(1 − p)n−k, pour tout k ∈ {0, . . . , n}. On retrouve ici la probabilit´e d’obtenir k fois exactement au cours de n tentatives (ind´ependantes) la r´ealisation d’un ´ev´enement dont la probabilit´e est p. Par exemple, la probabilit´e de tirer exactement k 6 lors des n premiers lancers d’un d´e est nk5n−k6−n.
• Loi uniforme sur {1, . . . , n}. On a ici X(Ω) = {1, . . . , n} et cette loi affecte le mˆeme poids `a chacun des ´el´ements. On a donc P(X = k) = 1/n, pour tout k ∈ {1, . . . , n}.
• Loi g´eom´etrique G(p), p ∈]0, 1[ : Cette loi est donn´ee par X(Ω) = N∗ et P(X = k) = p(1 − p)k−1 pour tout k ∈ N∗. On a vu plus haut que c’est la loi du num´ero du tirage o`u un ´ev´enement se r´ealise pour la premi`ere fois.
• Loi de Poisson P(λ), λ > 0. C’est la loi de la variable al´eatoire X v´erifiant X(Ω) = N et P(X = k) = e−λλk/k!. Elle est g´en´eralement utilis´ee pour mod´eliser le nombre d’appels re¸cus par un serveur au cours d’un laps de temps donn´e.
1.3 Exemples de loi ` a densit´ e
• Loi uniforme sur [a, b] : c’est la loi de la variable al´eatoire X de densit´e 1[a,b]/(b − a). La probabilit´e qu’une variable al´eatoire de loi uniforme sur [a, b] appartienne `a un sous-intervalle de [a, b] est proportion- nelle `a la longueur de ce sous-intervalle. On a en particulier P(X ∈ [a, b]) = 1.
• Loi exponentielle de param`etre λ. Il s’agit de la loi de densit´e fλ(x) = λ exp(−λx)1x>0. Si X suit cette loi, on a P(X ≥ 0) = 1. La loi exponentielle est dite sans m´emoire au sens o`u pour tous r´eels positifs s et t, on a P(X > t + s|X > s) = P(X > t). C’est pour cette raison qu’elle est utilis´ee g´en´eralement pour mod´eliser des temps d’attente entre deux ´ev´enements : par exemple entre deux pannes successives d’une machine, ou entre deux requˆetes re¸cues par un serveur informatique.
• Loi normale, ou loi de Gauss centr´ee r´eduite. Il s’agit de la loi de la variable al´eatoire X de densit´e f (x) = e−x2/2/√
2π. C’est une loi tr`es utilis´ee en statistique et en mod´elisation. Nous allons commencer par v´erifier que c’est bien la densit´e d’une probabilit´e : f est une fonction positive, il reste `a voir que I =R
Rf (t) dt = 1. On ne connaˆıt pas de primitive explicite de la focntion f , mais nous allons calculer I2. On a
I2 =
Z +∞
−∞
f (t) dt
2
=
Z +∞
−∞
f (t) dt
×
Z +∞
−∞
f (s) ds
=
Z +∞
−∞
Z +∞
−∞
f (s) ds
f (t) dt
=
Z +∞
−∞
Z +∞
−∞
f (s)f (t) ds dt
= Z
R2
e−(s2+t2)/2ds dt 2π .
Proc´edons `a un changement de variables en coordonn´ees polaires en posant s = r cos θ et t = r sin θ. Il vient
I2 = Z ∞
0
Z π
−π
e−r2/2 r dr dθ 2π
= Z ∞
0
re−r2/2dr
= 1.
La loi normale N (m, σ2) est de densit´e f (x) = 1
√2πσ exp − (x − m)2 2σ2
2 Esp´ erance, variance, fonctions g´ en´ eratrice et caract´ eristique
2.1 Esp´ erance et variance
Donnons tout d’abord la d´efinition g´en´erale de l’esp´erance, avant de l’appliquer aux variables al´eatoires discr`etes ou `a densit´e.
Soit X : Ω → R une variable al´eatoire de loi µ.
D´efinition 2.5. Une variable al´eatoire X est dite int´egrable si la quantit´e Z
Ω
|X| dP = Z
R
|x| dµ est finie. On d´efinit alors son esp´erance par
E(X) = Z
Ω
X dP = Z
R
x dµ.
Plus g´en´eralement, pour toute fonction continue par morceaux h : R → R, on a E(h(X)) =
Z
Ω
h(X) dP = Z
R
h(x) dµ, lorsque la quantit´e
Z
Ω
|h(X)| dP = Z
R
|h(x)| dµ < ∞.
Dans le langage courant (et aussi probabiliste), l’esp´erance est appel´ee moyenne. C’est un param`etre de position, qui indiaue autour de quelle valeur la variable al´eatoire est r´epartie.
Cette d´efinition g´en´erale induit deux ´ecritures diff´erentes suivant que la variable al´eatoire X est discr`ete ou `a densit´e :
– Si X est une variable al´eatoire discr`ete, l’int´egrabilit´e se traduit par X
x∈X(Ω)
|x|P(X = x) < ∞
et on a alors :
E(X) = X
x∈X(Ω)
xP(X = x).
Plus g´en´eralement, pour toute fonction h : X(Ω) → R, on a E(h(X)) = X
x∈X(Ω)
h(x)P(X = x)
si h(X) est int´egrable, c’est-`a-dire, si
E|h(X)| = X
x∈X(Ω)
|h(x)|P(X = x) < ∞.
– Si X est une variable al´eatoire `a valeurs r´eelle et de densit´e f : R → R+, elle est int´egrable si Z
R
|x|f (x) dx < ∞ et on a dans ce cas
E(X) = Z
R
xf (x) dx.
Plus g´en´eralement, pour toute fonction continue par morceaux h : R → R, la variable al´eatoire h(X) est int´egrable, si
E|h(X)| = Z
R
|h(x)|f (x) dx < ∞ et on a alors
E(h(X)) = Z
R
h(x)f (x) dx.
Remarque importante pour le cas discret : Supposons que l’espace Ω soit fini : Ω = {ω1, . . . , ωk}.
Dans ce cas, toute variable al´eatoire X : Ω → R est discr`ete. Notons n = card (X(Ω)) et X(Ω) = {x1, . . . , xn}. On a
E(X) =
n
X
i=1
xiP(X = xi)
=
n
X
i=1
xi X
ω∈Ω;X(ω)=xi
P({ω})
=
n
X
i=1
X
ω∈Ω;X(ω)=xi
xiP({ω})
=
n
X
i=1
X
ω∈Ω;X(ω)=xi
X(ω)P({ω})
= X
ω∈Ω
X(ω)P({ω})
Cette expression est tr`es utile pour les le¸cons de probabilit´e : elle permet de justifier tr`es simplement que, pour toute variable al´eatoire X : Ω → R, partant d’un espace fini Ω, et pour toute fonction h : R → R, on a
E(h(X)) = X
x∈X(Ω)
h(x)P(X = x).
Cette expression de l’esp´erance de h(X) est appel´ee « th`eor`eme du transfert ». Sa preuve peut donc se faire simplement dans le cas discret (avec Ω fini ou d´enombrable) ; on peut la faire ´egalement pour certaines fonctions simple dans le cas des variables al´eatoires `a densit´e, mais le cas g´en´eral n´ecessite des connaissances en th´eorie de la mesure.
Pourquoi l’int´egrabilit´e ? Les s´eries (et les int´egrales) qui ne convergent pas absolument ne sont pas facile- ment manipulables. Par exemple, la s´erie
X
n∈Z∗
1 n
est mal d´efinie. En effet, les sommes partielles de −N `a +N sont nulles, et donc on a plutˆot envie de dire que la s´erie converge vers 0. Mais consid`erons la somme SN de −N `a +N2, on a
SN =
n=N2
X
n=N +1
1 n
≥
Z N2+1 N +1
1 xdx
≥ ln(N2+ 1) − ln(N + 1) et donc SN tend vers l’infini...
En pratique, on v´erifie donc toujours qu’une variable al´eatoire est int´egrable avant de l’int´egrer, sauf si X est une variable al´eatoire positive, c’est-`a-dire si P(X ∈ R+) = 1.
Remarque :
Si X(Ω) ⊂ R+, on pourra ´ecrire E(X) mˆeme lorsque la s´erie ne converge pas, mais on ne pourra
´evidemment pas dire que X est int´egrable avant d’avoir v´erifi´e si E(X) < ∞.
Si X(ω) est born´e, alors X sera une variable al´eatoire int´egrable.
Exemple : Calcul de l’esp´erance de la loi g´eom´etrique de param`etre p. On se donne une variable al´eatoire X de loi G(p). On a vu que X(Ω) = N∗ : il est inutile de v´erifier l’int´egrabilit´e de X puisque X(Ω) ⊂ R+.
Puisque X est une variable al´eatoire discr`ete, on a
E(X) = X
n≥1
nP(X = n)
= X
n≥1
np(1 − p)n−1
= pX
n≥0
n(1 − p)n−1
Or n(1 − p)n−1 est la d´eriv´ee de −(1 − p)n etP
n≥0(1 − p)n = 1/p . On obtient (en inversant une d´erivation et une s´erie, ce qui est licite car il s’agit d’une s´erie enti`ere) :
X
n≥0
n(1 − p)n−1 = − d dp
1 p = 1
p2. Finalement, E(X) = 1/p.
Exemple : Calcul de l’esp´erance d’une variable al´eatoire Y de loi exponentielle, c’est-`a-dire de densit´e f (y) = λ exp(−λy)1R+(y) o`u λ > 0 est une constante. On constate que Y est une variable al´eatoire positive (l’int´egrale de sa densit´e sur R− est nulle). On peut donc s’abstenir de v´erifier l’int´egrabilit´e, et passer directement au calcul de l’esp´erance.
On a par d´efinition
E(Y ) = Z
R
yf (y) dy = Z
R+
λye−λy dy.
Cette int´egrale s’int`egre par parties : E(Y ) =
y × (− exp(−λy))
+∞
0
− Z +∞
0
(− exp(−λy)) dy = 1 λ. Exercice : Calculer l’esp´erance des lois des paragraphes 1.2 et 1.3.
Proposition 2.6. • Soient a une constante et X une variable al´eatoire int´egrable. Les variables al´eatoires X + a et aX sont int´egrables et on a E(X + a) = a + E(X) et E(aX) = aE(X).
• Si X est une variable al´eatoire positive et int´egrable, alors E(X) ≥ 0.
• Si X et Y sont deux variables al´eatoires int´egrables v´erifiant X ≤ Y alors E(X) ≤ E(Y ). On d´eduit de cette propri´et´e que toute variable al´eatoire born´ee par une constante (ou plus g´en´eralement par une variable al´eatoire int´egrable) est int´egrable.
• L’esp´erance est une op´eration lin´eaire : si X et Y sont deux variables al´eatoires int´egrables et a et b deux nombres r´eels, E(aX + bY ) = aE(X) + bE(Y )
Exercice :
• On se donne un ´ev´enement A. Montrer que E(1A) = P(A).
• On consid`ere une variable al´eatoire X et un r´eel x. Calculer E(1X≤x).
D´efinition 2.7. La variance d’une variable al´eatoire de carr´e int´egrable X est ´egale `a var X = E((X − E(X))2.
On appelle ´ecart-type la quantit´e σ = pvar (X). La variance et l’´ecart-type sont des param`etres de dispersion : plus ils sont grands, plus la variable al´eatoire est dispers´ee au tour de sa moyenne (c’est-`a- dir : prend des valeurs ´eloign´ees de la moyenne).
Proposition 2.8. – Pour toute variable al´eatoire de carr´e int´egrable X, on a var X = E(X2) − (E(X))2.
– Si X est une variable al´eatoire int´egrable et si a est une constante, on a var (X + a) = var (X) et var (aX) = a2var (X).
– La variance d’une variable al´eatoire de carr´e int´egrable est toujours une quantit´e positive. Elle n’est nulle que si la variable al´eatoire suit une loi de Dirac.
Preuve :
1) Notons m = E(X). On a (X − m)2 = X2− 2mX + m2. Donc
E(X − m)2 = E(X2) − E(2mX) + E(m2)
= E(X2) − 2mE(X) + m2
= E(X2) − m2.
2) On pose Y = X + a. On a E(Y ) = a + E(X) et var (Y ) = E((Y − E(Y ))2).
D’o`u var (Y ) = E((X − E(X))2) = var (X).
Posons aussi Z = aX. On a E(Z) = aE(X) et var (Z) = E((aX − E(Z))2).
D’o`u var (Y ) = a2E((X − E(X))2) = a2var (X).
3) La variance est l’esp´erance d’une variable al´eatoire positive : elle est donc positive. Elle ne peut ˆetre nulle que si X = E(X) p.s.
Remarque : Rappelons les expressions usuelles de E(X2) : – Si X est une variable al´eatoire discr`ete,
E(X2) = X
x∈X(Ω)
x2P(X = x)
– Si X est une variable al´eatoire de densit´e f , E(X2) =
Z +∞
−∞
x2f (x) dx.
Exemple : Calcul de la variance d’une variable al´eatoire X de loi G(p). On a d´ej`a vu que E(X) = 1/p.
Calculons maintenant E(X2). On a :
E(X2) = X
n≥1
n2P(X = n)
= X
n≥1
n2p(1 − p)n−1
On va essayer de faire apparaˆıtre une d´eriv´ee seconde en ´ecrivant n2 = n(n − 1) + n : E(X2) = p(1 − p)X
n≥1
n(n − 1)(1 − p)n−2+ pX
n≥1
n(1 − p)n−1
= p(1 − p) d2 dp2
X
n≥0
(1 − p)n + 1 p
= p(1 − p) d2 dp2
1 p +1
p
= 2p(1 − p) p3 + 1
p
= 2 − p p2
On en d´eduit maintenant la variance de X : var (X) = E(X2) − (E(X))2 = (1 − p)/p2.
Exemple : Calcul de la variance d’une variable al´eatoire Y de loi exponentielle de param`etre λ. On a vu (cf p.11) que l’esp´erance de Y est ´egale `a 1/λ. Calculons maintenant E(Y2) :
E(Y2) = Z
R
x2λe−λx1x≥0 dx
=
Z +∞
0
x2λe−λx dx
= −x2e−λx+∞
0 + 2 Z +∞
0
xe−λx dx
= 2/λ2
On a donc var (Y ) = 1/λ2.
Exercice : Calculer les variances des lois des paragraphes 1.2 et 1.3.
2.2 Fonction de r´ epartition de la loi d’une variable al´ eatoire
D´efinition 2.9. On consid`ere une variable al´eatoire X : Ω → R. La fonction de r´epartition de la loi de X est la fonction FX : R → [0, 1] d´efinie pour tout x ∈ R par
FX(x) = P(X ≤ x).
La fonction de r´epartition caract´erise la loi d’une variable al´eatoire.
Si X suit une loi discr`ete, on a
FX(x) = X
t≤x
P(X = t),
o`u la somme est prise sur tous les t ∈ X(Ω) inf´erieurs ou ´egaux `a x. On obtient une fonction constante par morceaux.
Si X suit la loi de densit´e f ,
FX(x) = Z x
−∞
f (t) dt.
C’est alors une fonction continue.
Proposition 2.10. La fonction de r´epartition d’une variable al´eatoire discr`ete est toujours croissante et continue `a droite. On a limx→−∞FX(x) = 0 et limx→+∞FX(x) = 1.
Exemple : Fonction de r´epartition de la loi binˆomiale B(3, 1/2). On a P(0) = 1/8, P(1) = 3/8, P(2) = 3/8, P(3) = 1/8, et P(k) = 0 pour tout k ≥ 4.
Exemple : Fonction de r´epartition de la loi uniforme sur l’intervalle [0, 1]. Si X est de loi uniforme sur [0,1], X admet pour densit´e la fonction 1[0,1]. Notons F sa fonction de r´epartition. Pour tout x ∈ R, on a donc
F (x) = Z x
−∞
1[0,1](t) dt.
– Si x < 0 : on a F (x) = 0, car 1[0,1](t) = 0 pour tout t ∈] − ∞, x].
– Si x ∈ [0, 1], on a
F (x) = Z 0
−∞
1[0,1](t) dt + Z x
0
1[0,1](t) dt
= 0 + Z x
0
1 × dt
= x – Si x > 1,
F (x) = Z 0
−∞
1[0,1](t) dt + Z 1
0
1[0,1](t) dt + Z
1
x1[0,1](t) dt
= 0 + Z 1
0
1 × dt + 0
= 1
La fonction de r´epartition F de la loi uniforme sur [0, 1] est donc nulle sur R−, ´egale `a la fonction identit´e sur [0, 1] et constante ´egale `a 1 sur [1, +∞[. On peut remarquer que cette fonction F est continue, d´erivable sur R\{0, 1}, et que sa d´eriv´ee co¨ıncide avec la densit´e de X l`a o`u elle existe.
2.3 Fonctions g´ en´ eratrice, caract´ eristique et transform´ ee de Laplace
D´efinition 2.11. La fonction g´en´eratrice de la loi de la variable al´eatoire X : Ω → R+ est la fonction GX d´efinie pour tout s ∈ [0, 1] par
GX(s) = E(sX) = X
x∈X(Ω)
sxP(X = x).
Cette fonction est d´efinie (et finie) pour s ∈ [0, 1] puisque pour tout s ∈ [0, 1], la variable al´eatoire sX est positive et major´ee par 1 : c’est donc une variable al´eatoire int´egrable.
La fonction g´en´eratrice est surtout utilis´ee pour les variables al´eatoires `a valeurs dans N. Dans ce cas, on peut ´egalement la d´efinir pour s ∈ [−1, 0] et on a
GX(s) = E(sX) = X
n∈N
snP(X = n).
Remarque : La fonction GX est polynˆomiale si et seulement si X(Ω) ⊂ {0, . . . , n}. Plus g´en´eralement, si X(Ω) ∈ N, GX est une s´erie enti`ere.
Proposition 2.12.
– Soit X une variable al´eatoire discr`ete positive et int´egrable. On a E(X) = G0X(1−).
– Plus g´en´eralement, si X : Ω → R+ est une variable al´eatoire v´erifiant E(Xn) < ∞, la d´eriv´ee ni`eme de GX en 1− est ´egale `a E(X(X − 1) . . . (X − n + 1)).
– Si deux variables al´eatoires positives ont la mˆeme fonction g´en´eratrice, alors elles suivent la mˆeme loi. On dit que la fonction g´en´eratrice caract´erise la loi des variables al´eatoires positives.
On utilise ´egalement la transform´ee de Laplace LX(λ) = E(exp(−λX)) = GX(exp(−λ)). Si X est une variable al´eatoire positive, sa transform´ee de Laplace est d´efinie sur R+ (au moins) et caract´erise sa loi.
Si X est int´egrable, on a E(X) = −L0X(0+), et si X est suffisamment int´egrable, E(Xk) = (−1)kL(k)X (0+).
Pour des variables al´eatoires X : Ω → R dont le signe n’est pas constant, on utilisera plutˆot la transform´ee de Fourier ou fonction carat´eristique de X : φX(α) = E(exp(iαX)). Cette fonction est d´efinie pour tout α dans R et caract´erise la loi de la variable al´eatoire de la mˆeme fa¸con que la fonction g´en´eratrice ou la transform´ee de Laplace. Tout comme pour la fonction g´en´eratrice ou pour la transform´ee de Laplace, il existe un lien entre les d´eriv´ees de φ et l’esp´erance de X : si X est int´egrable, on a E(X) = iφ0X(0) et si X est suffisamment int´egrable, E(Xk) = (−i)kφ(k)X (0).
Remarque : En pratique, il est parfois rentable de calculer la fonction g´en´eratrice d’une variable al´eatoire (ou transform´ee de Laplace ou transform´ee de Fourier), et de la d´eriver pour en d´eduire l’esp´erance et la variance.
Aide-m´emoire : La d´eriv´ee de s → sX est ´egale `a XsX−1. En prenant l’esp´erance pour s = 1, on obtient donc G0X(1) = E(X).
De mˆeme, la d´eriv´ee seconde de s → sX est ´egale `a X(X − 1)sX−1, et apr`es la mˆeme op´eration que pr´ec´edemment, G00X(1) = E(X(X − 1)).
En faisant le mˆeme genre d’op´eration `a partir des fonctions λ → exp(−λX) ou α → exp(iαX), on retrouve les liens entre esp´erance et d´eriv´ees des transform´ees de Laplace et de Fourier.
Exemple : Calcul de l’esp´erance et de la variance d’une loi de Poisson `a partir de la fonction g´en´eratrice.
Soit X une variable al´eatoire de loi de Poisson de param`etre m > 0. Calculons sa fonction g´en´eratrice GX. Comme X est `a valeurs dans N, on a
GX(s) = E(sX)
= X
n≥0
snP(X = n)
= X
n≥0
sne−mmn n!
= e−mems En d´erivant, on obtient, E(X) = G0X(1) = e−mmem×1 = m.
En d´erivant `a nouveau : E(X(X − 1)) = G00X(1) = e−mm2em×1 = m2.
On en d´eduit alors la variance de X : par d´efinition, var X = E(X2) − (E(X))2 et en ´ecrivant E(X2) = E(X(X − 1)) + E(X), on obtient var (X) = m.
2.4 Comment calculer la loi
Le probl`eme se pose fr´equemment de calculer la loi d’une variable al´eatoire Y d´efinie par exemple comme fonction d’une autre variable al´eatoire X : Y = g(X), la fonction g ´etant continue par morceaux.
Si Y est une variable discr`ete, il suffit de d´eterminer l’ensemble des valeurs prises par Y , puis pour tout y ∈ Y (Ω), on aura P(Y = y) = P(X ∈ g−1({y})), ce qui se calcule donc `a l’aide de la loi de X.
Si on pense que Y va avoir une densit´e, on peut imaginer calculer sa fonction de r´epartition : P(Y ≤ y) = P(g(X) ≤ y).
Si la fonction g est monotone, on imagine facilement la suite... mais sinon ? La m´ethode habituellement utilis´ee consiste `a utiliser une fonction test h : R → R continue et born´ee. Si on r´eussit alors `a ´ecrire E(h(Y )) sous la forme
E(h(Y )) = Z
R
h(y) dµ(y),
on aura gagn´e : la mesure de probabilit´e µ obtenue sera la mesure image de Y (de la forme dµ = fY(y) dy si Y est `a densit´e). En effet, en fixant x ∈ R et en prenant h de la forme h(y) = 1y≤x, on retrouve ainsi la fonction de r´epartition de la loi de Y . L’avantage est que le changement de variable auquel il faut proc´eder apparaˆıt clairement.
Exemple : Soit X une variable al´eatoire de densit´e fX D´eterminons les lois de Y = aX + b et de Z = (1 + X)/(1 − X). Prenons donc une fonction test h continue par morceaux et born´ee. On a
E(h(Y )) = E(h(aX + b)) = Z
R
h(ax + b)fX(x) dx.
Petite remarque pr´ealable : la suite de la d´emonstration pr´esent´ee ici est bas´ee sur des notions de calcul int´egral (programme L3) : ne vous avisez pas `a utiliser de telles justifications devant une classe de terminale ! Il est tout `a fait possible de traiter s´epar´ement les cas a > 0 et a < 0 pour rentrer dans le cadre des programmes de lyc´ee.
On effectue alors le changement de variable y = ax + b. Ce changement de variable est bien un bi- diff´eomorphisme de R et son jacobien vaut dx = dy/|a|. Il vient :
E(h(Y )) = Z
R
h(y)fX y − b a
dy
|a|.
On en d´eduit donc que Y admet pour densit´e la fonction fY d´efinie sur R par fY(Y ) = fX y − b
a
1
|a|. Proc´edons de mˆeme pour Z :
E(h(Z)) = Z
R
h 1 + x 1 − x
fX(x) dx
= Z
R
h(z)fX
z − 1 z + 1
2
(z + 1)2 dz
On a en effet pos´e z = (1 + x)/(1 − x), soit x = (z − 1)/(z + 1) = 1 − 2/(z + 1). Ce changement de variable est un bi-diff´eomorphisme de R\{−1} vers R\{1}. Remarquons qu’il est souvent plus pratique de raisonner en terme de jacobien plutˆot qu’en terme de d´eriv´ee : il n’y a pas `a s’occuper du sens des bornes des int´egrales, mais il suffit de v´erifier qu’un domaine s’envoie bien sur un autre domaine de R (et de ne pas oublier de mettre la valeur absolue de la d´eriv´ee et non la d´eriv´ee elle-mˆeme). On traite alors ce changement de variable comme un changement de variable dans une int´egrale multiple.
Chapitre 3
Couples et vecteurs de variables al´ eatoires
1 Couples et vecteurs al´ eatoires discrets
1.1 Loi conjointe
On se donne X et Y deux variables al´eatoires discr`etes avec X(Ω) = {xi, i ∈ N} et Y (Ω) = {yi, i ∈ N}.
La loi conjointe du couple (X, Y ) est donn´ee par (X, Y )(Ω) (ou par X(Ω) et Y (Ω)) ainsi que par les probabilit´es
P(X = x, Y = y) = P{ω, X(ω) = x et Y (ω) = y}, pour tout couple (x, y) ∈ (X, Y )(Ω).
Remarque : On doit bien entendu avoirP
x,yP(X = x, Y = y) = 1.
Plus g´en´eralement, si X1, . . . , Xn sont n variables al´eatoires discr`etes `a valeurs dans N, la loi conjointe du vecteur (X1, . . . , Xn) est donn´ee par (X1, . . . , Xn)(Ω) ⊂ Nn ainsi que par les probabilit´es P(X1 = i1, . . . , Xn= in), pour tout n-uplet (i1, . . . , in) ∈ Nn.
Exemple 1 : Fixons p ∈]0, 1[ et λ > 0 et consid´erons le couple de variables al´eatoires (X, Y ) `a valeurs dans {0, 1} × N dont la loi est donn´ee par :
P(X = 0, Y = 0) = 1 − p
P(X = 1, Y = k) = pe−λλk/k!, pour tout k ∈ N P(X = j, Y = k) = 0 sinon.
On a bien P
i,jP(X = i, Y = j) = 1 : on a donc bien ´ecrit la loi d’un couple al´eatoire discret.
Exemple 2 : On dispose d’une urne contenant quatre jetons num´erot´es de 1 `a 4, et on tire au sort succes- sivement deux jetons sans remise. On note (X, Y ) les r´esultats des deux tirages.
On a : P(X = i, Y = i) = 0 pour tout i entre 1 et 4 et P(X = i, Y = j) = 1/12 si 1 ≤ i, j ≤ 4 et i 6= j.
On peut ´ecrire les probabilit´es sous la forme du tableau suivant (o`u par exemple dans la deuxi`eme case de la premi`ere ligne, on lit P(X = 1, Y = 2)) :
1 2 3 4
1 0 1/12 1/12 1/12 2 1/12 0 1/12 1/12 3 1/12 1/12 0 1/12 4 1/12 1/12 1/12 0
Exemple 3 : Loi trinomiale. On se fixe un nombre entier n strictement positif et deux param`etres r´eels positifs px et py tels que px + py ≤ 1. La loi trinomiale (n, px, py) est la loi du couple (X, Y ) tel que
(X, Y )(Ω) ∈ N2 et donn´ee pour tout (i, j) ∈ N2 tels que i + j ≤ n par : P(X = i, Y = j) = n!
i!j!(n − i − j)!pixpjy(1 − px− py)n−i−j, et P(X = i, Y = j) = 0 sinon.
La loi trinomiale est une extension de la loi binomiale. Imaginons en effet une exp´erience qui a trois issues possibles, not´ee x, y et z, avec comme probabilit´e de r´ealisation px, py et pz = 1 − px− py. R´ep´etons n fois cette exp´erience (n est fix´e) de fa¸con ind´ependante et comptons le nombre d’apparitions de x (nombre not´e X) et de y (not´e Z) parmi ces n r´ep´etitions. C’est alors un exercice de d´enombrement que de d´emontrer que le couple (X, Y ) suit alors une loi trinomiale de param`etres (n, px, py).
1.2 Lois marginales
D´efinition 3.1. Les (deux) lois marginales du couple (X, Y ) sont les lois des variables al´eatoires X et Y . On les obtient de la fa¸con suivante :
P(X = x) = X
y∈Y (Ω)
P(X = x, Y = y),
P(Y = y) = X
x∈X(Ω)
P(X = x, Y = y).
Preuve : On a
{X = x} = {X = x, Y ∈ Y (Ω)} = [
y∈Y (Ω)
{X = x, Y = y}.
Comme la r´eunion est d´enombrable et disjointe, il vient : P(X = x) = X
y∈Y (Ω)
P(X = x, Y = y).
Plus g´en´eralement, un vecteur (X1, . . . , Xn) `a valeurs dans Zn poss`ede n lois marginales unidimension- nelles, mais ´egalement n(n − 1) lois marginales bidimensionnelles, et ainsi de suite. On a par exemple
P(X1 = x) = X
(x2,...,xn)∈Zn−1
P(X1 = x, X2 = x2, . . . , Xn= xn).
Reprenons les exemples pr´ec´edents : Exemple 1.
D´eterminons la loi de X : X est `a valeurs dans {0, 1} et on a : P(X = 0) =X
j∈N
P(X = 0, Y = j) = 1 − p.
De la mˆeme fa¸con :
P(X = 1) = X
j∈N
P(X = 1, Y = j) = X
j≥0
pe−λλj/j! = p.
La variable al´eatoire X suit donc une loi de Bernoulli de param`etre p. Calculons aussi la loi de Y : P(Y = 0) = P(X = 0, Y = 0) + P(X = 1, Y = 0) = 1 − p + pe−λ.
Et pour tout j ≥ 1,
P(Y = j) = P(X = 0, Y = j) + P(X = 1, Y = j) = pe−λλj/j!.
Exemple 2 : Il suffit de sommer en colonne pour avoir la loi de X, et en ligne pour obtenir celle de Y . En pratique, on peut ajouter une colonne et une ligne au tableau pour y ´ecrire les lois de X et Y . Et avant de conclure, on prend le soin de v´erifier que la somme de cette colonne (et de cette ligne) vaut 1.
On trouve ici que X et Y suivent une loi uniforme sur {1, 2, 3, 4}.
Exemple 3 : On consid`ere le couple (X, Y ) de loi trinomiale (n, px, py). D´eterminons la loi marginale de X : fixons j ∈ {0, . . . , n} et ´evaluons P(X = j).
On a
P(X = j) =
n
X
k=0
P(X = j, Y = k)
=
n−j
X
k=0
P(X = j, Y = k) +
n
X
k=n−j+1
P(X = j, Y = k)
=
n−j
X
k=0
n!
j!k!(n − j − k)!pjxpky(1 − px− py)n−j−k+ 0
= n!
j!(n − j)!pjx
n−j
X
k=0
(n − j)!
k!(n − j − k)!pky(1 − px− py)n−j−k
= n j
njpjx(1 − px)n−j
La variable al´eatoire X suit donc une loi Bin(n, px). Un calcul similaire montre que Y suit une loi binomiale Bin(n, py).
1.3 Loi de f (X, Y )
Probl`eme : On dispose d’un couple de variables al´eatoires discr`etes (X, Y ) dont on connaˆıt la loi conjointe et on voudrait connaˆıtre la loi de la variable al´eatoire Z = f (X, Y ), o`u f : X(Ω) × Y (Ω) → R est une fonction donn´ee. Par exemple, on a souvent besoin de connaˆıtre la loi de X + Y , ou celle de X − Y , ou de XY . Et d´eterminer la loi de X `a partir de celle de (X, Y ) revient `a consid´erer la fonction f (x, y) = x.
Proposition 3.2. On a Z(Ω) = f ((X, Y )(Ω)) et pour tout z ∈ f ((X, Y )(Ω)), on a
P(Z = z) = X
(x,y)∈(X,Y )(Ω),f (x,y)=z
P(X = x, Y = y).
Exemple : Reprenons une nouvelle fois l’exemple 1 et consid´erons la fonction f (x, y) = xy. La variable al´eatoire XY est `a valeurs dans N et on a
P(XY = 0) = P(X = 0, Y = 0) + P(X = 1, Y = 0) = 1 − p + pe−λ et, pour tout k ∈ N∗,
P(XY = k) = P(X = 1, Y = k) = pe−λλk k!.
Un cas particulier. Nous consid´erons ici la fonction f (x, y) = x + y. On obtient :
P(X + Y = z) = X
(x,y)∈(X,Y )(Ω),x+y=z
P(X = x, Y = y)
= X
x∈X(Ω)
P(X = x, Y = z − x)
= X
y∈Y (Ω)
P(X = z − y, Y = y)
Plus g´en´eralement, si X = (X1, . . . , Xn) est un vecteur al´eatoire discret et f : X(Ω) → R est une fonction donn´ee, on a :
P(f (X1, . . . , Xn) = z) = X
x1,...,xn,f (x1,...,xn)=z
P(X1 = x1, . . . , Xn = xn).
Exemple : Supposons que (X, Y ) suit une loi trinomiale (n, px, py) et calculons la loi de X + Y . Cette variable al´eatoire est `a valeurs dans N et on a, pour tout entier k :
P(X + Y = k) =
n
X
j=0
P(X = j, Y = k − j).
Pour tout k > n, chacun des termes de cette somme est nul donc P(X + Y = k) = 0.
Fixons maintenant un entier k ∈ {0, . . . , n}. On a :
P(X + Y = k) =
k
X
j=0
P(X = j, Y = k − j)
=
k
X
j=0
n!
j!(k − j)!(n − k)!pjxpk−jy (1 − px− py)n−k
= n!
(n − k)!(1 − px− py)n−k
k
X
j=0
1
j!(k − j)!pjxpk−jy
= n!
k!(n − k)!(1 − px− py)n−k(px+ py)k. La variable al´eatoire X + Y suit donc une loi binomiale Bin(n, px+ py).
1.4 Loi conditionnelle
Consid´erons un couple (X, Y ) de variables al´eatoires discr`etes, dont on connaˆıt la loi jointe et fixons y tel que P(Y = y) > 0.
La loi conditionnelle de X sachant l’´ev´enement {Y = y} est donn´ee par le fait que c’est une loi sur X(Ω) ainsi que par les probabilit´es conditionnelles P(X = x|Y = y) pour tout x ∈ X(Ω).
On v´erifie ais´ement que
X
x∈X(Ω)
P(X = x|Y = y) = 1
ce qui implique que la loi conditionnelle de X sachant {Y = y} est la loi d’une variable al´eatoire.
De plus, la formule des probabilit´es totales implique que P(X = x) = X
y∈Y (Ω)
P(X = x|Y = y)P(Y = y).
Cette d´efinition de la loi conditionnelle s’´etend `a des vecteurs al´eatoires : par exemple pour un triplet al´eatoire (X, Y, Z), on peut ´etudier la loi conditionnelle de X sachant {Y = y}, la loi conditionnelle de X sachant {Y = y et Z = z}, la loi conditionnelle du couple (X, Y ) sachant {Z = z}...
Exemple 1 : La loi de Y sachant {X = 1} est donn´ee par Y (Ω) ∈ N) et, pour tout entier positif k, on a P(Y = k|X = 1) = P(Y = k et X = 1)
P(X = 1) = pe−λλk k! × 1
p = e−λλk k!.
La loi conditionnelle de Y sachant que {X = 1} est donc une loi de Poisson de param`etre λ.
Exemple 2 : La loi de X sachant {Y = 1} est la loi uniforme sur {2, 3, 4}.
Exemple 3 : Supposons que (X, Y ) suit une loi trinomiale (n, px, py) et calculons la loi conditionnelle de X sachant {Y = k}, pour un entier k ∈ {0, . . . , n}. Remarquons tout d’abord que si j < 0 ou j > n − k, P(X = j|Y = k) = 0. Fixons maintenant un entier j ∈ {0, . . . , n − k}. On a
P(X = j|Y = k) = P(X = j et Y = k) P(Y = k)
= n! pjxpky(1 − px− py)n−j−k j!k!(n − j − k)!
k!(n − k)!
n! pky(1 − py)n−k
= (n − k)!
j!(n − k − j)!
px
1 − py
j 1 − px− py
1 − py
n−k−j
.
La loi conditionnelle de X sachant {Y = k} est donc une loi binomiale (n − k, px/(1 − py)).
1.5 Ind´ ependance de variables al´ eatoires discr` etes
D´efinition 3.3. Deux variables al´eatoires discr`etes X et Y sont dites ind´ependantes si pour tout x ∈ X(Ω) et tout y ∈ Y (Ω), les ´ev´enements {X = x} et {Y = y} sont ind´ependants, c’est-`a-dire : P(X = x, Y = y) = P(X = x)P(Y = y).
Si X et Y sont deux variables al´eatoires discr`etes ind´ependantes, on aura donc, pour tout y ∈ Y (Ω) et tout x ∈ X(Ω) tels que P(Y = y) > 0 et P(X = x) > 0, P(X = x|Y = y) = P(X = x) et P(Y = y|X = x) = P(Y = y).
Plus g´en´eralement, les n variables al´eatoires discr`etes X1, . . . , Xn sont (mutuellement ou n `a n) ind´ependantes si, pour tout choix de x1 ∈ X1(Ω), . . . , xn ∈ Xn(Ω), on a P(X1 = x1, . . . , Xn = xn) = P(X1 = x1) . . . P(Xn = xn).
Remarques :
• L’ind´ependance n `a n entraˆıne l’ind´ependance 2 `a 2 (mais la r´eciproque est fausse). ´Ecrire la preuve de ce r´esultat pour n = 3.
• Des ´ev´enements A1, . . . , An sont ind´ependants si et seulement si les variables al´eatoires 1A1, . . . , 1An le sont.
Proposition 3.4. Si les n variables al´eatoires discr`etes X1, . . . , Xn sont ind´ependantes alors on a X(Ω) = X1(Ω) × · · · × Xn(Ω).
Remarque : Lorsque les variables al´eatoires X et Y sont ind´ependantes, connaˆıtre les lois marginales permet donc de connaˆıtre la loi jointe du couple (X, Y ), alors que pour des variables al´eatoires quelconques, cela ne suffit pas.
1.6 Esp´ erance, matrice de covariance
Dans un souci de clart´e, tous les r´esultats de ce paragraphe et du suivant sont ´enonc´es pour les couples de variables al´eatoires discr`etes, et ils s’´etendent sans peine aux vecteurs al´eatoires discrets.
On consid`ere un couple al´eatoire discret (X, Y ).
D´efinition 3.5. • L’esp´erance du couple (X, Y ) est d´efinie si X et Y sont int´egrables et on a alors : E(X, Y ) = (E(X), E(Y )).
Remarque : Cette op´eration ne fait intervenir que les lois marginales.
• Si X et Y sont deux variables al´eatoires discr`etes de carr´e int´egrable, la covariance de X et de Y , ou covariance du couple (X, Y ), est donn´ee par
cov(X, Y ) = E(XY ) − E(X)E(Y ) = E[(X − E(X))(Y − E(Y ))].
• Si X et Y sont deux variables al´eatoires de carr´e int´egrable, la matrice de covariance du couple (X, Y ) est la matrice
C = var (X) cov(X, Y ) cov(X, Y ) var (Y )
.
Plus g´en´eralement, la matrice de covariance d’un vecteur (X1, . . . , Xn), dont chacune des composantes est de carr´e int´egrable, est une matrice n × n dont les termes diagonaux sont les variances des Xi et dont le terme (i, j) est la covariance cov(Xi, Xj) pour tout i 6= j.
Proposition 3.6. 1. Une matrice de covariance C est toujours une matrice sym´etrique et positive (i.e., pour tout v ∈ Rn, < v, Cv >≥ 0).
2. Si X et Y sont deux variables al´eatoires ind´ependantes et int´egrables, on a E(XY ) = E(X)E(Y ) et donc cov(X, Y ) = 0. La r´eciproque de ce r´esultat est fausse.
3. Si X et Y sont deux variables al´eatoires ind´ependantes et f et g deux fonctions telles que les variables al´eatoires f (X) et g(Y ) sont int´egrables, on a E(f (X)g(Y )) = E(f (X))E(g(Y )). La r´eciproque de ce r´esultat est fausse.
4. Si les variables al´eatoires X1, . . . , Xn sont ind´ependantes et de carr´e int´egrable, alors la matrice de covariance de (X1, . . . , Xn) est diagonale. La r´eciproque de ce r´esultat est fausse.
Preuve : 1. Soit X = (X1, . . . , Xn) un vecteur al´eatoire dont chaque composante est de carr´e int´egrable, notons C sa matrice de covariance et fixons v = (v1, . . . , vn) un vecteur de Rn. Quitte `a remplacer chaque Xi par Xi− E(Xi), on supposera les variables al´eatoires centr´ees (d’esp´erance nulle).
On a
< v, Cv > = X
i,j
Cijvivj
= X
i,j
E(XiXj)vivj
= E X
i,j
viXivjXj
!
= E
X
i
viXi
!
× X
j
vjXj
!!
= E
X
i
viXi
!2
On a donc bien < v, Cv >≥ 0.
2. Consid´erons deux variables al´eatoires discr`etes X et Y ind´ependantes et int´egrables. Montrons que XY est int´egrable et calculons son esp´erance. On a
E(|XY |) = X
x∈X(Ω),y∈Y (Ω)
|xy|P(X = x, Y = y)
Comme X et Y sont ind´ependantes, P(X = x, Y = y) = P(X = x)P(Y = y) donc
E(|XY |) = X
x∈X(Ω),y∈Y (Ω)
|xy|P(X = x)P(Y = y)
= X
x∈X(Ω)
|x|P(X = x) X
y∈Y (Ω)
|y|P(Y = y)
=
X
x∈X(Ω)
|x|P(X = x)
X
y∈Y (Ω)
|y|P(Y = y)
= E(|X|)E(|Y |).
On montre alors par un calcul similaire que E(XY ) = E(X)E(Y ), puis on en d´eduit que cov(X, Y ) = 0.
3. et 4. se d´eduisent ais´ement de 2.
La proposition suivante, bien que tr`es simple `a prouver, est fort utile :
Proposition 3.7. Si X et Y sont deux variables al´eatoires discr`etes et de carr´e int´egrable, on a var (X + Y ) = var (X) + var (Y ) + 2cov(X, Y ).
Si de plus, X et Y sont ind´ependantes, on a
var (X + Y ) = var (X) + var (Y ).
De plus, pour deux variables al´eatoires de carr´e int´egrable, il est possible d’obtenir une majoration de cov(X, Y ) `a partir des variances de X et Y :