• Aucun résultat trouvé

Introduction aux Probabilités et aux Statistiques

N/A
N/A
Protected

Academic year: 2022

Partager "Introduction aux Probabilités et aux Statistiques"

Copied!
54
0
0

Texte intégral

(1)

Introduction aux Probabilités et aux Statistiques

par Benoît Mselati et Florent Benaych-Georges (benaych@dma.ens.fr)

24 septembre 2006

(2)

Table des matières

1 Notions de base 3

1.1 Définitions . . . 3

1.2 Lois usuelles . . . 7

1.2.1 Lois usuelles discrètes . . . 7

1.2.2 Lois à densité usuelles . . . 9

1.2.3 Loi normale . . . 10

2 Les théorèmes limites fondamentaux 12 2.1 Deux types de convergence . . . 12

2.2 Loi des grands nombres . . . 13

2.3 Le théorème central limite . . . 14

2.4 L’approximation de Poisson . . . 16

3 Vecteurs gaussiens 18 3.1 Variables aléatoires gaussiennes . . . 18

3.2 Les vecteurs gaussiens . . . 19

3.2.1 Définition . . . 19

3.2.2 Loi d’un vecteur aléatoire . . . 20

3.2.3 Transformée de Fourier d’un vecteur gaussien . . . 20

3.2.4 Variables aléatoires gaussiennes indépendantes . . . 22

3.2.5 Image d’un vecteur gaussien par une application linéaire . . . 24

3.3 Le théorème central limite vectoriel . . . 24

3.4 Carrés de gaussiennes . . . 24

3.4.1 Les lois gamma . . . 25

3.4.2 Carrés de gaussiennes - Lois du chi-deux . . . 26

3.4.3 Lois de Student . . . 27

4 Statistiques 28 4.1 Modèles à paramètres . . . 28

4.1.1 Définition . . . 28

4.1.2 Exemples de modèles paramétriques . . . 29

4.2 Estimateurs . . . 29

4.2.1 Estimateur du maximum de vraisemblance . . . 29

4.2.2 Estimateurs sans biais, estimateurs convergents . . . 30

4.2.3 Estimateurs de l’espérance et de la variance . . . 32

4.3 Intervalles de confiance non asymptotiques . . . 33

4.3.1 Définitions . . . 33

4.3.2 Exemple : le modèle de Bernouilli . . . 34

4.3.3 Exemple : le modèle gaussien . . . 35

4.4 Intervalles de confiance asymptotiques . . . 40

4.4.1 Définition . . . 40

4.4.2 Intervalles de confiance asymptotiques pour l’espérance - Cas général . . . . 40

(3)

4.4.3 Intervalles de confiance asymptotiques pour l’espérance - Modèle de Bernouilli 41

4.5 Tests . . . 43

4.5.1 Formulation . . . 43

4.5.2 Lien avec les intervalles de confiance . . . 44

4.5.3 L’exemple des modèles gaussiens . . . 45

4.6 Modèle de regression simple . . . 48

4.6.1 Introduction . . . 48

4.6.2 Théorie . . . 48

4.6.3 Test d’hypothèses . . . 52

(4)

Chapitre 1

Notions de base

Introduction

La théorie des probabilités est la modélisation que les mathématiques font des phénomènes dans lesquels intervient ce que l’on appelle le hasard. Elle repose sur un certain nombre de notions : événement, probabilité d’un événement, variable aléatoire, loi, espérance d’une variable aléatoire.

Nous ne donnerons de ces notions que des définitions intuitives. Elles sont suffisantes pour l’usage simple que l’on en fera, mais des fondements plus rigoureux sont nécessaires à une utilisation un peu plus approfondie de la théorie des probabilités.

1.1 Définitions

La meilleure définition intuitive du concept d’événementest celle donnée par son sens courant.

On peut dire par exemple que c’est un phénomène E qui peut se produire, et aussi ne pas se produire, et qui se produit avec une certaine probabilitéP(E).

Unevariable aléatoire(en abrégév.a.) est une donnée dont la valeur précise dépend du hasard.

Ce peut être un nombre réel (on parle alors dev.a. réelle) ou complexe (v.a. complexe), un vecteur deRn ouCn (on parle alors devecteur aléatoire de dimensionn), ou une donnée non numérique, comme une couleur (par exemple quand on prend une boule au hasard dans une urne) ou une carte (quand on tire une carte au hasard).

Pour X v.a. à valeurs dansK (K =R,C, ou Rn), la loideX est l’application de l’ensemble P(K)des parties deK(le plus souvent, on ne considère pas toutes les parties deK, mais seulement celles qui sont dites boréliennes, mais nous passerons sur cette subtilité) vers[0,1]qui à une partie A de K associe la probabilité P({X ∈ A}) (notée plus simplement P(X ∈ A)) de l’événement {X ∈A}. Cette définition de la loi comme une application est assez abstraite et ne correspond pas à l’usage qu’on en fera. Le plus souvent, on parlera de la loi d’une v.a. X en disant “X suit une loi binomiale de paramètresn, p”, ou “X a une loi gaussienne de paramètres(m, σ2)”,etc... ce qui signifie respectivement

∀k∈ {0, . . . , n},P(X =k) =Cnkpk(1−p)n−k,

∀a < b,P(a≤X ≤b) = 1

2πσ

Rb

aexp(−(x−m)2/(2σ2))dx, etc...

Exemple : Leslois à densitéconstituent un exemple particulièrement intéressant. Une v.a.

réelleX est dite avoir une loi à densité si il existe une fonction continue par morceauxp:R→R+ telle que l’intégrale pour touta < b∈R,

P(a≤X≤b) = Z b

a

p(x)dx. (1.1)

(5)

On remarque que dans ce cas, l’intégrale R+∞

−∞ p(x)dx converge. En effet, p ≥ 0 et pour tout a < b∈R,Rb

a p(x)dx≤1. On admet que l’équation (1.1) reste vraie quanda=−∞et/oub= +∞.

La fonctionpest appelléedensité deX, à ne pas confondre avec la fonctionFX:x7→P(X ≤x), ditefonction de répartitiondeX (c’est la primitive depqui a pour limite zéro en−∞).

Des variables aléatoires sont ditesidentiquement distribuées(en abrégé i.d.) lorsqu’elles ont la même loi. Attention, ça ne signifie pas qu’elles sont égales. Par exemple, si on jette un dé deux fois, la loi du résultat obtenu au premier lancé est la même que celle du résultat obtenu au deuxième lancé, ces résultats sont donc des v.a.i.d., mais il arrive (souvent) qu’elles soient différentes. Mieux : lors du lancé d’un dé, la loi de la face tournée vers le bas et la loi de la face tournée vers le haut sont les mêmes, alors que ces deux v.a. ne prennent jamais la même valeur.

SoientE, F des événements. Considérer queEetFsont indépendants (au sens courant) revient à dire que savoir que E se produit ne donne aucune information sur la réalisation de F. Ceci se traduit par

P(F) = P(F sachantE)(notéP(F|E)).

Il est assez naturel de considérer queP(F|E) = P(E∩F)/P(E), donc l’indépendance deE et F reviendrait à l’équation P(F) = P(E∩F)/P(E). Nous adoptons cette définition, et donc deux événementsE, F sont ditsindépendantssi

P(E∩F) = P(E)P(F).

Deux variables aléatoiresX, Y à valeurs respectives dansK, Lsont ditesindépendantessi pour tousA⊂K,B ⊂L, les événements{X ∈A},{Y ∈B} sont indépendants, autrement dit si

∀A⊂K, B⊂L,P(X∈A, Y ∈B) = P(X ∈A)P(Y ∈B).

De façon plus générale, des v.a. X1, . . . , Xn à valeurs respectives dans K1, . . . , Kn sont dites indépendantessi∀A1⊂K1, A2⊂K2, . . . , An⊂Kn,

P(X1∈A1, . . . , Xn∈An) = P(X1∈A1)· · ·P(Xn ∈An),

et une famille infinie (par exemple indéxée parN, comme on le vera pour le TCL et la LGN) de v.a. est diteindépendantesi toutes ses sous familles finies sont indépendantes.

On admettra que l’indépendance de v.a. réellesX1, . . . , Xn est équivalente au fait que

∀a1, . . . an ∈R,P(X1≤a1, . . . , Xn ≤an) = P(X1≤a1)· · ·P(Xn ≤an).

Autrement dit, dans la définition, il suffit de prendre desAi de la forme]− ∞, ai].

Exercice 1.1.1 Montrer que si des v.a. X1, . . . , Xn sont indépendantes, alors pour tout p ∈ {1, . . . , n}, pour tous1≤i1< i2<· · ·< ip≤n, les v.a.Xi1, . . . , Xip sont indépendantes.

Exercice 1.1.2 Montrer que si des v.a. complexes X1, . . . , Xn sont indépendantes, alors pour toutes fonctions F1, F2,...,Fn définies surC à valeurs dans C, les v.a. F1(X1), . . . , Fn(Xn)sont indépendantes.

On admet le théorème suivant (sa démonstration nécessite des définitions plus rigoureuses et le recours aux tribus) :

Théorème 1.1.1 (Théorème des coalitions) Soit m ≥ 1, soient X1, . . . , Xn des variables aléatoires réelles indépendantes.

Soient p∈ {1, . . . , n}et 1≤i1< i2<· · ·< ip≤n Alors lespvecteurs aléatoires concaténés

(X1, . . . , Xi1),(Xi1+1, . . . , Xi2), . . . ,(Xip−1+1, . . . , Xip)

sont indépendants. De plus, pour toutes fonctionsF1dei1variables,F2dei2−i1 variables,...,Fp

deip−ip−1 variables, les v.a.

F1(X1, . . . , Xi1), F2(Xi1+1, . . . , Xi2), . . . , Fp(Xip−1+1, . . . , Xip) sont indépendantes.

(6)

Intuitivement, l’espérance de gain associée à un revenu aléatoire est la moyenne des valeurs que peut prendre ce gain, pondérées par les probabilités que ces valeurs soient obtenues. On définit donc l’espérance E(X) d’une v.a. réelle ou complexe X ne prenant qu’un nombre fini x1, . . . , xk

de valeurs comme la moyenne des nombres x1, . . . , xk pondérés par les probabilités respectives P(X =x1), . . . ,P(X=xn). Autrement dit

E(X) =

k

X

i=1

P(X=xi)xi.

On admet que la notion d’espérance s’étend à certaines variables aléatoires réelle ou complexes ne prenant pas forcement un nombre fini de valeurs. Ces v.a. sont ditesintégrables. Par exemple, lorsqueX est une v.a. réelle positive (X ≥0), on a

E(X) = lim

n→+∞

+∞

X

k=0

P k

n ≤X < k+ 1 n

k n

(et si la limite n’est pas définies, c’est queX n’est pas une variable aléatoire intégrable).

La différence entre les v.a. intégrables et celles qui ne le sont pas dépasse le niveau de ce cours, et nous nous contenteront de donner un critère d’intégrabilité pour les v.a. à densité.

N’ayant pas défini rigoureusement l’espérance E(X)d’une v.a.X (réelle ou complexe, et inté- grable, mais nous omettrons dorenevant ces précisions), nous ne pouvons qu’admettre les propriétés suivantes :

- siX est positive,E(X)∈R+ et on al’inégalité de Chebichev :

∀a >0,P(X ≥a)≤ E(X) a ; - pourX, Y v.a.,α, β∈R(ouC),E(αX+βY) =αE(X) +βE(Y); - pourX, Y v.a. complexes (donc éventuellement réelles),

X, Y indépendantes⇒E(XY) =E(X)E(Y).

De plus, siX est une v.a. à densitép,X est intégrable si et seulement si la fonctionx7→xp(x) est intégrable surR, et dans ce cas,

E(X) = Z +∞

−∞

xp(x)dx.

De façon plus générale, pour toute fonctionf :R→Ccontinue par morceaux,f(X)est intégrable si et seulement si la fonctionx7→ |f(x)|p(x)est intégrable surR, et dans ce cas,

E(f(X)) = Z +∞

−∞

f(x)p(x)dx.

Dans le cas oùf est à valeurs complexes,R+∞

−∞ f(x)p(x)dxn’a pas été défini en classe prépa, mais on le définit comme étant

Z +∞

−∞

<(f(x))p(x)dx+i Z +∞

−∞

=(f(x))p(x)dx.

On définit lavariance Var(X)d’une v.a. réelle X par la formule Var(X) =E[(X−E(X))2] =E(X2)−E(X)2, et la covariance de deux v.a. réellesX, Y par la formule

Cov(X, Y) =E[(X−E(X))(Y −E(Y))] =E(XY)−E(X)E(Y).

(7)

Exercice 1.1.3 1. Exprimer, pour X1, . . . , Xn v.a. réelles, la variance d’une combinaison li- néaireλ1X1+· · ·+λnXn à partir les covariances (et desλi).

2. Deux v.a.X, Y sont ditesnon corellées si leur covariance est nulle. Montrer que X, Y indépendantes ⇒ X, Y non corellées, et

X1, . . . , Xn 2 à 2 non corellées ⇒ Var(X1+· · ·+Xn)

= Var(X1) +· · ·+ Var(Xn).

Exercice 1.1.4 Par récurence surn≥2et en utilisant le théorème des coalissions, montrer que siX1, . . . , Xn sont des v.a. indépendantes,

E(X1· · ·Xn) =E(X1)· · ·E(Xn). (1.2) La dernière définition de cette section est celle de la transformée de Fourier(parfois appellée fonction caractéristique, sans lien avec la fonction caractéristiqueΞA d’un ensembleA),ϕX d’une v.a. réelleX.ϕX est l’application deRversCqui àt∈Rassocie l’espérance

ϕX(t) =E(eitX)

de la v.a. complexe eitX. On définit de la même façon la transformée de Fourier (ou fonction caractéristique)ϕXd’un vecteur aléatoireX= (X1, . . . , Xn)à valeurs dansRn: c’est l’application deRn versCqui à un vecteurt= (t1, . . . , tn)deRn associe l’espérance

ϕX(t) =E[exp(i

n

X

k=1

tkXk)]

de la v.a. complexeexp (iPn

k=1tkXk).

Exercice 1.1.5 Donner ϕX lorsque X est une v.a. ne prenant que les valeurs x1, . . . , xn, et ce avec probabilités respectivesp1, . . . , pn.

On admettra le théorème fondamental suivant :

Théorème 1.1.2 Deux v.a. réelles (et, plus généralement, deux vecteurs aléatoires de Rn) ont même loi si et seulement si leurs transformées de Fourier sont les mêmes en tout pointt deR(ou deRn).

Ainsi, la transformée de Fourier d’une v.a. caractérise sa loi. Aussi surprenant que cela puisse paraître, ce résultat nous sera très utile. On s’en servira de la façon suivante. On va calculer une fois pour toutes les transformées de Fourier des v.a. de lois usuelles (gaussienne, exponentielle, etc...), et pour déterminer la loi d’une v.a.X, on calculera sa transformée de Fourier. Si on tombe sur une de celles des lois usuelles, on n’aura plus à chercher plus loin, on connaîtra la loi deX.

Fonctions caractéristiques et indépendance Si les coordonnées X1, . . . , Xn du vecteur aléatoire réel X = (X1, . . . , Xn) sont des v.a. réelles indépendantes, alors, pour tout vecteur t = (t1, . . . , tn) de Rn, les v.a. complexes eit1X1, . . . , eitnXn sont indépendantes (par l’exercice 1.1.2), donc, par l’équation (1.2), on a

ϕX(t) =E[

n

Y

k=1

exp(itkXk)] =

n

Y

k=1

E[exp(itkXk)] =

n

Y

k=1

ϕXk(tk).

En fait, la réciproque est vraie aussi :

Théorème 1.1.3 SoitX = (X1, . . . , Xn)un vecteur aléatoire deRn. Alors les v.a. réellesX1, . . . , Xn sont indépendantes si et seulement si pour tout vecteurt= (t1, . . . , tn)deRn,

ϕX(t) =

n

Y

k=1

ϕXk(tk).

Ainsi, la transformée de Fourier caractérise aussi l’indépendance.

(8)

1.2 Lois usuelles

1.2.1 Lois usuelles discrètes

Les lois discrètes sont les lois sur R concentrées sur un ensemble dénombrable (i.e. fini ou indexé parN).

Loi de Bernoulli

Une loi de Bernoulli est en toute généralité la loi d’une variable aléatoire ne prenant que 2 valeurs. Typiquement, on considère une variable aléatoireX ne prenant que les valeurs0et1. La loi deX est déterminée par la donnée d’un réelpcompris entre0 et1tel que

P(X = 0) = 1−p , P(X = 1) =p.

Une telle loi est notéeB(p)et appelée “Bernoulli de paramètrep”. On a : -E(X) =p.

-Var(X) =p(1−p).

Loi binômiale

Une loi binômiale est la loi de la somme denvariables indépendantes identiquement distribuées (en abrégéi.i.d.) de Bernoulli de paramètrep. Autrement dit

X =X1+...+Xn

oùX1, .., Xn sont des variables aléatoires indépendantes vérifiant pour touti P(Xi = 0) = 1−p , P(Xi= 1) =p.

La variable aléatoireX prend ses valeurs dans l’ensemble{1, ..., n}. Pour queX soit égal à k, il faut quekparmi lesnv.a.X1, ..., Xn soient égales à1et que lesn−kaures soient égales à0. Des arguments combinatoires simples nous donnent

P(X =k) =Cnkpk(1−p)n−k= n!

k!(n−k)!pk(1−p)n−k pour tout1≤k≤n.

Nous disons queX suit la loiB(n, p). On vérifie les identités suivantes : -E(X) =Pn

i=1E(Xi) =np.

-Var(X) =Pn

i=1Var(Xi) =np(1−p).

Loi géométrique

Soit0≤p≤1. La loi géométrique de paramètre pest la loi surN d’une variable aléatoireX telle que

P(X =n) = (1−p)pn−1, n∈N. Notons que, pour toutn≥1,

P(X ≥n) =X

k≥n

(−p)pk = (1−p)pnX

k≥0

pk = (1−p)pn/(1−p) =pn. La loi géométrique possède ainsi la propriété remarquable suivante : sin≥1, etm≥0,

P(X ≥n+m|X ≥n) = P(X ≥m).

Cette propriété est appelée propriété de non-vieillissement et elle justifie l’utilisation de lois géo- métriques pour modéliser des durées de vie d’objets ne súsant pas : sachant que X est au moins égal àn, la probabilité queX soit plus grand quen+m, est égal à la probabilité initiale d’atteindre m.

(9)

Lois de Poisson

Rappelons que pour tout z∈C,

exp(z) =X

n≥0

zn n!.

La loi de Poisson de paramètre θ ≥0 notée P(θ)est la loi d’une variable aléatoire X à valeurs dansNtelle que

P(X=n) = exp(−θ)θn n!. On laisse au lecteur le soin de vérifier les propriétés suivantes.

Proposition 1.2.1 SoitX de loiP(θ).

- La fonction caractéristique de X est

ϕX(t) = exp(θ(exp(it)−1)).

- L’espérance deX et la variance de X sont données par E(X) =θ , Var(X) =θ.

Proposition 1.2.2 Supposons que X1, ..., Xn soient des variables aléatoires indépendantes sui- vant des lois de Poisson de paramètres respectifsθ1, ..., θn. Alors la loi deX1+...+Xn estP(θ1= ...+θn).

Preuve :Posons

X=X1+..+Xn. Soitt≥0. Par indépendance,

ϕX(t) = E(exp(itX))

= E(exp(itX1)...exp(itXn))

= E(exp(itX1))...E(exp(itXn))

= ϕX1(t)...ϕXn(t).

Grâce au calcul de la fonction caractéristique plus haut, on a

ϕX(t) = exp (θ1(exp(it)−1))...exp (θn(exp(it)−1)) = exp (θ(exp(it)−1)),

oùθ=θ1+...θn. On reconnait la fonction caractéristique d’une loi de Poisson de paramètreθ. DoncX suit bien une loi exponentielle de paramètreθ.

Exercice 1.2.1 Soit X une v.a. de loi P(λ), λ > 0. Determinez l’événement X = n le plus probable.

Indication : ∀n∈N,P(X =n) = exp(−λ)λn!n, et la fonctionn7→ λn!n ne se dérive pas aisément surR+ (à cause dun!, qui n’a, à priori, pas de sens sin /∈N). La bonne méthode est donc de calculer X=n+1X=n .

Exercice 1.2.2 Lois multinômiales

On considère nvariables aléatoiresX1, ..., Xn i.i.d. prenant pour simplifier leurs valeurs dans l’ensemble fini{1, ..., k}. Il existe donc des réelsp1, ..., pk≥0 tels quep1+...+pk= 1et

P(Xj=i) =pi

pout tout1 ≤j ≤n. On note alors pour tout1≤i≤k, N(i)le nombre de Xj égaux àiparmi lesnnombresX1, ..., Xn. En particulier, on a toujours

k

X

i=1

N(i) =n.

(10)

On noteN le vecteur(N(1), ..., N(k)). La loi du vecteur aléatoireN est appelée loi multinômiale de paramètresnet p1, .., pk.

L’objet de cet exercice est calculer la loi deN sans utiliser d’argument combinatoire.

Pour cela, on définitF comme la fonction dekvariables réellesx1, ..., xk définie par

F(x) =F(x1, ..., xk) =E

k

Y

i=1

xN(i)i

! .

1. En décomposant selon les valeurs possibles prises parN, montrer que

F(x) = X

n1+...+nk=n

P(N(1) =n1, ...., N(k) =nk)xn11...xnkk, (1.3)

où la somme est prise sur tous lesk-uplets(n1, ..., nk)deNk tels quen1+...+nk =n.

2. Calculer les dérivées n-ièmes deF.

3. En utilisant le caractère i.i.d. desXj, montrer que

F(x) =

k

X

i=1

pixi

!n .

4. En déduire que

P(N(1) =n1, ...., N(k) =nk) = n!

n1!...nk!pn11...pnkk sin1+...+nk =n.

Exercice 1.2.3 Processus de Poisson à temps discret Un processus de comptage est par définition une suite de variables aléatoires(Nn)n≥0 telle que

N0= 0 et Nn+1−Nn= 0ou1, pour toutn≥0.

Nous définissons alors les temps de saut(Sn)n≥1comme la suite de variables aléatoires à valeurs dansN définie par

S1= min{n≥1 ; Nn−Nn−1= 1}

et, pour toutn≥2,

Sn = min{n≥1 ; NSn−1+n−NSn−1= 1}.

Montrer l’équivalence des deux conditions suivantes :

– Les accroissements Nn+1−Nn, n≥0sont des variables i.i.d. de Bernoulli de paramètrep.

– Les v.a. Sn, n≥0sont des variables i.i.d. de loi géométrique de paramètrep.

Si les conditions précédentes sont vérifiées, on dit que(Nn)n≥0est un processus de Poisson à temps discret.

1.2.2 Lois à densité usuelles

Loi uniforme sur[0,1]

Soit U ∼ 1[0,1](x)dx. On entend par là que U a pour densité 1[0,1] (fonction indicatrice de l’intervalle [0,1]. La loi deU est appelée loi uniforme sur [0,1]. La fonction de répartition de U est donnée par

P(U ≤x) =





0six <0.

xsi0≤x≤1.

1six >1.

On peut “construire” toute loi à partir de la loi uniforme au sens de la proposition suivante.

(11)

Proposition 1.2.3 SoitXune variable aléatoire de fonction de répartitionF. NotonsF−1l’inverse de F à gauchedéfinie par

∀x∈]0,1[, F−1(x) = inf{y; F(y)≥x}.

AlorsX a même loi queF−1(U).

Remarques :

- SiF est strictement croissante,F est inversible et l’inverse à gauche coïncide avec l’inverse au sens usuel.

- On parle d’inverse à gauche carF−1 est toujours continue à gauche.

- Si on peut calculer explicitementF−1, pour simulerX, il suffit donc de savoir simulerU, ce qui est classiquement programmé sur ordinateur.

Preuve :Montrons que pour toutx∈[0,1]et touty∈R,

F−1(x)≤y⇐⇒x≤F(y).

Supposons d’abord quex≤F(y). Cela implique que

y≥inf{z; F(z)≥x}=F−1(y).

Inversement, supposons que

x > F(y).

Cela signifie que

P(X≤y)< x.

La fonction de répartition étant toujours continue à droite et étant croissante, il existeε >0tel que P(X≤z)< x

pour toutz≤y+ε.Il est donc clair que

inf{z; F(z)≥x} ≥z+ε > y.

Nous avons montré l’équivalence voulue.

Soit maintenanty∈R. Par le résultat précédent, commeU suit une loi uniforme sur[0,1], on a P(F−1(U)≤y) = P(U ≤F(y)) =F(y).

Par conséquent,F−1(U)etX ont même fonction de répartition et donc même loi.

1.2.3 Loi normale

On dit queX suit une loi gaussienne (ou normale) d’espérancem et de varianceσ2 >0 si et seulement siX a pour densité

exp

−(x−m)22

1 σ√

2π. On note alorsX ∼ N(m, σ2). La variable aléatoireX vérifie alors





E(X) =m.

Var(X) =σ2. ϕX(t) = exp

itm−σ22t2 . Plus généralement, pour toutλdansC,

E(exp(λX)) = exp(λm+λ2 2 ).

Sim= 0etσ2= 1, on dit que la loi est normale centrée et réduite. SiX ∼ N(m, σ2)avecσ >0,

X−m

σ est normale centrée réduite.

Il est à noter que la fonction caractéristique deX ne dépend que de l’espérance et de la variance deX. Nous reviendrons plus en détail sur les variables gaussiennes.

(12)

Loi exponentielle Soitθ >0 et

X ∼θexp(−θx)1x>0dx.

La loi deX est par définition laloi exponentielle de paramètreθ : elle vérifie (

E(X) = 1θ. ϕX(t) = θ−itθ .

La fonction de répartitionFθ d’une loi exponentielle de paramètreθ se calcule aisément. On a Fθ(x) = 1x≥0

Z x 0

θexp(−θu)du= 1x≥0(1−exp(−θx)).

On voit qu’alors pour touty∈[0,1),

F−1(y) =−1

θlog(1−y).

D’après la proposition 1.2.3 siU suit une loi uniforme sur[0,1], −1θlog(1−U)suit une loi expo- nentielle de paramètreθ. CommeU et1−U ont même loi,

−1 θlog(U) suit également une loi exponentielle de paramètreθ.

On peut remarquer que l’on a aussi

P(X ≥x) = 1−Fθ(x) = exp(−θx), pour toutx≥0. Sixety sont positifs, on en déduit aisément que P(X≥x+y|X ≥x) = P(X≥y).

Comme dans le cas discret pour les lois géométriques, on parle de propriété de non vieillissement et on utilise dons parfois les lois exponentielles pour modéliser des durées de vie.

(13)

Chapitre 2

Les théorèmes limites fondamentaux

Introduction

Après avoir introduit dans un premier temps les deux principaux types de convergence de suites de variables aléatoires, nous présenterons des théorèmes fondamentaux de la théorie des probabilités dont les conséquences seront développées dans les chapitres suivants.

La loi des grands nombres nous dit que lorsque l’on répète une même expérience aléatoire indépendamment un grand nombre de fois, la fréquence empirique d’un événement converge vers laprobabilité théorique de cet événement.

De manière plus précise, lethéorème central limitenous montre que l’écart entre lamoyenne empiriqueet lamoyenne théoriquesuit asymptotiquement une loi gaussiennedont l’écart- type diminue comme l’inverse de la racine carrée du nombre d’expériences.

L’approximation de Poisson nous montre que la loi de Poisson est une bonne approximation de la loi de la somme d’un grand nombre de variables aléatoires indépendantes de Bernoulli de paramètre petit.

2.1 Deux types de convergence

Soit(Xn)une suite de variables aléatoires réelles etX une variable aléatoire réelle.

On dit queXn converge versX et on écrit Xn −−−−→

n→∞ X, si la probabilité de l’événement

{la suite de nombres réels(Xn)n∈Nconverge et lim

n→∞Xn=X}

est1.

Remarque :Dans de nombreux ouvrages de mathématiques, on parle, dans ce cas, deconver- gence prsque sûre. Il est légitime de se demander pourquoi on parle de convergence “presque sûre”, et pas de converge “sûre” ? C’est dû au fait que l’événement

{la suite de nombres réels(Xn)n∈Nne converge pas vers X}

a une probabilité nulle, mais n’est pas vide. Cet événement n’arrive jamais, mais il est envisa- geable, formulable. On parle de convergence “presque sûre” plutôt que de convergence “sûre” par

“égard” pour cet événement, qui, bien que de probabilité nulle, existe. De la même façon, siU est une v.a ; uniforme sur[0,1], l’événement

{U = 1/2}

a une probabilité nulle, mais existe quand même. Ces considérations ne sont pas dénuées d’interêt lorsque l’on utilise la théorie des probabilités de manière plus approfondie, mais elles n’apportent rien à ce cours.

(14)

Laconvergence en loiest assez différente, du point de vue conceptuel, de la convergence précé- dente. Considérons une suite de variables aléatoires(Xn)n≥0. On dit queXn converge en loi vers X, et on note

Xn−−−−→loi

n→∞ X

si et seulement si pour toutx∈Rtel que P(X=x) = 0, P(Xn≤x)−−−−→

n→∞ P(X ≤x).

On peut noter que si

Xn

−−−−→loi n→∞ X, et sia≤b vérifientP(X =a) = P(X =b) = 0, alors

P(a≤Xn≤b)−−−−→

n→∞ P(a≤X ≤b).

Nous admettrons que la convergence implique la convergence en loi. La réciproque est fausse.

Essayons de comprendre pourquoi. Dire que Xn converge vers X revient à dire que quand nest grand, les deux nombresXn etX, qui dépendent du hasard, seront proches. On auraXn 'X. Il est donc naturel que

P(a≤Xn ≤b)'P(a≤X ≤b).

Par contre, de la même manière que le fait que deux v.a. aient la même loi n’implique pas qu’elles soient égales, le fait que

P(a≤Xn ≤b)'P(a≤X≤b)

n’implique pas queXn'X. Reprenons l’exemple d’une v.a.X donnée par la face tournée vers le haut d’un dé qu’on jette. Considérons la v.a.Y de la face tournée vers le bas du même dé lors du même lancé.Y et X ont la même loi, donc en posant : pour tout n,Xn =Y, on a

∀n∈N,P(a≤Xn≤b) = P(a≤X ≤b).

Pourtant,Xn etX sont toujours deux nombres distants de au moins1.

Le théorème suivant montre que la convergence en loi se caractérise aussi avec les transformées de Fourier.

Théorème 2.1.1 (Théorème de Paul Lévy) Xnconverge en loi versX si et seulement si pour toutt∈R,

ϕXn(t)−−−−→

n→∞ ϕX(t).

2.2 Loi des grands nombres

Commençons en ennonçant la loi des grands nombres (LGN) sous sa forme la plus générale.

Théorème 2.2.1 (Loi forte des grands nombres) Soit (Xn)n≥1 une suite de variables aléa- toires i.i.d.. Posons

Sn =X1+...+Xn,

etm=E(X1)(=E(Xn) pour toutn, puisque leXn sont identiquement distribuées), Alors Sn

n −−−−→

n→∞ m.

(15)

Ce théorème affirme que si on veut calculer l’espérance d’une v.a. X, il suffit de prendre un grand nombre de v.a.X1, . . . , Xnindépendantes et ayant toutes la loi deX, et de faire la moyenne

X1+· · ·+Xn n des valeurs données par ces v.a.. On a alors

E(X)' X1+· · ·+Xn

n .

Nous allons maintenant donner le corollaire de ce théorème qui relie la fréquence de réalisation d’un événement et sa probabilité.

Corollaire 2.2.2 (Loi empirique des grands nombres) Soit(An)n≥1une suite d’événements indép. de même probabilitép. Alors en définissant, pourn≥1, la v.a.

Nn= Card {k∈ {1, . . . , n}/ Ak est réalisé}

, on alimn→∞Nnn =p.

Ce corallaire affirme que si on veut calculer la probabilité d’un événementA, il suffit de considérer un grand nombre A1, . . . , An d’événements indépendants et ayant tous la même probabilité que A, et de compter le nombreNn de ces événements qui sont en fait réalisés. On a alors

P(A)' Nn

n .

Preuve : Il suffit de définir, pour toutn, la v.a.Xn, qui vaut1siAn est réalisé, et0sinon. LesAnétant indép., les Xn le sont ausii, de plus, pour toutn, la loi deXn est une loi de Bernouilli de paramètre p, donc on a

Nn

n = 1 n

n

X

k=1

Xk−−−−→

n→∞ E(X1) =p.

Application 2.2.3 Considérons un dé pipé, qui donne aux faces 1, . . . ,6 les probabilités respec- tives p1, . . . , p6 de tomber. Alors en lançant le dé un grand nombre nde fois, en notant respecti- vementC1, . . . , C6le nombre de fois qu’il est tombé sur 1, . . . ,6, on a(p1, . . . , p6)'(Cn1, . . . ,Cn6).

Remarque : Le Th. Central Limite nous dira que si on le lancenfois, la précision de l’estimation (p1, . . . , p6)'(Cn1, . . . ,Cn6)sera de l’ordre de 1n. Par exemple, si on veut estimerp1, . . . , p6 avec une précision de variance0,1, il faudra le lancer100fois.

2.3 Le théorème central limite

La loi des grands nombres nous dit qu’en présence d’une suite(Xn)n≥1de variables aléatoires i.i.d., lamoyenne empirique Snn converge vers lamoyenne théoriqueE(X1). Cependant, nous ne savons rien des fluctuations autour de cette moyenne théorique, autrement dit de la vitesse de convergence de la moyenne empirique en fonction den.

Théorème 2.3.1 (Théorème central limite) Soit (Xn)n≥1 une suite de variables aléatoires i.i.d. Notonsm=E(X1)etσ2=V ar(X1).

Alors,

√n Sn

n −m loi

−−−−→

n→∞ N(0, σ2) en loi. N(0, σ2) désigne une gausienne centrée de variance σ2.

(16)

Remarques :

- On écrit parfois le théorème central limite sous la forme Sn−nm

σ√ n

−−−−→loi

n→∞ N(0,1).

- Le théorème central limite nous donne une sorte de développement limité de la moyenne empirique lorsquenest grand. Autrement dit, pourngrand, on a

Sn

n

loi'm+ σ

√nG

oùGest une gaussienne centrée réduite. La convergence dans la loi des grands nombres est donc pour ainsi dire en σn : Les fluctuations autour de la moyenne théorique au bout denexpériences sont de l’ordre de σn.

- Il est assez remarquable de noter que les gaussiennes apparaissent à la limite quelle que soit la loi commune desXi, pourvu que lesXi soient de carré intégrable. Ceci nous montre le caractère universeldes lois normales.

- En pratique, lorsquen≥30, l’approximation “

n σ

Sn n −m

est gaussienne centrée réduite” est bonne. Nous admettons ce lemme, à partir duquel nous démontrerons le théorème.

Lemme 2.3.2 SoitX une variable aléatoire de carré intégrable de fonction caractéristiqueϕ.

Lorsque t−→0, nous avons

ϕ(t) = 1 +itE(X)−t2

2E(X2) +o(t2), c’est-à-dire

ϕ(t)−1−itE(X) +t22E(X2)

t2 −−−−−−→

t→0, t6=0 0.

Donnons maintenant une preuve du TCL :

Preuve : Quitte à remplacerXi par Xiσ−m, nous supposerons quem= 0etσ= 1. Il s’agit de considérer la fonction caractéristiqueϕn de Snn. On a

ϕn(t) =E

„ exp

„ itSn

√n

««

=E

„ exp

„itX1

√n +...+itXn

√n

««

.

Comme lesXisont indépendantes et de même loi,

ϕn(t) =E

„ exp

„itX1

√n

««

...E

„ exp

„itXn

√n

««

=E

„ exp

„itX1

√n

««n

. Soitϕla fonction caractéristique deX1. Nous avons donc obtenu

ϕn(t) =ϕ

„ t

√n

«n

.

L’idée est de remarquer que pour des grandes valeurs den, d’après le théorème précédent,

ϕ

„ t

√n

«

= 1 +i t

√nE(X)− t2

2nE(X2) +o(1

n) = 1− t2 2n+o(1

n).

Donnons une idée de la fin de la démonstration. On remarque que lorsquentend vers l’infini,

ϕn(t) =ϕ

„ t

√n

«n1

= exp

„ nlogϕ

„ t

√n

««

. Par conséquent,

ϕn(t) = exp

„ nlog

„ 1− t2

2n+o

„1 n

«««

= exp

−n

„t2 2n+o(1

n)

««

= exp

−t2 2 +o(1)

« .

(17)

Ainsi,

ϕn(t)−−−−→

n→∞ exp

−t2 2

« .

On a vu que

t7−→exp(−t2 2)

est la fonction caractéristique d’une loi normale centrée réduite. D’après le théorème de Paul Lévy sur la convergence en loi, on a obtenu

Sn

√n

−−−−loi

n→∞ N(0,1).

Exercice 2.3.1 On lance un dé non pipé 100 fois, de façon bien entendu indépendante. Quelle est la probabilité que la somme totale des points obtenus soit entre 300 et 400 ?

Solution : La somme totale est

S =

100

X

i=1

Xi,

oùXireprésente le nombre de points obtenus. L’espérance deXiest 3,5, et sa variance est 35/12.

Par le TCL, S−350

10

35/12 suit approximativement une loiN(0,1).

P(300≤S ≤400) = P( −5

p35/12 ≤ S−350 10p

35/12 ≤ 5 p35/12)

= P(−2,93≤ N(0,1)≤2,93)

= 0,9966

2.4 L’approximation de Poisson

Nous terminons ce chapitre avec un théorème limite assez fondamental. Nous rappelons que la loi binômiale B(n, p) est la loi de la somme de nvariables aléatoires indépendantes de Bernoulli de paramètrep. Autrement dit, pour0≤k≤n,

B(n, p)({k}) =Cnkpk(1−p)n−k.

La loi de PoissonP(λ)est la loi sur l’ensemble des entiers Ntelle que pour toutk≥0, P(λ)({k}) = exp(−λ)λk

k!.

Théorème 2.4.1 (Approximation de Poisson) Supposons que (pn) soit une suite de réels compris entre0 et1 etλun réel tels que

npn −−−−→

n→∞ λ, alors, on a la convergence en loi

B(n, pn)−−−−→loi

n→∞ P(λ).

Remarque :Lorsqu’on est en présence d’une loi binômiale B(n, p)avecppetit etn grand et si le produitnp est de l’ordre de1, il est raisonnable d’approcherB(n, p)par une loi de Poisson de paramètrenp, ce qui simplifie parfois considérablement les calculs.

(18)

Preuve :Comme d’habitude, on regarde les fonctions caractéristiques. SoitX1,n, ...Xn,n nvariables aléa- toires de Bernoulli indépendantes de paramètrepn. Notons

Xn=X1,n+...+Xn,n. La fonction caractéristique deXnest par indépendance

ϕXn(t) =E(exp(itXn)) =E(exp(itX1,n))...E(exp(itXn,n))

= ((1−pn) +pnexp(it))n= (1 +pn(exp(it)−1))n. Commenpn−−−−→

n→∞ λ, on a pourngrand,

E(exp(itXn))'(1 +λ

n(exp(it)−1))n.

Un lemme classique d’analyse nous dit que pour tout nombre complexez, pour toute suite un telle que limnun=z,

(1 +un)n−−−−→

n→∞ exp(z).

Par conséquent,

E(exp(itXn))−−−−→

n→∞ exp (λ(exp(it)−1)).

Nous avons vu que le membre de droite de la dernière égalité était égal à la valeur ent de la fonction caractérisique d’ une loi de Poisson de paramètreλ. D’où le résultat escompté.

Voici quelques exemples d’événements dont on peut approcher la loi par une loi de Poisson d´après le théorème précédent :

- le nombre de défauts de production dans un processus industriel.

- le nombre de fautes d’impression par page.

- le nombre de clients à une caisse par tranche de5minutes.

- le nombre de sinistres par jour dans une compagnie d’assurance.

...

(19)

Chapitre 3

Vecteurs gaussiens

Introduction

Les variables gaussiennes sont des lois universelles qui sont d’une importance particulière. Il sera très utile en particulier en statistique de pouvoir passer du cas de la dimension 1 à des dimensions plus grandes.

Ce passage nécessite de développer un formalisme qui sera l’objet du début du chapitre. Nous calculerons la fonction caractéristique des vecteurs gaussiens que nous aurons préalablement définis. Nous montrerons aussi comment nous pouvons alors aborder de manière très efficace et très simple les problèmes d’indépendance de variables gaussiennes.

Nous énoncerons ensuite lethéorème central limite vectorielqui généralise le théorème central limite classique.

Nous terminerons par l’introduction deslois du chi-deuxqui apparaissent en présence de carrés de variables gaussiennes.

3.1 Variables aléatoires gaussiennes

Nous avons déjà introduit les lois gaussiennes. Les v.a. gaussiennes sont les v.a. dont la loi est une loi gaussienne.

Définition 3.1.1 (Variables gaussiennes - Lois normales) Soit m ∈ R et σ > 0. On dit qu’une variable aléatoireX est une gaussienne d’espérancem et de varianceσ2 ou encore queX suit une loi normale d’espérancem et de varianceσ2 si et seulement si X a pour densité

exp

−(x−m)22

dx σ√

2π, autrement dit, si et seulement si pour tout a∈R,

P (X ≤a) = Z a

−∞

exp

−(x−m)22

dx σ√

2π.

On noteN(m, σ2)cette loi. On note N(m,0) la loi d’une variable aléatoire constante égale àm.

Lorsque X suit une loiN(m, σ2),σ≥0, on a

E(X) =m , Var(X) =σ2.

Lorsquem= 0, on dit queX est centrée. Lorsquem= 0etσ= 1, on dit queX est une gaussienne centrée réduite (ou suit une loi normale centrée réduite).

(20)

Remarques :

- On peut noter que l’identité

Z +∞

−∞

exp

−x22

dx σ√

2π = 1 n’est pas évidente a priori. Nous l’admettrons.

- Le calcul de l’espérance et de la variance à partir de la densité se font par intégrations par parties.

- Un point très important est que la loi d’une variable gaussienne ne dépend que de son espérance et de sa variance.

- LorsqueX ∼ N(m, σ2)avecσ >0, la variable aléatoire X−m

σ est centrée réduite.

Voici quelques propriétés des variables aléatoires gaussiennes.

Proposition 3.1.2 Soitm∈R,σ≥0 et soit une variable aléatoire X∼ N(m, σ2).

(1) Pour tout λ∈C,

E(exp(λX)) = exp(λm+σ2λ2 2 ).

(2) Pour tout t∈R,

E(exp(itX)) = exp(itm−σ2λ2 2 ).

(3) Si X est centrée réduite, alors pour tout n≥1,

E(X2n−1) = 0, E(X2n) = (2n)!

2n(n!)2.

Théorème 3.1.3 (Combinaisons linéaires de v.a. gaussiennes indépendantes) SoientX1, . . . , Xn des v.a. gaussiennes d’espérances respectivesm1, . . . , mnet de variances respectivesσ21, . . . , σ2n. On

suppose ces v.a. indépendantes. Soienta1, . . . , an∈R.

Alors la v.a. a1X1+· · ·+anXn est gaussienne de moyenne et variance a1m1+· · ·+anmn , a21σ21+· · ·+a2nσ2n.

Exercice 3.1.1 1. Montrer le théorème précédent en utilisant la transformée de Fourier.

2. Trouver un contre-exemple dans le cas où lesXi ne sont pas indépendants.Indication : on pourra prendren= 2,X1de loi normale centrée réduite, etX2=−X1.

3.2 Les vecteurs gaussiens

3.2.1 Définition

Les v.a. gaussiennes apparaissent fréquement dans les modélisations de phénomènes aléatoires.

Il arrive que l’on ai à travailler avec une famille finie de v.a. (qui constituent donc un vecteur aléatoire) qui soient toutes gaussiennes et telles que leurs combinaisons linéaires soient aussi gaus- siennes. C’est ce qui nous amène à donner la définition suivante :

Définition 3.2.1 (Vecteur gaussien) SoitX = (X1, ..., Xn)un vecteur aléatoire à valeurs dans Rn. On dit que X est un vecteur gaussien si et seulement si pour tout(u1, ..., un)∈Rn,

< u, X >:=u1X1+...+unXn

est une variable aléatoire gaussienne.

(21)

Remarque : Si X est un vecteur gaussien, alors pour tout 0 ≤i ≤n, la variable aléatoire Xi

correspondant à la i-ème coordonnée deX est une variable aléatoire gaussienne. Mais, il faut bien faire attention au fait qu’inversement, pour qu’un vecteur soit gaussien, il ne suffit pas que chacune des coordonnées soit une variable gaussienne. Il faut et il suffit quetoute combinaison linéaire des coordonnéesdeX suive une loi normale.

Exercice 3.2.1 Soitr∈N, n1, . . . , nr∈N. Soient Y1, . . . , Yr des vecteurs aléatoires gaussiens indépendants à valeurs dans respectivementRn1, . . . ,Rnr.

Montrer que le vecteur aléatoire(Y1, . . . , Yr), à valeurs dansRn1+···+nr, est gaussien.

3.2.2 Loi d’un vecteur aléatoire

On rappelle la définition :

Définition 3.2.2 SoitX= (X1, ..., Xn)un vecteur aléatoire à valeurs dans Rn.On appelle loi de X la fonction

Q : P(Rn) → [0,1]

A 7→ P(X∈A)) On note souvent L(X)pour Q.

Exercice 3.2.2 SoientX, Y des vecteurs aléatoires à valeurs dansRn, de même loi, et soitf une fonction deRn versR.

Montrer quef(X)et f(Y)ont même loi.

Le résultat suivant est une sorte de réciproque de cet exercice :

Théorème 3.2.3 SoientX, Y des vecteurs aléatoires à valeurs dansRntels que pour toutv∈Rn, les v.a.< v, X >et< v, Y > ont même loi. AlorsX etY ont même loi.

Corollaire 3.2.4 (Transfo. de Fourier et loi des vecteurs aléatoires) SoientX, Y des vec- teurs aléatoires à valeurs dansRn tels que pour tout v∈Rn,

E(exp(i < v, X >)) =E(exp(i < v, Y >)).

AlorsX etY ont même loi.

3.2.3 Transformée de Fourier d’un vecteur gaussien

Le corollaire précédent montre l’interêt du calcul de la tr. de Fourier pour déterminer la loi d’un vecteur aléatoire.

Définition 3.2.5 SoitX = (X1, ..., Xn)un vecteur aléatoire à valeurs dansRndont toutes les co- ordonnées sont intégrables. On appelle espérance deX le vecteur deRnE(X) = (E(X1), . . . ,E(Xn)).

Rappelons la définition et la propriété principale de la matrice de covariance :

Définition 3.2.6 Supposons que X = (X1, ..., Xn) soit un vecteur aléatoire à valeurs dans Rn. On appelle matrice de covariancedeX la matrice carrée(n, n)notée

Cov(X) = Σ(X) = (Σi,j)1≤i≤n

1≤j≤n

telle que pour tout 1≤i, j≤n,

Σi,j = Cov(Xi, Xj).

(22)

Définition 3.2.7 Soit

A= (ai,j)1≤i≤n

1≤j≤n

une matrice symétrique. On appelle forme quadratique associée à A l’application qA, de Rn vers R, définie par

qA(x) =

n

X

i,j=1

ai,jxixj.

Remarque : Une matrice de covarianceΣest toujours symétrique et positive : ça signifie que la forme quadratique associéeqΣest une fonction positive surRn.

Proposition 3.2.8 SoitX = (X1, ..., Xn) soit un vecteur aléatoire à valeurs dans Rn, de carré intégrable, et de matrice de covariance A. Alors pour tout vecteur (non aléatoire) v ∈ Rn, la variance de la v.a. réelle < v, X >est qA(v), oùqA est la forme quadratique associée à A.

Théorème 3.2.9 (Transformée de Fourier d’un vecteur gaussien) Soit X = (X1, ..., Xn) un vecteur aléatoire gaussien à valeurs dansRn. On posem=E(X)∈Rn et A= Cov(X). Alors pour toutv∈Rn, on a :

E exp(i < v, X >)

= exp(i < v, m >−1 2qA(v)).

On avait défini un vecteur aléatoire gaussien en disant que c’était un vecteur aléatoire X = (X1, ..., Xn)tel que pour toutv∈Rn, il existemv∈R,σ2v≥0tels que la v.a.v1X1+· · ·+vnXn=<

v, X >a pour loiN(mv, σ2v). On sait maintenant exprimermv et σv2:

Corollaire 3.2.10 Pour tout v∈Rn, la loi dev1X1+· · ·+vnXn est la loi normale d’espérance v1E(X1) +· · ·+vnE(Xn)et de variance qA(v).

Corollaire 3.2.11 La loi d’un vecteur aléatoire gaussien est entièrement déterminée par son es- pérance et sa matrice de covariance.

Remarque : La loi d’un vecteur gaussien n’est pas déterminée par les lois de ses coordonnées : – soit N une v.a. de loiN(0,1), et soitY le vecteur aléatoire à valeurs dans Rn def. par

Y = (N, N, . . . , N

| {z }

nfois

)

– soientX1, . . . , Xn des v.a.i.i.d. de loiN(0,1)et soitZ le vecteur aléatoire à valeurs dansRn def. par

Z = (X1, X2, . . . , Xn)

La loi de toute coordonnée de Y ou deZ est N(0,1) alors que Y et Z n’ont pas la même loi ( exercice : le démontrer).

Ceci justifie la définition suivante :

Définition 3.2.12 - Soitm∈Rn et soitΣ∈ Mn(R)une matrice symétrique positive. On désigne parN(m,Σ)la loi d’un vecteur gaussien d’espérancem et de matrice de covarianceΣ.

- Supposons que loi(X) =N(m,Σ). Lorsquem = 0, on dit que X est centré. Lorsquem= 0 et Σ =Id, on dit queX est centré réduit.

(23)

3.2.4 Variables aléatoires gaussiennes indépendantes

Les variables aléatoires gaussiennes nous donnent des exemples de vecteurs gaussiens. Inverse- ment, le formalisme introduit plus haut permet d’avoir des résultats très simples sur l’indépendance de gaussiennes.

Nous énonçons une première proposition simple.

Proposition 3.2.13 Soient X1, ..., Xn des variables aléatoires gaussiennes indépendantes telles que

E(X1) =m1, ...,E(Xn) =mn et Var(X1) =σ12, ...,Var(Xn) =σn2.

Alors le vecteur aléatoire X = (X1, ..., Xn) est un vecteur gaussien d’espérancem= (m1, ..., mn) et de matrice de covariance la matrice diagonale

Σ =

σ12 0 . . . 0 0 . .. . .. ... ... . .. . .. 0 0 . . . 0 σ2n

 .

Remarque : Si X1, ..., Xn sontnv.a. gaussiennes i.i.d. et siX = (X1, ..., Xn), alors X ∼ N(E(X), σ2Id)

où Id est la matrice identité et σ2 = Var(X1) = ... = Var(Xn) et E(X) = (m, ..., m) où m = E(X1) =...=E(Xn).

Preuve : On a vu au Th. 3.1.3 que pour tout u ∈ Rn, < u, X > est une v.a. gaussienne. DoncX est unvecteur gaussien, et sa matrice est diagonale car sii6=j, son entrée díndicei, jest la covariance deXi

etXj, qui est nulle par indépendnce deXi etXj.

On peut énoncer et démontrer la réciproque de cette proposition.

Proposition 3.2.14 Soient X1, ..., Xn n variables aléatoires telles que le vecteur aléatoire X = (X1, ..., Xn) soit un vecteur gaussien. Si la matrice de covariance de X est diagonale, alors les variablesX1, ..., Xn sont indépendantes.

Remarque : Il faut surtout noter que l’hypothèse de départ n’est pas seulement que toutes les v.a. sont des gaussiennes mais que toutes leurs combinaisons linéaires sont des gaussiennes, ce qui est beaucoup plus fort.

Preuve : Pour toutt= (t1, ..., tn)∈Rn, on note

φX(t) =E(exp(it.X)) =E(exp(it1X1+...+itnXn)).

Notons également pour tout1≤i≤net toutu∈R,

φXi(u) =E(exp(iuXi)).

Rappelons que pour que X1, ..., Xn soient indépendantes, il faut et il suffit que l’on ait pour tout t = (t1, ..., tn)∈Rn,

φX(t1, ..., tn) =φX1(t1)...φXn(tn).

On noteΣla matrice de covariance deX. Par hypothèse,Σest diagonale, ce qui s’écrit

Σ = 0 B B B B

@

σ21 0 . . . 0 0 . .. . .. ... ..

. . .. . .. 0 0 . . . 0 σn2

1 C C C C A

σ12= Var(X1), ..., σ2n= Var(Xn).

(24)

Posons par ailleurs m = (m1, ..., mn) = E(X). Comme X est supposé être un vecteur gaussien nous pouvons dire grâce à la proposition 3.2.9 que l’on a

E(exp(it.X)) = exp(it.m−1 2qΣ(t)).

Or,

qΣ(t) =σ12t21+...+σn2t2n, de sorte que

φX(t1, ..., tn) =E(exp(it.X)) = exp(it1m1+...+itnmn−σ21t21

2 −...−σ2nt2n 2 )

= exp(it1−σ12t21

2 )...exp(itn−σn2t2n

2 )

= φX1(t1)...φXn(tn)

où on a utilisé la proposition 3.1.2, (2). Par conséquent,X1, ..., Xnsont indépendantes.

Pour résumer les deux propositions précédentes, énonçons un théorème qui les englobe.

Théorème 3.2.15 SoientX1, ..., Xn nvariables aléatoires telles que le vecteurX = (X1, ..., Xn) soit gaussien d’espéranceE(X)et de matrice de covarianceΣ(X).

(1) Les variablesX1, ..., Xn sont indépendantes si et seulement si la matriceΣ(X)est diagonale.

(2) Les variablesX1, ..., Xn sont i.i.d. si et seulement si existent des réelsmetσ tels que E(X) = (m, ..., m) et Σ(X) =σ2Id.

Preuve : La partie (1) a déjà été démontrée. Pour (2), on suppose d’abord que les variablesX1, ..., Xn

sont i.i.d. D’après (1),Σ(X)est diagonale. Comme les variablesX1, ..., Xnont par ailleurs même loi, on a E(X1) =...=E(Xn) =m

et

Var(X1) =...= Var(Xn) =σ2 de sorte que

E(X) = (m, ..., m) et Σ(X) =σ2Id.

Si à présent, on suppose que

E(X) = (m, ..., m) et Σ(X) =σ2Id,

en particulier,Σ(X)est diagonale donc on sait d’après (1) que les variablesX1, ..., Xnsont indépendantes.

D’autre part, toutes les variables Xi sont gaussiennes de même espérance m et de même variance σ2. D’après la proposition 3.2.9, les variablesX1, ..., Xnont donc toute la même loiN(m, σ2).

Exercice 3.2.3 Soit

A= [ai,j]1≤i≤n

1≤j≤n

la matrice de covariance d’un vecteur aléatoire. Montrer, en utilisant l’inégalité de Cauchy-Schwartz, que

∀i, j,|ai,j| ≤√ ai,i

√aj,j. (3.1)

Exercice 3.2.4 SoitZune variable aléatoire réelle de loi normale centrée réduite. Soitσ1, . . . , σn >

0. On pose X11Z, X22Z,..., Xn = σnZ. Montrer que X = (X1, . . . , Xn) est gaussien, d’espérance nulle, et de matrice de covariance la matrice

A= [ai,j]1≤i≤n

1≤j≤n

avec pour touti, j,ai,jiσj.

(25)

Remarque : On remarque que pour l’exemple de l’exercice précédent, on a égalité dans l’inégalité (3.1). Ainsi, dans le cas où lesXisont proportionnels, qui correspond à une dépendance maximale, les entrées de la matrice de covariance sont maximales compte tenu de la contrainte de l’inégalité (3.1). A l’inverse, dans le cas où lesXi sont indépendants, la matrice de covariance est diagonale, i.e.ai,j= 0 dès quei6=j. Ainsi, quand X= (X1, . . . , Xn)est un vecteur gaussien, les rapports

|Cov(Xi, Xj)|

pVar(Xi) Var(Xj), (i6=j)

permettent dequantifier l’indépendance :plus ils sont élevés, moinsXi et Xj sont indépendants.

3.2.5 Image d’un vecteur gaussien par une application linéaire

A présent, nous allons énoncer un théorème qui nous dit ce que devient un vecteur gaussien lorsqu’on lui applique une application linéaire.

Proposition 3.2.16 Soit X = (X1, ..., Xn) un vecteur gaussien d’espérance m et de matrice de covariance Σ. Soit également A = (ai,j)1≤i≤m

1≤j≤n

∈ Mm,n(R). Soit Y le vecteur aléatoire de Rm défini par

Y =AX.

Alors, Y est un vecteur gaussien d’espérance Am et de matrice de covariance AΣAT, où AT désigne la transposée deA. On résume ceci sous la forme

loi(AX) =N(AE(X), AΣ(X)AT).

3.3 Le théorème central limite vectoriel

Nous avons déjà vu au chapitre 2 que les variables aléatoires gaussiennes apparaissaient de manière naturelle dans les théorèmes limites concernant les variables aléatoires i.i.d.. Nous pouvons donner à présent une version multi-dimensionnelle du théorème central-limite. Nous dirons qu’un vecteur aléatoire est dansL2 si et seulement si toutes ses coordonnées sont dansL2.

Théorème 3.3.1 (Théorème central limite vectoriel) Soit(Xn)n≥1 une suite de vecteurs aléatoires i.i.d. deRd appartenant àL2, d’espérance m∈Rd et de matrice de covariance Σ∈ Md(R). Notons pour tout n≥1

Sn =X1+...+Xn. On a la convergence en loi

loi

Sn−nm

√n

−−−−→

n→∞ N(0,Σ).

Remarques :On pourra écrire ainsi une sorte de développement limité des moyennes empiriques de vecteurs i.i.d. sous la forme

Sn

n 'm+ 1

√nG oùGest un vecteur gaussien de loiN(0,Σ).

3.4 Carrés de gaussiennes

Nous allons introduire quelques lois apparaissant fréquemment en présence de carrés de gaus- siennes et qui nous seront très utiles pour les chapitres de statistique suivants.

Références

Documents relatifs

ou partie des évènements liés à une épreuve, Cette caractéristique peut être un nombre, auquel cas nous dirons qu1il s’agit d~un aléa numériques (1)~ On peut

Introduction

Définition d’une suite réelle, exemples, suites bornées, suites monotones, suites extraites.. Convergence et divergence des suites

Alfred Sauvy Il y a trois degrés dans le mensonge : le mensonge simple, le fieffé mensonge et la statistique; pourtant les statistiques sont souvent utiles, alors

Par définition «tirer un objet au hasard dans E » est une expérience aléatoire probabilisée qu’on modélise par l’espace Ω = E (car les éven- tualités sont les divers

Ces règles sont en fait autant d’instances différentes d’une seule et même règle qui associe à deux doublons de booléens un troisième doublon dont les coordonnées sont

Pour les autres surfaces trajectoires des droites du com- plexe, les images sphériques des lignes de courbure ne sont pas des loxodromies, mais ces lignes de courbure sont

L’application qui a une forme quadratique associe sa matrice est un isomorphisme entre l’ensemble des formes quadratiques vers S n ( K ).. On dit que M et M’