• Aucun résultat trouvé

n

Y

i=1

E(eintYi) =

ϕYt n

n

=

1 +imt n+ot

n n

.

Quandn→ ∞, on a doncϕY

n(t)qui converge verseimtpour toutt∈R, qui est la fonction caractéristique de la variable aléatoire constante m. D'après le théorème de Lévy, Y converge donc en loi versm. La convergence en loi vers une constante implique la convergence en probabilité, d'où le résultat.

1.2 Vecteurs Gaussiens

Le théorème central limite permet d'étudier plus précisément le comportement de la moyenne empirique Yn= n1Pn

i=1Yid'un échantillon iid autour de l'espérance lorsqueY1admet un moment d'ordre2. Sous sa forme vectorielle, la limite est une généralisation vectorielle de la loi normale, appelée vecteur Gaussien.

Pour simplier, on considèrera une constante comme une variable aléatoire Gaussienne de variance nulle.

Dénition 1.5. Soit m∈Rk et Σ∈Rk×k une matrice symmétrique semi dénie-positive. Un vecteur aléatoireX deRk est un vecteur Gaussien de moyenne met de varianceΣ si pour tout vecteura∈Rk, a>X ∼ N(a>m,a>Σa). On le noteX∼ N(m,Σ).

On vérie facilement que la matriceΣest bien la matrice de covariance de X. En eet,

- Poura=ei lei-ème vecteur de la base canonique,a>X=Xi∼ N(miii) =⇒var(Xi) = Σii. - Poura=ei+ej, on obtientXi+Xj∼ N(mi+mjiijj+2Σij)d'où on déduitcov(Xi, Xj) = Σij. Une propriété fondamentale de la famille des vecteurs Gaussiens est qu'elle est stable par transformation ane.

Proposition 1.6. SoitX ∼ N(m,Σ)un vecteur Gaussien deRk. PourA∈Rp×ketb∈Rp,Y =AX+b est un vecteur Gaussien deRp de loiY ∼ N(Am+b,AΣA>).

Preuve. Soit a∈Rp, on a a>Y =a>(AX+b) = (A>a)>X +a>b. CommeX ∼ N(m,Σ), on sait que (A>a)>X ∼ N (A>a)>m,(A>a)>Σ(A>a). Commea>best une constante, on déduit

(A>a)>X+a>b=AY +b∼ N a>(Am+b),a>(AΣA>)a . Ceci est valable pour touta∈Rp, d'où le résultat.

Il existe d'autres dénitions équivalentes d'un vecteur Gaussien.

Proposition 1.7. Un vecteur aléatoire X est un vecteur Gaussien de moyenne m∈Rk et de variance Σ∈Rk×k si, et seulement si:

1. X a pour fonction caractéristique

ϕX(t) =E eit>X

= exp

it>m−t>Σt 2

, t∈Rk. 2. SiΣest inversible,X a pour densité

fX(x) = 1 (2π)k/2p

det(Σ)exp

−1

2(x−m)>Σ−1(x−m)

, x∈Rk.

Preuve. SoitX qui vérie la dénition 1.5, on remarque que ϕX(t) =ϕt>X(1) = exp

i t>m−t>Σt 2

,

où le terme de droite est une simple évaluation de la fonction caractéristique d'une variable aléatoire Gaussienne réelleN(t>m, t>Σt). De plus, on vérie facilement qu'un vecteur aléatoire de densité fX a pour fonction caractéristiqueϕX. Le résultat découle du fait que la fonction caractéristique caractérise la loi.

Remarque 1.8. Lorsque la matrice Σ n'est pas inversible, X vit dans le sous-espace ane A = {m} ⊕Im(Σ)⊂Rk, dans le sens où P(X ∈ A) = 1. Dans ce cas,X n'admet pas de densité sur Rk par rapport à la mesure de Lebesgue.

Proposition 1.9. SoitX ∼ N(m,Σ)etY1=A1X+b1,Y2=A2X+b2deux transformations anes de X à valeurs dansRp1 etRp2 respectivement. Les énoncés suivants sont équivalents:

i) Y1 etY2 sont indépendants

ii) Y1 etY2 sont non-corrélés: E(Y1Y2>)−E(Y1)E(Y2>) = 0∈Rp1×p2 iii) A1ΣA>2 = 0∈Rp1×p2

En particulier, les coordonnées d'un vecteur Gaussien sont indépendantes si et seulement si elles sont non-corrélées.

Preuve. Clairement i) =⇒ ii). De plus, E(Y1Y2>)−E(Y1)E(Y2>) = A1ΣA>2 d'où ii) =⇒ iii). Enn, Y := (Y1>, Y2>)>est un vecteur Gaussien par la proposition 1.6. Pourt= (t1, t2)>∈Rp1+p2, sa fonction caractéristique est donnée par

ϕY(t) = exp

i(t>1b1+t>2b2)−t>1A1ΣA>1t1+t>2A1ΣA>1t1+ 2t>1A1ΣA>2t2

2

. On a doncϕY(t) =ϕY1(t1Y2(t2)si et seulement siA1ΣA>2 = 0.

On est maintenant en mesure de présenter la version vectorielle du théorème central limite.

Théorème 1.10 (Théorème central limite). Soient Y1, ..., Yn, ... des variables aléatoires de Rk iid de carré intégrable telles queE(Yi) =m∈Rk etvar(Yi) = Σ∈Rk×k, l'estimateurYn =n1Pn

i=1Yi vérie

√n(Yn−m)−−−−→loi

n→∞ N(0,Σ).

La preuve du théorème central limite utilise également le théorème de Lévy, en développant à l'ordre 2 la fonction caractéristique au voisinage de zéro.

Preuve du théorème central limite. On poseZi=Yi−m. On aE(Zi) = 0,E(ZiZi>) = Σet ϕZ(t) =E(eiht,Z1i) = 1−t>Σt

2 +o(ktk2).

En écrivant√

n(Yn−m) = 1nPn

i=1Zi, on déduit ϕn(Y

n−m)(t) =E eiht,

n(Yn−m)i

=

n

Y

i=1

E ei1nht,Zii

=

ϕZ

t

√n n

=

1−t>Σt

2n +oktk2 n

n .

Pour toutt ∈Rk, la fonction caractéristique de √

n(Yn−m)au point tconverge donc vers e12t>Σt, la fonction caractéristique d'une loi normaleN(0,Σ). On conclut par le théorème de Lévy.

Dénition 1.11. La loi du Khi-2 àkdegrés de liberté, notéeχ2(k), est la loi de la somme des carrés de k variables aléatoires indépendantes de loiN(0,1).

Le théorème suivant concerne la loi de projections orthogonales de vecteurs Gaussiens.

Théorème 1.12 (Théorème de Cochran). SoitXun vecteur Gaussien standard deRk,X∼ N(0,I). Soit Eun sous-espace vectoriel deRk de dimensiondetΠEsa matrice de projection orthogonale. Alors,ΠEX et(I−ΠE)X sont des vecteurs Gaussiens indépendants de loisN(0,ΠE)etN(0,I−ΠE)respectivement.

De plus,kΠEXk2 etk(I−ΠE)Xk2sont des variables aléatoires indépendantes de loisχ2(d)etχ2(n−d). Preuve. Les lois de ΠEX et (I−ΠE)X de déduisent immédiatement de la Proposition 1.6. De plus, la fonction caractéristique deX= ΠEX+ (I−ΠE)X est égale au produit des fonctions caractéristiques de ΠEX et(I−ΠE)X par le théorème de Pythagore, les vecteursΠEXet(I−ΠE)Xsont donc indépendants.

Soit u1, ...,ud une base orthonormée de E et U = (u1, ...,ud) ∈ Rk×d. On remarque que U>U = I (la matrice identité deRd) etUU>= ΠE. Par la proposition 1.6,U>X est un vecteur Gaussien standard de Rd. D'où

EXk2=kUU>Xk2=kU>Xk2=

d

X

i=1

(u>i X)2∼χ2(d).

La loi dek(I−ΠE)Xk2 s'obtient de la même manière.

Le théorème de Cochran est notamment utilisé pour construire les tests de signicativité des coecients dans un modèle de régression linéaire Gaussien.

2 Statistique inférentielle paramétrique

Contrairement aux statistiques descriptives qui consistent essentiellement à résumer l'information con-tenue dans des données à l'aide d'indicateurs (moyenne, médiane, variance etc...) ou de représentations graphiques (diagrammes, boxplots, histogrammes etc...), la statistique inférentielle cherche à fournir un modèle probabiliste qui explique les données observées. Les observations sont donc traitées comme des réalisations de variables aléatoires de loi inconnue, dont on cherche à retrouver certaines caractéristiques (ex: espérance, probabilité d'un événement, densité etc...).

La statistique inférentielle permet de répondre à diérentes questions:

1. Le choix d'un modèle permettant de décrire le phénomène aléatoire 2. L'estimation de la loi des observations

3. La vérication d'hypothèses par des tests

Plus le modèle est précis, plus il sera facile d'évaluer la loi des observations. Par exemple, si on observe un échantillonx1, ..., xn issu d'une loi normaleN(m, σ2), il sut d'estimer la moyenne et la variance des observations pour connaître la loi. En revanche, on prend le risque de considérer un modèle qui n'est pas exact. Si les observations ne sont pas Gaussiennes, on ne retrouvera jamais leur loi en se limitant à un modèle Gaussien.

Dénition 2.1. Un modèle paramétrique est un modèle pour lequel la loi des observations dépend d'une ou plusieurs constantes inconnues appelées paramètres.

Par exemple, le modèle Gaussien{N(m, σ2), m∈R, σ2 >0}, le modèle de Poisson{P(λ), λ >0}ou le modèle exponentiel{E(λ), λ >0} sont des modèles paramétriques.

Dénition 2.2. Un modèle non-paramétrique est un modèle qui ne peut pas être décrit par un nombre ni de paramètres.

Utiliser un modèle non-paramétrique signie généralement qu'on dispose de peu d'information sur la loi µdes observations. Par exemple,µ est une loi continue (densité),µ admet un moment d'ordre deux,µ est une loi symétrique par rapport à zéro ou encoreµest une loi de probabilité (aucune information) sont des exemples de modélisation non-paramétriques.

Lorsqu'on choisit un modèle paramétrique, on prend le risque que la vraie loi des données n'appartienne pas au modèle. Un modèle non-paramétrique permet donc une évaluation parfois moins précise mais plus robuste de cette loi.

2.1 Modèle d'échantillonage

Soit(Ω,A,P)un espace probabilisé etX un sous-ensemble deR. On observe une réalisation(x1, ..., xn)∈ Xnd'un vecteur aléatoire(X1, ..., Xn). On suppose les composantesX1, ..., Xnindépendantes et de même loiµ sur X. On dira que le vecteur (X1, ..., Xn)est un échantillon de variables indépendantes et iden-tiquement distribuées, abrégé en iid.

Il faut distinguer l'échantillon(X1, ..., Xn)qui est aléatoire, et les données(x1, ..., xn) = (X1(ω), ..., Xn(ω)) qui sont la réalisation d'un événementω. Lors d'une étude statistique, on observe seulement l'image de ω par les fonctionsX1, ..., Xn.

Dénition 2.3. Une statistiqueT =T(X1, ..., Xn)est une fonction connue de l'échantillon.

Une statistique T est une variable aléatoire dont on observe une réalisation T(x1, ..., xn). On parle d'estimation lorsque l'on cherche à approcher une caractéristique de la loi µ (par exemple sa moyenne) par une fonction des observations. La statistique utilisée est appelée estimateur.

Dénition 2.4. Le biais d'un estimateurT deθ est la quantité b(T) =E(T)−θ.

Le biais n'est déni que si l'espérance deT est dénie, c'est-à-dire si E|T|<∞. Si le biais est nul, on dira que T est un estimateur sans biais, ce qui est évidemment une propriété appréciable. Cela signie que l'estimateur est égal "en moyenne" au paramètre à estimer.

Dénition 2.5. L'erreur quadratique moyenne (EQM) d'un estimateurT deθ est la quantité EQM(T) =E(T−θ)2∈[0,+∞].

On dit qu'un estimateurT deθ converge dansL2 si son EQM tend vers zéro. La formule de la décom-position biais-variance:

EQM(T) =b(T)2+ var(T)

permet de montrer immédiatement qu'un estimateur converge dans L2si et seulement si son biais et sa variance tendent vers zéro.

Documents relatifs