Licence 3 Mathématiques Modélisation Statistique

(1)

Licence 3 Mathématiques

Modélisation Statistique

P. Rochet

1 Introduction

1.1 Rappels de probabilités

On admet les deux théorèmes suivant.

Théorème 1.1 (Slutsky). Soit (Y_n)_n∈_N une suite de variables aléatoires qui converge en loi vers Y et (Z_n)_n∈_N une suite de variables aléatoires qui converge en probabilité vers une constantec, alors (Z_n, Y_n) converge en loi vers(c, Y).

Théorème 1.2 (Lévy). Soit (Z_n)_n∈_N une suite de variables aléatoires dansR^k de fonctions caratéris- tiques ϕZ_n(t) = E(e^iht,Zⁿⁱ), t∈R^k. Zn converge en loi vers une variable aléatoire Z si et seulement si ϕZ_n converge simplement versϕZ :t7→E(e^iht,Zi), t∈R^k.

Les deux théorèmes précédents sont très utiles pour montrer la convergence en loi de variables aléatoires.

Ils permettent notamment de montrer facilement la loi faible des grands nombres et le théorème central limite.

Théorème 1.3 (Loi des grands nombres). Soient Y1, ..., Yn, ... des variables aléatoires réelles iid telles queE|Yi|<∞, la moyenne empiriqueYn =_n¹Pn

i=1Yi converge presque sûrement versm=E(Y1)quand ntend vers l'inni.

La convergence presque sûre de la moyenne empirique, qui constitue la version forte de la loi des grands nombres, est un résultat dicile à montrer sans hypothèses supplémentaires. On montrera ici seulement la loi faible des grands nombres, qui établit la convergence en probabilité deY_nversm. On rappelle que siY admet des moments nis jusqu'à l'ordrek∈N,m₁,...,m_k, alors

E e^itY

=

k

X

j=0

(it)^j

j! mj+o(t^k), qui est une conséquence du théorème de convergence dominée.

Preuve de la loi faible des grands nombres. SoitϕY :t 7→E(e^itY¹), t∈R la fonction caractéristique de Y1. CommeE(Y1) =m, on a

ϕY(t) = 1 +imt+o(t).

Par indépendance desYi, on a donc

ϕ_Y

n(t) =E e^itYⁿ

=E eⁱⁿ^t^Pⁿⁱ⁼¹^Yⁱ

=

n

Y

i=1

E(eⁱⁿ^t^Yⁱ) =

ϕY

t n

n

=

1 +imt n+ot

n n

.

Quandn→ ∞, on a doncϕ_Y

n(t)qui converge verse^imtpour toutt∈R, qui est la fonction caractéristique de la variable aléatoire constante m. D'après le théorème de Lévy, Y converge donc en loi versm. La convergence en loi vers une constante implique la convergence en probabilité, d'où le résultat.

1.2 Vecteurs Gaussiens

Le théorème central limite permet d'étudier plus précisément le comportement de la moyenne empirique Yn= _n¹Pn

i=1Yid'un échantillon iid autour de l'espérance lorsqueY1admet un moment d'ordre2. Sous sa forme vectorielle, la limite est une généralisation vectorielle de la loi normale, appelée vecteur Gaussien.

Pour simplier, on considèrera une constante comme une variable aléatoire Gaussienne de variance nulle.

(3)

Dénition 1.4. Soit m∈R^k et Σ∈R^k×k une matrice symmétrique semi dénie-positive. Un vecteur aléatoireX deR^k est un vecteur Gaussien de moyenne met de varianceΣ si pour tout vecteura∈R^k, a^>X ∼ N(a^>m,a^>Σa). On le noteX∼ N(m,Σ).

On vérie facilement que la matriceΣest bien la matrice de covariance de X. En eet,

- Poura=ei lei-ème vecteur de la base canonique,a^>X=Xi∼ N(mi,Σii) =⇒var(Xi) = Σii. - Poura=ei+ej, on obtientXi+Xj∼ N(mi+mj,Σii+Σjj+2Σij)d'où on déduitcov(Xi, Xj) = Σij. Une propriété fondamentale de la famille des vecteurs Gaussiens est qu'elle est stable par transformation ane.

Proposition 1.5. SoitX ∼ N(m,Σ)un vecteur Gaussien deR^k. PourA∈R^p×ketb∈R^p,Y =AX+b est un vecteur Gaussien deR^p de loiY ∼ N(Am+b,AΣA^>).

Preuve. Soit a∈R^p, on a a^>Y =a^>(AX+b) = (A^>a)^>X +a^>b. CommeX ∼ N(m,Σ), on sait que (A^>a)^>X ∼ N (A^>a)^>m,(A^>a)^>Σ(A^>a). Commea^>best une constante, on déduit

(A^>a)^>X+a^>b=AY +b∼ N a^>(Am+b),a^>(AΣA^>)a . Ceci est valable pour touta∈R^p, d'où le résultat.

Il existe d'autres dénitions équivalentes d'un vecteur Gaussien.

Proposition 1.6. Un vecteur aléatoire X est un vecteur Gaussien de moyenne m∈R^k et de variance Σ∈R^k×k si, et seulement si:

1. X a pour fonction caractéristique

ϕX(t) =E e^it^>^X

= exp

it^>m−t^>Σt 2

, t∈R^k. 2. SiΣest inversible,X a pour densité

fX(x) = 1 (2π)^k/2p

det(Σ)exp

−1

2(x−m)^>Σ⁻¹(x−m)

, x∈R^k.

Preuve. SoitX qui vérie la dénition 1.4, on remarque que ϕX(t) =ϕ_t>X(1) = exp

i t^>m−t^>Σt 2

,

où le terme de droite est une simple évaluation de la fonction caractéristique d'une variable aléatoire Gaussienne réelleN(t^>m, t^>Σt). De plus, on vérie facilement qu'un vecteur aléatoire de densité fX a pour fonction caractéristiqueϕX. Le résultat découle du fait que la fonction caractéristique caractérise la loi.

Remarque 1.7. Lorsque la matrice Σ n'est pas inversible, X vit dans le sous-espace ane A = {m} ⊕Im(Σ)⊂R^k, dans le sens où P(X ∈ A) = 1. Dans ce cas,X n'admet pas de densité sur R^k par rapport à la mesure de Lebesgue.

Proposition 1.8. SoitX ∼ N(m,Σ)etY1=A1X+b1,Y2=A2X+b2deux transformations anes de X à valeurs dansR^p¹ etR^p² respectivement. Les énoncés suivants sont équivalents:

(4)

i) Y₁ etY₂ sont indépendants

ii) Y₁ etY₂ sont non-corrélés: E(Y₁Y₂^>)−E(Y₁)E(Y₂^>) = 0∈R^p¹^×p² iii) A1ΣA^>₂ = 0∈R^p¹^×p²

En particulier, les coordonnées d'un vecteur Gaussien sont indépendantes si et seulement si elles sont non-corrélées.

Preuve. Clairement i) =⇒ ii). De plus, E(Y1Y₂^>)−E(Y1)E(Y₂^>) = A1ΣA^>₂ d'où ii) =⇒ iii). Enn, Y := (Y₁^>, Y₂^>)^>est un vecteur Gaussien par la proposition 1.5. Pourt= (t1, t2)^>∈R^p¹^+p², sa fonction caractéristique est donnée par

ϕY(t) = exp

i(t^>₁b1+t^>₂b2)−t^>₁A1ΣA^>₁t1+t^>₂A1ΣA^>₁t1+ 2t^>₁A1ΣA^>₂t2

2

=ϕ_Y₁(t₁)ϕ_Y₂(t₂) exp t^>₁A₁ΣA^>₂t₂

On en déduit l'indépendance deY1et Y2 si et seulement siA1ΣA^>₂ = 0.

On est maintenant en mesure de présenter la version vectorielle du théorème central limite.

Théorème 1.9 (Théorème central limite). SoientY1, ..., Yn, ...des variables aléatoires deR^k iid de carré intégrable telles que E(Yi) =m∈R^k et var(Yi) = Σ∈R^k×k, l'estimateur Yn=_n¹Pn

i=1Yi vérie

√n(Y_n−m)−−−−→^loi

n→∞ N(0,Σ).

La preuve du théorème central limite utilise également le théorème de Lévy, en développant à l'ordre 2 la fonction caractéristique au voisinage de zéro.

Preuve du théorème central limite. On poseZ_i=Y_i−m. On aE(Z_i) = 0,E(Z_iZ_i^>) = Σet

ϕZ(t) =E(e^iht,Z¹ⁱ) = 1−t^>Σt

2 +o(ktk²).

En écrivant√

n(Y_n−m) = ^√¹_nPn

i=1Z_i, on déduit ϕ^√_n(Y

n−m)(t) =E e^iht,

√n(Yn−m)i

=

n

Y

i=1

E eⁱ^√¹ⁿ^ht,Zⁱⁱ

=

ϕZ

t

√n n

=

1−t^>Σt

2n +oktk² n

n

.

Pour toutt ∈R^k, la fonction caractéristique de √

n(Y_n−m)au point tconverge donc vers e⁻¹²^t^>^Σt, la fonction caractéristique d'une loi normaleN(0,Σ). On conclut par le théorème de Lévy.

Dénition 1.10. La loi du Khi-2 àkdegrés de liberté, notéeχ²(k), est la loi de la somme des carrés de k variables aléatoires indépendantes de loiN(0,1).

Le théorème suivant concerne la loi de projections orthogonales de vecteurs Gaussiens.

Théorème 1.11 (Théorème de Cochran). SoitXun vecteur Gaussien standard deR^k,X∼ N(0,I). Soit Eun sous-espace vectoriel deR^k de dimensiondetΠEsa matrice de projection orthogonale. Alors,ΠEX et(I−ΠE)X sont des vecteurs Gaussiens indépendants de loisN(0,ΠE)etN(0,I−ΠE)respectivement.

De plus,kΠEXk² etk(I−ΠE)Xk²sont des variables aléatoires indépendantes de loisχ²(d)etχ²(n−d).

(5)

Preuve. Les lois de Π_EX et (I−Π_E)X de déduisent immédiatement de la Proposition 1.5. De plus, la fonction caractéristique deX= Π_EX+ (I−Π_E)X est égale au produit des fonctions caractéristiques de ΠEX et(I−ΠE)X par le théorème de Pythagore, les vecteursΠEXet(I−ΠE)Xsont donc indépendants.

Soit u1, ...,ud une base orthonormée de E et U = (u1, ...,ud) ∈ R^k×d. On remarque que U^>U = I (la matrice identité deR^d) etUU^>= ΠE. Par la proposition 1.5,U^>X est un vecteur Gaussien standard de R^d. D'où

kΠEXk²=kUU^>Xk²=kU^>Xk²=

d

X

i=1

(u^>_i X)²∼χ²(d).

La loi dek(I−ΠE)Xk² s'obtient de la même manière.

Le théorème de Cochran est notamment utilisé pour construire les tests de signicativité des coecients dans un modèle de régression linéaire Gaussien.

Dénition 1.12. La loi de Student à k degré de liberté est la loi du rapport entre une va Gaussienne standard et la racine carrée d'un Khi-2 àk degré de liberté, renormalisé par k, les deux étant indépen- dantes:

T(k)^loi= N(0,1) pχ²(k)/k.

La loi de Student est utilisée principalement dans la construction de tests sur la moyenne d'un échantillon.

On a comme cas particuliers:

• La Student à1degré de liberté est la loi de Cauchy. Elle peut s'obtenir comme le rapport de deux lois normales standards indépendantes.

• Quandk tend vers l'inni, la loi de StudentT(k)tend vers une loi normaleN(0,1).

1.3 Modèle d'échantillonage

Contrairement aux statistiques descriptives qui consistent essentiellement à résumer l'information con- tenue dans des données à l'aide d'indicateurs (moyenne, médiane, variance etc...) ou de représentations graphiques (diagrammes, boxplots, histogrammes etc...), la statistique inférentielle cherche à fournir un modèle probabiliste qui explique les données observées. Les observations sont donc traitées comme des réalisations de variables aléatoires de loi inconnue, dont on cherche à retrouver certaines caractéristiques (ex: espérance, probabilité d'un événement, densité etc...).

La statistique inférentielle permet de répondre à diérentes questions:

1. Le choix d'un modèle permettant de décrire le phénomène aléatoire 2. L'estimation de la loi des observations

3. La vérication d'hypothèses par des tests

Plus le modèle est précis, plus il sera facile d'évaluer la loi des observations. Par exemple, si on observe un échantillonx1, ..., xn issu d'une loi normaleN(m, σ²), il sut d'estimer la moyenne et la variance des observations pour connaître la loi. En revanche, on prend le risque de considérer un modèle qui n'est pas exact. Si les observations ne sont pas Gaussiennes, on ne retrouvera jamais leur loi en se limitant à un modèle Gaussien.

Dénition 1.13. Un modèle paramétrique est un modèle pour lequel la loi des observations dépend d'une ou plusieurs constantes inconnues appelées paramètres.

(6)

Par exemple, le modèle Gaussien{N(m, σ²), m∈R, σ² >0}, le modèle de Poisson{P(λ), λ >0}ou le modèle exponentiel{E(λ), λ >0} sont des modèles paramétriques.

Dénition 1.14. Un modèle non-paramétrique est un modèle qui ne peut pas être décrit par un nombre ni de paramètres.

Utiliser un modèle non-paramétrique signie généralement qu'on dispose de peu d'information sur la loi µdes observations. Par exemple,µ est une loi continue (densité),µ admet un moment d'ordre deux,µ est une loi symétrique par rapport à zéro ou encoreµest une loi de probabilité (aucune information) sont des exemples de modélisation non-paramétriques.

Lorsqu'on choisit un modèle paramétrique, on prend le risque que la vraie loi des données n'appartienne pas au modèle. Un modèle non-paramétrique permet donc une évaluation parfois moins précise mais plus robuste de cette loi.

Soit(Ω,A,P)un espace probabilisé etX un sous-ensemble deR. On observe une réalisation(x1, ..., xn)∈ Xⁿd'un vecteur aléatoire(X1, ..., Xn). On suppose les composantesX1, ..., Xnindépendantes et de même loiµ sur X. On dira que le vecteur (X1, ..., Xn)est un échantillon de variables indépendantes et iden- tiquement distribuées, abrégé en iid.

Il faut distinguer l'échantillon(X1, ..., Xn)qui est aléatoire, et les données(x1, ..., xn) = (X1(ω), ..., Xn(ω)) qui sont la réalisation d'un événementω. Lors d'une étude statistique, on observe seulement l'image de ω par les fonctionsX₁, ..., X_n.

Dénition 1.15. Une statistique T =T(X1, ..., Xn) est une fonction connue de l'échantillon.

Une statistique T est une variable aléatoire dont on observe une réalisation T(x1, ..., xn). On parle d'estimation lorsque l'on cherche à approcher une caractéristique de la loi µ (par exemple sa moyenne) par une fonction des observations. La statistique utilisée est appelée estimateur.

Dénition 1.16. Le biais d'un estimateur T deθ est la quantitéb(T) =E(T)−θ.

Le biais n'est déni que si l'espérance deT est dénie, c'est-à-dire si E|T|<∞. Si le biais est nul, on dira que T est un estimateur sans biais, ce qui est évidemment une propriété appréciable. Cela signie que l'estimateur est égal "en moyenne" au paramètre à estimer.

Dénition 1.17. L'erreur quadratique moyenne (EQM) d'un estimateur T deθest la quantité EQM(T) =E(T−θ)²∈[0,+∞].

On dit qu'un estimateurT deθ converge dansL² si son EQM tend vers zéro. La formule de la décom- position biais-variance:

EQM(T) =b(T)²+ var(T)

permet de montrer immédiatement qu'un estimateur converge dans L²si et seulement si son biais et sa variance tendent vers zéro.

2 Estimation non-paramétrique

On observe la réalisation d'un échantillon X₁, ..., X_n de variable aléatoires iid de loi µ. L'estimation non-paramétrique désigne l'estimation de caractéristiques qui appartiennent à un espace de dimension innie. Dans ce chapitre, on s'intéressera en particulier à l'estimation de la fonction de répartition, de la densité et de la fonction de quantile.

(7)

2.1 Fonction de répartition

2.1.1 Fonction de répartition empirique

SoitX₁, ..., X_n un échantillon de variables aléatoires iid réelles (X ⊆R) de loi µ. Dénition 2.1. La fonction de répartition de µest donnée par

F(x) =µ ]− ∞, x]

=P(X ≤x), x∈R.

La fonction de répartition caractérise la loi, c'est-à-dire que deux loisµet ν sont égales si, et seulement si, leurs fonctions de répartition sont égales. On rappelle qu'une fonction de répartition est une fonction croissante et telle que lim_x→−∞F(x) = 0 et lim_x→+∞F(x) = 1. De plus, F est continue à droite et limitée à gauche (càdlàg) avec

∀x∈R, lim

y→x⁺F(y) =F(x) et lim

y→x⁻F(y) =F(x⁻) =P(X < x).

On a donc en particulierP(X =x) =F(x)−F(x⁻). Par ailleurs, lorsqueµadmet une densitéf continue, la fonction de répartition vaut

F(x) = Z x

−∞

f(y)dy, x∈R.

Dans ce casF est de classeC¹de dérivéeF⁰=f par le théorème fondamental de l'analyse.

Pour estimer la fonction de répartition en un pointx, on utilise la proportion des observations inférieures àx,

Fn(x) = 1 n

n

X

i=1

1{Xi≤x}, x∈R,

où1est la fonction indicatrice. La fonctionFn est appelée fonction de répartition empirique.

Proposition 2.2. Pour toutω∈Ω, l'estimation Fn:R→[0,1]est une fonction de répartition.

Preuve. Soit ω ∈ Ω, on pose (x1, ..., xn) = (X1(ω), ..., xn(ω)). La fonction de répartition empirique associée est

Fn(x)

(ω) = 1 n

n

X

i=1

1{xi≤x}, x∈R.

Montrons qu'elle vérie les propriétés d'une fonction de répartition. Pour tout x ≥ max{x1, ..., x_n}, F_n(x) = 1. De même, pour toutx <min{x1, ..., x_n},F_n(x) = 0. On a donc clairement

x→−∞lim F_n(x) = 0 et lim

x→+∞F_n(x) = 1.

Pour touti, la fonction x7→1{xi ≤x}est croissante, continue surR\ {xi} et càdlàg en xi. On déduit queFn est croissante et càdlàg comme somme nie de fonctions croissantes càdlàg. On a précisemment enxi,

lim

x→x⁺_i

F_n(x) =#{j:xj ≤xi}

n =F_n(x_i) etF_n admet une limite à gauche

lim

x→x⁻_i

Fn(x) = #{j:xj< xi}

n =Fn(xi)−#{j:xj=xi}

n .

(8)

Remarque 2.3. L'ensemble {j :x_j =x_i} admet au moins un élément: x_i. La fonction de répartition empiriqueF_n n'est donc jamais continue en x_i puisque la limite à gauche est strictement inférieure à la limite à droite.

Lorsque tous les xi sont diérents (ce qui arrive presque sûrement lorsqu'ils sont de loi continue), la fonction de répartition empiriqueFn obtenue pour une réalisationω est la fonction de répartition de la loi uniforme discrète sur{x1, ..., xn}, parfois appelée loi empirique. On approche donc en quelque sorte la loi des observations par une loi discrète sur l'ensemble des réalisations. En particulier,Fn(x)ne peut prendre quen+ 1valeurs diérentes: 0,_n¹,²_n, ...,ⁿ⁻¹_n ,1.

Proposition 2.4. Pour tout x∈ R, Fn(x) est un estimateur sans biais de F(x) qui converge presque sûrement vers F(x)quandn→ ∞.

Preuve. Soit Y_i =1{X_i ≤x}, les variables aléatoires Y₁, ..., Y_n sont indépendantes de loi de Bernoulli B(F(x)). On a donc en particulier,E(Y_i) =F(x)etvar(Y_i) =F(x)(1−F(x))<∞. On déduit

E(Fn(x)) =E 1

n

X

i=1

Yi

=E(Y1) =F(x).

Par la loi forte des grands nombres,F_n(x)converge presque sûrement versF(x). 2.1.2 Théorème de Glivenko-Cantelli

La loi forte des grands nombres permet d'établir facilement la convergence presque sûre de la fonction de répartition empirique vers la vraie fonction de répartition en tout point. Le théorème de Glivenko-Cantelli donne un résultat plus fort, à savoir, la convergence uniforme presque sûre de la fonction de répartition empirique.

Théorème 2.5 (Glivenko-Cantelli). SoitX1, .., Xn un échantillon iid de fonction de répartition continue F. La fonction de répartition empirique Fn converge presque sûrement uniformément vers F quand n→ ∞:

sup

x∈R

|Fn(x)−F(x)|−−−−→^p.s.

n→∞ 0.

Pour la preuve, on aura besoin du lemme suivant.

Lemme 2.6. SiX est une variable aléatoire réelle de fonction de répartitionF, alors pour toutx∈R, 1{X ≤x}^ps=1{F(X)≤F(x)}.

En particulier, si F est continue, alorsU :=F(X)est de loi uniforme sur]0,1[. Preuve du lemme. CommeF est croissante, on sait que

{F(X)≤F(x)}={X ≤x} ∪ {F(X)≤F(x), x < X}.

Soitu= sup{y:F(y)≤F(x)}, on distingue deux cas. SiF(u) =F(x)alors

P(F(X)≤F(x), x < X) =P(F(X)≤F(x), x < X ≤u)≤F(u)−F(x) = 0.

Sinon, soitun une suite croissante qui tend versuet telle queF(un) =F(x)pour toutn∈N. On a P(F(X)≤F(x), x < X) = lim

n→∞P(F(X)≤F(x), x < X ≤un)

≤ lim

n→∞F(un)−F(x) = 0,

(9)

où la première égalité découle de l'axiome des probabilité lim_n→∞P(∪ⁿ_k=1A_k) =P(∪^∞_n=1A_n). On déduit 1{X ≤x}^ps=1{F(X)≤F(x)}. Si F est continue, du fait quelim_x→−∞F(x) = 0et lim_x→∞F(x) = 1, il existe, pour tout u ∈]0,1[, un (ou plusieurs) x ∈ R tel que F(x) = u. Par conséquent, l'égalité P(F(X)≤u) =uest vériée pour toutu∈]0,1[, ce qui prouve queF(X)est de loi uniforme sur]0,1[. La preuve du théorème de Glivenko-Cantelli utilise également le théorème suivant, dû à Polyà (parfois appelé théorème de Dini) que l'on admettra.

Théorème 2.7. Une suite Fn de fonctions croissantes dénies sur un compact [a, b]⊂R qui converge simplement vers une fonction F continue sur[a, b], converge uniformément versF.

Preuve du théorème de Glivenko-Cantelli. D'après le lemme 2.6, on a

sup

x∈R

|Fn(x)−F(x)| = sup

x∈R

1 n

n

X

i=1

1{Xi≤x} −F(x)

ps= sup

x∈R

1 n

n

X

i=1

1{F(Xi)≤F(x)} −F(x) .

Par hypothèse, on sait queF(x)peut prendre toutes les valeurs de l'intervalle]0,1[. En posantu=F(x) etU_i=F(X_i)qui suit une loi uniforme sur[0,1], on a donc

sup

x∈R

|Fn(x)−F(x)| ^ps= sup

u∈[0,1]

1 n

n

X

i=1

1{Ui≤u} −u ,

les valeurs enu = 0et u= 1 étant trivialement 0. Il sut de montrer le résultat pour un échantillon U1, ..., Un de variables aléatoires uniformes sur[0,1]. On suppose donc sans perte de généralité que

Fn(u) = 1 n

n

X

i=1

1{Ui≤u} et F(u) =u, u∈[0,1].

Soit q ∈ Q∩]0,1[, on sait par la proposition 2.4 que P(Fn(q) → q) = 1. Comme une union dénom- brable d'ensembles de probabilité nulle est de probabilité nulle, on déduit que l'événementΩ₀:={∀q∈ Q∩]0,1[, F_n(q)→F(q)} est de probabilité1. Soitu∈]0,1[et(u_k)_k∈_Net(v_k)_k∈_Ndeux suites rationnelles adjacentes de limiteutelles queu_k≤u≤v_k, ∀k∈N. La croissance de F_n entraîne

∀k∈N, F_n(u_k)≤F_n(u)≤F_n(v_k).

En faisant tendrenvers l'inni, on déduit que surΩ0, F(uk)≤lim inf

n→∞Fn(u)≤lim sup

n→∞

Fn(u)≤F(vk).

Comme le résultat est vrai pour tout k, il reste vrai en faisant tendre k vers l'inni. On sait de plus queFn(0) = 0 etFn(1) = 1 presque sûrement. On obtientΩ0 ={∀u∈[0,1], Fn(u)→u}. Finalement, d'après le théorème 2.7,Fn converge uniformément versF surΩ0.

Remarque 2.8. Le théorème de Glivenko-Cantelli reste vrai lorsqueF n'est pas continue mais la preuve précédente n'est plus valable dans ce cas.

On peut montrer que la loi deKn:=√

n sup_x∈_R|Fn(x)−F(x)|ne dépend pas deF lorsque celle-ci est continue. Cette loi dépend de n mais converge vers la loi de Kolmogorov quand n → ∞. Ce résultat qui est une conséquence du théorème de Donsker, est notamment utile pour la construction du test de Kolmogorov-Smirnov.

(10)

2.2 Densité

2.2.1 Histogramme

La méthode la plus simple pour estimer une densité à partir de données est par un histogramme. C'est souvent la méthode privilégiée pour représenter graphiquement les données. On se xe une famille ordonnéea₀< a₁< ... < a_kde réels tels quea₀≤min{x₁, ..., x_n}eta_k>max{x₁, ..., x_n}. L'histogramme associé à la suite (a_j)_j=0,...,k est la fonction F_n constante sur les intervalles (ou classes) [a_j−1, a_j[, j = 1, ..., k, qui associe àxla proportion des observations appartenant au même intervalle quex, renormalisée par la taille de l'intervalle. Formellement,Fn est dénie par

Fn(x) = 1 aj−a_j−1

n

X

i=1

1{aj−1≤x_i< a_j}

n =#{i:x_i∈[a_j−1, a_j[}

n(aj−a_j−1) , x∈[aj−1, aj[, j= 1, ..., k, etFn(x) = 0pourx < a0 et x≥ak.

Proposition 2.9. Pour toutω∈Ω, l'histogramme Fn est une densité.

Preuve. Clairement,F_n(x)≥0 pour toutx∈Ret Z

R

f(x)dx= 1 n

k

X

j=1

Z a_j aj−1

1{aj−1≤x_i< a_j} aj−a_j−1 dx= 1

n

k

X

j=1

1{aj−1≤xi< aj}= 1,

du fait que chaque observationxi appartient à un et un seul intervalle [a_j−1, aj[.

L'histogramme est entièrement déterminé par la discrétisation(aj)j=0,...,k choisie. Un choix naturel est de prendre des intervalles de tailles égales entre les valeurs extrêmes de l'échantillon. Dans ce cas, seul le nombre k de classes intervient dans la construction de l'histogramme. La qualité de l'histogramme dépend fortement du nombre de classes (cf. Figure 1).

Figure 1: Histogramme obtenu avec4 classes (à gauche), 20classes (au centre) et 50classes (à droite) sur un échantillon de500réalisations de variables aléatoires de loi normale standard.

De manière générale, le nombre optimal de classes dépend den. En particulier, il faut que le nombre de classesk=kn vérielim_n→∞kn=∞etlim_n→∞kn/n= 0(en pratique, on peut prendrekn'n^1/3).

(11)

2.2.2 Histogramme mobile

Pour ne pas avoir à choisir une discrétisation(aj)j=0,...,k, il existe une autre forme d'histogramme appelée histogramme mobile. L'idée est basée sur le fait que, si une fonctionf est susamment "lisse" dans le voisinage d'un pointx, alors pour des petites valeurs deh >0,

f(x)≈ 1 2h

Z x+h x−h

f(s)ds.

En particulier, il y égalité si la fonction est constante sur ]x−h, x+h]. Dans la situation qui nous intéresse, cela revient à dire que siX a pour densitéf, alors

f(x)≈P(x−h < X≤x+h)

2h .

Le terme de droite est facile à estimer à partir de la fonction de répartition empirique, un estimateur naturel def(x)est donc donné par

f_n(x) = F_n(x+h)−F_n(x−h)

2h = 1

2nh

n

X

i=1

1{X_i ∈]x−h, x+h]}.

L'estimateurfn est appelé histogramme mobile car il est constant par morceaux mais ses classes dépen- dent continuement dex. L'histogramme mobile ne dépend que d'un paramètre à calibrer: h(la fenêtre).

Le choix de la fenêtre est crucial et l'estimateur y est très sensible, comme on peut le voir sur le graphique suivant.

Figure 2: Histogramme mobile pour un échantillon de loi normale standard de 30 observations obtenu avec une fenêtreh= 0.1(à gauche),h= 0.7(au centre) eth= 2(à droite) (la vraie densité est représentée en pointillée)

Proposition 2.10. Pour toutω∈Ω, l'histogramme mobilef_n est une densité.

Preuve. Il est clair que f_n ≥0. En utilisant que 1{x_i ∈]x−h, x+h]} =1{x_i−h≤x < x_i+h}, on obtient

Z

R

f(x)dx= 1 2nh

n

X

i=1

Z xi+h x_i−h

dx= 1 2nh

n

X

i=1

2h= 1.

(12)

On remarque que l'estimateurf_n(x)est (en général) biaisé mais que le biais est faible pour des petites valeurs deh,

E(fn(x)) = F(x+h)−F(x−h)

2h ≈

h→0F⁰(x) =f(x).

En revanche, une petite valeur dehva entraîner une forte variance var(f_n(x)) = F(x+h)−F(x−h)

2h

1−F(x+h) +F(x−h)

2nh ≈

h→0

f(x) 2nh.

L'estimateurfn(x)est donc optimal pour une fenêtrehni trop grande, ni trop faible, l'objectif étant de trouver un compromis entre le biais et la variance. En particulier, pour queFn converge simplement dans L² versf, il faut choisirh=hn tel quehn→0 etnhn→ ∞de manière à faire tendre simultanément le biais et la variance vers zéro.

Théorème 2.11. Si f est de classe C² et de dérivée seconde f⁰⁰ bornée en valeur absolue par L >0, alors l'histogramme mobilefn vérie

E h

f_n(x)−f(x)²i

≤h⁴L²

36 +f(x) 2nh + hL

12n. Preuve. On fait la décomposition suivante (EQM = biais² + variance)

E

h f_n(x)−f(x)2i

=

E f_n(x)−f(x)2

+ var f_n(x) .

Pour majorer le carré du biais on écrit un développement de Taylor-Lagrange à l'ordre 3: il existe ξ₁∈]x−h, x[et ξ₂∈]x, x+h[tels que

F(x+h) = F(x) +hf(x) +h²

2 f⁰(x) +h³ 6 f⁰⁰(ξ1) F(x−h) = F(x)−hf(x) +h²

2 f⁰(x)−h³ 6 f⁰⁰(ξ₂) On déduitF(x+h)−F(x−h) = 2hf(x) +h³(f⁰⁰(ξ1) +f⁰⁰(ξ2))/6et

E fn(x)−f(x)²

=

F(x+h)−F(x−h)

2h −f(x)

²

= h⁴

144 f⁰⁰(ξ1) +f⁰⁰(ξ2)²

≤h⁴L² 36 . De même, commeF est croissante,1−F(x+h) +F(x−h)≤1 et

var f_n(x)

= F(x+h)−F(x−h) 2h

1−F(x+h) +F(x−h)

2nh ≤ f(x) +h²L/6

2nh .

Cette majoration de l'erreur quadratique dépend def(x)etLqui sont en général inconnus. Pour obtenir un ordre de grandeur "optimal" pour la fenêtre, on choisit h = hn tel que les deux termes dominant h⁴L²/36etf(x)/2nh(lorsquef(x)>0) soient du même ordre.

Corollaire 2.12. Sous les hypothèses du théorème 2.11, sih=h_n=Cn^−1/5 pourC >0, alors E

h

f_n(x)−f(x)²i

=O(n^−4/5).

Ce résultat montre que l'histogramme mobile construit avec une fenêtreh_n de l'ordre den^−1/5converge simplement versf dansL², à une vitesse n^2/5(la norme L² est la racine carré de l'erreur quadratique).

Cette vitesse, plus lente que la vitesse classique √

n que l'on retrouve en estimation paramétrique (par exemple pour le TCL), montre d'une certaine façon que la densité est plus dicile à estimer.

(13)

2.2.3 Estimateur à noyaux

L'estimation de densité par noyaux (parfois appelée méthode de Parzen-Rosenblatt) est une généralisation de l'histogramme mobile. L'une des motivations principales est de construire un estimateur lisse de la densité en remplaçant les indicatrices utilisées dans la construction de l'histogramme mobile par des fonctions continues.

Dénition 2.13. Un noyauK:R→R est une fonction paire, positive et qui vérie Z +∞

−∞

K(s)ds= 1.

L'estimateur à noyau def est déni par

fn(x) = 1 nh

n

X

i=1

K

Xi−x h

, x∈R.

Il dépend donc du choix du noyauK et de la fenêtreh. Les exemples les plus utilisés de noyaux sont

• Le noyau uniforme correspondant à l'histogramme mobile: K(s) = ¹₂1{−1≤s≤1}

• Le noyau Gaussien: K(s) =^√¹

2πexp(−^s₂²)

• Le noyau triangulaire: K(s) = (1− |s|)1{−1≤s≤1}

• Le noyau d'Epanechnicov: K(s) = ³₄(1−s²)1{−1≤s≤1}

Théorème 2.14. Soit K un noyau vériant Z

R

s²K(s)ds=C1<∞ , Z

R

K²(s)ds=C2<∞ et Z

R

s²K²(s)ds=C3<∞.

Sous les hypothèses du théorème 2.11, fn vérie

E h

fn(x)−f(x)2i

≤h⁴L²C₁²

4 +f(x)C2

nh +hLC3

2n . Preuve. On utilise la décomposition biais-variance de l'erreur quadratique

E h

f_n(x)−f(x)²i

=

E f_n(x)−f(x)²

+ var f_n(x) . Pour le biais, on écrit

E f_n(x)

= 1 h

Z

R

K s−x h

f(s)ds= Z

R

K(u)f(x+hu)du.

D'après la formule de Taylor à l'ordre 1, on sait qu'il existeξ(u)∈]x, x+hu[ (ou]x+hu, x[si u <0) continu enutel quef(x+hu) =f(x) +huf⁰(x) +h²u²f⁰⁰(ξ(u))/2. On déduit

E fn(x)

= Z

R

K(u)f(x)du+ Z

R

K(u)huf⁰(x)du+ Z

R

K(u)h²u²

2 f⁰⁰(ξ(u))du

= f(x) +h² 2

Z

R

K(u)u²f⁰⁰(ξ(u))du.

(14)

D'où

E fn(x)−f(x)2

≤ h⁴L²C₁²

4 . Pour la variance, var f_n(x)

= 1 nh²var

K X−x h

= 1 nh²

Z

R

K² s−x h

f(s)ds−

E f_n(x)2

avec 1 h

Z

R

K² s−x h

f(s)ds = Z

R

K²(u)f(x+hu)du

= f(x) Z

R

K²(u)du+f⁰(x)h Z

R

uK²(u)du+h² 2

Z

R

u²K²(u)f⁰⁰(ξ(u))du.

On sait par l'inégalité de Cauchy-Schwarz que Z

R

|u|K²(u)du 2

≤ Z

R

u²K²(u)du Z

R

K²(u)du=C3C2<∞.

CommeK est paire,K² l'est aussi etR

RuK²(u)du= 0. On obtient donc la majoration de la variance var fn(x)

≤ f(x)C₂

nh +hLC₃

2n .

2.3 Quantiles

2.3.1 Fonction de quantile

Dénition 2.15. Soit α∈]0,1[, on appelle quantile d'ordre α d'une variable aléatoire X, tout réel q_α vériant

P(X ≤q_α)≥α et P(X ≥q_α)≥1−α.

SiX admet une densitéf, alors on sait que]0,1[⊆F(R), ce qui implique qu'il existe pour toutα∈]0,1[, un quantileqαtel que

P(X ≤qα) =α et P(X ≥qα) = 1−α.

Si de plus le support def est connexe, alorsF est une bijection et le quantile d'ordreαest unique pour toutα∈]0,1[.

Remarque 2.16. La médiane est le quantile d'ordre 0.5. Les premier et troisième quartiles sont les quantiles d'ordre0.25et0.75respectivement.

Dénition 2.17. La fonction quantile F⁻ est l'inverse généralisée deF dénie par F⁻(u) = inf{x∈R:F(x)≥u}, u∈]0,1[.

La fonction quantileF⁻ est toujours dénie, même lorsqueF n'est pas continue ou est constante sur un intervalle. Le graphe deF⁻est le symétrique par rapport à la première bissectrice du graphe deF pour lequel une partie constante devient un point de discontinuité.

Remarque 2.18. Par continuité à droite deF, on a que F◦F⁻(u)≥upour toutu∈]0,1[. Lorsque F est continue, F⁻(α) est simplement le plus petit quantile d'ordre α. Si de plus, F est une bijection, la fonction quantile est la fonction réciproque F⁻¹ deF.

Lemme 2.19. SoitU une variable aléatoire de loi uniforme sur ]0,1[,F⁻(U) est une variable aléatoire de fonction de répartition F.

(15)

Preuve. Soit(x_n)_n∈_Nune suite décroissante de{x∈R:F(x)≥u} qui converge vers sa borne inférieure F⁻(u). Par construction,F(x_n)≥uet par la continuité à droite deF,

F◦F⁻(u) = lim

n→∞F(x_n)≥u.

Ainsi, pour toutx∈R,

P(F⁻(U)≤x)≤P F◦F⁻(U)≤F(x)

≤P U ≤F(x)

=F(x).

Soitv > u, le fait queF est croissante entraîne{x∈R:F(x)≥v} ⊆ {x∈R:F(x)≥u} et F⁻(v) = inf{x∈R:F(x)≥v} ≥inf{x∈R:F(x)≥u}=F⁻(u), F⁻ est donc croissante. CommeF⁻◦F(x) = inf{y∈R:F(y)≥F(x)} ≤x, on conclut

F(x) =P U ≤F(x)

≤P F⁻(U)≤F⁻◦F(x)

≤P F⁻(U)≤x

.

Remarque 2.20. Contrairement au lemme 2.6, ce résultat ne nécessite pas d'hypothèse de continuité et est valable pour toute fonction de répartitionF.

2.3.2 Quantiles empiriques

Pour l'estimation des quantiles à partir d'un échantillon iidX₁, ..., X_n, on dénit la fonction de quantile empirique

F_n⁻(u) = inf{x∈R:Fn(x)≥u}.

C'est la fonction de quantile associée à la fonction de répartition empirique. Le quantile empirique d'ordre αpeut se dénir également à partir des statistiques d'ordre de l'échantillonX1, ..., Xn.

Dénition 2.21. Les statistiques d'ordreX(1), ..., X(n)sont les valeurs ordonnées dans l'ordre croissant de l'échantillonX1, ..., Xn.

Les statistiques d'ordreX_(k) pourk= 1, ..., nsont des variables aléatoires qui vérient par construction X₍₁₎ ≤X₍₂₎ ≤...≤X_(n). Pour le résultat suivant, on dénit la fonction x7→ dxequi àx∈Rassocie le plus petit entier supérieur ou égal àx.

Proposition 2.22. Pour toutα∈]0,1[,F_n⁻(α) =X_(dnαe).

Preuve. Fn est constante par morceaux et vérieFn(x) = 0 six < X₍₁₎, Fn(x) = 1six≥X_(n)et F_n(x) = k

n , x∈[X_(k), X_(k+1)[, k= 1, ..., n−1.

On a en particulierFn(X_(dnαe)) =dnαe

n ≥αet ∀x < X_(dnαe),Fn(x)≤ dnαe −1

n < α. Ainsi,

F_n⁻(α) = inf{x∈R:Fn(x)≥α}=X_(dnαe). Remarque 2.23. Le quantile empirique est un quantile de l'ensemble {x1, ..., xn}. Par exemple, la médiane empiriqueF_n⁻(0.5) vaut X₍ⁿ

2+1) lorsquenest pair etX₍n+1

2 ) lorsquenest impair.

Pour étudier le comportement des quantiles empiriques, on étudie les statistiques d'ordre.

Théorème 2.24. Lak-ième statistique d'ordreX_(k) a pour densité f_(k)(x) = n!

(k−1)!(n−k)!F(x)^k−1 1−F(x)n−k

f(x), pour toutxpoint de continuité def.

(16)

Preuve. Soith >0, on a pour toutx∈R P(x < X_(k)≤x+h) =P

#{i:Xi≤x} ≤k−1, #{i:Xi≤x+h} ≥k

=

k−1

X

j=0 n−j

X

`=k−j

P

#{i:X_i ≤x}=j, #{i:x < X_i ≤x+h}=`

=

k−1

X

j=0 n−j

X

`=k−j

n j

n−j

`

F(x)^j F(x+h)−F(x)`

1−F(x)n−j−`

.

On déduit

f_(k)(x) = lim

h→0

1

h P(x < X_(k)≤x+h) = n!

(k−1)!(n−k)!F(x)^k−1 1−F(x)n−k

f(x),

les termes pour`≥2 étant négligeables quandh→0.

La statistique d'ordre X_(dnαe)=F_n⁻(α)est un estimateur du quantile q_α=F⁻(α)qui est convergent si F est bijective sur un voisinage de q_α. Dans ce cas, on a même la convergence en loi de la statistique renormalisée√

n(X_(dnαe)−q_α)vers une loi normale, comme énoncé dans la proposition suivante que l'on admettra.

Proposition 2.25. SiF est de classeC¹ dans un voisinage deqα etF⁰(qα) =f(qα)>0, alors

√n(X_(dnαe)−qα)−−−−→^loi

n→∞ N

0,α²(1−α)² f(qα)²

.

3 Analyse bivariée

L'analyse bivariée consiste à étudier les liens qui peuvent exister entre deux variables aléatoires. Dans ce chapitre, les observations sont des réalisations indépendantes (X₁, Y₁), ...,(X_n, Y_n) d'un couple de variables aléatoires(X, Y)de loiµsurR²et de lois marginalesµ_X etµ_Y. On supposera queX etY sont des variables non constantes et de variance nie.

3.1 Corrélation

On rappelle que deux variables aléatoiresX etY de carré intégrable sont dites corrélées si leur covariance cov(X, Y) =E(XY)−E(X)E(Y)est non-nulle. La corrélation entreX etY est alors mesurée par

cor(X, Y) := cov(X, Y) pvar(X)p

var(Y),

etcor(X, Y) = 0si une des variables est constante presque sûrement. La corrélation vérie les propriétés suivantes:

• Par l'inégalité de Cauchy-Schwarz, −1≤cor(X, Y)≤1.

• cor(X, Y) = 1si, et seulement si,Y =aX+b pour una >0etb∈R.

• cor(X, Y) =−1si, et seulement si,Y =aX+b pour una <0 etb∈R.

(17)

3.1.1 Coecient de corrélation de Pearson

On suppose maintenant que l'on cherche à évaluer s'il y a un lien ane entreX et etY à partir d'un échantillon iid(X1, Y1), ...,(Xn, Yn)de même loi que(X, Y). On noteXnetYn les moyennes empiriques deX et Y calculées sur l'échantillon,

Xn= 1 n

n

X

i=1

Xi , Yn= 1 n

n

X

i=1

Yi,

qui permettent d'estimer les moyennes théoriques E(X) et E(Y). De la même façon, on dénit les variances et covariance empiriques,

ˆ

σ²(X) = 1 n

n

X

i=1

(Xi−Xn)², σˆ²(Y) = 1 n

n

X

i=1

(Yi−Yn)², σ(X, Yˆ ) = 1 n

n

X

i=1

(Xi−Xn)(Yi−Yn) Dénition 3.1. Le coecient de corrélation de Pearson est donné par

ˆ

ρ= σ(X, Yˆ ) ˆ

σ(X) ˆσ(Y).

Le coecient de Pearson mesure la corrélation entre les vecteurs(X1, ..., Xn)et (Y1, ..., Yn)dansRⁿ. Il permet d'estimer la corrélation théorique cor(X, Y) et comme elle, est compris entre −1 et 1. Le lien ane est d'autant plus net queρˆest proche de1 ou−1 (1 pour une relation croissante et−1 pour une relation décroissante).

−0.4 −0.2 0.0 0.2 0.4

1.0 1.5 2.0 2.5 3.0

x

y

−0.4 −0.2 0.0 0.2 0.4

1.4 1.6 1.8 2.0 2.2 2.4 2.6

x

y

−0.4 −0.2 0.0 0.2 0.4

0.6 0.8 1.0 1.2 1.4

x

y

Figure 3: Diérentes sortes de corrélations: à gaucheρˆ=−0.94, au centreρˆ= 0.79et à droiteρˆ=−0.08. Par la loi forte des grands nombres,ρˆconverge presque sûrement verscor(X, Y)quandn→ ∞. On a de plus le comportement asymptotique suivant lorsqueX etY sont indépendantes.

Théorème 3.2. SiX etY sont indépendantes, alors

√nρˆ−−−−→^loi

n→∞ N(0,1).

Preuve. On poseZ_i= (X_iY_i, X_i, Y_i)^>,i= 1, ..., net

Z_n=





1 n

Pn i=1XiYi 1

n

Pn i=1Xi 1

n

Pn i=1Yi



 et Σ = var(Z₁) =





var(XY) cov(XY, X) cov(XY, Y) cov(XY, X) var(X) cov(X, Y) cov(XY, Y) cov(X, Y) var(Y)



.

(18)

Par le théorème central limite vectoriel, on sait que

√n Zn−E(Z) ^loi

−−−−→

n→∞ N(0,Σ).

Soitcn = 1,−Yn,−E(X), on sait par le théorème de Slutsky que

√ncn Zn−E(Z) ^loi

−−−−→

n→∞ N(0,cΣc^>)

oùc= (1,−E(Y),−E(X)). Il reste à remarquer que siX etY sont indépendantes, alors ˆ

σ(X, Y) =cn Zn−E(Z)

et cΣc^>= var(X) var(Y).

On déduit le résultat nal en utilisant une nouvelle fois le théorème de Slutsky.

Dans le cas particulier où (X, Y) est un vecteur Gaussien deR², la loi du coecient de corrélation de Pearson est explicite.

Proposition 3.3. Soit(X_i, Y_i), i= 1, ..., ndes réalisations indépendantes d'un vecteur Gaussien(X, Y)∼ N(m,Σ). Si Σ₁₂= 0, alors ρˆvérie

√n−2 ρˆ

p1−ρˆ² ∼ T(n−2), oùT désigne la loi de Student.

On admettra ce résultat. On remarque que dans le cas d'un vecteur Gaussien, l'indépendance entre X etY est équivalente à la non-corrélationΣ₁₂= 0. L'hypothèse du théorème 3.2 est donc bien vériée.

3.1.2 Coecient de corrélation de Spearman

Un coecient de corrélation de Pearson proche de zéro ne signie pas que les variables sont indépendantes mais seulement qu'une modélisation deY pas une fonction ane deXn'est pas pertinente. Par exemple, une relation du typeYi = sin(Xi) pour desXi distribués uniformément sur[−π, π]donnera une valeur deρˆproche de zéro avec grande probabilité.

Pour mettre en évidence l'existence d'une relation monotone (pas forcément linéaire) entreX etY du type Y_i=φ(X_i) +_i oùφest une fonction monotone, on peut utiliser le coecient de corrélation de Spearman qui se construit à partir des rangs des variablesXetY dans l'échantillon. On noteR_i ∈ {1, ..., n}le rang deX_i (on a doncX_R₁ ≥...≥X_R_n, en privilégiant en cas d'égalité l'indice le plus petit) et S_i le rang de Y_i.

Dénition 3.4. Le coecient de corrélation de Spearman est déni par ˆ

γ= σ(R, S)ˆ ˆ

σ(R) ˆσ(S).

L'idée intuitive du coecient de corrélation de Spearman est de dire que siY est une fonction monotone deX alors les rangsR_i=S_i dans le cas d'une relation croissante, et R_i =n+ 1−S_i dans le cas d'une relation décroissante. Dans les deux cas, les variablesR_i et S_i sont liées linéairement.

(19)

3.2 Régression linéaire

Soit X, Y un couple de variables aléatoires de carré intégrable, la meilleure approximation linéaire (au sensL²) deY parX, notéeL(Y|X), est la variable aléatoirea^∗X+b^∗oùa^∗, b^∗∈Rminimisent

R(a, b) =E Y −(aX+b)2

, a, b∈R.

Proposition 3.5. Si X et Y sont de carré intégrable, la meilleure approximation linéaire L(Y|X) = a^∗X+b^∗ est donnée par

a^∗= cov(X, Y)

var(X) et b^∗ =E(Y)−a^∗E(X).

Preuve. La fonctionR(., .)est diérentiable, on calcule ses dérivées partielles

∂R

∂a(a, b) = −2E(XY) + 2aE(X²) + 2bE(X)

∂R

∂b(a, b) = −2E(Y) + 2aE(X) + 2b

On vérie facilement que (a^∗, b^∗) est l'unique solution des conditions du premier ordre ^∂R_∂a(a^∗, b^∗) =

∂R

∂b(a^∗, b^∗) = 0. De plus, la matrice Hessienne en(a, b), H(a, b) = 2

E(X²) E(X) E(X) 1

est dénie-positive (et ne dépend pas dea, b). On déduit queRest convexe et donc, le point(a^∗, b^∗)est donc un minimum global.

Remarque 3.6. La meilleure approximation linéaire L(Y|X) = a^∗X +b^∗ est l'unique transformation aneaX+b de même espérance queY et telle que Y −(aX+b)et Y soient non-corrélés.

Lorsque l'on dispose d'un échantillon iid (X_i, Y_i), i = 1, ..., n, la régression linéaire permet d'estimer la meilleure relation ane, au sens du coût quadratique, pour expliquerY en fonction deX.

Dénition 3.7. La droite des moindres carrés est la droite dont la pente ˆa et l'ordonnée à l'origineˆb minimisent

Rn(a, b) = 1 n

n

X

i=1

Yi−(aXi+b)2

, a, b∈R.

Proposition 3.8. Les coecientsˆaetˆbde la droite des moindres carrés sont donnés par ˆ

a= σ(X, Yˆ ) ˆ

σ²(X) et ˆb=Yn−aXˆ n.

La preuve suit les même idées que la preuve de la proposition 3.5. C'est en fait un cas particulier pour lequel le couple (X, Y) est distribué uniformément sur l'ensemble {(X1, Y_n), ...,(X_n, Y_n)} (à condition que les couples(X_i, Y_i)soient tous diérents).

Remarque 3.9. La régression linéaire peut également être utilisée pour modéliser certaines relations non-linéaires entre deux variables, en utilisant des transformations de variables préalables. Par exemple une relation du type Y =αX^β est équivalente à une relation ane entre log(X)et log(Y). De même, un lien exponentiel Y = αe^βX correspond au modèle linéaire log(Y) = log(α) +βlog(X), une relation polynômiale Y = P(X) où P est un polynôme de degré d équivaut à exprimer Y comme une fonction linéaire des variables1, X, X², ..., X^d, etc...

(20)

Les variables aléatoiresˆaetˆbsont des estimateurs des valeurs théoriquesa^∗ etb^∗ qui convergent presque sûrement quandn→ ∞, par la loi forte des grands nombres.

Les écartsri entre lesYi et la droite de régression sont appelés les résidus, ri=Yi−ˆaXi−ˆb.

Plus les résidus sont petits, plus la modélisation deY par une fonction ane est bonne.

Proposition 3.10. Les résidus sont de moyenne nulle et d'espérance nulle, 1

n

X

i=1

ri= 0 et E(ri) = 0.

Preuve. On a facilement par la proposition 3.8 1

n

X

i=1

ri= 1 n

n

X

i=1

(Yi−ˆaXi−ˆb) =Yn−ˆaXn−ˆb= 0.

De plus,E(Pn

i=1r²_i) =E min_a,b∈_RPn

i=1(Y_i−aX_i−b)²

≤nE(Y₁²)<∞. D'oùE|ri|<∞. Par symétrie, lesr_i ont la même loi (mais ils ne sont pas indépendants!), on obtient

E(r_i) = 1 n E

ⁿ X

i=1

r_i

= 0.

Remarque 3.11. La droite de régression x7→axˆ + ˆb permet d'estimer le lien ane entre X etY. On l'utilise dans le but d'expliquer Y en fonction deX ou de prévoir des valeurs futures de Y à partir des valeurs de X correspondantes.

3.3 Modélisation non-paramétrique

Pour aller plus loin dans l'analyse bivariée, on peut rechercher la meilleure approximation deY par une fonction deX, sans se limiter aux fonctions anes. Rappelons la dénition suivante.

Dénition 3.12. SoitY une variable aléatoire réelle intégrable, l'espérance conditionnelle deY sachant X, notéeE(Y|X), est une variable aléatoire fonction deX qui vérie

∀g continue bornée,E Y g(X)

=E E(Y|X)g(X) .

On rappelle que que l'espérance conditionnelle existe et est unique presque sûrement. Toute fonctionφ^∗ vériantE(Y|X)^ps=φ^∗(X), appelée fonction de regression, est par conséquent uniqueµX-presque partout.

Théorème 3.13. SiY est de carré intégrable, alors φ^∗ minimise φ7→E Y −φ(X)² parmi les fonctions φmesurables.

Remarque 3.14. Dans le cas où E(Y²) < ∞, l'espérance conditionnelle E(Y|X) s'interprète comme la projection orthogonale de Y sur le sous-espace vectoriel des variables aléatoires de carré intégrable mesurables par rapport à la tribu engendrée parX.

L'espérance conditionnelle vérie les propriétés suivantes.

Licence 3 Mathématiques Modélisation Statistique