• Aucun résultat trouvé

Un test d'adéquation est un test sur une valeur particulière de la loi des observations. Etant donné une loiµ0connue, on veut tester si l'échantillonX1, ..., Xn est issu de cette loi.

6.4.1 Test du χ2

Le test d'adéquation du χ2 est utilisé à l'origine pour tester si un échantillon est issu d'une loi dis-crète µ0. L'hypothèse nulle s'écrit donc H0 : µ = µ0, pour µ0 est une loi discrète connue à support ni{t1, ..., tk}. On se place dans le modèle non-paramétrique, l'hypothèse alternative estH1 :µ 6=µ0. En notant πj0({tj})et pj =P(X = tj)pour j = 1, ..., k, l'hypothèse nulle peut s'écrire de façon équivalenteH0:pjj, j = 1, ..., k. On remarque également que l'hypothèse alternative peut s'écrire H1:∃j, pj 6=πj.

On estime naturellement les probabilités inconnuespj par les fréquences d'apparition des valeurstj dans l'échantillon

On dénit alors la statistique de test

Qn:=n

Proposition 6.7. SousH0:µ=µ0,Qn converge en loi vers unχ2(k−1) quandn→ ∞. Par ailleurs,

Par le théorème central limite vectoriel,√

n pn−π

π), la matrice diagonale de diagonale√

π = (√

π> (I désigne l'identité de Rk). On remarque dans un premier temps que qn est orthogonal à √

Ce résultat permet de construire le test d'adéquation duχ2 qui s'écrit Φα=1{Qn> q1−α},

où q1−α désigne le quantile d'ordre 1−α de la loi du χ2(k−1). Par la continuité de la fonction de répartition d'unχ2, on déduit facilement de la proposition précédente que le test est asymptotiquement de niveauαet qu'il est convergent.

L'idée du test d'adéquation du χ2 peut se généraliser à tout type de loi. Supposons maintenant que les observations sont distribuées suivant une loi µ quelconque sur Ret que l'on veut tester une valeur particulièreH0:µ=µ0. On procède de la façon suivante:

• On choisit une partition {Aj}j=1,...,k deRtelle queπj :=µ0(Aj)>0 pour toutj= 1, .., k.

• On calcule les proportions d'observations pour chaque ensemble Aj, pnj= 1

• D'après la proposition 6.7, on sait que

Qn=n

k

X

j=1

(pnj−πj)2 πj

suit asymptotiquement unχ2(k−1) siµ(Aj) =πj pour toutj= 1, .., k.

Remarque 6.8. Le test Φα = 1{Qn > q1−α} est donc asymptotiquement de niveau α pour tester l'hypothèse H0:µ=µ0. En revanche, il n'est plus convergent puisqu'on peut construire une loi µ16=µ0

telle que µ1(Aj) = πj pour tout j = 1, .., k. La puissance du test sous µ1 convergera donc vers 1−α, ce qui n'est pas satisfaisant. Une solution à ce problème est d'augmenter le nombre de classes k =kn de la partition avecn, susamment lentement pour pouvoir approcher la loi de la statistiqueQn par un χ2(kn).

6.4.2 Test de Kolmogorov-Smirnov

Comme le test d'adéquation duχ2, le test de Kolmogorov-Smirnov permet de tester une valaur particulière de la loi via l'hypothèse nulleH0:µ=µ0. En revanche, il n'est valable que pour des lois µ0continues.

L'idée du test repose sur le théorème suivant.

Théorème 6.9 (Donsker). Soit X1, ..., Xn un échantillon iid de loi continue de fonction de répartition F etFn la fonction de répartition empirique. Alors,

Kn =√ n sup

t∈R

|Fn(t)−F(t)|−−−−→loi

n→∞ K,

oùK est une variable aléatoire de loi de Kolmogorov de fonction de répartition FK(x) = 1−2

X

j=1

(−1)j−1exp(−2j2x2), , x≥0.

La preuve de ce résultat est une conséquence d'un résultat plus général concernant la convergence du processus empirique renormalisé. Précisément, dans le cas de variables aléatoiresXi uniformes sur[0,1], le processus√

n Fn(t)−F(t)

, t∈[0,1]converge en loi vers un pont Brownien dans l'espace des fonctions càdlàg muni de la topologie de Skorokhod.

La fonction de répartition de la loi de Kolmogorov est continue est strictement croissante sur]0,+∞[, il existe donc un uniqueq1−αtel queFK(q1−α) = 1−α, ce qui permet de construire un test asymptotique-ment de niveauαparΦα=1{Kn > q1−α}. On peut montrer également que ce test est convergent pour toute fonction de répartitionF16=F.

7 Modèle linéaire

On cherche maintenant à modéliser le lien entre une variableY aléatoire et plusieurs variables explicatives X1, ..., Xp considérées ici comme déterministes. On suppose que les observations{yi, x1i, ..., xpi}i=1,...,n

vérient

yi01x1i+...+βpxpi+i, i= 1, ..., n,

où lesisont centrés, de même varianceσ2<∞et non-corrélés. Le modèle s'écrit sous forme matricielle y=Xβ+,

avec

La matrice X est supposée injective ce qui implique en particulier que n > p. Comme on suppose les variables explicativesxi déterministes (non aléatoires), l'alea est uniquement dû à la présence des bruits i. Ainsi, seuls les vecteury et sont des réalisations des variables aléatoires,Xet β sont déterministes (par ailleurs, seulsy etXsont connus du statisticien). On suppose de plus que les bruitsi sont

• centrés: E(i) = 0,

• non-corrélés: ∀i6=j,cov(i, j) = 0,

• de variances égales (homoscédastiques): var(i) =σ2<∞.

Ces hypothèses, dites hypothèses faibles du modèle linéaire, sont résumées par les égalités matricielles E() = 0etvar() =σ2I. Les hypothèses fortes du modèle linéaires supposent en plus queest un vecteur Gaussien, auquel cas lesi sont indépendants car non-corrélés.

7.1 Méthode des moindres carrés ordinaires

On cherche à estimerβ et σ2. L'estimateur des MCO βˆest déni comme l'unique minimiseur de R(b) =ky−Xbk2, b∈Rp+1.

On rappelle quep < net queXest de rangp+ 1. Sous ces hypothèses, l'estimateurβˆest l'unique solution des conditions du premier ordre

∇R( ˆβ) =−2X>y+ 2X>Xβˆ= 0 ⇐⇒βˆ= (X>X)−1X>y.

On remarque queX>Xest inversible du fait queXest injective.

Proposition 7.1. L'estimateur des MCO βˆest un estimateur sans biais de β de matrice de variance var( ˆβ) =σ2(X>X)−1.

Preuve. CommeXest déterministe, on a E(y) =E(Xβ+) =Xβ et var(y) = var() =σ2I. On obtient E( ˆβ) =E((X>X)−1X>y) = (X>X)−1X>E(y) = (X>X)−1X>Xβ=β

var( ˆβ) = var((X>X)−1X>y) = (X>X)−1X>var(y)X(X>X)−12(X>X)−1. Théorème 7.2. (Gauss-Markov) L'estimateur des moindres carrésβˆest optimal (au sens du coût quadra-tique) parmi les estimateurs sans biais linéaires eny.

Preuve. Soit β˜ un estimateur sans biais de β, linéaire en y. On a donc β˜ = Ay pour une matrice déterministeA∈R(p+1)×n telle que,

∀β∈Rp+1 , β=E(Ay) =AE(y) =AXβ ⇐⇒ AX= I.

On veut montrer que la matricevar( ˜β)−var( ˆβ)est semi dénie-positive. On a var( ˜β) =Avar(y)A>2AA>2

AX(X>X)−1X>A>+A(I−X(X>X)−1X>)A>

2(X>X)−12A(I−X(X>X)−1X>)A>= var( ˆβ) +σ2A(I−X(X>X)−1X>)A>.

Il reste à remarquer que la matrice A(I−X(X>X)−1X>)A> = var( ˜β)−var( ˆβ)est semi dénie-positive.

En eet,∀a∈Rp+1,

a>A(I−X(X>X)−1X>)A>a=k(I−X(X>X)−1X>)A>ak2≥0.

L'optimalité au sensL2parmi les estimateurs linéaires sans biais ne nécessite pas la normalité du modèle.

Un résultat plus fort est valable dans le cas Gaussien∼ N(0, σ2I)où la variance deβˆatteint la borne de Cramer-Rao. L'estimateur des moindres carrés est donc optimal parmi tous les estimateurs sans biais deβ dans ce cas.

La matrice ΠX :=X(X>X)−1X> utilisée dans la preuve du théorême de Gauss-Markov est la projection orthogonale sur l'image de X. On le montre simplement en vériant que ΠX est symétrique et vérie Π2X = ΠX etIm(ΠX) = Im(X). Ainsi, le vecteurs des prévisions

ˆ

y=Xβˆ=X(X>X)−1X>y,

est la projection orthogonale dey surIm(X). C'est en quelque sorte la part de y∈Rn expliquée par les variables1, x1, ..., xp (les colonnes deX). De même, le vecteur des résidus

ˆ

=y−yˆ= (I−X(X>X)−1X>)y= (I−X(X>X)−1X>)(Xβ+) = (I−X(X>X)−1X>)

est la projection orthogonale de y sur Im(X) et par conséquent celle de puisque y =Xβ +. Une conséquence immédiate est que les vecteursβˆetˆsont non-corrélés. En eet,

cov( ˆβ,ˆ) =E

( ˆβ−β)ˆ>

= (X>X)−1X>E >

(I−X(X>X)−1X>) = 0.

La norme du vecteur des résidus permet de construire un estimateur deσ2par ˆ

σ2:= 1

n−p−1ky−ykˆ 2= 1

n−p−1kˆk2. Proposition 7.3. L'estimateurσˆ2 est sans biais.

Preuve. On a vu que ˆ= ΠXoùΠX = I−X(X>X)−1X> est la matrice de projection orthogonale sur Im(X). On utilise qu'un réél est égal à sa trace et quetr(AB) = tr(BA):

Ekˆk2=E(>Π>XΠX) =E(>ΠX) =E

tr(>ΠX)

=E

tr(ΠX>) . Clairement, la trace (somme des éléments diagonaux) commute avec l'espérance, d'où

Ekˆk2= tr

ΠXE(>)

= tr

ΠXσ2I

2tr(ΠX).

La trace (somme des valeurs propres) d'une matrice de projection étant égale à son rang, on obtient Ekˆk22(n−p−1) ⇐⇒ E σˆ2

2.

Un résultat plus fort est valable dans le cas Gaussien.

Proposition 7.4. Dans le modèle Gaussien∼ N(0, σ2I), les estimateursβˆetσˆ2 sont indépendants et vérient

βˆ∼ N(β, σ2(X>X)−1) et (n−p−1)σˆ2

σ2 ∼χ2(n−p−1).

Preuve. On a y = Xβ + ∼ N(Xβ, σ2I), d'où βˆ = (X>X)−1X>y ∼ N(β, σ2(X>X)−1). De même, ˆ

= ΠX∼ N(0, σ2ΠX). En exprimant ˆdans une base orthonormée deIm(X), on déduit (c'est une conséquence du théorême de Cochran)

kˆk2

σ2 = (n−p−1)σˆ2

σ2 ∼χ2(n−p−1).

Il reste à montrer l'indépendance entreβˆetσˆ2. On a vu queβˆetˆsont non-corrélés et donc indépendants dans le cas Gaussien. Ainsi,ˆσ2qui est fonction de ˆest indépendant deβˆ.

Remarque 7.5. Dans le cas Gaussien,βˆ est l'estimateur du maximum de vraisemblance. En revanche, l'estimateur du maximum de vraismeblance deσ2 est diérent, donné par

ˆ

σMV2 = 1

nky−ykˆ 2=n−p−1 n σˆ2.

Documents relatifs