2 Le mod` ele de l’erreur 3

(1)

A.B. Dufour et D. Chessel 24 novembre 2015

La fiche donne des indications sur le contenu d’un tableau d’ana- lyse de la variance. On utilise la r´ egression simple comme support des illustrations. Orthogonalit´ e g´ eom´ etrique et ind´ ependance, th´ eo- r` eme de Pythagore et d´ ecomposition de somme de carr´ es sont mis en parall` ele.

Table des mati` eres

1 Introduction 2

2 Le mod` ele de l’erreur 3

3 Estimateur et estimation par l’exp´ erience 5

4 Distributions d’´ echantillonnage 7

5 Les 3 propri´ et´ es des estimateurs 9

5.1 Le biais . . . . 9

5.1.1 A est un estimateur sans biais de a . . . . 9

5.1.2 B est un estimateur sans biais de b . . . . 9

5.1.3 S2 est un estimateur biais´ e . . . . 10

5.2 La pr´ ecision . . . . 12

5.3 La convergence . . . . 12

6 Th´ eor` eme de Cochran 12

7 Application : la r´ egression simple 16

(2)

1 Introduction

On consid` ere la relation entre deux variables quantitatives x et y et ´ etudions les quatre situations suivantes.

●

200 400 600 800

100200300400

A

●

● ●

●

200 400 600 800

0100200300400

B

●

200 400 600 800

100200300400500600

C

●

● ●

●

200 400 600 800

−4000200600

D

Le cas A est clair : y croˆıt lin´ eairement avec x. Le cas B l’est aussi : y croˆıt lin´ eairement avec x, bien qu’une erreur entoure la relation. Le cas C l’est moins.

L’erreur est largement de l’ordre de l’effet. Le cas D ne l’est plus du tout. Quand peut-on dire que y croˆıt lin´ eairement avec x ?

On consid` ere maintenant la relation entre une variable qualitative x et une

variable quantitative y et ´ etudions les quatre situations suivantes.

(3)

●

●●

●

●●

● ●

●●

●

●●

●

●●

●

●●

1 2 3 4 5

−0.50.00.5

A

●

●●

●

●●

●

●●

●

1 2 3 4 5

−0.50.00.51.0

B

●

●●

●

●●

●

●●

●

1 2 3 4 5

−1.0−0.50.00.51.0

C

●

●●

●

1 2 3 4 5

−1.00.00.51.0

D

Le cas A est clair : y d´ epend de la modalit´ e de x. Le cas B l’est aussi : y d´ epend de la modalit´ e de x, bien qu’une erreur entoure la relation. Le cas C l’est moins.

L’erreur est largement de l’ordre de l’effet. Le cas D ne l’est plus du tout. Quand peut-on dire que yd´ epend de la modalit´ e de x ?

2 Le mod` ele de l’erreur

Jusqu’` a pr´ esent, les deux variables x et y sont des listes de valeurs vues comme deux vecteurs de R

ⁿ

. On peut alors les ´ ecrire x

^>

= (x

₁

x

₂

· · · x

_n

) et y

^>

= (y

₁

y

₂

· · · y

_n

).

Un mod` ele de y ` a partir de x s’´ ecrit : ˆ

y = ax + b ou encore ∀i = 1, n y ˆ

_i

= ax

_i

+ b

Ajouter un test au mod` ele propos´ e, c’est introduire la notion de mod` ele proba- biliste. La situation la plus simple, qui sert de support ` a ce cours, est le mod` ele

`

a effet fixe.

1. Une valeur x

i

de x est connue sans erreur. La variable est dite contrˆ ol´ ee.

(4)

2. Une valeur y

i

de y est inconnue et r´ epond ` a un processus al´ eatoire. y

i

est une r´ eponse dans un ensemble de r´ eponses possibles. On parle alors de tirage al´ eatoire dans une loi de probabilit´ e not´ ee Y

i

.

Le mod` ele lin´ eaire est caract´ eris´ e par l’hypoth` ese suivante : Y

i

est une loi normale de moyenne µ et d’´ ecart-type σ :

Y

i

7→ N(µ, σ).

y

_i

est alors un ´ echantillon al´ eatoire simple de cette loi normale Y

_i

.

Un mod` ele de y ` a partir de x est un ensemble d’hypoth` eses sur la moyenne µ et la variance σ

²

. Dire que y d´ epend lin´ eairement de x s’´ ecrit :

Y

i

7→ N(µ, σ) avec

µ = ax

i

+ b σ

²

= constante

Il y a trois param` etres et l’hypoth` ese fondamentale de la normalit´ e des r´ esidus.

Dans le cadre de la statistique descriptive classique, le mod` ele a deux param` etres a et b, aucune loi de probabilit´ e. La solution est obtenue par le crit` ere des moindres carr´ es :

M in

a,b

1 n

n

X

i=1

(y

i

− ax

i

− b)

²

!

= M in

a,b

ky − ax − b1

n

k

²

Dans le cadre actuel, le mod` ele poss` ede trois param` etres a, b et σ

²

. Comme il est probabilis´ e, le crit` ere d’estimation est celui de la vraisemblance :

M ax

a,b,σ²

LL(a, b, σ

²

)

= M ax

a,b,σ²

Log P

(a,b,σ²)

(y

1

, y

2

, . . . , y

n

) Dans le cas des moindres carr´ es, on obtient :

a = c(x, y)

v(x) et b = m(y) − am(x).

Dans le cas de la vraisemblance, la densit´ e de probabilit´ e de Y

i

est : d(y

i

) = 1

√ 2πσ exp − 1 2

y

_i

− ax

_i

− b σ

2

!

La vraisemblance de l’´ echantillon est : L(a, b, σ

²

) =

n

Y

i=1

d(y

i

) ⇔ LL(a, b, σ

²

) =

n

X

i=1

log

"

√ 1

2πσ exp − 1 2

y

i

− ax

i

− b σ

2

!#

LL(a, b, σ

²

) = −nlog(σ) − 1 2

n

X

i=1

y

_i

− ax

_i

− b σ

2

+ Cte

(5)

Pour maximiser cette quantit´ e, on calcule les trois d´ eriv´ ees partielles.

• ∂LL(a, b, σ

²

)

∂b =

n

X

i=1

y

i

− ax

i

− b σ

= 0 ⇒ b = m(y) − am(x)

• ∂LL(a, b, σ

²

)

∂a =

n

X

i=1

y

i

− ax

i

− b σ

x

i

= 0 ⇒

n

X

i=1

y

i

x

i

−a

n

X

i=1

x

²_i

−b

n

X

i=1

x

i

= 0 a =

P

n

i=1

(y

i

− m(y)) (x

i

− m(x)) P

n

i=1

(x

i

− m(x))

²

• ∂LL(a, b, σ

²

)

∂σ = − n σ +

n

X

i=1

(y

i

− ax

i

− b)

²

σ

³

= 0 ⇒ σ

²

= E(a, b)

Les estimations au maximum de vraisemblance de a et b sont les mˆ emes valeurs obtenues que par les moindres carr´ es. Cela souligne qu’on peut donner ` a un calcul des significations bien diff´ erentes.

3 Estimateur et estimation par l’exp´ erience

On consid` ere la situation th´ eorique suivante :

x <- 1:10 y <- -2.5*x+35

plot(x,y,xlim=c(0,11),ylim=c(0,40),type="n") points(x,y,cex=1,pch=20, col="red")

abline(35,-2.5, col="red",lwd=1.5)

0 2 4 6 8 10

010203040

x

y

●

On introduit un bruit gaussien N (0, 4) sur la variable y et on calcule le mod` ele associ´ e.

plot(x,y,xlim=c(0,11),ylim=c(0,40),type="n") points(x,y,cex=1,pch=20, col="red")

abline(35,-2.5, col="red",lwd=1.5) z <- y+rnorm(10,m=0,sd=4)

points(x,z,cex=1,pch=20) abline(lm(z~x),lwd=2)

(6)

0 2 4 6 8 10

010203040

x

y

●

● ●

●

On recommence l’exp´ erience n = 3 fois.

0 2 4 6 8 10

010203040

x

y

●

● ●

●

● ●

●

0 2 4 6 8 10

010203040

x

y

●

0 2 4 6 8 10

010203040

x

y

●

● ●

●

On recommence l’exp´ erience n = 1000 fois et on regarde la distribution des trois param` etres : pente, ordonn´ ee ` a l’origine et variance associ´ ee ` a la loi de Gauss.

Pentes

a

Frequency

−4.0 −3.5 −3.0 −2.5 −2.0 −1.5 −1.0

050100150200

Origines

b

Frequency

30 35 40

050100150200250300

Variances

s2

Frequency

0 10 20 30 40

050100150200250300

A chaque exp´ erience, le hasard donne des r´ esultats autour du mod` ele et on cal- cule l’estimation des param` etres a, b, σ

²

. On obtient ainsi une une distribution d’´ echantillonnage pour chaque param` etre visualis´ ee par les histogrammes ci- dessus.

• a varie autour de la vraie valeur −2.5.

• b varie autour de la vraie valeur 35.

• La variance varie autour de la vraie valeur 16.

Une v´ eritable exp´ erience est par contre unique. Elle donne une seule valeur esti-

m´ ee qui est fausse. Les donn´ ees y

^>

= (y

₁

y

₂

· · · y

_n

) sont des r´ ealisations de n

variables al´ eatoires Y = (Y

₁

, Y

₂

, . . . , Y

_n

). Le calcul de l’estimation se fait par une

(7)

formule du type ˆ θ = f (y

1

, y

2

, . . . , y

n

). La vraie valeur est θ. ˆ θ est l’estimation.

θ est une r´ ealisation d’une variable al´ eatoire Θ = f (Y

1

, Y

2

, . . . , Y

n

). Θ est une variable al´ eatoire : c’est l’estimateur. ˆ θ et θ sont des nombres.

Ce qui est essentiel, en pratique, c’est la relation entre θ (inconnue) et ˆ θ (calcul´ ee). Cette relation d´ epend des propri´ et´ es de l’estimateur c’est-` a-dire des caract´ eristiques de sa distribution d’´ echantillonnage.

Si on prend par exemple la pente associ´ ee ` a une r´ egression lin´ eaire. Il faut distinguer :

1. la formule de calcul qui repr´ esente une fonction : θ = f (y

1

, y

2

, . . . , y

n

) c’est-` a-dire ici

a = n P

n

i=1

x

_i

y

_i

− P

n

i=1

x

_i

P

n i=1

y

_i

n P

n

i=1

x

²_i

− ( P

n i=1

x

_i

)

²

2. l’estimation du param` etre pour les vraies donn´ ees qui repr´ esente la va- leur de la fonction :

ˆ

a = n P

n

i=1

x

i

y

i

− P

n

i=1

x

i

P

n i=1

y

i

n P

n

i=1

x

²_i

− ( P

n i=1

x

i

)

²

3. l’estimateur qui repr´ esente une variable al´ eatoire :

A = n P

n

i=1

x

_i

Y

_i

− P

n

i=1

x

_i

P

n i=1

Y

_i

n P

n

i=1

x

²_i

− ( P

n i=1

x

i

)

²

4 Distributions d’´ echantillonnage

On retient que l’estimation est fausse mais que sa qualit´ e d´ epend de la loi de probabilit´ e de l’estimateur. Dans l’exemple de la r´ egression simple, on a les r´ e- sultats ci-dessous.

• La pente :

A = n P

n

i=1

x

i

Y

i

− P

n

i=1

x

i

P

n i=1

Y

i

n P

n

i=1

x

²_i

− ( P

n i=1

x

i

)

²

A est une combinaison lin´ eaire de lois normales qui suit une loi normale de param` etres :

E (A) = a et V (A) = σ

²

nv(x)

(8)

Pente

a

Density

−4.0 −3.5 −3.0 −2.5 −2.0 −1.5 −1.0

0.00.20.40.60.8

• L’ordonn´ ee ` a l’origine

B = 1 n

n

X

i=1

Y

i

− A 1 n

n

X

i=1

x

i

B est une combinaison lin´ eaire de lois normales qui suit une loi normale de param` etres :

E (B) = b et V (B) = σ

²

1 n + m(x)

²

nv(x)

Ordonnée

b

Density

30 35 40 45

0.000.050.100.15

• La variance S2 est plus complexe. On va montrer que E (S2) =

^(n−2)σ_n ²

. La variable al´ eatoire

nS2 σ

²

=

n

X

i=1

Y

i

− Ax

i

− B σ

²

est une somme de carr´ es de lois normales c’est-` a-dire une loi du Chi-Deux ` a

n − 2 degr´ es de libert´ e.

(9)

Variance

q

Density

0 5 10 15 20

0.000.020.040.060.080.100.12

5 Les 3 propri´ et´ es des estimateurs

5.1 Le biais

La premi` ere propri´ et´ e d’un estimateur est d’ˆ etre juste c’est-` a-dire de tourner autour de la vraie valeur. Ceci se formalise par : E (Θ) = θ, la moyenne de l’estimateur est la vraie valeur.

Si l’estmateur n’est pas juste, sa moyenne s’´ ecarte de la vraie valeur. On dit alors qu’il est biais´ e. Ce biais est d´ efini par : Biais(Θ) = θ − E (Θ)

5.1.1 A est un estimateur sans biais de a A = n P

n

i=1

x

i

Y

i

− P

n

i=1

x

i

P

n i=1

Y

i

n P

n

i=1

x

²_i

− ( P

n i=1

x

_i

)

²

L’esp´ erance de A est donc :

E (A) = n P

n

i=1

x

i

E (Y

i

) − P

n

i=1

x

i

P

n

i=1

E (Y

i

) n P

n

i=1

x

²_i

− ( P

n i=1

x

i

)

²

= n P

n

i=1

x

_i

(ax

_i

+ b) − P

n

i=1

x

_i

P

n

i=1

(ax

_i

+ b) n P

n

i=1

x

²_i

− ( P

n i=1

x

i

)

²

= · · ·

= a

5.1.2 B est un estimateur sans biais de b B = 1

n

X

i=1

Y

i

− A 1 n

n

X

i=1

x

i

L’esp´ erance de B est donc : E (B) = 1

n

X

i=1

E (Y

i

) − E (A) 1 n

n

X

i=1

x

i

= · · ·

= b

(10)

5.1.3 S2 est un estimateur biais´ e

Pour le d´ emontrer, on commence par regarder la repr´ esentation alg´ ebrique de la r´ egression simple.

x, m et 1

n

sont fixes. y et y ˆ sont al´ eatoires. L’estimation de la variance est : c σ

²

= 1

n

X

i=1

y

i

− ˆ ax

i

− ˆ b

²

L’estimateur est : S2 =

_n¹

P

n

i=1

(Y

_i

− Ax

_i

− B)

²

Le vecteur ˆ y est le projet´ e de y sur le plan H engendr´ e par x et 1

_n

. y − y ˆ est orthogonal ` a H et tous les vecteurs qui sont dedans, en particulier ˆ ax + ˆ b1

_n

(le mod` ele estim´ e) et ax + b1

_n

(le mod` ele vrai) ainsi qu’` a leur diff´ erence. Donc, le projet´ e de y − m sur le sous-espace orthogonal au plan est y − y ˆ :

y − y ˆ = P

_H>

(y − m)

Pour poursuivre cette d´ emonstration, ne pas oublier les deux points suivants : 1. Si P est un projecteur orthogonal, alors :

hP (z)|z − P (z)i = 0 ⇒ kP(z)k

²

= hz|P (z)i

2. Si P est un projecteur orthogonal sur K de dimension p, on peut construire une base d’´ el´ ements de K compl´ et´ ee par une base d’´ el´ ements de l’orthogo- nal de K. Au total, on obtient une base orthogonale de R

ⁿ

pour laquelle la matrice P est du type :

A =

I

p

0

_p(n−p)

0

_(n−p)p

0

_n−p(n−p)

parce que les projet´ es de K sont eux-mˆ emes et les projet´ es de l’orthogonal

de K soit nuls. La somme des ´ el´ ements diagonaux, not´ ee T race(A) vaut

(11)

p. Dans une autre base, la matrice du projecteur serait obtenue par le changement de base B = HAH

⁻¹

dont la somme des ´ el´ ements diagonaux (T race(B)) vaut encore p. En effet,

T race(XY) = T race(YX) ⇒ T race(HAH

⁻¹

) = T race(H

⁻¹

HA) = T race(A)

ky − yk ˆ

²

= kP

_H^>

(y − m)k

²

= hy − m|P

_H^>

(y − m)i On utilise la matrice A du projecteur :

ky − yk ˆ

²

= hy − m|P

_H^>

(y − m)i

= 1

n (y − m)

^>

A(y − m)

= 1

n

X

i=1 n

X

j=1

a

ij

(y

i

− ax

i

− b)(y

i

− ax

i

− b) d’o` u :

E (S2) = E



 1 n

n

X

i=1 n

X

j=1

a

_ij

(Y

_i

− ax

_i

− b)(Y

_i

− ax

_i

− b)





= 1

n

X

i=1 n

X

j=1

a

ij

E ((Y

i

− ax

i

− b)(Y

i

− ax

i

− b))

Si les Y

i

sont ind´ ependants (´ echantillons al´ eatoires simples), les termes en ij sont nuls et les termes en ii tous ´ egaux ` a σ

²

. Il reste donc :

E (S2) = 1 n

n

X

i=1

a

ii

σ

²

= σ

²

n

X

i=1

a

ii

= σ

²

n T race((A) = (n − 2)σ

²

n

Du point de vue fondamental, le n − 1 de l’estimation de la variance est la dimension du sous-espace vectoriel orthogonal au seul vecteur 1

n

, le n − 2 de la r´ egression lin´ eaire simple est la dimension du sous-espace orthogonal ` a x et 1

n

. Cette propri´ et´ e se retrouve en r´ egression multiple, en analyse de la variance ` a un facteur, ...

Ce r´ esultat peut s’exp´ erimenter. Le mod` ele a des vraies valeurs et nous avons fait 1000 exp´ eriences ind´ ependantes.

• a a pour vraie valeur 2.5

mean(a) [1] -2.501802

• b a pour vraie valeur 35

mean(b) [1] 35.04594

• σ

²

a pour vraie valeur 16

mean(s2) [1] 12.55911

mean(10*s2/8) [1] 15.69889

(12)

5.2 La pr´ ecision

La seconde propri´ et´ e importante d’un estimateur concerne sa pr´ ecision. On la mesure par l’erreur quadratique moyenne :

EQM (Θ) = E (Θ − θ)

²

= E (Θ − E (Θ))

²

+ E ( E (Θ) − θ)

²

soit EQM (Θ) = V ariance + Biais

²

Pour des estimateurs justes, EQM et variance sont confondues. Comparer deux estimateurs n’est pas simple. Par exemple, un estimateur peut ˆ etre biais´ e de variance faible, un autre peut ˆ etre juste de grande variance. Il est pr´ ef´ erable d’utiliser un estimateur biais´ e car ne moyenne l’erreur sera syst´ ematique mais faible d’un cˆ ot´ e, al´ eatoire mais pouvant ˆ etre forte de l’autre.

Pour deux estimateurs sans biais, le meilleur est celui qui a la variance minimale.

5.3 La convergence

La troisi` eme propri´ et´ e des estimateurs et peut-ˆ etre la plus importante est la convergence.

E (A) = a V (A) = σ

²

nv(x) et E (B) = b V (B) = σ

²

1 n + m(x)

²

nv(x)

Dans les deux cas, quand n → ∞, les variances de ces estimateurs tendent vers 0. Donc, pour un niveau d’erreur quelconque, il existe un n ` a partir duquel Θ

n

(l’estimateur avec n valeurs) sera aussi pr` es que l’on veut de θ (la vraie valeur).

Cette propri´ et´ e s’´ ecrit :

∀α ∈ R

⁺

lim

x→+∞

P (|Θ

_n

− θ| < α) = 1 convergence en probabilit´ es.

Un estimateur sans biais dont la variance tend vers 0 est convergent.

6 Th´ eor` eme de Cochran

En r´ esum´ e, on a cr´ e´ e un jeu de donn´ ees (points noirs) ` a partir d’un mod` ele

(droite rouge). La variable Y d´ ecroit lin´ eairement avec X (droite bleue). C’est

dans le mod` ele.

(13)

●

● ●

●

0 2 4 6 8 10

010203040

variable x

variable y

Mais quand on fait une exp´ erience, comment le prouver ? La base est d´ ej` a en oeuvre dans l’´ etude d’un ´ echantillon al´ eatoire simple d’une loi normale.

Soit x = (x

1

, . . . , x

n

) un ´ echantillon al´ eatoire simple d’une loi normale de moyenne µ et de variance σ

²

. Chacun des x

i

est la r´ ealisation d’une variable al´ ea- toire X

i

de mˆ eme loi. Ces variables sont ind´ ependantes deux ` a deux. Le vecteur x est donc lui-mˆ eme la r´ ealisation d’une variable al´ eatoire X = (X

1

, . . . , X

n

) dont chaque composante est gaussienne de moyenne (µ

1

, . . . , µ

n

). Sa matrice de variances-covariances est σ

²

I

_n

o` u I

_n

est la matrice identit´ e de rang n. La figure repr´ esente, ensemble, le vecteur des erreurs e et la variable centr´ ee x

₀

, le premier utilisant la vraie moyenne inconnue µ, le second utilisant la moyenne empirique m(x), estimation de la pr´ ec´ edente. On a donc g´ eom´ etriquement, de par le th´ eor` eme de Pythagore :

kek

²

= kx

0

k

²

+ (m(x) − µ)

²

k1

n

k

²

Jusque-l` a, on utilisait, dans l’espace des variables, le produit scalaire associ´ e ` a la pond´ eration uniforme (ou plus g´ en´ eralement une pond´ eration quelconque).

Maintenant, on utilise le produit scalaire canonique :

(14)

hx|yi =

n

X

i=1

x

_i

y

_i

⇒ kxk

²

=

n

X

i=1

x

²_i

Au facteur 1

n pr` es, cela ne change pas grand chose mais est indispensable pour int´ egrer l’aspect probabiliste.

• kek

²

est maintenant une variable al´ eatoire qui prend une valeur. Cette variable al´ eatoire est la somme des carr´ es de n variables normales ind´ ependantes de moyenne 0 et de variance σ

²

.

kek

²

σ

²

=

n

X

i=1

x

i

− µ σ

2

Cette quantit´ e est la r´ ealisation d’une variable al´ eatoire, somme des carr´ es de n lois normales centr´ ees r´ eduites, donc la r´ ealisation d’une loi du Chi-Deux ` a n degr´ es de libert´ e (χ

²_n

).

Histogram of res

res

Density

0 5 10 15 20

0.000.050.100.15

Cette loi a pour moyenne n et pour variance 2n.

• La quantit´ e (m(x)−µ)

²

k1

n

k

²

est en partie al´ eatoire. k1

n

k

²

vaut n et m(x)−µ est la r´ ealisation d’une variable al´ eatoire de moyenne 0 et de variance

^σ_n²

.

(m(x)−µ)²k1nk²

σ²

est donc la r´ ealisation du carr´ e d’une loi normale centr´ ee r´ eduite soit une loi du Chi-Deux ` a 1 degr´ e de libert´ e (χ

²₁

).

• La quantit´ e P

n

i=1

(x

i

− m(x))

²

pose un probl` eme beaucoup plus d´ elicat. C’est une r´ ealisation d’une variable al´ eatoire qui s’´ ecrit :

Z =

n

X

i=1

X

i

− 1 n

n

X

k=1

X

k

!

2

∗ Lorsque n = 2, on a : Z =

X

1

− (X

1

+ X

2

) 2

²

+

X

2

− (X

1

+ X

2

) 2

²

= (X

1

− X

2

)

²

2

(15)

C’est le carr´ e d’une loi normale de variance σ

²

. Donc,

_σ^Z2

suit une loi du Chi- Deux ` a un degr´ e de libert´ e.

∗ Lorsque n = 3, on a : Z =

X

₁

− (X

₁

+ X

₂

+ X

₃

) 3

2

+

X

₂

− (X

₁

+ X

₂

+ X

₃

) 3

2

+

X

₃

− (X

₁

+ X

₂

+ X

₃

) 3

2

= 2

3 X

₁

− 1 3 X

₂

− 1

3 X

₃

²

+

− 1 3 X

₁

+ 2

3 X

₂

− 1 3 X

₃

²

+

− 1 3 X

₁

− 1

3 X

₂

+ 2 3 X

₃

²

= 2

3 X

₁²

+ 2 3 X

₂²

+ 2

3 X

₃²

− 2

3 X

₁

X

₂

− 2

3 X

₁

X

₃

− 2 3 X

₂

X

₃

On fait alors une op´ eration tr` es simple et tr` es particuli` ere :

3 2 Z = X

₁²

− X

₁

X

₂

− X

₁

X

₃

+ X

₂²

+ X

₃²

− X

₂

X

₃

=

X

1

− 1 2 X

2

− 1

2 X

3

²

− 1 4 X

₂²

− 1

4 X

₃²

− 1

2 X

2

X

3

+ (X

₂²

+ X

₃²

− X

2

X

3

) Finalement,

Z = 2 3

X

1

− 1

2 X

2

− 1 2 X

3

²

+ 1

2 (X

2

− X

3

)

²

Le premier terme contient le carr´ e d’une loi normale de variance σ

²

et le second aussi. La covariance entre les deux est nulle et on a donc que Z

σ

²

suit une loi du Chi-Deux ` a deux degr´ es de libert´ e. Ceci introduit au fait qu’il s’agit d’un probl` eme d’alg` ebre. Z est la somme de trois carr´ es de lois normales qui devient la somme de carr´ es de deux lois normales ind´ ependantes. Ces ´ ecritures sont des polynˆ omes homog` enes de degr´ e 2 c’est-` a-dire des formes quadratiques.

Z =

n

X

i=1

(X

i

− µ)

²

est une somme de n carr´ es de lois normales ind´ ependantes mais Z =

n

X

i=1

X

_i

− 1 n

n

X

i=1

X

_i

!

²

est une somme de n −1 carr´ es de lois normales ind´ ependantes.

Finalement,

kek

²

= kx

₀

k

²

+ (m(x) − µ)

²

k1

_n

k

²

vecteurs

n

X

i=1

(x

i

− µ)

²

=

n

X

i=1

(x

i

− x) ¯

²

+ n(¯ x − µ)

²

valeurs observ´ ees

n

X

i=1

(X

i

−µ)

²

=

n

X

i=1

X

i

− 1 n

n

X

i=1

X

i

!

2

+n 1 n

n

X

i=1

X

i

− µ

!

2

variables al´ eatoires

P

n

i=1

(X

i

− µ)

²

σ

²

| {z }

χ²_n

= P

n

i=1

X

_i

−

_n¹

P

n i=1

X

_i

²

σ

²

| {z }

χ²_n−1

+ n

¹_n

P

n

i=1

X

_i

− µ

²

σ

²

| {z }

χ²₁

lois

(16)

En r´ esum´ e, soit y = (y

1

, y

2

, . . . , y

n

) un ´ echantillon al´ eatoire simple d’une va- riable normale centr´ ee r´ eduite dans un tirage de la variable al´ eatoire Y = (Y

1

, Y

2

, . . . , Y

n

) dont les composantes sont normales centr´ ees r´ eduites, ind´ epen- dantes deux ` a deux. Si H est un sous-espace vectoriel de dimension p, y se d´ ecompose en deux vecteurs orthogonaux :

y = y

H

+ y

_H>

D’apr` es le th´ eor` eme de Pythagore,

kyk

²

= ky

_H

k

²

+ ky

_H>

k

²

D’apr` es la d´ efinition de la loi du Chi-Deux, kyk

²

est la r´ ealisation d’une variable al´ eatoire

n

X

i=1

Y

_i²

qui suit une loi χ

²_n

. Le th´ eor` eme de Cochran indique que ky

_H

k

²

est la r´ ealisation d’une variable al´ eatoire qui suit une loi χ

²_p

; ky

_H^>

k

²

est la r´ ealisation d’une variable al´ eatoire qui suit une loi χ

²_n−p

et ces deux variables sont ind´ ependantes.

G´ en´ eralisation.

Soit y = (y

1

, y

2

, . . . , y

n

) un ´ echantillon al´ eatoire simple d’une variable normale centr´ ee r´ eduite.

L’espace R

ⁿ

se d´ ecompose en K sous-espaces vectoriels H

1

, H

2

, . . . , H

K

de dimensions respectives p

₁

, p

₂

, . . . , p

_K

avec p

₁

+ p

₂

+ · · · + p

_K

= n.

y se d´ ecompose en K vecteurs orthogonaux deux ` a deux : y = y

₁

+ y

₂

+

· · · + y

_K

.

D’apr` es le th´ eor` eme de Pythagore, kyk

²

= ky

1

k

²

+ky

2

k

²

+· · · +ky

K

k

²

. kyk

²

suit une loi χ

²_n

et le th´ eor` eme de Cochran indique que ky

j

k

²

suit une loi χ

²_p_j

et que les variables sont ind´ ependantes.

7 Application : la r´ egression simple

On connait la d´ epense de sant´ e moyenne pour le poste ”maladie” de 20 ` a 65 ans.

age <- seq(20,65,by=5)

depense <- c(57.9,66.1,96,82.2,78.1,98.8,110.4,109.5,98.9,110.4) plot(age,depense,pch=20)

●

20 30 40 50 60

60708090100110

age

depense

(17)

On note x le vecteur ˆ age et y le vecteur d´ epense pour le poste ”maladie”, tous deux vecteurs de R

ⁿ

avec n = 10. R

ⁿ

se d´ ecompose en trois sous-espaces vecto- riels : 1

n

de dimension 1, x

0

de dimension 1 et le compl´ ementaire R de dimension n − 1 − 1 soit n − 2.

On applique le th´ eor` eme de Cochran (partie A de la figure ci-dessous) :

Si le mod` ele de la r´ egression lin´ eaire simple est v´ erifi´ e, on a : Y

_i

→ N (µ, σ) avec µ

_i

= ax

_i

+ b C’est le mod` ele vrai.

La somme des carr´ es des ´ ecarts au mod` ele vrai suit une loi du Chi-Deux : P

n

i=1

(Y

i

− (ax

i

+ b))

²

σ

²

→ χ

²_n

La somme des carr´ es des ´ ecarts au mod` ele estim´ e suit une loi du Chi-Deux : P

n

i=1

(Y

i

− (Ax

i

+ B))

²

σ

²

→ χ

²_n−2

options(show.signif.stars=FALSE) lmrs <- lm(depense~age)

lmrs Call:

lm(formula = depense ~ age) Coefficients:

(Intercept) age

45.76 1.06

On peut alors calculer les valeurs pr´ edites par le mod` ele :

predict(lmrs)

1 2 3 4 5 6 7 8

66.96909 72.27152 77.57394 82.87636 88.17879 93.48121 98.78364 104.08606

9 10

109.38848 114.69091

Le vecteur des observations et le vecteur des pr´ edictions se projettent au mˆ eme

endroit sur le vecteur des constantes (th´ eor` eme des trois perpendiculaires, partie

B de la figure ci-dessus).

(18)

On a toujours la relation :

n

X

i=1

(y

i

− m(y))

²

=

n

X

i=1

(y

i

− y b

i

)

²

+

n

X

i=1

( y b

i

− m(y))

²

c’est-` a-dire

Somme Somme Somme

des = des + des

carr´ es totale carr´ es r´ esiduelle carr´ es expliqu´ ee soit encore

Variance des donn´ ees = Erreur + Variance du mod` ele

sum((depense-mean(depense))^2) [1] 3202.401

sum((depense-predict(lmrs))^2) [1] 882.8555

sum((predict(lmrs)-mean(depense))^2) [1] 2319.545

L’hypoth` ese nulle H

0

se caract´ erise par le fait que la variable x est sans effet sur la variable y.

Cela signifie que la pente est nulle (a = 0). La situation se d´ ecrit alors par : Y

_i

→ N (b, σ)

La somme des carr´ es des ´ ecarts au mod` ele vrai suit une loi χ

²_n

: P

n

i=1

(Y

i

− b)

²

σ

²

→ χ

²_n

La somme des carr´ es des ´ ecarts au mod` ele estim´ e suit une loi χ

²₋

1 : P

n

i=1

Y

i

− Y ¯

²

σ

²

→ χ

²_n

Que la vraie valeur de a soit nulle ou non, cela n’enl` eve rien au r´ esultat : P

n

i=1

(Y

i

− (Ax

i

+ B))

²

σ

²

→ χ

²_n−2

La d´ ecomposition en parties orthogonales - th´ eor` eme de Cochran - implique que :

P

n

i=1

Ax

_i

+ B − Y ¯ )

2

σ

²

→ χ

²₁

Les deux variables sont ind´ ependantes.

(19)

On a donc :

(n − 2) P

n

i=1

Ax

_i

+ B − Y ¯ )

²

P

n

i=1

(Y

i

− (Ax

i

+ B))

²

→ F

_(1,n−2)

que l’on retrouve dans le tableau de d´ ecomposition de la variance :

anova(lmrs)

Analysis of Variance Table Response: depense

Df Sum Sq Mean Sq F value Pr(>F) age 1 2319.55 2319.55 21.019 0.001791 Residuals 8 882.86 110.36

plot(age,depense,pch=20) abline(lmrs, col="red") shapiro.test(lmrs$residuals)

Shapiro-Wilk normality test data: lmrs$residuals

W = 0.91268, p-value = 0.2999

●

20 30 40 50 60

60708090100110

age

depense