• Aucun résultat trouvé

2 Le mod` ele de l’erreur 3

N/A
N/A
Protected

Academic year: 2021

Partager "2 Le mod` ele de l’erreur 3"

Copied!
19
0
0

Texte intégral

(1)

A.B. Dufour et D. Chessel 24 novembre 2015

La fiche donne des indications sur le contenu d’un tableau d’ana- lyse de la variance. On utilise la r´ egression simple comme support des illustrations. Orthogonalit´ e g´ eom´ etrique et ind´ ependance, th´ eo- r` eme de Pythagore et d´ ecomposition de somme de carr´ es sont mis en parall` ele.

Table des mati` eres

1 Introduction 2

2 Le mod` ele de l’erreur 3

3 Estimateur et estimation par l’exp´ erience 5

4 Distributions d’´ echantillonnage 7

5 Les 3 propri´ et´ es des estimateurs 9

5.1 Le biais . . . . 9

5.1.1 A est un estimateur sans biais de a . . . . 9

5.1.2 B est un estimateur sans biais de b . . . . 9

5.1.3 S2 est un estimateur biais´ e . . . . 10

5.2 La pr´ ecision . . . . 12

5.3 La convergence . . . . 12

6 Th´ eor` eme de Cochran 12

7 Application : la r´ egression simple 16

(2)

1 Introduction

On consid` ere la relation entre deux variables quantitatives x et y et ´ etudions les quatre situations suivantes.

200 400 600 800

100200300400

A

200 400 600 800

0100200300400

B

200 400 600 800

100200300400500600

C

200 400 600 800

−4000200600

D

Le cas A est clair : y croˆıt lin´ eairement avec x. Le cas B l’est aussi : y croˆıt lin´ eairement avec x, bien qu’une erreur entoure la relation. Le cas C l’est moins.

L’erreur est largement de l’ordre de l’effet. Le cas D ne l’est plus du tout. Quand peut-on dire que y croˆıt lin´ eairement avec x ?

On consid` ere maintenant la relation entre une variable qualitative x et une

variable quantitative y et ´ etudions les quatre situations suivantes.

(3)

1 2 3 4 5

−0.50.00.5

A

1 2 3 4 5

−0.50.00.51.0

B

1 2 3 4 5

−1.0−0.50.00.51.0

C

1 2 3 4 5

−1.00.00.51.0

D

Le cas A est clair : y d´ epend de la modalit´ e de x. Le cas B l’est aussi : y d´ epend de la modalit´ e de x, bien qu’une erreur entoure la relation. Le cas C l’est moins.

L’erreur est largement de l’ordre de l’effet. Le cas D ne l’est plus du tout. Quand peut-on dire que yd´ epend de la modalit´ e de x ?

2 Le mod` ele de l’erreur

Jusqu’` a pr´ esent, les deux variables x et y sont des listes de valeurs vues comme deux vecteurs de R

n

. On peut alors les ´ ecrire x

>

= (x

1

x

2

· · · x

n

) et y

>

= (y

1

y

2

· · · y

n

).

Un mod` ele de y ` a partir de x s’´ ecrit : ˆ

y = ax + b ou encore ∀i = 1, n y ˆ

i

= ax

i

+ b

Ajouter un test au mod` ele propos´ e, c’est introduire la notion de mod` ele proba- biliste. La situation la plus simple, qui sert de support ` a ce cours, est le mod` ele

`

a effet fixe.

1. Une valeur x

i

de x est connue sans erreur. La variable est dite contrˆ ol´ ee.

(4)

2. Une valeur y

i

de y est inconnue et r´ epond ` a un processus al´ eatoire. y

i

est une r´ eponse dans un ensemble de r´ eponses possibles. On parle alors de tirage al´ eatoire dans une loi de probabilit´ e not´ ee Y

i

.

Le mod` ele lin´ eaire est caract´ eris´ e par l’hypoth` ese suivante : Y

i

est une loi normale de moyenne µ et d’´ ecart-type σ :

Y

i

7→ N(µ, σ).

y

i

est alors un ´ echantillon al´ eatoire simple de cette loi normale Y

i

.

Un mod` ele de y ` a partir de x est un ensemble d’hypoth` eses sur la moyenne µ et la variance σ

2

. Dire que y d´ epend lin´ eairement de x s’´ ecrit :

Y

i

7→ N(µ, σ) avec

µ = ax

i

+ b σ

2

= constante

Il y a trois param` etres et l’hypoth` ese fondamentale de la normalit´ e des r´ esidus.

Dans le cadre de la statistique descriptive classique, le mod` ele a deux param` etres a et b, aucune loi de probabilit´ e. La solution est obtenue par le crit` ere des moindres carr´ es :

M in

a,b

1 n

n

X

i=1

(y

i

− ax

i

− b)

2

!

= M in

a,b

ky − ax − b1

n

k

2

Dans le cadre actuel, le mod` ele poss` ede trois param` etres a, b et σ

2

. Comme il est probabilis´ e, le crit` ere d’estimation est celui de la vraisemblance :

M ax

a,b,σ2

LL(a, b, σ

2

)

= M ax

a,b,σ2

Log P

(a,b,σ2)

(y

1

, y

2

, . . . , y

n

) Dans le cas des moindres carr´ es, on obtient :

a = c(x, y)

v(x) et b = m(y) − am(x).

Dans le cas de la vraisemblance, la densit´ e de probabilit´ e de Y

i

est : d(y

i

) = 1

√ 2πσ exp − 1 2

y

i

− ax

i

− b σ

2

!

La vraisemblance de l’´ echantillon est : L(a, b, σ

2

) =

n

Y

i=1

d(y

i

) ⇔ LL(a, b, σ

2

) =

n

X

i=1

log

"

√ 1

2πσ exp − 1 2

y

i

− ax

i

− b σ

2

!#

LL(a, b, σ

2

) = −nlog(σ) − 1 2

n

X

i=1

y

i

− ax

i

− b σ

2

+ Cte

(5)

Pour maximiser cette quantit´ e, on calcule les trois d´ eriv´ ees partielles.

• ∂LL(a, b, σ

2

)

∂b =

n

X

i=1

y

i

− ax

i

− b σ

= 0 ⇒ b = m(y) − am(x)

• ∂LL(a, b, σ

2

)

∂a =

n

X

i=1

y

i

− ax

i

− b σ

x

i

= 0 ⇒

n

X

i=1

y

i

x

i

−a

n

X

i=1

x

2i

−b

n

X

i=1

x

i

= 0 a =

P

n

i=1

(y

i

− m(y)) (x

i

− m(x)) P

n

i=1

(x

i

− m(x))

2

• ∂LL(a, b, σ

2

)

∂σ = − n σ +

n

X

i=1

(y

i

− ax

i

− b)

2

σ

3

= 0 ⇒ σ

2

= E(a, b)

Les estimations au maximum de vraisemblance de a et b sont les mˆ emes valeurs obtenues que par les moindres carr´ es. Cela souligne qu’on peut donner ` a un calcul des significations bien diff´ erentes.

3 Estimateur et estimation par l’exp´ erience

On consid` ere la situation th´ eorique suivante :

x <- 1:10 y <- -2.5*x+35

plot(x,y,xlim=c(0,11),ylim=c(0,40),type="n") points(x,y,cex=1,pch=20, col="red")

abline(35,-2.5, col="red",lwd=1.5)

0 2 4 6 8 10

010203040

x

y

On introduit un bruit gaussien N (0, 4) sur la variable y et on calcule le mod` ele associ´ e.

plot(x,y,xlim=c(0,11),ylim=c(0,40),type="n") points(x,y,cex=1,pch=20, col="red")

abline(35,-2.5, col="red",lwd=1.5) z <- y+rnorm(10,m=0,sd=4)

points(x,z,cex=1,pch=20) abline(lm(z~x),lwd=2)

(6)

0 2 4 6 8 10

010203040

x

y

On recommence l’exp´ erience n = 3 fois.

0 2 4 6 8 10

010203040

x

y

0 2 4 6 8 10

010203040

x

y

0 2 4 6 8 10

010203040

x

y

On recommence l’exp´ erience n = 1000 fois et on regarde la distribution des trois param` etres : pente, ordonn´ ee ` a l’origine et variance associ´ ee ` a la loi de Gauss.

Pentes

a

Frequency

−4.0 −3.5 −3.0 −2.5 −2.0 −1.5 −1.0

050100150200

Origines

b

Frequency

30 35 40

050100150200250300

Variances

s2

Frequency

0 10 20 30 40

050100150200250300

A chaque exp´ erience, le hasard donne des r´ esultats autour du mod` ele et on cal- cule l’estimation des param` etres a, b, σ

2

. On obtient ainsi une une distribution d’´ echantillonnage pour chaque param` etre visualis´ ee par les histogrammes ci- dessus.

• a varie autour de la vraie valeur −2.5.

• b varie autour de la vraie valeur 35.

• La variance varie autour de la vraie valeur 16.

Une v´ eritable exp´ erience est par contre unique. Elle donne une seule valeur esti-

m´ ee qui est fausse. Les donn´ ees y

>

= (y

1

y

2

· · · y

n

) sont des r´ ealisations de n

variables al´ eatoires Y = (Y

1

, Y

2

, . . . , Y

n

). Le calcul de l’estimation se fait par une

(7)

formule du type ˆ θ = f (y

1

, y

2

, . . . , y

n

). La vraie valeur est θ. ˆ θ est l’estimation.

θ est une r´ ealisation d’une variable al´ eatoire Θ = f (Y

1

, Y

2

, . . . , Y

n

). Θ est une variable al´ eatoire : c’est l’estimateur. ˆ θ et θ sont des nombres.

Ce qui est essentiel, en pratique, c’est la relation entre θ (inconnue) et ˆ θ (calcul´ ee). Cette relation d´ epend des propri´ et´ es de l’estimateur c’est-` a-dire des caract´ eristiques de sa distribution d’´ echantillonnage.

Si on prend par exemple la pente associ´ ee ` a une r´ egression lin´ eaire. Il faut distinguer :

1. la formule de calcul qui repr´ esente une fonction : θ = f (y

1

, y

2

, . . . , y

n

) c’est-` a-dire ici

a = n P

n

i=1

x

i

y

i

− P

n

i=1

x

i

P

n i=1

y

i

n P

n

i=1

x

2i

− ( P

n i=1

x

i

)

2

2. l’estimation du param` etre pour les vraies donn´ ees qui repr´ esente la va- leur de la fonction :

ˆ

a = n P

n

i=1

x

i

y

i

− P

n

i=1

x

i

P

n i=1

y

i

n P

n

i=1

x

2i

− ( P

n i=1

x

i

)

2

3. l’estimateur qui repr´ esente une variable al´ eatoire :

A = n P

n

i=1

x

i

Y

i

− P

n

i=1

x

i

P

n i=1

Y

i

n P

n

i=1

x

2i

− ( P

n i=1

x

i

)

2

4 Distributions d’´ echantillonnage

On retient que l’estimation est fausse mais que sa qualit´ e d´ epend de la loi de probabilit´ e de l’estimateur. Dans l’exemple de la r´ egression simple, on a les r´ e- sultats ci-dessous.

• La pente :

A = n P

n

i=1

x

i

Y

i

− P

n

i=1

x

i

P

n i=1

Y

i

n P

n

i=1

x

2i

− ( P

n i=1

x

i

)

2

A est une combinaison lin´ eaire de lois normales qui suit une loi normale de param` etres :

E (A) = a et V (A) = σ

2

nv(x)

(8)

Pente

a

Density

−4.0 −3.5 −3.0 −2.5 −2.0 −1.5 −1.0

0.00.20.40.60.8

• L’ordonn´ ee ` a l’origine

B = 1 n

n

X

i=1

Y

i

− A 1 n

n

X

i=1

x

i

B est une combinaison lin´ eaire de lois normales qui suit une loi normale de param` etres :

E (B) = b et V (B) = σ

2

1

n + m(x)

2

nv(x)

Ordonnée

b

Density

30 35 40 45

0.000.050.100.15

• La variance S2 est plus complexe. On va montrer que E (S2) =

(n−2)σn 2

. La variable al´ eatoire

nS2 σ

2

=

n

X

i=1

Y

i

− Ax

i

− B σ

2

est une somme de carr´ es de lois normales c’est-` a-dire une loi du Chi-Deux ` a

n − 2 degr´ es de libert´ e.

(9)

Variance

q

Density

0 5 10 15 20

0.000.020.040.060.080.100.12

5 Les 3 propri´ et´ es des estimateurs

5.1 Le biais

La premi` ere propri´ et´ e d’un estimateur est d’ˆ etre juste c’est-` a-dire de tourner autour de la vraie valeur. Ceci se formalise par : E (Θ) = θ, la moyenne de l’estimateur est la vraie valeur.

Si l’estmateur n’est pas juste, sa moyenne s’´ ecarte de la vraie valeur. On dit alors qu’il est biais´ e. Ce biais est d´ efini par : Biais(Θ) = θ − E (Θ)

5.1.1 A est un estimateur sans biais de a A = n P

n

i=1

x

i

Y

i

− P

n

i=1

x

i

P

n i=1

Y

i

n P

n

i=1

x

2i

− ( P

n i=1

x

i

)

2

L’esp´ erance de A est donc :

E (A) = n P

n

i=1

x

i

E (Y

i

) − P

n

i=1

x

i

P

n

i=1

E (Y

i

) n P

n

i=1

x

2i

− ( P

n i=1

x

i

)

2

= n P

n

i=1

x

i

(ax

i

+ b) − P

n

i=1

x

i

P

n

i=1

(ax

i

+ b) n P

n

i=1

x

2i

− ( P

n i=1

x

i

)

2

= · · ·

= a

5.1.2 B est un estimateur sans biais de b B = 1

n

n

X

i=1

Y

i

− A 1 n

n

X

i=1

x

i

L’esp´ erance de B est donc : E (B) = 1

n

n

X

i=1

E (Y

i

) − E (A) 1 n

n

X

i=1

x

i

= · · ·

= b

(10)

5.1.3 S2 est un estimateur biais´ e

Pour le d´ emontrer, on commence par regarder la repr´ esentation alg´ ebrique de la r´ egression simple.

x, m et 1

n

sont fixes. y et y ˆ sont al´ eatoires. L’estimation de la variance est : c σ

2

= 1

n

n

X

i=1

y

i

− ˆ ax

i

− ˆ b

2

L’estimateur est : S2 =

n1

P

n

i=1

(Y

i

− Ax

i

− B)

2

Le vecteur ˆ y est le projet´ e de y sur le plan H engendr´ e par x et 1

n

. y − y ˆ est orthogonal ` a H et tous les vecteurs qui sont dedans, en particulier ˆ ax + ˆ b1

n

(le mod` ele estim´ e) et ax + b1

n

(le mod` ele vrai) ainsi qu’` a leur diff´ erence. Donc, le projet´ e de y − m sur le sous-espace orthogonal au plan est y − y ˆ :

y − y ˆ = P

H>

(y − m)

Pour poursuivre cette d´ emonstration, ne pas oublier les deux points suivants : 1. Si P est un projecteur orthogonal, alors :

hP (z)|z − P (z)i = 0 ⇒ kP(z)k

2

= hz|P (z)i

2. Si P est un projecteur orthogonal sur K de dimension p, on peut construire une base d’´ el´ ements de K compl´ et´ ee par une base d’´ el´ ements de l’orthogo- nal de K. Au total, on obtient une base orthogonale de R

n

pour laquelle la matrice P est du type :

A =

I

p

0

p(n−p)

0

(n−p)p

0

n−p(n−p)

parce que les projet´ es de K sont eux-mˆ emes et les projet´ es de l’orthogonal

de K soit nuls. La somme des ´ el´ ements diagonaux, not´ ee T race(A) vaut

(11)

p. Dans une autre base, la matrice du projecteur serait obtenue par le changement de base B = HAH

−1

dont la somme des ´ el´ ements diagonaux (T race(B)) vaut encore p. En effet,

T race(XY) = T race(YX) ⇒ T race(HAH

−1

) = T race(H

−1

HA) = T race(A)

ky − yk ˆ

2

= kP

H>

(y − m)k

2

= hy − m|P

H>

(y − m)i On utilise la matrice A du projecteur :

ky − yk ˆ

2

= hy − m|P

H>

(y − m)i

= 1

n (y − m)

>

A(y − m)

= 1

n

n

X

i=1 n

X

j=1

a

ij

(y

i

− ax

i

− b)(y

i

− ax

i

− b) d’o` u :

E (S2) = E

 1 n

n

X

i=1 n

X

j=1

a

ij

(Y

i

− ax

i

− b)(Y

i

− ax

i

− b)

= 1

n

n

X

i=1 n

X

j=1

a

ij

E ((Y

i

− ax

i

− b)(Y

i

− ax

i

− b))

Si les Y

i

sont ind´ ependants (´ echantillons al´ eatoires simples), les termes en ij sont nuls et les termes en ii tous ´ egaux ` a σ

2

. Il reste donc :

E (S2) = 1 n

n

X

i=1

a

ii

σ

2

= σ

2

n

n

X

i=1

a

ii

= σ

2

n T race((A) = (n − 2)σ

2

n

Du point de vue fondamental, le n − 1 de l’estimation de la variance est la dimension du sous-espace vectoriel orthogonal au seul vecteur 1

n

, le n − 2 de la r´ egression lin´ eaire simple est la dimension du sous-espace orthogonal ` a x et 1

n

. Cette propri´ et´ e se retrouve en r´ egression multiple, en analyse de la variance ` a un facteur, ...

Ce r´ esultat peut s’exp´ erimenter. Le mod` ele a des vraies valeurs et nous avons fait 1000 exp´ eriences ind´ ependantes.

• a a pour vraie valeur 2.5

mean(a) [1] -2.501802

• b a pour vraie valeur 35

mean(b) [1] 35.04594

• σ

2

a pour vraie valeur 16

mean(s2) [1] 12.55911

mean(10*s2/8) [1] 15.69889

(12)

5.2 La pr´ ecision

La seconde propri´ et´ e importante d’un estimateur concerne sa pr´ ecision. On la mesure par l’erreur quadratique moyenne :

EQM (Θ) = E (Θ − θ)

2

= E (Θ − E (Θ))

2

+ E ( E (Θ) − θ)

2

soit EQM (Θ) = V ariance + Biais

2

Pour des estimateurs justes, EQM et variance sont confondues. Comparer deux estimateurs n’est pas simple. Par exemple, un estimateur peut ˆ etre biais´ e de variance faible, un autre peut ˆ etre juste de grande variance. Il est pr´ ef´ erable d’utiliser un estimateur biais´ e car ne moyenne l’erreur sera syst´ ematique mais faible d’un cˆ ot´ e, al´ eatoire mais pouvant ˆ etre forte de l’autre.

Pour deux estimateurs sans biais, le meilleur est celui qui a la variance minimale.

5.3 La convergence

La troisi` eme propri´ et´ e des estimateurs et peut-ˆ etre la plus importante est la convergence.

E (A) = a V (A) = σ

2

nv(x) et E (B) = b V (B) = σ

2

1

n + m(x)

2

nv(x)

Dans les deux cas, quand n → ∞, les variances de ces estimateurs tendent vers 0. Donc, pour un niveau d’erreur quelconque, il existe un n ` a partir duquel Θ

n

(l’estimateur avec n valeurs) sera aussi pr` es que l’on veut de θ (la vraie valeur).

Cette propri´ et´ e s’´ ecrit :

∀α ∈ R

+

lim

x→+∞

P (|Θ

n

− θ| < α) = 1 convergence en probabilit´ es.

Un estimateur sans biais dont la variance tend vers 0 est convergent.

6 Th´ eor` eme de Cochran

En r´ esum´ e, on a cr´ e´ e un jeu de donn´ ees (points noirs) ` a partir d’un mod` ele

(droite rouge). La variable Y d´ ecroit lin´ eairement avec X (droite bleue). C’est

dans le mod` ele.

(13)

0 2 4 6 8 10

010203040

variable x

variable y

Mais quand on fait une exp´ erience, comment le prouver ? La base est d´ ej` a en oeuvre dans l’´ etude d’un ´ echantillon al´ eatoire simple d’une loi normale.

Soit x = (x

1

, . . . , x

n

) un ´ echantillon al´ eatoire simple d’une loi normale de moyenne µ et de variance σ

2

. Chacun des x

i

est la r´ ealisation d’une variable al´ ea- toire X

i

de mˆ eme loi. Ces variables sont ind´ ependantes deux ` a deux. Le vecteur x est donc lui-mˆ eme la r´ ealisation d’une variable al´ eatoire X = (X

1

, . . . , X

n

) dont chaque composante est gaussienne de moyenne (µ

1

, . . . , µ

n

). Sa matrice de variances-covariances est σ

2

I

n

o` u I

n

est la matrice identit´ e de rang n. La figure repr´ esente, ensemble, le vecteur des erreurs e et la variable centr´ ee x

0

, le premier utilisant la vraie moyenne inconnue µ, le second utilisant la moyenne empirique m(x), estimation de la pr´ ec´ edente. On a donc g´ eom´ etriquement, de par le th´ eor` eme de Pythagore :

kek

2

= kx

0

k

2

+ (m(x) − µ)

2

k1

n

k

2

Jusque-l` a, on utilisait, dans l’espace des variables, le produit scalaire associ´ e ` a la pond´ eration uniforme (ou plus g´ en´ eralement une pond´ eration quelconque).

Maintenant, on utilise le produit scalaire canonique :

(14)

hx|yi =

n

X

i=1

x

i

y

i

⇒ kxk

2

=

n

X

i=1

x

2i

Au facteur 1

n pr` es, cela ne change pas grand chose mais est indispensable pour int´ egrer l’aspect probabiliste.

• kek

2

est maintenant une variable al´ eatoire qui prend une valeur. Cette variable al´ eatoire est la somme des carr´ es de n variables normales ind´ ependantes de moyenne 0 et de variance σ

2

.

kek

2

σ

2

=

n

X

i=1

x

i

− µ σ

2

Cette quantit´ e est la r´ ealisation d’une variable al´ eatoire, somme des carr´ es de n lois normales centr´ ees r´ eduites, donc la r´ ealisation d’une loi du Chi-Deux ` a n degr´ es de libert´ e (χ

2n

).

Histogram of res

res

Density

0 5 10 15 20

0.000.050.100.15

Cette loi a pour moyenne n et pour variance 2n.

• La quantit´ e (m(x)−µ)

2

k1

n

k

2

est en partie al´ eatoire. k1

n

k

2

vaut n et m(x)−µ est la r´ ealisation d’une variable al´ eatoire de moyenne 0 et de variance

σn2

.

(m(x)−µ)2k1nk2

σ2

est donc la r´ ealisation du carr´ e d’une loi normale centr´ ee r´ eduite soit une loi du Chi-Deux ` a 1 degr´ e de libert´ e (χ

21

).

• La quantit´ e P

n

i=1

(x

i

− m(x))

2

pose un probl` eme beaucoup plus d´ elicat. C’est une r´ ealisation d’une variable al´ eatoire qui s’´ ecrit :

Z =

n

X

i=1

X

i

− 1 n

n

X

k=1

X

k

!

2

∗ Lorsque n = 2, on a : Z =

X

1

− (X

1

+ X

2

) 2

2

+

X

2

− (X

1

+ X

2

) 2

2

= (X

1

− X

2

)

2

2

(15)

C’est le carr´ e d’une loi normale de variance σ

2

. Donc,

σZ2

suit une loi du Chi- Deux ` a un degr´ e de libert´ e.

∗ Lorsque n = 3, on a : Z =

X

1

− (X

1

+ X

2

+ X

3

) 3

2

+

X

2

− (X

1

+ X

2

+ X

3

) 3

2

+

X

3

− (X

1

+ X

2

+ X

3

) 3

2

= 2

3 X

1

− 1 3 X

2

− 1

3 X

3

2

+

− 1 3 X

1

+ 2

3 X

2

− 1 3 X

3

2

+

− 1 3 X

1

− 1

3 X

2

+ 2 3 X

3

2

= 2

3 X

12

+ 2 3 X

22

+ 2

3 X

32

− 2

3 X

1

X

2

− 2

3 X

1

X

3

− 2 3 X

2

X

3

On fait alors une op´ eration tr` es simple et tr` es particuli` ere :

3

2 Z = X

12

− X

1

X

2

− X

1

X

3

+ X

22

+ X

32

− X

2

X

3

=

X

1

− 1 2 X

2

− 1

2 X

3

2

− 1 4 X

22

− 1

4 X

32

− 1

2 X

2

X

3

+ (X

22

+ X

32

− X

2

X

3

) Finalement,

Z = 2 3

X

1

− 1

2 X

2

− 1 2 X

3

2

+ 1

2 (X

2

− X

3

)

2

Le premier terme contient le carr´ e d’une loi normale de variance σ

2

et le second aussi. La covariance entre les deux est nulle et on a donc que Z

σ

2

suit une loi du Chi-Deux ` a deux degr´ es de libert´ e. Ceci introduit au fait qu’il s’agit d’un probl` eme d’alg` ebre. Z est la somme de trois carr´ es de lois normales qui devient la somme de carr´ es de deux lois normales ind´ ependantes. Ces ´ ecritures sont des polynˆ omes homog` enes de degr´ e 2 c’est-` a-dire des formes quadratiques.

Z =

n

X

i=1

(X

i

− µ)

2

est une somme de n carr´ es de lois normales ind´ ependantes mais Z =

n

X

i=1

X

i

− 1 n

n

X

i=1

X

i

!

2

est une somme de n −1 carr´ es de lois normales ind´ ependantes.

Finalement,

kek

2

= kx

0

k

2

+ (m(x) − µ)

2

k1

n

k

2

vecteurs

n

X

i=1

(x

i

− µ)

2

=

n

X

i=1

(x

i

− x) ¯

2

+ n(¯ x − µ)

2

valeurs observ´ ees

n

X

i=1

(X

i

−µ)

2

=

n

X

i=1

X

i

− 1 n

n

X

i=1

X

i

!

2

+n 1 n

n

X

i=1

X

i

− µ

!

2

variables al´ eatoires

P

n

i=1

(X

i

− µ)

2

σ

2

| {z }

χ2n

= P

n

i=1

X

i

n1

P

n i=1

X

i

2

σ

2

| {z }

χ2n−1

+ n

1n

P

n

i=1

X

i

− µ

2

σ

2

| {z }

χ21

lois

(16)

En r´ esum´ e, soit y = (y

1

, y

2

, . . . , y

n

) un ´ echantillon al´ eatoire simple d’une va- riable normale centr´ ee r´ eduite dans un tirage de la variable al´ eatoire Y = (Y

1

, Y

2

, . . . , Y

n

) dont les composantes sont normales centr´ ees r´ eduites, ind´ epen- dantes deux ` a deux. Si H est un sous-espace vectoriel de dimension p, y se d´ ecompose en deux vecteurs orthogonaux :

y = y

H

+ y

H>

D’apr` es le th´ eor` eme de Pythagore,

kyk

2

= ky

H

k

2

+ ky

H>

k

2

D’apr` es la d´ efinition de la loi du Chi-Deux, kyk

2

est la r´ ealisation d’une variable al´ eatoire

n

X

i=1

Y

i2

qui suit une loi χ

2n

. Le th´ eor` eme de Cochran indique que ky

H

k

2

est la r´ ealisation d’une variable al´ eatoire qui suit une loi χ

2p

; ky

H>

k

2

est la r´ ealisation d’une variable al´ eatoire qui suit une loi χ

2n−p

et ces deux variables sont ind´ ependantes.

G´ en´ eralisation.

Soit y = (y

1

, y

2

, . . . , y

n

) un ´ echantillon al´ eatoire simple d’une variable normale centr´ ee r´ eduite.

L’espace R

n

se d´ ecompose en K sous-espaces vectoriels H

1

, H

2

, . . . , H

K

de dimensions respectives p

1

, p

2

, . . . , p

K

avec p

1

+ p

2

+ · · · + p

K

= n.

y se d´ ecompose en K vecteurs orthogonaux deux ` a deux : y = y

1

+ y

2

+

· · · + y

K

.

D’apr` es le th´ eor` eme de Pythagore, kyk

2

= ky

1

k

2

+ky

2

k

2

+· · · +ky

K

k

2

. kyk

2

suit une loi χ

2n

et le th´ eor` eme de Cochran indique que ky

j

k

2

suit une loi χ

2pj

et que les variables sont ind´ ependantes.

7 Application : la r´ egression simple

On connait la d´ epense de sant´ e moyenne pour le poste ”maladie” de 20 ` a 65 ans.

age <- seq(20,65,by=5)

depense <- c(57.9,66.1,96,82.2,78.1,98.8,110.4,109.5,98.9,110.4) plot(age,depense,pch=20)

20 30 40 50 60

60708090100110

age

depense

(17)

On note x le vecteur ˆ age et y le vecteur d´ epense pour le poste ”maladie”, tous deux vecteurs de R

n

avec n = 10. R

n

se d´ ecompose en trois sous-espaces vecto- riels : 1

n

de dimension 1, x

0

de dimension 1 et le compl´ ementaire R de dimension n − 1 − 1 soit n − 2.

On applique le th´ eor` eme de Cochran (partie A de la figure ci-dessous) :

Si le mod` ele de la r´ egression lin´ eaire simple est v´ erifi´ e, on a : Y

i

→ N (µ, σ) avec µ

i

= ax

i

+ b C’est le mod` ele vrai.

La somme des carr´ es des ´ ecarts au mod` ele vrai suit une loi du Chi-Deux : P

n

i=1

(Y

i

− (ax

i

+ b))

2

σ

2

→ χ

2n

La somme des carr´ es des ´ ecarts au mod` ele estim´ e suit une loi du Chi-Deux : P

n

i=1

(Y

i

− (Ax

i

+ B))

2

σ

2

→ χ

2n−2

options(show.signif.stars=FALSE) lmrs <- lm(depense~age)

lmrs Call:

lm(formula = depense ~ age) Coefficients:

(Intercept) age

45.76 1.06

On peut alors calculer les valeurs pr´ edites par le mod` ele :

predict(lmrs)

1 2 3 4 5 6 7 8

66.96909 72.27152 77.57394 82.87636 88.17879 93.48121 98.78364 104.08606

9 10

109.38848 114.69091

Le vecteur des observations et le vecteur des pr´ edictions se projettent au mˆ eme

endroit sur le vecteur des constantes (th´ eor` eme des trois perpendiculaires, partie

B de la figure ci-dessus).

(18)

On a toujours la relation :

n

X

i=1

(y

i

− m(y))

2

=

n

X

i=1

(y

i

− y b

i

)

2

+

n

X

i=1

( y b

i

− m(y))

2

c’est-` a-dire

Somme Somme Somme

des = des + des

carr´ es totale carr´ es r´ esiduelle carr´ es expliqu´ ee soit encore

Variance des donn´ ees = Erreur + Variance du mod` ele

sum((depense-mean(depense))^2) [1] 3202.401

sum((depense-predict(lmrs))^2) [1] 882.8555

sum((predict(lmrs)-mean(depense))^2) [1] 2319.545

L’hypoth` ese nulle H

0

se caract´ erise par le fait que la variable x est sans effet sur la variable y.

Cela signifie que la pente est nulle (a = 0). La situation se d´ ecrit alors par : Y

i

→ N (b, σ)

La somme des carr´ es des ´ ecarts au mod` ele vrai suit une loi χ

2n

: P

n

i=1

(Y

i

− b)

2

σ

2

→ χ

2n

La somme des carr´ es des ´ ecarts au mod` ele estim´ e suit une loi χ

2

1 : P

n

i=1

Y

i

− Y ¯

2

σ

2

→ χ

2n

Que la vraie valeur de a soit nulle ou non, cela n’enl` eve rien au r´ esultat : P

n

i=1

(Y

i

− (Ax

i

+ B))

2

σ

2

→ χ

2n−2

La d´ ecomposition en parties orthogonales - th´ eor` eme de Cochran - implique que :

P

n

i=1

Ax

i

+ B − Y ¯ )

2

σ

2

→ χ

21

Les deux variables sont ind´ ependantes.

(19)

On a donc :

(n − 2) P

n

i=1

Ax

i

+ B − Y ¯ )

2

P

n

i=1

(Y

i

− (Ax

i

+ B))

2

→ F

(1,n−2)

que l’on retrouve dans le tableau de d´ ecomposition de la variance :

anova(lmrs)

Analysis of Variance Table Response: depense

Df Sum Sq Mean Sq F value Pr(>F) age 1 2319.55 2319.55 21.019 0.001791 Residuals 8 882.86 110.36

plot(age,depense,pch=20) abline(lmrs, col="red") shapiro.test(lmrs$residuals)

Shapiro-Wilk normality test data: lmrs$residuals

W = 0.91268, p-value = 0.2999

20 30 40 50 60

60708090100110

age

depense

Références

Documents relatifs

centr´ ees de variance σ 2 0 (mais ce ne sont pas n´ ecessairement

En d´ eduire une g´ en´ eralisation du th´ eor` eme de Gauss-Markov au cas de l’esti- mation par moindres carr´ es g´ en´ eralis´ es ainsi que l’optimalit´ e de l’estimateur

véritablement l’erreur commise lors d’un calcul éléments finis et ceci pour un grand nombre d’applications.... Où

Une étude sur la qualité de la documentation des pro- blèmes de santé dans les DME de 19 cliniques de soins primaires au Manitoba, réalisée par Singer et collègues (page 383),

Dans le cas où le nombre de mesures est très grand, et que l’on s’approche d’une distribution normale, les valeurs extrêmes ne constituent plus une bonne approximation

Et s’il eût seulement nombré jusqu’à trente ou quarante retours de l’une tirée vingt degrés ou moins, et de l’autre quatre-vingts ou nonante degrés, il est connu que la

Ain d’ élaborer cette cartographie de la communication publique entourant une controverse forestière, nous proposons une étude de cas suggestif de la diffusion du

Pour les sommes de type II, on doit faire la diff´erence entre la somme des carr´es relative aux erreurs dans le mod`ele avec les seuls effets de F 2 et la mˆeme somme dans le