A.B. Dufour et D. Chessel 24 novembre 2015
La fiche donne des indications sur le contenu d’un tableau d’ana- lyse de la variance. On utilise la r´ egression simple comme support des illustrations. Orthogonalit´ e g´ eom´ etrique et ind´ ependance, th´ eo- r` eme de Pythagore et d´ ecomposition de somme de carr´ es sont mis en parall` ele.
Table des mati` eres
1 Introduction 2
2 Le mod` ele de l’erreur 3
3 Estimateur et estimation par l’exp´ erience 5
4 Distributions d’´ echantillonnage 7
5 Les 3 propri´ et´ es des estimateurs 9
5.1 Le biais . . . . 9
5.1.1 A est un estimateur sans biais de a . . . . 9
5.1.2 B est un estimateur sans biais de b . . . . 9
5.1.3 S2 est un estimateur biais´ e . . . . 10
5.2 La pr´ ecision . . . . 12
5.3 La convergence . . . . 12
6 Th´ eor` eme de Cochran 12
7 Application : la r´ egression simple 16
1 Introduction
On consid` ere la relation entre deux variables quantitatives x et y et ´ etudions les quatre situations suivantes.
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
200 400 600 800
100200300400
A
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
200 400 600 800
0100200300400
B
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
200 400 600 800
100200300400500600
C
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
200 400 600 800
−4000200600
D
Le cas A est clair : y croˆıt lin´ eairement avec x. Le cas B l’est aussi : y croˆıt lin´ eairement avec x, bien qu’une erreur entoure la relation. Le cas C l’est moins.
L’erreur est largement de l’ordre de l’effet. Le cas D ne l’est plus du tout. Quand peut-on dire que y croˆıt lin´ eairement avec x ?
On consid` ere maintenant la relation entre une variable qualitative x et une
variable quantitative y et ´ etudions les quatre situations suivantes.
●
●●
●
●
●
●
●●
● ●
●●
●
●
●
●●
●
●
●●
●
●●
1 2 3 4 5
−0.50.00.5
A
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●
1 2 3 4 5
−0.50.00.51.0
B
●
●
●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
1 2 3 4 5
−1.0−0.50.00.51.0
C
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
1 2 3 4 5
−1.00.00.51.0
D
Le cas A est clair : y d´ epend de la modalit´ e de x. Le cas B l’est aussi : y d´ epend de la modalit´ e de x, bien qu’une erreur entoure la relation. Le cas C l’est moins.
L’erreur est largement de l’ordre de l’effet. Le cas D ne l’est plus du tout. Quand peut-on dire que yd´ epend de la modalit´ e de x ?
2 Le mod` ele de l’erreur
Jusqu’` a pr´ esent, les deux variables x et y sont des listes de valeurs vues comme deux vecteurs de R
n. On peut alors les ´ ecrire x
>= (x
1x
2· · · x
n) et y
>= (y
1y
2· · · y
n).
Un mod` ele de y ` a partir de x s’´ ecrit : ˆ
y = ax + b ou encore ∀i = 1, n y ˆ
i= ax
i+ b
Ajouter un test au mod` ele propos´ e, c’est introduire la notion de mod` ele proba- biliste. La situation la plus simple, qui sert de support ` a ce cours, est le mod` ele
`
a effet fixe.
1. Une valeur x
ide x est connue sans erreur. La variable est dite contrˆ ol´ ee.
2. Une valeur y
ide y est inconnue et r´ epond ` a un processus al´ eatoire. y
iest une r´ eponse dans un ensemble de r´ eponses possibles. On parle alors de tirage al´ eatoire dans une loi de probabilit´ e not´ ee Y
i.
Le mod` ele lin´ eaire est caract´ eris´ e par l’hypoth` ese suivante : Y
iest une loi normale de moyenne µ et d’´ ecart-type σ :
Y
i7→ N(µ, σ).
y
iest alors un ´ echantillon al´ eatoire simple de cette loi normale Y
i.
Un mod` ele de y ` a partir de x est un ensemble d’hypoth` eses sur la moyenne µ et la variance σ
2. Dire que y d´ epend lin´ eairement de x s’´ ecrit :
Y
i7→ N(µ, σ) avec
µ = ax
i+ b σ
2= constante
Il y a trois param` etres et l’hypoth` ese fondamentale de la normalit´ e des r´ esidus.
Dans le cadre de la statistique descriptive classique, le mod` ele a deux param` etres a et b, aucune loi de probabilit´ e. La solution est obtenue par le crit` ere des moindres carr´ es :
M in
a,b
1 n
n
X
i=1
(y
i− ax
i− b)
2!
= M in
a,b
ky − ax − b1
nk
2Dans le cadre actuel, le mod` ele poss` ede trois param` etres a, b et σ
2. Comme il est probabilis´ e, le crit` ere d’estimation est celui de la vraisemblance :
M ax
a,b,σ2
LL(a, b, σ
2)
= M ax
a,b,σ2
Log P
(a,b,σ2)(y
1, y
2, . . . , y
n) Dans le cas des moindres carr´ es, on obtient :
a = c(x, y)
v(x) et b = m(y) − am(x).
Dans le cas de la vraisemblance, la densit´ e de probabilit´ e de Y
iest : d(y
i) = 1
√ 2πσ exp − 1 2
y
i− ax
i− b σ
2!
La vraisemblance de l’´ echantillon est : L(a, b, σ
2) =
n
Y
i=1
d(y
i) ⇔ LL(a, b, σ
2) =
n
X
i=1
log
"
√ 1
2πσ exp − 1 2
y
i− ax
i− b σ
2!#
LL(a, b, σ
2) = −nlog(σ) − 1 2
n
X
i=1
y
i− ax
i− b σ
2+ Cte
Pour maximiser cette quantit´ e, on calcule les trois d´ eriv´ ees partielles.
• ∂LL(a, b, σ
2)
∂b =
n
X
i=1
y
i− ax
i− b σ
= 0 ⇒ b = m(y) − am(x)
• ∂LL(a, b, σ
2)
∂a =
n
X
i=1
y
i− ax
i− b σ
x
i= 0 ⇒
n
X
i=1
y
ix
i−a
n
X
i=1
x
2i−b
n
X
i=1
x
i= 0 a =
P
ni=1
(y
i− m(y)) (x
i− m(x)) P
ni=1
(x
i− m(x))
2• ∂LL(a, b, σ
2)
∂σ = − n σ +
n
X
i=1
(y
i− ax
i− b)
2σ
3= 0 ⇒ σ
2= E(a, b)
Les estimations au maximum de vraisemblance de a et b sont les mˆ emes valeurs obtenues que par les moindres carr´ es. Cela souligne qu’on peut donner ` a un calcul des significations bien diff´ erentes.
3 Estimateur et estimation par l’exp´ erience
On consid` ere la situation th´ eorique suivante :
x <- 1:10 y <- -2.5*x+35
plot(x,y,xlim=c(0,11),ylim=c(0,40),type="n") points(x,y,cex=1,pch=20, col="red")
abline(35,-2.5, col="red",lwd=1.5)
0 2 4 6 8 10
010203040
x
y
●
●
●
●
●
●
●
●
●
●
On introduit un bruit gaussien N (0, 4) sur la variable y et on calcule le mod` ele associ´ e.
plot(x,y,xlim=c(0,11),ylim=c(0,40),type="n") points(x,y,cex=1,pch=20, col="red")
abline(35,-2.5, col="red",lwd=1.5) z <- y+rnorm(10,m=0,sd=4)
points(x,z,cex=1,pch=20) abline(lm(z~x),lwd=2)
0 2 4 6 8 10
010203040
x
y
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
On recommence l’exp´ erience n = 3 fois.
0 2 4 6 8 10
010203040
x
y
●
●
●
●
●
●
●
●
●
●
● ●
●
●
● ●
●
●
●
●
0 2 4 6 8 10
010203040
x
y
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
0 2 4 6 8 10
010203040
x
y
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
On recommence l’exp´ erience n = 1000 fois et on regarde la distribution des trois param` etres : pente, ordonn´ ee ` a l’origine et variance associ´ ee ` a la loi de Gauss.
Pentes
a
Frequency
−4.0 −3.5 −3.0 −2.5 −2.0 −1.5 −1.0
050100150200
Origines
b
Frequency
30 35 40
050100150200250300
Variances
s2
Frequency
0 10 20 30 40
050100150200250300
A chaque exp´ erience, le hasard donne des r´ esultats autour du mod` ele et on cal- cule l’estimation des param` etres a, b, σ
2. On obtient ainsi une une distribution d’´ echantillonnage pour chaque param` etre visualis´ ee par les histogrammes ci- dessus.
• a varie autour de la vraie valeur −2.5.
• b varie autour de la vraie valeur 35.
• La variance varie autour de la vraie valeur 16.
Une v´ eritable exp´ erience est par contre unique. Elle donne une seule valeur esti-
m´ ee qui est fausse. Les donn´ ees y
>= (y
1y
2· · · y
n) sont des r´ ealisations de n
variables al´ eatoires Y = (Y
1, Y
2, . . . , Y
n). Le calcul de l’estimation se fait par une
formule du type ˆ θ = f (y
1, y
2, . . . , y
n). La vraie valeur est θ. ˆ θ est l’estimation.
θ est une r´ ealisation d’une variable al´ eatoire Θ = f (Y
1, Y
2, . . . , Y
n). Θ est une variable al´ eatoire : c’est l’estimateur. ˆ θ et θ sont des nombres.
Ce qui est essentiel, en pratique, c’est la relation entre θ (inconnue) et ˆ θ (calcul´ ee). Cette relation d´ epend des propri´ et´ es de l’estimateur c’est-` a-dire des caract´ eristiques de sa distribution d’´ echantillonnage.
Si on prend par exemple la pente associ´ ee ` a une r´ egression lin´ eaire. Il faut distinguer :
1. la formule de calcul qui repr´ esente une fonction : θ = f (y
1, y
2, . . . , y
n) c’est-` a-dire ici
a = n P
ni=1
x
iy
i− P
ni=1
x
iP
n i=1y
in P
ni=1
x
2i− ( P
n i=1x
i)
22. l’estimation du param` etre pour les vraies donn´ ees qui repr´ esente la va- leur de la fonction :
ˆ
a = n P
ni=1
x
iy
i− P
ni=1
x
iP
n i=1y
in P
ni=1
x
2i− ( P
n i=1x
i)
23. l’estimateur qui repr´ esente une variable al´ eatoire :
A = n P
ni=1
x
iY
i− P
ni=1
x
iP
n i=1Y
in P
ni=1
x
2i− ( P
n i=1x
i)
24 Distributions d’´ echantillonnage
On retient que l’estimation est fausse mais que sa qualit´ e d´ epend de la loi de probabilit´ e de l’estimateur. Dans l’exemple de la r´ egression simple, on a les r´ e- sultats ci-dessous.
• La pente :
A = n P
ni=1
x
iY
i− P
ni=1
x
iP
n i=1Y
in P
ni=1
x
2i− ( P
n i=1x
i)
2A est une combinaison lin´ eaire de lois normales qui suit une loi normale de param` etres :
E (A) = a et V (A) = σ
2nv(x)
Pente
a
Density
−4.0 −3.5 −3.0 −2.5 −2.0 −1.5 −1.0
0.00.20.40.60.8
• L’ordonn´ ee ` a l’origine
B = 1 n
n
X
i=1
Y
i− A 1 n
n
X
i=1
x
iB est une combinaison lin´ eaire de lois normales qui suit une loi normale de param` etres :
E (B) = b et V (B) = σ
21
n + m(x)
2nv(x)
Ordonnée
b
Density
30 35 40 45
0.000.050.100.15
• La variance S2 est plus complexe. On va montrer que E (S2) =
(n−2)σn 2. La variable al´ eatoire
nS2 σ
2=
n
X
i=1
Y
i− Ax
i− B σ
2est une somme de carr´ es de lois normales c’est-` a-dire une loi du Chi-Deux ` a
n − 2 degr´ es de libert´ e.
Variance
q
Density
0 5 10 15 20
0.000.020.040.060.080.100.12
5 Les 3 propri´ et´ es des estimateurs
5.1 Le biais
La premi` ere propri´ et´ e d’un estimateur est d’ˆ etre juste c’est-` a-dire de tourner autour de la vraie valeur. Ceci se formalise par : E (Θ) = θ, la moyenne de l’estimateur est la vraie valeur.
Si l’estmateur n’est pas juste, sa moyenne s’´ ecarte de la vraie valeur. On dit alors qu’il est biais´ e. Ce biais est d´ efini par : Biais(Θ) = θ − E (Θ)
5.1.1 A est un estimateur sans biais de a A = n P
ni=1
x
iY
i− P
ni=1
x
iP
n i=1Y
in P
ni=1
x
2i− ( P
n i=1x
i)
2L’esp´ erance de A est donc :
E (A) = n P
ni=1
x
iE (Y
i) − P
ni=1
x
iP
ni=1
E (Y
i) n P
ni=1
x
2i− ( P
n i=1x
i)
2= n P
ni=1
x
i(ax
i+ b) − P
ni=1
x
iP
ni=1
(ax
i+ b) n P
ni=1
x
2i− ( P
n i=1x
i)
2= · · ·
= a
5.1.2 B est un estimateur sans biais de b B = 1
n
n
X
i=1
Y
i− A 1 n
n
X
i=1
x
iL’esp´ erance de B est donc : E (B) = 1
n
n
X
i=1
E (Y
i) − E (A) 1 n
n
X
i=1
x
i= · · ·
= b
5.1.3 S2 est un estimateur biais´ e
Pour le d´ emontrer, on commence par regarder la repr´ esentation alg´ ebrique de la r´ egression simple.
x, m et 1
nsont fixes. y et y ˆ sont al´ eatoires. L’estimation de la variance est : c σ
2= 1
n
n
X
i=1
y
i− ˆ ax
i− ˆ b
2L’estimateur est : S2 =
n1P
ni=1
(Y
i− Ax
i− B)
2Le vecteur ˆ y est le projet´ e de y sur le plan H engendr´ e par x et 1
n. y − y ˆ est orthogonal ` a H et tous les vecteurs qui sont dedans, en particulier ˆ ax + ˆ b1
n(le mod` ele estim´ e) et ax + b1
n(le mod` ele vrai) ainsi qu’` a leur diff´ erence. Donc, le projet´ e de y − m sur le sous-espace orthogonal au plan est y − y ˆ :
y − y ˆ = P
H>(y − m)
Pour poursuivre cette d´ emonstration, ne pas oublier les deux points suivants : 1. Si P est un projecteur orthogonal, alors :
hP (z)|z − P (z)i = 0 ⇒ kP(z)k
2= hz|P (z)i
2. Si P est un projecteur orthogonal sur K de dimension p, on peut construire une base d’´ el´ ements de K compl´ et´ ee par une base d’´ el´ ements de l’orthogo- nal de K. Au total, on obtient une base orthogonale de R
npour laquelle la matrice P est du type :
A =
I
p0
p(n−p)0
(n−p)p0
n−p(n−p)parce que les projet´ es de K sont eux-mˆ emes et les projet´ es de l’orthogonal
de K soit nuls. La somme des ´ el´ ements diagonaux, not´ ee T race(A) vaut
p. Dans une autre base, la matrice du projecteur serait obtenue par le changement de base B = HAH
−1dont la somme des ´ el´ ements diagonaux (T race(B)) vaut encore p. En effet,
T race(XY) = T race(YX) ⇒ T race(HAH
−1) = T race(H
−1HA) = T race(A)
ky − yk ˆ
2= kP
H>(y − m)k
2= hy − m|P
H>(y − m)i On utilise la matrice A du projecteur :
ky − yk ˆ
2= hy − m|P
H>(y − m)i
= 1
n (y − m)
>A(y − m)
= 1
n
n
X
i=1 n
X
j=1
a
ij(y
i− ax
i− b)(y
i− ax
i− b) d’o` u :
E (S2) = E
1 n
n
X
i=1 n
X
j=1
a
ij(Y
i− ax
i− b)(Y
i− ax
i− b)
= 1
n
n
X
i=1 n
X
j=1
a
ijE ((Y
i− ax
i− b)(Y
i− ax
i− b))
Si les Y
isont ind´ ependants (´ echantillons al´ eatoires simples), les termes en ij sont nuls et les termes en ii tous ´ egaux ` a σ
2. Il reste donc :
E (S2) = 1 n
n
X
i=1
a
iiσ
2= σ
2n
n
X
i=1
a
ii= σ
2n T race((A) = (n − 2)σ
2n
Du point de vue fondamental, le n − 1 de l’estimation de la variance est la dimension du sous-espace vectoriel orthogonal au seul vecteur 1
n, le n − 2 de la r´ egression lin´ eaire simple est la dimension du sous-espace orthogonal ` a x et 1
n. Cette propri´ et´ e se retrouve en r´ egression multiple, en analyse de la variance ` a un facteur, ...
Ce r´ esultat peut s’exp´ erimenter. Le mod` ele a des vraies valeurs et nous avons fait 1000 exp´ eriences ind´ ependantes.
• a a pour vraie valeur 2.5
mean(a) [1] -2.501802
• b a pour vraie valeur 35
mean(b) [1] 35.04594
• σ
2a pour vraie valeur 16
mean(s2) [1] 12.55911
mean(10*s2/8) [1] 15.69889
5.2 La pr´ ecision
La seconde propri´ et´ e importante d’un estimateur concerne sa pr´ ecision. On la mesure par l’erreur quadratique moyenne :
EQM (Θ) = E (Θ − θ)
2= E (Θ − E (Θ))
2+ E ( E (Θ) − θ)
2soit EQM (Θ) = V ariance + Biais
2Pour des estimateurs justes, EQM et variance sont confondues. Comparer deux estimateurs n’est pas simple. Par exemple, un estimateur peut ˆ etre biais´ e de variance faible, un autre peut ˆ etre juste de grande variance. Il est pr´ ef´ erable d’utiliser un estimateur biais´ e car ne moyenne l’erreur sera syst´ ematique mais faible d’un cˆ ot´ e, al´ eatoire mais pouvant ˆ etre forte de l’autre.
Pour deux estimateurs sans biais, le meilleur est celui qui a la variance minimale.
5.3 La convergence
La troisi` eme propri´ et´ e des estimateurs et peut-ˆ etre la plus importante est la convergence.
E (A) = a V (A) = σ
2nv(x) et E (B) = b V (B) = σ
21
n + m(x)
2nv(x)
Dans les deux cas, quand n → ∞, les variances de ces estimateurs tendent vers 0. Donc, pour un niveau d’erreur quelconque, il existe un n ` a partir duquel Θ
n(l’estimateur avec n valeurs) sera aussi pr` es que l’on veut de θ (la vraie valeur).
Cette propri´ et´ e s’´ ecrit :
∀α ∈ R
+lim
x→+∞
P (|Θ
n− θ| < α) = 1 convergence en probabilit´ es.
Un estimateur sans biais dont la variance tend vers 0 est convergent.
6 Th´ eor` eme de Cochran
En r´ esum´ e, on a cr´ e´ e un jeu de donn´ ees (points noirs) ` a partir d’un mod` ele
(droite rouge). La variable Y d´ ecroit lin´ eairement avec X (droite bleue). C’est
dans le mod` ele.
●
●
●
●
●
●
● ●
●
●
0 2 4 6 8 10
010203040
variable x
variable y
Mais quand on fait une exp´ erience, comment le prouver ? La base est d´ ej` a en oeuvre dans l’´ etude d’un ´ echantillon al´ eatoire simple d’une loi normale.
Soit x = (x
1, . . . , x
n) un ´ echantillon al´ eatoire simple d’une loi normale de moyenne µ et de variance σ
2. Chacun des x
iest la r´ ealisation d’une variable al´ ea- toire X
ide mˆ eme loi. Ces variables sont ind´ ependantes deux ` a deux. Le vecteur x est donc lui-mˆ eme la r´ ealisation d’une variable al´ eatoire X = (X
1, . . . , X
n) dont chaque composante est gaussienne de moyenne (µ
1, . . . , µ
n). Sa matrice de variances-covariances est σ
2I
no` u I
nest la matrice identit´ e de rang n. La figure repr´ esente, ensemble, le vecteur des erreurs e et la variable centr´ ee x
0, le premier utilisant la vraie moyenne inconnue µ, le second utilisant la moyenne empirique m(x), estimation de la pr´ ec´ edente. On a donc g´ eom´ etriquement, de par le th´ eor` eme de Pythagore :
kek
2= kx
0k
2+ (m(x) − µ)
2k1
nk
2Jusque-l` a, on utilisait, dans l’espace des variables, le produit scalaire associ´ e ` a la pond´ eration uniforme (ou plus g´ en´ eralement une pond´ eration quelconque).
Maintenant, on utilise le produit scalaire canonique :
hx|yi =
n
X
i=1
x
iy
i⇒ kxk
2=
n
X
i=1
x
2iAu facteur 1
n pr` es, cela ne change pas grand chose mais est indispensable pour int´ egrer l’aspect probabiliste.
• kek
2est maintenant une variable al´ eatoire qui prend une valeur. Cette variable al´ eatoire est la somme des carr´ es de n variables normales ind´ ependantes de moyenne 0 et de variance σ
2.
kek
2σ
2=
n
X
i=1
x
i− µ σ
2Cette quantit´ e est la r´ ealisation d’une variable al´ eatoire, somme des carr´ es de n lois normales centr´ ees r´ eduites, donc la r´ ealisation d’une loi du Chi-Deux ` a n degr´ es de libert´ e (χ
2n).
Histogram of res
res
Density
0 5 10 15 20
0.000.050.100.15
Cette loi a pour moyenne n et pour variance 2n.
• La quantit´ e (m(x)−µ)
2k1
nk
2est en partie al´ eatoire. k1
nk
2vaut n et m(x)−µ est la r´ ealisation d’une variable al´ eatoire de moyenne 0 et de variance
σn2.
(m(x)−µ)2k1nk2
σ2
est donc la r´ ealisation du carr´ e d’une loi normale centr´ ee r´ eduite soit une loi du Chi-Deux ` a 1 degr´ e de libert´ e (χ
21).
• La quantit´ e P
ni=1
(x
i− m(x))
2pose un probl` eme beaucoup plus d´ elicat. C’est une r´ ealisation d’une variable al´ eatoire qui s’´ ecrit :
Z =
n
X
i=1
X
i− 1 n
n
X
k=1
X
k!
2∗ Lorsque n = 2, on a : Z =
X
1− (X
1+ X
2) 2
2+
X
2− (X
1+ X
2) 2
2= (X
1− X
2)
22
C’est le carr´ e d’une loi normale de variance σ
2. Donc,
σZ2suit une loi du Chi- Deux ` a un degr´ e de libert´ e.
∗ Lorsque n = 3, on a : Z =
X
1− (X
1+ X
2+ X
3) 3
2+
X
2− (X
1+ X
2+ X
3) 3
2+
X
3− (X
1+ X
2+ X
3) 3
2= 2
3 X
1− 1 3 X
2− 1
3 X
3 2+
− 1 3 X
1+ 2
3 X
2− 1 3 X
3 2+
− 1 3 X
1− 1
3 X
2+ 2 3 X
3 2= 2
3 X
12+ 2 3 X
22+ 2
3 X
32− 2
3 X
1X
2− 2
3 X
1X
3− 2 3 X
2X
3On fait alors une op´ eration tr` es simple et tr` es particuli` ere :
3
2 Z = X
12− X
1X
2− X
1X
3+ X
22+ X
32− X
2X
3=
X
1− 1 2 X
2− 1
2 X
3 2− 1 4 X
22− 1
4 X
32− 1
2 X
2X
3+ (X
22+ X
32− X
2X
3) Finalement,
Z = 2 3
X
1− 1
2 X
2− 1 2 X
3 2+ 1
2 (X
2− X
3)
2Le premier terme contient le carr´ e d’une loi normale de variance σ
2et le second aussi. La covariance entre les deux est nulle et on a donc que Z
σ
2suit une loi du Chi-Deux ` a deux degr´ es de libert´ e. Ceci introduit au fait qu’il s’agit d’un probl` eme d’alg` ebre. Z est la somme de trois carr´ es de lois normales qui devient la somme de carr´ es de deux lois normales ind´ ependantes. Ces ´ ecritures sont des polynˆ omes homog` enes de degr´ e 2 c’est-` a-dire des formes quadratiques.
Z =
n
X
i=1
(X
i− µ)
2est une somme de n carr´ es de lois normales ind´ ependantes mais Z =
n
X
i=1
X
i− 1 n
n
X
i=1
X
i!
2est une somme de n −1 carr´ es de lois normales ind´ ependantes.
Finalement,
kek
2= kx
0k
2+ (m(x) − µ)
2k1
nk
2vecteurs
n
X
i=1
(x
i− µ)
2=
n
X
i=1
(x
i− x) ¯
2+ n(¯ x − µ)
2valeurs observ´ ees
n
X
i=1
(X
i−µ)
2=
n
X
i=1
X
i− 1 n
n
X
i=1
X
i!
2+n 1 n
n
X
i=1
X
i− µ
!
2variables al´ eatoires
P
ni=1
(X
i− µ)
2σ
2| {z }
χ2n
= P
ni=1
X
i−
n1P
n i=1X
i2σ
2| {z }
χ2n−1
+ n
1nP
ni=1
X
i− µ
2σ
2| {z }
χ21
lois
En r´ esum´ e, soit y = (y
1, y
2, . . . , y
n) un ´ echantillon al´ eatoire simple d’une va- riable normale centr´ ee r´ eduite dans un tirage de la variable al´ eatoire Y = (Y
1, Y
2, . . . , Y
n) dont les composantes sont normales centr´ ees r´ eduites, ind´ epen- dantes deux ` a deux. Si H est un sous-espace vectoriel de dimension p, y se d´ ecompose en deux vecteurs orthogonaux :
y = y
H+ y
H>D’apr` es le th´ eor` eme de Pythagore,
kyk
2= ky
Hk
2+ ky
H>k
2D’apr` es la d´ efinition de la loi du Chi-Deux, kyk
2est la r´ ealisation d’une variable al´ eatoire
n
X
i=1
Y
i2qui suit une loi χ
2n. Le th´ eor` eme de Cochran indique que ky
Hk
2est la r´ ealisation d’une variable al´ eatoire qui suit une loi χ
2p; ky
H>k
2est la r´ ealisation d’une variable al´ eatoire qui suit une loi χ
2n−pet ces deux variables sont ind´ ependantes.
G´ en´ eralisation.
Soit y = (y
1, y
2, . . . , y
n) un ´ echantillon al´ eatoire simple d’une variable normale centr´ ee r´ eduite.
L’espace R
nse d´ ecompose en K sous-espaces vectoriels H
1, H
2, . . . , H
Kde dimensions respectives p
1, p
2, . . . , p
Kavec p
1+ p
2+ · · · + p
K= n.
y se d´ ecompose en K vecteurs orthogonaux deux ` a deux : y = y
1+ y
2+
· · · + y
K.
D’apr` es le th´ eor` eme de Pythagore, kyk
2= ky
1k
2+ky
2k
2+· · · +ky
Kk
2. kyk
2suit une loi χ
2net le th´ eor` eme de Cochran indique que ky
jk
2suit une loi χ
2pjet que les variables sont ind´ ependantes.
7 Application : la r´ egression simple
On connait la d´ epense de sant´ e moyenne pour le poste ”maladie” de 20 ` a 65 ans.
age <- seq(20,65,by=5)
depense <- c(57.9,66.1,96,82.2,78.1,98.8,110.4,109.5,98.9,110.4) plot(age,depense,pch=20)
●
●
●
●
●
●
●
●
●
●
20 30 40 50 60
60708090100110
age
depense
On note x le vecteur ˆ age et y le vecteur d´ epense pour le poste ”maladie”, tous deux vecteurs de R
navec n = 10. R
nse d´ ecompose en trois sous-espaces vecto- riels : 1
nde dimension 1, x
0de dimension 1 et le compl´ ementaire R de dimension n − 1 − 1 soit n − 2.
On applique le th´ eor` eme de Cochran (partie A de la figure ci-dessous) :
Si le mod` ele de la r´ egression lin´ eaire simple est v´ erifi´ e, on a : Y
i→ N (µ, σ) avec µ
i= ax
i+ b C’est le mod` ele vrai.
La somme des carr´ es des ´ ecarts au mod` ele vrai suit une loi du Chi-Deux : P
ni=1
(Y
i− (ax
i+ b))
2σ
2→ χ
2nLa somme des carr´ es des ´ ecarts au mod` ele estim´ e suit une loi du Chi-Deux : P
ni=1
(Y
i− (Ax
i+ B))
2σ
2→ χ
2n−2options(show.signif.stars=FALSE) lmrs <- lm(depense~age)
lmrs Call:
lm(formula = depense ~ age) Coefficients:
(Intercept) age
45.76 1.06
On peut alors calculer les valeurs pr´ edites par le mod` ele :
predict(lmrs)
1 2 3 4 5 6 7 8
66.96909 72.27152 77.57394 82.87636 88.17879 93.48121 98.78364 104.08606
9 10
109.38848 114.69091
Le vecteur des observations et le vecteur des pr´ edictions se projettent au mˆ eme
endroit sur le vecteur des constantes (th´ eor` eme des trois perpendiculaires, partie
B de la figure ci-dessus).
On a toujours la relation :
n
X
i=1
(y
i− m(y))
2=
n
X
i=1
(y
i− y b
i)
2+
n
X
i=1
( y b
i− m(y))
2c’est-` a-dire
Somme Somme Somme
des = des + des
carr´ es totale carr´ es r´ esiduelle carr´ es expliqu´ ee soit encore
Variance des donn´ ees = Erreur + Variance du mod` ele
sum((depense-mean(depense))^2) [1] 3202.401
sum((depense-predict(lmrs))^2) [1] 882.8555
sum((predict(lmrs)-mean(depense))^2) [1] 2319.545
L’hypoth` ese nulle H
0se caract´ erise par le fait que la variable x est sans effet sur la variable y.
Cela signifie que la pente est nulle (a = 0). La situation se d´ ecrit alors par : Y
i→ N (b, σ)
La somme des carr´ es des ´ ecarts au mod` ele vrai suit une loi χ
2n: P
ni=1
(Y
i− b)
2σ
2→ χ
2nLa somme des carr´ es des ´ ecarts au mod` ele estim´ e suit une loi χ
2−1 : P
ni=1
Y
i− Y ¯
2σ
2→ χ
2nQue la vraie valeur de a soit nulle ou non, cela n’enl` eve rien au r´ esultat : P
ni=1
(Y
i− (Ax
i+ B))
2σ
2→ χ
2n−2La d´ ecomposition en parties orthogonales - th´ eor` eme de Cochran - implique que :
P
ni=1
Ax
i+ B − Y ¯ )
2σ
2→ χ
21Les deux variables sont ind´ ependantes.
On a donc :
(n − 2) P
ni=1
Ax
i+ B − Y ¯ )
2P
ni=1
(Y
i− (Ax
i+ B))
2→ F
(1,n−2)que l’on retrouve dans le tableau de d´ ecomposition de la variance :
anova(lmrs)
Analysis of Variance Table Response: depense
Df Sum Sq Mean Sq F value Pr(>F) age 1 2319.55 2319.55 21.019 0.001791 Residuals 8 882.86 110.36
plot(age,depense,pch=20) abline(lmrs, col="red") shapiro.test(lmrs$residuals)
Shapiro-Wilk normality test data: lmrs$residuals
W = 0.91268, p-value = 0.2999
●
●
●
●
●
●
●
●
●
●
20 30 40 50 60
60708090100110
age
depense