ENFA - Bulletin du GRES n°9 – février 2000 page 29 Contact : Conf [email protected]
EQUATION D'ANALYSE DE VARIANCE COEFFICIENT DE DETERMINATION COEFFICIENT DE CORRELATION
Soit (X,Y) un couple de variables statistiques quantitatives et n observations (xi, yi) de ce couple,
x
la moyenne de la série x1, x2, …, xn ety
la moyenne de la série y1, y2, …, yn ,DY/X la droite d’ajustement affine des moindres carrés de Y en X,
y ˆ = a . x + b
une équation de DY/X avec∑ ∑
−
−
= −
2) x x (
) y y )(
x x a (
i i
i et
b = y − a . x
b x . a
ˆ y
i=
i+
la valeur estimée de l’observation yi. 1. Quelques définitions :y
y
i−
est l’écart total de yi à la moyenne yˆyi − est l’écart de yi expliqué par l’ajustement affine
i
i
y ˆ
y −
est l’écart résiduel de yi ou résidu 2. Une relation évidente :
y
i− y = ( ˆ y
i− y ) + ( y
i− ˆ y
i)
(1) écart total = écart expliqué + écart résiduelD
Y/XMi
xi x
yi yi
y
écart total
yi −y
écart résiduel
yi −yiécart expliqué par l’ajustement affine
yi −y y
ENFA - Bulletin du GRES n°9 – février 2000 page 30 Contact : Conf [email protected]
3. Equation d’analyse de variance.
Démonstration :
Montrons que :
∑ ( y
i− y )
2= ∑ ( y ˆ
i− y )
2+ ∑ ( y
i− y ˆ
i)
2 (2)Pour établir la relation (2) on part de la relation (1) et on élève au carré (yi −y)2 =(yi − y)2+2(yi −y y)( i −yi)+(yi −yi)2
On somme pour i allant de1 à n :
(yi −y) = (yi −y) + (yi −y y)( i −yi)+ (yi− yi)
∑
2∑
2 2∑ ∑
2Pour démontrer (2) il reste à montrer que
∑
(yi−y y)( i −yi) =0.En remplaçant yiet yrespectivement par yi =a x. i +b et y=a x. +b on obtient : (yi − y y)( i − yi)= ( .a xi + / −b a x. − /b y)( i −a x. i −b)
∑ ∑
On remarque que b= −y a x. d’où
(yi− y y)( i− yi)=a. (xi−x y)( i −a x. i− +y a x. )
∑ ∑
( )
(yi− y y)( i− yi)=a. (xi−x) (yi −y)−a x.( i −x)
∑ ∑
(yi − y y)( i − yi)=a. (xi −x y)( i − y)−a . (xi −x)
∑ ∑
2∑
2 (3)On a des sommes sympas
∑ ( x
i− x )( y
i− y )
et∑
(xi −x)2 , on n’est pas loin de l’expression de a.Pour obtenir a il suffit de diviser
∑ ( x
i− x )( y
i− y )
par∑
(xi −x)2 , pour ceci on factorise le deuxième membre de la relation (3) par∑
(xi −x)2.( )( ) ( ) . ( )( ) .
( )
y y y y x x a x x y y
x x a
i i i i
i i
i
− − = − − −
− −
⎛
⎝⎜⎜ ⎞
⎠⎟⎟
∑ ∑ ∑
∑
2
2
2
( )
(yi − y y)( i −yi)= a −a (xi −x)
∑
2 2∑
2(yi −y y)( i −yi)=
∑
0 c’est gagné.Finalement on obtient la relation (2)
∑
(yi −y)2 =∑
(yi − y)2 +∑
(yi −yi)2 appelée« équation d’analyse de variance ».
Equation d’analyse de variance :
∑
(yi −y)2 =∑
(yi − y)2 +∑
(yi −yi)2 Notations et définitions.(yi −y)
∑
2 = SCEtot est la somme des carrés des écarts totale, c’est la variabilité totale de Y(yi −y)
∑
2 = SCEexp est la somme des carrés des écarts expliquée par l’ajustement affine, c’est la variabilité de Y expliquée par l’ajustement affine.(yi −yi)
∑
2 = SCEres est la somme des carrés des écarts résiduelle, c’est la variabilité résiduelle (inexpliquée) de Y.On retient l’équation d’analyse de variance sous la forme :
SCEtot = SCEexp + SCEres
somme des carrés des
écarts totale = somme des carrés des
écarts expliquée + somme des carrés des écarts résiduelle
ENFA - Bulletin du GRES n°9 – février 2000 page 31 Contact : Conf [email protected]
4. Coefficient de détermination.
a) Définition.
Si SCEtot, la variabilité totale de Y, n’est pas nulle, autrement dit, si la série statistique (yi) n’est pas constante, on peut diviser les deux membres de l’équation d’analyse de variance par SCEtot on obtient :
SCE SCE
SCE
tot SCE
res tot
exp + =1
Par définition le coefficient de détermination est le rapport SCE SCEtot
exp
b) Propriété.
SCEexp et SCEres sont des sommes de carrés donc des nombres positifs ou nuls d’où 0 ≤ coefficient de détermination ≤ 1
c) Interprétation du coefficient de détermination.
L’interprétation du coefficient de détermination est immédiate.
Le coefficient de détermination est la proportion de la variabilité totale de Y expliquée par l’ajustement affine, (on exprime aussi ce résultat en pourcentage).
Si par exemple on obtient un coefficient de détermination de 0,9 cela signifie que 90% de la variabilité de Y est expliquée par l’ajustement affine de Y en X.
L’interprétation du coefficient de détermination est remarquablement simple.
d) Coefficient de détermination et coefficient de corrélation.
coefficient de détermination
∑ ∑
−
−
2 i
2 i
(y y
= (
) y
) ˆ y
b x . a y b x .
ˆ = a
i+ et = +
y
i d’oùcoefficient de détermination
∑ ∑
−
/
−
− /
= +
2i
2
(y y ) ) b x . a b x . a (
icoefficient de détermination
∑ ∑
−
= −
2i
2 2
(y y ) ) x x
a (
i∑ ∑
−
−
= −
2) x x (
) y y )(
x x a (
i i
i , on a donc
coefficient de détermination
∑ ∑
∑ ∑
−
−
⎥ ⎥
⎦
⎤
⎢ ⎢
⎣
⎡
−
−
= −
2i 2 2
2
(y y )
) x x ( )
x x (
) y y )(
x x
(
ii i i
coefficient de détermination
[ ]
∑
∑ ∑
−
−
−
= −
2i 2
2
(y y ) )
x x (
) y y )(
x x (
i
i i
ENFA - Bulletin du GRES n°9 – février 2000 page 32 Contact : Conf [email protected]
2
2
2
⎥ ⎥
⎦
⎤
⎢ ⎢
⎣
⎡
−
−
−
= −
∑
∑ ∑
) y y ( )
x x (
) y y )(
x x (
i i
i i
coefficient de détermination = r ²
Le coefficient de détermination est le carré du coefficient de corrélation linéaire 8
coefficient de détermination = r ²
Contrairement au coefficient de détermination, le coefficient de corrélation n’a pas d’interprétation immédiate.
Si le coefficient de corrélation linéaire entre deux variables statistiques X et Y est égal à 0,9 alors le coefficient de détermination entre ces mêmes variables est égal 0,81. Si l’on procède à un ajustement affine de Y et X, celui-ci explique 81% de la variabilité de Y.
Si le coefficient de corrélation linéaire entre deux variables statistiques X et Y est égal à 0,8 alors le coefficient de détermination entre ces mêmes variables est égal 0,64. Si l’on procède à un ajustement affine de Y et X, celui-ci n’explique que 64% de la variabilité de Y.
La relation entre coefficient de corrélation linéaire et coefficient de détermination permet de mieux comprendre la relation entre coefficient de corrélation linéaire et qualité d’un ajustement.
≈≈≈≈≈≈≈≈≈≈≈≈≈≈≈