• Aucun résultat trouvé

Pas 3: Qualité de l'estimation

II- 2) EFFETS DE L'ECHANTILLONNAGE (*)

Le fait de considérer que l'ensemble de données disponibles n'est qu'un échantillon dans une population permet des raffinements dans l'interprétation..

En effet, si la vraie relation dans la population est:

y x y

x

y x

=α + +β ε α ρ= σ = − σ β µ α µ . avec . .

alors celle que l'on ajuste sur un échantillon de N couples s'écrit:

y a x b e a r s

sy b m a m

x

y x

= . + + avec = . = − .

avec: a ≠ α et b ≠ β et a et b fonction de l'échantillon particulier.

On sait déjà que, comme pour toute population, les moyennes ont une variance d'échantillonnage:

mx m N

x

⇒ variance d'échantillonnage σ x = σ

my m N

y

⇒ variance d'échantillonnage σ y = σ et de même les écart-types:

sx s N

x

⇒ variance d'échantillonnage σ x = σ 2.

sy s N

y

⇒ variance d'échantillonnage σy = σ 2.

Mais il est intéressant de considérer l'effet de l'échantillonnage sur α, β, ρ et ε.

a) Estimateurs non biaisés:

+ Coefficient de corrélation non biaisé:

Le coefficient de corrélation précédemment défini, rxy ou encore r, est un estimateur biaisé du coefficient de corrélation ρ.

C'est à dire que si X et Y sont tirés d'une population où la corrélation est de ρ , des calculs du coefficient r sur un grand nombre d'échantillons de taille N vont donner des valeurs de r plutôt optimistes (en effet, on va optimiser sur chaque échantillon, notamment en utilisant

⇒ on va donc chercher un estimateur non biaisé, c'est à dire plus proche (en espérance mathématique) de celui de la population.

On démontre que cet estimateur vaut:

( )

2 1 1 '² ²

= − N N r r

Cette valeur est d'autant plus différente de r que r2 est faible et N petit.

N r r' ; N r r' ; N r r'

5 .6 .39 ; 10 .6 .53 30 .8 .79 5 .8 .60 ; 10 .8 .77 30 .9 .896

5 .9 .87 ; 10 .9 .887 30 .95 .948

5 .95 .93 ; 10 .95 .944

+ Ecart type résiduel:

Rappelons que l'on a cherché à minimiser les résidus sur l'échantillon. D'où:

1 2

.

= y xy

e s r

s

Mais ce qui nous intéresse en général, c'est d'appliquer le schéma de régression sur des données non issues de l'échantillon, que ce soit en reconstitution ou en prévision. On commettra alors des "erreurs", ou plutôt on observera des écarts, dont la variance aura une espérance mathématique plus grande, dans la plupart des cas, que celle optimisée sur l'échantillon.

C'est pourquoi, on définit l'écart type résiduel non biaisé:

s s N

N k s

e e se

e

' '

.

= − et soit

−2 =

1

On a par exemple les valeurs suivantes:

N 3 5 10 20 30 50 100

k 1.41 1.15 1.06 1.03 1.02 1.01 1.005

b) Distribution du coefficient de corrélation:

Soit ρ la valeur de la corrélation dans la population supposée binormale, et r la valeur calculée sur un échantillon de taille N :

r est une variable aléatoire, dont le tirage dépend de l'échantillon, et on montre que :

- si N est grand ( >500), alors les estimations r de ρ sont approximativement normales de distribution N( ρ, σr), avec σ ρ

r = −1 N²

- si N est petit, alors c'est la variable transformée (variable de FISCHER):

Z Log r qui suit une loi normale:

de moyenne: µ ρ Cette distribution est utilisée pour:

+ tester l'hypothèse d'indépendance des variables ( ρ = 0 ?) + définir un intervalle de confiance de r

+ tester la différence entre 2 calculs de r sur des échantillons différents, pour savoir si elle est significative ou non.

Exemple:

Entre 2 variables on a trouvé r = .3 sur un échantillon de 10 valeurs indépendantes.

Question: Peut-on affirmer raisonnablement que ces 2 variables sont liées (même faiblement) ?.

Faisons l'hypothèse ρ = 0 et calculons la probabilité de trouver r supérieur à 0.3 sachant que ρ = 0:

D'où la valeur de la variable normale centrée réduite correspondant à Z:

u=0 310 0 0− =

0 378 0 82

. .

. .

On trouve dans une table de la loi normale que l'on a alors encore une probabilité de 20.7 % de dépasser cette valeur, dans l'hypothèse d'indépendance des variables. Cette probabilité est suffisamment élevée pour que l'on puisse accepter l'hypothèse d'indépendance (puisque si les données étaient indépendantes, on aurait presque une chance sur 5 de trouver un coefficient supérieur à .3).

On en conclut qu'avec 10 couples, un coefficient de corrélation de r = 0.3 n'est pas significatif (i.e. pas significativement différent de zéro).

c) Distribution des coefficients de régression:

On rappelle que, si la vraie relation dans la population est:

y.x+ +β ε en fait, on ajuste sur l'échantillon de N couples :

y a x b e= . + + Hypothèses: X et Y sont des variables binormales.

On montre alors de même que si l'échantillon est grand:

E[ a ] = α E[ b ] = β

et σ σ

σ ρ

a y

x N

= . 1− 2

y N

b

1 2

. ρ

σ

σ =

De plus, leur distribution est gaussienne.

Par contre, dans le cas des petits échantillons, on montre que ces formules deviennent:

σ σ

σ ρ

a y

x N

= −

. 1 − 2

2

2 . 1

2

= −

y N

b

σ ρ σ et que la variable de Student t:

t a

a

= −α

σ suit une loi de Student à N-2 degrés de liberté.

En pratique, on ne connaît pas ρ mais seulement une estimation r, d'où :

suit une loi de Student à N-2 degrés de liberté où s²x est l'estimateur non biaisé de la variance de x.

Applications:

+ Tester si la constante de l'équation de régression peut être considérée comme nulle (souvent utile): bE b = ≠β 0 ?

+ tester si la différence entre 2 équations est significative ou non.

a b, et a b', ' ⇒ E aE a' et E bE b ' ?

d) Estimation d'un intervalle de confiance de l'estimé de Y pour la population(*):

Nous avons vu que sur l'échantillon, la droite optimisée sur cet échantillon fournissait:

yi =a x. i + +b ei = yi*+ ei avec eiN

{

0 ,se =sy. 1r2

}

Dans une première approche, (-la plus courante en pratique-), on fournit:

- pour estimé de yi à l'abscisse xi la valeur yi* déduite de cette droite;

- or celle-ci n'est optimale que pour cet échantillon.

On fournit ensuite:

- un intervalle de confiance qui est sensé représenter l'incertitude due aux facteurs non contrôlés par x, et concentrés dans le résidu.

Ce faisant, on travaille comme si on avait trouvé les vrais coefficients α et β de la population, et comme si ei était strictement identique à εi.

Mais en fait, si on prend un autre échantillon, on trouvera une autre droite:

yi =a x'. i + +b' ei = y'i*+e'i avec e'iN

{

0 ,se' =s'y. 1r'2

}

et donc, pour la même valeur de xi, une valeur y'i* qui est calculée avec des a' et b' légèrement différents à cause de l'échantillonnage.

Donc un "raffinement" intéressant consiste:

- à cerner la variation de l'estimé (yi*, y'i*, etc...), en fonction de l'échantillonnage, - et donc d'estimer pour une valeur xi, la valeur la plus probable de yi , c'est à dire l'espérance des y*i , soit E[y*i] (-et un intervalle de confiance correspondant-),

- en tenant compte de l'échantillonnage sur les coefficients de régression.

On montre que la valeur la plus probable compte tenu de l'échantillon observé est celle définie par l'équation calculée sur l'échantillon,(- le seul disponible- ), mais que par contre, y peut s'écarter de cette valeur selon une loi de Student.

D'où, si tp est la valeur de la variable de Student à N-2 degrés de liberté telle que:

Prob ttp = p

l'intervalle de confiance à p% de probabilité (par exemple 80%) de l'estimation de y est défini par:

( ) ( )

2 2

*

* = . . . 1

* x

x i e

p y

x i y i

i s

m x N

t s m x a m y y

i

+ −

±

− +

± 14 24 4 34

On remarquera que cet intervalle de confiance, qui inclue la fluctuation de la droite des moindres carrés selon l'échantillon, augmente si on s'éloigne de la moyenne des x , donc du barycentre. On peut comprendre intuitivement que le nuage de l'échantillon, sous l'hypothèse binormale, est plus dense et mieux défini autour du barycentre qu'à la périphérie.

Si on prend en compte cette fluctuation de l'estimé y*i dans l'intervalle de confiance

"total" que l'on fournit pour yi , et qui alors prend en compte à la fois:

- l'incertitude due aux facteurs non corrélés à x

- et le fait que l'on ne dispose que d'un échantillon, donc que a et b ne correspondent pas exactement à α et β,

cette incertitude globale devient:

On remarquera qu'il est supérieur à celui calculé couramment sur l'échantillon (en ignorant l'effet d'échantillonnage) et défini par:

( )

p e

où u(p) est la variable centrée réduite de Gauss dont la valeur absolue n'est pas dépassée avec une probabilité p (par exemple u = 1.28 pour p = 80%).

Figure 7:

Documents relatifs