• Aucun résultat trouvé

3.1 Qualit´ e globale du mod` ele

N/A
N/A
Protected

Academic year: 2022

Partager "3.1 Qualit´ e globale du mod` ele"

Copied!
8
0
0

Texte intégral

(1)

UNIVERSIT´E DE BRETAGNE OCCIDENTALE Ann´ee 2019 - 2020 EURIA Licence 3

R´egression lin´eaire Franck Vermet

Ce cours ayant d´ej`a d´emarr´e, je vais continuer dans ce polycopi´e o`u nous ´etions arriv´es, apr`es avoir rappel´e les r´esultats vus sur le mod`ele lin´eaire gaussien.

1 Inf´ erence sur les param` etres du mod` ele lin´ eaire gaussien

Le mod`ele de r´egression lin´eaire gaussien s’´ecrit

Y(i)01x(i)1 +. . .+βpx(i)p +W(i), i= 1, . . . , n, (1) o`u les (W(i)) sont des variables al´eatoires ind´ependantes de loi normale centr´ee et variance σ2.

Les p variables explicatives sont suppos´ees d´eterministes. Nous avons montr´e que les esti- mateurs par moindres carr´es des param`etres βi sont donn´es par

Bˆ = (x0x)−1x0Y, o`ux est la matrice

x=

1 x(1)1 . . . x(1)p

. . . .

. . . .

1 x(n)1 . . . x(n)p

et Y =

 y(1) . . y(n)

 .

Nous avons ´egalement montr´e la propri´et´e suivante :

Proposition 1 : Sous les hypoth`eses du mod`ele lin´eaire gaussien, nous avons les propri´et´es suivantes :

a) ˆB est de loi normaleN(β, σ2(x0x)−1).

b) ˆY =xBˆ est de loi normale N(xβ, σ2x(x0x)−1x0).

c) Notons ˆW =Y −Yˆ et S2 = n−p−11 Pn

i=1( ˆWi)2. Alors (n−p−1)Sσ22 suit une loi deχ2n−p−1 et est ind´ependante de ˆB et ˆY.

Nous en d´eduisons le corollaire suivant :

Corollaire 1 : Notons H= (x0x)−1. Sous les hypoth`eses du mod`ele lin´eaire gaussien, nous avons les propri´et´es suivantes :

a) ˆBi est de loi normaleN(βi, σ2Hii).

(2)

b)

i−βi

√S2Hii est de loi de Student `a n−p−1 degr´es de libert´e.

Preuve du corollaire 1 : la propri´et´e a) d´ecoule directement de la proposition.

- Pour montrer b), remarquons que U := √Bˆi−βi

σ2Hii

est de loi normale centr´ee r´eduite et V :=

(n−p−1)Sσ22 suit une loi de χ2n−p−1 et est ind´ependante de U. Par d´efinition d’une loi de Student, nous avons donc que p

n−p−1 U

√V est de loi de Student `a (n−p−1) degr´es de libert´e.

Nous pouvons alors utiliser ces r´esultats pour calculer des intervalles de confiance et faire des tests sur les param`etres inconnus.

Intervalle de confiance au niveau de confiance (1−α) pour βi : [ ˆBi−tn−p−1,1−α/2Sp

Hii,Bˆi+tn−p−1,1−α/2Sp Hii],

o`utn−p−1,1−α/2 est le quantile d’ordre 1−α/2 d’une v.a. de Student `a (n−p−1) degr´es de libert´e.

Intervalle de confiance au niveau de confiance (1−α) pour σ2 : [(n−p−1) S2

χ2n−p−1,1−α/2

,(n−p−1) S2 χ2n−p−1,α/2],

o`uχ2n−p−1,α/2 etχ2n−p−1,1−α/2 sont les quantiles respectivement d’ordreα/2 et 1−α/2 d’une v.a. de loi deχ2 `a (n−p−1) degr´es de libert´e. Remarquons qu’une v.a. de loi de χ2 ´etant

`

a valeurs positives, l’intervalle de confiance n’est pas sym´etrique.

Test d’hypoth`ese pour βi :

Nous souhaitons tester l’hypoth`ese H0i =ccontre H1i 6=c, o`u cest une valeur fix´ee.

Nous consid´erons alors la statistique de test Ti = Bˆi−c

√S2Hii. SousH0, la v.a. Ti suit une loi de Student `a (n−p−1) d.d.l., d’apr`es le corollaire ci-dessus. Nous acceptons donc l’hypoth`ese H0, avec un risque de premi`ere esp`ece α fix´e, si et seulement si |Ti| < tn−p−1,1−α/2. Dans le cas contraire, nous rejetons l’hypoth`eseH0 et acceptonsH1.

Remarque : un cas particulier est celui o`u c = 0, i.e. nous testons l’hypoth`ese H0 : βi = 0. Ce cas particulier est important, car si nous acceptons H0, cela signifie que la i`eme variable explicative peut ˆetre retir´ee du mod`ele de r´egression lin´eaire et qu’elle n’a pas de rˆole explicatif significatif dans ce mod`ele.

Pour quantifier l’importance de chacune des variables explicatives, il est courant de calculer lap-value associ´ee `a chaque variable, qui est d´efinie par : pi =P[|T|>|Ti,obs|], o`u T est une v.a. de loi de Student `a (n−p−1) d.d.l., et Ti,obs est la valeur observ´ee pour la statistique Ti dans le cas o`u c= 0.

(3)

En cons´equence, si la i`eme variable explicative a une p-value sup´erieure `a α, on peut la retirer du mod`ele, avec un risque de premi`ere esp`ece de niveau α.

Les variables explicatives ayant les p-value les plus petites sont les plus significatives.

Il faut prendre garde cependant `a l’interpr´etation de ces p-value lorsque les variables ex- plicatives sont corr´el´ees. En particulier, on ne peut pas supprimer simultan´ement toutes les variables ayant une p-value sup´erieure `a α. Les techniques de s´election de variables seront

´

etudi´ees dans le cours de mod`eles lin´eaires de Master 1.

Ce test dans le cas particulier c = 0 est r´ealis´e par d´efaut dans la fonction lm de R pour chacune des variables explicatives.

Test d’hypoth`ese pour σ2 :

Nous souhaitons tester l’hypoth`ese H0 : σ = s contre H1 : σ 6=s, o`u s est une valeur fix´ee strictement positive.

Nous consid´erons alors la statistique de test X = (n−p−1)S2

s2. Sous H0, la v.a. X suit une loi de χ2n−p−1. Nous acceptons donc l’hypoth`eseH0, avec un risque de premi`ere esp`ece αfix´e, si et seulement siχ2n−p−1,α/2 < X < χ2n−p−1,1−α/2. Dans le cas contraire, nous rejetons l’hypoth`eseH0 et acceptonsH1.

2 Pr´ evision

Une application usuelle des mod`eles de r´egression est de pr´evoir la valeur prise par la r´eponse Y pour un nouvel individu pour lequel on connaˆıt seulement les valeurs des variables ex- plicatives x(0) = (1, x(0)1 , . . . , x(0)p ). La pr´evision naturelle est alors x(0)β que l’on estime par la pr´evision ponctuelle

(0)=x(0)Bˆ = ˆB0+ ˆB1x(0)1 +. . .+ ˆBpx(0)p .

Nous allons voir comment construire des intervalles de confiance et de pr´ediction associ´es, en utilisant la proposition suivante :

Proposition 2 : Sous les hypoth`eses du mod`ele lin´eaire gaussien, nous avons les propri´et´es suivantes :

a) ˆY(0) =x(0)Bˆ est de loi normale N(x(0)β, σ2x(0)(x0x)−1(x(0))0).

b)

(0)−x(0)β

pS2x(0)(x0x)−1(x(0))0 est de loi de Student `a (n−p−1) degr´es de libert´e.

Preuve de la proposition 2 : La proposition se d´emontre comme la proposition 1 et son corollaire, en remarquant que ˆY(0) etS sont ind´ependantes.

Nous en d´eduisons ais´ement un intervalle de confiance pourx(0)β :

(4)

Intervalle de confiance au niveau de confiance (1−α) pour x(0)β : [ ˆY(0)−tn−p−1,1−α/2S

q

x(0)(x0x)−1(x(0))0 , Yˆ(0)+tn−p−1,1−α/2S q

x(0)(x0x)−1(x(0))0], o`utn−p−1,1−α/2 est le quantile d’ordre 1−α/2 d’une v.a. de Student `a (n−p−1) degr´es de libert´e.

Cependant, x(0)β ne tient pas compte de l’al´ea pr´esent dans le mod`ele lin´eaire gaussien. Si nous voulons rester conforme `a ce mod`ele, nous devons consid´erer

Y(0) =x(0)β+W(0),

avec W(0) de loi normale N(0, σ2) ind´ependante de (W(i), i= 1, . . . , n).

Nous pouvons montrer que

(0)−Y(0)

pS2(1 +x(0)(x0x)−1(x(0))0) est de loi de Student `a (n−p−1) degr´es de libert´e.

Exercice 1 : d´emontrer cette propri´et´e.

Nous en d´eduisons alors :

Intervalle de pr´ediction au niveau de confiance (1−α) pour Y(0) : [ ˆY(0)−tn−p−1,1−α/2S

q

1 +x(0)(x0x)−1(x(0))0 , Yˆ(0)+tn−p−1,1−α/2S q

1 +x(0)(x0x)−1(x(0))0], o`utn−p−1,1−α/2 est le quantile d’ordre 1−α/2 d’une v.a. de Student `a (n−p−1) degr´es de libert´e.

L’intervalle de pr´ediction est plus large que l’intervalle de confiance. Il prend mieux en compte la dispersion des donn´ees, mod´elis´ee par l’al´ea W pr´esent dans le mod`ele lin´eaire gaussien.

3 Qualit´ e et validation du mod` ele

Bien entendu, les intervalles de confiance pour les param`etres et les pr´evisions reposent sur les hypoth`eses du mod`ele lin´eaire gaussien. Ceci n’a donc de sens que si les hypoth`eses de ce mod`ele sont bien v´erifi´ees par les donn´ees. Il convient donc de construire des outils pour mesurer la qualit´e du mod`ele choisi et v´erifier si les hypoth`eses faites sont r´ealistes.

3.1 Qualit´ e globale du mod` ele

Notons x1, . . . , xp les vecteurs de IRn g´en´er´es par les p variables explicatives observ´ees sur lesn exemples etu= (1, . . . ,1)∈IRn. Nous avons d´emontr´e au d´ebut du cours que ˆY est la projection orthogonale de Y sur le sous-espace vectorielF de IRn engendr´e par les vecteurs {u, x1, . . . , xp}. Notons ¯Yn = 1

n

n

X

i=1

Yi et ¯Y = ¯Yn u= ( ¯Yn, . . . ,Y¯n)∈IRn.

(5)

Un bon mod`ele de r´egression est un mod`ele tel que les donn´ees observ´eesY soient proches des valeurs th´eoriques pr´edites par le mod`ele ˆY. Une fa¸con de mesurer ceci est de quantifier l’´ecart entreY et sa projection ˆY sur le sous-espace vectorielF. Nous pouvons par exemple consid´erer ||Yˆ −Y||2, mais l’interpr´etation de la valeur obtenue est d´elicate, car elle est li´ee aussi `a l’´echelle des valeurs prises parY. Nous pouvons ´egalement consid´erer l’angle θ entre Y−Y¯ et ˆY−Y¯. Cet angle est compris entre−π/2 etπ/2 et un angle proche de±π/2 indique un mod`ele de mauvaise qualit´e, alors qu’un angle proche de 0 indique de Y est proche de son projet´e ˆY sur F. Nous d´efinissons alors le coefficient de d´etermination R2 par :

R2 = cos(θ)2 = ||Yˆ −Y¯||2

||Y −Y¯||2 ∈[0,1].

Un mod`ele de bonne qualit´e correspond `a des valeurs de R2 proches de 1. Au contraire, si R2 est proche de 0, cela veut dire queY est quasiment dans l’orthogonal deF, le mod`ele est donc inadapt´e, les variables (x1, . . . , xp) n’explique pas la variable Y.

Remarquons que le th´eor`eme de Pythagore nous donne :

||Y −Y¯||2 =||Yˆ −Y¯||2 +||Y −Yˆ||2

n

X

i=1

(Yi−Y¯n)2 =

n

X

i=1

( ˆYi−Y¯n)2+

n

X

i=1

(Yi −Yˆi)2

Cette formule peut ˆetre vue comme une formule de d´ecomposition de la variance SCT =SCE+SCR,

o`u SCT (respectivement SCE et SCR) repr´esentent la Somme des Carr´es Totale (respec- tivement Expliqu´ee par le mod`ele et R´esiduelle). Le coefficient de d´etermination s’´ecrit alors :

R2 = SCE

SCT = 1− SCR SCT,

et repr´esente la part de la variabilit´e expliqu´ee par le mod`ele sur la variabilit´e totale de Y. Exercice 2 : d´emontrer que pourp= 1 (une seule variable explicative), nous avonsR22, o`uρ est le coefficient de corr´elation lin´eaire entre les (x(i)) et les (Y(i)).

Le coefficient de d´etermination peut ˆetre utilis´e pour comparer des mod`eles entre eux. Cepen- dant, si on ajoute une variable explicative dans un mod`ele, le R2 ne peut qu’augmenter, le R2 n’est donc pas adapt´e pour comparer entre eux des mod`eles avec un nombre diff´erent de variables. C’est pour cette raison que nous d´efinissons le coefficient de d´etermination ajust´e

R2a = 1− n−1 n−p−1

SCR

SCT = 1−SCR/(n−p−1)

SCT /(n−1) = (n−1)R2 −p n−p−1 En fait, le R2 s’´ecrit aussi

R2 = SCE

SCT = 1−SCR/n SCT /n,

(6)

et SCT /n est un estimateur biais´e de var(Y), tandis que SCR/n est un estimateur biais´e de σ2, la variance du r´esidu. Dans R2a, on remplace ces estimateurs par les estimateurs non biais´es et R2a s’interpr`ete alors comme la proportion de variance expliqu´ee par le mod`ele.

3.2 Analyse des r´ esidus

L’hypoth`ese principale du mod`ele lin´eaire gaussien (1) est que les r´esidus (W(i)) sont des variables al´eatoires ind´ependantes de loi normale centr´ee et variance σ2. Il convient donc de v´erifier que ces hypoth`eses sont v´erifi´ees par les jeux de donn´ees consid´er´ees, pour pouvoir utiliser les m´ethodes d´evelopp´ees pr´ec´edemment. Les r´esidus sont d´efinis par

W(i)=Y(i)−(β01x(i)1 +. . .+βpx(i)p ), i= 1, . . . , n,

mais bien entendu, ils ne peuvent ˆetre calcul´ees, car les param`etresβj sont inconnus. On les remplace donc par les r´esidus estim´es

(i) =Y(i)−( ˆB0+ ˆB1x(i)1 +. . .+ ˆBpx(i)p ), i= 1, . . . , n.

Nous avons vu que ˆW =Y −Yˆ = (I−A)Y, o`uA =x(x0x)−1x0 est la matrice de projection orthogonale sur le sous-espace vectoriel F et I est la matrice identit´e de dimension n. La matrice (I−A) est ´egalement la matrice de projection orthogonale sur l’orthogonal deF et puisque Y =xβ+W et xβ∈F, nous pouvons donc aussi ´ecrire

Wˆ = (I−A)W.

Nous en d´eduisons alors que ˆW est un vecteur gaussien centr´e et de variance σ2(I−A)0(I−A) =σ2(I−A),

car (I − A) = (I −A)0 = (I − A)2, la matrice (I −A) ´etant une matrice de projection orthogonale. Remarquons qu’en g´en´eral, les v.a. ˆW(i) ne sont pas ind´ependantes, puisque la matriceI −A n’est pas diagonale.

Afin d’´eliminer la non-homog´en´eit´e de la variances des r´esidus estim´es, nous pouvons alors d´efinir les r´esidus normalis´es

(i) = Wˆ(i) σ√

1−Aii

, i= 1, . . . , n,

qui sont de loi normale centr´ee r´eduite. Cependant, σ ´etant inconnu, nous d´efinissons les r´esidus standardis´es

ˆ

ε(i)= Wˆ(i) S√

1−Aii, i= 1, . . . , n, o`u nous avons remplac´e σ par son estimateur S.

Remarquons que les v.a. ˆε(i) ne suivent pas une loi de Student (contrairement `a ce que nous avons obtenu dans le Corollaire 1 et la Proposition 2 en rempla¸cantσparS), car les v.a. ˆW(i) ne sont pas ind´ependantes de S. Cependant, puisque les r´esidus normalis´es sont de variance

(7)

unit´e et que S ≈ σ, il est usuel de consid´erer que les observations non probables pour le mod`ele (d’un point de vue statistique) sont celles correspondant `a des r´esidus standardis´es ˆ

ε(i) ∈/ [−2,2]. En effet, une v.a. de loi normale centr´ee r´eduite (les r´esidus standardis´es sont proches des r´esidus normalis´es), prend ses valeurs entre −2 et 2 avec une probabilit´e sup´erieure `a 0.95.

Il est important ´egalement de tester le caract`ere gaussien des r´esidus W(i). L`a encore, le test sera r´ealis´e sur les v.a. ˆε(i), mˆeme si ce n’est pas compl`etement rigoureux, ces v.a.

n’´etant qu’approximativement gaussienne, si lesW(i) le sont. Diff´erents tests de normalit´e existent : parmi les plus courants, citons le test de Kolmogorov-Smirnov, le test de Shapiro-Wilketle test du χ2. Pour ces tests, il s’agit de calculer, `a partir de l’´echantillon des r´esidus, une statistique T dont on connait la loi sous l’hypoth`eseH0 que l’´echantillon est gaussien. Si la statistique T prend une valeur tobs non probable (i.e. tel que P[|T|> tobs]<

α), alors l’hypoth`ese H0 est rejet´ee au niveau de rejet α (o`u α est assez petit, α = 0.01 ou 0.05 en pratique).

Il existe ´egalement un test graphique usuel pour v´erifier que l’´echantillon des r´esidus est gaussien : il s’agit de la droite de Henry pour les r´esidus standardis´es. Le principe est le suivant : soient Z une v.a. de loi N(µ, σ2), (Z1, . . . , Zn) un ´echantillon de v.a.i.i.d.

gaussiennes mˆeme loi que Z et (z1, . . . , zn) une r´ealisation de ces v.a.. Nous pouvons ´ecrire FZ(zi) = P[Z ≤zi] =P[Z −µ

σ ≤ zi−µ

σ ] = Φ(zi−µ σ ),

o`u Φ est la fonction de r´epartition de la loi normale centr´ee r´eduite. Nous en d´eduisons que zi peut s’´ecrire sous la forme :

zi =µ+σΦ−1(FZ(zi)).

Nous rempla¸cons alors la fonction de r´epartition FZ par la fonction de r´epartition empirique de l’´echantillon :

n(z) = 1 n

n

X

i=1

1{Zi≤z},

qui converge presque surement vers FZ lorsque n tend vers l’infini.

La m´ethode de la droite de Henry consiste alors `a tracer le nuage de points (Φ−1( ˆFn(ˆε(i))),εˆ(i)), i= 1, . . . , n. Si l’´echantillon est gaussien, alors les points doivent ˆetre proches de la droite d’´equationy =σx+µ.

Il est important ´egalement de v´erifier lalin´earit´ede la relation entre la variable `a expliquer et les variables explicatives. Pour cela, nous pouvons tracer les r´esidus estim´es ˆW(i) en fonction de la valeur pr´edite ˆY(i). Si le nuage des r´esidus pr´esente une structure d´eterministe, cela signifie qu’un mod`ele non lin´eaire serait mieux adapt´e qu’un mod`ele lin´eaire.

Lorsque le mod`ele lin´eaire n’est pas adapt´e, il est possible parfois d’utiliser malgr´e tout les techniques du mod`ele lin´eaire en effectuant un ou des changements de variable sur la variable

`

a expliquer ou les variables explicatives, pour se ramener `a un mod`ele lin´eaire. L’exercice ci-dessous en donne un exemple.

(8)

Exercice 3 : Pour effectuer des mesures ´electriques en biologie ou en m´edecine, on utilise souvent des ´electrodes en contact avec un tissu biologique. Dans certains cas, le syst`eme

´

electrodes-tissu se comporte comme une capacit´e et une r´esistance en parall`ele et la valeur de la r´esistance R d´epend de la fr´equence F du courant traversant les ´electrodes. L’´etalonnage d’une sonde form´ee d’une paire d’´electrodes parcourues par un courant d’intensit´e fixe a donn´e les r´esultats suivants (F en hertz, R en ohms) :

F 30 50 100 200 300 500 1000 2000 3000 5000 10000

R 1180 1010 690 540 450 350 240 160 130 95 58

1) Tracer le nuage de point correspondant `a ces observations et calculer le coefficient de corr´elation lin´eaire entre F et R. Un mod`ele lin´eaire gaussien du type

Ri01Fi+Wi serait-il satisfaisant ? Justifier la r´eponse.

2) On propose maintenant d’utiliser un mod`ele lin´eaire gaussien du type Ri01 1

√Fi +Wi,

o`u lesWi sont des variables al´eatoires centr´ees, ind´ependantes et de loi normale de variance σ2.

2.a) Ce mod`ele vous semble-t-il ˆetre adapt´e?

2.b)Donner une estimation ponctuelle des param`etres β01 et σ2 ainsi que des intervalles de confiance `a 95% pour ces param`etres.

2.c) Utiliser le mod`ele pr´ec´edent pour estimer la valeur de R correspondant `a F = 50000.

On donnera les intervalles de pr´ediction et de confiance `a 90% correspondant.

2.d) Peut-on supposer queβ0 = 0 ? On r´epondra `a l’aide d’un test statistique.

2.e) Les hypoth`eses du mod`ele lin´eaire gaussien sont-elles satisfaites ?

Nous pouvons ´egalement v´erifier l’hypoth`ese d’homosc´edacit´e des r´esidus, i.e. les r´esidus W(i) ont la mˆeme variance. Pour cela, nous pouvons tracer le graphique des points √

ˆ ε(i) en fonction des valeurs pr´edites ˆY(i) et observer si l’ordre de grandeur de la dispersion des√

ˆ ε(i) est homog`ene sur tout l’´echantillon.

R´ef´erences bibliographiques :

- P.A. Cornillon, E. Matzner-Lober, “R´egression, th´eorie et application”, Ed. Springer (2007) - G. Saporta, “Probabilit´es, analyse des donn´ees et statistique”, Ed. Technip (2011)

Références

Documents relatifs

A partir du moment o` ` u on a compris que les coefficients qui influent sur le devenir, ou non, de l’´epid´emie ne d´ependent pas que des caract´eristiques intrins`eques de la

Estimation des param` etres et de l’´ etat cach´ e des mod` eles d’espace d’´ etats: application au mod`

On rappelle qu’un plan d’exp´ eriences est dit E-optimal lorsqu’il minimise la plus grande valeur propre de la matrice de variance-covariance de l’estimateur du maximum

Quelles sont les caract´eristiques observ´ees sur le march´e pour les produits spot et forward que le mod`ele 2 facteurs permet de reproduire?. Quels effets ne permet-il pas

Ce r´ esultat important permet d’affirmer que si la matrice de Leslie d’un mod` ele dynamique (3) est primitive alors cette dynamique pr´ esentera, lorsque t augmente, un

Th´ eor` eme quantile : besoin d’un terme suppl´

En consid´erant les notations pr´ec´edentes avec J = ]0, 1[ et en notant Y la variable al´eatoire dont Y est une simulation, compl´eter le script pr´ec´edent pour que Z soit

Aujourd’hui on cherche ` a les g´ en´ eraliser ` a des structures de plus en plus complexes pour d´ etecter des d´ efauts soit lors d’un processus industriel (contrˆ ole de