• Aucun résultat trouvé

Modèles non paramétriques additifs

2 Outils de modélisation

P- splines

2.2.3 Modèles non paramétriques additifs

La régression non paramétrique a été étendue au cas multidimensionnel, par Hastie et Tibshirani, [80], c’est-à-dire à l’étude d’une fonction de régression de Rp, f(x) = E[Y|X=x] p-dimensionnelle, avec Y la variable réponse etX= (X1,· · ·, Xp) un vecteur de variables explicatives.

La regression dite non paramétrique additive (Stone [148]) regroupe une gamme de modèles qui proposent, dans les cas où l’on ne dispose pas d’échantillons de taille suffisante pour envisager une approche p-dimensionnelle directe, une approximation additive pourf, du type :

f(x1,· · ·, xp) =a+ Xp

j=1

fj(xj). (2.113)

Les fonctionsfj,1≤jp, sont des fonctions réelles d’une seule variable réelle, de type fonctions lisses définies point par point et non de forme analytique fixéea priori. Ce modèle constitue une extension naturelle de différents modèles paramétriques, prenant en compte trois aspects fondamentaux d’un modèle de régression, aspects liés aux deux qualités requises pour un modèle, qui sont les qualités explicatives et prédictives.

Ces trois aspects sont :

– la flexibilité du modèle, qui permet de s’adapter à des situations très variées. En effet, il est possible de faire le lien entre l’absence de flexibilité et le risque possible de biais du modèle estimé, risque d’autant plus grand que l’information sur la fonction de régression est faible. Cette flexibilité doit cependant être mesurée, pour ne pas détériorer les qualités prédictives ;

– la dimension du problème, lié à la variance des estimations, qui croit rapidement pournfixé, sipaugmente (fléau de la dimension) et entraîne donc l’instabilité du modèle estimé. La structure additive du modèle, avec estimation de fonctions univariées, offre une échappatoire à ce problème. La flexibilité et la dimension, sont étroitement liées et la recherche d’un modèle correct peut se baser sur un compromis de ces deux aspects ; – l’interprétabilité du modèle, importante pour la compréhension de la structure sous jacente. La représentation

des fonctionsfj, favorise une telle interprétation, en révélant la relation entre Y et un régresseur particulier, conditionnellement à la présence des autres régresseurs.

Différentes extensions de ce modèle de base ont été développées, toutes basées sur une hypothèse d’additivité de l’approximation.

On peut citer

– les modèles de Régression par Directions Révélatrices (Freedman [66]) :

E[Y|X =x] =f(x1,· · · , xp) = XM

m=1

fm

 Xp

j=1

bjmxj

, (2.114)

qui supposent que les fonctions fm sont des fonctions réelles d’une variable réelle, combinaison linéaire des variables Xj. L’idée est donc d’étudier une fonction de p variables au travers de son approximation par p fonctions d’une seule variable ;

– la méthode "Alternating Conditional Expectation" (ACE) (Breiman et Friedman, [16]) : E[φ(Y)|X =x] =

Xp

j=1

fj(xj) (2.115)

qui propose une double transformation, de la variable réponse et des régresseurs ; – les Modèles Additifs Généralisés (GAM) (Hastie et Tibshirani, [79] [80]) :

g(E[Y|X=x]) =g(f(x1,· · ·, xp)) = Xp

j=1

fj(xj), (2.116)

qui constituent une extension des modèles linéaires généralisés, avec étude def au travers d’une fonction lien g. C’est ce type de modèles que nous avons utilisé dans nos travaux.

Afin de calibrer au mieux les modèles à coefficients variables (VCM) présentés précédemment et utilisés dans le chapitre 4, l’influence de chaque variable sur la sortie a été testée indépendamment par un modèle additif. Ce modèle permet de savoir quel type de relation (linéaire, quadratique ou autre) existe entre variables réponses et explicatives. Ces modèles ont été calculés grâce au logiciel R avec la fonction "GAM" de la librairie "MGCV"

(Wood [163] [164]).

Les modèles additifs généralisés (GAM) sont des modèles linéaires généralisés dans lesquels la relation entre une variable-réponse et des prédicteurs multiples est décrite en partie par une somme de fonctions continues des prédicteurs. Les GAM offrent un bon compromis entre flexibilité et structure et sont, depuis leur introduction par Hastie et Tibshirani, [79] [80], largement appliqués en biostatistique (Cans et Lavergne, [22]), en écologie (Wood et Augustin, [162]), en épidémiologie (Richardson, [133]) et en finances (Coussementet al., [33]). Par la suite, le cadre des GAM a été renforcé par la mise au point de méthodes fiables permettant de sélectionner le degré de continuité des composantes du modèle, par l’élaboration de nouveaux moyens efficaces pour représenter les fonctions continues de plusieurs prédicteurs.

On rencontre les modèles additifs généralisés quand on essaye de décrire une situation non linéaire avec un nombre de variables élevé (si le modèle était linéaire, ce nombre de variables serait tout à fait raisonnable, avec la non linéarité, le nombre de paramètres à estimer explose). La version simplifiée est le modèle additif décrit par :

E[Y] =a+f1(x1) +f2(x2) +· · ·+fp(xp), (2.117) où lesfisont des fonctions quelconques qui peuvent être paramétriques (polynômiale, trigonométriques, splines de régression, noyau, etc.) ou non paramétriques (splines de lissage, régression locale pondérée ou non, loess).

L’important est que ces fonctions dépendent d’une seule variable et ne soient pas trop complexes.

Le modèle additif généralisé (GAM) repose sur deux conditions. La première est que la fonction de distribution deY appartient à la famille exponentielle, et la seconde est que la fonction liengest monotone et différentiable.

Le GAM se présente donc sous la forme :

YLexp, µ=E[Y] etη=g(µ) =a+ Xp

j=1

fj(xj). (2.118)

Bien sûr, toutes les fonctionsRpdansRne peuvent se mettre sous cette forme. De plus, dans cette représentation, on oublie complètement les éventuelles interactions entre les variables. Toutefois, on peut généraliser ce modèle en ajoutant des termes d’ordre supérieur (si nécessaire), comme par exemple,fij(xi, xj).

Les fonctions les pus utilisées dans les modélisations de séries temporelles (proche de notre cas) sont les splines et les fonctions loess (pourlocally weighted scatterplot smoothing, Cleveland et Devlin [30]). Nous ne rentrons pas dans les détails de ces outils, et renvoyons le lecteur à des ouvrages spécialisés, tel que l’ouvrage de Hastie et Tibshirani [80], qui traite par ailleurs d’autres fonctions de ce type. Ces fonctions sont des outils très utiles car elles permettent de réaliser des ajustements souples aux données et d’exercer un lissage de celle-ci.

Donnons une expression formelle et donc générale de ces fonctions intervenant dans les modèles additifs. Pour cela, il faut supposer qu’il existe une relation réelle mais non connue entre la variable expliquée et les variables explicatives. On peut écrire

Y =f(X) +ε, (2.119)

avecεindépendant,E[ε] = 0,Var[ε] =σ2 (de variance constante).

Nous savons que la partie mathématique (explicative) de la modélisation représente l’espérance deY, condition-nellement aux variables explicatives. Donc,E[Y|X =x] =f(x), c’est-à-dire que quand X prend les valeurs de x, alors l’espérance conditionnelle deY vautf(x).

Le lissage estime, pour une valeur dexdonnée, x0 par exemple, des valeurs ˆf(x0), proches des vraies valeurs f(x0), en général, en moyennant les valeurs deyproches def(x0).

L’algorithme utilisé pour trouver ces fonctions est itératif. Pour illustrer la démarche, reprenons l’écriture sim-plifiée du modèle additif,

Y =a+ Xp

j=1

fj(xj) +ε. (2.120)

On en déduit, en isolantfk(Xk), que :

Ya+ Xp

j=1 j6=k

fj(xj) =fk(Xk) +ε. (2.121)

D’où

E



Ya+ Xp

j=1 j6=k

fj(xj)|Xk



=fk(Xk). (2.122)

Ceci signifie que la valeur defk(Xk) est exprimable à partir des fonctions des autres variables.

Le principe de l’algorithme est qu’à chaque étape, la valeur prise par la fonction d’une variable donnée est calculée à partir des valeurs prises par les fonctions des autres variables à l’étape précédente.

L’algorithme d’"ajustement arrière" (backfitting en anglais) repose sur les étapes suivantes : 1. On choisit des valeurs initiales pour lesfj(Xj) :

a= 1 n

Xp

i=1

yi, (2.123)

en d’autres terme, on prend la moyenne desyipour valeur initiale dea. Pour les autres, on choisitpvaleurs de départf10, f20,·, fp0. Comme on n’a pas d’a priori, on peut choisir des valeurs déduites d’une régression dey sur lesxj;

2. On estimefk1, pourk= 1, ..., p, tel que

fk1=S



ya− Xp

j=1 j6=k

fj0|Xk



, (2.124)

avecS une fonction de lissage prédéterminée ;

3. On estime ensuite fk2, pourk= 1, ..., p, de la même façon, mais à partir desfk1et ainsi de suite ;

4. On s’arrête quand les fonctions ne diffèrent plus trop d’une étape à l’autre. Il est donc nécessaire de définir un seuil.

Dans leur ouvrage, Hastie et Tibshirani, [80], montrent la convergence de cet algorithme dans le cas de l’utilisation de splines de lissage. En revanche, cette convergence n’est pas assurée, avec les fonctions loess.

Le principe de l’algorithme reste le même dans le cas de l’ajustement du GAM, mais diffère quelque peu en pratique. Cet algorithme, appelé local scoring algorithm, reprend, en le généralisant, celui de la méthode des scores de Fischer (Fischer [62]). On y retrouve donc l’expression de Taylor mais avec la notion de lissage.

L’estimation deaet desfj est effectuée par les étapes suivantes :

1. On démarre l’algorithme en donnant une valeur arbitraire àaet auxfj : a0=g(

Xn

j=1

yi

n) etf10=f20=· · ·=fp0= 0; (2.125) On sait alors calculerη0i =a0+Pp

j=1fj0(xij) etµ0i =g−1i0), avecg connue (fonction ln par exemple) ; 2. On construit une nouvelle variable dépendante que l’on pondère. Soit

zi=η0i + (yiµ0i) ∂ηi

µi

0

. (2.126)

Soitwi une pondération dezi, dépendante de la dérivée deg−1 et de l’inverse de la variance ;

3. On ajuste un modèle additif pondéré sur les valeurs de la nouvelle variable dépendantezi. Cet ajustement se fait à l’aide de l’algorithme précédemment introduit, d’ajustement arrière. On obtient ainsi une estimation des fonctionsfj1, la valeur desηi1et des µ1i. Enfin, on calcule le critère de convergence basé sur la somme relative des valeurs absolues des différences entrefj1 etfj0.

4. On revient à l’étape 2, en remplaçant les valeurs initiales par les nouvelles valeurs et on itère jusqu’à ce que le critère de convergence soit suffisamment proche de 0.

Au final, il est possible de mesurer la qualité de l’ajustement en calculant la déviance, qui repose sur la log-vraisemblance ou à l’aide du critère d’Akaike (AIC pour Akaike information criterion) qui correspond à la déviance pénalisée par un terme dépendant du nombre de paramètres du modèle (Akaike [3] [4]).