Régularisation et sélection de variables - Approximation locale par régression

3.2 Approximation locale par régression

3.2.2 Régularisation et sélection de variables

La régularisation correspond à l'hypothèse que la fonction que nous cherchons à estimer varie plus ou moins régulièrement selon ses paramètres. C'est-à-dire que les modèles simples sont préférés à des modèles plus complexes. Cette hypothèse se traduit par l'ajout d'une pénalisation au critère d'erreur à minimiser, proportionnelle à une norme sur les paramètres du modèle. Nous nous référons à Girosi, Jones, et Poggio [50] pour des exemples d'algorithmes d'apprentissage faisant appel à la régularisation. Nous allons appliquer cette méthode à l'estimation du modèle de prévision linéaire déni par l'équation (3.4) de la partie 3.2.1. Nous allons particulièrement étudier la pénalisation L1, qui a la propriété supplémentaire de sélectionner les variables inuentes, et qui répond à nos exigences.

Types de pénalisation dans le cadre linéaire

La régularisation par pénalisation L2d'un problème de régression linéaire a été introduite par Hoerl et Kennard [57] avec la méthode dite de ridge regression. Les coecients β sont estimés en minimisant l'erreur des moindres carrées Pn

i=1(βxi− yi)2 tout en respectant la contrainte Pp

j=1βj2 ≤ t avec t ∈ R+. La forme duale de ce problème d'optimisation s'écrit : n

X i=1

(βxi− yi)2+ γ||β||2,

avec γ un réel dépendant de la contrainte t. Remarquons que c'est toujours un problème d'optimisation linéaire en β, dont la solution est ˆβ = (t_{XX + γI}

p)−1 tXy. Dans ce cas, le problème mal posé est résolu en agissant directement sur le mauvais conditionnementt_XX_{, qui est l'estimation} de la matrice de covariance des variables explicatives. Du point de vue statistique, l'estimateur ridge peut être vu comme l'espérance a posteriori de β avec un a priori gaussien de moyenne 0 sur chacun des βj. Nous nous référons à Besse [10] pour plus de précision sur cet estimateur. Les coecients estimés tendent de façon continue vers 0 avec l'augmentation de γ. Il donne de bons résultats quand il est appliquée à des problèmes comportant de nombreuses variables cor- rélées de petite inuence. À l'inverse, la sélection de modèles choisit le meilleur sous-ensemble de variables inuentes. Ce problème n'est pas convexe et il faut recourir à des méthodes itératives de recherche, comme la sélection incrémentale ou forward selection introduite par Weisberg [96]. Ces méthodes procèdent par étapes brutales et peuvent éliminer des variables inuentes quand celles- ci sont corrélées. Cette méthode donne cependant de bons résultats quand seulement quelques variables sont très inuentes.

La pénalisation L1 emprunte des propriétés intéressantes à ces deux méthodes. Remarquons d'abord que q = 1 est la plus petite valeur pour laquelle le problème d'optimisation ||βX − Y_||2+||β||qest convexe. Donoho et Johnstone [38] ont introduit cette pénalisation dans le cadre

3.2. Approximation locale par régression 65

de la décomposition de fonctions sur des bases d'ondelettes. L'application de la pénalité L1 sur des variables explicatives orthogonales donne un seuillage doux ou soft shrinkage des coecients. Les coecients β?

j sont d'abord estimés par la méthodes des moindres carrés. Puis chacune des estimations est seuillée selon la formule ˆβj =sign( ˆβ?j)(| ˆβj?|−t)+. L'application de cette pénalité à la régression linéaire a été introduite par Tibshirani [89] sous le nom de LASSO pour least absolute shrinkage and selection operator. La forme de la région de contrainte Pp

j=1|βj| ≤ t privilégie les directions axiales dans l'espace des coecients β. Cette propriété est illustrée par l'étude d'un exemple ctif présentée à la gure 3.7. Même en présence de corrélation, la pénalisation L1 a tendance à seuiller les coecients non-inuents à 0 et de proposer des modèles à la fois performants et interprétables. Cette méthode donne des résultats généralement plus satisfaisants que d'autres pénalisations.

Les coecients β sont estimés en minimisant l'erreur des moindres carrés Pn

i=1(βxi− yi)2 additionnée de la pénalité γ ||β||1. Comme pour la pénalisation L2, le réel γ contrôle l'importance de la pénalité.

n X

i=1

(βxi− yi)2+ γ||β||1 (3.5) C'est un problème d'optimisation convexe relativement coûteux à résoudre. Efron, Hastie, Johns- tone, et Tibshirani [40] ont proposé l'algorithme du LARS, dont une modication permet de calculer les solutions du problème déni par l'équation (3.5). Leur méthode complète les travaux de Osborne, Presnell, et Turlach [78]. Elle permet de calculer l'entièreté des chemins de régu- larisation, c'est-à-dire l'ensemble des coecients ˆβ(γ) pour les valeurs de γ allant de 0 à +∞. L'algorithme proposé est aussi coûteux que la résolution du problème de régression non péna- lisé. C'est donc une amélioration par rapport aux méthodes de résolution par programmation quadratique, originellement proposées par Tibshirani [89]. Une nouvelle méthode encore plus performante a été récemment proposée par Friedman, Hastie, Höing, et Tibshirani [47]. Elle optimise le calcul des chemins du LASSO, ainsi que ceux de toute un famille de procédés de régularisation, en suivant un chemin progressant coordonnée par coordonnée.

La régression pénalisation L1 et l'algorithme du LARS ont généré de nombreuses discussions, comme par exemple Loubes et Massart [70]. Meinshausen et Buhlmann [75] et Meinshausen et Yu [76] ont appliqué la méthode du LASSO à la sélection de covariance de processus gaussiens en très haute dimension. Ils montrent que l'approche par régression est consistente lorsqu'elle est combinée avec une pénalité L1plus importante que celle choisie par un oracle en prévision. Canu, Guigue, et Rakotomamonjy [20] et Guigue et al. [52] proposent une méthode d'approximation fonctionnelle multi-échelle par noyau. La régularisation par pénalisation L1permet d'obtenir des modèles creux. Ils mettent au point des heuristiques pour sélectioner un modèle au cours du chemin de régularisation calculé par l'algorithme du LARS.

L'algorithme Least Angle Regression

Nous allons présenter quelques résultats importants obtenus par Efron et al. [40] et nous illustrons le principe de l'algorithme LARS. L'algorithme du LARS s'inspire de la méthode itérative de sélection de modèle, qui construit un modèle en rajoutant au fur et à mesure les variables inuentes. Elle part d'un modèle nul ˆf0 n'intègrant aucune variable. À la k + 1ème étape, on dispose d'un modèle ˆfk auquel on ajoute la variable explicative la plus corrélée avec le résidu y − ˆfk. Nous notons ˆc(k) =tX(y_{− ˆ}fk)le vecteur de corrélation des variables explicatives avec le résidu du modèle ˆfk_{. Une étape k + 1 consiste à incrémenter le modèle ˆ}_fk _{de la façon} suivante :

détermine le pas de progression auquel on construit le prédicteur ˆf. La méthode forward selection procède en ajoutant à chaque fois une variable complète dans le modèle et = |ˆc(k)ˆj|. Comme nous l'avons vu à la partie 3.2.2, la progression de cette méthode est trop brutale et instable. Ce défaut peut être corrigé en progressant par étapes plus prudentes en choisissant un pas > 0 petit. Cette méthode, appelée forward stagewise selection, construit le modèle nal par adjonctions successives des variables explicatives. La valeur du pas doit être susamment petite pour que le modèle ˆfk progresse stablement. Il faut donc un nombre important d'étapes et cette méthode est très coûteuse.

Nous allons décrire le principe général de l'algorithme du LARS qui est un compromis entre la recherche du meilleur sous-ensemble par adjonctions successives et la progression innitésimale. Nous supposons disposer du modèle ˆfkobtenu à l'étape k. Le vecteur ˆc(k) =tX(y− ˆfk)représente les corrélations entre les variables explicatives et l'erreur à l'étape k, estimées sur l'échantillon d'apprentissage. Nous notons Ak l'ensemble des variables ayant la plus grande corrélation en valeur absolue.

C =max

j {|ˆcj|} et Ak={j : |ˆcj| = ˆC}

À la diérence des méthodes de sélection vers l'avant, une étape du LARS progresse dans une direction uk+1 faisant un compromis entre les variables les plus corrélées. Cette direction est la bissectrice quand Ak est composé de deux variables, et le vecteur équi-angulaire entre toutes les variables de Ak sinon.

fk+1 = ˆfk+ k uk

Le pas est choisi de façon à progresser jusqu'à ce qu'une variable non inuentes de Ac

kentre à son tour dans Ak. C'est-à-dire que sa corrélation avec le résidu atteigne ˆC. Toutes les corrélations des variables intégrées dans A décroissent également en valeur absolue. L'intérêt de cette méthode est que la direction uk ainsi que le pas k sont facilement calculables. La gure 3.9 illustre schématiquement la progression de l'algorithme. La gure 3.8 présente le chemin de régularisation sur un exemple simple.

Les auteurs montrent qu'une simple modication du LARS permet d'obtenir exactement l'ensemble des chemins du LASSO. Nous nous référons à leur travaux pour la démonstration technique complète.

3.2. Approximation locale par régression 67

Figure 3.7 Régression de la fonction f : x 7→ β2x + β1 avec β2 = 1 et β1 = 2. Nous disposons d'un échantillon de n = 100 observations issue d'une loi (X, Y ) avec X = U([0; 1]) et Y = f (X) +_{N (0, 0.2}2). La gure de gauche représente les observations de (X, Y ), ainsi que la droite d'équation y = f(x) et son estimation par moindres carrés ordinaires ou Ordinary Least Squares. La gure de droite montre l'évolution du critère L2, (β − βOLS)tXX(β − βOLS), en fonction beta. Les frontières de la région pour laquelle |β| = 1 est également illustrée.

Figure 3.8 Régression de la même fonction avec β2 = 0 et β1 = 2. Cette fois nous ne disposons que de n = 25 points et la variance du bruit est de 0.52_{. Nous représentons l'estimation} par LASSO avec une pénalité t = 2 choisi par un oracle. La gure de droite représente le chemin de régularisation calculé par l'algorithme LARS

X3 ˆ f0 y X2 X1 A X3 ˆ f0 y X2 R −→ uA A X1 X3 −→ uA ˆ f1 γ ˆ f0 y X2 A X1 X3 X2 R ˆ f1 ˆ f0 y −→ uA X1 A X3 −→ uA ˆ f1 ˆ f0 y X2 ˆ f2 X1 A

Figure 3.9 Illustration de l'algorithme LARS. Nous régressons une variable aléatoire y sur X1, X2 et X3. Nous débutons avec le modèle nul ˆf0 sans aucune variable. L'algorithme choisit d'abord X1 qui est la la plus corrélée à y. Le modèle deviens ˆf1 = γX1 avec γ choisit de façon à ce que les résidus R = y − γX1 se trouvent également corrélés avec une deuxième variable, ici X2. Le plan A représente les corrélations actives à cette étape. L'étape suivante est le modèle

3.2. Approximation locale par régression 69

Dans le document Prévision et analyse du trafic routier par des méthodes statistiques (Page 72-77)