Chemins de régularisation - Sélection de modèle via les chemins de régularisation

1.2 Sélection de modèle via les chemins de régularisation

1.2.3 Chemins de r´egularisation

Pour ne pas avoir à choisir la valeur de la constante de régularisation, on fait varier cette valeur sur l’ensemble des valeurs possibles et on étudie l’ensemble des solutions obtenues.

Au lieu de chercher d’abord `a d´eterminer la valeur du meilleur compromis λ, puis de chercher bβ = arg minβ{− log Ln(β) + λJ(β)}, on calcule directement l’ensemble :

β(λ), λ_{∈ [0, +∞[ o`u b}β(λ) = arg min

β {− log Ln(β) + λJ(β)}

De l’étude de cet ensemble de solution (que l’on nomme chemin de régularisation ou encore chemin de solutions), on espère pouvoir trouver quelle est la valeur op- timale à donner au compromis λ.

Dans le cas du Lasso, Efron et al. ont proposé un algorithme de calcul du chemin de régularisation (voir [14] pour les détails). Cet algorithme se déroule de la façon suivante. On recherche la variable explicative la plus corrélée avec le résidu courant, qui est à la première étape confondu avec la variable à expliquer. On ne fait pas entrer cette variable explicative dans le modèle par pas de ε, comme c’est le cas dans la régression « Stagewise », mais directement avec le coefficient au-delà duquel cette variable n’est plus la seule à être la plus corrélée avec le résidu. On fait alors entrer dans le modèle cette deuxième variable explicative. De même que pour la première variable explicative, on fait entrer la deuxième variable directement avec le coefficient au-delà duquel ces deux variables ne sont plus les deux seules variables explicatives les plus corrélées avec le résidu courant. On procède

ainsi jusqu’à ce que le modèle contienne toutes les variables explicatives. Les variables qui sont dans le modèle se trouvent toutes corrélées de la même façon avec le résidu. Efron et al. parlent d’équicorrélation. Cet algorithme est appelé algorithme LARS, pour Least Angle Regression, régression de moindre angle, du fait des propriétés de l’équicorrélation. Une propriété intéressante de cet algorithme est que le calcul de la totalité du chemin de régularisation est de même complexité que le calcul de l’estimateur pour un λ donné ([14],[35]). Cela tient au fait que, dans le cas de la régression linéaire, chaque étape peut être résolue analytiquement.

Les chemins de régularisation dans le cas de la régression ont d’autres pro- priétés remarquables, notamment celle d’être affines par morceaux. Cela a pour conséquence que, pour connaˆıtre l’intégralité du chemin, il suffit de connaˆıtre les valeurs des bβ(λ)en un nombre fini de λ (si p est fini). Rosset et Zhu ont montré dans [40] que cette propriété se conserve sous certaines conditions sur les fonc- tions de coût et de pénalisation. Leur résultat s’énonce sous les hypothèses que L est une fonction de coût convexe et non-négative de Rn_{dans R}n_{. J est une fonction} de pénalisation supposée convexe et également non-négative de Rn_{dans R avec la} propriété que J(0) = 0. Alors le chemin de régularisation :

β(λ), λ_{∈ [0, +∞[ o`u b}β(λ) = arg min β

L(Y , XTβ) + λJ(β)

est affine par morceaux si :

– L est quadratique par morceaux comme fonction de β et – J est affine par morceau comme fonction de β.

Le cas de la régression logistique, qui nous intéresse dans la suite du document, ne vérifie pas ces propriétés. La condition énoncée par Rosset et Zhu est nécessaire mais pas suffisante. Ainsi on ne peut rien conclure quant à la linéarité par morceaux du chemin de régularisation résultant. Dans la pratique, on vérifie qu’il n’est pas affine par morceaux.

Sans cette propriété, on ne peut pas espérer connaˆıtre le chemin de régularisation en intégralité avec seulement quelques points. Dans le cadre plus général des modèles linéaires généralisés, qui regroupent notamment la régression linéaire et la régression logistique, Park et Hastie proposent un algorithme de suivi du chemin de régularisation [36]. Cet algorithme est initialisé en partant du vecteur de régresseur nul (qui cor- respond à un λ grand). L’auteur procède par étapes successives :

– d´ecr´ementation de λ d’une certaine valeur ;

– étape de prédiction : approximation linéaire du nouveau eβ;

– ´etape de correction : optimisation ponctuelle de bβen initialisant l’optimisation `a eβ.

L’algorithme est d’autant plus performant que l’on sait décrémenter λ d’une valeur bien choisie. Des stratégies intuitives et flexibles sont proposées dans [36] pour

déterminer la décrémentation appropriée. Il est également dit que le choix du pas de la décrémentation est critique en ce qui concerne le contrôle de la précision du chemin. Cette approche ne dispense pas de calculs d’optimisation qui peuvent s’avérer nombreux.

L’algorithme que nous proposons dans le chapitre 2 ne cherche pas à cal- culer l’intégralité du chemin de régularisation. En effet, seuls nous intéresse les λ intéressants, c’est-à-dire ceux pour lesquels l’ensemble des variables actives change. On appelle variable active une variable explicative dont la composante

βj du vecteur de paramètres du modèle est non nulle. On dit également qu’une variable active est dans le modèle quand son coefficient est non nul. Par analogie, on dira qu’une variable entre dans le modèle quand son coefficient devient non nul. Dans notre approche, nous sommes également amenés à réaliser des calculs d’optimisation. Cependant, leur nombre est limité, comme on le verra dans le chapitre 2, par une recherche par dichotomie des λ intéressants.

1.3 Résultats théoriques autour des modèles parcimonieux

Dans le document Sélection de modèles à l'aide des chemins de régularisation pour l'objectivation mono et multi-prestations. Application à l'agrément de conduite (Page 30-32)