Régularisation Structurée et Choix d’Hyperparamètre

L’ajout d’un terme de régularisation apparaît naturellement en apprentissage statistique pour améliorer la stabilité numérique et éviter des phénomènes de sur-apprentissage. En effet, résoudre le problème de minimisation du risque empirique (5.2) n’est souvent pas suffisant pour trouver de bons prédicteurs, car le problème a tendance à être mal conditionné dans des contextes de

grandes dimensions. Cette régularisation encode une connaissance supplémentaire sur la structure des données. Par exemple, il peut être utilisé pour imposer le choix de modèles plus simples et peut être formulé comme suit :

ˆ βpλq P arg min βPRp 1 n n ÿ i“1 `phpxi, βq, yiq ` λΩpβq , (5.6)

où Ω est la fonction de régularisation qui pénalise les solutions complexes et λ ą 0 contrôle le niveau de biais inductif. Il est généralement lié au principe de simplicité de G. Ockham (14ème siècle) ou (Wrinch and Jeffreys, 1921). Le terme de régularisation équilibre la minimisation du risque empirique et la simplicité structurelle du modèle à travers l’hyperparamètre λ. Il est es- sentiel de trouver l’équilibre optimal pour obtenir une bonne prédiction sur des ensembles de données inédits :les petits λ conduisent à des modèles complexes qui risquent de sur-apprendre sur les données d’entrainement tandis que les grands λ conduisent à des modèles simplistes avec une puissance de prédiction médiocre. Une approche courante pour sélectionner un "bon" para- mètre consiste à utiliser la validation croisée. Essentiellement, cette méthode évite d’entrainer et d’évaluer la performance d’un estimateur sur les mêmes données. Il a été introduit dans (Larson, 1931) ; voir (Arlot and Celisse, 2010) pour une description plus compl`te. Pour simplifier, nous traitons ici la version simplifiée qui consiste à scinder les données tpxi, yiquiPrns en deux parties

pXtrain, ytrainq et pXtest, ytestq et considérons Λ comme un ensemble d’hyperparamètres discret.

Avec une fonction de perte de validation L qui mesure l’erreur de prédiction sur l’ensemble de tests, la validation croisée correspond à la réalisation des deux étapes suivantes :

1. résoudre le problème (1.6) avec les données pXtrain, ytrainq pour tout λ P Λ,

2. choisir le λ P Λ qui minimise l’erreur de validation LphpXtest, ˆβpλqq, ytestq.

Une grille standard considérée dans la littérature est λt “ λmax10´δt{pT ´1q avec un petit δ

(δ “ 10´2 _{ou 10}´3_{), voir par exemple (Bühlmann and van de Geer, 2011) [2.12.1] ou le paquet}

glmnet(Friedman et al., 2010b) et scikit-learn (Pedregosa et al., 2011). Choisir δ est un défi du point de vue statistique (les performances ont tendance à diminuer à mesure que δ devient proche de zéro, en raison du surapprentissage) et du point de vue de l’optimisation, la complexité de calcul tend à augmenter pour les petits λ, les itérés dans le primal étant denses et le problème à résoudre de plus en plus mal posé. Il est de coutume de commencer par un assez grand paramètre de régularisation λ0 “ λmax puis d’effectuer séquentiellement le calcul de ˆβpλtq après celui de

βpλt´1q_{. Souvent, elle conduit à calculer les modèles dans l’ordre croissant de complexité : cela}

permet une accélération importante en profitant de l’initialisation du démarrage à chaud.

Selon le contexte, plusieurs fonctions de régularisation Ω ont été introduites pour prendre en compte la régularité à priori des estimateurs. Les exemples utilisés dans nos expériences sont :

Régularisation Ridge ou de Tikhonov. La fonction de régularisation Ωpβq “ kβk2₂{2 a été introduite dans (Tikhonov, 1943) pour améliorer la stabilité des problèmes inverses, et en Sta- tistiques (Hoerl, 1962; Hoerl and Kennard, 1970) pour réduire l’erreur quadratique moyenne de l’estimateur de moindres carrés classique lorsque la matrice de design est de rang déficient. En l’apprentissage statistique, il est souvent considéré comme un stabilisateur de l’algorithme d’apprentissage, en ce sens que la prédiction ne change pas beaucoup lorsque les données d’entrée sont légèrement perturbées. Par conséquent, l’erreur d’apprentissage reste proche de l’erreur de test, ce qui empêche l’algorithme de surapprendre sur les données d’entrainement (Shalev-Shwartz and Ben-David, 2014, Chapitre 13.2).

Bien que fondamental, la prévention du phénomène de surapprentissage n’est pas suffisante dans de nombreuses applications. Souvent, il faut également avoir une bonne représentation des

données et fournir des modèles de prédiction interprétables. Il est donc crucial de pouvoir sélec- tionner les variables explicatives les plus pertinentes, ce qui a motivé l’introduction de méthodes de régularisation parcimonieuse.

Régularisation Parcimonieuse de Type Lasso. La régularisation Ωpβq “ kβk₁a été introduite dans (Chen and Donoho, 1995; Tibshirani, 1996) en traitement du signal et en Statistiques. Elle suit les méthodes classiques de sélection variables explicatives dans la régression multiple (Efroymson, 1960) pour la régression adapdative ou (Breiman, 1995) pour la sélection avec la non-négative garrote. La pénalité `1norm a l’avantage de pouvoir sélectionner des variables de manière continue

et sa formulation convexe permet d’utiliser un algorithme itératif rapide.

Plus tard, plusieurs extensions ont été proposées, notamment par Zou and Hastie (2005) pour la régularisation Elastic Net Ωpβq “ α kβk₁` p1 ´ αq kβk2₂{2 qui fait une interpolation entre le Ridge et le Lasso, par Hebiri and van de Geer (2011) pour le Lasso lissé où Ωpβq “ α kβk₁` γřp_j“2pβj´ βj´1q2, ou pour des régularisations de groupe hiérarchiques plus complexes (Fried-

man et al., 2010a; Sprechmann et al., 2011). Une enquête fournissant une théorie unifiée pour les normes induisant une faible densité structurée convexe a récemment été proposée dans (Obozinski and Bach, 2016). Notez que la parcimonie peut également être incorporée dans le terme d’ajuste- ment au données. C’est le cas de la perte charnière (hinge loss) qui, d’ailleurs peut également être utilisée comme critère de sélection des variables (Guyon et al., 2002; Rakotomamonjy, 2003).

En utilisant de telle régularisation, la performance en généralisation, des estimateurs obtenus en minimisant le risque empirique, est alors fortement liée aux capacités de réglage du paramètre de régularisation λ. Cela nécessite souvent le calcul du chemin complet des solutions dans le cadre des méthodes d’homotopie sur une plage (souvent un ensemble discret) d’hyperparamètres Λ. En effet, il est généralement impossible de calculer le chemin complet dans un ensemble continu si on a pas accés aux solutions exacte dans l’Equation (5.6). Cependant, pour les problèmes impli- quant une perte quadratique par morceaux et des régularisations linéaires par morceaux, le chemin des solutions t ˆβpλq_{, λ P Λu est continu et linéaire par morceaux (Rosset and Zhu, 2007). Cette}

linéarité par morceaux et très spécifique et permet de calculer exactement la totalité du chemin de la solution. Ce type de propriété a été redécouvert plusieurs fois dans la littérature. Par exemple, dans (Markowitz, 1952) pour la sélection de portefeuille, (Osborne, 1992) pour les problèmes de régression quantile, (Osborne et al., 2000a) pour Lasso, (Efron et al., 2004; Park and Hastie, 2007) pour le modèle linéaire géneralisé avec une régularisation avec la norme `1.

Outre la régularité générale des fonctions en jeu, l’exploitation explicite de la structure des fonctions permet de concevoir des algorithmes d’optimisation plus rapides. L’une des principales contributions de cette thèse est de proposer des accélérations supplémentaires en économisant une quantité considérable de calculs effectués le long des itérations. Ici, nous ne considérerons que les problèmes d’optimisation convexe i.e. les fonctions dans (5.6) où la classe d’hypothèses H et la fonction de perte ` sont supposées être toutes deux convexes. Nous avons vu qu’une telle formulation convexe inclut déjà une grande classe de tâches d’apprentissage statistique telles que l’estimation du maximum de vraisemblance pour la famille des distribution exponentielle, mais également des formulations résultant du paradigme des machine à vecteurs de support (SVM).

Dans le document Safe optimization algorithms for variable selection and hyperparameter tuning (Page 124-127)