• Aucun résultat trouvé

1.2 S´election de mod`ele via les chemins de r´egularisation

1.2.3 Chemins de r´egularisation

Pour ne pas avoir `a choisir la valeur de la constante de r´egularisation, on fait varier cette valeur sur l’ensemble des valeurs possibles et on ´etudie l’ensemble des solutions obtenues.

Au lieu de chercher d’abord `a d´eterminer la valeur du meilleur compromis λ, puis de chercher bβ = arg minβ{− log Ln(β) + λJ(β)}, on calcule directement l’ensemble :

 b

β(λ), λ∈ [0, +∞[ o`u bβ(λ) = arg min

β {− log Ln(β) + λJ(β)} 

De l’´etude de cet ensemble de solution (que l’on nomme chemin de r´egularisation ou encore chemin de solutions), on esp`ere pouvoir trouver quelle est la valeur op- timale `a donner au compromis λ.

Dans le cas du Lasso, Efron et al. ont propos´e un algorithme de calcul du che- min de r´egularisation (voir [14] pour les d´etails). Cet algorithme se d´eroule de la fac¸on suivante. On recherche la variable explicative la plus corr´el´ee avec le r´esidu courant, qui est `a la premi`ere ´etape confondu avec la variable `a expliquer. On ne fait pas entrer cette variable explicative dans le mod`ele par pas de ε, comme c’est le cas dans la r´egression « Stagewise », mais directement avec le coefficient au-del`a duquel cette variable n’est plus la seule `a ˆetre la plus corr´el´ee avec le r´esidu. On fait alors entrer dans le mod`ele cette deuxi`eme variable explicative. De mˆeme que pour la premi`ere variable explicative, on fait entrer la deuxi`eme variable directe- ment avec le coefficient au-del`a duquel ces deux variables ne sont plus les deux seules variables explicatives les plus corr´el´ees avec le r´esidu courant. On proc`ede

ainsi jusqu’`a ce que le mod`ele contienne toutes les variables explicatives. Les va- riables qui sont dans le mod`ele se trouvent toutes corr´el´ees de la mˆeme fac¸on avec le r´esidu. Efron et al. parlent d’´equicorr´elation. Cet algorithme est appel´e algo- rithme LARS, pour Least Angle Regression, r´egression de moindre angle, du fait des propri´et´es de l’´equicorr´elation. Une propri´et´e int´eressante de cet algorithme est que le calcul de la totalit´e du chemin de r´egularisation est de mˆeme complexit´e que le calcul de l’estimateur pour un λ donn´e ([14],[35]). Cela tient au fait que, dans le cas de la r´egression lin´eaire, chaque ´etape peut ˆetre r´esolue analytiquement.

Les chemins de r´egularisation dans le cas de la r´egression ont d’autres pro- pri´et´es remarquables, notamment celle d’ˆetre affines par morceaux. Cela a pour cons´equence que, pour connaˆıtre l’int´egralit´e du chemin, il suffit de connaˆıtre les valeurs des bβ(λ)en un nombre fini de λ (si p est fini). Rosset et Zhu ont montr´e dans [40] que cette propri´et´e se conserve sous certaines conditions sur les fonc- tions de coˆut et de p´enalisation. Leur r´esultat s’´enonce sous les hypoth`eses que L est une fonction de coˆut convexe et non-n´egative de Rndans Rn. J est une fonction de p´enalisation suppos´ee convexe et ´egalement non-n´egative de Rndans R avec la propri´et´e que J(0) = 0. Alors le chemin de r´egularisation :

 b

β(λ), λ∈ [0, +∞[ o`u bβ(λ) = arg min β



L(Y , XTβ) + λJ(β) 

est affine par morceaux si :

– L est quadratique par morceaux comme fonction de β et – J est affine par morceau comme fonction de β.

Le cas de la r´egression logistique, qui nous int´eresse dans la suite du document, ne v´erifie pas ces propri´et´es. La condition ´enonc´ee par Rosset et Zhu est n´ecessaire mais pas suffisante. Ainsi on ne peut rien conclure quant `a la lin´earit´e par morceaux du chemin de r´egularisation r´esultant. Dans la pratique, on v´erifie qu’il n’est pas affine par morceaux.

Sans cette propri´et´e, on ne peut pas esp´erer connaˆıtre le chemin de r´egularisation en int´egralit´e avec seulement quelques points. Dans le cadre plus g´en´eral des mod`eles lin´eaires g´en´eralis´es, qui regroupent notamment la r´egression lin´eaire et la r´egression logistique, Park et Hastie proposent un algorithme de suivi du chemin de r´egularisation [36]. Cet algorithme est initialis´e en partant du vecteur de r´egresseur nul (qui cor- respond `a un λ grand). L’auteur proc`ede par ´etapes successives :

– d´ecr´ementation de λ d’une certaine valeur ;

– ´etape de pr´ediction : approximation lin´eaire du nouveau eβ;

– ´etape de correction : optimisation ponctuelle de bβen initialisant l’optimisa- tion `a eβ.

L’algorithme est d’autant plus performant que l’on sait d´ecr´ementer λ d’une valeur bien choisie. Des strat´egies intuitives et flexibles sont propos´ees dans [36] pour

d´eterminer la d´ecr´ementation appropri´ee. Il est ´egalement dit que le choix du pas de la d´ecr´ementation est critique en ce qui concerne le contrˆole de la pr´ecision du chemin. Cette approche ne dispense pas de calculs d’optimisation qui peuvent s’av´erer nombreux.

L’algorithme que nous proposons dans le chapitre 2 ne cherche pas `a cal- culer l’int´egralit´e du chemin de r´egularisation. En effet, seuls nous int´eresse les λ int´eressants, c’est-`a-dire ceux pour lesquels l’ensemble des variables actives change. On appelle variable active une variable explicative dont la composante

b

βj du vecteur de param`etres du mod`ele est non nulle. On dit ´egalement qu’une va- riable active est dans le mod`ele quand son coefficient est non nul. Par analogie, on dira qu’une variable entre dans le mod`ele quand son coefficient devient non nul. Dans notre approche, nous sommes ´egalement amen´es `a r´ealiser des calculs d’op- timisation. Cependant, leur nombre est limit´e, comme on le verra dans le chapitre 2, par une recherche par dichotomie des λ int´eressants.

1.3 R´esultats th´eoriques autour des mod`eles parcimonieux