• Aucun résultat trouvé

Dans cette section, nous revenons sur la discussion qui conclut l’article, en y apportant quelques pr´ecisions.

On rappelle en fig. 2.2 le chemin de r´egularisation obtenu avec les 15 crit`eres physiques list´es dans le paragraphe 2.3. Comme on vient de le rappeler, le BIC s´electionne le mod`ele `a deux variables. Les deux variables qui constituent alors le mod`ele sont les suivantes : Var 5 et (Var 1).

D’autre part, on voit qu’`a mesure que croˆıt ||β||1, Var 1 et Var 5 ne restent pas les deux variables ayant les deux plus fortes amplitudes en valeur absolue.

Les connaissances actuelles sur les chemins de r´egularisation appliqu´es sur des cas pratiques sont assez minces. On ne sait pas bien aujourd’hui comment doit s’interpr´eter ce type de chemin, notamment quand celui-ci est emmˆel´e. Se pose alors la question de savoir quel mod`ele consid´erer : est-ce qu’il faut consid´erer :

– les deux premi`eres variables qui entrent dans la mod`ele, `a savoir Var 5 et Var 1

absolue au long du chemin, `a savoir Var 5 et Var 13 ?

Le principal argument en faveur de la premi`ere approche est le suivant : si l’on cherche le meilleur mod`ele `a une variable, par exemple en contraignant le probl`eme d’optimisation `a ne retenir qu’une et une seule variable pour expliquer la prestation, alors c’est la variable globalement la plus corr´el´ee avec la r´eponse qui est retenue. Dans l’algorithme, c’est donc la premi`ere variable `a entrer dans le mod`ele.

La fac¸on appropri´ee de comprendre comment ces chemins de r´egularisation doivent ˆetre interpr´et´es est d’´etudier leur comportement asymptotique afin d’en d´eduire des pr´econisations dans le cas non asymptotique. Les travaux r´ecents de Greenshtein et Ritov, dont les principaux r´esultats en termes de persistence ont ´et´e rappel´es dans l’introduction, viennent plutˆot accr´editer la seconde approche. En effet, leurs r´esultats semblent s´electionner de plus grands mod`eles que ceux s´electionn´es par le BIC. Dans les cas pratiques, et encore plus particuli`erement dans le nˆotre, nous ne pouvons raisonnablement pas supposer ˆetre dans le cas asymptotique. L’hypoth`ese de Greenshtein et Ritov par exemple est que le nombre de variables explicatives p croˆıt exponentiellement avec le nombre d’essais n : p = nα, avec α > 1. Or dans notre cas pratique, p = 15 et n = 565.

D’o`u la difficult´e d’interpr´etation pos´ee par les chemins de r´egularisation o`u les premi`eres variables qui entrent dans le mod`ele ne sont pas celles qui ont les plus fortes valeurs de coefficients au cours du chemin. Pour r´esoudre ce point bloquant, nous avons conclu, apr`es duscussion avec les ing´enieurs, que l’interpr´etation serait facilit´ee si les deux approches co¨ıncidaient. On a donc cherch´e `a faire en sorte que le chemin soit « peign´e », c’est-`a-dire que l’on se trouve dans la situation o`u :

– les premi`eres variables qui entrent dans le mod`ele

– sont celles qui conservent les coefficients les plus grands en valeurs absolues au long du chemin.

Ainsi le chemin de r´egularisation est « peign´e », i.e. qu’il n’y a pas de croisements des diff´erentes trajectoires des coefficients βj comme fonctions de ||β||1.

Le travail r´ealis´e avec les experts RENAULT a abouti `a remarquer que les deux ensembles {Var 5,Var 1} et {Var 5,Var 13} sont tr`es comparables. A partir du constat que les deux crit`eres physiques Var 1 et Var 13 d´ecrivent des r´ealit´es phy- siques tr`es proches, les ing´enieurs ont jug´e recevable de ne conserver qu’un des deux crit`eres physiques. Et plus g´en´eralement, des trois crit`eres physiques Var 1, Var 13 et Var 14, on n’a conserv´e que Var 1 comme « repr´esentant ». De mˆeme, il est apparu que Var 15 et Var 5 avaient des influences similaires sur le chemin. En accord avec les ing´enieurs, Var 15 a ´egalement ´et´e sorti de l’´etude. On obtient ainsi le chemin tel que repr´esent´e dans la figure 1 de l’article, figure qui est rap- pel´ee en fig. 2.3. On note que le chemin n’est pas parfaitement « peign´e » puisque les trajectoires des variables Var 1 et Var 5 se croisent encore. En accord avec les

FIG. 2.3 – Chemin de r´egularisation sur les 15 variables sauf Var 13, Var 14 et Var 15

ing´enieurs, ce chemin de r´egularisation a ´et´e jug´e satisfaisant, du moment que les entr´ees dans le mod`ele de ces deux variables sont quasiment simultan´ees : cela si- gnifie qu’un faible relˆachement de la contrainte sur ||β||1 suffit pour les autoriser `a entrer toutes les deux. Elles constituent donc un groupe que l’on opposera aux variables restantes, prises elles s´epar´ement.

Mˆeme avec ce travail permettant d’accorder les deux approches diff´erentes d’interpr´etation du chemin de r´egularisation, on peut ´emettre une critique quant `a l’utilisation du BIC dans la seconde phase de la m´ethodologie. En effet, on rap- pelle que pour utiliser le BIC en s´election de mod`ele, il est n´ecessaire d’avoir une suite de mod`eles emboˆıt´es. Or il arrive qu’au cours de l’algorithme, certaines va- riables sortent du mod`ele courant - on dit qu’une variable « sort » si le coefficient correspondant s’annule `a nouveau. Nous ne sommes donc pas assur´es d’avoir `a la fin une suite de mod`eles qui soit r´eellement emboˆıt´ee. N´eanmoins,`a d´efaut d’un autre crit`ere de s´election de mod`ele, l’utilisation du BIC est un choix qui permet d’´eviter un choix encore plus arbitraire. D’autre part, l’exp´erience nous montre que le ph´enom`ene de variables sortantes reste finalement assez rare et les chemins sont souvents “peign´es”. Dans l’optique d’impl´ementer la m´ethodologie en une solu-

tion logicielle, comme cela a ´et´e le cas ici, on doit de toutes fac¸ons savoir traiter le cas des variables sortantes, aussi rare soit-il.