• Aucun résultat trouvé

4.7 Analyse de l’effet d’ombrage

5.1.2 La r´ egularisation

En amont de la m´ethode de r´esolution propos´ee ci-dessus, il convient de savoir quels descrip- teurs vont le mieux d´ecrire la grandeur d’int´erˆet. En effet pour un lot de mesures donn´e, plus le nombre de descripteurs d’entr´ee va ˆetre grand, plus l’erreur relative sur la grandeur calcul´ee va ˆetre faible. Cependant l’ajout de descripteurs faiblement descriptifs de la grandeur d’int´erˆet peuvent mener `a une instabilit´e du mod`ele. Pour ´eviter ce probl`eme de sur-apprentissage bien connu, nous allons donc `a la fois chercher `a minimiser la norme au carr´e du r´esidu mais en cherchant ´egalement `a r´eduire la complexit´e du mod`ele par la prise en compte de la somme des valeurs absolues des coefficients (norme L1 de w), on parle de r´egularisation du mod`ele. Pour cela on va utiliser l’algorithme dit ”LASSO” (Least Absolute Shrinkage and Selection Operator) qui va it´erativement essayer de r´eduire la fonction de coˆut suivante :

Cost(w) = ||˜g − D × w||2+ α × ||w||L1 (5.8) Cost(w) = N X n=1 ( ˜ gn− K X k=0 wk× dn,k )2 + α × K X k=0 |wk| (5.9)

Cette r´egularisation par p´enalisation de la norme L1, r´esultera en une r´eduction du nombre de descripteurs dont le coefficient wk est diff´erent de z´ero, r´eduisant ainsi la complexit´e du

mod`ele. La r´esolution de ce probl`eme consiste donc `a trouver le sous-ensemble optimal de param`etres parmi ceux propos´es, permettant d’approcher au mieux la r´eponse, c’est `a dire dans notre cas la valeur de la grandeur d’int´erˆet.

Afin de r´esoudre ce probl`eme il existe diff´erentes m´ethodes it´eratives, telles que :

— La s´election directe (forward selection ou forward stepwise regression), qui commence `

a partir d’un mod`ele vide (tous les wk = 0) et essaye d’ajouter de mani`ere it´erative

des param`etres [55][56] (on parle de descente de coordonn´ee (coordinate descent)). Les param`etres qui sont ajout´es au mod`ele en premier sont ceux dont la corr´elation avec la r´eponse est la plus grande, ce qui est parfois reproch´e aux m´ethodes ”stepwise” [57][56][58] ; en effet la corr´elation d’un param`etre avec la r´eponse peut ˆetre tr`es diff´erent en fonction du ”remplissage” du mod`ele.

— La r´egression inverse (backward elimination ou backward stepwise regression), qui com- mence `a partir d’un mod`ele utilisant tous les descripteurs donn´es et qui essaye d’enlever de mani`ere it´erative des param`etres. Les param`etres qui sont enlev´es du mod`ele en pre- mier sont ceux dont la corr´elation avec la r´eponse est la plus faible.

— La r´egression bidirectionnelle (bidirectional elimination) qui est une combinaison des deux pr´ec´edentes.

— La m´ethode LARS (Least Angle Regression) qui est similaire `a la s´election directe (for- ward), mais qui, `a la place d’optimiser les param`etres un par un, peut optimiser plusieurs param`etres en mˆeme temps (on parle de descente de gradient (gradient descent)) dans un direction n-dimensionnelle ´equi-angulaire avec les corr´elations avec la r´eponse [58] [59].

De plus, la valeur du coefficient α doit ˆetre choisie de mani`ere `a obtenir un mod`ele qui correspond `a nos attentes. En effet si α est nul, on se retrouve `a nouveau dans un probl`eme classique de minimisation des moindres carr´es ; tous les param`etres seront gard´es, r´esultant en un probable sur-apprentissage. A mesure que α augmente, l’importance donn´ee `a la r´eduction de complexit´e du mod`ele va augmenter et de ce fait le nombre de param`etres gard´es dans le mod`ele va d´ecroˆıtre, au prix d’une augmentation du r´esidu, le but ´etant de trouver le point optimal.

Il existe des crit`eres permettant un choix automatique de la valeur de α, bas´es sur la comparaison entre la diminution du r´esidu et l’augmentation de la complexit´e lorsque le nombre de param`etres augmente, c’est `a dire quand α diminue. Les plus connus et fr´equemment utilis´es sont le crit`ere d’information d’Akaike (AIC) et le crit`ere d’information Bay´esien (BIC).

αAIC = − ln L(w) + K (5.10)

αBIC = − ln L(w) + K ln(N ) (5.11)

o`u L est la fonction de vraisemblance du r´esidu e. Dans ce travail on consid`ere que la r´epartition de l’erreur suit une loi Gaussienne N (0, σ2), on a alors :

L(w) = 1 (σ√2π)N × N Y n=1  exp(−(˜gn− Dn× w) 2 2σ2 )  (5.12)

soit la fonction de log-vraisemblance suivante :

− ln L(w) = N ln(σ√2π) + 1 2σ2 N X n=1 (˜gn− Dn× w)2 (5.13)

On sait que le crit`ere AIC tend `a s´electionner le mod`ele avec une performance de pr´ediction optimale, tandis que le crit`ere BIC tend `a identifier les descripteurs principaux permettant

de cr´eer un mod`ele dit parcimonieux ou creux (sparse model en anglais) [60]. Il existe un grand nombre d’autres crit`eres de s´election (vous pouvez trouver une liste tr`es compl`ete dans [61]). En fonction des circonstances, certains crit`eres sont plus consistants que les autres. Une proc´edure de s´election de mod`ele est dite consistante si la probabilit´e que le mod`ele trouv´e soit ´

egal au meilleur mod`ele (au sens des moindres carr´es) tend vers 1 lorsque le nombre de mesures N tend vers l’infini [61]. Dans la publication de Shao cit´ee, le commentaire de M.Zhang nous a encourag´e `a utiliser le crit`ere BIC (traduction) :

”D’apr`es les r´esultats de Shao, les crit`eres de type BIC marcheraient mieux si le vrai mod`ele a une structure simple (dimension finie) et les crit`eres de type AIC marcheraient mieux si le vrai mod`ele est compliqu´e (dimension infinie). Ces r´esultats sont math´ematiquement indiscutables. En pratique, cependant, on peut avoir une interpr´etation diff´erente. Un argument peut ˆetre ´emis en faveur des crit`eres de type BIC quelque soit le vrai mod`ele. Tout d’abord, il faut comprendre que les mod`eles statistiques sont principalement utilis´es dans des domaines o`u l’existence d’un vrai mod`ele est incertaine. Et mˆeme si un vrai mod`ele existe, il y a toujours de bonnes raisons de choisir un mod`ele simple plutˆot que exact, sachant bien que le mod`ele s´electionn´e peut ne pas ˆetre le vrai. L’avantage pratique des mod`eles parcimonieux surpasse g´en´eralement le besoin d’exactitude du mod`ele. [...] Les crit`eres de type BIC sont montr´es comme ´etant optimaux du point de vue de la th´eorie de l’information.”.

On peut ´egalement citer les m´ethodes de validation crois´ee (cross-validation) qui permettent d’estimer si le mod`ele trouv´e est instable par le d´ecoupage en plusieurs parties des mesures d’entr´ee. L’optimisation du mod`ele est r´ealis´ee sur un sous-ensemble des mesures d’entr´ee, puis le mod`ele trouv´e est test´e sur la partie des mesures qui n’a pas ´et´e utilis´ee pour l’ap- prentissage. Diff´erentes strat´egies de d´ecoupe et d’it´eration de la m´ethode peuvent ˆetre utilis´ees.

Il est important de noter que de l´eg`eres diff´erences dans les ´etapes d’analyse avant le mod`ele peuvent conduire `a des r´esultats significativement diff´erents de la part du mod`ele. On peut notamment noter :

— Le niveau d’ajustement (fit) de la spline.

— La strat´egie de positionnement des descripteurs.

— La normalisation des mesures par rapport `a leur nombre d’occurrence dans le lot. — Le type de m´ethode de r´egularisation du mod`ele et de d´etermination de α. — La liste d’entr´ee des descripteurs secondaires `a tester.