• Aucun résultat trouvé

Nouvelle méthode de classication parcimonieuse : Forward AdaCOS

avec γ un paramètre permettant d'accroitre ou de réduire l'impact des coûts αj sur la régression. On

écrit W la matrice diagonale de taille p × p où W jj est égale à wj. Ainsi, l'équation 6.10 s'écrit en

notation matricielle : ˆ

BAdaCOS = argmin

B

(y − XB)T(y − XB) + λBTWB, (6.12)

avec λ le paramètre de pénalisation. De la même manière que la méthode Ridge, l'équation 6.12 est linéaire et peut donc être dérivée :

d(y − XB)T(y − XB) + λBTWB

dB = −2X

T(y − XB) + λ(W + WT)B. (6.13)

W est une matrice diagonale donc W + WT = 2W et la solution analytique de l'équation 6.12 est donnée en annulant la dérivée première :

Eq. 6.13= 0 ⇔ BˆAdaCOS = (XTX + λW)−1XTy. (6.14) On remarque que la solution analytique de la méthode AdaCOS est très proche de celle de la méthode Ridge. Il s'agit donc d'une généralisation de la méthode OLS ainsi que de la méthode Ridge. En eet, si W = 0 on obtient ˆBAdaCOS = ˆBOLS et si W = I alors ˆBAdaCOS = ˆBRidge.

Le nouveau paramètre introduit dans l'équation 6.11, γ, contrôle la diérence relative entre les diérents coûts de chaque descripteur. Lorsque γ > 1, les diérences sont accrues et pour γ < 1, les diérences sont réduites. Enn, lorsque γ = 0, la fonction de coût n'a plus d'impact et on a exactement la même formulation que la méthode Ridge. Ce paramètre contrôle, d'une manière continue, l'importance de la fonction de coût dans la régression.

La gure6.2présente quatre chemins de régularisation de la méthode AdaCOS pour quatre valeurs diérentes de γ. Pour visualiser l'impact de cette fonction de coût dans la régression, seule la variable ayant la plus haute corrélation avec les y est pénalisée : BMI. Ce cas est hypothétique mais instructif puisque l'on remarque que l'inuence de cette variable diminue lorsque γ augmente. Néanmoins, de la même manière que la régression Ridge, cette méthode n'est pas parcimonieuse et ne permet pas de réduire la fonction de coût globale, tous les descripteurs étant utilisés dans le modèle nal. Aussi, on propose dans la section suivante de produire des modèles parcimonieux en utilisant un modèle AdaCOS.

6.3 Nouvelle méthode de classication parcimonieuse : Forward Ada-

COS

Dans la littérature, une des méthodes communément utilisées pour créer un modèle parcimonieux et faire de la sélection de variables consiste à utiliser des méthodes gloutonnes.

La méthode Forward Stepwise débute avec un modèle vide. À partir de tous les descripteurs, celui qui aura la plus grande corrélation avec la sortie y en valeur absolue, sera sélectionné (on note xj

ce descripteur). On calcule alors une régression linéaire produisant un vecteur résiduel, orthogonal à xj, qui est considéré comme notre nouvelle réponse. Ce processus est répété jusqu'à ce que tous les

descripteurs soient insérés dans le modèle. La méthode forward stepwise réalise le meilleur mouvement à chaque itération et il est qualié, pour cela, d'ajustement agressif.

0.0 0.2 0.4 0.6 0.8 1.0 −500 0 500 sum|B| /sum|B^OLS| Coefficients AGE SEX BMI BP S1 S2 S3 S4 S5 S6

(a) Chemin de régularisation de la régression AdaCOS avec γ = 0 0.0 0.2 0.4 0.6 0.8 1.0 −500 0 500 sum|B| /sum|B^OLS| Coefficients AGE SEX BMI BP S1 S2 S3 S4 S5 S6

(b) Chemin de régularisation de la régression AdaCOS avec γ = 2 0.0 0.2 0.4 0.6 0.8 1.0 −500 0 500 sum|B| /sum|B^OLS| Coefficients AGE SEX BMI BP S1 S2 S3 S4 S5 S6

(c) Chemin de régularisation de la régression AdaCOS avec γ = 4 0.0 0.2 0.4 0.6 0.8 1.0 −500 0 500 sum|B| /sum|B^OLS| Coefficients AGE SEX BMI BP S1 S2 S3 S4 S5 S6

(d) Chemin de régularisation de la régression AdaCOS avec γ = 6

Figure 6.2  Chemins de régularisation de la méthode AdaCOS sur l'étude Diabète avec 4 valeurs de γ diérentes : γ = {0,2,4,6}. Pour visualiser le fonctionnement de cette méthode, seule la variable BMI est pénalisée : α = {0,0,1,0,0,0,0,0,0,0}.

6.3 Classication parcimonieuse : Forward AdaCOS

La régression forward stagewise agit avec plus de précautions. Au lieu de réaliser le meilleur mou- vement à chaque itération, on ajoute au descripteur sélectionné une petite valeur. Une même variable peut donc être sélectionnée plusieurs fois consécutivement et cette procédure nécessite des centaines d'itérations avant de pouvoir construire le chemin de régularisation complet. Cette méthode est une approximation de la régression LASSO [87] et surpasse la régression Forward Stepwise.

Ainsi, nous considérons une version modiée de la régression Forward Stagewise que nous appelons Forward AdaCOS. L'algorithme 12 résume le processus entier : le modèle est vide (ligne 1), et nous ajustons un modèle AdaCOS à chaque descripteur individuellement (lignes 4 et 5). Nous retenons le descripteur qui a la plus grande corrélation avec r en prenant en compte la fonction de coût de chaque descripteur. Les lignes 2 à 7 sont répétées tant que les corrélations avec r ne sont pas nulles. En pratique, les corrélations ne seront jamais strictement nulles, le pas step ayant une valeur xe. Le processus s'arrête donc lorsque les coecients de la régression sont égaux, à step près, à ceux de la régression linéaire non pénalisée. On note que si γ est égal à 0, alors le chemin de régularisation construit est identique à celui de la régression Forward Stagewise. Par conséquent, Forward AdaCOS généralise la méthode Forward Stagewise.

La gure 6.3 propose quatre chemins de régularisation pour des modèles Forward AdaCOS pour quatre valeurs diérentes de γ. Pour γ = 0, on montre que l'on obtient le même résultat que la méthode Forward stagewise. Cependant, lorsque γ augmente, l'entrée dans le modèle de la variable BMI (la seule variable pénalisée) est retardée. Même si ce descripteur est le plus corrélé avec y, la fonction de coût réduit son impact d'une manière continue, grâce au paramètre γ.

Algorithme 12: ˆBF AdaCOS ←ForwardAdaCOS(X, y, step, α) Input : X : matrice N × p, descripteurs

y : vecteur de taille N, vérité terrain

α : vecteur de taille p, pénalisation de chaque descripteur step: pas d'incrémentation

Result : ˆBF AdaCOS

/* Initialisation */

1 BˆF AdaCOS ← 0

/* Construction du chemin de régularisation */

2 while BF AdaCOS 6= BOLS [step]do 3 r ← (y − X ˆBFAdaCOS)

4 for j = 1 to p do

5 Bj ← AdaCOS(r ∼ xj, α)

/* ∼ syntaxe du langage R (http://www.r-project.org/) qui signifie que

l'on explique r par la variable explicative xj */

6 j = argmaxj∈1,p|Bj|

7 BˆjF AdaCOS ← ˆBjF AdaCOS+ sign(Bj) × step

Le choix de la taille de la variable step est très simple puisque plus step est faible et plus le chemin de régularisation est précis. Cependant, le choix nal de ce paramètre doit être un compromis entre la précision et les temps pour le calcul de ce modèle. On pourra déterminer automatiquement la valeur

0.0 0.2 0.4 0.6 0.8 1.0 −500 0 500 sum|B| /sum|B^OLS| Coefficients AGE SEX BMI BP S1 S2 S3 S4 S5 S6

(a) Chemin de régularisation de la régression Forward AdaCOS avec γ = 0 0.0 0.2 0.4 0.6 0.8 1.0 −500 0 500 sum|B| /sum|B^OLS| Coefficients AGE SEX BMI BP S1 S2 S3 S4 S5 S6

(b) Chemin de régularisation de la régression Forward AdaCOS avec γ = 1 0.0 0.2 0.4 0.6 0.8 1.0 −500 0 500 sum|B| /sum|B^OLS| Coefficients AGE SEX BMI BP S1 S2 S3 S4 S5 S6

(c) Chemin de régularisation de la régression Forward AdaCOS avec γ = 2 0.0 0.2 0.4 0.6 0.8 1.0 −500 0 500 sum|B| /sum|B^OLS| Coefficients AGE SEX BMI BP S1 S2 S3 S4 S5 S6

(d) Chemin de régularisation de la régression Forward AdaCOS avec γ = 6

Figure 6.3  Chemins de régularisation de la méthode Forward AdaCOS sur l'étude Diabète avec 4 valeurs de γ diérentes : γ = {0,1,2,6}. Pour visualiser le fonctionnement de cette méthode, seule la variable BMI est pénalisée : α = {0,0,1,0,0,0,0,0,0,0}.

6.4 Considérations pratiques et généralisation