Apprentissage de noyau multiple genéralisé

1.3 Machine à vecteurs supports

1.4.4 Apprentissage de noyau multiple genéralisé

Les combinaisons coniques ont été le centre d’une grande attention car la non-convexité des problèmes d’apprentissage de noyaux en général peut être levée, tout en laissant subsister des difficultés telles que la non-différentiabilité[Bach et coll., 2004]et la complexité calcula- toire[Sonnenburg et coll., 2006a,Sonnenburg et coll., 2006a]. Néanmoins, il est intéressant de remarquer deux grandes généralisations de ces travaux : l’apprentissage de combinaisons non-linéaires et la considération d’une infinité de noyaux générateurs.

Noyaux non-linéaires

Les fondements de l’apprentissage de noyaux multiples multiplicatifs trouvent racines dans

[Weston et coll., 2001,Grandvalet et Canu, 2003]. Dans ces travaux, les auteurs ne présentent pas directement d’applications à l’apprentissage d’un produit de noyaux mais le cadre mis en place le permet de manière évidente si l’on considère un noyau gaussien. Le sujet fonda- mental dont il est question dans ces deux études est la sélection de variables descriptives. Concrètement, tout vecteur caractéristique est redécrit par l’application x 7→ Diag(√µ)x, où √· correspond à la racine carrée composante à composante et µ est un vecteur de pon- dération de l’orthant positif à apprendre, sélectionnant une coordonnée θ si µθ = 1et l’an- nihilant si µθ = 0. Puisque considérer un vecteur à variables entières nécessite de parcourir toutes les solutions, il est proposé dans[Weston et coll., 2001]de considérer un vecteur µ réel vivant dans l’orthant positif et affublé de la contrainte P_θ∈Aµp_θ = δ(p = 1 dans [Weston

et coll., 2001] et p = 2 dans[Grandvalet et Canu, 2003]), où δ renseigne sur la quantité de variables à sélectionner. Considérer un noyau gaussien de concert avec l’application de re- description précédemment citée est ainsi équivalent à apprendre les exposants d’un noyau multiple multiplicatif construit à partir de noyaux gaussiens possédant chacun son propre rayon et associé à une coordonnée particulière.

Les différences principales entre l’approche de[Weston et coll., 2001]et celle de[Grandvalet et Canu, 2003] résident d’une part dans la fonction de perte utilisée dans le modèle SVM (quadratique pour[Weston et coll., 2001]et charnière pour[Grandvalet et Canu, 2003]) ainsi que dans le critère à minimiser (borne rayon marge vs risque régularisé). La formulation de

[Weston et coll., 2001]conduit naturellement à utiliser une technique de descente de gradient (apprentissage en un temps séquentiel) tandis que[Grandvalet et Canu, 2003]met au point une descente alternée comprenant la minimisation d’une approximation du coût SVM pour la mise à jour de µ (apprentissage en deux temps).

Les travaux présentés dans[Weston et coll., 2001]ont été étendus par Chapelle et coll. avec pour but premier d’apprendre les rayons d’un noyau gaussien ou polynomial anisotrope (et non de sélectionner des variables discriminantes). Ces derniers suppriment la contrainte P

θ∈Aµ p

θ = δ (introduite pour favoriser la sélection de peu de variables) et comparent de nombreux critères à minimiser parmi lesquels les erreurs de validation simple et multiple, ainsi que la borne rayon-marge [Chapelle et coll., 2002]. À l’instar des précédentes, cette approche est apparentée au paradigme MKL avec un noyau multiple multiplicatif lors-

qu’utilisée avec un noyau gaussien.

L’apprentissage d’un noyau multiple multiplicatif a été clairement étudié comme tel dans

[Varma et Babu, 2009]. Les auteurs de[Varma et Babu, 2009]étendent les travaux de[Rakoto- mamonjy et coll., 2008]au produit de noyaux (plus particulièrement de noyaux gaussiens). Le problème de minimisation mis en place est

minimiser

µ Jprod(µ) + ρ(µ)

tel que µ < 0, (1.4)

où Jprod(µ) = JRR Qθ∈Ak µθ

et ρ est une fonction de régularisation dérivable (plus parti- culièrement linéaire ou quadratique). Malgré la non-convexité du problème (1.4), les auteurs ont choisi de conserver l’approche par encapsulation introduite dans [Rakotoma- monjy et coll., 2008]pour la résolution du problème MKL sous la forme (1.3). Les différences entre les formulations (1.3) et (1.4) sont d’une part le type de noyau multiple (convexe vs multiplicatif) et d’autre part la régularisation ρ dans (1.4) (a priori quelconque tant que dé- rivable) qui apparaît comme contrainte en norme `1 dans (1.3). Par la suite, l’algorithme de descente de gradient initialement utilisé dans [Varma et Babu, 2009]pour résoudre lo- calement (1.4) a été accéléré par une méthode de gradient projeté spectral avec différentes heuristiques contribuant elles aussi à l’accélération[Jain et coll., 2012].

Plus récemment, l’apprentissage d’une combinaison polynomiale de noyaux a été étudié

[Cortes et coll., 2009, Bach, 2009]. Dans l’apprentissage de noyau hiérarchique[Bach, 2009], on possède un nombre exponentiel de noyaux, organisés au sein d’un graphe direct et acy- clique. En exploitant cette structure de graphe combinée à une pénalisation parcimonieuse hiérarchique[Szafranski et coll., 2008], les auteurs proposent un algorithme capable de ré- soudre un tel problème d’apprentissage avec une complexité temporelle polynomiale. Il est intéressant de remarquer que l’apprentissage de noyau prend généralement la forme d’un problème de minimisation d’un risque empirique régularisé (risque régularisé, alignement de noyau, probabilité a posteriori, etc.). Forts de ce constat, Ong et coll. introduisent la notion d’hyper-RKHS, définit comme un RKHS pour lequel les fonctionnelles sont des noyaux (i.e. un RKHS de noyaux)[Ong et coll., 2003,Ong et coll., 2005,Tsang et Kwok, 2006]. Enfin une dernière généralisation réside dans la notion de noyau multiple localisé [Gö- nen et Alpaydin, 2008]. Dans ces travaux, les auteurs reprennent le principe d’alternance de[Rakotomamonjy et coll., 2008]en remplaçant le vecteur µ par une pondération dépen- dante des données µθ: X → R. Le noyau multiple devient alors k[µ]: (x, z) ∈ X × X 7→ P

θ∈Aµθ(x)µθ(z)kθ(x, z).

Noyaux infinis

La combinaison convexe de noyaux a très tôt attiré l’attention[Lanckriet et coll., 2002, Lan- ckriet et coll., 2004, Bach et coll., 2004], et ce pour différentes raisons :

les critères majoritairement utilisés tels que l’alignement de noyaux et le risque régula- risé conduisent à la mise en place de problèmes convexes par rapport au noyau global

[Lanckriet et coll., 2002,Micchelli et Pontil, 2005]. Dans ce cas, toute non-convexité pro- vient de la paramétrisation du noyau. Une paramétrisation linéaire permet de conserver la convexité du problème ;

imposer que le vecteur µ appartienne à une boule unité permet d’éviter le sur- apprentissage dû au problème de normalisation[Gai et coll., 2010];

une telle combinaison est empiriquement efficace.

Il est donc d’intérêt de proposer des extensions du concept MKL dans cette direction, béné- ficiant des propriétés avantageuses que l’on vient d’énumérer.

1.4. SÉLECTION DE MODÈLE 25

FIGURE1.3 – Schématisation des enveloppes convexes issues de cinq noyaux (kθ1, . . . , kθ5)

(∀i ∈ N5: θi ∈ P), en rouge, et de la famille complète et infinie (kθ)θ∈P, en bleu.

D’un point de vue ensembliste, considérer une combinaison convexe de noyaux généra- teurs (kθ)_θ∈A est identique à chercher un noyau à l’intérieur de l’enveloppe convexe de l’ensemble de noyaux {kθ}θ∈A. Micchelli et Pontil étendent donc naturellement cette notion à l’enveloppe convexe d’un ensemble infini (et non-nécessairement dénombrable) de noyaux paramétrés par un vecteur θ d’un espace compact P (illustration 1.3)[Micchelli et Pontil, 2005]. La combinaison de noyaux peut s’exprimer k[µ] =

Pµθkθdθ,où µ est une mesure de probabilité sur P. Par abus d’écriture, on considère la fonction µ comme un vecteur de dimension infinie µ de RP

+et on écrit : k[µ]=

X θ∈P

µθkθ, 1Tµ = 1.

Il est alors démontré, dans le cas d’un problème convexe, que tout noyau solution est une combinaison convexe d’au plus n + 2 noyaux issus de (kθ)θ∈P(où n est le nombre de points d’entrée)[Micchelli et Pontil, 2005, théo. 7]. Une approche concrète de ce concept est pro- posée dans[Argyriou et coll., 2005, Argyriou et coll., 2006]. Dans[Argyriou et coll., 2005], les auteurs s’intéressent à la famille des noyaux gaussiens paramétrés par un scalaire. Ces travaux sont ensuite étendus dans[Argyriou et coll., 2006] aux noyaux exprimés comme une différence de fonctions convexes (et particulièrement un noyau gaussien anisotrope para- métré par une matrice de covariance). Les auteurs mettent au point un algorithme glouton (un temps) qui alterne résolution SVM à noyau multiple fixé, ajout d’un nouveau noyau et mise à jour des poids. La deuxième étape est résolue par un algorithme de plans sécants suggéré par la théorie de l’optimisation de différence de fonctions convexes.

Indépendamment de ces travaux, Gehler et coll. développent une méthode semblable en re- prenant la formulation convexe de[Rakotomamonjy et coll., 2008]et en donnant la possibi- lité à l’ensemble fini de noyaux (kθ)θ∈Ad’être automatiquement extrait de (kθ)θ∈P [Gehler

et Nowozin, 2008a]. Le problème d’optimisation d’intérêt est alors exprimé dans le domaine dual par : maximiser α, λ Pn i=1αi− λ tel que    0_{≤ α}i 4 C, ∀i ∈ Nn Pn i=1yiαi= 0 P 1≤i,j≤nαiαjyiyjkθ(xi, xj)≤ λ, ∀θ ∈ P. (1.5)

On reconnaît dans (1.5) d’une part un SILP (la différence avec la formulation de[Sonnen- burg et coll., 2006a]réside dans la contrainte infinie qui porte sur le vecteur α pour ce der- nier et sur le vecteur des paramètres θ dans (1.5)) et d’autre part le dual du problème MKL exposé dans [Rakotomamonjy et coll., 2008] si l’on remplace P par l’ensemble fini A. Ceci justifie la mise en place d’un algorithme de génération de colonne (en deux temps) qui alterne la résolution d’un problème MKL (en remplaçant P par une ensemble A fini et fixé) et

la mise à jour de l’ensemble de noyaux actifs A (suppression des noyaux à pondération µθ nulle et ajout d’un nouveau noyau violant les conditions courantes d’optimalité). Une autre approche similaire d’apprentissage de noyau infini, fondée sur les travaux de[Sonnenburg et coll., 2006b], est présentée dans[Özö˘gür Akyüz et Weber, 2008, Özö˘gür Akyüz et Weber, 2010a]. Des algorithmes de résolution sont alors proposés dans[Özö˘gür Akyüz et Weber, 2010b].

Dans le document Outils d'apprentissage automatique pour la reconnaissance de signaux temporels (Page 46-49)