Apprentissage de la transformée temps-fréquence

3.4 Régularisation par famille génératrice

3.4.2 Apprentissage de la transformée temps-fréquence

Grâce aux éléments donnés ci-avant, le problème d’apprentissage d’une transformée TF devient celui d’une combinaison infinie de noyaux :

minimiser µ∈RP J (u0, kµ) tel que    1Tµ = 1 µ < 0 µSF, (3.13)

3.4. RÉGULARISATION PAR FAMILLE GÉNÉRATRICE 77 où u0 = (hθ, Nθ)θ∈P et k[µ] est un noyau multiple convexe ou multiplicatif. La contrainte µSF est nécessaire pour assurer qu’une solution à support fini existe pour l’apprentissage d’un noyau multiplicatif gaussien, mais est inutile pour un noyau convexe (la convexité du problème d’apprentissage permet en effet d’établir la finitude des solutions [Gehler et Nowozin, 2008b]).

Quand l’ensemble P est fini, ce problème peut être résolu grâce à des algorithmes MKL existants comme celui de[Szafranski et coll., 2010]dans le cas du noyau linéaire (problème d’optimisation convexe) et celui de[Varma et Babu, 2009]pour le noyau gaussien (problème d’optimisation non-convexe). Dans ce dernier cas, le problème étudié ici est légèrement différent de celui originellement introduit dans [Varma et Babu, 2009](et rappelé dans la section 1.4) puisque nous avons remplacé la régularisation de Tikhonov (terme additif dans la fonction objectif) par une régularisation d’Ivanov (contrainte explicite). Cette alternative est apparue naturellement de nos hypothèses de travail. Il existe toutefois deux raisons de préférer une régularisation explicite sur µ :

premièrement, il n’y a pas de coefficient de régularisation à déterminer (ce qui est difficile en pratique car nécessitant soit une étude théorique approfondie, soit des ressources de calcul importantes) ;

deuxièmement, puisque µ est ainsi assuré de rester sur la sphère unité de la norme `1, le paramètre de coût C conserve son rôle originel de compromis entre le terme d’attache aux données et la régularisation de f.

L’algorithme 2 résout le problème (3.13) pour un nombre fini de paramètres de filtres (i.e. Card(P) < ∞). La résolution du problème MKL est obtenue grâce à une technique de point fixe pour le noyau linéaire (proposition 3.4.1)[Szafranski et coll., 2010]. Dans le cas du noyau gaussien (proposition 3.4.2), nous avons implémenté un algorithme de descente de gradient réduit[Luenberger, 1984], muni d’une recherche en ligne par retour sur trace.

Données: ensemble de signaux d’apprentissage {(si, yi)}1≤i≤n.

1 retourner BdF u et classifieur f .

2 u0← (hθ, Nθ)θ∈P{banc de filtres normalisés};

3 (µ, f )← résolution du problème MKL avec (u0, (kθ)θ∈P);

4 A ← {θ ∈ A, µθ > 0} ;

5 u← √µ_θhθ, Nθ

θ∈A;

Algorithme 2 :Algorithme B d’apprentissage de BdF pour un nombre fini de paramètres

de filtres.

Toutefois, en pratique P est infini du fait de la nature continue des paramètres θ des RI. Ainsi, l’une de nos contributions principales est l’algorithme 3 (nommé Filter-MKL et dé- taillé dans la section suivante), permettant de résoudre le problème d’apprentissage (3.13) d’une transformée TF.

En réalité, un algorithme semblable existe quand le noyau k est linéaire et se nomme apprentissage de noyaux infinis (Infinite Kernel Learning, IKL)[Gehler et Nowozin, 2008a]. IKL est un problème d’apprentissage introduit et résolu par Gehler et Nowozin[Gehler et No- wozin, 2008a] dans le but d’étendre le principe d’une combinaison convexe de noyaux à une infinité de noyaux générateurs, dont le vecteur de poids µ est à support fini. En invo- quant la dualité forte du problème d’optimisation (il est convexe), celui-ci est réduit à un programme linéaire semi-infini (Semi-Infinite Linear Program, SILP). Les auteurs démontrent qu’une solution existe bien et résolvent le problème dual par un algorithme de génération de contraintes.

L’algorithme que nous proposons ici étend l’état de l’art en apprentissage automatique en étant le seul à gérer un produit infini de noyaux gaussiens et a fortiori l’unique à four-

Données: ensemble de signaux d’apprentissage {(si, yi)}1≤i≤n.

1 retourner BdF u et classifieur f .

2 A ← grille linéaire de paramètres des RI ; 3 µ¯ ← _Card(A)1 1 { poids initiaux } ;

4 tant que équilibre non-atteint faire

5 u← (hθ, Nθ)θ∈A{banc de filtres normalisés};

6 (µ, f )← résolution du problème MKL avec (u, (kθ)θ∈A), initialisé avec ¯µ;

7 A ← {θ ∈ A, µ_θ > 0} ;

8 Θ← échantillon aléatoire de P ; 9 θˆ← arg max

θ∈Θ

V (θ);

10 si V ( ˆθ) >P_θ∈AµθV (θ) alors {condition d’optimalité violée}

11 A ← A ∪ {ˆθ} ;

12 µ¯ ← [µA; 0];

13 sinon

14 équilibre atteint ;

15 u← √µθhθ, Nθ_θ∈A;

Algorithme 3 :Algorithme B d’apprentissage de BdF pour une famille continûment para-

métrée de filtres (Filter-MKL).

nir une solution au problème d’apprentissage de BdF discriminant (3.13) quand k est le noyau gaussien. Concrètement, notre algorithme est une extension de celui proposé dans

[Varma et Babu, 2009]permettant de gérer une famille continûment paramétrée de noyaux (kθ)θ∈P. Notre algorithme s’applique aussi au problème d’apprentissage d’un BdF discriminant (3.13) quand le noyau est linéaire (les différences avec IKL sont discutées en section 3.4.6).

L’approche que nous avançons ici s’attaque au problème d’optimisation dans sa forme pri- male (étant donnée la non-convexité). Elle est fondée sur le principe d’ensemble actif[No- cedal et Wright, 2000]et est inspirée de [Yger et Rakotomamonjy, 2011]. Pour les besoins de la description de ce principe, nous supposons qu’un oracle nous a fourni l’ensemble fini P∗_{des paramètres solutions du problème (3.13). Commençons alors avec un candidat A (A} est un sous-ensemble fini de paramètres de P), supposé coïncider avec l’ensemble solution P∗_{et résolvons le problème à noyau multiple associé à (µ}

θ)θ∈A(ligne 6 de l’algorithme 3). À l’instar de l’algorithme 2, pour un noyau linéaire, nous utilisons le logiciel MKL de[Sza- franski et coll., 2010]tandis que pour le noyau gaussien, la stratégie d’optimisation utilisée est une descente de gradient réduit [Luenberger, 1984]accompagnée d’une recherche en ligne par retour sur trace. Cette étape peut être vue comme une descente par bloc de coor- données en considérant que µθest figé pour θ dans P\A. Il en résulte un ensemble actif A∗ de paramètres dont les poids µθ sont non-nuls et son ensemble complémentaire non-actif A\A∗ _{pour lequel les poids µ}

θ sont nuls (effet de la contrainte de parcimonie 1Tµ = 1). Si A inclut P∗, alors les conditions d’équilibre du problème sont vérifiées pour tout paramètre θde P. Par contraposition, si les conditions d’équilibre ne sont pas vérifiées pour un certain θde P, alors A n’inclut pas P∗et en particulier, le violateur θ est absent de l’ensemble candidat A. En conséquence, nous mettons à jour l’ensemble A grâce à la règle A ← A∗

∪ {θ} et résolvons une nouvelle fois le problème à noyau multiple associé. En alternant ces deux étapes (MKL et ajout d’un violateur), notre algorithme réalise une descente sur un nombre infini de paramètres.

Dans la prochaine section, nous détaillons la condition d’équilibre qui apparaît à la ligne 10 de l’algorithme 3, et qui permet à la fois de faire évoluer l’ensemble A vers une solution et

3.4. RÉGULARISATION PAR FAMILLE GÉNÉRATRICE 79 de déterminer l’arrêt de la descente.

Dans le document Outils d'apprentissage automatique pour la reconnaissance de signaux temporels (Page 99-102)