• Aucun résultat trouvé

3.4 Régularisation par famille génératrice

3.4.4 Détails d’implémentation

Dans cette section, nous discutons de deux points précis concernant l’algorithme proposé. Le premier est la manière concrète de vérifier les conditions d’optimalité (en particulier comment trouver un paramètre violateur θ). Le second concerne la convergence de l’algo- rithme et la normalisation des noyaux.

Génération de colonne

Les principales difficultés dans la prise en compte de la nature continue du paramètre θ des RI sont :

 trouver un élément θ de P violant les conditions d’équilibre : ceci peut être réalisé par tirages aléatoires[Rakotomamonjy et coll., 2013];

 résoudre le problème variationnel :

maximiser

afin d’arrêter le processus. En effet, si un maximiseur ˆθvérifie V (ˆθ)P

θ∈P µθ>0

µθV (θ), alors aucun paramètre violateur θ n’existe et le système est donc à l’équilibre.

En pratique, ce problème est difficile à résoudre (il est non-convexe). En conséquence et conformément à [Rakotomamonjy et coll., 2013], notre algorithme est construit sur l’heu- ristique suivante : si aucun paramètre d’un échantillon aléatoire à une itération donnée ne viole les conditions d’équilibre, alors ceci est vrai pour tout paramètre de P.

Dans [Gehler et Nowozin, 2008a], ce sous-problème est résolu grâce à une méthode de Newton initialisée avec différents points. Ce type d’approche est particulièrement gour- mand en temps de calcul, d’autant plus si le processus de descente de gradient est répété pour plusieurs initialisations. Au contraire, notre approche par tirage aléatoire est peu coû- teuse puisqu’elle nécessite uniquement le calcul de la matrice noyau et l’évaluation du cri- tère V (θ). De plus, puisque notre approche ne calcule aucun gradient, il est aisé d’utiliser des opérateurs non-différentiables par rapport à θ (comme par exemple l’agrégation par maximum).

À l’instar de[Gehler et Nowozin, 2008a], dans lequel un algorithme de gradient est initialisé avec les paramètres violateurs de l’itération précédente, notre technique par tirage aléatoire peut être dirigée par une distribution de probabilité inférée grâce à la connaissance issue de l’itération précédente. En effet, supposons qu’à la première itération, les noyaux géné- rateurs sont calculés à partir d’une grille régulière de paramètres de P. Alors la solution de l’apprentissage du noyau multiple associé donne une idée grossière de la puissance de discrimination sur l’ensemble de paramètres P. Ainsi, chaque nouvelle itération a princi- palement pour but d’affiner la solution obtenue à l’itération précédente, plutôt que d’en découvrir de nouvelles.

Une estimation de cette distribution de probabilité est directement liée à la fonction θ ∈ P 7→ max  0, V (θ)−P θ∈P µθ>0 µθV (θ) 

. Une option envisageable afin de diriger l’échan- tillonnage aléatoire est alors d’appliquer une technique de régression à la fonction précé- dente et d’utiliser le résultat au sein d’un algorithme d’échantillonnage de type Metropolis- Hastings. En pratique, plusieurs milliers de réalisations sont nécessaires pour approcher la distribution estimée grâce à un algorithme de Metropolis-Hastings (voir figure 3.7 page ci-contre), tandis que seulement quelques centaines suffisent à chaque itération de notre al- gorithme. En conséquence, notre algorithme tire des paramètres aléatoirement suivant une loi uniforme sur P et selon une seconde loi uniforme sur une petite boîte centrée sur le paramètre violateur de l’itération précédente.

Considérations calculatoires

Étant donnée la non-convexité de notre problème d’apprentissage, nous ne cherchons pas à atteindre un minimum global. Théoriquement, notre algorithme peut même s’arrêter sur un maximum local bien qu’en pratique ceci soit peu probable puisque c’est un équilibre instable. En revanche, nous sommes assurés que la valeur de la fonction objectif décroît strictement à chaque itération.

Proposition 3.4.5.

À chaque itération de l’algorithme 3, la valeur de la fonction objectif du problème d’optimisation (3.13) décroît strictement.

Démonstration. À une itération j quelconque, on appelle ¯µ(j) le vecteur d’initialisation et µ(j) une solution du problème MKL (ligne 6 de l’algorithme 3). Selon l’algorithme, on a alors : ∀θ ∈ A: ¯µ(j+1)θ = µ

(j)

θ si θ vérifie les conditions d’optimalité de l’itération j et ¯µ (j+1) θ = 0 sinon. Ainsi, ˜J ¯µ(j+1) = ˜J µ(j)

3.4. RÉGULARISATION PAR FAMILLE GÉNÉRATRICE 83 0.00 0.50 1.00 1.50 2.00 0.00 2.00 0.20 0.40 0.60 0.80 1.00 1.20 1.40 1.60 1.80

(a) 500 points échantillonnés.

0.00 0.50 1.00 1.50 2.00 0.00 2.00 0.20 0.40 0.60 0.80 1.00 1.20 1.40 1.60 1.80 (b) 5000 points échantillonnés. 0.00 0.50 1.00 1.50 2.00 0.00 2.00 0.20 0.40 0.60 0.80 1.00 1.20 1.40 1.60 1.80 (c) 50 000 points échantillonnés.

FIGURE 3.7 – Exemple d’échantillonnage par l’algorithme de Metropolis-Hastings. La

courbe bleu représente la densité de probabilité réelle et la courbe verte est un histogramme des points échantillonnés.

de celles de µ(j)sont nulles. De plus, puisque ¯µ(j+1)a été spécifiquement construit pour ne pas être à l’équilibre de (3.13) tout en étant admissible, alors la résolution du sous-problème MKL fait strictement décroître la valeur de la fonction objectif : ˜J µ(j+1) < ˜J ¯µ(j+1)

. D’où ˜J µ(j+1) < ˜J µ(j)

. 

En effet, à chaque étape, un nouveau noyau multiple est construit sur le précédent en ajou- tant un noyau de poids nul. Ce nouveau noyau multiple n’est pas un point critique puisque le noyau ajouté viole les conditions d’équilibre. De plus, la valeur de la fonction objectif est identique à celle à la fin de l’itération précédente puisque les deux noyaux multiples ne diffèrent que d’un noyau générateur muni d’un poids nul. Ainsi, on initialise un nouveau problème MKL avec un point non-critique et on est assuré que la résolution de celui-ci fera strictement décroître la valeur de la fonction objectif.

Apprendre un noyau multiple suppose de comparer entre elles les pouvoirs discriminants de chaque noyau. Pour cette raison, les noyaux doivent être d’amplitudes semblables, sans quoi un noyau peut obtenir un rôle prépondérant uniquement dû à son amplitude mais sans être discriminant. C’est l’un des écueils de la minimisation de la fonction objectif SVM et il est nécessaire d’y faire attention. Dans le but de prévenir cet effet néfaste pouvant conduire au sur-apprentissage, les noyaux sont normalisés suivant cette règle :

 si c’est un noyau linéaire, il est divisé par sa trace ;

 si c’est un noyau gaussien, la matrice de distance associée est divisée par sa norme de Frobenius.

Dans les deux cas, la normalisation est répercutée sur les poids µ appris lors de la création du BdF discriminant final.