Relation avec l’état de l’art - Régularisation par famille génératrice

3.4 Régularisation par famille génératrice

3.4.6 Relation avec l’état de l’art

Réseaux de neurones convolutifs

Considérer un BdF pour modéliser une représentation TF discriminante nous mène à un problème déjà abordé : les réseaux de neurones convolutifs (Convolutional Neural Network,

3.4. RÉGULARISATION PAR FAMILLE GÉNÉRATRICE 85 CNN)[LeCun et coll., 1998]. Les CNN constituent l’état de l’art dans diverses applications de reconnaissance de formes, comme par exemple celle consistant à reconnaître des caractères manuscrits. L’efficace machine des CNN est construite à partir d’un ou plusieurs étages de BdF. Ceux-ci filtrent les signaux et réduisent leur dimension. Dans un CNN, chaque BdF contient une non-linéarité grâce à une fonction d’activation. Conjointement à leur création, les descripteurs sont utilisés pour apprendre un perceptron multi-couche (Multi-Layer Per- ceptron, MLP), qui est un classifieur non linéaire.

Comparée à un CNN, l’approche présentée ici apporte un nouveau regard sur le pro- blème d’apprentissage d’un BdF discriminant. Une première différence est la nature des non-linéarités dans l’extraction des caractéristiques. Dans un CNN, on trouve une fonction sigmoïde à la sortie de chaque neurone, qu’il soit de convolution ou de décimation. En revanche, les BdF que nous construisons sont des applications linéaires. La non-linéarité ré- side uniquement dans la fonction d’agrégation. Dans ce contexte, une cascade de BdF peut être récrite comme un BdF à un seul étage ; c’est dans cette situation que nous nous plaçons. Une deuxième différence, constituant en réalité le point fort de notre approche, est de construire un BdF à partir d’une méthode à noyaux, fournissant des classifieurs non- linéaires appris par optimisation convexe. Notons que notre problème d’apprentissage (3.1) pouvait être formulé différemment, par exemple grâce à la borne rayon-marge [Chapelle et coll., 2002]ou à l’alignement de noyaux [Cortes et coll., 2012], mais la façon dont nous avons formalisé le problème semble plus naturelle et plus efficace que les critères non- convexes décrit dans la section 1.4. Au contraire, le MLP présent dans un CNN est appris grâce à une descente de gradient sur un critère non-convexe. Les conséquences sont notables puisqu’il est souvent nécessaire de réaliser plusieurs apprentissages initialisés dif- féremment (aléatoirement) afin d’obtenir un résultat satisfaisant. Comme nous l’avons ex- pliqué au cours des précédentes sections, le schéma d’optimisation que nous proposons gère en partie sa non-convexité intrinsèque grâce à une étape interne de tirages aléatoires, ce qui le rend plus stable que d’initialiser aléatoirement diverses descentes de gradient. En outre, notre approche se présente comme une réponse au principal défaut des CNN, qu’est le risque de sur-apprendre l’ensemble d’apprentissage, résultant en une incapacité à classer correctement des signaux inédits. Ce phénomène apparaît en premier lieu pour de petits ensembles d’apprentissage. Il est souvent observé pour des CNN (par exemple sur les données synthétiques étudiées en section 3.5.2) alors que notre méthode est supposée ne pas être sujette à cet écueil puisque construite sur une SVM. En effet, une SVM cherche à maximiser la marge entre les deux classes, ce que ne fait pas un MLP. De plus, le sur- apprentissage chez les CNN peut intervenir du fait de la forte complexité du modèle (il y a beaucoup de paramètres). Au contraire, puisque nos filtres sont contrôlés par peu de paramètres, notre méthode est en quelque sorte régularisée par la famille de filtres choisie et tend ainsi à prévenir le sur-apprentissage.

Enfin, la méthode que nous proposons est accompagnée de plusieurs autres avantages. Par exemple, puisque les gradients sont calculés par rapport aux poids de chaque filtre, il n’est pas nécessaire d’utiliser des opérateurs dérivables. En particulier, les fonctions d’agrégation comme celles calculant des maxima locaux peuvent être utilisées sans soucis. En outre, la méthode proposée est relativement bien automatisée et ne requiert pas une grande expé- rience pour être paramétrée, à la différence des CNN. Il n’est, par exemple, pas nécessaire de pré-définir le nombre de filtres (comme dans un CNN) car celui-ci est déterminé auto- matiquement au cours de l’apprentissage.

Apprentissage de noyaux infinis et d’ondelettes

IKL [Gehler et Nowozin, 2008a] et l’apprentissage de noyaux d’ondelettes (Wavelet Ker- nel Learning, WKL) [Yger et Rakotomamonjy, 2011] sont deux problèmes distincts. Alors

que le premier a pour but d’apprendre (par programmation linéaire semi-infinie) un noyau multiple sous la forme d’une combinaison convexe d’un nombre potentiellement infini de noyaux, le second apprend une combinaison d’un très grand nombre de noyaux construits sur des décompositions en ondelettes, et ce grâce à une méthode d’ensemble actif. En dé- pit de leurs différences, ces deux approches partagent des algorithmes relativement sem- blables, fondés sur une technique de génération de colonne couplée avec un MKL parcimo- nieux comme problème interne. La différence majeure réside dans la façon de générer une nouvelle colonne. Tandis qu’IKL essaie de résoudre un problème secondaire non-convexe, WKL échantillonne aléatoirement plusieurs noyaux jusqu’à en trouver un qui contredit les conditions d’optimalité.

Le travail présenté ici est algorithmiquement inspiré de ces deux contributions puisque nous cherchons à apprendre une combinaison non-linéaire d’un nombre potentiellement infini de noyaux (≈ IKL) grâce à une méthode d’ensemble actif (≈ WKL). Pourtant, notre approche diffère d’IKL et de WKL dans le but : notre objectif est en premier lieu d’apprendre une représentation TF discriminante, conjointement à un classifieur SVM. De plus, notre approche a été construite de sorte que l’outil de classification appris puisse se réduire facilement à deux étapes : d’abord l’analyse des signaux grâce à un BdF, puis une SVM. Cette réduction n’est pas possible avec WKL, pouvant ainsi conduite à une difficulté quant à l’interprétation des outils appris. Notons aussi que notre algorithme s’avère être une ex- tension de la version non-linéaire du paradigme MKL de[Varma et Babu, 2009]à une in- finité de noyaux. Une solution de ce problème ne peut certainement pas être approchée ni par IKL ni par WKL. Enfin, même s’il n’y a aucune preuve de convergence, nous avons montré la stricte décroissance de la valeur de la fonction objectif de notre problème au fil des itérations, et ce malgré la non-convexité du problème MKL interne lorsque le noyau est gaussien.

Dans le document Outils d'apprentissage automatique pour la reconnaissance de signaux temporels (Page 107-109)