5.2 Algorithmes
5.3.4 Temps de calcul sur des données réelles
Pour avoir une idée des temps de calcul nécessaires à l’apprentissage de notre approche MTL
parcimonieuseℓ
1−ℓ
q, nous avons reporté Tableau5.3, les durées moyennes d’apprentissage. Nous
fournissons aussi les temps de convergence pour la descente de gradient (avecq = 2) et l’approche
proximale pour le problème ICM linéaire. Les critères d’arrêt sont les même que ceux utilisés
pour les données simulées.
Les algorithmes alternés et de descente de gradient optimisent le même problème (cf.
équa-tion (5.7)), alors que l’approche proximale optimise un problème différent mais équivalent (cf.
équation (5.2)). Comme il est difficile de déterminer l’équivalence exacte entre ces problèmes,
nous avons sélectionné les paramètres C etλ de manière à ce que les modèles appris soient de
parcimonie similaire.
Les résultats sur des données réelles sont similaires à ceux obtenus sur les données simulées.
Quelque soit la configuration, l’approche par descente de gradient est la moins rapide. Lorsqu’on
la compare à l’optimisation alternée, le gain en temps est de l’ordre de 3. Parmi les méthodes
linéaires, l’approche proximale est la plus efficace avec un gain de 3 dans le pire des cas.
5.4 Conclusion
Dans ce chapitre, nous avons proposé une nouvelle méthode d’apprentissage multitâche
par-cimonieux. Nous avons posé le problème dans un cadre fonctionnel général et proposé des
al-gorithmes de résolution pour différents termes de régularisation basés sur des normes mixtes.
Finalement, nos approches ont été testées sur des données simulées et des données réelles de
classification de potentiels évoqués P300 et de localisation de protéines.
Bien que nous ayons évalué notre approche sur des données ICM, la régularisation par norme
mixte telle que nous l’avons proposée n’est peut-être pas optimale dans ce cadre d’application.
Nous avons en effet fait de la sélection de caractéristique. Or, sur les données de potentiels
évoqués, les caractéristiques sont des instants temporels provenant de plusieurs capteurs. Si
l’on veut sélectionner les capteurs, il nous faut donc régulariser différemment. Dans le chapitre
suivant, nous nous intéressons donc à l’utilisation de la régularisation par norme mixte pour la
sélection de capteurs en ICM. Nous étendrons aussi le problème à la sélection jointe multitâche
et nous ferons donc le pont entre notre approche multitâche et les travaux de Tomioka et
Régularisations pour la classification de
potentiels évoqués
Sommaire
5.1 Apprentissage multitâche parcimonieux . . . . 90
5.1.1 Problème d’optimisation . . . . 90
5.1.2 Régularisation pour la parcimonie jointe . . . . 91
5.2 Algorithmes . . . . 92
5.2.1 Formulation variationnelle du problème ℓ
1−ℓ
q. . . . 92
5.2.2 Algorithme alterné pour résoudre le casℓ
1−ℓ
q. . . . 94
5.2.3 Approche proximale pour le cas linéaire ℓ
1−ℓ
q. . . . 96
5.2.4 Algorithme pour le cas non convexe ℓ
p−ℓ
q. . . . 98
5.3 Expérimentations numériques. . . . 99
5.3.1 Données simulées . . . 100
5.3.2 Classification de potentiels évoqués P300 . . . 104
5.3.3 Localisation de protéines bactériennes . . . 105
5.3.4 Temps de calcul sur des données réelles . . . 107
5.4 Conclusion . . . 107
Ce chapitre présente une application de différents types de régularisations pour la
classifi-cation de potentiels évoqués en ICM. Les potentiels évoqués, introduits dans le chapitre 2, sont
des signaux qui apparaissent dans les mesures EEG en réponse à un stimulus, et sont donc
synchronisés avec ces évènements. Leur détection est rendue difficile par la présence de bruit et
la faible amplitude du signal par rapport à ce bruit. Néanmoins, les exemples d’apprentissage
ont une structure fixe et connue qui peut être mis à profit : les caractéristiques proviennent de
capteurs différents, elles sont donc naturellement groupées. Le but de ce chapitre est d’identifier
les régularisations adaptées au problème de reconnaissance de potentiels évoqués.
Sélection de capteurs Tout d’abord, nous nous sommes intéressés au problème de sélection
automatique de capteurs. Il existe différentes approches pour la sélection de capteurs en ICM
comme celles basées sur l’utilisation d’une mesure de pertinence [Cecotti 2011] ou celles utilisant
un régularisation parcimonieuse [Tomioka 2010a,Jrad 2011b]. Dans ces derniers travaux, la
pro-blématique de sélection de capteur a été traité comme un problème d’apprentissage de noyaux
multiples [Jrad 2011b]. Dans le même esprit, les travaux de [Tomioka 2010a] ont montré la
possi-bilité d’apprendre des classifieurs linéaires et d’utiliser une norme mixteℓ
1−ℓ
2pour sélectionner
les groupes de variables correspondant à chaque capteur. Notre approche s’intègre directement
dans la suite des travaux de Tomioka et al.. Nous avons proposé l’utilisation d’une norme mixte
plus générale de type ℓ
p−ℓ
qqui promeut une parcimonie par groupe et donc une sélection
de capteurs. Une autre régularisation plus agressive en terme de sélection et ayant de bonnes
propriétés théoriques a également été étudiée : la norme mixte adaptative. Nous discutons dans
la suite des algorithmes de résolution et évaluons ces différents termes de régularisations sur des
données ICM réelles.
Apprentissage multitâche Nous avons proposé, dans le chapitre précédent, une approche
d’apprentissage multitâche parcimonieuse qui sélectionne automatiquement les noyaux
discrimi-nants pour l’ensemble des tâches de discrimination. Cette approche a été évaluée sur des données
ICM dans un cadre de sélection de variables. Nous avons donc décidé d’étendre cette approche à
la sélection de capteurs, c’est-à-dire à la sélection de groupes de variables. Ce type de transfert
d’information, limité à la sélection jointe, peut aussi être étendu dans un cadre plus général.
Un terme de régularisation mesurant la variance des classifieurs a ainsi été proposé pour induire
une similarité entre les tâches. Les performances de cette régularisation multitâche générale ont
ensuite été évaluées sur des données ICM mesurées sur un nombre important de sujets.
Hypothèses Nous ferons dans la suite du chapitre les hypothèses suivantes :
a) La fonction de décisionf(·) est linéaire.
b) La fonction de perteL(·,·) est propre, convexe et de gradient lipschitzien. Nous choisissons
par exemple le coût Hinge au carré.
c) Le terme de régularisation Ω(·) est propre, continu et coercif.
Ces hypothèses sont vérifiées lors de nos expérimentations numériques et nous permettent
d’uti-liser des algorithmes d’optimisation efficaces (cf. sections6.1.3et 6.2.3).
Dans le document
Apprentissage statistique pour le signal: applications aux interfaces cerveau-machine
(Page 118-121)