• Aucun résultat trouvé

Temps de calcul sur des données réelles

5.2 Algorithmes

5.3.4 Temps de calcul sur des données réelles

Pour avoir une idée des temps de calcul nécessaires à l’apprentissage de notre approche MTL

parcimonieuse

1

q

, nous avons reporté Tableau5.3, les durées moyennes d’apprentissage. Nous

fournissons aussi les temps de convergence pour la descente de gradient (avecq = 2) et l’approche

proximale pour le problème ICM linéaire. Les critères d’arrêt sont les même que ceux utilisés

pour les données simulées.

Les algorithmes alternés et de descente de gradient optimisent le même problème (cf.

équa-tion (5.7)), alors que l’approche proximale optimise un problème différent mais équivalent (cf.

équation (5.2)). Comme il est difficile de déterminer l’équivalence exacte entre ces problèmes,

nous avons sélectionné les paramètres C etλ de manière à ce que les modèles appris soient de

parcimonie similaire.

Les résultats sur des données réelles sont similaires à ceux obtenus sur les données simulées.

Quelque soit la configuration, l’approche par descente de gradient est la moins rapide. Lorsqu’on

la compare à l’optimisation alternée, le gain en temps est de l’ordre de 3. Parmi les méthodes

linéaires, l’approche proximale est la plus efficace avec un gain de 3 dans le pire des cas.

5.4 Conclusion

Dans ce chapitre, nous avons proposé une nouvelle méthode d’apprentissage multitâche

par-cimonieux. Nous avons posé le problème dans un cadre fonctionnel général et proposé des

al-gorithmes de résolution pour différents termes de régularisation basés sur des normes mixtes.

Finalement, nos approches ont été testées sur des données simulées et des données réelles de

classification de potentiels évoqués P300 et de localisation de protéines.

Bien que nous ayons évalué notre approche sur des données ICM, la régularisation par norme

mixte telle que nous l’avons proposée n’est peut-être pas optimale dans ce cadre d’application.

Nous avons en effet fait de la sélection de caractéristique. Or, sur les données de potentiels

évoqués, les caractéristiques sont des instants temporels provenant de plusieurs capteurs. Si

l’on veut sélectionner les capteurs, il nous faut donc régulariser différemment. Dans le chapitre

suivant, nous nous intéressons donc à l’utilisation de la régularisation par norme mixte pour la

sélection de capteurs en ICM. Nous étendrons aussi le problème à la sélection jointe multitâche

et nous ferons donc le pont entre notre approche multitâche et les travaux de Tomioka et

Régularisations pour la classification de

potentiels évoqués

Sommaire

5.1 Apprentissage multitâche parcimonieux . . . . 90

5.1.1 Problème d’optimisation . . . . 90

5.1.2 Régularisation pour la parcimonie jointe . . . . 91

5.2 Algorithmes . . . . 92

5.2.1 Formulation variationnelle du problème

1

q

. . . . 92

5.2.2 Algorithme alterné pour résoudre le cas

1

q

. . . . 94

5.2.3 Approche proximale pour le cas linéaire

1

q

. . . . 96

5.2.4 Algorithme pour le cas non convexe

p

q

. . . . 98

5.3 Expérimentations numériques. . . . 99

5.3.1 Données simulées . . . 100

5.3.2 Classification de potentiels évoqués P300 . . . 104

5.3.3 Localisation de protéines bactériennes . . . 105

5.3.4 Temps de calcul sur des données réelles . . . 107

5.4 Conclusion . . . 107

Ce chapitre présente une application de différents types de régularisations pour la

classifi-cation de potentiels évoqués en ICM. Les potentiels évoqués, introduits dans le chapitre 2, sont

des signaux qui apparaissent dans les mesures EEG en réponse à un stimulus, et sont donc

synchronisés avec ces évènements. Leur détection est rendue difficile par la présence de bruit et

la faible amplitude du signal par rapport à ce bruit. Néanmoins, les exemples d’apprentissage

ont une structure fixe et connue qui peut être mis à profit : les caractéristiques proviennent de

capteurs différents, elles sont donc naturellement groupées. Le but de ce chapitre est d’identifier

les régularisations adaptées au problème de reconnaissance de potentiels évoqués.

Sélection de capteurs Tout d’abord, nous nous sommes intéressés au problème de sélection

automatique de capteurs. Il existe différentes approches pour la sélection de capteurs en ICM

comme celles basées sur l’utilisation d’une mesure de pertinence [Cecotti 2011] ou celles utilisant

un régularisation parcimonieuse [Tomioka 2010a,Jrad 2011b]. Dans ces derniers travaux, la

pro-blématique de sélection de capteur a été traité comme un problème d’apprentissage de noyaux

multiples [Jrad 2011b]. Dans le même esprit, les travaux de [Tomioka 2010a] ont montré la

possi-bilité d’apprendre des classifieurs linéaires et d’utiliser une norme mixte

1

2

pour sélectionner

les groupes de variables correspondant à chaque capteur. Notre approche s’intègre directement

dans la suite des travaux de Tomioka et al.. Nous avons proposé l’utilisation d’une norme mixte

plus générale de type

p

q

qui promeut une parcimonie par groupe et donc une sélection

de capteurs. Une autre régularisation plus agressive en terme de sélection et ayant de bonnes

propriétés théoriques a également été étudiée : la norme mixte adaptative. Nous discutons dans

la suite des algorithmes de résolution et évaluons ces différents termes de régularisations sur des

données ICM réelles.

Apprentissage multitâche Nous avons proposé, dans le chapitre précédent, une approche

d’apprentissage multitâche parcimonieuse qui sélectionne automatiquement les noyaux

discrimi-nants pour l’ensemble des tâches de discrimination. Cette approche a été évaluée sur des données

ICM dans un cadre de sélection de variables. Nous avons donc décidé d’étendre cette approche à

la sélection de capteurs, c’est-à-dire à la sélection de groupes de variables. Ce type de transfert

d’information, limité à la sélection jointe, peut aussi être étendu dans un cadre plus général.

Un terme de régularisation mesurant la variance des classifieurs a ainsi été proposé pour induire

une similarité entre les tâches. Les performances de cette régularisation multitâche générale ont

ensuite été évaluées sur des données ICM mesurées sur un nombre important de sujets.

Hypothèses Nous ferons dans la suite du chapitre les hypothèses suivantes :

a) La fonction de décisionf(·) est linéaire.

b) La fonction de perteL(·,·) est propre, convexe et de gradient lipschitzien. Nous choisissons

par exemple le coût Hinge au carré.

c) Le terme de régularisation Ω(·) est propre, continu et coercif.

Ces hypothèses sont vérifiées lors de nos expérimentations numériques et nous permettent

d’uti-liser des algorithmes d’optimisation efficaces (cf. sections6.1.3et 6.2.3).