• Aucun résultat trouvé

3.4 Étiquetage de séquence pour le signal

3.5.3 Régularisation par norme mixte

Nous proposons Chapitre 6 d’exprimer dans un cadre d’optimisation régularisé

l’apprentis-sage de classifieur discriminant pour la détection de signaux de potentiel évoqué. Les signaux

issus de mesures EEG sont structurés, et il est possible d’utiliser cette structure, par exemple,

pour effectuer une sélection automatique de capteurs. Cette démarche, originellement proposée

par [Tomioka 2010a], a été généralisée à plusieurs types de régularisations par norme mixte et

nous enquêtons sur le choix de ces régularisations selon les contraintes d’utilisation.

Cette approche est ensuite étendue à l’apprentissage multitâche en appliquant directement

les méthodes présentées chapitre5. Pour améliorer les performances des classifieurs lorsque peu

de points d’apprentissage sont disponibles, nous proposons un terme général qui promeut non

seulement une parcimonie jointe mais aussi une similarité entre les tâches [Evgeniou 2004].

Filtrage vaste marge

Sommaire

3.1 Cadre Général . . . . 26

3.1.1 Apprentissage supervisé . . . . 26

3.1.2 Fonctions de coût et attache aux données . . . . 29

3.1.3 Termes de régularisation . . . . 30

3.1.4 Optimisation et conditions d’optimalité . . . . 36

3.2 Séparateur à Vaste Marge et Apprentissage de Noyau . . . . 41

3.2.1 Noyaux. . . . 41

3.2.2 Séparateur à Vaste Marge. . . . 44

3.2.3 Apprentissage de Noyau. . . . 47

3.3 Apprentissage multitâche . . . . 50

3.3.1 Problème général . . . . 51

3.3.2 Régularisation multitâche . . . . 51

3.4 Étiquetage de séquence pour le signal . . . . 55

3.4.1 Approches existantes . . . . 55

3.4.2 Adaptation au signal . . . . 59

3.5 Contributions . . . . 60

3.5.1 Filtrage vaste marge. . . . 60

3.5.2 Apprentissage multitâche parcimonieux. . . . 61

3.5.3 Régularisation par norme mixte . . . . 61

Ce chapitre détaille nos contributions dans le domaine de l’étiquetage de séquence. Après

avoir rappelé le cadre de notre problème de classification et les contraintes y afférant, des

mé-thodes de classification d’échantillons temporels filtrés et de fenêtres temporelles sont introduites.

Ensuite, nous présentons le filtrage vaste marge, une approche d’apprentissage de noyaux qui

permet de filtrer un signal multidimensionnel de manière à maximiser la marge entre les classes.

Finalement, des expérimentations ont été faites sur des données simulées, sur des mesures réelles

en ICM, et finalement en segmentation d’image sur des données multispectrales.

4.1 Contexte

Nous avons proposé le filtrage vaste marge pour répondre à un problème précis dans le cadre

des ICM asynchrones. Nous cherchons à détecter la tâche mentale effectuée en continu par le

sujet. Le but est de lui permettre de contrôler un bras robotisé ou un curseur indépendemment

d’un signal de synchronisation, et cela en temps réel. L’étiquette d’un échantillon temporel donné

doit donc être prédite rapidement, il n’est donc pas possible d’utiliser des méthodes d’étiquetage

de séquence utilisant des décodages dits hors ligne.

Signaux Nous nous sommes concentrés dans nos recherches sur les tâches mentales d’imagerie

motrice qui peuvent être contrôlées en continu par le sujet. Parmi les tâches mentales

d’ima-gerie motrice les plus communes, nous pouvons citer un mouvement imaginé du bras ou de la

main. L’acquisition est effectuée à partir de plusieurs capteurs positionnés sur le crâne du

su-jet. Ces signaux étant particulièrement bruités, une étape de filtrage est, en général, nécessaire

pour diminuer l’effet du bruit (voir section 2.2.1). Cette étape est suivie par une extraction de

caractéristiques liée à la puissance dans une bande de fréquences.

Le signal ainsi acquis est stocké dans une matrice X R

n×d

contenant l’évolution de d

caractéristiques en fonction du temps.Xpeut aussi être vu comme un signal contenantdcanaux

et n échantillons temporels multidimensionnels x

i

R

d

tels que X= [x

1

, . . . ,x

n

]

T

. X

i,v

est la

valeur de l’échantillonidans le canalv. Chaque échantillon temporelx

i

deX est associé à une

classe ou étiquettey

i

, les étiquettes sont stockées dans le vecteury. Le problème d’apprentissage

consiste finalement à apprendre, à partir de X et y, une fonction permettant de prédire la

séquence y

d’étiquettes associées à chaque échantillon d’une nouvelle séquenceX

.

Types de bruit La difficulté majeure, dans le cadre des ICM, est la présence de bruit. Nous

supposons dans la suite du chapitre que le signal contenant l’information discriminanteX

a été

bruité de la manière suivante :

,j

=X

·,j

h

j

+b

j

(4.1)

pour chaque signal

,j

de la matriceX, sachant que est le produit de convolution.

On considère également que :

h

j

, la réponse impulsionnelle, est inconnue, finie, et fixe pour un canalj donné.

b

j

, le bruit additif, est un bruit stationnaire.

Notons que le bruit additif et la convolution apparaissent naturellement dans les mesures ICM

(cf. section 2.4.1).

Lorsque l’on n’a aucune connaissance particulière sur le système mesuré, le bruit additif est

souvent supposé comme étant un bruit blanc gaussien apparaissant dans toutes les fréquences.

Il est relativement aisé d’atténuer ce type de bruit, à l’aide d’un filtre passe-bande laissant

passer uniquement les informations pertinentes. Il est bien évidemment nécessaire d’avoir une

connaissance a priori, i.e. de connaître la bande de fréquence dans laquelle sont situées ces

informations.

Les effets de la convolution son plus difficiles à atténuer. Par exemple, une convolution par

une distribution de Dirac déphasée ajoutera un délai sur le signal. Ceci aura pour effet de

déphaser les étiquettes d’apprentissage et les observations, et peut détériorer les performances

de prédiction.

Convoluer pour mieux classifier Il nous a paru judicieux, pour répondre aux problèmes

présentés précédemment, d’apprendre de manière supervisée un filtre temporel maximisant les

performances en classification. En effet, en l’absence de connaissances précises sur le bruit,

un moyen possible pour s’y adapter est d’apprendre le filtrage simultanément avec le classifieur.

Comme nous apprenons un classifieur SVM et que le critère maximisé est la marge, nous appelons

notre méthode le filtrage vaste marge.

Notre approche rentre dans le cadre des méthodes d’étiquetage de séquence par classification

d’échantillons (cf. section3.4.1). Sa mise en œuvre en prédiction nécessite une convolution et une

prédiction de type SVM, ce qu’il est possible de réaliser efficacement. De plus, elle ne nécessite

pas de décodage global, ce qui est un avantage dans le domaine des ICM asynchrones.

Hypothèses Nous faisons dans la suite du chapitre les hypothèses suivantes :

a) le noyauK(·,·) est défini positif.

b) le problème SVM (3.31) a une solution unique et peut être résolu exactement. Le résultat

est un vecteur 0α

C/n.

c) X ∈ X, et X est un ensemble compact deR

n×d

. Pour les données que nous allons

consi-dérer, le processus d’acquisition nous assure, en effet, des valeurs bornées.

d) le paramètre de régularisation λest strictement positif.

e) le noyau utilisé est de classeC

2

sur l’ensembleX. Le noyau gaussien, par exemple, satisfait

cette condition.

f) le terme de régularisation Ω(·) est propre et coercif [Rockafellar 1997].

Ces hypothèses seront utilisées pour discuter de la convergence des algorithmes proposés dans

les sections suivantes.