3.2 Séparateur à Vaste Marge et Apprentissage de Noyau
3.3.2 Régularisation multitâche
Maintenant que nous avons posé une formulation générale du problème d’apprentissage
mul-titâche, nous pouvons commencer un état de l’art des termes de régularisation multitâche
exis-tants dans la littérature. Dans la majorité des travaux, l’apprentissage multitâche se fait sur des
fonctions linéaires. Il est en effet plus facile d’intégrer des connaissancesa priori sur des vecteurs
que sur des fonctions appartenant à des EHNR. Lorsque l’on régularise des fonctions linéaires,
le terme de régularisation s’applique sur les vecteurs w
t∈R
dqui sont la normale à l’hyperplan
séparateur de chaque tâche. Nous définissons ici la matriceW = [w
1, . . . ,w
T] qui contient une
concaténation des vecteurs w
tde chaque tâche.
Régularisations basées sur une métrique
Une approche générale de régularisation des différentes fonctions a été proposée par [
Evge-niou 2005]. Cette approche consiste à utiliser une métrique de la forme :
Ω
metric(f
1,· · · , f
T) =
T,T
X
t,s=1
E
t,shf
t, f
si
H(3.45)
oùEest une matrice définie positive de terme généralE
t,sreprésentant les relations inter-tâches.
Par exemple, si on choisit E = I avec I la matrice identité, alors le terme de régularisation
(3.45) est une somme des produits scalaires de chaque fonction avec elle-même, c’est-à-dire une
norme euclidienne au carré pour chaque tâche. Dans ce cas-là, chaque fonction est régularisée
indépendamment des autres, et le problème (3.44) est séparable par rapport aux tâches.
Variance des fonctions Dans les travaux de [Evgeniou 2004], une mesure de similarité entre
fonctions basée sur la variance des classifieurs a été proposée :
Ω
var(f
1,· · · , f
T) =||f¯||
2H+λ
varX
t||f
t−f¯||
2H(3.46)
avec ¯f =
1 TP
t
f
tla fonction moyenne. Dans ce cas, nous supposons que les tâches se ressemblent
toutes et surtout qu’elles ressemblent à la tâche moyenne ¯f. En d’autres termes, cette
régula-risation suppose que toutes les fonctions font partie d’un cluster et qu’elles sont sensées être
relativement proches du centroïde du cluster. Finalement, ce terme est un cas particulier de la
forme (3.45) avec une matriceE de terme général :
E= 1−λ
varT
T
2U+λ
varI
où I est la matrice identité etU la matrice unitaire de terme général U
i,j= 1.
Appartenance à un clustering Dans leurs travaux, [Jacob 2008] ont supposé qu’il existe un
clustering des tâches, c’est-à-dire qu’elles sont naturellement groupées enrclusters. Ils proposent
donc un terme de régularisation qui permet de prendre en compte ce clustering. Nous définissons
tout d’abord la matrice binaire R = {0,1}
T×rcontenant le clustering. Son terme général R
t,caura la valeur 1 si la tâchetappartient au clusterc et à 0 sinon. Le terme de régularisation est
de la forme :
Ω
cluster(f
1,· · · , f
T) =λ
mkf¯k
2H+λ
b rX
c=1kf¯
c−f¯k
2H+λ
w rX
c=1 TX
t=1R
t,c||f
t−f¯
c||
2H(3.47)
avec ¯f
c=
1 mcP
t
R
t,cf
tle centroïde du cluster c et m
c= P
tR
t,cle nombre de fonctions dans
ce cluster. L’équation (3.47) comporte trois termes que nous allons décrire un à un : le premier
terme, pondéré parλ
m, est un terme de régularisation global, qui vise à minimiser la complexité
de la fonction de prédiction moyenne (similaire à (3.46)). Le deuxième terme, pondéré par λ
b,
va permettre de mesurer la dispersion des différents clusters de fonctions et ainsi éviter qu’ils ne
soient trop éloignés. Le troisième et dernier terme, pondéré parλ
w, va mesurer la variance dans
chaque cluster et ainsi promouvoir la ressemblance entre les fonctions appartenant à ce cluster.
Ces trois types de régularisation sont complémentaires, et prennent chacun en compte un aspect
de l’a priori de clustering. La régularisation peut aussi être mise sous la forme d’une métrique
comme à l’équation (3.45) avec une matrice E de la forme :
E=λ
mU+λ
b(M−U) +λ
w(I−M) (3.48)
avec M =R(R
TR)
−1R
Tune matrice prenant en compte le clustering. Nous soulignons aussi
une contribution importante des travaux de [Jacob 2008] : ils proposent d’apprendre le clustering,
c’est à dire l’a priori, simultanément avec les fonctions. Pour apprendre les relations inter-tâches,
ils proposent une méthode basée sur une relaxation convexe des k-means, ce qui leur permet de
résoudre un problème d’optimisation convexe et d’éviter une optimisation alternée.
Partage de caractéristiques
L’apprentissage multitâche a été défini à l’origine par [Caruana 1997] dans le cadre des
ré-seaux de neurones. Il suppose dans ses travaux que les tâches doivent partager les caractéristiques
utilisées pour la classification. Ceci est mis en œuvre dans les réseaux de neurones à plusieurs
couches par l’utilisation de premières couches, i.e. d’une extraction de caractéristiques,
com-munes à toutes les tâches. Ces caractéristiques sont ensuite utilisées par les couches suivantes
pour apprendre des classifieurs pour chaque tâche.
Le partage des caractéristiques entre tâches est une approche classique en apprentissage
statistique, et peut s’exprimer de différentes manières. Ceci peut être fait en sélectionnant les
variables pertinentes pour toutes les tâches. Nous verrons ensuite un terme de régularisation
permettant de sélectionner un sous-espace linéaire commun à toutes les tâches plutôt qu’un
sous-ensemble de variables.
Parcimonie jointe Cette approche est utile lorsque l’on suppose que seul un sous-ensemble
des variables est pertinent pour la décision et que cet ensemble est commun à toutes les tâches.
Les premiers travaux qui ont utilisé la sélection jointe de variables sont ceux de Argyriou et
al. [Argyriou 2008] et de Obozinski et al. [Obozinski 2009]. Ces travaux se sont concentrés sur
des fonctions de décision linéaires, et utilisent une contrainte de type group-lasso Ω1
,2(·), défini
équation (3.9), pour promouvoir la parcimonie. Les groupes utilisés contiennent les lignes de la
matrice W. En effet, chaque ligne contient les pondérations d’une variable donnée pour toutes
les tâches. Ainsi la sélection de lignes dans la matrice W permet de sélectionner les variables
pertinentes pour l’ensemble des tâches. Nous notons aussi les travaux de [Chen 2009], qui utilisent
les normes mixtes Ω
1,2(·) et Ω
1,∞(·) pour effectuer une sélection jointe de variables dans un cadre
multitâche.
Projection dans un sous espace Une autre approche de partage de caractéristiques consiste
à utiliser un sous-espace commun à toutes les tâches. On peut voir cela comme une version
linéaire de ce qu’a proposé Caruana [Caruana 1997] pour les réseaux de neurones. Le premier
étage est une projectionx˜=Pxavec P∈R
d′×ddans un sous-espace linéaire de tailled
′< d, et
le second représente la fonction de décision apprise pour chaque tâche sur les caractéristiques ˜x
(de paramètre ˜w
i∈R
d′). Finalement, la fonction de décision de chaque tâche sera de la forme
f(x) = ˜w
Ti
Px+b
iet la matriceW=P
TW˜ sera de rang d
′< d.
Une approche ayant le même effet sur la matriceW est de la régulariser de manière à
mini-miser son rang. Or, la trace d’une matrice est une relaxation convexe de son rang (voir section
multitâche sont ceux de [Argyriou 2008]. Ils proposent de découpler le problème en apprenant
simultanément une projectionP∈R
d×det des fonctions de décision avec une parcimonie jointe.
La parcimonie jointe est ainsi induite en terme de sous-espace et non pas en terme de variables.
De leur côté, Obozinski et al. résolvent le problème d’une manière particulièrement élégante. Ils
tirent aléatoirement une projection unitaire des données et apprennent des fonctions de
déci-sion parcimonieuses sur les données projetées [Obozinski 2010]. Ceci a pour effet de sélectionner
automatiquement le sous-espace discriminant.
Nous avons vu qu’il est possible de limiter les classifieurs à un sous-espace linéaire. Une
généralisation de cette approche aux espaces non-linéaires a été proposée par [Agarwal 2010].
Dans leurs travaux, ils proposent un algorithme alterné où les fonctions de prédiction sont
apprises avec une régularisation qui promeut leur appartenance à une variété (ou manifold en
anglais). C’est cette variété qui contiendra les connaissances transférées entre tâches.
A priori bayésien
Les méthodes bayésiennes considèrent que les fonctions de décisionf ainsi que les données
d’apprentissage S
nsont des réalisations de variables aléatoires. Dans un cadre d’apprentissage
bayésien [Bishop 1995], la fonction de décision f est obtenue en utilisant le théorème de Bayes,
qui permet d’obtenir la forme suivante pour la probabilité conditionnelle de f :
P(f|S
n) = P(S
n|f)P(f)
P(S
n) .
Une manière d’obtenir la fonction de décisionf est de maximiser cette probabilité conditionnelle.
Cette approche, aussi connue sous le nom de maximum a posteriori, revient à optimiser le
problème :
max
f∈H
ln(P(S
n|f)) + ln(P(f)) (3.49)
où le terme ln(P(S
n)) est retiré car indépendant de la variable f. On reconnaît dans l’équation
(3.49) un problème typique d’apprentissage statistique régularisé. En effet, le premier terme est
le terme d’attache aux données, alors que le second terme est un terme de régularisation. Les
connaissances a priori concernant la fonction de décision peuvent ainsi être ajoutées sous la
forme d’une hypothèse sur la forme de la loi de f.
Il existe tout un pan de l’apprentissage multitâche basé sur des méthodes bayésiennes. Nous
introduisons, dans la suite, un certain nombre de ces méthodes, dont nous omettrons les détails
puisque nos travaux se situent dans un cadre différent.
Une approche bayésienne a été proposée par [Yu 2005] dans le cadre des fonctions de
pré-diction linéaires et des fonctions de prépré-diction non linéaires à base de processus gaussien. Une
application aux signaux ICM a été proposée par [Alamgir 2010] pour des tâches de régression
linéaire. Ils supposent que les paramètresw
tdes fonctions de décision sont des réalisations d’une
loi normale multidimensionnelle N(µ,Σ) d’espérance µet de covariance Σ. Ils utilisent un
al-gorithme alterné pour estimer ces paramètres et apprendre les fonctions linéaires. Le terme de
régularisation qui va promouvoir la vraisemblance de l’ensemble des tâches par rapport à la loi
N(µ,Σ) est :
Ω
N(w
1,· · ·,w
T) =X
t
Nous remarquons que, dans cette régularisation, les tâches sont régularisées indépendamment.
En effet, les liens entre les tâches sont intégrés dans les paramètres de la loi normale qui sont
appris simultanément avec les fonctions. Notons aussi que, si l’on suppose que la loi normale a
une matrice de covariance Σ=I, alors ce terme de régularisation est similaire au terme (3.46)
minimisant la variance des fonctions.
Une version bayésienne des clusters de tâches a aussi été proposée par [Xue 2007] qui utilisent
des processus de Dirichlet pour modéliser l’appartenance des tâches à des clusters. Finalement, en
utilisant une approche bayésienne, il est possible d’inférer les relations entre tâches [Bonilla 2008]
ce qui permet d’éviter le choix a priori de ces relations.
Dans le document
Apprentissage statistique pour le signal: applications aux interfaces cerveau-machine
(Page 62-66)