• Aucun résultat trouvé

3.2 Séparateur à Vaste Marge et Apprentissage de Noyau

3.3.2 Régularisation multitâche

Maintenant que nous avons posé une formulation générale du problème d’apprentissage

mul-titâche, nous pouvons commencer un état de l’art des termes de régularisation multitâche

exis-tants dans la littérature. Dans la majorité des travaux, l’apprentissage multitâche se fait sur des

fonctions linéaires. Il est en effet plus facile d’intégrer des connaissancesa priori sur des vecteurs

que sur des fonctions appartenant à des EHNR. Lorsque l’on régularise des fonctions linéaires,

le terme de régularisation s’applique sur les vecteurs w

t

R

d

qui sont la normale à l’hyperplan

séparateur de chaque tâche. Nous définissons ici la matriceW = [w

1

, . . . ,w

T

] qui contient une

concaténation des vecteurs w

t

de chaque tâche.

Régularisations basées sur une métrique

Une approche générale de régularisation des différentes fonctions a été proposée par [

Evge-niou 2005]. Cette approche consiste à utiliser une métrique de la forme :

metric

(f

1

,· · · , f

T

) =

T,T

X

t,s=1

E

t,s

hf

t

, f

s

i

H

(3.45)

Eest une matrice définie positive de terme généralE

t,s

représentant les relations inter-tâches.

Par exemple, si on choisit E = I avec I la matrice identité, alors le terme de régularisation

(3.45) est une somme des produits scalaires de chaque fonction avec elle-même, c’est-à-dire une

norme euclidienne au carré pour chaque tâche. Dans ce cas-là, chaque fonction est régularisée

indépendamment des autres, et le problème (3.44) est séparable par rapport aux tâches.

Variance des fonctions Dans les travaux de [Evgeniou 2004], une mesure de similarité entre

fonctions basée sur la variance des classifieurs a été proposée :

var

(f

1

,· · · , f

T

) =||f¯||

2H

+λ

var

X

t

||f

t

f¯||

2H

(3.46)

avec ¯f =

1 T

P

t

f

t

la fonction moyenne. Dans ce cas, nous supposons que les tâches se ressemblent

toutes et surtout qu’elles ressemblent à la tâche moyenne ¯f. En d’autres termes, cette

régula-risation suppose que toutes les fonctions font partie d’un cluster et qu’elles sont sensées être

relativement proches du centroïde du cluster. Finalement, ce terme est un cas particulier de la

forme (3.45) avec une matriceE de terme général :

E= 1λ

var

T

T

2

U+λ

var

I

I est la matrice identité etU la matrice unitaire de terme général U

i,j

= 1.

Appartenance à un clustering Dans leurs travaux, [Jacob 2008] ont supposé qu’il existe un

clustering des tâches, c’est-à-dire qu’elles sont naturellement groupées enrclusters. Ils proposent

donc un terme de régularisation qui permet de prendre en compte ce clustering. Nous définissons

tout d’abord la matrice binaire R = {0,1}

T×r

contenant le clustering. Son terme général R

t,c

aura la valeur 1 si la tâchetappartient au clusterc et à 0 sinon. Le terme de régularisation est

de la forme :

cluster

(f

1

,· · · , f

T

) =λ

m

kf¯k

2H

+λ

b r

X

c=1

kf¯

c

f¯k

2H

+λ

w r

X

c=1 T

X

t=1

R

t,c

||f

t

f¯

c

||

2H

(3.47)

avec ¯f

c

=

1 mc

P

t

R

t,c

f

t

le centroïde du cluster c et m

c

= P

t

R

t,c

le nombre de fonctions dans

ce cluster. L’équation (3.47) comporte trois termes que nous allons décrire un à un : le premier

terme, pondéré parλ

m

, est un terme de régularisation global, qui vise à minimiser la complexité

de la fonction de prédiction moyenne (similaire à (3.46)). Le deuxième terme, pondéré par λ

b

,

va permettre de mesurer la dispersion des différents clusters de fonctions et ainsi éviter qu’ils ne

soient trop éloignés. Le troisième et dernier terme, pondéré parλ

w

, va mesurer la variance dans

chaque cluster et ainsi promouvoir la ressemblance entre les fonctions appartenant à ce cluster.

Ces trois types de régularisation sont complémentaires, et prennent chacun en compte un aspect

de l’a priori de clustering. La régularisation peut aussi être mise sous la forme d’une métrique

comme à l’équation (3.45) avec une matrice E de la forme :

E=λ

m

U+λ

b

(MU) +λ

w

(IM) (3.48)

avec M =R(R

T

R)

−1

R

T

une matrice prenant en compte le clustering. Nous soulignons aussi

une contribution importante des travaux de [Jacob 2008] : ils proposent d’apprendre le clustering,

c’est à dire l’a priori, simultanément avec les fonctions. Pour apprendre les relations inter-tâches,

ils proposent une méthode basée sur une relaxation convexe des k-means, ce qui leur permet de

résoudre un problème d’optimisation convexe et d’éviter une optimisation alternée.

Partage de caractéristiques

L’apprentissage multitâche a été défini à l’origine par [Caruana 1997] dans le cadre des

ré-seaux de neurones. Il suppose dans ses travaux que les tâches doivent partager les caractéristiques

utilisées pour la classification. Ceci est mis en œuvre dans les réseaux de neurones à plusieurs

couches par l’utilisation de premières couches, i.e. d’une extraction de caractéristiques,

com-munes à toutes les tâches. Ces caractéristiques sont ensuite utilisées par les couches suivantes

pour apprendre des classifieurs pour chaque tâche.

Le partage des caractéristiques entre tâches est une approche classique en apprentissage

statistique, et peut s’exprimer de différentes manières. Ceci peut être fait en sélectionnant les

variables pertinentes pour toutes les tâches. Nous verrons ensuite un terme de régularisation

permettant de sélectionner un sous-espace linéaire commun à toutes les tâches plutôt qu’un

sous-ensemble de variables.

Parcimonie jointe Cette approche est utile lorsque l’on suppose que seul un sous-ensemble

des variables est pertinent pour la décision et que cet ensemble est commun à toutes les tâches.

Les premiers travaux qui ont utilisé la sélection jointe de variables sont ceux de Argyriou et

al. [Argyriou 2008] et de Obozinski et al. [Obozinski 2009]. Ces travaux se sont concentrés sur

des fonctions de décision linéaires, et utilisent une contrainte de type group-lasso Ω1

,2(

·), défini

équation (3.9), pour promouvoir la parcimonie. Les groupes utilisés contiennent les lignes de la

matrice W. En effet, chaque ligne contient les pondérations d’une variable donnée pour toutes

les tâches. Ainsi la sélection de lignes dans la matrice W permet de sélectionner les variables

pertinentes pour l’ensemble des tâches. Nous notons aussi les travaux de [Chen 2009], qui utilisent

les normes mixtes Ω

1,2

(·) et Ω

1,

(·) pour effectuer une sélection jointe de variables dans un cadre

multitâche.

Projection dans un sous espace Une autre approche de partage de caractéristiques consiste

à utiliser un sous-espace commun à toutes les tâches. On peut voir cela comme une version

linéaire de ce qu’a proposé Caruana [Caruana 1997] pour les réseaux de neurones. Le premier

étage est une projectionx˜=Pxavec PR

d×d

dans un sous-espace linéaire de tailled

< d, et

le second représente la fonction de décision apprise pour chaque tâche sur les caractéristiques ˜x

(de paramètre ˜w

i

∈R

d

). Finalement, la fonction de décision de chaque tâche sera de la forme

f(x) = ˜w

T

i

Px+b

i

et la matriceW=P

T

W˜ sera de rang d

< d.

Une approche ayant le même effet sur la matriceW est de la régulariser de manière à

mini-miser son rang. Or, la trace d’une matrice est une relaxation convexe de son rang (voir section

multitâche sont ceux de [Argyriou 2008]. Ils proposent de découpler le problème en apprenant

simultanément une projectionPR

d×d

et des fonctions de décision avec une parcimonie jointe.

La parcimonie jointe est ainsi induite en terme de sous-espace et non pas en terme de variables.

De leur côté, Obozinski et al. résolvent le problème d’une manière particulièrement élégante. Ils

tirent aléatoirement une projection unitaire des données et apprennent des fonctions de

déci-sion parcimonieuses sur les données projetées [Obozinski 2010]. Ceci a pour effet de sélectionner

automatiquement le sous-espace discriminant.

Nous avons vu qu’il est possible de limiter les classifieurs à un sous-espace linéaire. Une

généralisation de cette approche aux espaces non-linéaires a été proposée par [Agarwal 2010].

Dans leurs travaux, ils proposent un algorithme alterné où les fonctions de prédiction sont

apprises avec une régularisation qui promeut leur appartenance à une variété (ou manifold en

anglais). C’est cette variété qui contiendra les connaissances transférées entre tâches.

A priori bayésien

Les méthodes bayésiennes considèrent que les fonctions de décisionf ainsi que les données

d’apprentissage S

n

sont des réalisations de variables aléatoires. Dans un cadre d’apprentissage

bayésien [Bishop 1995], la fonction de décision f est obtenue en utilisant le théorème de Bayes,

qui permet d’obtenir la forme suivante pour la probabilité conditionnelle de f :

P(f|S

n

) = P(S

n

|f)P(f)

P(S

n

) .

Une manière d’obtenir la fonction de décisionf est de maximiser cette probabilité conditionnelle.

Cette approche, aussi connue sous le nom de maximum a posteriori, revient à optimiser le

problème :

max

f∈H

ln(P(S

n

|f)) + ln(P(f)) (3.49)

où le terme ln(P(S

n

)) est retiré car indépendant de la variable f. On reconnaît dans l’équation

(3.49) un problème typique d’apprentissage statistique régularisé. En effet, le premier terme est

le terme d’attache aux données, alors que le second terme est un terme de régularisation. Les

connaissances a priori concernant la fonction de décision peuvent ainsi être ajoutées sous la

forme d’une hypothèse sur la forme de la loi de f.

Il existe tout un pan de l’apprentissage multitâche basé sur des méthodes bayésiennes. Nous

introduisons, dans la suite, un certain nombre de ces méthodes, dont nous omettrons les détails

puisque nos travaux se situent dans un cadre différent.

Une approche bayésienne a été proposée par [Yu 2005] dans le cadre des fonctions de

pré-diction linéaires et des fonctions de prépré-diction non linéaires à base de processus gaussien. Une

application aux signaux ICM a été proposée par [Alamgir 2010] pour des tâches de régression

linéaire. Ils supposent que les paramètresw

t

des fonctions de décision sont des réalisations d’une

loi normale multidimensionnelle N(µ,Σ) d’espérance µet de covariance Σ. Ils utilisent un

al-gorithme alterné pour estimer ces paramètres et apprendre les fonctions linéaires. Le terme de

régularisation qui va promouvoir la vraisemblance de l’ensemble des tâches par rapport à la loi

N(µ,Σ) est :

N

(w

1

,· · ·,w

T

) =X

t

Nous remarquons que, dans cette régularisation, les tâches sont régularisées indépendamment.

En effet, les liens entre les tâches sont intégrés dans les paramètres de la loi normale qui sont

appris simultanément avec les fonctions. Notons aussi que, si l’on suppose que la loi normale a

une matrice de covariance Σ=I, alors ce terme de régularisation est similaire au terme (3.46)

minimisant la variance des fonctions.

Une version bayésienne des clusters de tâches a aussi été proposée par [Xue 2007] qui utilisent

des processus de Dirichlet pour modéliser l’appartenance des tâches à des clusters. Finalement, en

utilisant une approche bayésienne, il est possible d’inférer les relations entre tâches [Bonilla 2008]

ce qui permet d’éviter le choix a priori de ces relations.