• Aucun résultat trouvé

transfert de connaissances entre les domaines est r´ealis´e.

Nous nous pla¸cons dans le cadre de l’adaptation entre les domaines(AD) [133]. C’est

une m´ethode d’apprentissage par transfert permettant d’effectuer une tˆache d’adaptation

d’un syst`eme d’apprentissage d’un domaine source vers un domaine cible, (on parle aussi

d’adaptation de domaine multi-sources lorsque plusieurs domaines sources sont disponibles

[51,75,134]). La figure 5.1 donne la distinction entre l’apprentissage automatique classique

et l’apprentissage par transfert. La principale diff´erence entre ces deux th´ematiques r´eside

au fait que les donn´ees disponibles dans les diff´erents domaines d’apprentissage peuvent ˆetre

compl`etement diff´erents dans le cas du transfert par adaptation alors qu’elles doivent suivre

la mˆeme distribution et avoir les mˆemes caract´eristiques pour l’apprentissage classique.

L’objectif est d’apprendre une fonction de pr´ediction f `a partir d’´echantillons ´etiquet´es ou

non, issus des deux domainesD

S

etD

T

, de telle sorte que la fonction f puisse permettre

au mieux l’´etiquetage de nouvelles donn´ees issues du domaine cibleD

T

.

Tâches source et

cible identiques? cible identiques? Tâches source et

Domaines source

et cibles

identiques ?

Apprentissage

traditionnel

Apprentissage par

transfert inductif

Apprentissage par

transfert transductif

Apprentissage par

transfert non supervisé

Non

Oui

Oui

Non

Oui

Non

Apprentissage autodidacte, Apprentissage multitâches, Etc. Adaptation de domaine, Biais de sélection d’échantillons, Covariance Shift,

Etc.

Apprentissage partagé

Figure5.1 – Positionnement de l’adaptation entre les domaine au sein de l’apprentissage

automatique

5.3 Adaptation par transfert partag´e entre les domaines

D’un point de vue th´eorique, la performance d’un classifieur a de meilleures garanties

de g´en´eralisation lorsque les distributions marginales des donn´ees du training (source) et du

testing (cible) sont assez similaires [135]. Lorsque ces donn´ees proviennent de deux domaines

dont les distributions marginales sont diff´erentes, il faut ´evidemment trouver un moyen de

maximiser la similarit´e (ou minimiser la dis-similarit´e) entre les domaines pour am´eliorer

la performance de classification sur la base des donn´ees utilis´ees. Unifier ou homog´en´eiser

Section 5.3 – Adaptation par transfert partag´e entre les domaines

les distributions marginales des donn´ees devient une n´ecessit´e. De nombreux crit`eres, tels

que la divergence Kullback-Leibler (KL) [136], peuvent ˆetre utilis´es pour optimiser le crit`ere

bas´e sur la distance. Cependant, beaucoup d’estimateurs sont param´etriques ou n´ecessitent

une estimation de densit´e interm´ediaire. R´ecemment, une estimation de distance non

pa-ram´etrique a ´et´e con¸cue en int´egrant des distributions dans un espace de Hilbert `a noyau

reproduisant (RKHS) [42]. Ces m´ethodes, g´en´eralement bas´ees sur le noyau font appel `a

la d´ecomposition en valeurs propres et vecteurs propres pour trouver l’espace de nouvelle

repr´esentation. Pour ´eviter ce type de technique assez dense, nous proposons d’utiliser

l’ali-gnement de sous-espace (SA) avec l’approximation rapide de la SVD pour une r´ealisation

efficace du transfert entre les domaines. Pour la suite de cette section, nous pr´esentons

d’abord la m´ethode SA dans la section 5.3.1 puis la m´ethode propos´ee dans la section 5.3.2.

5.3.1 M´ethode d’alignement des sous-espaces

La m´ethode d’alignement de espace (SA) met l’accent sur l’utilisation du

sous-espace g´en´er´e par la m´ethode ACP afin de faire une adaptation entre les domaines. Pour

une explication compl`ete de la m´ethode SA, nous invitons les lecteurs `a cette r´ef´erence [56].

L’id´ee de base est d’appliquer l’ACP sur l’´echantillon source,X

S

et l’´echantillon cible,X

T

s´epar´ement en choisissant un espace de dimension commune ´egale `akinf´erieure `a la

dimen-sion de l’espace d’origine,d. Cela conduit `a l’obtention de deux matrices de projection G

S

etGT. Ensuite, d’aligner les donn´ees sources projet´ees avec les donn´ees cibles projet´ees dans

le sous-espace commun en utilisant une matrice d’alignement sous-espaceGa =G

S

G

TS

G

T

.

Pour ce faire, la m´ethode SA propose de r´eduire l’´ecart entre les domaines en rapprochant

les sous-espaces source et cible de sorte que :

G

=argmin

G

kG

S

GG

T

k

2

F

, (5.1)

o`uk.k

2

F

d´esigne la norme de Frobenius et Gest la matrice de transformation qui rapproche

les bases source et cible, GS et GT respectivement. La norme de Frobenius est invariante

aux op´erations orthonormales [37], et comme le sous-espace source et cible est engendr´e par

des matrices de projection orthonormale, il en r´esulte que

G

=argmin

G

kG

TS

G

S

GG

TS

G

t

k

2F

=argmin

G

kGG

TS

Gtk

2F

. (5.2)

De l’´equation (5.2), on peut voir que la matrice de transformation optimale peut ˆetre donn´ee

par

G

=G

TS

G

T

,

puisque les matrices de projection sont orthogonales et G

Ts

Gs = I. Par cons´equent, la

matrice de projection source align´ee dans le sous-espace cible est d´efinie par

G

a

=G

S

G

=G

S

G

TS

G

T

.

La projection des donn´ees source `a travers la matrice de projection G

a

, permet de

transformer lin´eairement les donn´ees o`u les distributions des donn´es sources et celles du

Section 5.3 – Adaptation par transfert partag´e entre les domaines

domaine cible sont align´ees et minimisant la distance entre les deux domaines. Le choix du

nombre de composantesd(dp), utiles `a s´electionner est d´etaill´e dans [69]. Nous avons vu

dans le chapitre 3, les limites de l’ACP lorsque la dimension est tr`es ´elev´ee. Les composantes

principales sont obtenues par d´ecomposition en valeurs singuli`eres de la matrice de donn´ees

X ∈ R

n×d

ou de la diagonalisation de la matrice de covariance Σ ∈ R

d×d

. En terme de

temps de calcul, cela devient parfois irr´ealisable lorsque d tend vers l’infini. Pour r´eduire

le coˆut de calcul, dans le chapitre 4, nous avons pr´esent´e une m´ethode de r´eduction de

dimension, approximation rapide de la SVD (FESVD), dont le but est de r´ealiser de fa¸con

rapide et efficace une approximation de la SVD. Nous nous sommes inspir´es de la m´ethode

SA pr´esent´ee par Fernando et al. pour proposer une m´ethode d’approximation d’adaptation

entre les domaines `a grande dimension.

5.3.2 Approximation rapide d’alignement des sous-espaces

Les approches existantes deviennent impossibles `a utiliser lorsque le nombre de variables

enregistr´ees devient trop important [137,138]. Ici, nous sugg´erons d’utiliser une alternative

d’apprentissage par transfert de connaissance dans un contexte de grande dimension.

Pour r´ealiser cette tˆache, nous nous sommes inspir´es des m´ethodes qui utilisent la r´

educ-tion de dimension pour une nouvelle repr´esentation de donn´ees. Consid´erons les donn´ees du

domaine source et du domaine cibleX

S

∈R

m×d

etX

T

∈R

n×d

, respectivement, etP

S

6=P

T

,

nous avons utilis´e la m´ethode de [56] pour appliquer l’alignement des sous-espaces

carac-t´eristique. L’algorithme 4.2 (FESVD) pr´esent´e dans le chapitre 4, permet de calculer une

matrice de projectionG. Le principe de la m´ethode de transfert est d’utiliser un alignement

des sous-espaces o`u la matrice de projection est calcul´ee de mani`ere ´economique. Pour la

suite, nous nommons la m´ethode :

Approximation rapide des sous-espace pour adaptation des domaines (ASA-DA)

Le but de cette approche est d’adapter l’approximation rapide de la SVD (FESVD), au

lieu d’utiliser la m´ethode d’ACP classique [69]. ´Etant donn´e deux domaine sources et cible,

les matrices de projection G

S

et G

T

peuvent ˆetre calcul´ees directement avec la m´ethode

FESVD. Nous pouvons ainsi ´evaluer l’alignement des sous-espaces `a travers la matrice Ga.

L’algorithme 5.1 donne les ´etapes principales de l’approximation de l’alignement de

sous-espace propos´e pour transfert entre les domaines (ASA-DA). L’id´ee derri`ere ASA-DA est de

r´ealiser l’apprentissage par transfert sans aucun param`etre de r´egularisation n´ecessaire dans

la fonction objective comme c’est impos´ee par beaucoup d’autres m´ethodes [72, 139]. La

matriceSrepr´esente les nouvelles donn´ees source align´ees dans un sous-espace commun aux

nouvelles donn´ees cible T. Dans ce sous-espace commun au deux domaines, la divergence

des distribution est minimis´ee. Un classifieur r´ealis´e sur la matriceS permet de construire

un mod`ele d’apprentissage capable de classifier les ´echantillons de donn´ees de la matriceT.