transfert de connaissances entre les domaines est r´ealis´e.
Nous nous pla¸cons dans le cadre de l’adaptation entre les domaines(AD) [133]. C’est
une m´ethode d’apprentissage par transfert permettant d’effectuer une tˆache d’adaptation
d’un syst`eme d’apprentissage d’un domaine source vers un domaine cible, (on parle aussi
d’adaptation de domaine multi-sources lorsque plusieurs domaines sources sont disponibles
[51,75,134]). La figure 5.1 donne la distinction entre l’apprentissage automatique classique
et l’apprentissage par transfert. La principale diff´erence entre ces deux th´ematiques r´eside
au fait que les donn´ees disponibles dans les diff´erents domaines d’apprentissage peuvent ˆetre
compl`etement diff´erents dans le cas du transfert par adaptation alors qu’elles doivent suivre
la mˆeme distribution et avoir les mˆemes caract´eristiques pour l’apprentissage classique.
L’objectif est d’apprendre une fonction de pr´ediction f `a partir d’´echantillons ´etiquet´es ou
non, issus des deux domainesD
SetD
T, de telle sorte que la fonction f puisse permettre
au mieux l’´etiquetage de nouvelles donn´ees issues du domaine cibleD
T.
Tâches source et
cible identiques? cible identiques? Tâches source et
Domaines source
et cibles
identiques ?
Apprentissage
traditionnel
Apprentissage par
transfert inductif
Apprentissage par
transfert transductif
Apprentissage par
transfert non supervisé
Non
Oui
Oui
Non
Oui
Non
Apprentissage autodidacte, Apprentissage multitâches, Etc. Adaptation de domaine, Biais de sélection d’échantillons, Covariance Shift,Etc.
Apprentissage partagé
Figure5.1 – Positionnement de l’adaptation entre les domaine au sein de l’apprentissage
automatique
5.3 Adaptation par transfert partag´e entre les domaines
D’un point de vue th´eorique, la performance d’un classifieur a de meilleures garanties
de g´en´eralisation lorsque les distributions marginales des donn´ees du training (source) et du
testing (cible) sont assez similaires [135]. Lorsque ces donn´ees proviennent de deux domaines
dont les distributions marginales sont diff´erentes, il faut ´evidemment trouver un moyen de
maximiser la similarit´e (ou minimiser la dis-similarit´e) entre les domaines pour am´eliorer
la performance de classification sur la base des donn´ees utilis´ees. Unifier ou homog´en´eiser
Section 5.3 – Adaptation par transfert partag´e entre les domaines
les distributions marginales des donn´ees devient une n´ecessit´e. De nombreux crit`eres, tels
que la divergence Kullback-Leibler (KL) [136], peuvent ˆetre utilis´es pour optimiser le crit`ere
bas´e sur la distance. Cependant, beaucoup d’estimateurs sont param´etriques ou n´ecessitent
une estimation de densit´e interm´ediaire. R´ecemment, une estimation de distance non
pa-ram´etrique a ´et´e con¸cue en int´egrant des distributions dans un espace de Hilbert `a noyau
reproduisant (RKHS) [42]. Ces m´ethodes, g´en´eralement bas´ees sur le noyau font appel `a
la d´ecomposition en valeurs propres et vecteurs propres pour trouver l’espace de nouvelle
repr´esentation. Pour ´eviter ce type de technique assez dense, nous proposons d’utiliser
l’ali-gnement de sous-espace (SA) avec l’approximation rapide de la SVD pour une r´ealisation
efficace du transfert entre les domaines. Pour la suite de cette section, nous pr´esentons
d’abord la m´ethode SA dans la section 5.3.1 puis la m´ethode propos´ee dans la section 5.3.2.
5.3.1 M´ethode d’alignement des sous-espaces
La m´ethode d’alignement de espace (SA) met l’accent sur l’utilisation du
sous-espace g´en´er´e par la m´ethode ACP afin de faire une adaptation entre les domaines. Pour
une explication compl`ete de la m´ethode SA, nous invitons les lecteurs `a cette r´ef´erence [56].
L’id´ee de base est d’appliquer l’ACP sur l’´echantillon source,X
Set l’´echantillon cible,X
Ts´epar´ement en choisissant un espace de dimension commune ´egale `akinf´erieure `a la
dimen-sion de l’espace d’origine,d. Cela conduit `a l’obtention de deux matrices de projection G
SetGT. Ensuite, d’aligner les donn´ees sources projet´ees avec les donn´ees cibles projet´ees dans
le sous-espace commun en utilisant une matrice d’alignement sous-espaceGa =G
SG
TSG
T.
Pour ce faire, la m´ethode SA propose de r´eduire l’´ecart entre les domaines en rapprochant
les sous-espaces source et cible de sorte que :
G
∗=argmin
G
kG
SG−G
Tk
2F
, (5.1)
o`uk.k
2F
d´esigne la norme de Frobenius et Gest la matrice de transformation qui rapproche
les bases source et cible, GS et GT respectivement. La norme de Frobenius est invariante
aux op´erations orthonormales [37], et comme le sous-espace source et cible est engendr´e par
des matrices de projection orthonormale, il en r´esulte que
G
∗=argmin
GkG
TSG
SG−G
TSG
tk
2F=argmin
GkG−G
TSGtk
2F. (5.2)
De l’´equation (5.2), on peut voir que la matrice de transformation optimale peut ˆetre donn´ee
par
G
∗=G
TSG
T,
puisque les matrices de projection sont orthogonales et G
TsGs = I. Par cons´equent, la
matrice de projection source align´ee dans le sous-espace cible est d´efinie par
G
a=G
SG
∗=G
SG
TSG
T.
La projection des donn´ees source `a travers la matrice de projection G
a, permet de
transformer lin´eairement les donn´ees o`u les distributions des donn´es sources et celles du
Section 5.3 – Adaptation par transfert partag´e entre les domaines
domaine cible sont align´ees et minimisant la distance entre les deux domaines. Le choix du
nombre de composantesd(dp), utiles `a s´electionner est d´etaill´e dans [69]. Nous avons vu
dans le chapitre 3, les limites de l’ACP lorsque la dimension est tr`es ´elev´ee. Les composantes
principales sont obtenues par d´ecomposition en valeurs singuli`eres de la matrice de donn´ees
X ∈ R
n×dou de la diagonalisation de la matrice de covariance Σ ∈ R
d×d. En terme de
temps de calcul, cela devient parfois irr´ealisable lorsque d tend vers l’infini. Pour r´eduire
le coˆut de calcul, dans le chapitre 4, nous avons pr´esent´e une m´ethode de r´eduction de
dimension, approximation rapide de la SVD (FESVD), dont le but est de r´ealiser de fa¸con
rapide et efficace une approximation de la SVD. Nous nous sommes inspir´es de la m´ethode
SA pr´esent´ee par Fernando et al. pour proposer une m´ethode d’approximation d’adaptation
entre les domaines `a grande dimension.
5.3.2 Approximation rapide d’alignement des sous-espaces
Les approches existantes deviennent impossibles `a utiliser lorsque le nombre de variables
enregistr´ees devient trop important [137,138]. Ici, nous sugg´erons d’utiliser une alternative
d’apprentissage par transfert de connaissance dans un contexte de grande dimension.
Pour r´ealiser cette tˆache, nous nous sommes inspir´es des m´ethodes qui utilisent la r´
educ-tion de dimension pour une nouvelle repr´esentation de donn´ees. Consid´erons les donn´ees du
domaine source et du domaine cibleX
S∈R
m×detX
T∈R
n×d, respectivement, etP
S6=P
T,
nous avons utilis´e la m´ethode de [56] pour appliquer l’alignement des sous-espaces
carac-t´eristique. L’algorithme 4.2 (FESVD) pr´esent´e dans le chapitre 4, permet de calculer une
matrice de projectionG. Le principe de la m´ethode de transfert est d’utiliser un alignement
des sous-espaces o`u la matrice de projection est calcul´ee de mani`ere ´economique. Pour la
suite, nous nommons la m´ethode :
Approximation rapide des sous-espace pour adaptation des domaines (ASA-DA)
Le but de cette approche est d’adapter l’approximation rapide de la SVD (FESVD), au
lieu d’utiliser la m´ethode d’ACP classique [69]. ´Etant donn´e deux domaine sources et cible,
les matrices de projection G
Set G
Tpeuvent ˆetre calcul´ees directement avec la m´ethode
FESVD. Nous pouvons ainsi ´evaluer l’alignement des sous-espaces `a travers la matrice Ga.
L’algorithme 5.1 donne les ´etapes principales de l’approximation de l’alignement de
sous-espace propos´e pour transfert entre les domaines (ASA-DA). L’id´ee derri`ere ASA-DA est de
r´ealiser l’apprentissage par transfert sans aucun param`etre de r´egularisation n´ecessaire dans
la fonction objective comme c’est impos´ee par beaucoup d’autres m´ethodes [72, 139]. La
matriceSrepr´esente les nouvelles donn´ees source align´ees dans un sous-espace commun aux
nouvelles donn´ees cible T. Dans ce sous-espace commun au deux domaines, la divergence
des distribution est minimis´ee. Un classifieur r´ealis´e sur la matriceS permet de construire
un mod`ele d’apprentissage capable de classifier les ´echantillons de donn´ees de la matriceT.
Dans le document
Méthodes aléatoires pour l’apprentissage de données en grande dimension : application à l'apprentissage partagé
(Page 90-93)