• Aucun résultat trouvé

Nous venons d’introduire les bases de la théorie du TO. Dans cette section nous présenterons la formulation du TO pour l’adaptation de domaine tout en réalisant un parallèle entre les travaux existants et notre cas d’étude.

Pour l’adaptation de domaine, les objets à transporter n’ont pas de connotations matérielles, comme une usine de production ou un bien manufacturé. Il s’agit, dans notre cas, de données représentant une observation des sols par télédétection. Le TO s’inscrit dans les méthodes d’adaptation de données : notre objectif consiste à réduire au maximum l’effet des distorsions entre les domaines DS et DC tout en conservant les spécificités

des différentes classes observées. Pour rappel, DS est l’ensemble des échantillons d’une année pour laquelle

les données de référence sont disponibles alors que DC ne contient que les échantillons.

6.2.1

La formulation discrète

Dans le cadre de cette thèse nous avons utilisé la formulation discrète du TO pour l’adaptation de domaine proposée par Courty et al. [Courty et al., 2014]. Une librairie python Python Optimal Transport (POT)

[Flamary and Courty, 2017] permet d’accéder à cette variante.

Posons les notations utilisées dans cette formulation. Soit DS= {xsi, ysi} ns

i=1 où xsi ∈ Rdest un échantillon

de la série temporelle du domaine Source et yi ∈ C son étiquette associée. C représente les valeurs possibles

d’étiquettes. Notons DC= {xsi} nc

i=1 le domaine Cible où seuls les échantillons sont disponibles. Les variables

ns et nc correspondent respectivement au nombre d’échantillons dans le domaine Source et Cible.

La première étape consiste à passer d’un jeu de données multi-variées à des probabilités a priori de chaque classe. Cette étape pose un obstacle majeur dans la plupart des cas d’applications réels, du fait de la grande complexité à estimer cette distribution pour le domaine Source. Il a été montré que le choix de la distribution impacte fortement le résultat du TO [Tuia et al., 2015]. En conclusion, nous estimons préférable de recourir à un équilibrage en amont des classes impliquées dans le transport afin de pouvoir exploiter une distribution uniforme pour tous les échantillons. Ainsi ceux-ci possèdent une masse de probabilité équivalente. Notons µ la distribution empirique associée à chaque domaine, calculée par :

µs= ns X i=1 psiδxs i, µc= nc X i=1 pciδxc i.

Avec :

• pi est la masse de probabilités associée au ièmeéchantillon.

• δxi la distribution de Dirac à la position xi∈ R

d, qui permet ici de discrétiser la fonction de masse.

Les masses de probabilités respectent la loi d’égalité des masses de Monge : Pns

i=1 ps i = nc P i=1 pc i = 1. Dans la

mesure où nous utilisons une distribution uniforme on obtient ps i = 1 ns et p c i = 1 nc.

La figure6.2illustre un problème factice de TO. Trois classes, générées aléatoirement se composent de 10 échantillons chacune. Les deux domaines sont constitués à partir de deux distributions gaussiennes bi-variées disposant de paramètres légèrement différents. Le plan de représentation correspond aux deux composantes, les trois couleurs représentent les classes. Les distorsions entre les deux domaines apparaissent, nettement visibles. Dans cet exemple, nous connaissons les étiquettes de tous les échantillons, mais elles ne sont utilisées qu’à des fins de visualisation.

Échantillons Source

Ech. Source

Échantillons Cible

Ech. Cible

Figure 6.2 : Échantillons, à deux dimensions, du domaine Source et Cible générés aléatoirement selon des distributions gaussiennes. Trois classes sont représentées par des couleurs différentes.

Chaque échantillon possède donc une masse équiprobable associée pour des raisons de simplicité. Il convient alors de calculer la matrice de coût C entre les échantillons des deux domaines.

Au cours de nos expérimentations, nous utilisons la distance euclidienne au carré comme mesure de coût. Ce coût représente la norme de l’écart primitive par primitive entre deux échantillons de la série temporelle :

C(i, j) = kxsi − xc jk

2 2.

La figure6.3présente la matrice de coût correspondant à notre exemple. Dans cette figure, chaque carré représente un coût variant entre une valeur faible, représentée en bleu, ou élevée en jaune. À partir de cette représentation, le couplage optimal entre les échantillons Source (en ligne) et Cible (en colonne) ne peut pas être déterminé.

Le problème de TO que nous souhaitons résoudre est alors de trouver une transformation T : DS → DC

qui met en correspondance les deux domaines, en réduisant les distorsions possibles. Il est attendu que la transformation T conserve les informations associées aux étiquettes, en d’autres termes il doit préserver la distribution conditionnelle Pc(y|xc) = Ps(y|T (xs)). Ainsi,nous ne conserverons que les solutions satisfaisant

10

20

30

40

Figure 6.3 : Matrice de coût associée au jeu de données test.

cette contrainte. L’ensemble des solutions à ce problème est composé de fonctions de couplage γ entre les densités de probabilités des deux domaines :

β= {γ ∈ (R+)ns×nc|γ1

nc= µs, γ

T1

ns = µc},

où 1d est un vecteur unitaire de dimension d. Parmi toutes les solutions γ ∈ β le transport optimal sélection-

nera celle qui minimise le coût total.

La formulation de Kantorovitch devient alors :

γ0= argmin

γ∈β

hγ, CiF.

où :

• C est la matrice de coût

• h., .iF est le produit scalaire de Frobenius

Il s’agit de la formulation discrète de l’Earth Mover’s Distance (EMD), que nous désignerons comme la

méthodeEMD dans la suite du manuscrit.

Nous avons également exploité une version régularisée de l’EMD. Cette variante permet d’éviter que des échantillons proches se dispersent durant le calcul du transport en régularisant l’entropie de la matrice de couplage h(γ) :

h(γ) = −X

i,j

γi,jlog(γi,j).

Le calcul de l’entropie négative est également connue comme la mesure de distance Sinkhorn. Une telle mesure va augmenter le nombre de permutations possibles dans la matrice de couplage et va privilégier la solution possédant la plus haute entropie : celle proposant le moins d’éléments nuls. La formulation du TO devient alors :

γ0λ= argmin

γ∈β

hγ, CiF− 1

où λ est un terme de régularisation. Pour λ très grand, le terme de régularisation tend vers 0 et nous retrouvons le TOEMD. Nous définissons la matrice résultante γ0 par une matrice de permutation entre les

échantillons des deux domaines. La figure 6.4 représente la solution optimale trouvée dans le cas de notre exemple. La colonne de gauche présente la matrice de couplage γ0 (en haut) et les permutations associées

(en bas) pour la résolution EMD, la colonne de droite représente la résolution Sinkhorn. Dans ce problème simple, il se trouve que les permutations sont les mêmes pour les deux algorithmes.

Couplage optimal

EMD

Couplage optimal Sinkhorn

0.000

0.008

0.016

0.024

0.032

0.000

0.008

0.016

0.024

0.032

Permutations EMD

Ech. Source Ech. Cible

Permutations Sinkhorn

Ech. Source Ech. Cible

Figure 6.4 : Matrices de couplage (ligne supérieure) et permutations associées (inférieure) pour les deux algorithmes de résolution EMD (gauche) et Sinkhorn (droite).

Une fois la matrice de permutation calculée, il ne reste plus qu’à réaliser le transport des échantillons Xs

du domaine Source dans le domaine Cible :

ˆ

Xs= diag((γ01nc) −1

0Xc.

Les échantillons transportés ˆXs sont ainsi reliés aux échantillons du domaine cible Xc. Cette équation

permet d’exprimer les échantillons transportés comme des barycentres des échantillons issus de Xcen fonction

des poids fournis dans la matrice de couplage optimale γ0. Ainsi, pour la formulation EMD, si tous les

échantillons à transporter sont inclus dans l’estimation du transport, il s’agit d’une simple opération de permutation entre les échantillons des deux domaines. La figure6.5illustre l’effet de ces deux solutions. Dans cette figure, la colonne de gauche illustre l’EMD pour lequel le couplage est parfait : chaque échantillon se superpose parfaitement à son correspondant. Alors que dans la colonne de droite représentant le Sinkhorn, on remarque nettement l’effet de pondération de chaque échantillon cible impliqué dans le transport.

La projection barycentrique permet également de transporter des échantillons non utilisés lors de l’es- timation de la matrice de couplage. Notons Xs = {X1∪ X2|X1∩ X2 = ∅} l’ensemble des échantillons du

domaine Source. Pour des raisons pratiques, ns >> nc par exemple, le TO est estimé uniquement à partir

Échantillons transportés

EMD

Ech. Cible

Ech. transportés

Échantillons transportés

Sinkhorn

Ech. Cible

Ech. transportés

Figure 6.5 : Échantillons transportés pour les deux algorithmes de résolution EMD (gauche) et Sinkhorn (droite).

à celui exposé jusqu’ici. Lors du transport des échantillons, nous disposons de deux cas pour transporter l’échantillon xi : ˆ Xs= ( ˆxi= ˆX1[i] si xi∈ X1 ˆxi= ˆX1[j] + xi− xj si xi∈ X2

Où l’échantillon xj est le plus proche de xi, au sens de la distance utilisée lors de l’estimation du TO.

6.2.2

L’utilisation des connaissances sur les deux domaines

Nous avons la possibilité d’exploiter des connaissances à priori sur les étiquettes pour les deux domaines. Nous disposons alors du choix entre l’exploitation des étiquettes du domaine Source uniquement, ou bien l’utilisation de celles du domaine Cible également. Concrètement, l’utilisation des étiquettes influence direc- tement la matrice de coût. Au lieu de calculer la distance entre tous les échantillons des deux domaines, le coût n’est calculé qu’entre échantillons d’une même classe. Dans le cas d’échantillons de classes différentes la valeur du coût est définie très grande ce qui réduit les chances pour cette permutation d’être sélectionnée. En d’autres termes on cherche une matrice de permutation par classe. On peut alors envisager de décomposer le problème du TO à N classes, en N sous-problèmes.

L’exploitation des étiquettes du domaine Source uniquement n’a aucun impact sur la matrice de coût. Elles peuvent cependant être utilisées avec une formule de régularisation que nous n’aborderons pas ici [Rakotomamonjy et al., 2015].

La figure 6.6 illustre l’impact de l’utilisation des étiquettes sur la matrice de coût. Nous avons illustré trois cas d’utilisation des étiquettes :

• Non supervisé : seules les étiquettes du domaine Source sont connues

• Semi-supervisé : les étiquettes du domaine Source sont utilisées, et un échantillons sur deux du domaine Cible possède une étiquette

• Supervisé : tous les échantillons des deux domaines ont une étiquette associée

Dans cette figure, la couleur rouge indique la valeur de coût maximale (au moins 100 fois la valeur moyenne), préalablement masquée pour permettre l’affichage de la dynamique des valeurs de coût. Les valeurs rouges impliquent l’interdiction d’un transport entre les échantillons concernés.

Non supervisé Semi-supervisé Supervisé

5

10

15

20

Impact des étiquettes sur la matrice de coût

Figure 6.6 : Matrice de coût et utilisation des étiquettes. Le cas non supervisé : seulement les étiquettes du domaine Source ; Semi-supervisé : un échantillon sur deux du domaine Cible possède une étiquette ; Supervisé : tous les échantillons ont une étiquette.

Les étiquettes du domaine Source peuvent également être utilisées lors du transport des échantillons. Dans ce cas, nous calculons seulement le coût entre échantillons d’une même classe avant de réaliser la projection barycentrique. Cette utilisation produit alors les mêmes résultats que l’estimation pour un transport de chaque classe indépendamment.