• Aucun résultat trouvé

La classification naïve et SAP permettent de mettre en lumière un problème concret. Les distorsions entre les années sont trop importantes pour qu’un classifieur, même aussi robuste qu’un RF, puisse passer outre de lui même.

L’apport du ré-échantillonnage temporel est indéniable, puisqu’il permet l’utilisation de ces approches de classification.

Ces deux approches nous ont permis de mettre l’accent sur plusieurs points :

1. Les distorsions n’ont pas le même impact en fonction des classes lors de la classification.

2. Le ré-échantillonnage temporel peut avoir un effet négatif lorsque le signal est fortement dégradé par la présence de nuages dans la procédure PAS.

3. LeRFreste très performant malgré les distorsions et les mélanges d’échantillons entre les années. 4. L’écart entre le cas naïf et supervisé reste tout de même conséquent.

Dans le reste de ce manuscrit nous allons mettre à l’épreuve diverses méthodes existantes dans la littérature issues notamment de l’adaptation de domaine, et des approches de fusion. L’accent sera mis, dans la mesure du possible, sur la comparaison des performances de chaque méthodes vis à vis de la classification naïve. Ces comparaisons porteront à la fois sur les métriques standards de validation de classification mais également sur l’effort requis à l’exploitation d’une méthode et son temps de calcul.

Troisième partie

Propositions de méthodes exploitant

un unique domaine Source

CHAPITRE

4

Exploiter un historique

Précédemment, nous avons mis en lumière l’apport de la télédétection et des nouvelles techniques automa- tiques pour la production de cartes d’OCS. Nous avons également mis en évidence un certain nombre de contraintes liées à leur utilisation, notamment la dépendance aux données de référence, obligatoires pour réaliser une classification supervisée. Cette dépendance induit des délais importants dans le cadre d’une production opérationnelle, mais interdit également toute tentative de classification d’une période antérieure, pour laquelle les données de référence n’auraient pas été acquises. De plus, des distorsions complexifient une exploitation des données de référence d’une période différente à celle de son acquisition. Ce condensé du sujet de thèse correspond à une des définitions d’un des plus grands volets de l’AA : leTransfert d’Apprentissage

(Transfer Learning) (TA) et notamment l’Adaptation de Domaine. Ces techniques, très utilisées en vision

par ordinateur [Patel et al., 2015] proposent des solutions permettant la classification d’un Domaine Cible

DC pauvre en données de référence, à partir d’informations issues du Domaine Source DS, pour lequel les

données de référence sont disponibles.

4.1

Transfert d’apprentissage

Le Transfert d’Apprentissage (Transfer Learning) (TA) trouve son origine dans un processus simple, que

nous pourrions qualifier de naturel. En effet, généralement, on préfère exploiter des connaissances acquises au préalable et les adapter à un problème similaire, plutôt que chercher des solutions relevant d’un nouvel apprentissage, ou de la recherche empirique.

Les domaines d’application du TA constituent un ensemble très varié. Il prédomine en traitement auto- matique du langage et la reconnaissance d’image par exemple. Ces domaines d’apprentissage, qui exploitent des algorithmes ayant une forte complexité calculatoire, constituent une situation favorable au TA. En effet, il permet d’optimiser ces traitements en exploitant au maximum des classifieurs déjà entraînés.

La figure4.1illustre les différents éléments constituants le TA [Pan and Yang, 2010]. Dans cette figure, nous distinguons différentes catégories d’algorithmes (cadres bleus) et les conditions requises à leur exploitation

(cadres verts). En TA, l’objectif consiste à produire une classification du DC. Un premier critère d’exploitation

concerne la disponibilité des étiquettes (et donc des données de référence), amenant aux trois catégories de TA :

1. Le TA inductif : on cherche à améliorer les performances dans le DC grâce à la connaissance des

étiquettes dans DS

2. Le TA transductif : on cherche à classer les échantillons appartenant au DC à partir des connaissances

sur les étiquettes du DS

3. Le TA non supervisé : on ne possède aucune étiquettes sur DS et DC

Le TA inductif considère que nous possédons les étiquettes d’échantillons sur le domaine Cible mais que nous souhaitons améliorer les performances et la généralisation du classifieur en introduisant les connaissances issues du domaine Source. Deux cas de figures se présentent alors en fonction de l’étiquetage du DS.

En cas d’absence d’étiquettes pour le DS, nous pouvons exploiter les algorithmes d’auto apprentis-

sage [Raina et al., 2007]. En résumé, les auteurs exploitent les échantillons non étiquetés afin d’extraire une représentation plus abstraite (haut-niveau) des échantillons étiquetés amenant à l’apprentissage d’un classifieur supervisé plus performant. Cette approche exploite des domaines pouvant s’avérer totalement di- vergents (images d’animaux en cible et images de paysage en source). Déterminer des caractéristiques dans la structure des images afin de révéler des zones fortement corrélées, demeure l’attrait principal de cet algo- rithme.

À l’inverse lorsque les deux domaines possèdent des étiquettes, le TA réalise un apprentissage multi-tâches, consistant à procéder à l’apprentissage des deux domaines simultanément. L’apprentissage multi-tâche est très utilisés dans des problèmes d’optimisation de coût. Dans le contexte du TA, le but du classifieur se rapproche de la sélection de primitives pertinentes pour la classification du domaine Cible. Les contraintes sur les primitives sont exprimées sous la forme d’équations de minimisation, résolues par diverses approches [Rückert and Kramer, 2008,Jebara, 2004,Argyriou et al., 2007].

Le TA transductif semble le plus proche des conditions de notre cas d’étude. En effet, cette approche exploite seulement les étiquettes du domaine Source. Deux hypothèses sont envisagées :

• deux domaines différents avec une seule tâche de classification. • un domaine unique associé à une tâche de classification ;

La première hypothèse semblerait la branche la plus en adéquation avec nos travaux : on considère deux domaines différents reliés (une même emprise avec des distorsions), dans lequel on exploitera les informations issues du domaine Source pour classer le domaine Cible. Cette branche amène aux méthodes d’adaptation de domaine, qui sont présentés dans la section suivante.

Dans la seconde hypothèse, la classification concerne une partie non étiquetée du domaine Source, par exemple une zone différente d’une même image. Ce cas d’étude est fréquent, lors d’une acquisition d’une image en plusieurs passages, dans des conditions d’illumination ou d’angle de vue variés par exemple. Dans ces conditions, les approches exploitées pour traiter le biais de sélection apportent des éléments de réponses à la résolution du TA transductif. Le terme “biais de sélection” désigne en statistique, une erreur systématique commise lors de la sélection des échantillons. Le jeu d’échantillons ainsi sélectionné ne constitue pas un ensemble représentatif du problème étudié. La classification supervisée est toujours soumise à ce dilemme

(cf compromis biais-variance) pour lequel, généralement, on recourt à une équation de minimisation des risques de sélection. On évalue généralement le risque comme une probabilité à posteriori déterminée par une fonction de coût. Le TA cherche le transfert d’un classifieur issu du domaine Source vers le domaine Cible par l’introduction des échantillons de ce dernier dans l’équation de minimisation. De nombreuses approches existent afin de résoudre ce problème de minimisation, exploitant des mesures issues de plusieurs classifieurs [Fan et al., 2005], des méthodes à noyaux cherchant à associer les moyennes des domaines [Huang et al., 2007], ou plus généralement une des nombreuses techniques utilisées pour la classification supervisée [Quionero- Candela et al., 2009].

Enfin la dernière catégorie de TA, exploite de manière non supervisée les deux domaines, et élabore des parallèles entre eux afin de faciliter les algorithmes comme le clustering [Dai et al., 2008] ou la réduction de dimension [Wang et al., 2008]. On utilise fréquemment cette dernière pour réduire le volume de données, en sélectionnant des primitives pertinentes, ou en regroupant des primitives non corrélées sous forme d’indices. Cette étape facilite alors l’exploitation des méthodes souffrant de difficultés de gestion de données de très grandes dimensions. L’approche non supervisée autorise les différences entre les deux domaines, tant qu’ils demeurent reliés, dans notre cas d’étude nous pouvons traduire cette contrainte comme une stabilité des classes d’OCS et du climat (zone écoclimatique).

Transfert d’apprentissage Inductif Transductif Non su- pervis´e Auto apprentissage Apprentissage multi-tˆaches Adaptation de domaine Biais de s´election Pas d’´etiquettes

dans les deux domaines ´ Etiquettes uniquement pour le domaine Source ´ Etiquettes disponibles pour le domaine Cible Pas d’´etiquettes pour le domaine Source ´ Etiquettes pour le domaine Source Les domaines sont diff´erents Domaine unique

Figure 4.1 : Une vue d’ensemble des différentes configurations du transfert d’apprentissage.