• Aucun résultat trouvé

dans l’ensemble d’entraînement peut impliquer que les techniques d’adaptation du domaine empirent les résultats. Nous proposons également des méthodes pour résoudre ce problème.

D.2 Résumés des chapitres

D.2.1 Chapitre 1

Dans ce premier chapitre nous proposons des connaissances de bases utiles à la compréhension de cette thèse. Nous commençons par des généralités sur l’apprentissage automatique, nous décrirons notamment l’apprentissage supervisé ou non et justifierons notre choix d’utiliser des approches supervisées. Nous continuerons avec la présentation de différents algorithmes d’apprentissage automatique. Tout d’abord nous présentons des algorithmes d’apprentissage profond, sur lesquels cette thèse se concentre. Nous partirons des premières et plus simples architectures profondes, pour ensuite montrer des architectures de pointe spécialisées dans les tâches de classification d’images, telles que le problème de Bluecime. Pour terminer sur l’apprentissage profond nous présentons différentes techniques et astuces utilisées pour op-timiser l’entraînement d’architectures profondes. Nous présentons ensuite deux algorithmes d’apprentissage automatique que nous utilisons dans le chapitre 4: la régression logistique et les machines à vecteurs de support linéaires.

Par la suite nous introduisons le concept d’adaptation de domaine. Il s’agit d’apprendre un modèle à partir d’exemple étiquetés provenant d’une ou plusieurs distribution source pour l’appliquer sur des exemples non labellisés provenant d’une distribution cible. Nous présentons différentes techniques d’adaptation de domaine en général, puis nos donnerons plus de détails sur des méthodes spécifiques à apprentissage profond.

Nous finissons ce chapitre par la présentation des challenges induits par l’apprentissage de modèle sur des données déséquilibrées (c’est à dire ayant une ou plusieurs classes peu représentées dans les données). Nous introduisons alors la F-mesure, une mesure de perfor-mance conçue pour les cas déséquilibré, et présentons différents papiers tentant d’apprendre des modèles optimisant cette mesure.

D.2.2 Chapitre 2

Dans ce chapitre, nous commençons par introduire les différentes bases de données utilisées dans cette thèse. D’abord des bases de données ouvertes que nous utilisons pour fournir des résultats comparables à la littérature, mais aussi qui puissent être reproduites. Puis, nous présentons les données de Bluecime en détails.

Ensuite, nous présentons les différentes configurations de nos expériences. Nous proposons notamment trois principales configurations: OOC, où une expérience consiste à utiliser des données d’une même remontée en entraînement et en test. Cette configuration devrait donner les meilleurs résultats mais requière une importante quantité de données pour chaque télésiège. ALL, cette configuration consiste à mélanger, et dans l’ensemble d’entraînement et dans celui de test, les exemples provenant de toutes les remontées. Dans cette configurations, l’ensemble

d’entraînement est le plus fourni possible et présente une forte variété, utile à l’apprentissage de réseaux neuronaux, notamment pour améliorer la généralisation. Nous devrions donc, ici, obtenir de meilleurs résultats qu’avec la configuration OOC, notamment sur les remontées les moins représentées. La dernière configurations est LOCO, il s’agit d’utiliser les exemples d’une remontée en test et d’entraîner le modèles avec les exemples des autres remontées. Cette configuration simule les résultats de nos modèles dans le cas de télésièges nouvellement instal-lés, et donc sans donnée étiqueté. Comme il s’agit d’utiliser des données d’autres remontées sur une remontées non étiqueté on s’attend ici à avoir de moins bonnes performances que OOC ou ALL. Cependant elle permet d’évaluer nos méthodes lors d’un démarrage à froid du système, voire d’étudier la possibilité de se passer d’étiquettes qui prennent du temps à obtenir.

Nous concluons ce chapitre par la présentation des mesures de performance utilisées pour évaluer les performances de nos méthodes dans les différentes configurations.

D.2.3 Chapitre 3

Ce chapitre est dédié à la présentation du choix de notre architecture de base, des stratégies d’augmentation de donnée que nous utilisons et que nous avons développées, et on conclue ce chapitre par la présentation des résultats de référence obtenus dans les différentes configura-tions introduites dans le chapitre précédent. Nous commençons donc par présenter en détails l’architecture ResNet que nous avons choisie d’utiliser dans cette thèse. Nous fournissons en-suite des détails sur l’entraînement (fonction de coût utilisée et constitution des minibatches). Nous montrons également une comparaison entre différentes architectures en termes de per-formances mais aussi de temps de calcul, ce qui nous mène à privilégier l’architecture ResNet. Par la suite, nous présentons les augmentations de données que nous utilisons, puis la stratégie d’augmentation de données que nous proposons comme contribution. Cette stratégie consiste à masquer des zones dans les images au cours de l’entraînement. Si cacher une zone implique que l’image devient difficile à classer pour le réseau (voire implique une erreur de classification), on ajoute cette image à la base de données. Par ce processus nous augmentons la taille de la base de données, et en plus, nous ajoutons des images difficiles à classer. Cette stratégie nous permet donc d’éviter que le réseau ne se concentre que sur des zones réduites des images, ce qui le rend plus robuste.

Finalement nous montrons les performances de notre méthode de base sur les différentes configurations, nous montrons également l’apport de l’adaptation de domaine.

D.2.4 Chapitre 4

Ce chapitre nous permet d’introduire nos deux contributions pour l’optimisation de la F-mesure. Tout d’abord nous présentons une méthode basée sur l’apprentissage par pondéra-tion des erreurs guidant l’entraînement vers un gain en F-mesure. Régulièrement, pendant l’entraînement, les poids utilisés sont mis à jour comme suit : tout l’ensemble d’entraînement est passé dans le réseau pour obtenir les prédictions correspondantes, et à partir des ces

D.2. Résumés des chapitres 147

prédictions on obtient une valeur de F-mesure. Chaque erreur est alors pondérée selon la dif-férence entre cette valeur de F-mesure et celle qu’on aurait obtenue si l’erreur n’avait pas été commise (donc si un faux négatif avait été un vrai positif, ou si un faux positive avait été un vrai négatif). On obtient donc un poids différent selon la classe de l’exemple correspondant, on va donc mettre plus de poids sur les classes impliquant le plus grand gain en F-mesure possible.

Notre seconde méthode d’optimisation de la F-mesure est également basée sur de l’apprentissage par pondération des erreurs. Nous avons aussi un poids différent pour chaque classe, qui, ici, dépend d’un paramètre t. Une borne théorique sur la F-mesure nous donne, à partir de la F-mesure obtenue par un classifieur entraîné avec un t donné, la F-mesure maximale que l’on

peut obtenir avec un classifieur entraîné avec un paramètre t0 dans le voisinage de t. Nous

proposons donc un algorithme basé sur cette borne où on entraîne des classifieurs itérative-ment de sorte qu’on explore l’espace (F m, t) jusqu’à converger vers la plus haute F-mesure atteignable selon notre borne.

D.2.5 Chapitre 5

Dans ce dernier chapitre, nous commençons par proposer une méthode pour améliorer l’adaptation de domaine, tout particulièrement dans le cas multisource. Cette méthode consiste à sélec-tionner les domaines sources les plus proches du domaine cible, afin d’éliminer les sources non pertinentes pouvant introduire le phénomène de “transfert négatif” nuisant aux performances du modèle. Cette méthode se déroule en 4 étapes : d’abord on calcul les distance entre le do-maine cible et chaque dodo-maine source (via la distance de Wasserstein). Ensuite on transforme ces distances via une fonction de score que l’on normalisera pour obtenir un vecteur de prob-abilités de sélection de domaine source. Durant cette étape, on ajoute un paramètre optimisé de sorte que les sources sélectionnées constituent un ensemble d’entraînement avec suffisam-ment de variété pour entraîner correctesuffisam-ment le modèle. Finalesuffisam-ment pendant l’entraînesuffisam-ment, le vecteur de probabilités est utilisé pour modifier la distribution des domaines de sorte que les domaines les plus pertinents soient plus représentés que les domaines moins pertinents (qui peuvent être totalement éliminés).

Dans un second temps, nous nous proposons d’étudier les résultats d’adaptation de do-maine dans le cas multisource avec une distribution de classe variable entre les dodo-maines. En effet, on observe qu’utiliser une technique d’adaptation de domaine classique dans cette configuration peut impliquer une perte en performance par rapport à un modèle entraîné sans adaptation de domaine. À partir de cette observation nous évaluons deux solution possibles. D’abord l’utilisation de pseudo-étiquettes sur l’ensemble cible, obtenues à partir des prédic-tions d’un modèle entraîné uniquement sur les domaines sources. Ces pseudo-étiquettes nous permettent alors de changer artificiellement l’équilibrage des classes cibles et sources. Une deuxième solution consiste à utiliser une technique d’adaptation de domaine qui prend en compte la distribution des classes lors de l’adaptation. Nous proposons d’utiliser la méthode DeepJDOT.

Documents relatifs