Dans cette thèse, nous avons étudié des techniques permettant d’aborder le problème de sécurité des télésièges de Bluecime et les différents défis qu’il implique :

1. la grande variété de télésièges et de conditions météorologiques ;

2. l’absence de données étiquetées (surtout pour les télésièges nouvellement installés) ; 3. le déséquilibre dans les données ;

4. la contrainte temps réel.

De plus, ces défis ne sont pas indépendants. Par exemple, nous avons vu que les techniques d’adaptation de domaine, utilisées pour résoudre les deux premiers défis, sont pénalisées par le troisième. Cependant, nous avons réussi à développer des techniques efficaces (basées prin-cipalement sur l’apprentissage profond) pour améliorer le système de Bluecime. Actuellement, des techniques d’apprentissage profond sont implémentées dans SIVAO, pour le comptage de

passagers et la détection de bulles (la bulle de verre sur Chair. D dans la Fig. 2.2). Toutes

deux offrent d’excellentes performances et confirment le potentiel des techniques basées sur l’apprentissage profond pour résoudre le problème de Bluecime.


La première contribution présentée dans cette thèse consistait à fournir un pipeline complet de découverte des connaissances (définition des tâches, prétraitement des données, modèle et cadre d’évaluation) pour le jeu de données Bluecime. Nous avons proposé d’explorer des configurations entièrement supervisées (OOC et ALL), mais aussi une configuration simulant un télésiège nouvellement installé sans étiquette disponible (LOCO). Notre modèle de base repose sur une architecture d’apprentissage profond de pointe (ResNet) permettant de relever le premier défi dans un délai raisonnable, relevant ainsi le quatrième défi. Nous proposons également d’ajouter une composante d’adaptation de domaine pour relever le deuxième défi.

Les contributions qui suivent abordent plus spécifiquement les différents défis. Notre

deuxième contribution consiste à améliorer la robustesse de notre approche (deux premiers défis) à l’aide d’une méthode de patch. Cette méthode consiste à créer de nouvelles images en masquant de petites zones qui étaient d’une importance critique pour le processus de classification du réseau. Ainsi, nous visons à forcer le réseau à utiliser l’image entière, c’est-à-dire à maximiser la quantité d’information utilisée par le réseau. Cette approche peut être considérée soit comme une augmentation des données, soit comme un moyen de régulariser le processus d’apprentissage (comme dans le cas du “dropout”).

Nos troisième et quatrième contributions examinent toutes deux l’apprentissage avec pondération des erreurs afin d’optimiser la F-mesure. Cette mesure nous aide à nous con-centrer sur les erreurs commises par notre classifieur sur la classe minoritaire (ici, les cas dangereux). L’optimiser au lieu de la précision habituelle permet de résoudre notre problème de déséquilibre de classe. Les deux méthodes ont donné de bons résultats qui peuvent être généralisés à d’autres applications. Ces méthodes nous ont permis de choisir le compromis

D.3. Conclusion et perspectives

entre la Précision et le Rappel de notre système, ce qui est intéressant pour Bluecime puisque le nombre de faux positifs et de faux négatifs dépend, entre autres facteurs, du télésiège et de la distance entre le poste d’embarquement et la caméra SIVAO.

La cinquième contribution de cette thèse est une méthode pour résoudre le problème de l’adaptation dans un domaine multisource en sélectionnant les sources les plus pertinentes dans l’ensemble d’entraînement. Avec cette contribution, nous analysons le comportement de l’adaptation de domaine dans le contexte multisource mais aussi lorsque les distributions de classes varient entre les exemples source et cible. Nous nous interrogeons donc sur les connaissances générales de cette méthode et proposons quelques solutions pour ce contexte particulier qui sont également utiles à Bluecime.


De nombreuses possibilités d’améliorer nos différentes contributions restent à explorer. Notre approche de base pourrait être améliorée par une comparaison plus systématique des dif-férentes architectures de la littérature. En effet, de nombreuses architectures existantes n’ont pas été prises en compte, principalement pour des raisons de temps, mais aussi parce que les modèles d’apprentissage profond sont constamment développés (et améliorés), ce qui rend difficile la mise à jour des connaissances actuelles. Sur notre approche de patch, nous pou-vons encore explorer plus avant l’utilisation des positions précédentes des patchs sélectionnés. En particulier, nous pourrions augmenter différemment la probabilité qu’un emplacement de patch revienne, et la diminuer sur des emplacements induisant des patchs inintéressants. CONE, notre algorithme d’optimisation de la F-mesure, nous pourrions trouver un moyen de mieux l’adapter à l’apprentissage profond. Par exemple, nous pourrions utiliser les poids du premier modèle comme pré-entraînement pour le modèle suivant, ce qui réduirait le temps d’entraînement nécessaire pour obtenir suffisamment de classifieurs pour explorer l’espace (t, F). Sur la sélection des domaines sources, nous pourrions utiliser d’autres distances ou améliorer la distance actuelle. Par exemple, la distance basée sur l’autoencodeur dépend évidemment de l’entraînement des autoencodeurs, donc, modifier son architecture ou régler différemment les hyperparamètres (par exemple le taux d’apprentissage) peut grandement améliorer cette méthode. Nous pourrions également modifier notre terme de variété, par exemple en intégrant une contrainte sur un nombre minimum de sources sélectionnées. En effet, si un domaine est très bien représenté et “proche” du domaine cible, il peut être le seul sélectionné, induisant ainsi un ensemble d’entraînement peu varié. Nous devons encore explorer plus avant, théoriquement, les résultats négatifs de l’adaptation de domaine avec des distributions de classes différentes entre les exemples cible et source. Sur le plan pratique, nous pourrions améliorer nos méthodes de pseudo-étiquettes ou trouver une meilleure façon d’utiliser DeepJDOT dans un environnement multisource.

De plus, toutes ces méthodes ont été conçues indépendamment pour résoudre le problème initial proposé par Bluecime. Nous n’avons pas étudié si ces méthodes sont complémentaires, redondantes ou peut-être adverses pour atteindre notre objectif final. Nous pourrions toutes les utiliser et espérer le meilleur ou essayer de trouver la meilleure combinaison. Par exemple,

nous pourrions guider le patch en considérant le F-mesure et pas seulement la variation de la prédiction. Nous pourrions aussi essayer d’améliorer notre stratégie de sélection de domaine en utilisant, par exemple, le transport optimal contraint de Courty et al. (2014), lors du calcul de la distance de Wasserstein pour mieux prendre en compte les distributions des classes.

Enfin et surtout, dans le contexte de Bluecime, nous pourrions travailler à l’amélioration de l’efficacité du réseau. Ceci pourrait être fait, par exemple, en élaguant les poids inutiles dans le réseau, ou en quantifiant les poids (Han et al., 2015). Nous pourrions également explorer des moyens d’améliorer les performances des architectures plus petites, par exemple, avec la distillation des connaissances (Hinton et al., 2015). Disposer d’un réseau plus efficace présente deux avantages : l’avantage le plus évident est l’augmentation de la vitesse du modèle, ce qui nous permet d’avoir une approche en temps réel. Le deuxième avantage est la diminution de la charge de calcul et de mémoire requise par notre approche d’apprentissage profond. Cela permettrait à Bluecime de fournir d’autres services, tels que des statistiques en temps réel sur l’occupation du télésiège, sans avoir à améliorer le matériel du système.


Bibliography

Bibliography

Bibliography

Documents relatifs