• Aucun résultat trouvé

Les méthodes ensemblistes

5 .3 Les méthodes de régularisation en apprentissage profond

5.3.1 Les méthodes ensemblistes

La conception d’un bon modèle en généralisation est parmi les enjeux principaux en apprentissage profond. La complexité de ce processus est liée essentiellement au problème de sur-apprentissage.

Les réseaux de neurones sont caractérisés par leur processus d’appren-tissage stochastique. Généralement, l’apprend’appren-tissage commence par l’ini-tialisation aléatoire des poids. Ensuite, ces poids sont ajustés afin de ré-duire le taux d’erreur. L’utilisation de différentes initialisations aléatoires permet de générer différents modèles sur la même base d’apprentissage. Le nombre élevé des poids et la complexité des ANN peuvent piéger la convergence des poids vers une combinaison optimale qui est adaptée aux données d’apprentissage et des poids initiaux. D’autre part, la bonne per-formance sur les données d’apprentissage n’est pas considérée comme un critère d’évaluation final à cause de la sensibilité des ANN aux change-ments des données. Ces réseaux sont caractérisés par une variance éle-vée entre les performances des données d’apprentissage et de test, et cela est défini par le problème de sur-apprentissage. Afin de réduire cette va-riance, les méthodes de régularisation sont recommandées, comme : la régularisation par abandon [Veta et al. 2016] et les méthodes ensemblistes [Ju et al. 2018].

Les méthodes ensemblistes sont des techniques basées sur la combi-naison de plusieurs modèles. Elles permettent de réduire l’erreur de gé-néralisation et la grande variance entre les résultats d’apprentissage et de test. En plus, elles améliorent la performance finale dans certaines situa-tions. Le but principal de ces méthodes est de regrouper un ensemble de modèles faibles pour former un modèle plus fort.

Les ANN sont caractérisés par leur instabilité et dépendance de plu-sieurs conditions initiales, comme : les poids initialisés aléatoirement et le bruit dans la base d’apprentissage. L’idée des méthodes ensemblistes est d’exploiter les prédictions de différents modèles afin de réduire leur sensibilité et d’assurer la stabilité des prédictions faites.

Il existe plusieurs méthodes qui permettent de générer un ensemble de modèles, comme la variation dans la base d’apprentissage, la variation dans les conditions initiales, la variation dans l’architecture du réseau, et la variation dans la technique de combinaison.

La stratégie de variation dans la base d’apprentissage est basée sur plu-sieurs techniques comme le rééchantillonnage de la base d’apprentissage

avec (bootstrap [Reed et al. 2014]) ou sans remplacement. Dans cette thèse, nous avons proposé une technique de variation sans remplacement. Elle consiste à allouer des portions aléatoires (90 %) de la base d’apprentissage pour chaque modèle généré.

Dans le cadre de vision par ordinateur et exactement en traitement des images histopathologiques, il est possible d’exploiter plusieurs techniques pour générer différentes versions de la base d’apprentissage, comme : la variation dans les méthodes d’augmentation de données, de norma-lisation des couleurs, ou dans la résolution des images en entrée. Par exemple, [Xu et al. 2017] ont proposé un multi-resolution convolutional network (MR-CN-PV) pour le score le l’atypie nucléaire. L’approche pro-posée est basée sur un processus de vote entre 3 CNN entrainés sur des images à différentes résolutions.

La technique de variation dans les conditions initiales consiste à en-trainer le même modèle sur le même espace de données en variant dans les valeurs des paramètres ou des hyper-paramètres, comme : la méthode d’initialisation aléatoire des poids, la méthode d’apprentissage, l’optimi-seur, la valeur du taux d’apprentissage... etc. Ensuite, les modèles générés sont combinés par les techniques de moyenne ou de vote.

La technique de moyenne non pondérée a été largement exploitée dans les méthodes proposées dans la compétition ImageNet. Par exemple, [Krizhevsky et al. 2012] ont réussi à améliorer le taux d’erreur des top-5 de 18.2 % à 16.4 % par la combinaison de 5 CNN similaires. Dans une autre contribution, [Szegedy et al. 2015] ont amélioré le taux d’erreur de 7.89 % à 6.67 % par la combinaison de 7 réseaux de même configuration incluant une version plus large.

D’autre part, d’autres travaux ont proposé de combiner entre plusieurs modèles caractérisés par différentes configurations ou architectures. Par exemple, dans la compétition ImageNet, [Simonyan & Zisserman 2014b] ont combiné entre les deux meilleurs modèles (les configurations D et E) pour réduire le taux d’erreur à 7.0 %. [Zeiler & Fergus 2014] ont combiné entre 6 modèles de différentes configurations pour améliorer le taux d’er-reur sur la base de test par 1.6 %. Ces modèles diffèrent dans le nombre des neurones des couches entièrement connectées. En histopathologie, [Chen et al. 2016a] ont utilisé la même stratégie, où ils ont combiné entre 3 CNN dont le nombre des neurones au niveau des FC est 256-2, 1024-512-2, 512-256-2 respectivement. Dans une autre contribution plus récente, [Nanni et al. 2019a] ont combiné entre plusieurs modèles pré-entrainés de type CNN. Ces modèles ont été réajustés sur des bases d’apprentissage histopathologiques. Dans ce cadre, ils ont exploité les CNN réajustés en tant qu’extracteurs de caractéristiques. Ensuite, ils ont combiné entre les caractéristiques extraites. Enfin, ils ont entrainé le réseau SVM sur les ré-sultats obtenus.

[Ju et al. 2018] ont critiqué l’utilisation de la méthode de combinaison par moyenne non pondérée. Cette méthode est influencée par les mau-vais modèles appartenant au groupe (weak learners). En plus, elle est plus adaptée aux réseaux caractérisés par une structure et des performances si-milaires, et elle est sensible à la présence des modèles biaisés par rapport aux autres composants du groupe. Dans ce cadre, [Ju et al. 2018] ont pré-senté une étude comparative entre les performances de quatre méthodes

ensemblistes connues : vote majoritaire, classificateur bayésien optimal, la généralisation empilée, et super learner, où ils ont exploité les réseaux CNN comme des modules de base. Dans cette étude, ils ont utilisé des ensembles de différente nature : (a) des réseaux de même architecture en-registrés dans différents points d’apprentissage (training checkpoints), (b) le même réseau entrainé à plusieurs reprises, (c) des réseaux de différentes structures, (d) des modèles très confiants (over confident), (e) les mauvais modèles, (f) tous les réseaux entrainés précédemment. En résumé, les ré-sultats obtenus ont prouvé l’efficacité de la méthode super learner par rap-port aux autres méthodes ensemblistes. Cette méthode attribue un poids à chaque classificateur de base. Ensuite, ces poids sont regroupés dans une couche de convolution et ajustés par un processus d’apprentissage sur la base de validation. D’autre part, les résultats ont montré l’efficacité de la méthode de combinaison par moyenne non pondérée par rapport au vote majoritaire. Cependant, cette méthode est vulnérable aux mauvais modèles et sensible aux modèles très confiants. Par conséquent, l’étape de sélection des modèles à combiner est une étape très délicate et néces-site une attention considérable. Dans ce cadre, nous avons proposé une nouvelle méthode de sélection dynamique qui exploite la métaheuristique optimisation par essaim de particules (PSO) dans la phase de sélection.

Les méthodes de combinaison par vote et moyenne non pondérée sont parmi les méthodes simples qui ont été largement exploitées en apprentis-sage profond. D’autre part, il existe d’autres méthodes ensemblistes plus complexes, comme : le stacking et le boosting.

Dans la technique ensembliste de boosting, un nouveau modèle est ajouté dans chaque itération pour corriger les erreurs des modèles pré-cédents. Dans le cadre de l’apprentissage profond, peu d’études ont exa-miné la technique de boosting en vision par ordinateur à cause de sa com-plexité élevée en termes de calcul. Par exemple, [Mosca & Magoulas 2017] ont proposé la méthode deep incremental boosting (DIB) qui est basée sur Adaboost et la technique de l’apprentissage transféré. Dans la première itération, ils ont commencé par la phase d’apprentissage du réseau CNN. Ensuite, dans le reste des itérations, ils ont transféré les couches du réseau CNN de l’itération précédente et ils ont rajouté une couche de convolution supplémentaire au nouveau réseau. Le but de l’apprentissage transféré est de réduire le temps de traitement considérable de la méthode boosting et d’éviter le problème de sur-apprentissage des réseaux CNN.

Généralement, les méthodes ensemblistes citées précédemment néces-sitent d’effectuer plusieurs apprentissages afin de générer les modèles de base appartenant à l’ensemble. D’autre part, la complexité élevée de cal-cul et les exigences en termes de ressources sont parmi les problèmes principaux des réseaux DL (tableau 5.8). Ces caractéristiques ont limité l’utilisation des méthodes ensemblistes en apprentissage profond. Afin de résoudre ces limitations, une solution simple consiste à exploiter le processus itératif d’apprentissage des ANN. Cette stratégie permet de produire un ensemble de modèles dans un seul processus sage, où les modèles sont enregistrés dans différents points d’apprentis-sage. Cette méthode a été exploitée dans plusieurs domaines, comme : les systèmes de traduction [Sennrich et al. 2016, Vaswani et al. 2017], la géné-ration des résumés [Kobayashi 2018], la détection des programmes

mal-veillants [Sang et al. 2018a], la classification des images [Ju et al. 2018], la segmentation des images médicales [Fok et al. 2018, Jung et al. 2018], la re-connaissance des émotions faciales [Sang et al. 2018b], et l’étiquetage des vidéos à grande échelle [Skalic et al. 2017]. Le tableau 5.9 résume les archi-tectures DNN utilisées dans les méthodes ensemblistes à base des points d’apprentissage (checkpoints).

Réseau Temps Matériel AlexNet

[Krizhevsky et al. 2012] Cinq à six jours

Deux GPUs NVIDIA GTX580 3GB ZFNet

[Zeiler & Fergus 2014] 12jours

Une seule GPU NVIDIA GTX580

Inception

[Szegedy et al. 2015] Une semaine (estimation)

Peu de GPU haut de gamme VGGNet

[Simonyan & Zisserman 2014b]

2–3 semaines selon l’architecture.

Quatre GPUs NVIDIA Titan Black

Xception

[Chollet 2017] 3jours 60NVIDIA K80 GPUs Table 5.8 – Les exigences matérielles et le temps d’exécution pour l’apprentissage des réseaux de neurones convolutifs sur la base d’apprentissage ImageNet.

Référence Architecture

[Chen et al. 2017a]

MLP CNN Long LSTM

[Sennrich et al. 2016] Réseau Encoder−decoder

[Vaswani et al. 2017] Réseau Transformer basé sur le réseau encoder-decoder [Ju et al. 2018] NIN, VGGNet, ResNet

[Sang et al. 2018b] DenseNet

[Skalic et al. 2017]

Mixture of Neural-Network Experts (MoNN) LSTM

GRU

[Kobayashi 2018] LSTM encoder−decoder

[Fok et al. 2018] ResNet34

[Sang et al. 2018a] RNSALL basé sur le modèle ResNet

Table 5.9 – Les architectures DNN précédemment combinées à base de plusieurs points d’apprentissage.

Différentes stratégies ont été exploitées afin de sélectionner les points d’apprentissage appropriés. Par exemple, [Chen et al. 2017a] ont com-biné entre les trois meilleurs modèles. Ils ont prouvé l’efficacité de la moyenne des prédictions par rapport à la moyenne des poids. De même, [Fok et al. 2018] ont combiné entre les meilleurs 2 à 5 modèles et [Sang et al. 2018a] ont combiné entre les 25 meilleurs modèles. D’autres travaux ont suggéré la combinaison des modèles enregistrés dans les

derniers points d’apprentissage [Sennrich et al. 2016, Vaswani et al. 2017, Ju et al. 2018]. Par exemple, [Sennrich et al. 2016] ont proposé de combiner entre les 4 derniers modèles enregistrés dans chaque 30 000 mini-batch. Dans une autre contribution, [Vaswani et al. 2017] ont combiné entre les derniers 5 et 20 modèles enregistrés dans des intervalles de 10 minutes. D’autres travaux proposent de combiner les modèles générés dans les der-nières époques [Sang et al. 2018b, Sang et al. 2018b].

Dans le cadre de la combinaison des modèles enregistrés dans plu-sieurs points d’apprentissage, nous avons implémenté une méthode qui combine entre plusieurs modèles MobileNet enregistrés dans des inter-valles de 3 minutes. Nous avons exploité les techniques de vote majori-taire et de moyenne non pondérée pour combiner entre ces modèles. En plus, nous avons comparé entre les deux méthodes statiques de sélection du sous ensemble : les N derniers modèles et les N meilleurs modèles.