Surapprentissage et régularisation - Modèles neuronaux pour la représentation et l'appariement

En apprentissage automatique, le surapprentissage (ou sur-ajustement) est gé- néralement provoqué par un mauvais dimensionnement de l’architecture utilisée pour classifier ou faire une régression. De par sa trop grande capacité à capturer des informations, une structure dans une situation de surapprentissage n’arrivera pas à généraliser les caractéristiques des données. Elle se comporte alors comme une table contenant tous les échantillons utilisés lors de l’apprentissage (données d’apprentissage) et perd ses pouvoirs de prédiction sur de nouveaux échantillons (données de validation).

Pendant l’étape d’apprentissage du réseau de neurones, les valeurs poids aug- mentent en taille afin de modéliser les spécificités des données d’entraînement. Les poids importants ont tendance à provoquer des transitions brusques dans les fonctions des nœuds (transformation et activation) et donc de grands changements dans la sortie pour de petits changements dans les entrées (Reed et Marks,

1998). Autrement dit, avec des poids importants, le réseau devient instable. Pour

éviter les situations de surapprentissage et les mauvaises performances lors de la phase de prédiction, il convient de modifier l’algorithme d’apprentissage afin d’encourager le réseau à maintenir des poids faibles, et à pénaliser les poids élevés. Ce processus est appelé la régularisation des poids. Traditionnellement, la régu- larisation est effectuée en ajoutant un terme additionnel à la fonction de coût de l’algorithme d’apprentissage. Les deux approches principalement utilisées sont les régularisations L1 et L2 (Ng,2004).

D’autres techniques de régularisation ont été proposées dans la littérature, telles que l’arrêt anticipé (early stopping), l’abandon (dropout), la normalisation des lots (batch normalization) ou la dégradation des pondérations (weight decay) (Bishop et al.,1995). Dans ce qui suit, nous décrivons les trois méthodes de régularisations

2 r e p r é s e n tat i o n s d i s t r i b u é e s d e t e x t e s e t d e g é o t e x t e s 63

— arrêt anticipé (Yao et al.,2007) : lors de l’utilisation de cette méthode, les jeux

de données sont divisés en trois sous-ensembles : entraînement, validation et test. L’erreur d’apprentissage sur l’ensemble de validation est surveillée pendant le processus d’apprentissage. Lorsque l’erreur augmente pour un nombre spécifique d’itérations consécutives, l’apprentissage est arrêté et les poids correspondant à l’erreur minimum sont renvoyés ;

— abandon (Hinton et al., 2012) : cette méthode consiste à omettre aléatoire-

ment, avec une probabilité définie, une partie des détecteurs de caractéris- tiques (nœuds) sur chaque donnée d’apprentissage. L’abandon vise à éviter les co-adaptations complexes des différents neurones sur les données d’apprentissage. Hinton et al. (2012) ont réalisé une étude empirique évaluant

plusieurs taux d’abandon dans différentes couches d’un réseau de neurones pour la classification des images, et a montré qu’une valeur d’abandon entre 0, 2 et 0, 5 permet de réduire fortement les erreurs de classification par rapport aux différentes méthodes existantes ;

— normalisation des lots (Ioffe et Szegedy, 2015) : la normalisation des don-

nées est directement intégrée à l’architecture du modèle. Elle s’effectue pour chaque mini-lots d’entraînement. Son objectif est d’améliorer l’apprentissage et de réduire l’impact des changements de distribution des fonctions activa- tions du réseau. Ainsi, la fonction de coût converge plus rapidement.

2 Représentations distribuées de textes et de géo-

textes

Depuis leur introduction par Salton et al. (1975) dans les années 1970, les mo-

dèles vectoriels ont largement été utilisés en RI. Cependant, de nombreuses la- cunes ont été pointées lors de l’utilisation de la représentation classique en sac de mots (bag of words) dans différentes tâches d’appariement de textes, notamment la grande dimension des vecteurs, les représentations très éparses et l’inadéqua- tion du vocabulaire (Wallach, 2006; Kao et Poteet, 2007; Croft et al., 2009). Ces

limites ont encouragé la recherche scientifique sur le développement de représen- tations denses capables de saisir la sémantique d’un texte ainsi que les informations contextuelles (Yu et Dredze,2014;Iacobacci et al.,2015;Nguyen et al.,2018).

Depuis, les modèles vectoriels ont commencé à être utilisé pour représenter la sémantique distributionnelle (Rieger,1991). Devant les résultats prometteurs, dif-

férentes approches ont été explorées pour estimer les représentations continues des mots afin de contourner les limites des sacs de mots. Ces premières approches s’appuient sur le statistiques des cooccurrences des mots au travers des matrices

mot-contexte. Les premiers travaux de recherche pour produire des plongements lexicaux par comptage sont ceux deDeerwester et al.(1990), avec le modèle Latent

Semantic Analysis (LSA) qui applique une décomposition en valeurs singulières sur la matrice de cooccurrence terme-document. D’autres travaux, tels que Hyperspace Analog to Language (HLA) (Lund et Burgess, 1996), Correlated Occurrence Analogue

to Lexical Semantics (COALS) (Rohde et al.,2006) ou Hellinger PCA (HPCA) (Lebret et Collobert,2014) ont suivi, en s’appuyant sur des matrices de cooccurrence mot

à mot. Pour calculer ces représentations, d’autres approches utilisent des réseaux de neurones, ce sont les modèles de langues neuronaux. Ces approches, considé- rées comme une variété de modèles fondés sur la sémantique distributionnelle, ont montré leur efficacité sur les tâches d’analogie des mots et de relations séman- tiques par rapport aux modèles traditionnels s’appuyant sur les statistiques (Ba- roni et al., 2014).Bengio et al.(2003) furent les premiers à proposer un modèle de

langue neuronal en introduisant l’idée d’apprendre simultanément un modèle de langue qui prédit un mot en fonction de son contexte, ainsi que sa représentation. Cette représentation est appelée plongement lexical, représentation distribuée ou word embedding. Depuis, cette idée a été adoptée par de nombreuses études. Les modèles de représentations les plus connus, Word2Vec (Mikolov et al., 2013a,b),

GloVe (Pennington et al.,2014), ont largement été utilisés dans divers domaines de

recherche, et notamment en RI et TALN. Le succès des plongements lexicaux a également donné lieu à des travaux sur l’apprentissage de représentations pour de plus grandes unités textuelles, comme les paragraphes et les documents (Le et Mikolov,2014), ou plus récemment, pour l’apprentissage de représentations d’ob-

jets, tels que des évènements (Hong et al.,2017) ou des POIs (Feng et al.,2017;Yan et al.,2017).

Dans les sections suivantes, nous détaillons les principaux travaux liés à l’apprentissage de représentations distribuées de textes ainsi que leurs différents ni- veaux de granularité (Section 2.1). Ces travaux sont présentés en deux catégories, à savoir l’apprentissage de représentations depuis les textes d’un corpus, et l’apprentissage de représentations combinant la sémantique distributionnelle venant d’un corpus et la sémantique relationnelle recensée dans les ressources séman- tiques. Enfin, nous abordons dans la Section 2.2 les travaux plus récents pour la représentation de géotextes.

Dans le document Modèles neuronaux pour la représentation et l'appariement d'objets géotextuels (Page 82-84)