Représentations de mots - Identification automatique des relations discursives implicites à par

Une représentation de mots associe un mot à un objet mathématique, généralement un vecteur dont chaque dimension peut avoir une interprétation syntaxique ou sémantique. Dans cette section, nous présentons les différents types de représentation de mots en reprenant la terminologie de TURIAN

et al. (2010).

5.2.1 Représentation one-hot

La façon la plus brutale mais la plus commune de représenter les mots consiste à leur associer un vecteur dans lequel chaque mot observé correspond à une dimension distincte. Plus formellement, on note V l’ensemble de tous les mots trouvés dans les données d’entraînement et w un mot particulier de V. La représentation one-hot de w est un vecteur indicateur de dimension d, noté

wtel que d = |V| : tous les composants de ce vecteur sont à 0 à l’exception d’un composant à 1

correspondant à l’indice de ce mot dans V. Cette représentation est donc éparpillée et conduit à un modèle de très haute dimensionnalité.

5.2.2 Représentation fondée sur un clustering

Une alternative à cette représentation très éparpillée consiste à apprendre une représentation de façon non supervisée. On peut par exemple utiliser un algorithme de clustering pour regrouper les mots en classes. C’est l’approche utilisée pour construire les clusters Brown induits à partir d’un algorithme de clustering hiérarchique avec la visée de maximiser l’information mutuelle des bigrammes (BROWNet al., 1992). Chaque mot est alors associé à un code binaire représentant le

cluster auquel il appartient. Cette représentation conduit également à un encodage one-hot des données mais à partir d’un vocabulaire plus petit correspondant au nombre de clusters. Étant donné que l’algorithme est hiérarchique, on peut utiliser des classes de mots de granularité différente qui correspondent à des codes de tailles différentes2_{. Plus le nombre de clusters est élevé, plus}

les distinctions entre les mots sont fines avec cependant un éparpillement plus élevé. Les clusters Brown ont été utilisés pour différentes tâches de TAL comme la reconnaissance d’entités nommées, le chunking (TURIANet al., 2010), l’analyse syntaxique (KOOet al., 2008) ou l’identification des

relations discursives implicites (RUTHERFORDet XUE, 2014).

5.2.3 Représentation distribuée

Une approche pour induire des représentations de mots à partir de données brutes consiste à apprendre une représentation distribuée. Ce type de représentation associe à chaque mot un vecteur dense, de faible dimensionnalité et à valeurs réelles. On appelle plongement lexical (word embedding) une telle représentation. Les plongements lexicaux sont généralement appris en utilisant des modèles de type réseaux de neurones (BENGIOet al., 2003). Chaque dimension correspond

à un trait latent du mot qui capture une information de type paradigmatique. Les plongements Collobert et Weston sont un exemple d’une telle représentation apprise à partir de réseaux de neurones (COLLOBERT et WESTON, 2008). Ils sont appris en minimisant une perte entre le n-

gramme courant et un n-gramme corrompu c’est-à-dire, pour l’implémentation que nous utilisons, dont le dernier mot provient du même vocabulaire mais est différent du mot du n-gramme original. COLLOBERTet WESTON(2008) montrent que les plongements lexicaux qu’ils proposent permettent

d’atteindre des performances état de l’art pour la tâche d’étiquetage en rôles sémantiques sans utilisation de traits syntaxiques supplémentaires. Les plongements dits Hierarchical Log-Bilinear sont un autre exemple de représentation distribuée (MNIHet HINTON, 2007). Ils ont été induits en

utilisant un modèle neural linéaire et probabiliste rendu plus rapide par l’utilisation d’un principe hiérarchique. Les plongements sont obtenus en concaténant les plongements des n 1 mots d’un n- gramme et en apprenant le plongement du dernier mot. TURIANet al. (2010) testent ces deux types

de représentations distribuées pour les tâches de chunking et de reconnaissance d’entités nommées. CHENet al. (2013) comparent également ces deux plongements lexicaux pour différentes tâches de

2. Les codes binaires associés aux mots dans les clusters Brown sont de taille différente et peuvent notamment être de taille inférieure à la taille de code recommandée pour l’utilisation de ces clusters, on ne peut donc pas utiliser chaque élément du code comme une dimension et obtenir ainsi une représentation qui ne serait pas de type one-hot.

TAL dont l’identification de la polarité, du genre et du nombre des mots ainsi que l’identification des relations de synonymies et d’antonymies, tâches sur lesquelles ces plongements permettent d’obtenir des résultats supérieurs au système de référence.

5.2.4 Représentation distributionnelle

La dernière approche est fondée sur l’hypothèse que les mots qui apparaissent dans les mêmes contextes ont tendance à avoir des significations similaires. La construction d’une représentation distributionnelle commence par le calcul des fréquences brutes de co-occurence entre chaque mot et les |D| mots servant de contexte, avec D généralement plus petit que le vocabulaire entier. Une transformation est ensuite appliquée à ces comptes bruts, comme les mesures TF-IDF ou la mesure d’information mutuelle par point (PMI). Comme |D| est généralement trop large pour constituer une représentation utilisable en pratique, on utilise ensuite un algorithme de réduction de dimensions, on aboutit ainsi à une représentation à p dimension avec p ⌧ |D|. Comme pour les représentations distribuées, la représentation finale pour un mot correspond à un vecteur dense, de basse dimensionnalité et à valeurs réelles. On appelle également plongement de mots une telle représentation. Un exemple récent d’une telle approche a été proposé dans (LEBRET

et COLLOBERT, 2014) sous le nom de Hellinger PCA. La représentation est construite en utilisant l’algorithme d’analyse en composantes principales (Principal Component Analysis, PCA) (PEARSON,

1901) comme algorithme de réduction de dimensions se fondant ici sur la mesure de distance Hellinger pour minimiser l’erreur de reconstruction des données. Un attrait important de ces approches réside dans le fait que les représentations sont plus rapides à construire que celles fondées sur des réseaux de neurones, comme celles présentées précédemment, tout en permettant des performances similaires sur les tâches de reconnaissance d’entités nommées et de classification de sentiment (LEBRETet COLLOBERT, 2014).

Dans le document Identification automatique des relations discursives implicites à partir de corpus annotés et de données brutes (Page 181-183)