• Aucun résultat trouvé

Les expériences présentées dans ce chapitre mettaient en œuvre des méthodes d’adaptation de domaine destinées à gérer les différences distributionnelles entre données naturelles et artificielles. Nous avons obtenu sur le français des améliorations significatives pour un système multiclasse montrant que le manque de données, particulièrement important pour cette langue, pouvait être géré par l’apport massif de données annotées automatiquement. Le meilleur système correspond à un score d’exactitude de 41, 7% pour quatre relations (Contrast, Explanation, Continuation, Result). Nous avons également obtenu des améliorations sur le corpus anglais du PDTB, améliorations particulièrement importantes au niveau 1. Pour le niveau 2, nous avons conclu que le manque de succès relatif de notre stratégie résidait dans le fait que la suppression du connecteur avait un impact plus fort, cet indice permettant notamment de faire des distinctions plus fines comme celle qui existe entre Contrast et Concession. Nos expériences montrent également que la stratégie de sélection d’exemples n’est pas très efficace lorsque nous utilisons un corpus artificiel manuel, probablement parce que ces données sont assez peu nombreuses. Cependant, même avec les données artificielles issues du Bllip, les améliorations apportées par la sélection sont assez fluctuantes : nous obtenons des améliorations pour certaines relations, par exemple en binaire au niveau 1 les relations Contingency et Expansion profitent de la sélection mais pas Temporal et Comparison, et/ou pour certaines méthodes, la méthode par union est généralement améliorée par la sélection, c’est moins souvent le cas pour les autres méthodes de combinaison.

En binaire au niveau 1, les stratégies de combinaison nous ont permis d’obtenir des scores dépassant nos systèmes de référence pour Temporal (26, 0% de F1), Comparison (38, 8%) et Expansion (67, 2%).

Pour Contingency, le système de référence permet d’obtenir un meilleur score de F1(54, 1% contre

51, 6% au mieux avec combinaison). Cela montre peut-être l’importance de l’optimisation du seuil en fréquence et nous espérons obtenir de nouvelles améliorations en prenant en compte cet hyper-paramètre. Ces résultats restent inférieurs à ceux présentés dans (RUTHERFORDet XUE,

2015) qui utilisent une stratégie de sélection plus sophistiquée mais une simple union des données. Nous envisageons donc de mettre en œuvre une comparaison en testant également leur méthode de sélection combinée à nos stratégies de combinaison.

En multiclasse au niveau 1, nous obtenons au mieux un score de macro-F1de 43, 8% (exactitude de

en optimisant également le filtre en fréquence. Ce score est également supérieur à celui du système présenté dans (RUTHERFORDet XUE, 2015) qui correspond à une macro-F1de 40, 5% (exactitude

de 57, 1%). Comme nous n’optimisons pas le même score, la comparaison n’est pas directe mais nous avons pu observer que notre meilleur système correspondait à une amélioration pour toutes les relations sauf Expansion. Enfin, pour le niveau 2, notre meilleur système correspond à un score de macro-F1de 24, 1% (exactitude de 36, 7%) inférieur au meilleur système de référence (macro-F1

de 26, 7%). Pour ce niveau, il nous semble qu’une étude additionnelle de la représentation doit être menée.

5

Utilisation de représentations denses

pour l’identification des relations

implicites

Sommaire

5.1 Problème de la représentation des données . . . 163 5.2 Représentations de mots . . . 164 5.2.1 Représentation one-hot . . . 165 5.2.2 Représentation fondée sur un clustering . . . 165 5.2.3 Représentation distribuée . . . 165 5.2.4 Représentation distributionnelle . . . 166 5.3 Construire une représentation au-delà du mot . . . 166 5.3.1 Notations . . . 166 5.3.2 Représentations fondées sur les têtes des arguments . . . 167 5.3.3 Représentations fondées sur tous les mots des arguments . . . 168 5.4 Configuration des expériences . . . 170 5.4.1 Données . . . 170 5.4.2 Modèles . . . 172 5.5 Résultats . . . 173 5.5.1 Expériences en binaire au niveau 1 . . . 173 5.5.2 Expériences en multiclasse au niveau 1 . . . 179 5.5.3 Expériences en multiclasse au niveau 2 . . . 182 5.6 Plongement lexical à partir des connecteurs . . . 183 5.6.1 Principe . . . 183 5.6.2 Construction du plongement lexical . . . 184 5.6.3 Expériences en binaire au niveau 1 . . . 186 5.6.4 Expériences en multiclasse au niveau 1 . . . 190 5.6.5 Expériences en multiclasse au niveau 2 . . . 191 5.7 Conclusion du chapitre . . . 191

Nous avons présenté dans le chapitre précédent des expériences fondées sur l’ajout de données annotées automatiquement à partir des exemples explicites. Ces expériences se fondent sur des stratégies inspirées du cadre de l’adaptation de domaine afin de gérer les différences en termes distributionnels entre les données artificielles et naturelles. Cependant, l’apprentissage avec des données non identiquement distribuées est difficile. De plus, ces méthodes ont nécessité la défi- nition d’heuristiques ou la construction de modèles afin d’extraire automatiquement les données supplémentaires. Dans ce chapitre, nous cherchons à améliorer les performances sans utiliser ces données artificielles tout en gardant le principe de se fonder sur une forme de non supervision. De plus, nous cherchons à évaluer la possibilité de construire un modèle reposant essentiellement sur une représentation surfacique des données limitant ainsi l’utilisation de ressources construites à la main.

La représentation surfacique correspond aux mots présents dans les arguments. Nous avons vu que l’information lexicale était un indicateur important de l’inférence des relations. Cependant, cette représentation souffre d’un problème d’éparpillement qui nous a conduit, dans le chapitre précédent, à chercher à enrichir le modèle à partir de nouvelles données. Ce problème provient de la façon dont est représentée cette information c’est-à-dire sous la forme d’une représentation dite one-hot. Avec un encodage one-hot, chaque terme, ici les mots ou les paires de mots, est associé à une dimension dans le modèle. La taille du modèle est donc égale au nombre de termes dans les données d’entraînement, la taille du vocabulaire, généralement assez large. Une instance est alors représentée par un vecteur dont la taille est celle du vocabulaire et dans lequel seules les dimensions correspondant aux termes présents dans l’instance reçoivent une valeur différente de zéro. On associe donc à chaque instance un vecteur de très haute dimension dans lequel seules quelques dimensions sont non nulles. Cette représentation très éparpillée pose problème dans le cadre d’un système d’apprentissage automatique. En effet, l’éparpillement rend l’estimation des paramètres du modèle difficile, peut conduire au problème de sur-apprentissage et rend difficile toute généralisation.

Afin de gérer cette difficulté, nous présentons dans ce chapitre des stratégies visant à rendre la représentation plus dense. Lorsque nous avions présenté, dans le chapitre 3, les études existantes pour l’identification des relations implicites, nous avions décrit plusieurs études reposant sur cette idée. LIet NENKOVA(2014b) avaient proposé de réduire l’éparpillement pour les traits de type

règles de production, la stratégie était alors fondée sur une ré-écriture du motif des traits. Une autre méthode possible est d’apprendre une transformation de la représentation plus dense liée à la tâche comme c’est notamment le cas dans (JI et EISENSTEIN, 2014a). Cette stratégie est attrayante car elle lie la représentation au problème. Cependant, JIet EISENSTEIN (2014a) ne

parviennent pas à dépasser les scores rapportés dans (RUTHERFORD et XUE, 2014) malgré la mise en place d’un système bien plus complexe et coûteux. La méthode de RUTHERFORDet XUE

(2014) est en effet assez simple puisqu’elle correspond comme dans (LIet NENKOVA, 2014b) à une transformation du motif des traits. De plus, elle se fonde sur des représentations existantes pour les mots, elle ne nécessite donc pas une phase supplémentaire d’apprentissage, même si un apprentissage a dû être effectué pour construire cette représentation. Enfin, cette stratégie permet d’aboutir comme dans (JIet EISENSTEIN, 2014a) à une représentation plus dense qui introduit

une dimension sémantique et syntaxique dans la modélisation apportée par la représentation de mots utilisée. Cependant, RUTHERFORDet XUE (2014) utilisent une représentation de mots

clusterisée ce qui, nous allons le voir, permet de réduire le nombre de dimensions du modèle sans pour autant offrir une représentation dense à valeur réelle. Une telle représentation peut être obtenue en se fondant sur d’autres types de représentation des mots, distributionnelle ou distribuée. Nous explorons dans ce chapitre les effets de l’utilisation de ces différents types de représentation pour l’identification des relations implicites. Nous comparons également différentes stratégies de combinaison de ces représentations permettant d’obtenir une représentation pour des paires de segments textuels et l’utilisation de tous les mots ou seulement de certains mots des arguments, considérés comme particulièrement importants. Notons que l’un des attraits de la stratégie reposant sur les représentations de mots non supervisées repose sur le fait que ces représentations, qui sont disponibles librement pour l’anglais, peuvent être induites de manière non supervisée à partir de données brutes. Elles sont donc utilisables également pour les langues disposant de peu de ressources construites manuellement comme les lexiques de polarité ou de sentiment. Nous cherchons donc également à établir la nécessité de l’ajout d’autres traits à la représentation obtenue. Les résultats sur le PDTB en binaire au niveau 1 de sens ont été publiés dans (BRAUDet DENIS, 2015).

Dans la section suivante 5.1, nous revenons sur le problème général de la représentation des données, de l’encodage one-hot et des difficultés liées. Nous présentons ensuite dans la section 5.2 les différentes représentations de mots existantes. La difficulté posée par notre tâche dans ce cadre est d’utiliser une représentation en mots pour représenter des instances composées de paires d’en- sembles de mots. Dans la section 5.3, nous détaillons les difficultés posées par cette configuration et présentons des solutions fondées sur des opérations entre les vecteurs. Les expériences menées sur l’anglais sont décrites dans la section 5.4 : nous montrons en particulier que l’utilisation de ces représentations permet d’obtenir au niveau 1 de sens des performances proches de l’état de l’art voire meilleures sans utiliser d’informations issues de ressources construites à la main. Enfin, dans la section 5.6, nous proposons de construire une représentation de mots de type distributionnel en se fondant sur les connecteurs, donc liée à la tâche, et nous rapportons les performances obtenues en utilisant cette nouvelle représentation.

5.1

Problème de la représentation des données

Nous avons déjà discuté dans les précédents chapitres du problème d’éparpillement des don- nées et des limites des stratégies reposant sur un usage intensif de ressources construites à la main. Plutôt que de considérer le problème sous l’angle d’un ajout de données afin d’obtenir une meilleure estimation des paramètres, nous considérons ici la possibilité de transformer une représentation simple sujette à l’éparpillement vers un espace plus dense. Plus précisément, nous nous intéressons à la représentation fondée sur les mots dans les arguments comme les paires de mots introduites par MARCUet ECHIHABI (2002) et généralement reprises par la suite dans les

études sur le PDTB (PITLERet al., 2009 ; LINet al., 2009 ; PARKet CARDIE, 2012 ; WANG et al.,

2012 ; RUTHERFORDet XUE, 2014 ; RUTHERFORDet XUE, 2015). Ces traits ont été introduits pour

identifier des paires de lexèmes pouvant déclencher une relation. Ainsi, dans l’exemple (55), issu du PDTB, la paire « rose, tumbled » (que l’on peut traduire par « monter, chuter« ) signale une relation contrastive.

(55) [Quarterly revenue rose 4.5%, to $2.3 billion from $2.2 billion]1[For the year, net income

tumbled 61% to $86 million, or $1.55 a share]2

Souvent, c’est le fait qu’ils constituent une paire qui est le déclencheur : par exemple, la seule indication de la présence de « pousser » dans l’un des arguments de l’exemple (56) ne suffit bien sûr pas à inférer un lien causal, c’est parce que ce mot apparaît dans un argument et que l’autre contient « tomber » que l’on va inférer, éventuellement, un tel lien. De plus, si « pousser » est dans le premier argument et « tomber » dans le second, on identifiera plutôt une relation de type Result tandis que dans le cas inverse, on aura une relation de type Explanation, ces relations étant asymétriques. (56) [Paul est tombé,] [Marie l’a poussé.]

Le fait d’effectuer un produit cartésien sur les mots des arguments, plutôt que, par exemple, de considérer les unigrammes sur l’ensemble des deux arguments, permet de conserver la relation d’ordre entre des évènements et de rapprocher des lexèmes qui, ensemble, fournissent un indice sur la relation. Notons que PARKet CARDIE(2012) concluent que ces traits ne sont plus utiles

puisque des résultats au moins équivalents peuvent être obtenus en utilisant des représentations plus motivées, cependant linguistiquement fondées sur des ressources acquises manuellement et nécessitant d’importants pré-traitements.

(went up,lost) (rose,tumbled) (downed, gained) (went up,lost) (rose,tumbled) (downed, gained)

Figure 5.1.:Illustration d’une représentation des paires de mots : à gauche, avec un encodage one-hot tous les vecteurs d’instance sont perpendiculaires, alors que l’on voudrait, comme à gauche, que les paires de synonymes « rose, tumbled » et « went up, lost » soient plus proches l’une de l’autre que de la paire d’antonymes « downed, gained ».

Ces traits de paires sont toujours utilisés avec un encodage one-hot, éventuellement rendu plus dense par l’utilisation d’une représentation clusterisée (RUTHERFORDet XUE, 2014 ; RUTHERFORD

et XUE, 2015). Si l’on considère le cas général où les instances sont directement représentées par les

paires de mots, utiliser un encodage one-hot signifie que les instances sont associées à un vecteur dont la taille correspond au nombre de paires de mots dans les données. Si on suppose que tous les mots présents dans les données peuvent apparaître dans les arguments des instances, on se retrouve donc avec un vocabulaire dont la taille correspond au carré du nombre de mots dans les données. Chaque instance correspond donc à un vecteur de très haute dimensionnalité dans lequel seules les dimensions correspondant aux paires de mots représentées dans l’exemple ont une valeur non nulle, 1 si l’on se place dans le cadre d’un trait binaire1.

Ce type de représentation est dite éparpillée, c’est-à-dire qu’elle contient beaucoup de 0, beaucoup plus que de valeurs non nulles. Cet éparpillement rend le modèle sujet au sur-apprentissage : le nombre de données d’entraînement étant largement inférieur au nombre de dimensions, le modèle aura tendance à apprendre des règles trop spécifiques aux données d’entraînement et ne sera pas capable d’une bonne généralisation. Le problème de généralisation est plus large puisque cette représentation ne permet pas au modèle de tenir compte des paires qui n’ont pas été vues à l’entraînement et ne dit rien des similarités potentielles entre les paires de mots. Par exemple, si l’on considère pour simplifier que l’on représente une instance seulement par la paire constituée par les verbes principaux de chacun de ses arguments, le vecteur one-hot correspondant à la paire « rose, tumbled », vu à l’exemple (55), sera à la même distance (euclidienne ou cosinus) des vecteurs représentants des instances correspondant à des paires de synonymes « went up, lost » ou d’antonymes « downed, gained », puisque ces trois vecteurs seront orthogonaux, comme illustré dans la figure 5.1. On voudrait au contraire que la représentation tienne compte des similarités entre les termes.