Expériences en multiclasse au niveau 1 - Identification automatique des relations discursives i

5.5 Résultats

5.5.2 Expériences en multiclasse au niveau 1

Nous testons les stratégies présentées précédemment dans des systèmes multiclasses au niveau 1 de la hiérarchie de sens du PDTB, les résultats pour le niveau 2 seront présentés dans la section suivante. Dans ce cadre, nous optimisons les mêmes hyper-paramètres que précédemment mais en regard du score de F1macro-moyenné.

5.5.2.1 Utilisation de tous les mots des arguments

L’utilisation des représentations de mots fondées sur les clusters Brown ou sur les plongements lexicaux conduit à des scores similaires voire supérieurs à l’utilisation des paires de mots bruts

(One-hot ⌦). La légère baisse observée pour le meilleur système fondé sur les clusters Brown avec le schéma multiplicatif (Best Brown ⌦) n’est pas significative (t-test p = 0, 666, Wilcoxon p = 0, 709). Les meilleurs systèmes en termes de macro-F1 sont obtenus avec les plongements lexicaux, et

non les clusters Brown comme en binaire. Le meilleur système correspond à la combinaison par concaténation (Best Embed. ) utilisant la représentation CnW 200, l’amélioration observée de 2, 61% en macro-F1correspond à une tendance vers une amélioration significative (t-test p = 0, 09,

Wilcoxon p = 0, 108).

Dans la dernière étude sur le PDTB en multiclasse au niveau 1, RUTHERFORDet XUE(2015) rap-

portent 38, 4% de macro-F1et 55, 0% de micro-exactitude pour leur système de référence utilisant

le clusters Brown et des traits additionnels. Leur meilleur système, utilisant des données artifi- cielles, correspond à une macro-F1de 40, 5% et une micro-exactitude de 57, 1%. Nous obtenons

un score de macro-F1 du même ordre avec notre système de référence (One-hot ⌦), donc en

utilisant uniquement les traits de type paires de mots, et nous améliorons ce score en utilisant les plongements lexicaux. Notre micro-exactitude est cependant plus basse, rappelons que nous optimisons la macro-F1tandis que ces auteurs optimisent la micro-exactitude.

Représentation Macro-prec Macro-F1 Exactitude

One-hot ⌦ 38, 6 39, 0 48, 6 One-hot 39, 8 40, 2 50, 2 Best Brown ⌦ 38, 7 37, 5 50, 6 Best Brown 40, 2 40, 6 51, 2 Best Embed. ⌦ 41, 4 41, 0 51, 7 Best Embed. 41, 4 41, 6 50, 1

Best all tokens + traits sup. 40, 7 40, 8 51, 2

Combine 42, 3 40, 6 53, 4

Table 5.5.:Modèles utilisant tous les mots sur les arguments sur l’anglais en multiclasse au niveau 1, scores de F1et de précision macro-moyennés (« macro-F1» et « macro-prec »)), et scores d’exactitude de

chaque système.

Concernant les scores par relation, notre meilleur système (Best Embed. ) permet d’obtenir des améliorations pour la majorité des relations (voir tableau 5.6b) par rapport aux scores obtenus avec le système de référence (One-hot ⌦) pour lequel les résultats sont présentés dans le tableau 5.6a. On observe ainsi une augmentation du score de F1de 6, 5% pour Temporal, de 3, 6% pour Contingency

et de 0, 6% pour Expansion. Comme dans le cas binaire, on n’obtient pas d’amélioration pour la relation Comparison. Nous rapportons également les meilleurs scores présentés dans (RUTHERFORD

et XUE, 2015) dans le tableau 5.6c. Pour rappel, dans cette étude, les auteurs utilisent des données

artificielles pour augmenter le nombre de données disponibles et une représentation similaire au jeu de traits base+lex+synt avec ajout de traits de coréférence et transformation des traits de type paires de mots en utilisant les clusters Brown. Nous obtenons des résultats supérieurs à ceux présentés dans cette étude pour Temporal et Contingency montrant qu’une bonne représentation peut finalement avoir un impact plus important qu’un ajout massif de nouvelles données. Notons que pour Expansion notre score de précision est meilleur, donc moins d’instances des autres relations sont prédites comme exemple d’Expansion, mais notre rappel est beaucoup plus bas, indiquant probablement une tendance du système de RUTHERFORDet XUE(2015) à prédire par erreur des

exemples vers cette relation sur-représentée.

L’ajout des traits supplémentaires (Best all tokens + traits sup.) au meilleur système (Best Embed. ) n’apporte ici aucune amélioration en terme de macro-F1. On observe une amélioration de

l’exactitude mais les scores par relation sont inférieurs à ceux obtenus avec le meilleur système sauf pour la relation Expansion (F1 de 64, 0%). Ces traits ne permettent donc pas une meilleure

utilisés ne sont plus utiles lorsqu’on utilise une représentation de mots et un schéma de combinaison adaptés. (a)One-hot ⌦. Rel P R F1 Temp 15, 6 25, 0 19, 2 Cont 44, 0 41, 3 42, 6 Comp 32, 1 34, 9 33, 4 Expa 62, 8 58, 6 60, 6 (b)Best Embed. . Rel P R F1 Temp 19, 0 39, 7 25, 7 Cont 47, 5 44, 9 46, 2 Comp 35, 1 31, 5 33, 2 Expa 63, 9 58, 8 61, 2 (c)(RUTHERFORDet XUE, 2015). Rel P R F1 Temp 38, 5 9, 1 14, 7 Cont 49, 3 39, 6 43, 9 Comp 44, 9 27, 6 34, 2 Expa 61, 4 78, 8 69, 1

Table 5.6.:Scores de précision (« P »), rappel (« R ») et F1 par relation pour les systèmes sur l’anglais en

multiclasse au niveau 1 : système de référence One-hot ⌦ et meilleur système Best Embed. utilisant tous les mots sur les arguments. Nous rapportons également les scores du meilleur système présenté dans (RUTHERFORDet XUE, 2015).

Comme nous avons vu dans les expériences en binaires précédemment présentées que le meilleur système (type de représentation et de combinaison) dépendait de la relation, nous testons éga- lement, pour le multiclasse, une combinaison des meilleurs systèmes construits en binaire. Plus précisément, pour chaque relation, nous disposons d’un vecteur par instance construit en se fondant sur les clusters Brown ou sur un plongement lexical. Nous concaténons le vecteur construit pour chaque instance pour un système binaire donné avec celui construit pour les autres systèmes binaires. En multiclasse au niveau 1 nous avons donc pour chaque instance quatre blocs dans la représentation correspondant chacun au meilleur système construit pour chacune des quatre classes. Les résultats pour cette combinaison sont repris dans la ligne « Combine » dans le tableau 5.5. Nous observons une légère amélioration en termes de macro-F1et une amélioration de presque 5

points en micro-exactitude par rapport au système de référence (One-hot ⌦) mais les scores sont cependant inférieurs à ceux obtenus avec notre meilleur système (Best Embed. ⌦).

Représentation Macro-prec Macro-F1 Exactitude

One-hot ⌦ 30, 1 20, 6 52, 3 One-hot 36, 5 36, 0 47, 6 Best Brown ⌦ 32, 0 30, 4 46, 5 Best Brown 36, 1 35, 6 47, 8 Best Embed. ⌦ 37, 5 36, 8 48, 9 Best Embed. 36, 9 36, 6 47, 2

Table 5.7.:Modèles utilisant seulement les têtes des arguments sur l’anglais en multiclasse au niveau 1, scores de F1et de précision macro-moyennés (« macro-F1» et « macro-prec »), et scores d’exactitude de

chaque système. Toutes les améliorations observées par rapport à One-hot ⌦ sont significatives.

5.5.2.2 Utilisation des têtes des arguments seules

Lorsque l’on se limite aux seules têtes des arguments (tableau 5.7), on observe comme en binaire une large baisse des performances avec le système de référence One-hot ⌦, on perd notamment environ 18 points de macro-F1 par rapport au système utilisant tous les mots des arguments.

Ici, ce système de référence correspond en fait à une prédiction de quasiment tous les exemples vers la relation majoritaire, Expansion, comme le montrent les scores par relations repris dans le tableau 5.8a. On observe également que le système de référence fondée sur la concaténation (One-hot ) conduit à une amélioration très importante par rapport au système utilisant la forme multiplicative, avec un gain d’environ 10 points de macro-F1et des prédictions plus équilibrées avec

pour toutes les relations des scores de F1supérieurs à 20% (voir tableau 5.8b). Ici encore, ce sont

les plongements lexicaux qui conduisent aux meilleures performances améliorant significativement les scores du système de référence One-hot ⌦ en termes de macro-F1. On observe également

une importante amélioration de l’identification de la relation Temporal qui semble profiter tout particulièrement de l’utilisation des représentations de mots (voir tableau 5.8c).

(a)One-hot ⌦. Rel P R F1 Temp 0, 0 0, 0 0, 0 Cont 27, 3 1, 1 2, 1 Comp 40, 0 6, 8 11, 7 Expa 53, 2 96, 0 68, 5 (b)One-hot . Rel P R F1 Temp 17, 5 25, 0 20, 6 Cont 47, 8 35, 1 40, 5 Comp 22, 7 21, 9 22, 3 Expa 58, 2 63, 3 60, 6 (c)Best Embed. ⌦. Rel P R F1 Temp 22, 7 36, 8 28, 1 Cont 40, 5 37, 7 39, 0 Comp 27, 1 13, 0 17, 6 Expa 59, 8 65, 5 62, 5

Table 5.8.:Scores de précision (« P »), rappel (« R ») et F1 par relation pour les systèmes de référence sur

l’anglais en multiclasse au niveau 1 : One-hot ⌦, One-hot et meilleur système Best Embed. ⌦ utilisant seulement les têtes des arguments.

Dans le document Identification automatique des relations discursives implicites à partir de corpus annotés et de données brutes (Page 196-199)