Expériences en binaire au niveau 1 - Identification automatique des relations discursives impli

5.5 Résultats

5.5.1 Expériences en binaire au niveau 1

Nous présentons dans cette section les résultats obtenus sur le PDTB pour des modèles en binaire au niveau 1 de sens. Nous rapportons les scores obtenus pour des modèles multiclasses dans les sections suivantes.

5.5.1.1 Utilisation de tous les mots

Dans cette configuration, nous avons trouvé que l’utilisation de représentations de mots acquises de manière non supervisée permet quasiment systématiquement d’obtenir des performances su- périeures à celles obtenues en utilisant les mots bruts. Les scores obtenus sont présentés dans le tableau 5.2. Bien que la meilleure représentation diffère d’une relation à l’autre, le meilleur score de F1est toujours obtenu avec une représentation plus dense. Nos systèmes de référence corres-

pondent à l’encodage one-hot directement sur les mots en utilisant les schémas de combinaison par concaténation ou par multiplication, notés One-hot et One-hot ⌦, le dernier correspondant à la représentation utilisée la plus fréquemment dans les études existantes. Ces systèmes constituent une référence assez forte au sens où ils ont été obtenus en optimisant un filtre en fréquence, ce qui gère de manière brutale et simple l’éparpillement. Nos meilleurs systèmes fondés sur des représentations denses correspondent à des améliorations significatives en termes de F1d’environ

8% pourExpansion, 7% pour Temporal et 3, 5% pour Contingency. Les gains pour Comparison ne sont pas significatifs. Ces scores ont été obtenus en utilisant la normalisation au vecteur unitaire, et, pour les systèmes utilisant la concaténation, la normalisation par le nombre de mots dans les arguments, normalisations décrites dans la section 5.3.3.3. Cette forme de normalisation a permis d’obtenir les meilleures performances sur l’ensemble de développement.

Représentation Temporal Contingency Comparison Expansion

P F1 P F1 P F1 P F1 One-hot ⌦ 23, 6 21, 1 41, 4 50, 4 26, 3 34, 8 62, 5 59, 4 One-hot 17, 9 23, 0 41, 4 51, 3 25, 0 34, 1 62, 3 59, 0 Brown 3, 200 ⌦ 18, 0 20, 4 40, 8 50, 9 27, 6 34, 8 62, 4 61, 2 Best Brown ⌦ 18, 7 15, 5 43, 4 53, 8⇤⇤ 22, 5 30, 9 55, 7 61, 9 Best Brown 22, 0 28, 0⇤⇤ 38, 5 49, 5 21, 8 31, 2 53, 4 67, 4⇤⇤ Best Embed. ⌦ 17, 0 23, 0 42, 6 52, 8⇤⇤ 24, 6 35, 0 64, 4 61, 9 Best Embed. 15, 6 26, 0⇤ _{42, 6} _{52, 5} _{22, 7} _{33, 1} _{62, 8} _{60, 2}

Table 5.2.:Modèles utilisant tous les mots sur les arguments sur l’anglais en binaire au niveau 1, précision (« P ») et F1par relation⇤p 0.1,⇤⇤p 0.05 comparé à One-hot ⌦ avec le t-test et Wilcoxon.

5.5.1.2 Comparaison des représentations denses

Nous avons obtenu les meilleures performances en utilisant la représentation clusterisée fondée sur les clusters Brown (systèmes Brown). Cela montre que cette ressource permet d’opérer des groupe- ments sur les mots qui sont pertinents pour notre tâche. RUTHERFORDet XUE(2014) décrivent de

manière extensive l’intérêt de cette ressource pour notre tâche, avec, par exemple, le rapprochement de paires de mots correspondant au même cluster pour la relation Expansion ou la mise en lien de chiffres ou de dates pour les relations Comparison et Temporal. Cependant, la configuration reposant sur cette représentation utilisée dans (RUTHERFORDet XUE, 2014) (Brown 3, 200 ⌦) ne

conduit pas à des performances supérieures aux systèmes de référence utilisant les mots bruts, sauf pour Expansion. Rappelons que cette comparaison n’avait pas été mise en œuvre dans cette étude. Ceci nous conduit à penser que les améliorations rapportées dans cette étude ne proviennent pas

de l’utilisation des clusters. Quant aux plongements lexicaux (Embed.), bien qu’ils conduisent à des performances légèrement inférieures, ils permettent quand même des améliorations significatives pour Temporal et Contingency, et de légères améliorations pour les autres relations. Ceci montre que, même s’ils n’ont pas été construits en se fondant sur des critères discursifs, les dimensions latentes encodent des propriétés des mots qui sont pertinentes par rapport à leurs fonctions rhétoriques. La supériorité des clusters Brown par rapport aux plongements lexicaux rejoint les conclusions de TURIANet al. (2010) pour deux autres tâches de TAL, la reconnaissance d’entités nommées et le

chunking syntaxique.

De plus, TURIAN et al. (2010) ont montré que le meilleur plongement lexical était dépendant

de la tâche. Nos expériences suggèrent que ce paramètre est dépendant de la relation : les meilleurs scores sont obtenus avec HLBL pour Temporal, avec CnW pour Contingency, avec H-PCA pour Expansion et avec CnW (meilleur système utilisant la multiplication) et H-PCA (meilleur système avec concaténation) pour Comparison. Ceci montre que ces quatre relations peuvent être considérées comme quatre tâches distinctes. L’identification de liens temporels ou causaux correspond à des indices très différents, les premiers reposant plutôt sur des expressions temporelles ou l’ordonnancement temporel des évènements tandis que les seconds reposent sur des informations lexicales ou des connaissances encyclopédiques sur les évènements. Nous pensons que ceci explique aussi que le comportement de la F1par rapport au nombre de clusters optimal pour Expansion soit

vraiment différent de celui observé pour les autres relations : pour Expansion, le meilleur score est obtenu avec 100 clusters pour le système utilisant la concaténation et 320 pour le système basé sur une multiplication alors que pour les autres relations, les meilleures performances correspondent à l’utilisation de 1 000 ou 3 200 clusters. La relation Expansion est la moins sémantiquement marquée et elle profite donc moins de groupements sémantiques fins. Les figures 5.2 et 5.3 montrent ce comportement pour les systèmes utilisant respectivement la concaténation et la multiplication. On peut voir que les courbes pour les clusters Brown sont très différentes pour Expansion par rapport aux autres relations.

5.5.1.3 Comparaison des schémas de combinaison

La comparaison des schémas de combinaison montre d’abord que l’utilisation de l’encodage one-hot sur les mots bruts à partir d’une concaténation (One-hot ), bien qu’elle n’encode pas les corrélations entre les mots, conduit à des performances similaires voire supérieures à celles obtenues en utilisant la forme multiplicative (One-hot ⌦) traditionnellement utilisée. Avec les clusters Brown, la forme concaténée permet de meilleurs scores de F1que la forme multiplicative

sauf pour Contingency qui semble profiter de la modélisation des interactions.

En comparant les performances sur l’ensemble de développement, nous avons trouvé que les différences entre les deux formes de combinaison pour les clusters Brown, en excluant Expansion, dépendent du nombre de clusters utilisés. TURIANet al. (2010) avaient trouvé que les performances

augmentaient avec le nombre de clusters, les meilleurs scores étant obtenus avec 3 200 clusters. C’est aussi le cas pour notre tâche quand on utilise la concaténation comme on peut le voir sur les courbes en 5.2. Par contre, lorsque les vecteurs sont combinés par multiplication, la F1croît jusqu’à

1 000 clusters puis décroît comme le montrent les courbes en 5.3. Il y a bien sûr un compromis entre expressivité et éparpillement : utiliser trop peu de clusters conduit à des performances basses puisque l’on perd des distinctions importantes, mais en avoir trop conduit à une perte de généralisation. Pour les plongements lexicaux, les comportements sont plus consistants avec en général une amélioration des performances avec l’augmentation du nombre de dimensions prises en compte.

(a)Temporal 25 50 100 200 15 16 17 Nombre de dimensions F1 sur l’ens. de dev . 100 320 1000 3200

Taille des clusters

(b)Contingency. 25 50 100 200 47 48 49 50 Nombre de dimensions F1 sur l’ens. de dev . 100 320 1000 3200

Taille des clusters

(c)Comparison. 25 50 100 200 35 36 37 Nombre de dimensions F1 sur l’ens. de dev . 100 320 1000 3200

Taille des clusters

(d)Expansion. 25 50 100 200 58 59 60 61 Nombre de dimensions F1 sur l’ens. de dev . 100 320 1000 3200

Taille des clusters

H-PCA HLBL CnW Brown

Figure 5.2.:Scores de F1 sur l’ensemble de développement pour des systèmes en binaire au niveau 1 par

rapport à la taille des clusters Brown et au nombre de dimensions des plongements de mots pour les systèmes utilisant la concaténation (systèmes ).

5.5.1.4 Utilisation des têtes des arguments seules

Nous avons voulu tester si la restriction de la représentation à la seule tête sémantique des arguments suffisait à identifier une relation. En effet, dans certains cas, il semble que la seule paire des têtes soit un bon indicateur du lien comme dans l’exemple précédemment cité et repris en (59) où la paire « rose, tumbled » signale une relation contrastive.

(59) [ Quarterly revenue rose 4.5%, to $2.3 billion from $2.2 billion]1[ For the year, net income

tumbled 61% to $86 million, or $1.55 a share]2

Nous rapportons les résultats obtenus avec cette représentation dans la table 5.3. On observe que les performances sont inférieures à celles obtenues en utilisant tous les mots dans les arguments, et surtout pour le système de référence One-hot ⌦ qui correspond à des scores très bas avec une perte comprise entre 7% et 17% en termes de F1. La baisse de performance est bien moins importante

pour le système One-hot et avec les représentations denses qui, de nouveau, correspondent

(a)Temporal. 25 50 100 200 16 18 20 Nombre de dimensions F1 sur l’ens. de dev . 100 320 1000 3200

Taille des clusters

(b)Contingency. 25 50 100 200 47 48 49 Nombre de dimensions F1 sur l’ens. de dev . 100 320 1000 3200

Taille des clusters

(c)Comparison. 25 50 100 200 35 36 Nombre de dimensions F1 sur l’ens. de dev . 100 320 1000 3200

Taille des clusters

(d)Expansion. 25 50 100 200 59 60 61 62 Nombre de dimensions F1 sur l’ens. de dev . 100 320 1000 3200

Taille des clusters

H-PCA ⌦ HLBL ⌦ CnW ⌦ Brown ⌦

Figure 5.3.:Scores de F1 sur l’ensemble de développement pour des systèmes en binaire au niveau 1 par

rapport à la taille des clusters Brown et au nombre de dimensions des plongements de mots pour les systèmes utilisant le produit de Kronecker (systèmes ⌦).

aux meilleures performances. La seule exception est la relation Expansion dont la précision est cependant améliorée. Comme nous l’avons déjà dit, cette relation est la moins sémantiquement marquée, elle profite donc moins de l’utilisation de représentations de mots.

Les meilleures performances sont obtenues ici avec des plongements lexicaux et non avec les clusters Brown. On obtient des améliorations significatives comprises entre 8 et 13% en termes de F1pour la plupart des relations. De plus, les meilleurs systèmes sont tous fondés sur le schéma

multiplicatif ce qui confirme que c’est un meilleur moyen de représenter les paires que la simple concaténation quand le nombre de dimensions initial n’est pas trop grand.

5.5.1.5 Ajout d’autres traits

Nous cherchons ici à savoir quelles améliorations nous pouvons obtenir en ajoutant aux traits construits à partir des représentations de mots d’autres traits traditionnellement utilisés. C’est également une façon d’évaluer les performances des systèmes fondés sur les représentations de mots uniquement en regard de l’état de l’art. Nous comparons nos résultats à ceux présentés

Représentation Temporal Contingency Comparison Expansion P F1 P F1 P F1 P F1 One-hot ⌦ 6, 4 12, 0 27, 6 43, 2 41, 0 17, 3 53, 5 69, 2 One-hot 16, 5 23, 0 35, 4 49, 4 22, 1 29, 2 57, 1 59, 1 Best Brown ⌦ 16, 3 22, 9 31, 6 45, 7 15, 0 25, 8 53, 4 68, 8 Best Brown 14, 2 21, 8 34, 7 47, 4 17, 9 27, 5 54, 5 61, 4 Best Embed ⌦ 18, 0 23, 9 39, 8 51, 3 20, 3 30, 6 56, 8 58, 6 Best Embed 13, 3 22, 5 36, 9 47, 5 19, 7 29, 8 56, 6 57, 4

Table 5.3.:Modèles utilisant seulement les têtes des arguments sur l’anglais en binaire au niveau 1, précision (« P ») et F1par relation. Toutes les améliorations observées par rapport au système One-hot ⌦ en

termes de F1sont significatives.

dans (RUTHERFORD et XUE, 2014) et dans (JI et EISENSTEIN, 2014a), deux études cherchant à gérer le problème d’éparpillement soit en utilisant des clusters Brown soit en apprenant une représentation dense liée à la tâche. Pour rendre la comparaison plus facile, nous reproduisons les expériences de RUTHERFORDet XUE (2014) avec l’algorithme naïf bayésien (NB) utilisé par

ces auteurs8 _{et avec l’algorithme par régression logistique (ME) que nous avons utilisé jusqu’à}

présent. Rappelons que le système proposé par ces auteurs correspond à l’utilisation des clusters Brown avec le schéma de combinaison par multiplication. Ces systèmes correspondent aux lignes « repr. » dans la table 5.4. La petite différence en termes de performance pour le système utilisant l’algorithme naïf bayésien doit être due au fait que nous n’incluons pas de traits de type coréférence et/ou à l’utilisation de seuils en fréquence différents. Concernant la différence entre les scores obtenus par les deux algorithmes, le seul vrai problème est la baisse en F1pour Expansion avec

l’algorithme par régression logistique : en fait, le système utilisant l’algorithme naïf bayésien prédit tous les exemples comme positifs ce qui conduit à un score relativement haut tandis que le système construit avec l’algorithme par régression logistique produit des prédictions plus équilibrées. Aucun de ces deux systèmes n’est donc totalement satisfaisant. Finalement, nous donnons également des résultats en utilisant l’encodage one-hot traditionnel reposant sur les mots bruts et des traits supplémentaires (One-hot ⌦ + traits sup.). Tous ces résultats sont résumés dans la table 5.4, nous incluons également les scores rapportés dans la dernière étude sur le PDTB (RUTHERFORDet XUE,

2015) et les meilleurs résultats obtenus précédemment, c’est-à-dire sans traits additionnels, pour faciliter la comparaison (lignes « seul. »).

Temporal Contingency Comparison Expansion

System P F1 P F1 P F1 P F1 (RUTHERFORDet XUE, 2015) - 33, 3 - 53, 8 - 41, 0 - 69, 4 (JIet EISENSTEIN, 2014a) - 26, 9 - 51, 4 - 35, 8 - 79, 9 (RUTHERFORDet XUE, 2014) 18, 5 28, 7 44, 5 54, 4 27, 3 39, 7 59, 6 70, 2 repr. (RUTHERFORDet XUE, 2014) NB 24, 0 28, 0 49, 5 52, 9 28, 9 37, 4 53, 1 70, 2 repr. (RUTHERFORDet XUE, 2014) ME 28, 3 24, 8 44, 4 53, 4 30, 0 36, 5 53, 2 50, 0 One-hot ⌦ all tokens + traits sup. 24, 6 23, 3 46, 3 54, 4 30, 6 34, 3 64, 9 62, 6 Best all tokens seul. 22, 0 28, 0 43, 4 53, 8 24, 6 35, 0 53, 4 67, 4 Best heads seul. 18, 0 23, 9 39, 8 51, 3 20, 3 30, 6 53, 3 69, 2 Best all tokens + traits sup. 25, 8 29, 3 45, 2 55, 8 26, 0 36, 4 65, 9 61, 8 Best heads + traits sup. 23, 8 22, 9 43, 2 54, 1 26, 2 36, 5 65, 3 61, 8

Table 5.4.:Modèles utilisant des traits supplémentaires (« + traits sup. ») sur l’anglais en binaire au niveau 1, résultats état de l’art rapportés ou reproduits (« repr. ») en utilisant l’algorithme naïf bayésien (NB) ou par régression logistique (ME) et meilleurs systèmes des tableaux précédents (« seul. »), précision (« P ») et F1par relation.

8. Nous utilisons une autre implémentation, celle fournie dans le module scikit-learn.

Nous observons d’abord que l’ajout des traits supplémentaires permet d’obtenir des systèmes qui améliorent l’état de l’art pour Temporal et Contingency, et pour cette dernière correspondant aux meilleures performances actuelles. Ces améliorations sont significatives par rapport aux systèmes reproduits. Nous obtenons également de meilleures performances que celles rapportées dans (JIet

EISENSTEIN, 2014a) utilisant un plongement lexical lié à la tâche sauf pour la relation Expansion.

Une explication potentielle pour cette relation est que JI et EISENSTEIN (2014a) incluent les

exemples EntRel et utilisent des traits de coréférence. Notons que nos systèmes correspondant à une reproduction de ceux présentés dans (RUTHERFORDet XUE, 2014) mènent à des résultats

similaires aux systèmes de référence utilisant des paires de mots bruts (One-hot ⌦ all tokens+ traits sup.) montrant que les améliorations rapportées dans cette étude provenaient d’autres paramètres, comme l’optimisation d’un seuil en fréquence ou les traits de coréférence.

Ceci étant dit, l’ajout des traits supplémentaires à nos meilleurs systèmes utilisant tous les mots des arguments ne conduit pas à des améliorations aussi hautes que l’on pouvait s’y attendre. Bien que les améliorations soient significatives par rapport aux systèmes état de l’art reproduits, elles ne le sont pas par rapport à nos meilleurs systèmes sans ajout de traits supplémentaires (systèmes « seul. ») repris dans la table 5.4. Lorsque l’on utilise tous les mots des arguments, on a uniquement une tendance vers une amélioration significative pour Contingency (p = 0, 135 avec le ttest et p = 0, 061 avec le test de Wilcoxon). Ces différences très faibles montrent que les propriétés sémantiques et syntaxiques encodées dans ces traits sont déjà prises en compte dans les représentations de mots non supervisées que nous testons. Une étude supplémentaire sera nécessaire pour identifier quels traits exactement peuvent apporter des informations vraiment complémentaires à celles obtenues à partir de ces représentations.

Concernant l’utilisation des seules têtes des arguments, l’ajout des autres traits conduit à des améliorations importantes pour Contingency et Comparison, et aussi pour Expansion en termes de précision. Les résultats sont similaires pour Temporal. Notons que l’ajout des traits permet d’obtenir des résultats similaires aux systèmes utilisant tous les traits pour Contingency, Comparison et Expansion ce qui montre que tous les mots n’ont pas la même importance et que les têtes sémantiques sont d’une importance cruciale. Ceci renforce également l’idée que la seule prise en compte de ces têtes n’est pas suffisante, nous devons y intégrer d’autres types d’informations notamment d’ordre temporel et modal ici incluses dans les autres traits. Dans de futures expériences, il faudra construire un ensemble de mots autour des têtes et trouver une façon de représenter cet ensemble pouvant varier en taille de manière à avoir une similarité pour des groupements comportant un même modal ou correspondant à une même situation temporelle (c’est-à-dire distinguer « have been » et « had been » mais avoir une similarité entre « was » et « had »).

5.5.1.6 Courbes d’apprentissage

On peut se demander si l’utilisation de représentations denses permet de diminuer le nombre d’exemples d’entraînement nécessaire. Nous présentons dans la figure 5.4 les scores de F1pour

chaque relation sur l’ensemble d’évaluation en faisant varier la taille des données d’entraînement entre 10 et 100% des données disponibles. Plus précisément, les scores pour les sous-ensembles inférieurs à 100% correspondent à une moyenne sur 10 expériences. La ligne horizontale pointillée correspond au score de référence obtenu avec l’ensemble des données pour la représentation One-hot ⌦.

On voit clairement pour Temporal et Contingency que l’apport de données d’entraînement conduit à des améliorations ce qui est attendu dans le sens où les meilleurs systèmes pour ces relations se fondent sur les clusters Brown donc une représentation qui demeure sujette à l’éparpillement. On note cependant qu’avec 70 80% des données, on obtient déjà des performances assez hautes et

(a)Temporal (Brown 3 200 ).

10 20 30 40 50 60 70 80 90 100 20

Taille des données (en %) F1 sur l’ens. de test (b)Contingency (Brown 1 000 ⌦). 10 20 30 40 50 60 70 80 90 100 46 48 50 52 54

Taille des données (en %) F1 sur l’ens. de test (c)Comparison (CnW 200 ⌦). 10 20 30 40 50 60 70 80 90 100 30 32 34

Taille des données (en %) F1 sur l’ens. de test (d)Expansion (Brown 100 ). 10 20 30 40 50 60 70 80 90 100 60 62 64 66 68

Taille des données (en %) F1

sur

l’ens.

test

Figure 5.4.:Scores de F1des meilleurs systèmes obtenus sur l’ensemble d’évaluation en binaire au niveau 1

par rapport à la taille des données d’entraînement. Nous ajoutons en pointillés le score obtenu avec le système One-hot ⌦ sur l’ensemble des données.

que l’on dépasse le système de référence dès 40 50% des données d’entraînement. Pour la relation Comparison, nous n’avons pas obtenu d’amélioration importante en utilisant une représentation plus dense. Même s’il semble que l’on puisse atteindre des résultats au niveau du système de référence en utilisant un sous-ensemble des données d’entraînement, le nombre de données nécessaire reste important (plus de 80%) malgré l’utilisation d’un plongement lexical dense. Pour la relation Expansion, la courbe correspond à un comportement moins prévisible, comportement qui suit celui du rappel. Il n’est cependant pas évident de comprendre pourquoi on observe une si large baisse du rappel en utilisant entre 30 et 60% des données. De manière générale, le comportement des performances pour cette relation est toujours différent des autres, ce qui vient en partie de sa faible caractérisation sémantique et de sa sur-représentation dans les données.

Dans le document Identification automatique des relations discursives implicites à partir de corpus annotés et de données brutes (Page 190-196)