• Aucun résultat trouvé

5.4.1

Données

Notre objectif est d’évaluer la pertinence de différentes représentations vectorielles pour des instances de relations discursives implicites. Plus spécifiquement, nous voulons savoir si les repré- sentations denses permettent de meilleures performances que les représentations éparpillées, si certains mots sont d’une importance cruciale pour l’identification des relations, quelles ressources et quelles stratégies de combinaison sont les plus adaptées à la tâche et, finalement, si les traits utilisés traditionnellement sont encore utiles lorsque l’on utilise une représentation dense des mots.

Nous utilisons le corpus du PDTB dans la même configuration que pour les expériences présentées dans le chapitre précédent. Nous présentons ici les différents types de traits utilisés, qui sont d’abord des traits lexicaux, et nous détaillons les paramètres des représentations de mots utilisées ainsi que leur couverture.

5.4.1.1 Ensemble de traits

Les traits utilisés sont d’abord lexicaux et se divisent en deux versions selon que l’on utilise seulement la tête verbale des arguments ou tous les mots présents dans les arguments.

Extraction des têtes

Nous définissons une heuristique pour extraire les têtes des arguments à partir de l’analyse en constituant fournie par le PTB. Les têtes syntaxiques sont d’abord extraites en utilisant les règles de percolation des têtes de Collins3. Afin de récupérer une tête sémantique, nous appliquons

un ensemble de règles qui correspondent à chercher le participe passé d’un auxiliaire, l’attribut adjectival ou nominal du verbe copule « be » et le verbe à l’infinitif complément de « have to ». Dans le cas où l’on ne trouve pas de proposition contenant un verbe, on cherche d’abord un syntagme nominal, puis un syntagme adjectival et, finalement, un syntagme prépositionnel. Dans le cas d’une coordination ou d’un argument correspondant à plusieurs phrases, nous utilisons ces règles sur la première tête coordonnée. Quand un argument ne correspond pas à un seul sous-arbre bien formé, que l’on a donc de multiples sous-arbres, on cherche la tête de la première clause indépendante ou, s’il n’y en a pas, du premier syntagme. Ainsi, nous extrayons les têtes soulignées en gras dans les exemples suivants.

(57) a. [Trinidad Corp. is contesting liability.] [It claims the Coast Guard failed to chart the rock and refuses to pay damages.]

b. [But such skills were alien to Toni Johnson.] [Four years ago, she was managing a film-processing shop and was totally bored.]

c. "We’ve done a lot to improve (U.S.) results [and a lot more will be done]," Mr. Mark said. "[Improving profitability of U.S. operations is an extremely high priority in the company.]" d. [Lights flickered on and off ; plaster dropped from the ceiling, the walls still shook and an evacuation alarm blared outside.] [The four lawyers climbed out from under a table.] e. The budget was only $400,000. "[Athens with Spartan means]," Mr. McDonough says.

[The fund’s lawyers work in an Athenian grove of potted trees.]

Cette extraction contient éventuellement des erreurs au sens où, par exemple, nous ne récupérons pas « failed » dans le second argument de l’exemple (58) mais le verbe introducteur de discours « says ». Dans cet exemple de la relation temporelle Precedence, on aurait plutôt voulu récupérer la tête du discours rapporté qui est à un temps passé contrairement au verbe du premier argument, différence qui peut signaler la relation d’asynchronie.

(58) [The screen fills with a small, tight facial shot of David Dinkins, Democratic candidate for mayor of New York City.] [David Dinkins failed to file his income taxes for four straight years," says a disembodied male voice.]

De plus, nous ne récupérons pas les auxiliaires, les modaux ou la présence d’une négation ou d’une particule (comme « off » dans « set off ») qui donnent pourtant des informations cruciales pour notre tâche. Pour l’instant, les informations temporelles, modales ou de négation sont encodées à l’aide de traits supplémentaires mais il faudra envisager dans de futures expériences de les inclure à la représentation dense4. De même, nous effectuons une simplification en ne conservant que la

première tête en cas de coordination, il faudra envisager de combiner toutes les têtes. Représentation fondée sur les mots

Nous utilisons soit un encodage one-hot, directement sur les mots (ou tokens), soit une représen- tation dense construite à partir des représentations distributionnelles ou distribuées. Les clusters Brown (Brown), les plongements Collobert-Weston (CnW) et hierarchical log-bilinear (HLBL) cor- respondent aux versions implémentées dans (TURIANet al., 2010)5. Ces représentations ont été

construites à partir du corpus journalistique anglais Reuters, la casse est laissée intacte. Nous testons les versions avec 100, 320, 1000 et 3 200 clusters pour Brown, avec 25, 50, 100 et 200 dimensions pour CnW et avec 50 et 100 dimensions pour HLBL. Les représentations Hellinger PCA (H-PCA) viennent de (LEBRETet COLLOBERT, 2014)6. Elles ont été construites à partir de Wikipédia, du

corpus Reuters et du Wall Street Journal, tous les mots sont mis en minuscules. Le vocabulaire des H-PCA correspond aux mots qui apparaissent au moins 100 fois. La fréquence normalisée est calculée à partir des 10 000 mots les plus fréquents comme contexte. Nous testons les versions avec 50, 100 and 200 dimensions pour H-PCA. La couverture de chacune de ces ressources est présentée dans la table 5.1.

Taille des vocabulaires

Pour l’encodage one-hot, nous laissons la casse inchangée. La représentation induite à partir des clusters Brown est construite en ignorant les mots inconnus suivant (RUTHERFORDet XUE, 2014).

Pour les plongements, on associe aux mots inconnus la moyenne des vecteurs sur tous les mots.

4. Nous ne pouvons effectuer une simple concaténation puisqu’une tête peut être associée à un nombre variable d’auxiliaires/modaux.

5. http://metaoptimize.com/projects/wordreprs/ 6. http://lebret.ch/words/

Nombre de mots Nombre de mots manquants Tous les mots Mots têtes

HLBL 246 122 5 439 171

CnW 268 810 5 638 171

Brown 247 339 5 413 171

H-PCA 178 080 7 042 190

Table 5.1.:Couverture des représentations de mots utilisées : clusters Brown (Brown ), plongement Collobert et Weston (CnW ), plongement Hierarchical log-bilinear (HLBL), plongement Hellinger PCA (H-PCA).

Pour l’encodage one-hot, nous avons |V| = 33 649 tokens différents dans les données7, ce qui

donne une idée de l’éparpillement de cette représentation. Les clusters Brown permettent d’opérer des regroupements de ces tokens qui correspondent alors à 3 190 codes différents pour la version contenant originellement 3 200 clusters, à 393 codes pour celle en contenant 1 000, à 59 codes pour celle en contenant 320, ou à 16 codes pour celle en contenant 100.

Quand nous nous limitons aux têtes des arguments, nous comptons 5 615 tokens différents qui correspondent à 1 988 codes pour la version avec 3 200 clusters et des nombres similaires aux précédents pour les autres versions.

Pour les représentations denses, la taille du vocabulaire correspond à deux fois le nombre de dimensions du plongement utilisé, soit entre 50 et 400, ou le carré de ce nombre, donc entre 625 et 40 000.

Autres traits

Nous testons l’ajout de traits supplémentaires traditionnellement utilisés dans les études existantes sur la tâche. Ces traits correspondent aux catégories suivantes, telle que présentées dans le cha- pitre 3 : Règles de production, Verbe, Modalité, Polarité, Catégories sémantiques (Inquirer), Nombre, pourcentage, dollars et Premier, dernier, trois premiers mots. Tous ces traits sont représentés par un encodage one-hot, à l’exception de la longueur des syntagmes verbaux qui est un trait continu, nous les concaténons donc aux traits lexicaux. Cet ensemble correspond aux traits utilisés dans (RUTHERFORDet XUE, 2014), étude à laquelle nous voulons nous comparer.

5.4.2

Modèles

Nous utilisons le même algorithme de classification que dans le chapitre précédent, donc un algorithme linéaire par maximum d’entropie. Pour le niveau 1 de relation, on construit un classifieur binaire par relation. Nous gérons le problème de déséquilibre des classes en utilisant la stratégie de pondération des instances : chaque instance reçoit un poids inversement proportionnel à la fréquence de la classe à laquelle il appartient dans l’ensemble d’entraînement. Nous optimisons les mêmes hyper-paramètres que ceux décrits dans les expériences de référence en section 3.4.3 en regard de la F1dans le cas binaire et de ma macro-F1dans le cas multiclasse. Nous optimisons

ici également le filtre en fréquence sur les traits. Notons que ce paramètre additionnel n’a de sens que pour les représentations non denses. La significativité statistique est testée en utilisant le t-test apparié et le test de Wilcoxon sur l’ensemble de test divisé en 20 sous-ensembles.

7. LIet NENKOVA(2014b) donnent des chiffres différents mais qui correspondent aux traits apparaissant plus de 5 fois dans les données.