• Aucun résultat trouvé

CHAPITRE 6 RÉSULTATS ET ANALYSE

6.3 Résultats pour les variations du protocole

6.3.2 Approche par synonyme

L’approche par synonyme était présente dans la méthode de Nakov pour générer des requêtes supplémentaires au corpus et en tirer plus de phrases pouvant contenir un élément prédicatif pertinent. Pour les synonymes, nous supposons un moteur de recherche de synonyme idéal.

Notre expérience témoin n’utilise pas de synonymes parce que nous n’utilisons pas comme Nakov la façade logicielle de Wordnet pour trouver des synonymes. Un jugement humain a été posé sur les liens de la version internet de Wordnet 3.13, accédée en été 2014, pour constituer un ensemble de synonymes Wordnet qui ont été sélectionnés pour conserver la relation sémantique avec le second membre du nom composé, connu par le juge humain. Le juge humain applique les mêmes critères de sélection pour constituer un ensemble de syno- nymes rassemblé à partir de tous les mots de la page internet de Wordnet 3.1 et un ensemble de synonymes rassemblés sans restriction, de source possiblement extérieure à Wordnet. Les taux de succès pour chaque synonyme et chaque corpus sont regroupés au tableau 6.5. Toutes les variations avec synonyme se sont avérées moins performantes en moyenne que l’approche témoin qui n’en utilise aucun. La plus grande chute a été subie par le corpus Yahoo ! qui est passé du meilleur taux de succès au pire, à 17%, soit trois points sous l’approche plancher. Seuls les n-grammes voient leur succès augmenter légèrement. Tous les résultats sont très proches les uns les autres. Il est clair que toute utilisation des synonymes avec l’approche de Nakov devra être faite différemment. Il nous faut conclure que les résultats de quelques points de plus pour Wikipédia et les n-grammes avec les synonymes de sources variées ne justifient pas de laisser cette étape dans le protocole.

Tableau 6.5 Taux de succès pour différents ensembles de synonymes en requête au corpus

Patron Wiki N-grammes Yahoo Faroo moyenne

Aucun synonyme - témoin 23% 21% 26% 21% 23%

Liens Wordnet 21% 23% 22% 21% 22%

Page de Wordnet 24% 24% 19% 20% 22%

Tous les synonymes 23% 24% 17% 18% 21%

En plus de ne pas augmenter significativement le taux de succès, l’approche par synonyme demande environ cinq fois plus de temps. Il a fallu cinq jours pour évaluer le résultat avec tous les synonymes et le grand corpus de Yahoo ! Que s’est-il passé pour expliquer cette chute du taux de succès ? En nous concentrant sur les différences entre ces deux expériences, nous constatons que le nombre de verbes distincts passe de 70 sans synonymes à 185, en moyenne. Les synonymes ont donc bien un impact. La somme des scores TF-IDF, en moyenne pour les 212 noms composés passe de 591 à 2274, parce que plus de verbes contribuent au score. La moyenne et la médiane pour le coefficient Dice du nom composé le plus similaire diminuent légèrement avec l’approche par synonyme, probablement parce que le nombre de verbes trouvés, un des termes du dénominateur, augmente beaucoup plus que le nombre de verbes communs aux deux listes, au numérateur.

En regardant uniquement les noms composés qui ne sont plus devinés avec les synonymes, nous constatons le même état des choses. Presque dix fois plus de documents ont été retirés du corpus en moyenne. Le nombre de verbes distincts est bien plus grand et, par conséquent, la somme des scores TF-IDF aussi. Le nombre de verbes communs avec le plus proche voisin de la bonne relation augmente avec l’approche par synonymes. Toutefois, le nombre de verbes communs avec d’autres vecteurs de référence, qui ne partagent pas de relation sémantique, augmente autant et parfois, plus.

L’exemple d’automobile plant illustre bien ce fait. Sans synonymes, son vecteur prédicatif compte 30 verbes distincts, dont seulement include(13) et feature(6) contribuent à la compa- raison avec le nom composé le plus proche qui s’avère partager la même relation, basketball

season.

<include (13), increase(12), feature (6), be(6), build(6), applaud(3), begin(3), establish(3), open(3), sell(3), work(3), launch(2), leave(2), manufacture(2), pro- duce(2), s(2), abandon(1), ask(1), be renamed as(1), breed(1), chronicle of(1), commence(1), comprise(1), cooperate with(1), interest in(1), irve(1), rename into(1), seal(1), spark(1), use(1)>

La relation est bien identifiée. Utiliser les synonymes de toutes origines pour le même nom composé augmente le vecteur prédicatif à 255 verbes distincts, mais la relation devinée n’est plus correcte. Pour automobile, les synonymes sont auto, car et motorcar. Pour plant, works et buildings sont des synonymes acceptables. Voici le vecteur sans les éléments uniques :

<be (34), build (33), lead (26), work (24), open (21), s (20), include (16), announce (16), manufacture (16), produce (14), assemble (12), increase (12), make (10), need (9), race (9), see (8), set (8), view (8), feature (7), beij (6), buy (6), get (6), price (6), require (6), sell (6), cover (5), fit (5), sap (5), use (5), begin (4), launch (4), mirror (4), run (4), water (4), wish (4), have (3), applaud (3), ask (3), be assembled (3), be in (3), call (3), compare (3), do (3), drum (3), establish (3), find (3), inspect (3), leave (3), pine (3), relate (3), set up (3), start (3), abandon (2), add (2), air (2), allege (2), allow (2), bank (2), be damaged in (2), be made at (2), be making (2), block (2), bolster (2), browse (2), clean (2), discuss (2), do at (2), drive (2), edit (2), enable (2), endanger (2), explore (2), flash (2), groundbreak (2), heal (2), hold (2), inform (2), install (2), interest in (2), invest in (2), line up (2), live (2), log (2), maintain (2), make at (2), motorize (2), mount (2), pedal (2), provide (2), relate from (2), repair (2), roll out (2), seal (2), service (2), style (2), supply (2), test (2), top (2), train (2), use for (2), use in (2), visit (2), want

(2), win (2), . . . >

Pour le vecteur avec synonymes, cinq éléments distincts ont été utiles à la comparaison. <include(16), feature(7), have(3), contain(1), encompass(1)>

Cette fois, le nom composé le plus similaire est honey bee, qui est une erreur, selon la classi- fication de Levi.

Les vecteurs de référence sont trop petits par rapport aux listes de verbes recueillis. Par exemple, steam iron compte 2 verbes run on qui s’associent à 13 verbes run on tirés du corpus. L’élément le plus fréquent dans le vecteur de steam iron est use, avec 12 apparitions. Il est comparé à 80 apparitions du verbe dans le corpus. Comme l’opération Dice ne considère que le minimum entre 2 et 13 pour run on et entre 12 et 80 pour use, le score reste petit. Un score légèrement plus haut est atteint quand steam iron est comparé avec le nom com- posé de référence d’automobile plant, qui représente un mauvais prédicat. Le verbe le plus important de ce dernier, make, avec 17 apparitions, se compare tout aussi bien avec les 27 apparitions de make dans le vecteur de corpus, où 10 éléments prédicats distincts sont plus nombreux encore que make. Le minimum est toujours 17, et la plus grande part des éléments prédicatifs gagnés par les synonymes ne contribuent pas. C’est ce qui explique que l’approche par synonyme avec Yahoo ! cause la perte de 28 noms composés et le gain de seulement 11 noms.

Il faudrait soit changer la formule Dice pour une formule qui multiplierait les scores TF-IDF normalisés plutôt que d’utiliser le score minimum ou encore bonifier les listes de référence pour être de taille comparable aux nombreux verbes des synonymes.