• Aucun résultat trouvé

Résultats aux différentes méthodes d’évaluation

CHAPITRE 6 RÉSULTATS ET ANALYSE

6.2 Différentes méthodes d’évaluation

6.2.4 Résultats aux différentes méthodes d’évaluation

Nous avons regroupé les résultats pour les stratégies principales et les différentes méthodes d’évaluation au tableau 6.3. La première approche, celle de Nakov, est la reproduction la plus fidèle possible, avec les mêmes paramètres décrits au chapitre 4. L’expérience témoin est une approche qui est facilement comparable à toutes les variations. Elle n’utilise pas de synonymes, mais utilise les patrons qui maximisent le rappel, pour des vecteurs prédicatifs de taille acceptable. La meilleure approche devrait être la combinaison de toutes les variations qui maximisent les résultats à chacune des étapes de la section 6.3.

La meilleure approche n’utilise que les noms du nom composé, sans synonymes. Elle extrait les éléments prédicatifs des phrases avec les mêmes patrons que Nakov. Ses vecteurs de référence sont les premiers éléments fournis par les juges de Mechanical Turk, tels quels. Elle inverse les éléments prédicatifs du corpus pour avoir la même orientation de phrase. Finalement, elle prend sa décision finale par l’approche des centroïdes, en regroupant les vecteurs de référence

par relation sémantique et en comparant le vecteur du nom composé inconnu à chacun des 12 vecteurs ainsi obtenus.

Trois méthodes d’évaluation serviront à évaluer l’approche : Leave-one-out, les noms composés de Levi recatégorisés et les noms composés de Kim, annotés avec les prédicats de Levi. Utiliser les éléments prédicatifs trouvés avec le moteur de recherche Google par Nakov permet d’atteindre 42%.

Tableau 6.3 Résultats pour différentes méthodes d’évaluation

Expérience Wiki N-grammes Yahoo Faroo Google

Nakov 22% 24% 33% 21%

Témoin 23% 21% 26% 21%

Leave-one-out - Meilleure approche 26% 23% 31% 26%

Levi recatégorisé - Meilleure approche 29% 25% 33% 27% Noms composés de Kim, catégorie de

Levi - Meilleure approche

19% 19% 21% 18%

Leave-one-out - Reproduction avec les vecteurs de corpus de Nakov

42%

Nous analysons les résultats pour les méthodes d’évaluation différentes de celle de Nakov, c’est-à-dire les noms composés de Levi avec de nouveaux prédicats et les noms composés de Kim.

Noms composés de Kim avec prédicats de Levi

Organiser les résultats par prédicats ne révèle aucune corrélation. FOR est la classe majoritaire, mais CAUSE2 est la classe qui a le plus haut taux de succès moyen. Le prédicat USE atteint le plus de documents en moyenne, le plus de phrases en moyenne, mais réussit seulement à deviner 29% des prédicats. Il n’y a aucune corrélation entre les médianes des résultats intermédiaires et le taux de succès.

Le succès ne dépend pas non plus des juges. Le taux de succès moyen pour les résultats des quatre corpus différents est de 19% avec le premier juge et de 17% avec le second juge. Le petit écart de 2% est également visible si l’on ignore les succès dus à l’algorithme de la classe majoritaire. Les résultats intermédiaires ne sont pas affectés significativement non plus. Les résultats pour les noms composés de Kim partagent la même distribution du nombre de documents et de phrases. Après avoir fait la moyenne des résultats des quatre corpus, nous obtenons une moyenne de 1051 documents par nom composé, beaucoup plus haute que la médiane de 96 documents par nom composé. Le nombre de phrases indique la même

tendance, avec une moyenne de 1856 phrases et une médiane de seulement 412 phrases. Le taux de succès combiné des quatre corpus est de 18%. Le taux de succès sans classe majo- ritaire atteint 13%, 5% seulement au-dessus du résultat d’une approche totalement aléatoire. Ces résultats sont égaux ou même inférieurs à ceux de l’évaluation par Leave-one-out. Ils confirment que les faibles taux de succès de notre approche ne sont pas dus à la façon d’éva- luer le succès.

Les résultats aux évaluations avec un corpus différent et un classement différents sont prévi- sibles et amènent aux mêmes conclusions que celles du Leave-one-out.

Analyse des résultats pour la recatégorisation de Levi

Utiliser les noms composés classifiés différemment, avec plusieurs bonnes réponses, plutôt que la catégorisation simple de Levi, améliore les résultats, mais seulement de 3 ou 4%. Il n’est donc pas possible de justifier les erreurs d’identification de prédicat par la possibilité d’attribuer plusieurs prédicats à un nom composé, tous acceptables. Les prédicats fournis par erreur sont sémantiquement éloignés de la réponse attendue.

Ni le nombre de documents, ni le nombre de phrases, ni le nombre d’éléments de paraphrase trouvés ne prédisent le taux de succès des expériences avec les noms composés recatégorisés. Le nombre de verbes qui décrivent les noms composés recatégorisés est corrélé au taux de succès, en excluant les résultats par chance, avec un coefficient de régression linéaire (R2) de 0, 76, mais la même mesure pour les noms composés de Kim descend à 0, 35. Une analyse plus détaillée est nécessaire pour atteindre une conclusion sur ce point.

Le prédicat MAKE1 a le meilleur taux de succès, de 58%. À l’opposé, c’est le prédicat MAKE2 qui entraîne le plus d’erreurs en moyenne : 87% des identifications pour MAKE2 sont fausses. Il y a 19,75 succès (en faisant la moyenne des quatre corpus) attribuables à l’algorithme de la classe majoritaire, parce que le coefficient de Dice n’était pas assez gros. Le nombre de BE dans l’ensemble de test est de 184/848, ou 22%. Identifier la relation BE quand aucun nom composé de référence n’est proche nous fait gagner 9% de notre succès total. Le nombre de succès total est 61/848, ou 29%. Le nombre de documents en moyenne atteint 726 documents par noms composés, ce qui est très supérieur à la médiane de 86 documents par noms composés. La même situation se produit pour les phrases. Il y a 1282 phrases en moyenne par nom composé, mais la médiane n’est qu’à 344 phrases. Pour chaque nom composé connu du corpus et très bien documenté, il y a donc beaucoup de noms composés introuvables. Il n’y a que 61% des noms composés pour lesquels un nom composé de référence avec un élément prédicatif similaire est trouvé. Pour tous les autres, la comparaison de vecteur ne trouve aucun nom

composé similaire.

Les mauvaises attributions de la classe majoritaire causent 623 erreurs, sans surprise. Le prédicat USE est la deuxième cause du plus grand nombre d’erreurs. Le programme prédit 158 fois une relation de type USE pour un nom composé avec une autre relation.