• Aucun résultat trouvé

CHAPITRE 5 DISCUSSION

5.3 Limites

Dans l'ensemble de ce projet, nous avons identifié quelques limitations. Tout d'abord, il y a les limitations qui sont reliées à l'adaptation de la version originale de l'analyseur pour qu'il soit compatible avec CoNLL, notamment, les différences de granularités et de formats de sortie, la sélection des phrases de tests et l'absence de ressources externes. Il y a aussi les limites qui concernent l'évaluation comme telle. En effet, il faut tenir compte du fait que c'est une analyse manuelle, que l'évaluation est effectuée sur une petite partie du corpus et qu'on utilise une analyse syntaxique « parfaite » (prise directement du « Gold Standard »).

Tout d'abord, le problème de la granularité est une des limites de cette solution. En effet, à partir du moment où les adaptations ne sont pas bijectives, il y a des risques de pertes d'informations. Lorsqu'il y a des relations syntaxiques dans une représentation qui englobe plus d'une relation de l'autre représentation, cela peut créer de la confusion (« NMOD » est un bon exemple de ce cas), et ce, malgré les étapes supplémentaires par lesquelles nous passons pour tenter de minimiser ce problème, comme l'utilisation de la catégorie grammaticale. Il est donc important d'en tenir compte lors de l'analyse des résultats.

Une autre limitation à notre solution se situe à l'étape finale qui consiste à comparer des systèmes qui utilisent deux formats de sortie différents pour la même tâche. Faire une comparaison manuelle implique une intervention humaine qui apporte deux problèmes majeurs. D'abord, cela limite grandement la quantité de tests qu'il est possible d'effectuer. En effet, nous ne pouvons pas comparer des milliers d'analyses puisque pour chaque phrase analysée il faut un temps considérable pour faire la comparaison. Par conséquent, la représentativité des résultats dépend grandement des phrases choisies. D'où l'importance de la sélection des phrases analysée pour éviter à la fois le biais et les sous-ensembles non représentatifs. Le second problème est relié à l'évaluation manuelle. Afin d'éviter un maximum d'erreurs, nous avons utilisé une méthode simple pour faire la comparaison. De plus, il est presque impossible d'être totalement impartial et donc, encore une fois, il faut garder en tête ces limites lorsqu'on regarde les résultats.

Une autre limite importante se situe au niveau de la méthode d'évaluation. En effet, puisqu'Anasem n'utilise pas exactement les mêmes ressources que les systèmes qui participaient à la campagne d'évaluation de CoNLL, il est impossible d'attribuer les sens de NomBank et PropBank aux prédicats identifiés. De plus, non seulement les formats de sortie sont très

différents (DRS vs prédicats-argument basés sur des cadres sémantiques), mais la méthode de sélection des prédicats l'est aussi. Nous avons pu constater que pour CoNLL, un des critères pour qu'un mot soit considéré comme un prédicat est qu'il possède au moins un argument. Ce qui n'est pas le cas pour Anasem. C'est pourquoi nous avons dû limiter notre comparaison à la mesure du rappel et que nous n'avons pas pu mesurer la précision sur l’ensemble du corpus. C'est cela qui nous a poussé à faire une autre évaluation de la mesure de précision. Malgré le fait que cette mesure ait été calculée par rapport aux DRS et non par rapport à CoNLL, elle donne une bonne indication de la précision en général.

Il faut aussi prendre en considération le corpus. D'abord, pour faire notre évaluation nous n'utilisons que 101 phrases sur les milliers de phrases disponibles. Il est donc difficile de tirer des conclusions définitives avec un corpus de cette taille. Par contre, les résultats obtenus nous donnent une bonne approximation des performances de notre système. Il faut aussi considérer la qualité des phrases dans le corpus. Certaines phrases sont parfois formulées de manière inhabituelle ou elles sont trop complexes, ce qui donne des résultats non représentatifs de la langue en général. Voici quelques phrases qui démontrent bien ces phénomènes (toutes les phrases sont extraites directement du corpus):

"It did not."

"And so he had, so he had."

"He, and Mrs. Dalloway, too, had never permitted themselves the luxury of joys that dug into the bone marrow of the spirit."

"At law school, the same."

"His parents talked seriously and lengthily to their own doctor and to a specialist at the University Hospital -- Mr. McKinley was entitled to a discount for members of his family -- and it was decided it would be best for him to take the remainder of the term off, spend a lot of time in bed and, for the rest, do pretty much as he chose -- provided, of course, he chose to do nothing too exciting or too debilitating." Finalement, il y a une importante différence au niveau des données utilisées en entrée. En effet, lors de la compétition, les participants devaient faire à la fois l'analyse sémantique et syntaxique. Puisque notre système ne fait que l'analyse sémantique, Anasem utilise l'analyse

syntaxique disponible dans le corpus, soit une analyse syntaxique dite « parfaite ». Ceci donne un avantage à Anasem, puisqu'il n'a pas besoin de tenir compte des erreurs possibles au niveau de l'analyse syntaxique. Toutefois, les systèmes de l'état de l'art en analyse syntaxique atteignent généralement de très bons résultats(McClosky, et al., 2012). .

Documents relatifs