• Aucun résultat trouvé

Évaluation de la détection automatique sur un corpus de sous-titres

3. Typologie d’erreurs à partir d’une détection à base de tokens

3.2. Erreurs engendrées par l’étiqueteur

Nous l’avons énoncé, entraîner un étiqueteur consiste à annoter d’abord manuellement une grande quantité de corpus variés pour ensuite effectuer un apprentissage, de manière à ce que l’étiqueteur produise automatiquement le même étiquetage sur d’autres corpus. Lorsque les corpus d’apprentissage et d’application n’appartiennent pas au même registre ou à la même langue de spécialité, l’étiqueteur peut rencontrer des difficultés susceptibles de provoquer des erreurs.

Les données ayant servi à l’apprentissage de l’étiqueteur morphosyntaxique Stanford sont extraites de plusieurs corpus dont le WSJ et présentent plusieurs genres de textes mais vraisemblablement pas de genres proches de l'oral108. L’exactitude de cet étiqueteur est de 96,86% (Toutanova & Manning, 2000). Il est difficile d’affirmer en l’état actuel de notre progression dans quelle mesure les différents genres de discours exploités dans la présente recherche, sont, ou non, à l’origine des ambiguïtés à résoudre lors de l’étiquetage. La question se pose néanmoins. Ce qui est certain, c’est qu’en dehors des problèmes liés strictement à l’étiquetage, le phénomène elliptique présente un défi supplémentaire à relever pour les étiqueteurs. De ce fait, en raison de l’ambiguïté qu’un seul mot peut présenter et

des incises109 qui perturbent l’étiquetage correct des occurrences, on voit nettement que les erreurs relevées dans cette section sont directement liées au mauvais étiquetage de certaines catégories.

Nous avons ainsi remarqué que le ‘s comme marqueur du génitif et le ’s de la forme contractée de be ou have à la 3ème personne sont tous deux souvent étiquetés comme POS (possessive ending). Dans les phrases présentées dans l’exemple (90) ci-dessous, le ‘s de is est étiqueté comme un possessif, ce qui a rendu la séquence tout à fait compatible avec les conditions de détection du patron {post-wh} qui exige une récupération des pronoms wh– lorsqu’ils sont suivis de n’importe quelle étiquette à l’exception du verbe et du modal. En effet, aucune des étiquettes suivant le pronom

wh– (POS, PRP, RB, NNP) n’a été exclue du patron :

(90)

Une autre source d’erreur a été observée pour le même patron et apparaît avec

that étiqueté comme WDT (wh– déterminant : la seule étiquette qui lui est dédiée)

dans l’exemple (91) ci-dessous. Nous avons involontairement omis d’exclure that lors de l’élaboration du patron. En effet, that est source d’erreur lorsqu’il apparaît dans la phrase comme pronom démonstratif et qu’il est étiqueté comme un déterminant

wh–. Ainsi sommes-nous toujours confrontée au problème d’identification des

formes et cela malgré la désambiguïsation.

109 Par simplification, nous appelons « incise » tout segment enchâssé (d’un simple mot à une proposition) à l’intérieur d’une phrase sans aucun mot de liaison (Arrivé et al., 1986, 323). Tout au long de notre recherche, nous n’attachons pas d’importance au statut de l’incise qu’elle soit constituée d’un syntagme verbal, nominal, adverbial ou autre, dans la mesure où l’impact qu’elle engendre dans la détection est le même indépendamment de sa nature.

(91)

L’étiquetage erroné des éléments résiduels impacte également la précision des patrons. Si l’on considère le patron {post-mod} par exemple, nous remarquerons qu’il présente un taux de précision et de rappel très élevés (précision 0,71 et rappel de 0,96 dans l’échantillon 1 et précision de 0,79 et rappel de 0,86 dans l’échantillon 2). Les erreurs relevées dans ce cas renvoient notamment à l’étiquetage erroné des catégories suivant le modal. Dans l’exemple ci-dessous, hook et fish sont étiquetés comme noms NN alors qu’ils sont des verbes et auraient dû être étiquetés comme VB.

(92)

Dans les occurrences elliptiques détectées de manière erronée nombreux sont les exemples contenant des verbes étiquetés comme noms ayant induit les patrons en erreur, tels que divorce, kiss, pardon, race, text. Ces erreurs d’étiquetage portent notamment sur des mots qui peuvent être étiquetés selon deux manières (verbe et nom) où seules les contraintes d’ordre syntaxique permettent de les identifier. C’est pourquoi, même dans le cas où l’outil dispose d’une étiquette spécifique pour le déclencheur (ici MD), la précision du patron {post-mod} est limitée par les erreurs d’étiquetage morphosyntaxique et par conséquent par la détection de phrases non-elliptiques reconnues comme étant non-elliptiques. On remarque la même erreur dans les phrases négatives exemple (93) ci-dessous qui est également identifiée comme une ellipse {post-mod}.

(93)

De la même façon, la phrase (94) ci-dessous a été repérée comme ellipse post-modale. La présence de la conjonction but et les éléments résiduels kiss me qui, selon l’étiquetage, ne contiennent pas de verbe, remplissaient apparemment les conditions exigées pour la détection (à savoir de récupérer tout modal non suivi d’un verbe).

(94)

En effet, la confusion est créée par le mauvais étiquetage de kiss considéré comme un nom NN. Bien sûr, dans d’autres contextes, kiss peut être un nom. C’est la raison pour laquelle il est important de souligner que les erreurs de l’outil ne sont pas des erreurs aléatoires mais sont plutôt liées à des ambiguïtés hors contexte. Ceci peut être également lié aux corpus d’apprentissage. Par exemple, si le corpus ayant servi pour l’apprentissage de l’étiqueteur contient uniquement des occurrences kiss annoté manuellement comme nom (comme l’exigent les contraintes syntaxiques des occurrences), il est peu probable qu’il soit étiqueté comme verbe lorsqu’il apparaît comme tel dans un autre corpus.

D’autres erreurs relèvent particulièrement des marques de ponctuation, que l’on peut considérer comme un condensé de syntaxe, sémantique et prosodie et qui soulignent encore la complexité des problèmes à traiter par l’outil informatique. En effet, sachant que les patrons sont élaborés en tenant compte de la ponctuation pour suivre l’ordre des tokens, les modaux par exemple, sont parfois séparés du verbe par un segment enchâssé, provoquant de ce fait une erreur d’étiquetage du verbe suivant ce segment. Comme le montre l’exemple (95) ci-dessous, promise est

étiqueté comme un nom NN et le patron, suivant la condition récupérant tout modal suivi de n’importe quel élément sauf lorsqu’il est suivi d’un verbe, identifie la phrase comme elliptique110. Ainsi, cette erreur se trouve à la croisée des limites liées aux erreurs d’étiquetage et à la précision insuffisante des patrons.

(95)

Ce sont les incises qui ont généré cette erreur et de ce fait impacté la précision du patron {post-mod}. Cependant, il arrive parfois que même en l’absence de l’incise, l’étiquetage soit erroné. Rappelons par exemple le cas de l’omission du sujet et de l’auxiliaire dans la question fragmentaire {qs-frag}. Les deux phrases ci-dessous (96) sont détectées comme ellipses {qs-frag} pourtant la première ne l’est pas.

(96)

En effet, le patron {qs-frag} est dédié à repérer toute occurrence contenant un verbe non précédé d’un nom et suivi d’un point d’interrogation. Le patron a détecté comme elliptique please, ici incorrectement étiqueté VB au lieu de UH (interjection).

Par le biais de ces erreurs nous pouvons pointer les difficultés et les limites des patrons à base de tokens dans l’étude du phénomène elliptique. Pour résumer, nous retiendrons deux grands types d’erreurs :

110 On pourrait imaginer une requête négative qui conditionne le non-repérage de trois noms qui se suivent par exemple, pour améliorer le patron. Ceci pourrait entrainer une baisse du taux de rappel, ignorant certaines occurrences potentiellement elliptiques.

– les erreurs résultant d’une précision insuffisante des patrons (choix d’annotation), ou d’un manque de couverture111 : ces erreurs renvoient d’une part au manque d’étiquettes suffisamment représentatives et précises pour annoter les déclencheurs cruciaux de l’ellipse (leur sont alors substituées des étiquettes moins précises), et d’autre part, à l’impossibilité d’affiner le patron pour prendre en compte les variations des structures elliptiques112.

– les erreurs engendrées par l’étiqueteur liées au mauvais étiquetage de certaines catégories, en raison de l’ambiguïté qu’un seul mot peut présenter.

Compte tenu de ces paramètres, issus d’un examen de données relativement peu nombreuses et de ce fait pouvant sembler peu représentatives, il est légitime de s’interroger sur l’intérêt de mener une étude quantitative automatisée pour appréhender l’ellipse en tant que phénomène instable et sujet à variations. En effet, nous avons conscience de la grande difficulté à intégrer ces nombreuses variations structurelles dans une analyse à base de tokens et dans l’élaboration de patrons limités à la phrase. La mise en œuvre d’outils complémentaires pour aborder le phénomène demeure encore un champ d’étude à explorer.