• Aucun résultat trouvé

Étiquettes insuffisamment représentatives

Évaluation de la détection automatique sur un corpus de sous-titres

3. Typologie d’erreurs à partir d’une détection à base de tokens

3.1. Erreurs dues à la précision insuffisante des patrons

3.1.1. Étiquettes insuffisamment représentatives

Les étiquettes106 disponibles pour étiqueter les tokens d’une phrase donnée ne semblent pas assez représentatives pour annoter les déclencheurs cruciaux de l’ellipse.

3.1.1.1. TO infinitif vs TO préposition

Dans ce jeu d’étiquettes, par exemple, aucune distinction n’est établie entre le to préposition et le to marqueur d’infinitif. Ces deux tokens portent tous les deux l’étiquette TO quelle que soit leur fonction dans la phrase, ce qui engendre alors beaucoup de faux positifs. Comme le montre le tableau (7), la précision des patrons {post-to} a atteint 1,00 dans le corpus de développement mais a baissé dans les échantillons plus larges : 0,62 dans l’échantillon 1 et 0,79 dans l’échantillon 2.

To en tant que marqueur d’infinitif déclenche une ellipse lorsque le segment

verbal qui le suit, composé d’une base verbale et de ses compléments, est effacé, comme le montre l’exemple (74) :

(74)

À l’inverse, la préposition to dans l’exemple (75) ci-dessous n’est pas elliptique puisque le syntagme nominal the respect, antécédent de la proposition relative he’s

entitled to (avec omission de that) est intégrée au syntagme prépositionnel complexe

complément du verbe accord. Cet étiquetage imprécis est à l’origine du repérage de cette phrase comme elliptique alors qu’elle ne l’est pas.

(75)

Le même cas est observé dans l’exemple avec le pronom whom ci-dessous : (76)

Ces deux erreurs apparaissent aussi dans les relatives dont la syntaxe se rapproche des phrases interrogatives introduites par un pronom interrogatif, dans la mesure où le syntagme omis n’est pas effacé mais simplement déplacé. Pour améliorer le patron {post-to}, il aurait été possible de le restreindre aux seules occurrences ne contenant pas de pronom wh– précédant le to, mais la précision du patron peut baisser puisqu’il ne détectera pas les vraies ellipses déclenchées par to dans les interrogatives avec le pronom wh– comme dans What if he tries to? De plus, lors de l’annotation du corpus d’évaluation, d’autres cas non pris en compte dans l’établissement de patrons (en raison de leur absence dans le corpus de développement) ont été rencontrés. En effet les deux patrons {post-to} appliquent la nécessité que to soit immédiatement précédé par un verbe, un adverbe, un pronom, un adjectif ou not. De ce fait lorsque

to est précédé par un nom, l’ellipse n’a pas été détectée comme c’est le cas de

l’exemple (77) ci-dessous. (77)

En réalité, il est difficile dans ce cas d’imaginer une amélioration puisque restreindre davantage le patron aux constructions non relatives ou autoriser les noms avant to engendre une non détection des autres ellipses (plus fréquentes) ou une détection de faux positifs. En revanche, un critère qui pourrait faciliter une méthodologie de détection à base de patrons ou par apprentissage automatique réside dans une éventuelle sélection selon la construction sémantique des verbes qui précèdent to. En effet, ce sont les verbes orientés vers l’accomplissement ou non d’une action qui semblent le plus souvent déclencher des ellipses. Une classification selon les propriétés primitives (états vs action) de ces verbes pourrait alors être envisagée.

3.1.1.2. Auxiliaire vs verbe plein

L’une des limites de l’analyse morphosyntaxique tient également à la non-spécificité des étiquettes attribuées aux auxiliaires. En effet, have, be et do sont étiquetés de la même manière que le serait un verbe lexical dans une phrase. L’exemple (78) présente une ellipse déclenchée par do dans une configuration négative I didn’t où le syntagme shag my way round your mates at the Kings arms est omis.

(78)

Les différentes étiquettes que do, tout comme have et be, peut prendre sont les suivantes :

VB (Verbe, forme de base) VBD (Verbe au passé)

VBG (Verbe, gérondif ou participe présent) VBN (Verbe, participe passé)

VBP (Verbe, qui n’est pas la 3ème personne du singulier au présent) VBZ (Verbe, 3ème personne du singulier au présent)

Pour couvrir toutes les apparitions possibles du déclencheur de l’ellipse, aucune de ces étiquettes ne devrait être exclue du patron. Par conséquent le nombre de faux positifs peut être très important en raison de la détection des verbes lexicaux, étiquetés de la même manière et qui ne sont pas déclencheurs d’ellipse. Pour pallier cette lacune et compléter l’analyse morphosyntaxique, nous avons opté pour l’utilisation de lemmes. Malgré cela, cette stratégie s’avère être d’un usage limité puisqu’on retrouve de nombreux faux positifs : la précision du patron {post-do} est de 0,57 dans l’échantillon 1 et de 0,69 dans l’échantillon 2, celle du patron {post-be/have} est encore plus basse 0,47 dans l’échantillon 1 et 0,50 dans l’échantillon 2. Les deux occurrences dans (79) présentent do comme verbe plein mais détecté par le patron comme elliptique.

(79)

Dans le premier exemple, do ne peut être déclencheur puisqu’il est dans sa forme infinitive to+base verbale. Il s’agit ici d’une construction que nous n’avons pas rencontrée dans le corpus de développement : cette restriction aurait pu être incluse dans le patron, pour qu’il ne détecte pas les occurrences de do lorsqu’il est précédé de to. Par contre, le deuxième exemple présente un réel défi puisqu’il s’agit encore une fois du déplacement du complément Anything avant le sujet et le verbe de la phrase et non de son effacement. Par ailleurs, c’est également ce problème que l’on rencontre pour les auxiliaires be et have (80) lorsque les compléments adverbiaux

there, here, par exemple, les précèdent.

(80)

En réalité, les erreurs engendrées par le déplacement de ces compléments avant l’élément déclencheur ne sont pas seulement liées au manque d’une étiquette précise, mais elles tiennent également à la difficulté d’inclure toutes les variations dans les patrons.