• Aucun résultat trouvé

Évaluation de la détection automatique sur un corpus de sous-titres

3. Typologie d’erreurs à partir d’une détection à base de tokens

3.1. Erreurs dues à la précision insuffisante des patrons

3.1.2. Difficultés à affiner le patron

Comme nous l’avons signalé, par la longueur et la multitude des patrons, nous avons tenté de couvrir le plus de structures elliptiques possibles. Il apparait que les erreurs engendrées par les patrons insuffisamment affinés sont liées au fait que les ellipses ne sont pas assez représentées dans le corpus de développement et qu’en

raison de la variation du phénomène, ce dernier devient impossible à formaliser dans son entièreté.

Les ellipses déclenchées par un cardinal, par exemple, bien qu’elles soient rarement étudiées dans la littérature scientifique, sont toutefois importantes et intéressantes dans la mesure où leur traduction d’une langue à une autre pose encore problème. Néanmoins, leur détection est très insuffisante (la précision n’a pas atteint 0,30 dans les deux échantillons) parce que le Stanford Tagger lui-même engendre beaucoup d’erreurs. En effet, le patron, étant constitué de telle sorte qu’il repère les cardinaux immédiatement suivis d’une marque de ponctuation, a détecté tous les chiffres (années, montants, etc.) qui, bien-sûr, ne déclenchent pas tous systématiquement un phénomène elliptique.

(81)

Par ailleurs, la convention d’écrire le signe $ avant le nombre en anglais a influencé l’efficacité du patron qui a détecté les occurrences, comme (82) ci-dessous, non elliptiques avec la présence du $ :

(82)

Une piste d’amélioration de ce patron, dans ce cas précis, pourrait sans doute être l’inclusion des entités nommées, dans une requête conditionnée à exclure toute entité nommée Money et Date telles que présentées dans l’exemple (83).

En outre, parmi les erreurs résultant d’une précision insuffisante du patron, nous relevons celles engendrées par une similitude de structures dans l’ordre linéaire de la séquence d’étiquetage. Cette similitude est observée dans le patron {vs-tag} dédié à repérer les ellipses dans les question tags et celles déclenchées par l’inversion du sujet et du verbe. C’est le cas de l’exemple (84) That’s it. où l’ordre d’étiquettes qui correspond parfaitement à l’une des conditions exigées par le patron, fausse la détection. Cette phrase est alors détectée comme une ellipse dont l’étiquetage est semblable à celui d’une phrase comme Neither did he, elliptique.

(84)

Cette confusion n’est pas seulement due à l’impossibilité d’affiner le patron ou à l’organisation des étiquettes dans la séquence (ordre linéaire des étiquettes) mais s’étend au repérage exact des pronoms (identification des catégories), puisque la distinction fondamentale entre nature et fonction ne semble pas être prise en compte par l’étiqueteur. En d’autres termes, l’étiquetage de ces exemples concerne deux éléments distincts, l’ordre linéaire et la catégorie de la séquence. Ces deux éléments sont interdépendants dans la mesure où des contraintes syntaxiques (tenant à l’ordre des éléments dans la phrase notamment) sont inhérentes aux catégories. Cette apparente complexité, élémentaire pour l’humain, n’est pas prise en compte par l’étiqueteur en dépit des indications couvrant ces deux aspects dans la formulation des conditions (la précision avec les lemmes notamment).

D’ailleurs, le patron {qs-frag} engendre le même type d’erreur et parait particulièrement intéressant à analyser. Le corpus de développement contient en plus des questions fragmentaires, des ellipses de l’ensemble du sujet-auxiliaire dans les phrases déclaratives pouvant être confondues avec les questions fragmentaires. Nous les avons annotées comme elliptiques mais nous avons dû restreindre le patron

à détecter seulement celles relevant des phrases interrogatives. En d’autres termes, les ellipses de la paire sujet-auxiliaire ont été annotées mais ne sont pas détectées puisqu’aucun patron ne leur a été dédié. On pourrait par exemple obtenir beaucoup de faux-positifs détectés dans les phrases à l’impératif. Ci-dessous, nous observons trois occurrences du même verbe read : la première (85) est elliptique car read est précédé par un auxiliaire have et un sujet you effacés voire enfouis dans une structure « profonde ». Le point d’interrogation et la réponse I have favorisent cette prise de position. Cette occurrence correspond donc parfaitement aux conditions réunies dans le patron et a été détectée.

(85)

Les deux qui suivent sont des exemples donnés à titre d’illustration et ne figurent pas dans nos corpus. La deuxième occurrence de read (86) est également elliptique du fait de l’effacement du sujet I (et possiblement de l’auxiliaire). Cette ellipse apparait en revanche dans une phrase déclarative. Comme l’une des conditions qui lui ont été fixées est de repérer seulement les interrogatives, le patron ne la détectera pas.

(86)

Cette restriction permet d’éviter le repérage des constructions impératives comme dans la troisième occurrence de read ci-dessous (87) où aucun effacement n’a eu lieu, et donc, aucune ellipse.

(87)

En poursuivant notre observation, nous notons que le verbe read est étiqueté dans les trois phrases comme VB et qu’aucune distinction entre ses formes n’a été faite. L’étiqueteur attribue l’étiquette VB (base verbale) à tout verbe (qui n’est pas –

ed/en ou –ing) débutant une phrase, y compris lorsque ce verbe est en réalité un

participe passé (ou un passé : l’exemple 87 peut être interprété comme une ellipse du sujet seul). En fait, l’étiqueteur ne repère pas qu’il y a une ellipse du sujet, il ne peut donc pas attribuer la bonne étiquette au verbe. L’étiquette VB ne peut être exclue du patron malgré le risque de détecter un nombre considérable de faux positifs et de laisser passer les occurrences elliptiques les plus fréquentes. Or, ce problème est particulièrement observé avec les verbes irréguliers. Dans certaines autres occurrences, l’étiqueteur parvient à différencier l’étiquette VBN (participe passé) de l’étiquette VBD (passé simple) comme l’illustre l’exemple (88) de

remembered (bien sûr une interprétation comme I’ve remembered that you still owe me some est possible) :

(88) 107

Pour aller plus loin, comme le verbe lexical qui débute la phrase peut porter, soit l’étiquette VB lorsqu’un modal ou do manque, soit VBN lorsque be ou have manque, nous avons exclu l’étiquette VBD, VBP et VBZ du patron {qs-frag}. Le résultat a été alors la non détection des occurrences elliptiques là où le verbe a été étiqueté comme

VBD alors qu’il aurait dû être étiqueté comme VBN, comme heard dans l’exemple (89). Il apparait évident que l’auxiliaire have manque et la réponse le confirme.

(89)

En effet, même lorsque le patron est suffisamment affiné pour détecter les occurrences elliptiques, certaines erreurs sont apparues en raison d’un étiquetage erroné dû à plusieurs facteurs.