• Aucun résultat trouvé

Évaluation de la détection automatique sur un corpus de sous-titres

1. Conditions morphosyntaxiques des ellipses et lecture des patrons utilisés

1.1. Ellipse {post-do}

Do est déclencheur d’ellipse verbale comme illustré ci-dessous :

(30) <CDEV> - you’re a brave boy. You didn’t cry out. Neither did I Ø, when I was your age.

De fait, nous considérerons do comme déclencheur d’ellipse lorsqu’il est :

– verbe de suppléance : do est déclencheur d’ellipse quand il apparaît comme suppléant du verbe lexical ellipsé, do n’ayant pas de sens en lui-même dans ce cas de suppléance,

(31) <CDEV> You just missed the toast my dear. Oh yes, you did Ø.

– auxiliaire nécessaire à la formulation des négations dans les temps simples en anglais,

(32) <CDEV> Did you miss me? You bet I did Ø. - I'll bet you didn't Ø.

(33) <CDEV> He didn’t allow him to speak to her. Neither did I Ø.

– auxiliaire inséré dans les déclaratives qui ne contiennent pas d’auxiliaire (have et be) ou de modal pour créer un effet d’emphase. En effet, l’emploi dit emphatique de do sert généralement à confirmer (en cas de polémique explicite ou non), contredire, nier ou interroger86.

(34) <CDEV> You just missed the toast my dear. Oh yes, you did Ø.

Cet auxiliaire est de première importance dans la langue anglaise puisque son absence peut engendrer des malentendus dans un dialogue, notamment dans les réponses aux question tags87 (par exemple, il serait ambigu de répondre avec

seulement yes à la question she doesn’t smoke, does she?).

Ces quatre cas autorisent le vide syntaxique laissé par l’omission du verbe lexical, qui, s’il était restitué, n’affecterait pas la grammaticalité de la phrase, à condition que l’ensemble du syntagme verbal (base verbale et compléments) soit récupérable. De plus, do est supplétif dans la mesure où il ne se charge pas entièrement du sens du verbe de la phrase, mais le complète. Il est ainsi considéré comme déclencheur d’une ellipse post-auxiliaire. Pour résumer le contexte grammatical, do peut déclencher une ellipse dans une phrase interrogative comme c’est généralement le cas dans une

question tag, dans une phrase affirmative ou exclamative (parfois impliquant une

inversion sujet verbe du fait de la présence de certains adverbes comme neither) et dans une phrase négative où do est combiné dans une forme contractée avec un opérateur de négation.

La détection de ces ellipses a nécessité l’élaboration de deux patrons, le premier récupérant toute phrase contenant le lemme do précédé par un pronom personnel ou possessif ou un nom. Le lemme do peut être suivi de not marqueur de négation ou d’un pronom personnel, mais il ne doit pas être étiqueté comme participe présent

86 Notons également que l’emphase peut être attribuée à oh yes, sans oublier l’emphase prosodique que pourrait révéler do à l’oral (Herment 2011).

ou participe passé. L’apparition du lemme no et d’une marque de ponctuation est optionnelle avant le pronom ou le nom.

Le deuxième patron, quant à lui, a été établi pour éviter la détection inutile des interrogatives non-elliptiques, comme what do you do ? Ainsi, en plus des conditions énumérées dans le premier patron pour les tokens suivant do, le deuxième devra récupérer toute phrase contenant le lemme do non précédé d’un pronom wh– avant le pronom ou le nom.

Post-do 2

^ [{lemma:no}]? [/[.;!:?,]/]?

[{pos:/(PRP.?|NN.?)/}] []* [{lemma:do} & !{pos:/VB[GN]/}] [{lemma:not}]? [{pos:PRP}]? /[.;!:?,]+/)

[!{pos:/W.*/}][{pos:/(PRP.?|NN.?)/}] []{0,2} [{lemma:do} & !{pos:/VB[GN]/}]

[{lemma:not}]? [{pos:PRP}]? /[.;!:?,]+/)

1.2. Ellipse post-modale88 {post-mod} et ellipse {post-be/have}

La simple observation permet de constater que lorsqu’ils déclenchent une ellipse, les modaux et les auxiliaires partagent plus au moins les mêmes conditions morphosyntaxiques. L’omission du verbe lexical dans les constructions parallèles, dans les constructions coordonnées ou les réponses courtes, et les question tags, entre autres, constitue une ellipse. Comme on le voit dans l’exemple (35) ci-dessous, la récupérabilité du complément ellipsé, c’est-à-dire du groupe verbal get a bit of air, n’a aucune incidence sur la structure syntaxique.

(35) <CDEV> You go and get a bit of air. - Yes, I will Ø.

De la même manière, les conditions syntaxiques des modaux comme déclencheurs de l’ellipse rejoignent celles de do. Ainsi l’ellipse post-modale apparaît-elle dans une phrase interrogative (ceci est généralement le cas des question tags : should I?), dans

88 Nous ne reviendrons pas sur la distinction ellipse / anaphore pour ce qui est des modaux et des auxiliaires, puisque notre distinction est fondée sur le vide syntaxique qui pourrait ou non autoriser syntaxiquement l’ajout du verbe lexical à droite du modal ou de l’auxiliaire.

une phrase affirmative ou exclamative (réponses courtes Yes, I will Ø.), lors d’une inversion des positions sujet et verbe (Neither will you, entre autres exemples), et dans une phrase négative où le modal est suivi d’un marqueur de négation (He

won’t.)

Deux patrons sont utilisés pour détecter ces ellipses :

Le premier récupère tout modal précédé d’un pronom personnel, d’un nom, d’un pronom wh– ou d’une conjonction de coordination ou d’une virgule, sans qu’il soit suivi d’une forme verbale. Un adverbe peut optionnellement précéder le modal directement. Tout autre élément est autorisé avant la ponctuation finale de la phrase. Ce patron est notamment dédié aux propositions coordonnées (cas de

pseudogapping, par exemple). Un deuxième patron est construit pour repérer les

autres constructions et des éléments optionnels sont autorisés, tels qu’un adverbe pouvant précéder le modal ou une conjonction de coordination ou une conjonction de subordination, if ou unless pouvant le suivre.

Post-mod 2

[{pos:/PRP|NN.*|WP|CC/} | {lemma:/,/}] [{pos:RB}]? [{pos:MD}] [{pos:/[^V].*/}]* /[.,:!;?-]+/

[{pos:/PRP|NN.*|WP/}] [{pos:RB}]? [{pos:MD}] [{pos:CC} | {pos:"IN" ;

lemma:/(if|unless)/}] []* /[.,:!;?-]+/

Quant aux auxiliaires have et be, et selon la classification syntaxique de van Craenenbroeck & Merchant, ils peuvent être soit déclencheurs d’ellipse de compléments (attributs, exemple 36) (dans la terminologie des auteurs cités ci-dessus predicate phrase ellipsis), soit d’une VPE (37), soit d’un pseudogapping (38).

(36) <CDEV> Because it’s not a boarding house. It never was Ø. (37) <CDEV> You haven't finished the room Petey. – I have Ø. (38) <CDEV> Mary hasn’t bought a jacket, but she has Ø a dress.

Techniquement, l’avantage de notre classification en termes d’économie de moyens et de temps, réside dans le fait qu’un même patron peut servir à repérer les

trois catégories ci-dessus, en prenant en compte l’élément déclencheur et la place de la ponctuation dans la phrase. En effet, le pseudogapping apparaissant le plus souvent dans les constructions comparatives et coordonnées dans lesquelles la forme non finie du verbe (cas des modaux et de do), ou le participe (cas de have et

be), sont omis, laisse un résidu après l’auxiliaire ou le modal. C’est d’ailleurs ce résidu

(remnant en anglais) qui le distingue de la VPE89.

(39) <CEx> Mother is working tomorrow, but father isn’t Ø. (VPE)

(40) <CDEV> Mother is working tomorrow, but she isn’t Ø next week. (Pseudogapping)

(41) <CEx> He eats apples more than she does Ø. (VPE)

(42) <CEx> He eats apples more than she does Ø oranges. (Pseudogapping)

En fait, dans la VPE, l’auxiliaire ou le modal clôt la proposition du site elliptique, se passant du reste des éléments. En revanche, dans le pseudogapping, l’auxiliaire ou le modal est suivi d’une partie de la proposition (Miller, 2014). Cependant, le résidu de la proposition elliptique est soumis à la contrainte du parallélisme, dans la mesure où il forme un contraste avec le dernier élément de la proposition qui précède (apples est mis en opposition à oranges dans l’exemple 42). Si ce parallélisme n’est pas respecté, le pseudogapping n’est pas autorisé (43).

(43) *He eats apples more than she does apples.

Ainsi, un patron qui sera établi pour identifier automatiquement un déclencheur, auxiliaire ou modal, autorisera n’importe quel élément qui le suit à l’exception des formes conjuguées du verbe90.

À ce stade, nous soulignons que nous aurions pu établir des patrons qui détecteraient à la fois des ellipses post-modales et post-have/be compte tenu du fait que ces ellipses partagent plus au moins les mêmes conditions morphosyntaxiques.

89 La proposition contenant le site elliptique du pseudogapping est, le plus souvent, introduite par but,

as if, than (lorsqu’il y a une comparaison). Le pseudogapping est envisagé dans la plupart des théories

comme un type de VPE.

90 Selon Levin (1986, vii), le pseudogapping peut également apparaître dans les questions réponses (formulées par le même locuteur) : Does that make you mad ? It would me. La détection de ces ellipses est également effectuée à l’aide du patron de la VPE déclenchée par un modal.

Nous avons néanmoins été freinée par une contrainte technique due aux étiquettes différentes caractérisant chacun des deux déclencheurs, ce qui a évidemment influencé la construction des restrictions. En effet, seul le modal détient une étiquette MD le représentant tandis que have et be sont étiquetés comme des verbes lexicaux, source d’erreurs dans la détection que nous analyserons plus en détail dans la section 3 du présent chapitre.

Nous avons alors constitué deux patrons en ayant recours aux lemmes pour repérer les ellipses déclenchées par be et have, le premier étant apte à reconnaitre toute ligne contenant le lemme be ou have, précédé par un nom ou un pronom, situés directement en début de phrase, et, optionnellement, un adverbe. Le lemme peut également être suivi de not avant le signe de ponctuation. Le deuxième patron contient davantage de restrictions : il ne détectera pas, par exemple, les lemmes be et have précédés par un pronom wh–. Cette dernière restriction permet d’éviter la détection des constructions non elliptiques contenant des mots en wh–, étiquetés comme pronoms wh– (dans la proposition qu’ils introduisent) et créent par là des faux positifs91. Ces propositions, comme le montrent l’exemple (44), suivent la structure grammaticale : pronom wh– + sujet + be.

(44)

Il est important de signaler que l’étiqueteur Stanford utilise trois étiquettes pour les mots wh– (disponibles dans la liste des abréviations) :

(WDT) pour un déterminant wh– (which) (WP) pour un pronom wh– (who, what) (WRB) pour un adverbe wh– (when, where) (WP*) pour un pronom possessif.

Avec un tel étiquetage, aucune différence est établie entre what pronom relatif sans antécédent et what pronom interrogatif introduisant une interrogative

91 En statistique :

– Faux positif : occurrences détectées comme elliptiques alors qu’elles ne le sont pas ;

– Faux négatif : occurrences elliptiques qui ne sont pas détectées alors qu’elles sont des ellipses ; – Vrai négatif : occurrences qui ne sont pas détectées et qui ne sont effectivement pas elliptiques.

indirecte. Compte tenu de la difficulté à attribuer automatiquement92 une étiquette à ces pronoms, la grammaire a simplifié cet étiquetage en faveur d’une identification en mot wh– (wh— word), ici avec l’étiquette WP, ce que de nombreux outils d’étiquetage ont appliqué. L’une des conséquences de cette distinction est ainsi apparente dans l’établissement des patrons, puisqu’aucune précision ne semble être possible en lien avec cette catégorie de pronoms wh– (relatif ou interrogatif). De ce fait, nous avons écarté toutes les étiquettes des pronoms Wh– du patron.

Post-be/have 2

^[{pos:/PRP.?|NN.?/}] [{pos:RB}]? [{lemma:/be|have/}] [{lemma:not}]? /[.;!?:,-]+/

[!{pos:/V.*/} & !{pos:/WP.*/}] [{pos:/PRP.?|NN.?/}] [{pos:RB}]? [{lemma:/be|have/}] [{lemma:not}]? /[.;!?:,-]+/