Limites et contraintes liées à la méthode appliquée au phénomène elliptique

Ancrages théoriques et pratiques

4. Bilan : apports et contraintes de la méthodologie adoptée

4.2. Limites et contraintes liées à la méthode appliquée au phénomène elliptique

Les contraintes que nous présentons ci-dessous sont apparues lorsque nous avons essayé d’adapter les différents outils présents dans CoreNLP à l’analyse de l’ellipse. Le problème qui se pose est toujours lié à la capacité de la machine à rendre compte du vide engendré par l’ellipse. Ce que nous devons alors réaliser est de repérer non le vide mais les indices laissés par ce vide.

4.2.1. Difficulté à établir des patrons à base d’une analyse syntaxique en dépendances

Généralement considérée comme plus performante et précise que les autres analyses, l’analyse syntaxique en dépendances identifie les relations syntaxiques entre les mots de la phrase (sujet, objet direct ou indirect, etc.). Son objectif principal est de décrire le corpus en vue d’une exploitation linguistique dans le domaine du TAL. La question qui pourrait se poser alors concerne la raison pour laquelle nous n’avons pas développé nos patrons à partir de ce type d’analyses.

81 Il ne s’agit pas dans ce chapitre d’entrer dans le détail de l’analyse des exemples donnés à titre d’aperçu au lecteur qui retrouvera une discussion approfondie dans le chapitre 5. Nous rappelons que l’objectif de ce chapitre est d’exposer la méthodologie de travail.

Pour rappel, nous avons constitué nos patrons à base de tokens combinant des expressions régulières et des étiquettes morphosyntaxiques. Cette méthode a ses limites que nous détaillerons au fur et à mesure de l’analyse des résultats. Cependant, du fait de ces limites, il nous a semblé pertinent au départ d’avoir recours à l’analyse syntaxique pour dégager les relations de dépendance entre les éléments, ce qui devait permettre de formuler des requêtes encore plus précises que celles établies à l’aide de tokens. L’idée initiale était donc d’établir nos patrons de détection à base de dépendances entre les différents éléments de la phrase. L’outil sélectionné pour réaliser cette tâche a été Semgrex (Chambers et al., 2007), un utilitaire proposé en complément des analyseurs syntaxiques Stanford. En fait, l’intérêt d’une analyse en dépendances syntaxiques se manifeste dans la mise en relief des relations entre les segments. Compte tenu de la nature du phénomène elliptique qui peut aussi se définir par rapport à son voisinage, c’est-à-dire en lien avec les autres éléments de la phrase, le linguiste n’éprouve généralement pas de difficulté à analyser une séquence elliptique. L’analyseur syntaxique de CoreNLP, comme le montre l’exemple ci-dessous (figure 8), a parfaitement établi le lien, avec la conjonction and, entre le modal will et le verbe antécédent help. Pourtant, ceci ne semble pas être le cas dans toutes les ellipses que nous avons analysées.

Figure 8 : Analyse en dépendance de la phrase I can help him, and I will.

L’analyse en dépendances dans le cas de l’ellipse a en effet été écartée rapidement et ceci pour deux raisons. La première tient aux relations interrompues entre la catégorie visible de la phrase et le site elliptique. Lorsqu’un segment est omis, l’analyseur syntaxique commet des erreurs et n’exprime pas la relation sujet-verbe correcte, comme ici dans l’inversion entre le you et were (figure 9).

Figure 9 : Analyse en dépendance de la phrase Were you, or weren’t you ?

La deuxième s’explique par la difficulté à spécifier l’ordre des tokens dans une analyse en dépendance. L’exemple ci-dessous (figure 10) montre que l’analyseur syntaxique est malheureusement incapable, en l’absence d’un connecteur, d’établir des dépendances dans une même chaîne de conversation, entre un élément d’une phrase A et un élément d’une phrase B82.

Figure 10 : Analyse syntaxique du dialogue Did he drink ? I made him. I stood there till he did.

En effet, c’est bien la difficulté à indiquer l’ordre des relations, qui diffère d’un type d’ellipse à un autre, et de les inclure toutes dans un patron qui nous a incitée à écarter l’analyse syntaxique en dépendances.

4.2.2. Ellipses écartées

Ayant rejeté l’analyse en dépendances syntaxiques de notre étude, il est important de souligner que la détection à base de tokens a elle aussi ses limites qui, lorsqu’elles sont additionnées à la difficulté d’aborder le phénomène analysé, rendent la détection de certaines catégories irréalisable. En effet, dans l’impossibilité

82 Par ailleurs, il s’agit également ici d’une limite des patrons établis à base TokensRegex qui sont limités à la phrase.

de formaliser des règles très fines dont le phénomène a besoin, la détection des ellipses présentées ci-après n’a pas été envisagée.

4.2.2.1. Le gapping

Il nous est très compliqué d’établir un patron qui prendrait en compte toutes les variations et les propriétés syntaxiques d’une occurrence de gapping. L’exemple (28) illustre un cas de gapping :

(28) <CEx> In the photograph, Aunt Sadie’s face, always beautiful, appears strangely round, her hair Ø strangely fluffy, and her clothes Ø strangely dowdy.

Pour résumer, le gapping pourrait par exemple se rencontrer lorsque dans la structure syntaxique de la proposition, le sujet (her hair et her clothes) est précédé d’une conjonction de coordination et suivi d’un ou plusieurs tokens qui ne sont ni des auxiliaires ni des verbes. Ils sont toujours suivis d’un point.

L’établissement d’un patron pour détecter ce type d’ellipse est particulièrement complexe, compte tenu des variations du nombre des éléments résiduels dans la phrase et de la multiplicité de leurs étiquettes morphosyntaxiques. L’absence du verbe entre le sujet et son complément d’objet par exemple peut difficilement être formalisée dans un patron TokensRegex, en raison des faux positifs que le patron peut repérer. La figure (11) ci-dessous illustre deux occurrences étiquetées : la première est une phrase non-elliptique et présente le cas de deux éléments (a candy et a cake) coordonnés avec and et étiquetés NN. Ces deux éléments n’entretiennent pas de relation sujet-objet comme c’est le cas de la deuxième phrase où and coordonne deux propositions dans une configuration très similaire du point de vue de la séquence des étiquettes morphosyntaxiques (DT NN CC DT NN). Le verbe de la deuxième proposition (the chief Ø a bag) est omis présentant de ce fait un gapping.

Figure 11 : Étiquetage d’une phrase non-elliptique et du gapping

La détection du stripping, sous-catégorie du gapping, aurait pu être envisagée grâce aux marqueurs too, as well, et also toujours présents après le site elliptique, ou aux conjonctions de coordination and et or qui le précèdent :

(29) <CEx> Jane likes apples and Maria Ø too.

Cependant, ce type de cas n’est pas représentatif du gapping et les autres configurations, notamment les constructions parallèles déclenchant ce phénomène de gapping, ne pourront pas être détectées83.

Par conséquent, la précision du patron reste très restreinte dans TokensRegex compte tenu du fait que les éléments résiduels n’ont pas toujours la même étiquette dans tous les exemples, qu’ils n’entretiennent pas toujours la même relation entre eux, et que leur nombre varie d’une séquence à une autre.

De ce fait, en raison des limites de l’outil d’une part, et de la difficulté à fixer des conditions stables du phénomène elliptique dans le gapping d’autre part, nous avons dû écarter sa détection automatique dans le cadre de cette recherche.

4.2.2.2. Réponses fragmentaires

Nous avons détecté automatiquement les questions fragmentaires (où le sujet et l’auxiliaire manquent) mais nous avons écarté les réponses fragmentaires (-

Something to drink ? – Water, please) identifiées dans la classification de van

Craenenbroeck & Merchant en raison du taux d’erreurs observé, entravant ainsi les autres détections. En effet, si le patron autorise la détection de ces ellipses dans les

83 Le gapping peut également se trouver dans une forme interrogative : Did mom come first, or daddy ? Plusieurs vides syntaxiques sous le principe du gapping peuvent également se suivre comme : Jane

réponses (c’est-à-dire dans des phrases affirmatives), le taux d’erreurs est important car il est impossible de cerner dans un nombre limité de patrons toutes les variations que ces constructions engendrent. Cette catégorie rejoint donc le problème du

gapping identifié ci-dessus84.

Nous dirons cependant qu’en raison du développement permanent des outils informatiques, ces contraintes ne doivent pas être considérées comme définitives, mais se présentent comme des défis ultérieurs à relever en vue d’une meilleure reconnaissance automatique de l’ellipse.

Dans le document La détection et la traduction automatiques de l'ellipse : enjeux théoriques et pratiques (Page 108-113)