• Aucun résultat trouvé

Ancrages théoriques et pratiques

4. Bilan : apports et contraintes de la méthodologie adoptée

4.3. Contraintes fondamentales

Le dernier obstacle que nous abordons dans cette partie et auquel un travail sur corpus parallèle nous expose est celui de l’acceptabilité des exemples constitués. Dans le cadre de notre recherche la notion d’acceptabilité est particulièrement importante tout d’abord en amont, lorsqu’il s’agit de constituer des corpus, et, en aval, dans l’évaluation de la traduction des occurrences elliptiques à l’intérieur des corpus mêmes. Nous nous limiterons dans ce chapitre à exposer les limites de l’acceptabilité concernant la constitution de corpus, et développerons celles liées à la qualité de la traduction dans le chapitre 5, consacré aux traductions de l’ellipse.

La notion d’acceptabilité appliquée aux extraits constitués dans un corpus est souvent opposée à celle de norme, grammaticale ou contextuelle. Qu’est-ce qu’un exemple, une phrase ou un énoncé acceptable ? Depuis la réflexion menée sur cette notion par Harris, l’acceptabilité est liée au jugement qu’un locuteur d’une langue ou d’une société donnée, prononce à l’égard d’un énoncé pour le valider. En effet, il ne suffit pas qu’une suite de segments soit grammaticalement et syntaxiquement agencés selon un ordre canonique ou une règle établie pour qu’elle ait un sens et soit acceptable. Il serait nécessaire de vérifier, tester et valider l’acceptabilité de ce qui est véhiculé auprès d’une population pour la mesurer. En prenant en compte plusieurs facteurs qui entrent en jeu chez les locuteurs d’une même langue (milieu

social, âge, espace géographique, profession, la liste n’étant pas exhaustive), l’acceptabilité apparait donc très relative.

Or, ces remarques ne sont pas toutes à prendre en considération dans le cas précis de la constitution de nos corpus de développement et d’évaluation. En effet, le corpus de développement a été constitué à partir d’exemples issus de documents authentiques, sans aucun souci de conformité à une norme quelconque. De cette manière, notre démarche « est donc basée sur l’usage et non sur les règles de grammaire dont on vérifierait la bonne/mauvaise application » (Loock 2016, 23). Nous avons conscience du fait que certains exemples puissent dérouter par leur non-acceptabilité sémantique, mais l’objectif premier poursuivi dans cette phase a été de repérer et de vérifier manuellement, toujours pour ce qui est du corpus de développement, l’apparition du phénomène elliptique. Notre corpus d’évaluation, servant à tester l’efficacité des patrons dans leur détection automatique des ellipses, répond au même positionnement.

Pourtant, nous n’ignorons pas que, hors des exemples forgés, se pose effectivement la question de l’acceptabilité des énoncés extraits d’un corpus, car une fois extraits de leur contexte (qui, dans le cas d’un corpus électronique, peut être relativement limité), ces extraits devenus des exemples pourraient, eux aussi, si l’on n’y prend pas garde, fonctionner comme des exemples fabriqués. Autrement dit, il ne suffit pas d’avoir un corpus pour que les exemples soient sûrs ou imparables, mais il importe que ces exemples soient repérés comme appartenant à des variétés de langue, des registres et des contextes particuliers.

Pour cette raison, tous nos exemples, appartenant à des registres identifiés à l’intérieur du corpus, sont, par nature, acceptables, dans le sens où ils correspondent à un usage de la langue tel qu’il a été porté par ces registres.

Pour aller plus loin dans la prise en compte de registres dans l’analyse de l’ellipse, nous citerons en particulier les travaux de Miller (présentés dans le premier chapitre) qui porte une attention particulière aux variations induites par le registre et fonde son analyse sur une sélection aléatoire d’occurrences dans le COCA. En adoptant cette démarche, Miller (2011) a pu remarquer que le type de registres, ce que nous

avons nommé genres (oral, fictionnel, journalistique et académique), influence la fréquence des ellipses post-auxiliaires avec do et do so.

Bien entendu, le fait de considérer le corpus en l’état, n’induit nullement un désintérêt pour ses caractéristiques de quelque ordre qu’elles soient, mais correspond à une préoccupation majeure d’étudier un fait de langue (ici l’ellipse) au plus près de sa réalité.

En résumé, comme nous l’avons déjà précisé, notre méthodologie de travail a été établie grâce aux études et aux conclusions menées sur l’ellipse par les linguistes théoriciens et informaticiens qui s’intéressent particulièrement à la place du phénomène elliptique dans la structure grammaticale de la phrase et à son traitement informatisé. Cependant, on se souvient qu’à ce jour, très peu d’études globales et approfondies envisageant une détection automatique de tous les types d’ellipse à l’intérieur d’un corpus ont été réalisées. De plus, jusqu’à présent, cette détection, quand elle a été réalisée, ne l’a été que partiellement. Par exemple, chaque étude s’est focalisée sur un type d’ellipse, mettant de côté les autres catégories. Par ailleurs, ces études ont considéré la détection comme une finalité en soi et se sont limitées à la description du phénomène. Or, notre recherche conçoit la détection non plus comme une finalité immédiate, mais comme un préalable conditionnant la réalisation d’un autre objectif, à savoir la résolution des problèmes posés par l’ellipse soumise à sa traduction automatique. De ce fait, elle tente d’ouvrir une voie nouvelle applicable aux langues sous étude, dans le traitement automatique et global de l’ellipse. En effet, si l’on parvient à détecter l’ellipse automatiquement, les problèmes de sa traduction automatique pourront être plus facilement répertoriés.

Nous avons montré dans ce chapitre que la complexité de l’ellipse se révèle à chacune des étapes menant à l’élaboration de patrons de détection automatique, allant du recensement des critères nécessaires à leur réalisation, jusqu’à la prise en compte des difficultés rencontrées dans l’exploitation du corpus, prouvant ainsi, si cela était encore nécessaire, la grande plasticité du phénomène étudié, voire de l’activité langagière.

Un établissement de patrons de détection fondé sur les relations de dépendance entre les constituants de la phrase, nous a semblé pertinent au départ, mais les problèmes rencontrés lors de l’analyse de dépendance entre le site elliptique et les autres éléments de la phrase nous ont amenée à écarter cette option d’analyse pour établir nos patrons sur la base d’une analyse morphosyntaxique et des tokens.

Nous examinerons dans les chapitres à venir les résultats obtenus après avoir suivi la méthodologie précédemment exposée, appliquée à la détection automatique des ellipses. Le chapitre 3 présente ainsi un bilan de cette démarche de détection concernant le genre conversationnel tandis que le chapitre 4 est consacré à la distribution des ellipses et à leur détection dans l’ensemble des genres du corpus d’évaluation. En nous focalisant alors spécifiquement sur l’ellipse post-auxiliaire, à partir des erreurs relevées dans cette phase de détection automatique, nous consacrerons le chapitre 5 à l’exposition des obstacles rencontrés dans la traduction (humaine et automatique) mais aussi aux nombreuses perspectives qu’elle ouvre.

Chapitre 3

Évaluation de la détection automatique sur