• Aucun résultat trouvé

Ancrages théoriques et pratiques

1. Constitution des corpus

1.2. Présentation de nos corpus

1.2.2. Corpus d’évaluation

Pour vérifier la performance de nos patrons, nous avons constitué un corpus d’évaluation à partir de cinq sous-corpus présentant différents genres de discours (voir le tableau 6 ci-dessous) et avons extrait des échantillons. Les genres sélectionnés appartiennent aux domaines suivants : littéraire, promotionnel, politique, conversationnel et journalistique. Nous reviendrons en détail sur les caractéristiques de ces genres dans le chapitre 4.

Corpus Genre de discours

représenté l’échantillon Taille de

utilisé (N

Tokens)60

Informations

EUROPARL61 Politique 283 205 Actes du parlement européen des années 1996 à 2011

Conçu au départ pour servir aux recherches menées dans le domaine de la traduction automatique, il a été utilisé depuis dans de nombreuses autres études visant le traitement automatique des langues.

Sous-titres de séries TV62

Conversationnel 233 978 Pour constituer ce corpus, nous avons sélectionné des extraits des deux premières saisons de la série

Broadchurch ainsi que des extraits

des cinq premières saisons de la série

Downton Abbey, récupérés des DVD (Strong & Lyn, 2018 ; Percival et al., 2018) et compilés par nous-même. Pour compléter cette collection, nous avons sélectionné au hasard un fichier de sous-titres Opus subtitles que nous avons vérifié.

PLECI63 Journalistique 41 522 PLECI est un corpus constitué par les universités de Poitiers et de Louvain, regroupant des articles de presse et quelques textes littéraires.

Dans ce corpus, nous avons sélectionné uniquement les articles et les romans publiés entre 1990 et 2014, traduits de l’anglais vers le français.

Littéraire 55 286 Dans le cadre du corpus PLECI, le corpus littéraire que nous avons choisi est constitué de quatre romans écrits en anglais et traduits en français. Il s’agit de Night Over Water (1991) de Ken Follet, Strawberry Tree (2011) de Ruth Rendell, A Widow for

One Year (1998) de John Irving et

enfin Harry Potter and the Order of

the Phoenix (2003) de J.K Rowling.

60 Nous ne donnons ici que la taille des échantillons exploités.

61 http://www.statmt.org/europarl/ (accès vérifié le 10 juin 2017 à 10:49).

62 Voir annexe II p.265.

63 Nous avons accès à ce corpus depuis le 15 mars 2015. Nous remercions Raluca Nita (Université de Poitiers) d’avoir mis ce corpus à notre disposition.

TED64 Promotionnel 46 172 Ce corpus est extrait d’un ensemble de transcriptions des conférences TED qui ont été alignées automatiquement pour être utilisées dans les recherches en TAL. Les conférences TED sont des conférences destinées à rencontrer l’intérêt de tous les genres de public en fonction de leur contenu.

Tableau 6 : Corpus utilisés et genres de discours les représentant

En plus des critères précédemment exposés, c’est le libre accès aux textes collectés dans ces corpus qui a majoritairement favorisé leur choix. À l’exception du PLECI, tous les autres corpus présentaient l’avantage d’être directement téléchargeables en ligne et, malgré les droits qui leur restent associés, les licences permettent leur usage dans le cadre d’activités de recherche. Un autre critère de sélection de ces corpus tient à leur année de production sachant que notre étude porte sur l’anglais contemporain et sa traduction en français (de 1990 à 2014). Enfin, le dernier critère s’appuie sur la qualité des traductions proposées par des traducteurs expérimentés65 et non sur une production « non professionnelle »66. On ajoutera, pour ce qui concerne l’aspect théorique de l’ellipse, que le recours à un corpus échantillonné par genre permet de vérifier dans quelle mesure le phénomène est spécifique à tel ou tel type de discours.

D’un point de vue pratique, il apparaissait plus économique de recourir à un ensemble de corpus déjà compilés (à l’exception du corpus conversationnel que nous avons compilé nous-même) afin d’utiliser le gain de temps obtenu à l’approfondissement des différentes étapes de la recherche.

Notre apport à ce niveau de réalisation a donc consisté à repérer, réunir et organiser tous ces sous-corpus afin de constituer un sous-corpus d’étude suffisamment représentatif permettant l’analyse des occurrences d’ellipses. La décision de rassembler un nombre conséquent de corpus variés est donc fondée sur l’hypothèse que la fréquence et la forme des occurrences elliptiques varient d’un

64 https://wit3.fbk.eu/ (accès vérifié le 12 juin 2017 à 11:15).

65 À l’exception du corpus TED, traduit par des traducteurs bénévoles (on ignore s’il s’agit de traducteurs professionnels expérimentés).

66 Il ne s’agit pas ici d’un jugement de valeur. Par « non professionnelle », nous renvoyons aux volontaires qui proposent leurs services en dehors des circuits académiques et professionnels.

genre à l’autre et d’une langue à l’autre et que, en conséquence, les variations de leur comportement syntaxique, examinées soigneusement, pourraient permettre l’enrichissement des patrons de détection automatique.

Pour conclure cette étape, nous soulignerons que notre acception de l’ellipse comme fait de langue, requiert tout d’abord la confrontation du phénomène elliptique aux différentes constructions canoniques du système langagier. Notre objectif dans l’utilisation d’un corpus parallèle est ainsi d’évaluer les différentes variations du phénomène, tant au niveau intra-langue qu’au niveau inter-langue. Inclure les genres dans une telle étude semble compatible avec l’évaluation de la traduction du phénomène elliptique, puisqu’avant de traduire le texte, une compréhension du contexte, du type de discours et de ses conventions est nécessaire. Viennent ensuite les variations internes aux systèmes des langues que l’on traduit et qu’un corpus parallèle permet d’observer au plus près. En effet, ces discours sont issus de communications sociales ayant eu lieu dans des situations d’énonciation différentes. La différence entre ces sous-corpus discursifs est déterminée par les objectifs de communication communs aux participants. Ces objectifs peuvent engendrer des variations de structures syntaxiques dans les phrases utilisées, elliptiques ou non elliptiques, que les locuteurs contrôlent, consciemment ou non.

Fonder une analyse sur un corpus parallèle implique également un travail sur des textes et sur leur(s) traduction(s). Notre objectif de traiter l’ellipse dans la traduction humaine et automatique nous impose d’opter pour ce genre de corpus. L’approche comparative de deux langues permet en effet de mettre en relief leurs traits communs pour identifier par la suite les caractéristiques particulières à chacune d’elles et observer un fait de langue spécifique. Afin de cerner les éventuelles convergences et divergences, une telle comparaison offre une analyse fine des fonctionnements des langues en question ainsi qu’une compréhension de leurs mécanismes respectifs. De plus, ce sont les différences rencontrées dans le corpus,

qui, exploitées lors de l’analyse des processus de traduction, pourront permettre de prédire les erreurs engendrées par l’ellipse.

L’étude de ces deux variations (inter-langue et intra-langue) peut ainsi apporter une compréhension nouvelle du phénomène et contribuer à sa compréhension et à sa traduction, comme nous le verrons dans le chapitre 5 de ce travail.