La méthode quantitative - Méthodologie : analyse de The Rainbow et ses traductions françaises

Corpus, méthodologie et analyse :

5. Méthodologie : analyse de The Rainbow et ses traductions françaises

5.1 La méthode quantitative

La méthode quantitative permet au chercheur, toutes disciplines confondues, de mettre en place un ensemble d’échantillons constituant des données de départ pour obtenir des statistiques. Ces données sont exploitées et interprétées pour en extraire des informations ou des tendances qui permettent, par exemple, de vérifier une hypothèse, d’observer une entité et d’effectuer des études contrastives. L’une des premières questions que le chercheur se pose en optant pour une analyse quantitative demeure la nature des données et le nombre d’échantillons à sélectionner. De manière générale, l’extraction d’un échantillon est systématique et précise dans les sciences appliquées, telles que la biologie et la chimie. Cependant, en sciences humaines, l’échantillonnage présente quelques difficultés. À vrai dire l’émergence de la méthode d’analyse quantitative dans lesdites sciences est étroitement liée aux champs d’études en linguistique, en particulier la linguistique cognitive aux alentours de l’année 2008. Ce courant de la linguistique met en avant l’utilisation des données et leur traitement pour cibler la relation entre la forme observée et le sens (Janda, 2013 : 2). En ce qui concerne le choix des données retenues, quelques problèmes ont marqué la linguistique. En réalité, dans Cognitive Linguistics, Janda avance que les linguistes peinent à s’accorder pour déterminer ce qui est de l’ordre des données :

Even the question of what constitutes data in linguistics is controversial, and largely dependent upon the theory that one uses. Many researchers in formal theories refer to constructed examples and individual intuitions as data, while others prefer to use corpus attestations or observations from acquisition or experiments. (Janda, 2013 : 2)

La difficulté que rencontrent les linguistes pour constituer l’ensemble de leurs données est également présente chez les traductologues. À vrai dire, il est parfois épineux de collecter

les échantillons et de procéder à leur analyse. Le terme « échantillon » (Loock, 2016: 181) est employé dans la présente thèse pour faire référence à un extrait, qui une fois analysé, aboutit à des « données chiffrées ». D’une part, cette étape exige une vigilance particulière. En effet, les résultats finaux pourraient être biaisés, si les échantillons ne sont pas choisis selon des critères pertinents à la recherche menée. De l’autre, une telle tâche exige la vérification de certains aspects, dont la possibilité de vérifier les conclusions et le potentiel de reproductibilité, à savoir la faculté de pouvoir reproduire un résultat similaire si l’on répète la même tâche dans des conditions différentes et à des intervalles de temps variables : la réaction du métal au contact de certains éléments, à titre d’exemple.

Or, ces protocoles de recherches sont difficiles à appliquer dans notre champ d’étude. En faisant référence à la traductologie, Tymoczko précise que plusieurs éléments de fond posent problème, notamment la possibilité de reproduire les résultats et de les vérifier : « It is often difficult to deploy standard data collection procedures developed and utilized in other disciplines to ensure replicability and verifiability » (Tymoczko, 2014 : 156). Le mode opératoire dans d’autres disciplines, comme la chimie par exemple, se distingue par la possibilité d’extraire un même échantillon et d’appliquer divers modèles ou théories sur le prototype sélectionné. Cependant, choisir un seul mot ou même une seule phrase, comme échantillon, peut ne pas être significatif. Cela nous amène à évoquer un autre obstacle que le traductologue peut rencontrer, à savoir la taille des exemples à analyser. Tymoczko soulève cette question et affirme qu’il est difficile d’atteindre un nombre suffisant d’exemples, particulièrement dans les études descriptives relatives à des phénomènes traductifs du passé. Il s’agit d’un problème qui persiste :

Achieving an adequate sample size is not always easy, not only when one is investigating scarce evidence from the past but also when researching a unique translation of a source text, translations of the work of a single author, the output of a single translator or a single translation movement, and so forth. (Tymoczko, 2014 : 156-157)

Selon Tymoczko, la taille des échantillons doit être suffisamment importante pour pouvoir appliquer les conclusions tirées dans un champ plus large. La difficulté qui réside dans le choix d’un nombre précis d’échantillons peut donner l’impression que le chercheur avance en tâtonnant, mais il est indispensable de la contourner en trouvant des « solutions créatives ». En ce sens, Tymoczko (2014 : 156) suggère que le chercheur fait appel à des informations « externes » à la traduction, comme des « preuves paratextuelles » et des « textes parallèles ». Dans le cadre de notre recherche, nous tâcherons de proposer un nombre d’exemples suffisamment conséquent pour tirer des observations concluantes tout en faisant appel à plusieurs éléments (lectures annexes, informations contextuels, etc.) pour mener à bien notre travail.

Comme nous l’avons déjà précisé, notre démarche s’appuie sur une méthode combinée, à la fois quantitative et qualitative. Dans la mesure où notre échantillonnage cible un champ d’étude bien spécifique, c’est-à-dire les métaphores corporelles dans un seul roman de Lawrence et leurs traductions en français, nous préférons parler d’« échantillon qualitatif » (traduction par Martine Hladay Rispal de l’expression « qualitative sampling » employée par Miles et Huberman, 1994). L’utilisation des échantillons qualitatifs s’applique à une analyse qui évolue au fur et à mesure du travail :

La première sélection d’informants va aboutir à la recommandation d’autres informants ; l’observation d’une classe d’événements entraîne une comparaison avec une classe différente ; la compréhension d’une relation clef dans le milieu révèle plusieurs facettes qui doivent être étudiées en relation avec d’autres. On appelle cette opération échantillonnage séquentiel dirigé par une réflexion conceptuelle. (Miles et Huberman, [1994] 2003 : 58)

Miles et Huberman (2003 : 58) précisent également que l’échantillonnage est une étape déterminante pour l’analyse des données. En effet, il est impossible de tout étudier à la fois ; il faut donc faire des choix, l’objet observé, le sujet interrogé, le lieu, l’époque, les thèmes abordés et les raisons de mener une telle démarche. Cette multitude de questions peut limiter la pertinence des conclusions et la légitimité des résultats. Mais cela n’a pas empêché les chercheurs de mener des études traductologiques sur corpus qui ont contribué à enrichir la discipline. Il ne s’agit pas ici de dresser une liste exhaustive de tous les travaux effectués selon une méthode qualitative, mais les propos de Leech et Short résument parfaitement l’utilité d’une telle analyse : « The more I, as a critic, wish to substantiate what I say about style, the more I will need to point to the linguistic evidence of texts; and linguistic evidence, […], must be couched in terms of numerical frequency » (Leech et Short, [1981] 2007 : 38).

Afin d’effectuer une analyse quantitative, le chercheur a recours à divers logiciels pour explorer « l’ensemble énonciatif », par exemple AntConc (version 3. 4. 4) que nous avons retenu dans cette thèse. Il s’agit d’un outil d’analyse textuelle, développé en 2016 par Laurence Anthony, professeur à l’université de Waseda au Japon. L’outil conçu par Anthony correspond à nos attentes, car, dans le cadre de notre étude, nous aspirons à utiliser deux fonctionnalités bien précises, à savoir les concordances de type KWIC et le Concordancer Search Term Plot Tool. Ces fonctionnalités donneront lieu à des données quantitatives que nous traiterons pour affiner notre analyse qualitative. Cela facilite le repérage automatique des associations entre les mots. Il existe d’autres logiciels pour traiter des données textuelles, notamment WordSmith Tools, développé par le linguiste Mike Scott de l’université de Liverpool en 1996. C’est un outil qui offre des fonctionnalités beaucoup plus complexes qui sont, sans aucun doute, particulièrement riches et utiles, mais celles-ci ne sont pas requises dans notre travail. Par ailleurs, cet outil

est uniquement adapté aux systèmes d’exploitation Windows, alors que le logiciel AntConc peut être utilisé non seulement sur Windows, mais également sur Mac et Linux. AntConc propose une interface dont l’utilisation est à la fois simple et efficace. Dans les mots de son concepteur, « […] it includes an easy-to-use, intuitive graphical user interface and offers a powerful concordancer, word and keyword frequency generators, tools for cluster and lexical bundle analysis, and a word distribution plot » (Anthony, 2004 : 7). AntConc est parfaitement adapté au corpus à petite échelle. Par ailleurs, ce logiciel n’exige pas de traitement préalable des données. En d’autres termes, les données utilisées sont brutes, par opposition aux données annotées : « AntConc performs all operations directly on the raw texts of the corpus. […] the program does not need to do any pre-processing of the data […] » (Anthony, 2004 : 7). Il convient de rappeler qu’annoter un corpus est l’action d’ajouter des informations spécifiques comme « la catégorie grammaticale à laquelle chaque mot du corpus appartient » ou encore « les différents syntagmes et propositions constitutifs des phrases identifiées dans le corpus ». Cela correspond respectivement à une « méthode d’étiquetage » et à une « méthode d’analyse syntaxique » ou de « parsage » (Loock, 2016 : 68).

Laurence Anthony a conçu un outil gratuit accessible aux chercheurs débutants et ceux qui sont plus expérimentés. Il est également possible de consulter le tutoriel²

disponible en ligne ainsi qu’une interface³ d’échange qui permet de poser diverses

questions et d’accéder à des tutoriels, créant ainsi une vraie communauté autour de cet outil. Cela dit, comme tout logiciel, AntConc a ses propres limites, même s’il permet à l’utilisateur de recueillir des données numériques utiles dans le cadre de l’analyse des textes étudiés. Selon Anthony (2004 : 12), l’un des points faibles de ce logiciel concerne les corpus annotés, c’est-à-dire les données encodées selon un format HTML/XML. Le

logiciel ne prend pas en charge les entités textuelles balisées. Le deuxième obstacle est le fait que le logiciel propose des statistiques plutôt simples. Par exemple, AntConc ne fournit pas de fonctionnalités qui comparent les divers résultats entre eux ; chaque analyse quantitative concerne un seul texte à la fois. C’est au chercheur d’analyser les textes de son corpus un par un et de comparer les résultats de chaque étape par la suite. Pour ce faire, il faut effectuer des captures d’écran des données obtenues : on ne peut pas sauvegarder les tableaux des résultats affichés. Ces deux aspects n’ont pas entravé notre recherche. En effet, notre corpus est de taille moyenne dans la mesure où il comporte des passages extraits de The Rainbow et de ses deux traductions françaises. Même si la totalité des trois œuvres a été prise en compte lors de la lecture et la microlecture (chaque exemple est inscrit dans un paragraphe, qui fait partie d’un chapitre, etc.), les exemples qui ont été sélectionnés ne couvrent pas la totalité des trois textes. Dans un premier temps, AntConc nous a évité la recherche manuelle des extraits métaphoriques qui aurait été une tâche laborieuse et certainement moins précise car des oublis persistent. Certes, le concordancier permet uniquement de repérer le mot-clé sans déterminer si son sens est figuré ou littéral, néanmoins cela éviterait de feuilleter la totalité des œuvres et de relever tous les passages à la main, comme l’explique Herrera Soler : « By using concordance programs specific tokens or chunks of words are searched automatically, a system that favours an accurate quantitative analysis. But when personal surveys are conducted, automatism is not so highly prized as researchers interpretations are constantly required » (Herrera Soler, 2008 : 54). Dans la même veine, Ballard et Pineira-Tresmontant soulignent l’importance des concordanciers dont les fonctionnalités offrent non seulement « au traducteur un gain de temps inestimable, mais elles confèrent encore à sa démarche une rigueur scientifique accrue » (Ballard et Pineira-Tresmontant, 2007 : 14). Toutefois, dans le cadre de notre recherche, l’utilisation d’un concordancier n’est pas sans poser problème,

notamment à cause de la difficulté d’identifier les unités métaphoriques. En effet, cela revient à répondre à la question suivante : qu’est-ce qui relève de la métaphore ? Pour répondre à cette question, notre démarche se rapproche sensiblement de celle du groupe de Pragglejaz, connue sous le nom de « Metaphor Identification Procedure » : « the purpose of MIP is to provide a procedure that starts from the actual discourse, and inductively builds the case for why a particular word was used metaphorically in context » (Pragglejaz, 2007 : 34). Les limites d’une démarche qui aspire à mettre en relief les métaphores résident en l’absence de modèles préétablis pour déterminer ce qui est de l’ordre de la métaphore et ce qui est de l’ordre du langage ordinaire — là encore, la limite n’est pas toujours si nette. Certes, les chercheurs disposent d’une large panoplie de définitions de la métaphore, mais il est important de s’outiller de divers autres éléments qui consolident la tâche d’identification d’une métaphore. Dans l’article « MIP: A Method for Identifying Metaphorically Used Words in Discourse », le groupe de Pragglejaz énumère les éléments à prendre en compte lors de tout projet de recherche aspirant à identifier des métaphores :

For any metaphor identification project, we urge that researchers report their results as fully as possible by including, as much as practically possible, details about the texts studied, the readership assumed, the determination of lexical units, resources used to aid decisions in completing the steps of the MIP, specific coding decisions, who the analysts were, and the statistical reliability of the analysis. Resources that we recommend are large electronic corpora and corpus-based dictionaries. (Pragglejaz, 2007 : 13)

Notre démarche suivra cette méthode. Autrement dit, il s’agit de consulter toutes les informations relatives au texte étudié, le lectorat, les unités lexicales, le contexte, les aspects qui ont guidé dans la prise de décision et la fiabilité des statistiques. Tous ces aspects seront développés ultérieurement lors de notre microlecture.

Dans le document Une question de style : la métaphore corporelle dans The Rainbow de D. H. Lawrence et ses deux traductions françaises (Page 187-194)