Méthode de traitement lexicométrique

CHAPITRE II. Méthodologie : approche contrastive et analyse de corpus

2. L’analyse de corpus

2.2. Méthode de traitement lexicométrique

Le traitement lexicométrique des corpus permet de combiner deux approches : l’analyse du lexique et les méthodes lexico-statistique (Diwersy et Kraif, 2013). Ces méthodes permettent « d’établir les accompagnateurs spécifiques ou préférentiels (co-occurrents) des lexies d’émotion sur grands corpus » (Diwersy et al., 2014 : 270). Nous proposons d’appliquer ce traitement lexicométrique au phénomène que nous étudions, à savoir les combinaisons des verbes d’affect. Nous nous appuyons ici sur certaines approches fondées sur des méthodes statistiques de la collocation telle qu’elle a été envisagée dans Halliday et Hassan (1976), Blumenthal (2008) et Diwersy et al. (2014). Les collocatifs sont ainsi

considérés comme « les accompagnateurs qui s’avèrent préférentiels sur la base du calcul probabiliste log-likelihood⁷⁵ » (Blumenthal, 2008 : 32). Les collocations constituent des expressions récurrentes présentant un degré élevé d’attirance entre les deux éléments constitutifs (base + collocatif). Notre objectif n’est pas de classer les affects (Tutin et al., 2006)⁷⁶, mais de chercher s’il y a des préférences entre les associations verbales d’affect⁷⁷ étudiées, qui véhiculent des dimensions sémantiques spécifiques, et certains patrons syntaxiques. Le travail de Diwersy et Kraif (2013) vise à la catégorisation sémantique des champs lexicaux des affects.

Pour ce qui est de notre travail, l’approche lexicométrique s’applique à des corpus comparés. Précisons que nous avons choisi des corpus comparables et non des corpus parallèles. Les corpus comparables se composent de textes originaux dans les langues à comparer, qui ont des caractéristiques très proches, telles que celles de genre, de registre, d’époque, etc. (Celle, 2006). Les corpus parallèles, en revanche, constituent des corpus de traduction qui peuvent être alignés dans le sens où les traductions sont mises en relation au niveau du paragraphe, des phrases et des mots. Dans le tableau suivant, Novakova (2015) résume les avantages et les inconvénients des différents types de corpus :

Le log-likelihood est un indice qui calcule le degré de spécificité des co-occurrents des lexies d’un corpus. Nous reviendrons sur cet indice pour mentionner que, pour l’arabe, nous avons opté pour un calcul en termes de fréquence absolue.

Pour réaliser une classification des noms d’affects, Tutin et al. (2006), entre autres, font la distinction terminologique entre trois types d’affects : émotions, sentiments et états affectifs.

Tableau 7: Avantages et inconvénients des corpus comparables et des corpus parallèles (Novakova, 2015 : 34)

Comme le montre le tableau ci-dessus, afin d’éviter les inconvénients liés à l’utilisation de corpus comparables, nous mentionnons ici que, dans le cas où nous ne trouvons pas l’équivalent adéquat, nous proposons, à l’instar d’Alonso Ramos (2001), des gloses sémantiques comme étant des conceptions explicatives qui paraphrasent le sens et la syntaxe des fonctions lexicales. Nous partageons la vision d’Alonso Ramos (ibid.) quand elle énonce que :

Si l’usager cherche à traduire une collocation de Ll vers L2, il se peut que dans L2 il n’existe pas une telle collocation ou que le sens de cette collocation soit paraphrasable par une autre collocation qui n’est pas la traduction directe de la collocation en Ll. Dans ces cas, il serait utile pour l’usager francophone qu’on lui fournisse des moyens d’expression de ce qu’il cherche à dire en espagnol, que cela soit collocationnel ou non. (Alonso Ramos, 2001 : 22)

Les deux corpus sur lesquels s’appuie notre recherche sont bien des corpus comparables et équilibrés dans la mesure où il s’agit de corpus constitués de textes relevant du même genre (journaux quotidiens de presse écrite) et parus à peu près à la même époque⁷⁸. Pour le français, nous avons EmoBase (http://emolex.ugrenoble3.fr/emoBase/), issue d’Emolex ANR/DFG (ANR-09-FASHS-017), projet franco-allemand réalisé sous la coordination d’Iva Novakova, de l’université Stendhal, Grenoble Alpes, et de Peter Blumenthal, de l’université de Cologne, de 2010 à 2013. Ce projet, soutenu et financé par l’ANR franco-allemande, avait pour thème « Le lexique des émotions dans cinq langues européennes : sémantique, syntaxe et dimension discursive ». Il réunit environ 120 millions de mots issus de textes journalistiques, ainsi qu’environ 20 millions de mots de textes littéraires. Dans notre étude, nous nous appuyons sur les textes journalistiques. Pour l’arabe, le corpus est issu de la base de données ArabiCorpus, disponible en ligne (http://arabicorpus.byu.edu/), avec des fonctionnalités en anglais et réalisée aux États-Unis. Il réunit environ 137 millions de mots de textes journalistiques, ainsi qu’environ 1 million de mots de textes littéraires. À l’instar de notre méthodologie du travail avec EmoBase, nous nous appuyons sur les textes journalistiques dans ArabiCorpus.

Nos deux corpus comprennent au total environ 255 millions de mots. Après un travail de fouille, ils nous ont permis d’extraire au total 815 co-occurrences d’associations verbales d’affect que nous jugeons pertinentes pour l’analyse contrastive selon des critères préétablis⁷⁹. Ces associations comportent les verbes : étonner/[ʔadhaʃa], énerver/[ʔaɣḍaba], admirer/[ʔaʕʒaba] et envier/[ħasada]⁸⁰.

Les corpus journalistiques que nous étudions sont sollicités plus précisément dans notre recherche pour étudier les combinaisons verbales d’affect. Ces études sur corpus comparables nous permettront :

– d’observer les collocations verbales d’affect dans leur environnement naturel, ce qui nous permettra de dégager le fonctionnement/comportement de ces collocations en contexte ;

– de relever les informations sémantiques et syntaxiques des collocations, ce qui permettra de faire le contraste des données du corpus français et celles du corpus arabe ;

78 Nous n’avons pas trouvé de corpus comparables arabe-français alignés appartenant à la même époque. 79

Nous reviendrons sur ces critères à la section 2.2.3.3. 80

– de dégager les similitudes et les divergences relatives à l’expression verbale d’affect en français et en arabe ;

– d’étudier la valence afin de percevoir les fonctionnements des collocations verbales d’affect relatives aux deux langues en question d’un point de vue discursif ;

– d’examiner les équivalents des associations verbales de l’affect dans les deux langues en contexte.

Nous nous pencherons dans la section suivante sur la présentation de nos deux corpus.

Dans le document La combinatoire des verbes d'affect : analyse sémantique, syntaxique et discursive français-arabe (Page 87-91)