Méthodologie d’analyse du corpus - d’entreprise dans les publications de sources académiques

d’entreprise dans les publications de sources académiques

2.2. Méthodologie d’analyse du corpus

Ayant présenté notre corpus définitif ainsi que les trois catégories (année de publication, type de texte et place du RSE) à partir desquelles les textes de celui-ci peuvent être répartis, nous détaillons dans cette section la méthodologie que nous avons construite afin d’obtenir les représentations du RSE issues de sources académiques. Cette méthodologie, fondée sur nos objectifs et nos hypothèses de recherche, s’inscrit dans une démarche d’analyse du discours lexicométrique. Plus précisément, nous l’avons centrée sur une méthode de classification automatique : la classification hiérarchique descendante (CHD).

2.2.1. Identification des positionnements d’un champ discursif par lexicométrie

Cherchant à tracer les contours du RSE tel qu’il est représenté dans des publications de sources académiques, nous avons entrepris une démarche d’analyse du discours, dont la visée est de « rapporter les textes, à travers leurs dispositifs d’énonciation, aux lieux sociaux qui les rendent possibles et qu’ils rendent possibles » (Maingueneau, 2009, p. 19).

D’après les caractéristiques de notre corpus, notamment les diverses revues dans lesquelles les articles ont été publiés et la répartition des publications en textes « praticiens » ou

« académiques », nous avons supposé une pluralité de discours en ce qui concerne la représentation du RSE. Ce faisant, nous avons considéré notre corpus comme le reflet d’un champ discursif, c’est à dire un espace « où un ensemble de positionnements sont en relation de concurrence au sens large, se délimitent réciproquement » (Maingueneau, 2009, p. 24). Dans ce cadre, notre analyse visait à identifier ces positionnements dans les définitions données du RSE, donc au travers du lexique employé par les auteurs des textes de notre corpus. En analyse de discours, la lexicométrie cherchant à « caractériser un ensemble discursif (souvent un positionnement) par rapport à d’autres appartenant au même espace grâce à l’élaboration informatique de réseaux quantifiés de relations significatives entre ses unités » (Maingueneau, 2009, p. 81), nous avons utilisé cette méthode pour

connaître la distribution globale du lexique dans notre corpus, et ainsi repérer différentes traces discursives susceptibles d’exprimer des représentations du RSE.

Pour cela, nous avons opéré une analyse lexicométrique de notre corpus à l’aide d’un logiciel spécialisé : Iramuteq. Cette méthode nous a permis tout d’abord d’éviter une construction a priori de représentations du RSE, donc une orientation préalable à notre analyse du corpus, mais également d’obtenir une nouvelle vue synthétique de celui-ci, différente de celle, nécessairement singulière, que nous avions construite grâce à notre première lecture par catégories d’analyse. En effet, « l’appel aux différents logiciels d’analyse textuelle existant » permet « d’avoir une vision plus globale et plus homogène de notre matériel » ainsi que d’obtenir « une subtilité et une finesse du détail qui ne sont pas forcément visibles “à l’œil nu” » (Kalampalikis, 2003, p. 149).

Iramuteq est un acronyme pour « Interface de R³⁹ pour les Analyses MUltidimensionnelles de TExtes et de Questionnaires » (Ratinaud, 2009). Ce logiciel libre permet de réaliser des analyses statistiques sur des corpus de textes, les calculs étant effectués par le logiciel libre de statistiques multidimensionnelles R. Entre autres fonctionnalités, ce logiciel d’analyse lexicale reproduit la méthode de classification dite « méthode Alceste » conçue par Max Reinert (Reinert, 1983). Cette méthode repose sur l’hypothèse que des cooccurrences de vocables dans des énoncés textuels « renvoient à des représentations sous-jacentes qu’il est alors possible d’expliciter, notamment du fait des redondances et ceci, indépendamment de l’étude de la syntaxe » (Reinert, 1986, p. 472). Elle rejoint l’idée que les représentations sociales sont notamment « inscrites dans le langage et les pratiques et fonctionnent comme un langage, en raison de leur fonction symbolique et des cadres qu'elles fournissent pour coder et catégoriser ce qui peuple l’univers de vie » (Jodelet, 2002, p. 119). Cette méthode repère la structuration d’un discours par le biais des redondances de ces traces lexicales que forment les cooccurrences de vocables, qui, lorsqu’elles sont répétées, constituent des lieux communs, des « mondes lexicaux » référentiels « “habités” par les énonciateurs » (Kalampalikis, 2003, p. 151) de ce discours ; lieux communs qui peuvent être spécifiques d’un positionnement dans un champ discursif (Maingueneau, 2009, p. 96). Dans la

« méthode Alceste », les redondances de cooccurrences lexicales sont recherchées au sein de fragments textuels, que Max Reinert nomme « unités de contextes » (Reinert, 1986, p. 472), et qu’il considère comme autant d’unités de sens. Ces fragments correspondent

39 Le projet R est un logiciel libre d’analyses statistiques : https://www.r-project.org/

dans un texte à des séquences telles qu’une proposition, une ou plusieurs phrases, ou encore un paragraphe, chacune des séquences étant « supposée recouvrir un moment de l’activité de lecture d’amplitude comparable », le découpage du texte en séquences devant être

« compatible avec les rythmes d’une lecture possible » (Reinert, 2007, p. 193).

2.2.2. Distribution du lexique dans le corpus par classification hiérarchique descendante (CHD)

Pour repérer et isoler les différents mondes référentiels énoncés dans un corpus textuel, cette méthode opère une classification hiérarchique descendante (CHD) sur un tableau croisant les formes pleines⁴⁰ et les fragments de texte de ce corpus textuel. Ainsi, la présence ou l’absence des formes pleines sont repérées dans ces fragments, afin de pouvoir distribuer ensuite ceux-ci dans des classes différenciées sur ces occurrences ou non de formes pleines. Pour cela, « la technique est itérative : initialement toutes les unités textuelles sont regroupées en une seule classe ; à chaque étape, on fait ressortir les deux classes les plus différentes entre elles, en termes de vocabulaire », ceci afin « d’obtenir un classement des “phrases” du corpus étudié en fonction de la ressemblance ou de la dissemblance des mots dans ces “phrases” et d’ordonner les textes en cernant les homologies et les oppositions » (Garnier, Guérin-Pace, 2010, p. 24). Chaque classe obtenue par cette méthode est caractérisée dans le logiciel par son profil, qui indique le nombre de fragments textuels distribués dans celle-ci (nommés « segments de texte⁴¹ », intitulé que nous employons désormais dans la suite de notre propos) ainsi que leur part dans le nombre total de segments de texte classés. Le profil d’une classe indique également les formes pleines présentes dans les segments classés dans celle-ci, le lien entre la forme et la classe étant exprimé par une métrique statistique : la distance du Khi2 à un degré de liberté⁴².

40 « dans la méthode ALCESTE, l’analyse ne porte que sur les formes dites “pleines” (les verbes, les noms, les adverbes, les adjectifs) qui sont opposées aux formes supplémentaires (ou mots outils : les prépositions, les pronoms, les adjectifs possessifs, certains verbes et adverbes fréquents...) » (Ratinaud, Marchand, 2012a, p. 836).

41 « toute suite d'occurrences consécutives dans le corpus et non séparées par un séparateur de séquence est un segment du texte », une occurrence étant entendue comme une « suite de caractères non-délimiteurs bornée à ses extrémités par deux caractères délimiteurs de forme ». Les séparateurs de séquence étant en général le point, le point d'interrogation, le point d'exclamation, la virgule, le point-virgule, les deux points, les guillemets, les tirets et les parenthèses (Lebart, Salem, 1994, p. 315).

42 « Le chi2 est un test statistique permettant d’évaluer la probabilité d’indépendance entre deux variables qualitatives. » (Ratinaud, Marchand, 2012b, p. 102). Il s’agit plus précisément ici d’un Khi2 d’association, dont la valeur exprime la force de corrélation entre la forme et la classe : plus le Khi2 est élevé, plus il est vraisemblable qu’il existe un lien de dépendance entre la forme et la classe.

Max Reinert considère que les classes ainsi obtenues sont les « types de mondes référentiels les plus sollicités » par les auteurs des textes analysés (Reinert, 1990, p. 21). Dans ce cadre, nous avons supposé que d’opérer une classification hiérarchique descendante sur notre corpus nous permettrait de dégager les différents positionnements adoptés à propos du RSE lorsqu’il s’agit de le définir, dans les publications de sources académiques.

Afin que le logiciel puisse le traiter, nous avons dû légèrement modifier le texte de notre corpus. Il est en effet nécessaire de stipuler au sein de celui-ci son découpage en unités textuelles (une unité textuelle, dans notre cas, étant une publication), ainsi que leurs caractéristiques (dans notre cas, les trois catégories descriptives et analytiques retenues en conclusion p. 47), exprimées dans des variables codifiées⁴³ ; il est par ailleurs recommandé, en fonction des résultats attendus et de la taille du corpus, de réaliser certaines modifications textuelles qui améliorent les résultats des calculs statistiques⁴⁴ (Arnoult, 2015, p. 298). Dans cette optique, nous avons également modifié les deux dictionnaires⁴⁵ sur lesquels s’appuie le logiciel pour reconnaître les expressions et opérer une lemmatisation⁴⁶ sur les formes reconnues.

Après avoir modifié notre corpus textuel et les deux dictionnaires utilisés par le logiciel comme indiqué ci-dessus, notre corpus est le suivant : il contient 62 textes (un texte étant une unité textuelle caractérisée par des variables, donc l’ensemble des extraits d’une publication dans notre cas), pour un volume total de 56 523 caractères, espaces compris.

Dans celui-ci figurent 8 485 occurrences de 1 969 formes différentes, distribuées en 1 506

43 Le détail des variables codifiées et de leurs modalités est consultable en Annexe 3 p. 410.

44 Nous avons supprimé les références citées entre parenthèses, les numéros d’appel de notes de bas de page ainsi que les points dans les acronymes. Nous avons corrigé les fautes d’orthographe, de grammaire et les coquilles, et remplacé « 2.0 » par « 2_0 », « chat » (au sens de messagerie instantanée) par « tchat », « SI » par « système d’information » et « TI » par « TIC ». Nous avons également remplacé « réseau social » (au singulier et au pluriel) par « réseau_social » uniquement lorsque l’expression n’était pas utilisée au sens de

« réseau socionumérique ».

45 Le détail des modifications apportées aux deux dictionnaires est consultable en Annexe 4 p. 411.

46 « Regroupement sous une forme canonique […] des occurrences du texte. En français, ce regroupement se pratique en général de la manière suivante : les formes verbales à l'infinitif, les substantifs au singulier, les adjectifs au masculin singulier, les formes élidées à la forme sans élision. » (Lebart, Salem, 1994, p. 314).

Cette pratique « permet d’augmenter les liaisons statistiques impliquées par les cooccurrences des formes » (Marchand, 1998, p. 82), cependant elle supprime la possibilité d’interpréter une distinction de forme renvoyant à la même notion, qui peut révéler des différences de stratégie du sujet. Notre objectif étant plutôt centré sur la définition du RSE que sur les stratégies discursives du sujet, et nos effectifs n’étant pas volumineux, nous avons considéré que la lemmatisation de notre corpus était nécessaire pour consolider les résultats de notre étude.

lemmes⁴⁷. Parmi celles-ci 786 sont des hapax⁴⁸, soit 9,26 % des occurrences et 52,19 % des lemmes. Un texte comporte en moyenne 136,85 occurrences de formes.

Pour déterminer les segments de texte dans lesquels les cooccurrences de formes sont recherchées, et afin qu’ils correspondent à des moments d’activité de lecture d’amplitude comparable, le logiciel propose de fragmenter les textes soit en fonction d’un nombre de caractères, soit en fonction d’un nombre d’occurrences de formes, soit en fonction des paragraphes formalisés par un saut de ligne. Nous avons choisi de créer un segment de texte à chaque nouveau paragraphe. En effet, nous avions constitué ce corpus par extraction de phrases significatives d’une représentation du RSE, en ajoutant un saut de ligne à chaque nouvelle phrase. Ce découpage formel correspond, de fait, à ce que Max Reinert considère comme des « unités de contexte », c’est-à-dire des segments de texte. Enfin, pour chaque classification effectuée sur un corpus, le logiciel indique le taux de segments de texte pris en compte pour établir les classes finales. Plus ce pourcentage est élevé, plus les classes sont pertinentes pour l’ensemble du corpus. Nous avons effectué la classification de notre corpus avec la méthode de classification hiérarchique descendante (CHD) dite « simple sur segments de texte », qui a recouvert quasiment la totalité de notre corpus. Nous avons donc analysé les résultats de celle-ci pour notre étude.

2.3. Discours sollicités pour représenter le RSE

Dans le document The DART-Europe E-theses Portal (Page 52-56)