• Aucun résultat trouvé

Cadre théorique et méthodologique pour la caractérisation des discours de visites médiées

Chapitre 3 : Corpus et cadre méthodologique

3.1. Les corpus d’étude

3.1.1. Présentation et typologie des corpus d’étude

Le TLFi (Trésor de la Langue Française informatisé), dans son acception linguistique, considère le corpus comme un « ensemble de textes établi selon un principe de documentation exhaustive, un critère thématique ou exemplaire en vue de leur étude linguistique73 ». Même si le TLFi suit le postulat qu’un mot n’a de sens et de valeur qu’en contexte, qu’il propose des définitions d’usage en relevant les exemples effectivement trouvés en littérature française, cette définition est plus orientée sur la fonction du corpus que sur sa nature, et cette définition semble optimiste dans son critère d’exhaustivité. Il est difficilement concevable de pouvoir réunir ou collecter tout texte appartenant à un thème ou à un genre donné. Les vocables, critère thématique et exemplaire, n’apportent que peu d’informations sur l’établissement de cet ensemble de textes même s’ils sous-entendent le besoin d’une certaine représentativité du langage ; représentativité qui paraît utopique si la finalité est de vouloir représenter un langage et son usage au moyen d’un échantillonnage. Mais cette définition a le mérite de mettre l’accent sur l’élément constitutif du corpus : le « texte », importance aussi soulignée par Péry-Woodley (1995 : 221) : « Un corpus se compose par définition de discours, de langue “concrète” […], et c’est immanquablement sous la forme de textes – écrits ou parlés – que la langue se réalise en discours. ». Même si elle introduit la notion de texte, la définition proposée par le TLFi reste floue sur la nature de l’ensemble de textes ainsi que sur sa représentativité. Habert (2000 : 11) offre plus de précision dans sa proposition :

Un corpus est une collection de données langagières qui sont sélectionnées et organisées selon des critères linguistiques et extra-linguistiques explicites pour servir d’échantillon d’emplois déterminés d’une langue.

Il fait apparaître les concepts de sélection et d’organisation selon des critères explicites pour représenter au mieux un phénomène déterminé ; mais il substitue à la notion de texte celle de

données langagières. Il convient donc de rechercher une définition plus détaillée notamment en ce qui concerne les critères explicites tout en conservant la notion centrale de texte. Dans cette étude, où le discours ne peut être dissocié du contexte dans lequel il se construit et s’interprète, nous considérons que la conception praxéologique de Rastier s’articule à notre positionnement théorique. En effet, il propose de définir le corpus en ces termes :

Un corpus est un regroupement structuré de textes intégraux, documentés, éventuellement enrichis par des étiquetages, et rassemblés : (i) de manière théorique réflexive en tenant compte des discours et des genres, et (ii) de manière pratique en vue d’une gamme d’applications. (Rastier, 2005c)

Dans sa définition, Rastier confirme que le corpus est et reste un ensemble de textes structuré et préparé pour l’analyse, cependant il ajoute un concept d’intégralité qu’il applique aux éléments constitutifs du corpus excluant ainsi le fragment de texte comme pouvant en faire partie. Dans la suite de cette étude, nous interprétons la notion d’intégralité ci-dessus présentée comme étant synonyme de la notion de complétude développée par Portugués (2011 : 122), et comprenons textes intégraux comme faisant référence à des textes complets.

Selon Rastier, l’organisation interne du corpus doit tenir compte des discours et des genres, il doit être représentatif d’une situation communicative choisie et présenter une certaine homogénéité pour garantir la spécification et la caractérisation de ses éléments constitutifs. Il apparaît donc important de disposer de critères déterminant l’appartenance ou non d’un texte au corpus. Dans la dernière partie de la définition de Rastier, le corpus apparaît comme une ressource, ce qui n’est pas sans rappeler Teubert (1996 : 240) qui affirme que « les corpus sont les ressources les plus adaptées pour les études empiriques sur le langage »74 ; le corpus n’est donc pas un outil de travail, mais bien notre objet d’étude structuré et organisé afin de représenter les phénomènes langagiers associés à une situation de communication précise. Pour respecter la notion d’homogénéité, déterminante selon Rastier (2001 : 92) : « tout texte placé dans un corpus en reçoit des déterminations sémantiques, et modifie potentiellement le sens de chacun des textes qui le composent » ; deux corpus francophones ont été construits dans cette étude : le corpus des visites-conférences francophones (CVCf) et le corpus des visites assistées (CVAf) qui représentent respectivement les situations de communication présentées

94

dans le Tableau 7 selon les critères établis par Biber (1993a : 245) auxquels deux paramètres de localisation et de durée ont été ajoutés.

Critères CVC CVA

Canal de production Oral Écrit

Canal d’énonciation Oral Oral

Format Ephémère Pérenne

Cadre Institutionnel Institutionnel

Destinataire Adultes Adultes

Pluralité Groupe Individuel

Présence Présent Absent pendant la production

Interaction Directe et synchrone Dispositif socio-technique et

asynchrone

Auteur Médiateur75 Professionnel

Énonciateur Médiateur Acteur

Factualité Informatif – factuel Informatif – factuel

Fonctions Décrire, informer, distraire Décrire, informer, distraire

Thème Visite médiée culturelle Visite médiée culturelle

Situation géographique France métropolitaine France métropolitaine

Période De 2010 à 2015 De 2010 à 2015

Tableau 7: Critères de sélection des situations de communication pour les corpus étudiés La majorité des critères présentés ont été définis dans la troisième partie du premier chapitre de cette étude, mais il est important de rappeler que tous les intervenants impliqués dans le processus de production et d’énonciation des discours sont des locuteurs natifs.

En parallèle à ces corpus francophones, nous avons choisi de conserver et présenter deux corpus hispanophones (CVCe et CVAe) malgré le déséquilibre engendré du fait des difficultés rencontrées lors des demandes légales d’autorisations pour la collecte des données associées aux visites-conférences. Les consentements obtenus ne nous ont pas permis de réunir un corpus CVCe en langue espagnole suffisamment conséquent pour être représentatif des phénomènes langagiers liés aux situations de communication choisies en contexte hispanophone. En effet, nous avons obtenu la coopération d’une seule médiatrice ayant l’espagnol comme langue

maternelle tout en étant spécialiste des sites touristiques de la ville de Barcelone ; il est, dans ce cas, intuitivement concevable qu’une personne dans un tel contexte catalan puisse ne pas être représentative d’une pratique ibérique76. Et, d’une manière plus rigoureuse, en considérant une approche statistique qui présente le corpus comme l’échantillon d’une population, deux erreurs apparaissent dans cet échantillon : « l’incertitude77 » et la « déformation78 » (Biber, 1993b : 219). L’incertitude est relative à la taille du corpus : un échantillon trop petit ne peut représenter toute une population ; la déformation intervient quand les caractéristiques de l’échantillon sont trop éloignées de celles de la population. Dans notre cas, la présence d’une seule source d’information et l’influence de la culture catalane dans notre échantillon ne sont pas représentatives de la population visée. Nous avons donc considéré que dans les corpus des textes hispanophones recueillis, aucune des deux erreurs n’a pu être suffisamment minimisée dans le corpus CVCe pour qu’il soit représentatif. Nous pouvons toutefois interroger ces textes par rapport aux résultats des analyses faites sur les corpus CVCf de langue francophone afin de confirmer ou infirmer si les phénomènes observés se reproduisent dans le contexte particulier du CVCe. Néanmoins, nous avons pu recueillir suffisamment de données pour le corpus CVAe dont nous comparerons les caractéristiques au corpus CVAf.

Charaudeau (2009 : 39) distingue trois types de corpus selon « une problématique dite cognitive, communicative ou représentationnelle. » Dans le cadre d’une problématique cognitive, « le corpus n’a pas besoin d’être finalisé en fonction d’une situation de communication particulière » (Charaudeau, 2009 : 49), car l’objet d’étude concerne les mécanismes discursifs de la langue. Pour une problématique communicative, l’objet d’étude empirique est déterminé par l’observation des comportements des intervenants au sein d’un échange social. L’un des objectifs de cette problématique est la description de situations communicatives spécifiques, le corpus est donc constitué de textes leur appartenant (2009 : 50). Dans la problématique représentationnelle, l’objet d’étude se réfère aux représentations socio-discursives à un moment donné, « le corpus est constitué d’un ensemble de ce que l’on appellera des signes-symptômes qui représentent de façon emblématique des systèmes de valeurs » (2009 : 53). Les objets de cette étude s’inscrivent ainsi dans une problématique communicative tout en représentant le discours d’un contexte professionnel spécifique utilisant une langue spécialisée.

76 Pour un approfondissement des notions de sociolinguistique liées à la Catalogne Cf. Lagarde (2008).

77 « Random error »

96

Il est important, à ce niveau, de différencier langue de spécialité et langue spécialisée afin de définir la typologie précise des corpus retenus. La norme ISO 1087, en 1990, se propose de définir la langue de spécialité comme un « sous-système qui utilise une terminologie et d’autres moyens linguistiques et qui vise la non-ambigüité de la communication dans un domaine particulier » (ISO 1087 : 1990). Il apparaît un concept de langues associées à tels ou tels domaines de spécialité, ayant la structure de « sous-systèmes » sans apporter de définition du système de référence, et sans indiquer en quoi ces sous-systèmes se différencient les uns des autres. En effet, le texte suggère l’existence d’un système par inférence sans aucune référence à une autre norme qui en donnerait la description. Il précise aussi que certains moyens linguistiques associés ou non à la terminologie permettent de décrire ces sous-systèmes qui visent « la non-ambigüité de la communication ». Même si cette norme a été révisée par deux fois, ce manque de précision se traduit au niveau didactique par une approche du domaine de spécialité au travers de la langue, décrite comme un système, et de sa terminologie associée. Le développement des objectifs spécifiques est alors le plus souvent réduit à l’étude d’un glossaire ou d’un catalogue de situations mettant en valeur des expressions stéréotypées. Lerat (1995 : 20) propose que la langue spécialisée soit plutôt définie comme « une langue naturelle considérée en tant que vecteur de connaissances spécialisées ». Cet abandon d’une conceptualisation systémique et structurelle se révèle être un changement de paradigme (Gautier, 2014a). Dans cette approche, la spécialité ne s’appréhende plus à travers la terminologie, mais par la réalité pragmatique du domaine. En didactique, les contenus d’enseignement proviennent d’une analyse du discours produit au sein des situations de communication propres à ce dernier. Cette définition associe la langue spécialisée à des connaissances spécialisées sans toutefois mentionner les compétences, ce qui sera revu dans la définition de Petit pour qui la notion de discours de spécialité disparaît complètement pour laisser place à un concept de discours spécialisé qui apparaît comme étant un élément constitutif du domaine considéré, lequel devient l’entité de référence :

Nous appellerons domaine spécialisé tout secteur de la société constitué autour et en vue de l’exercice d’une activité principale qui, par sa nature, sa finalité et ses modalités particulières ainsi que par les compétences particulières qu’elle met en jeu chez ses acteurs, définit la place reconnaissable de ce secteur au sein de la société et d’un ensemble de ses autres secteurs et détermine sa composition et son organisation spécifiques. (Petit, 2010 : 9)

Petit présente le domaine spécialisé comme ancré dans une activité qui demande la maîtrise de compétences particulières parmi lesquelles celles liées à la communication qu’il décline selon

trois formes discursives : le spécialisé académique (recherche sur le domaine) ; le spécialisé professionnel (activité propre du domaine) ; et le spécialisé « du troisième type » (hors activité spécialisée elle-même).

Ces considérations permettent de catégoriser les corpus d’étude comme étant des corpus spécialisés professionnels dont nous proposons la définition suivante : un corpus spécialisé professionnel est un objet d’étude linguistique structuré et documenté regroupant un ensemble de textes homogènes et spécialisés dont la complétude, de l’ensemble comme de ses éléments, rend compte d’une activité inscrite dans le domaine professionnel considéré.

Une fois mis en place le type de corpus et les critères de sélection des éléments constitutifs, il convient de présenter les textes retenus.

3.1.2. Constitution des corpus d’étude

Le caractère bilingue franco-espagnol des corpus spécialisés professionnels présentés peut orienter le lecteur sur l’idée que cette étude repose sur un corpus comparable tel que le définit Sinclair : « Un corpus comparable est celui qui est constitué d’une sélection de textes similaires dans plus d’un langage ou dans plusieurs variétés d’un même langage »79 (1996b : 12), et ce malgré les limitations de représentativité que nous avons soulignées pour le corpus CVCe. Ce type de corpus est généralement composé de textes partageant des caractéristiques communes comme le genre, le domaine, le thème, etc., sans être pour autant des traductions d’une langue à l’autre, ce qui dans ce cas constituerait un corpus parallèle. Un des avantages des corpus comparables est qu’ils réunissent des textes qui respectent les particularités linguistiques et culturelles de chaque langue en étant produit dans des situations de communication authentiques. Ainsi, le choix que nous avons fait d’interroger les textes du CVCe permet de vérifier la présence ou non de phénomènes observés dans le contexte particulier du CVCf et n’a pas pour objectif de faire une comparaison directe d’égal à égal entre ces deux corpus. Il est donc indispensable de garder à l’esprit la représentativité du corpus CVCe dans les analyses et les comparaisons effectuées. Nous avons, néanmoins, considéré que le corpus CVAe possède suffisamment d’informations pour comparer ses caractéristiques au corpus CVAf. Mais quand

98

est-il de la comparabilité entre les corpus au sein d’une même langue CVCf / CVAf et CVCe / CVAe ?

Comme le montre le Tableau 7 (p. 94), les textes constitutifs de ces deux corpus présentent de nombreuses similitudes tout en conservant un degré de différence qui permet une étude comparative de leurs caractéristiques. Dans la définition des corpus spécialisés professionnels introduite précédemment, Sinclair retient la notion de variété de langage comme critère de comparaison. Si la variété discursive associée aux deux situations d’énonciation sélectionnées pour cette étude présente suffisamment d’éléments comparables pour représenter une variété du langage associée à une situation d’énonciation déterminée, alors nous pouvons considérer que cette étude repose sur un corpus comparable entre deux discours professionnels différenciés par leurs modalités de production dont la forte comparabilité dépend de leurs spécificités, mais pas entre deux langues différentes. Cette considération ne remet pas en cause la définition de corpus comparable proposée par Sinclair, bien au contraire, elle élargit le concept même de variété. En effet, la variété d’un langage n’est, dans ce second cas, pas liée à une géolocalisation culturelle linguistique, mais bien à une pratique professionnelle spécifique. En résumé, la Figure 14 présente les deux axes de comparaison considérés entre les corpus compilés :

Figure 14 : Organisation du corpus d’étude

L’axe des abscisses représente la variété de pratiques professionnelles, dans notre cas les modalités de la visite-conférence et la visite assistée ; l’axe des ordonnées représente la différence de langue Français / Espagnol. La description du processus d’élaboration des corpus

CVCf CVAf

CVCe CVAe

variété de pratique professionnelle

di ff ér ent es l ang ues

met en évidence les spécificités liées à la modalité de production des textes de chaque corpus déterminant ainsi les deux tertium comparationis associés aux axes présentés.

Les textes constitutifs du corpus CVCf sont issus de la transcription80 d’enregistrements réalisés pendant l’activité professionnelle du médiateur en présence d’un groupe de visiteurs adultes. Une demande d’autorisation d’enregistrement a préalablement été déposée auprès des institutions pour avoir l’accord signé des médiateurs81. Au début de chaque session d’enregistrement, il a été laissé à la discrétion du médiateur le choix d’introduire ou non le chercheur et d’en expliquer la présence82. Pendant la session d’enregistrement, le chercheur était intégré au groupe de visiteurs tout en maintenant une distance avec le médiateur permettant une qualité d’enregistrement suffisante pour pouvoir effectuer ultérieurement la transcription tout en minimisant l’impact de l’enregistrement sur l’activité professionnelle et le discours produit. À cette fin, le matériel d’enregistrement choisi est un LS-100 Multi-Track Linear PCM Recorder de marque Olympus©, il est discret et permet un enregistrement de qualité en format « wav© » jusqu’à cinq ou six mètres de la source. Ce souci de discrétion a orienté le choix d’une capture audio et non vidéo du discours de l’activité professionnelle. Lorsque l’occasion s’est présentée, il a été expliqué aux visiteurs que seule la transcription et non l’enregistrement audio serait utilisée pour l’analyse, ce qui permet de garantir l’anonymat des visiteurs, cet anonymat étant respecté dans les conventions de transcription. Mis à part les interventions du chercheur directement sollicitées par les intervenants, il a été convenu que ce dernier n’intervienne pas de manière volontaire dans les échanges liés à l’activité enregistrée.

Le Tableau 8 présente les activités dont les textes ont été retenus pour intégrer le CVCf. Le corpus présente ainsi un total de 146055 mots.

80 Le logiciel Express Scribe version 5.57 a été utilisé pour toutes les transcriptions de l’étude.

81 Annexe 1 : Autorisation d'enregistrement

82 Un tel exemple issu du corpus est mentionné dans le paragraphe « 2.3 Modèle théorique du processus d’interprétation », sous les occurrences (U 37) à (U 42).

100 Nom du texte Lieu / Date Audio Transcription Thème Intervenants Annexe

Beaune de ville en cave Centre ville - Beaune / juin-2014 01:53:19 15403 mots Monuments beaunois 1 médiatrice (M5) Beaune visite gourmande Centre ville - Beaune / juin-2014 01:55:54 18631 mots Spécialités beaunoises 1 médiatrice (M6) + experts Musée de Bibracte Musée de Bibracte / mai-2014

01:57:27 21463 mots Nos ancètres les Gaulois 1 médiateur (M1) Arts et technique une évolution commune Musée des beaux-arts - Dijon / mars-2014 01:19:28 16266 mots « Arts et technique, une évolution commune » 1 médiatrice (M3) l'Europe vers 1500 Musée des beaux-arts - Dijon / mars-2014 01:12:58 13486 mots « L'Europe vers 1500 » 1 médiatrice (M2) Du réalisme au cubisme, naissance de la modernité Musée des beaux-arts - Dijon 00:52:05 10636 mots « Du réalisme au cubisme : naissance de la modernité » 1 médiatrice (M3) Oeuvre du mois (avril) Musée des beaux-arts - Dijon / avril-2014 01:06:26 12798 mots Dague et son étui 1 médiatrice (M4) Le siege de Dijon Musée des beaux-arts - Dijon / avril-2014 01:13:54 13213 mots « La tapisserie du siège de Dijon » 1 médiatrice (M2) Oeuvre du mois (mai) Musée des beaux-arts - Dijon / mai-2014 00:58:48 12616 mots Portrait de Victorine par Sophie Rude 1 médiatrice (M3) La femme au Moyen Âge Musée des beaux-arts - Dijon / mai-2014 01:11:41 11543 mots La femme au Moyen Age 1 médiatrice (M7)

Tableau 8: Transcriptions retenus pour le corpus CVCf

Afin d’être le plus fidèle possible au discours oral, la transcription doit observer une grande neutralité évitant ainsi d’être interprétative tout en étant sélective pour être fonctionnelle. Les phénomènes transcrits doivent être pertinents et cohérents avec les bases théoriques choisies par le chercheur. Les normes doivent être établies de manière claire, économique, simple, sans ambiguïté et compatibles avec les formats standards utilisés par des logiciels d’analyse de texte. Pour ce travail, il a été adopté une transcription orthographique s’inspirant fortement des conventions définies par le laboratoire DELIC (Blanche-Benveniste, 1990) avec une mention minimale des phénomènes acoustiques. En effet, l’incorporation d’informations phonétiques ou

phonologiques, même sommaires, dans la transcription semble difficile sans faire une étude prosodique préalable des enregistrements, ce qui ne correspond pas aux objectifs de cette étude et aurait pu générer un surplus d’information pouvant dénaturer l’analyse pour laquelle un alignement texte / son n’est pas indispensable. Nous avons donc considéré qu’au niveau de la ponctuation, seuls les points d’exclamation et d’interrogation devaient être conservés puisqu’ils ponctuent une réalité intonative alors que les autres signes de ponctuation sont une convention