• Aucun résultat trouvé

L’avènement des grands corpus en linguistique remet en question les recherches s’appuyant exclusivement sur des exemples pris à la volée ou construits de toute pièce afin d’illustrer des hypothèses. Désormais, le volume des données authentiques disponible pour le

chercheur permet à la fois une conception nouvelle de l’objet scientifique et de ses théories.

Toutefois, il convient de distinguer deux approches méthodologiques sur ces corpus : la linguistique de corpus et la linguistique avec (ou sur) corpus. De plus, il convient de garder à

l’esprit que ces bases de données certes présentent de nombreux avantages mais ont aussi

leurs limites. Les occurrences analysées dans cette thèse (cf. chapitres VII et VIII) proviennent de conversations orales spontanées, ce qui pose en amont une réflexion

concernant les différences entre parlé et écrit. Le présent chapitre s’attache à définir ce qu’est

le corpus en linguistique et à discuter la place qui peut lui être accordée (section 1) ; l’oral et l’écrit sont également cernés selon leurs ressemblances et leurs divergences (sections β et γ) ;

enfin, les sections 4 et 5 présentent les projets PFC74 (Phonologie du Français Contemporain) et PAC75 (Phonologie de l’Anglais Contemporain), d’où sont extraites les données analysées

dans les chapitres VII et VIII, et offrent des perspectives pour l’annotation micro- et

macro-syntaxique des textes oraux en contexte de conversations spontanées.

1. Quelle place accorder aux corpus en linguistique ?

1.1. Définition du corpus

Un corpus tel que nous l’entendons est un ensemble de textes authentiques, oraux ou écrits, présélectionnés selon l’usage auquel ils sont destinés et représentatifs d’une ou plusieurs langues. Un corpus n’est pas un simple amas de données en ce qu’il est structuré, ne

serait-ce que par le choix des textes qui le composent. Afin d’être utile à une communauté de chercheurs et non pas au seul individu qui l’a monté, un corpus est idéalement annoté à des

fins spécifiques.

74

Cf. Durand, Laks & Lyche (2002, 2009).

75

150

1.2. Les enjeux épistémologiques de l’utilisation des corpus en linguistique

Longtemps, une conception trop radicale du dualisme saussurien – interprété à partir

du fameux Cours posthume – a fait de la linguistique une science de la langue et non de la

parole. Ainsi, les énoncés idiosyncrasiques produits par le sujet parlant ne faisaient pas partie

du domaine d’étude, mais relevaient de sciences hybrides et connexes telles que la psycholinguistique ou la sociolinguistique. Les analyses linguistiques s’effectuaient alors hors

corpus, car les ‘bruits’ qui jalonnent les données authentiques – hésitations, reprises, amorces,

syntaxe non canonique, etc. – gênaient le théoricien. Le représentant de la linguistique hors

corpus est bien entendu Chomsky et sa GG, dont les postulats et les règles trop puissantes

s’accordent difficilement à l’étude de la performance langagière. Aujourd’hui, la situation est

tout autre : il existe de moins en moins de linguistes travaillant sans corpus. Nous passons

donc de l’étude ‘sans corpus’ vs ‘avec corpus’, à la linguistique ‘sur corpus’ vs ‘de corpus’.

Cette différence relève de deux conceptions du corpus et de la place que celui-ci occupe au

sein de la méthodologie employée. En effet, s’il est indéniable qu’un corpus est un

observable, il peut être envisagé comme le reflet d’une théorie a priori ou comme un observé dynamique qui permet de décrire dans un premier temps puis d’élaborer des modèles a posteriori. Ces deux pôles correspondent aux méthodes déductive et inductive de la formation des hypothèses et de la construction des modèles, dualité que Tognini-Bonnelli (2001)

exprime par ‘corpus-based’ vs ‘corpus-driven’. Toutefois, cette distinction ne peut être aussi tranchée qu’elle le paraît, selon nous ; si la déduction radicale est à proscrire – au risque de tomber dans l’écueil de chercher à tout prix les exemples qui confortent la théorie a priori – l’induction pure semble aussi difficilement concevable que ne l’est le vide absolu : l’intuition76

est inévitable et préexiste à la recherche de tout phénomène.

1.3. Les avantages et les limites de l’utilisation des corpus en linguistique

Nous pouvons reconnaître de nombreux avantages à l’utilisation des corpus. Tout d’abord, les corpus permettent d’analyser des données réelles ; ce point pourrait paraître évident, mais la description d’énoncés authentiques contraint le chercheur à considérer ces fameux ‘bruits’ (cf. ce chapitre, section 1.β), soigneusement évités si les études se basent sur

76 L i tuitio peut t e d fi ie o e ta t u e h poth se ui se p se te à l esp it a e la la t d u e évidence, qui servira alors de fondement au aiso e e t s ie tifi ue. L i tuitio hez les ho sk e s correspond plutôt à des jugements (grammaticalié, synonymie, etc.).

151

des exemples sélectionnés, voire forgés. Force est alors de constater que la langue n’est pas un

carcan prescriptif mais un observable dynamique77. Dès lors, la finalité n’est pas de s’obstiner à prouver la véracité d’une théorie possiblement mal adaptée à la langue telle que nous l’employons au quotidien, mais de dégager des normes parmi la variation observée. Ces

normes, justement, font le lien entre langue et parole, entre système et usage, entre règles et variation. Enfin, les corpus autorisent une réflexivité de la recherche : c’est en confrontant nos

intuitions théoriques aux données authentiques que nous pouvons confirmer ou infirmer nos hypothèses.

N’en déplaise à Leibniz – Pangloss pour les férus de Voltaire – « tout [n’]est [pas]

pour le mieux dans le meilleur des mondes possibles » : les corpus ont leurs limites. D’un côté, il est peu probable de trouver toutes les occurrences rencontrées ‘dans la vraie vie’ au sein d’un seul et même corpus, voire dans plusieurs : par exemple, le pronom anglais them en

tant que déterminant démonstratif – comme dans Them two had better watch it! – n’apparaît pas dans notre corpus d’étude ; néanmoins, cet emploi est bel et bien attesté dans certains registres ou certaines variétés de l’anglais qui restent à circonscrire. A l’inverse, dure serait la

tâche du linguiste désirant rendre compte de chaque particularité langagière observée. La difficulté est de trouver la juste mesure entre le désir de confirmer nos intuitions par la confrontation aux corpus et la nécessité de ne pas exclure les occurrences qui pourraient contredire nos hypothèses. Ce compromis rejoint celui à atteindre entre approche quantitative et approche qualitative. En effet, il est légitime de penser que l’utilisation des corpus tendrait

vers des études quantitatives, au risque de négliger le qualitatif : avec de grands corpus, certains exemples particulièrement intéressants à considérer pourraient être noyés. Une issue serait peut-être de privilégier le qualitatif dans un premier temps, avant d’étendre les

recherches sur des corpus plus larges afin de vérifier la tendance.

2. L’oral et l’écrit

2.1. L’oral et l’écrit, deux facettes d’une même pièce

L’oral et l’écrit peuvent sembler bien différents, tant dans leur matérialisation linguistique que dans leur conception. En effet, s’il est évident que le médium employé les

oppose – l’oral est régi par les sons, l’écrit par le signe graphique –, il en va de même pour la

77

152

portée communicative de l’énoncé. Faut-il pour autant séparer ces deux modes de

production ? A l’origine de ce questionnement réside sans nul doute la dichotomie entre

langue et parole introduite par Saussure, mais aussi la relation qu’il envisageait entre oral et

écrit :

« Langue et écriture sont deux systèmes de signes distincts : l’unique raison d’être du second est de représenter le premier ; l’objet linguistique n’est pas défini par la

combinaison du mot écrit et du mot parlé ; ce dernier constitue à lui seul son objet.

Mais le mot écrit se mêle si intimement au mot parlé dont il est l’image, qu’il finit par usurper son rôle principal ; on en vient à donner autant et plus d’importance à la représentation du signe vocal qu’à ce signe lui-même. C’est comme si l’on croyait que pour connaître quelqu’un, il vaut mieux regarder sa photographie que son visage. »

(Saussure, 1916[1972] : 45).

Ce point de vue est partagé par Bloomfield, qui l’expose de manière plus radicale encore :

« Writing is not language but merely a way of recording language by means of visible marks. » (1933: 21).

Cette primauté de l’oral sur l’écrit s’explique par nombre d’arguments phylogénétiques et ontogénétiques (cf. Durand, β000) qui confèrent à l’oral une vertu ‘naturelle’, contrairement à celle, artificielle, de l’écrit. Cependant, la linguistique moderne naquit à contre-courant de la

tradition normative pré-structuralisme, qui ne considérait que les belles lettres comme dignes

d’intérêt. Il faut dire que les données écrites étaient facilement collectées et étudiées, à l’ère où le matériel d’enregistrement n’avait pas encore vu le jour.

Néanmoins, bien que l’oral soit premier, du point de vue du développement à l’échelle humaine et individuelle, il n’en souffre pas moins d’une certaine dévalorisation par rapport à l’écrit. En effet, contrairement à ce dernier, qui peut être réfléchi, révisé, corrigé, l’oral a la particularité d’être ineffaçable : « ce qui est dit est dit ». Ainsi, l’oral spontané est ponctué d’hésitations, de reprises, d’inachèvements. Le concept même de phrase peut sembler peu pertinent, tant il est difficile de trouver, au sein d’une conversation, la suite canonique

« syntagme nominal + syntagme verbal » (cf. Rossi-Gensane, 2010 à ce sujet). Il en résulte

que la phrase est de plus en plus délaissée par les spécialistes de l’oral, au profit d’unités

153

‘clause’* (Berrendonner, 1990). Ces noyaux ou ces clauses peuvent alors se combiner pour former des unités plus larges, appelées ‘regroupement’* ou ‘période’* ; ces unités dépassent le seuil de rection d’un seul verbe et relèvent alors de la macro-syntaxe*. Toujours est-il que l’oral n’en est pas pour autant moins structuré que l’écrit. Halliday (1985), pour ne citer que

lui, souligne que l’écrit et l’oral sont deux systèmes à part entière, régis par des règles, avec

une complexité qui leur est propre. Seulement, un tel jugement, s’il n’est pas nuancé,

sous-entend que ces deux modes de production sont diamétralement opposés. De plus, cela

supposerait qu’il n’existe qu’un seul oral et qu’un seul écrit. Or, il n’en est rien.

2.2. Le genre et la visée communicative

Selon nous, l’écrit et l’oral ne peuvent être appréhendés comme deux systèmes dichotomiques. En effet, qu’entendons-nous par ces termes ? Une œuvre de littérature

classique pour le premier ? Une conversation libre pour le second ? Que faire alors des

articles de presse, des lettres entre amis, d’un discours politique ou bien du cours monologique d’un professeur ? Et, de nos jours, comment classer les emails, textos et autres

twitts ? De toute évidence, le rapport entre écrit et oral semble plus complexe qu’une simple

division manichéenne.

Une des différences majeures entre le texte écrit et le texte oral, qui pourrait sembler évidente, est la distance, ou, au contraire, l’adéquation spatio-temporelle entre le destinateur et le destinataire. En effet, seule la représentation d’un échange conversationnel au sein d’un

texte écrit serait en mesure de manifester une concordance spatio-temporelle entre les actants.

Un autre critère qui pourrait sembler discriminatoire entre l’écrit et l’oral est celui de la

réciprocité : si les allocutaires d’une conversation participent l’un et l’autre à l’échange, il n’en est pas de même pour le scripteur et le lecteur, ce dernier n’étant que le bénéficiaire, en

quelque sorte, du discours représenté. Seulement, tous les textes oraux ne sont pas des conversations, et la réciprocité est probablement bien moindre entre un professeur et ses

élèves lors d’un cours académique, et même inexistante lors d’une allocution politique. L’œuvre majeure et pionnière qui sonne le glas de cette vision bipartite de l’écrit et de l’oral est sans nul doute l’étude de corpus effectuée par Biber (1988 ; 1995), ayant pour objectif de

définir, de manière inductive, une typologie des textes selon différents traits linguistiques et communicatifs qui les caractérisent. Voici, à titre d’exemple, les quatre principaux registres

que Biber a sélectionnés pour le Longman Student Grammar of Spoken and Written English (2002 : 13) :

154

Conversations Fiction News Academics

Mode Spoken Written Written Written

Interactiveness and real-time production

Yes Restricted to

fictional dialog No No

Shared situation Yes No No No

Main communicative purpose/content Personal communication Pleasure

reading Information or evaluation

Argumentation or explanation Audience Individual Wide-public Wide-public Specialist

TABLEAU 4 :LES QUATRE PRINCIPAUX REGISTRES SELON BIBER (2002 :13)

Il en résulte – entre autres choses, bien sûr – que de la variation, notamment

morphosyntaxique, existe en fonction du genre pris en compte, mais est également notoire au

sein d’un même genre. Ainsi, si l’oral spontané peut être limité sur le plan lexical, privilégie

une structure paratactique et nécessite un grand nombre de calculs inférentiels de la part de

l’allocutaire, il n’en est pas de même pour l’écrit publié très normatif, qui se caractérise,

notamment, par une densité lexicale accrue et des relations de cohérence morphologiquement

marquées. Cependant, le monologue oratoire d’un politicien partage sans doute certaines

caractéristiques morphosyntaxiques de l’écrit, tandis qu’un e-mail envoyé à un ami rappelle

probablement, par de nombreux aspects, les propriétés de l’oral spontané. De même, la

proximité communicative est différente selon le genre : élevée dans une conversation familière entre proches, moindre lors du cours d’un professeur à ses élèves, nulle ou quasi nulle lors d’un discours oratoire. Cappeau (2001), Deulofeu (2000) et Gadet (2003), par

exemple, perpétuent cette quête des genres, en ce qui concerne le français. De cette grande

variété découle une conception graduelle de l’écrit et de l’oral (Blanche-Benveniste, 1997 ;

McCarthy, 2001), sans doute préférable à une opposition binaire entre ces deux modes de production :

Publications académiques Conférences Lettres personnelles entre amis Conversations spontanées

+ -

155

Publications académiques Conférences Entretiens Conversations spontanées Lettres personnelles entre amis

- +

FIGURE 24 :LIMPLICATION INTERPERSONNELLE SELON LE GENRE : UN CONTINUUM

Nous voyons alors l’importance d’un modèle interactionnel de la communication : que les

participants soient en adéquation spatio-temporelle ou non, il y a toujours un émetteur et (au moins) un bénéficiaire ; ainsi, nous devons prendre en compte l’énonciateur, le destinataire, mais aussi le calcul que chacun d’eux effectue afin d’être compris par l’autre. La différence

selon le genre se manifeste sans nul doute dans les expressions langagières employées : il

nous semble évident que, lors d’une conversation spontanée en face à face, le contexte, notamment situationnel, joue un rôle plus important que lors de la lecture d’un texte écrit

quelconque ; nous pouvons donc supposer que le facteur contextuel comblerait le déficit

lexical dans le fonctionnement référentiel de l’oral conversationnel. Ce dernier point nous amène à une autre réflexion et nous fait comprendre pourquoi ‘contexte’ et ‘co-texte’ sont

parfois amalgamés (cf. chapitre IV, section 2.3). Ce qui pourrait engendrer cette confusion est

qu’il est impossible à l’oral de revenir sur le texte, à cause de sa non-persistance78

. Ainsi, dès lors que nous souhaitons revenir sur ce qui a été dit, il faut effectuer un retour mental dans

l’univers du discours, et non pas dans le texte lui-même. Bien entendu, cette non-distinction entre ‘contexte’ et ‘co-texte’ résulte d’un paramètre supplémentaire : l’étude de l’oral se base

sur des transcriptions. Par conséquent, le linguiste est forcément influencé par le médium écrit. La solution serait de se détacher de ce support, autant que faire se peut ; ne pas se concentrer sur la matière linguistique mais sur les objets sémantiques et les phénomènes pragmatiques induits par le choix des structures langagières.

78 Noto s i i u il est possi le de e o e au te te lui- e, o e l illust e t les e e ples suivants :

Comment tu écris ça/ce mot/rhododendron ? Que veut dire ce regard ? ; néanmoins, cette référence au texte

156

3. Structure du texte, structure du discours

Selon nous, comme nous venons de l’évoquer, il est important de considérer la

structure du discours en fonction de la matière textuelle, et non pas la structure du texte per se. L’articulation du discours est l’objet de bon nombre d’études (cf. entre autres Adam,

2005 ; Brown & Yule, 1983 ; Roulet, Filliettaz, Grobet & Burger, 2001), mais nous insistons

sur la distinction entre ‘discours’ et ‘texte’, une fois de plus, en vue de bien séparer les

niveaux, les mécanismes régissant chacun d’eux et les paramètres qui relient ces deux notions. Afin de cerner ce qu’est la structure discursive, il suffit d’inscrire les notions abordées au

chapitre IV – deixis et anaphore notamment – dans une optique d’organisation cognitive. Ainsi, la deixis serait un moyen disponible pour l’énonciateur de diriger l’attention de son

allocutaire vers un nouvel objet-de-discours tandis que l’anaphore permettrait de continuer la référence d’un objet sémantique quelconque hautement saillant dans la conscience de l’allocutaire. Cet objet hautement saillant est appelé ‘topique’* et se caractérise de la manière

suivante :

« Le topique se définit comme une information (un référent ou un prédicat) identifiable et présente à la conscience des interlocuteurs, qui constitue, pour chaque acte79, l’information la plus immédiatement pertinente liée par une relation d’à propos avec l’information activée par cet acte. » (Grobet, 2002 : 96)

Bien entendu, l’enjeu de notre étude est de cerner les paramètres contextuels qui interviennent

dans ces procédures : contextes situationnel, discursif, savoirs encyclopédique et partagé. Schématiquement parlant, nous serions encline à prédire que la deixis se trouve à l’initiale d’un ensemble cohésif de discours, au contraire de l’anaphore qui tisserait les liens internes à l’ensemble considéré : la deixis serait aux articulations du squelette anaphorique. La relation

entre deixis, anaphore, structure discursive et structures langagières fait écho aux échelles

d’Ariel et Gundel et al. (cf. chapitre IV, section 2.5) : si les expressions définies codent un

référent à faible accessibilité (Ariel, 1988) ou uniquement identifiable (Gundel et al., 1993),

79L a te est a a t is de la a i e sui a te : « L a te est défini comme la plus petite unité délimitée de part et d aut e pa u passage e oi e dis u si e, da s le se s de Be e do e . […] Le passage e oi e dis u si e est a u e pa ti ulie pa la possi ilit d utilise i diff e ment comme anaphore un pronom ou une expression définie pour indiquer la coréférence. » (Roulet, 1999 : 210 - . D fi i ai si, l a te

157

elles auraient tendance à instancier un point d’articulation du discours, alors que les pronoms

de troisième personne seraient le support du squelette anaphorique. Une hiérarchie possible

des expressions langagières dans l’organisation du discours est proposée par Dik (1997) et

notamment reprise par Cornish (1998) ; seulement, cette structure s’applique aux textes écrits mais s’avère insuffisante pour l’oral conversationnel, en raison de la variation lexicale entre les deux genres et de l’intervention prépondérante du contexte dans la communication

verbale. Dik (1997 : 215-228) propose un modèle à n-maillons pour structurer le discours :

- Le premier maillon est la position remplie par le déclencheur d’antécédent (cf.

chapitre IV, section 2.5). Ce premier maillon introduit un « Topique Nouveau »80 ou réinstalle un « Topique Ancien » sous la forme d’un nom propre, d’un SN indéfini, voire d’un SN défini, mais jamais sous la forme d’un clitique ou d’une ellipse ;

- Le deuxième maillon confirme le « Topique Nouveau », nommé alors « Topique Repris », qui sera par la suite un « Topique Donné ». Ce deuxième maillon est instancié par les démonstratifs sous toutes leurs formes, parfois par des pronoms personnels ;

- Le troisième maillon occupe toutes les positions après la seconde. Les n-maillons sont instanciés par des clitiques ou des ellipses, tant que le référent évoqué est un « Topique Donné ».

Pour illustration, inventons une suite calquée sur un début de conte pour enfants classique,

comme l’exemple (10) du chapitre IV :

(1) Il était une fois un homme qui vivait avec ses trois fils. Cet homme était bon et aimé