2.1.2.2 – L'approche quantitative - linguistique générale, qu'est-ce qu'un corpus ?

linguistique générale, qu'est-ce qu'un corpus ?

I. 2.1.2.2 – L'approche quantitative

L'approche quantitative pose comme premier postulat l'existence d'un corpus de taille importante (plusieurs millions de mots selon Sinclair en 1991). En effet, pour avoir une représentation importante d'un mot lexical, il faut obligatoirement avoir un corpus d'une grande taille. Cela tient essentiellement au fait que les mots se distribuent régulièrement dans les textes, et 50% des occurrences d'un texte ne sont présentes qu'à une reprise. La méthode scientifique élaborée par John Sinclair en lexicographie suit ce type d'approche, c'est en comparant les fréquences des mots, de leurs usages, que l'on peut élaborer des dictionnaires représentant avec davantage de précision la réalité de la langue. Il peut être plus utile pour un apprenant de connaître le sens le plus généralement employé d'un mot ou d'une expression que d'en avoir des sens, présentés dans un dictionnaire sans avoir d'information sur leur usage. L'approche quantitative permet d'avoir des informations précises sur ce qui est typique ou ce qui ne l'est pas dans la langue (Leech 2002:6).

Cette approche permet également d'apporter de nombreuses réponses aux questions soulevées en ingénierie de la langue, les étiqueteurs (dont CLAWS, dont il a été question précédemment) et une multitude d'autres outils sont des applications d'études statistiques sur la langue. Leech (2002:6-7) insiste sur le fait que le traitement automatique de la langue ne saurait se passer de ces méthodes statistiques.

I.2.1.2.3- La démarche « corpus-based »33

L'approche de type « corpus-based », ou déductive, considère le corpus comme un inventaire de données langagières. Il s'agit donc pour le linguiste d'en extraire le matériau approprié en fonction de sa recherche, ce qui va pouvoir venir conforter une intuition, vérifier certaines attentes, quantifier un phénomène linguistique et surtout, lui donner une assise supplémentaire en l'illustrant par des exemples authentiques issus d'un corpus, et donc en le prouvant. En fait, le corpus y est utilisé pour confirmer des ensembles de savoirs linguistiques déjà prêts. Comme le note Elena Tognini-Bonelli dans Corpus Linguistics At Work (2001), il s'agit d'une approche qui peut affiner la connaissance que l'on a déjà de la langue, mais qui ne peut pas révolutionner cette connaissance :

« In this case, however, corpus evidence is brought in as an extra bonus rather than as a determining factor with respect to the analysis, which is still carried out according to preexisting categories; although it is used to refine such categories, it is never really in a position to challenge them as there is no claim made that they arise directly from the data. » (Tognini-Bonelli 2001 : 66)34

Cette approche peut néanmoins être utile pour étudier des phénomènes linguistiques atypiques qui ont peu de chances d'apparaître dans les structures les plus présentes en terme de fréquence dans une langue. Cependant, elle pose le problème de risquer de passer à côté de certaines choses, en restant cloisonnée dans l'étude à la première hypothèse que l'on soumet au corpus :

« There might be a large number of potentially meaningful patterns that escape the attention of the traditional linguist; these will not be recorded in traditional reference works and may not even be recognised until they are forced upon the corpus analyst by sheer visual presence of the emerging patterns in a concordance page. » (Tognini-Bonelli 2001 : 86)35

33 La terminologie « corpus-based » « corpus-driven » vient du livre de Tognini Bonelli qui a mis en évidence ces deux types de démarches différentes.

34 « Dans ce cas, cependant, les preuves trouvées dans le corpus sont considérés comme des bonus plutôt que comme des facteurs déterminants de l'analyse, qui elle, est toujours menée selon des catégories pré-existantes ; bien que le corpus soit utilisé pour affiner de telles catégories, il n'est jamais en position de les défier, puisque qu'à aucun moment, on ne postule que ces catégories pourraient émerger directement des données. » (ma traduction)

I.2.1.2.4- L'approche « corpus-driven ».

Une autre approche existe dans le domaine de la linguistique de corpus, il s'agit de l'approche « corpus driven » ou inductive, exploratoire. Dans cette méthode, le corpus est considéré comme une base empirique à partir de laquelle les linguistes peuvent extraire des données et des phénomènes sans avoir une quelconque attente ou hypothèse préalable à leur recherche. Leur conclusion ne peut venir que de l'observation des données. Ce type de recherche se base dans un premier temps sur le corpus seul et non sur une introspection menée par le linguiste. L'étude porte donc sur un mot dont on en étudie les collocats et les concordances, afin de voir au sein de quel contexte, de quelles structures et avec quel usage ce mot apparaît généralement dans la langue étudiée. Cette méthode permet donc de mieux appréhender ce qui est véritablement typique (ce qui est répété dans des termes firthiens) dans une langue en ce qu'elle se base d'abord sur les résultats statistiques fournis par l'ordinateur et le corpus. Souvent, dans ce genre d'approche, la nature de ce qui est trouvé peut être sensiblement différente de ce à quoi s'attendait le linguiste (Sinclair 1991). Son intuition entre tout de même en compte puisque c'est à lui que revient la tâche d'interpréter les résultats statistiques.

« Some very common usages are often not featured in descriptions because they are so humdrum and routine; this method brings them to the fore. Especially in lexicography, there is a marked contrast between the data collected by computer and that collected by human readers exercising their judgement on what should or should not be selected for inclusion in a dictionary. » (Sinclair 1991:4)36

Cette interprétation peut mener à deux types de résultats : les résultats directs, qui sont donnés par l'analyse automatique des collocations d'un mot et qui montrent certains collocats comme étant statistiquement signifiants, et les résultats indirects, qui peuvent être obtenus en menant une analyse plus approfondie des collocations et des concordances, afin de faire ressortir des phénomènes moins saillants statistiquement, mais néanmoins révélés

linguiste traditionnel. Elles ne seront pas relevées dans les travaux habituels de référence et elles ne pourront seulement pas être reconnues tant qu'elles ne forceront pas la main à l'analyste de corpus par leur présence brute et visible de structure émergente au sein d'une page de concordances. » (ma traduction) 36 « Souvent, certains usages très communs ne sont pas marqués dans les descriptions car ils sont routiniers et

banals, cette méthode les met au premier plan. Plus particulièrement dans le domaine de la lexicographie, on note un fort contraste entre des données collectées par un ordinateur et celles collectées par un lecteur humain qui exerce son jugement sur ce qui devrait être sélectionné ou non pour être inclus dans un dictionnaire. » (ma traduction).

par le corpus. Cette approche semble alors plus fiable scientifiquement qu'une méthode où l'intuition serait à la base de la démarche de recherche, quand bien même l'intuition demeure cruciale, notamment lors de la phase d'interprétation des résultats (Sinclair 1991:4).

C'est en conséquence cette approche inductive et exploratoire qui a été adoptée lors des études menées au cours de cette thèse, influençant certaines des caractéristiques de la structuration du corpus, notamment. Le corpus sur lequel elle se base a été créé dans le cadre d'un projet de l'Union Européenne, IntUne, Integrated and United in an ever closer Europe. Ce projet a également influencé le mode de création, la composition, la structure et le type d'études menées sur le corpus, mais avant de détailler ces points, nous allons montrer que si les corpus peuvent prendre différentes formes et s'ils peuvent être étudiés selon différentes approches, ils peuvent également connaître quelques limites.

Dans le document Représentation et construction d'une identité européenne à travers la presse française. Une étude en linguistique de corpus au sein d'un projet de l'Union Européenne. (Page 61-64)