Le Penn-Helsinki Parsed Corpus of Middle English : né à

Outils d’analyse : approche, méthode et source de données

IX) Le Penn-Helsinki Parsed Corpus of Middle English : né à

l’université de Pennsylvanie, il est une version annotée de textes (en moyen-anglais) compris dans la version diachronique du Helsinki Corpus. Les restrictions d’accès ne nous ont pas permis d’accéder facilement et intégralement à cette base de données. Néanmoins, après plusieurs demandes infructueuses, le département de linguistique de Penn University nous a enfin permis d’accéder à la version 1 du Pen-Helsinki Parsed Corpus of Middle English : PPCME 124. (La version complète et révisée n’étant disponible que sur le catalogue de l’ICAME).

En vue de compenser la limitation de nos sources de données sur le plan diachronique, nous avons néanmoins, – en plus de l’exploitation de l’OED, du Helsinki Corpus, du PPCME1 et du Brooklyn Corpus, fait appel à une série de sources liées au travail de Ellegård (1953) au sujet de la diachronie de DO. Nous avons aussi eu accès aux textes de Beowulf, aux fragments du Lindisfarne Gospel, à des œuvres de Chaucer et aux œuvres complètes de Shakespeare dans leurs versions originales respectives.

22_{Mention peut être faite du Dictionary of Old English (DOE) : grand de six fois la taille des oeuvres}

completes de Shakespeare, le DOE a été conçu par Angus Cameron en tant que dictionnaire historique (dans la même tradition que l’OED) et recouvre les textes (3037) écrits en anglais entre les années 600 et 1150. L’accès aux textes étant très restrictif, nous nous sommes contenté de l’OED qui n’en est qu’un équivalent en termes historiques.

23_{Nous remercions particulièrement le professeur Susan Pintzuk pour sa généreuse attention et sa}

disponibilité.

24_{Sa mise à disposition a été rendue possible grâce au professeur Anthony Kroch que nous remercions}

L’orientation de cette recherche restant synchronique, nous avons jugé utile d’exploiter statistiquement les textes contemporains en vue de déceler les orientations exploratoires liées à l’usage.

1.4.3 Exploitation statistique du corpus

La linguistique est la science statistique type ; les statisticiens le savent bien, la plupart des linguistes l’ignorent encore.

Pierre Guiraud.196025

L’application de la statistique et de l’informatique à l’étude d’ensembles de données textuelles est une démarche relativement récente qui se révèle fructueuse en termes d’analyse de corpus. Nées dans une perspective structuraliste, les premières applications statistiques ont vu le jour dans le domaine de la psychologie. De nos jours, il existe plusieurs modèles de distribution théorique (cf. l’analyse de la gamme de fréquence) entre lesquels le plus ancien est celui proposé par Zipf (1932) et développé par Yule (1944) – puis Yule & Kendall (1950)26 dans le cadre de la statistique lexicale. La gamme de fréquence (f) d’une variable étant conçue comme le rapport du nombre d’occurrences de cette variable (x) sur le nombre total de synonymes fonctionnels (occurrences (x) et non- occurrence (y)) – différent du nombre (n) de formes :

25_{Cité par Lebart & Salem (1994 : 16).} 26_{Sources :}

Zipf., G. Kinsley. Selected studies of the principle of relative frequency in language. Cambridge: HUP. Yule, G. & Kendall, M. An introduction to the theory of statistics. London: Charles Griffin.

Tournier, M. 1980. « D’où viennent les fréquences de vocabulaire ? » Mots, Paris : PFNSP, 1. 189-09 Diday, E. & Lebart, L. 1977. « L’analyse des données ». La Recherche, n° 74, 15-25.

(10)

y x x

f=100 avec ₊× l’écart type

n y

Les développements ultérieurs donneront lieu tour à tour à divers cadres théoriques comme la statistique linguistique, la linguistique statistique, etc. Dans le cadre francophone, les deux principales approches restent la statistique lexicale (développée par Maurice Tournier (1980), etc.) d’une part et la statistique textuelle (développée par Jean-Paul Benzécri (1981), Diday & Lebart (1977), Lebart & Salem (1994), etc.) d’autre part.

En statistique lexicale, « on part d’un corpus de taille T et d’une fréquence F constatée pour un certain vocable x ; on calcule à partir d’elle dans un échantillon quelconque de taille t une ‘fréquence théorique’ pour ledit vocable (il vaudrait mieux dire ‘espérance mathématique de la fréquence’). (…) La valeur théorique E (espérance) érigée en norme peut alors être comparée aux sous-fréquences réellement rencontrées f dans les fragments du corpus étudiés de même taille t que l’échantillon aléatoire. De là les calculs d’écarts E-f entre la norme et le constat, puis les tests sur ces écarts forment la base de la ‘statistique lexicale’. » (Tournier (1980)).

Quant à la statistique textuelle (ou analyse statistique des données linguistiques), elle s’intéresse initialement à l’analyse en terme_{s de facteurs} (hérités du domaine de la psychologie), puis l’analyse des correspondances (cf. la table des contingences) et le principe d’indépendance entre lignes et colonnes.

Notre démarche sera syncrétique dans le sens où elle s’inscrit dans la perspective de l’application des méthodes statistiques actuelles – la statistique quantitative et la statistique qualitative multidimensionnelle, à l’exploitation des banques textuelles. Pour cela, notre méthode d’analyse sera essentiellement lexicale et factorielle.

Par opposition aux méthodes de classification, les méthodes factorielles sont largement fondées sur l’algèbre linéaire ; ce qui produit des représentations graphiques sur lesquelles les proximités géométriques usuelles entre points-lignes et entre points-colonnes traduisent les associations statistiques entre lignes et entre colonnes (cf. Diday & Lebart (1977), Lebart & Salem (1994), etc.). Pour ce qui concerne la recherche autour d’une forme-pôle comme DO, – notamment la cooccurrence, notre recherche mettra aussi à profit les inférences des méthodes proposées par Lafon (1981), Labbé (1990)27, etc.

Sur le plan de l’application, nous serons souvent appelés à établir, à partir de la fréquence fi, la distribution de probabilité de DO (notée P) telle

qu’elle soit en mesure de satisfaire la condition algébrique suivante :

∑

= = m i i p 1 1 Sachant que : n n fi= (αi)

Dans cette formulation, n représente la taille du corpus ou de l’échantillon et n(αi) le nombre d’occurrences de la modalité αi dans cette

échantillon. m représente quant à lui le nombre total de modalités considérées et pi la probabilité de la i-ème modalité prise dans l’ensemble

de modalités A.

Lorsque notre analyse de la collocation l’exigera, nous étudierons les données de la co-occurrence en ayant recours aux probabilités conditionnelles et aux probabilités de transition.

27_{Labbé, D. 1990. Normes de dépouillement et procédures d’analyse des textes politiques. Grenoble :}

Autant que nous le pourrons, nous allègerons la présentation de notre analyse en évitant d’avoir très souvent recours aux formules mathématiques et statistiques. Cependant, nous nous permettrons de fournir des résultats d’opérations diverses lorsque ceux-ci s’avèreront pertinents pour notre démarche explicative.

En ce qui concerne l’analyse computationnelle des corpus – qu’ils soient dépouillés en formes graphiques, segmentés ou lemmatisés, nous avons eu recours à une analyse multifactorielle à partir de l’exploitation des programmes suivants :

- VARBRUL : contraction de l’anglais variable rule analysis, VARBRUL est un programme écrit – à partir de plusieurs programmes pour PC et compatibles IBM28, en PASCAL et en FORTRAN par David Sankoff, Pascale Rousseau, Don Hindle et Susan Pintzuk. Conçu pour une exploitation linguistique, il est un logiciel qui permet de faire l'analyse en « règles variables », de données linguistiques et qui sert à manipuler et à afficher ces données de diverses façons. Les données sont codées sous la forme de chaînes de caractères (tokens) de longueur n fixe. Ces chaînes représentent des occurrences de configurations de mots, structures et/ou sons dans le parler de la population d'où le corpus de données a été tiré. Parmi les n variables, une est dépendante et ne prend que deux valeurs discrètes, tandis que les n-1 autres variables sont indépendantes et à valeurs discrètes. On appelle ces dernières valeurs des facteurs. Le but de l'analyse est de déterminer le poids de chaque facteur, c'est-à-dire son influence sur la variable dépendante. L'analyse est du type régression logistique, qui fait l'estimation de la vraisemblance maximale par le biais de la méthode de Newton.

Nous avons exploité la version la plus récente par rapport au moment de nos investigations ; à savoir celle de 1992 (elle fonctionne sous MS- DOS ; et la version originale datant de 1978 a été mise sur pieds au Centre de Recherche Mathématique de l’université de Montréal).

28_{La version compatible Macintosh qui s’appelle GoldVarb est une adaptation compilée par David Rand.} GoldVarb est actuellement utilisée dans sa version 2.1.

- WordSmith Tools : considéré par ses auteurs comme un « lexical analysis software for data-driven learning and research », WordSmith Tools est un ensemble de programmes (un concordancier, un convertisseur de texte, un analyseur en mots-clés, etc.) pour le système d’exploitation Windows, édités par Mike Scott pour l’Oxford University Press. La version 4.0 (32 bits) étant encore en cours de finalisation, nous avons utilisé la version d’évaluation v.3.0 (16 bits, 1999) pour cette recherche29.

- TACT : abréviation de Text Analysis Computing Tools, TACT est un système de 16 programmes pour MS-DOS, conçus à l’université de Toronto par plusieurs équipes de recherche sous la direction de John Bradley. Il est « designed to do text-retrieval and analysis on literary works. Typically, researchers use TACT to retrieve occurrences of a word, word pattern, or word combination. Output takes the form of a concordance, a list, or a table. Programs also can do simple kinds of analysis, such as sorted frequencies of letters, words or phrases, type-token statistics, or ranking of collocates to a word by their strength of association ». Pour notre recherche, nous avons utilisé la version actuelle (2.1.4) qui date de 1995 (la version originale (v.1.0) datant de 1989).

La prise en compte des inférences quantitatives de la statistique lexicale et des critères formels de la statistique qualitative multidimensionnelle dans l’exploitation computationnelle des textes de notre corpus nous permettra de mettre en place une analyse quantitative et qualitative des emplois de DO. Ceci aboutira inéluctablement – en dernière analyse, à la mise en place des critères (probabilistes ?) de prédictibilité en termes d’évolution diachronique de DO dans le continuum anglais.

Malgré la richesse et les potentialités qu’offrent tous les outils statistiques mentionnés ci-dessus, c’est à dessein que nous éviterons de

29_{Nous avons complété l’exploitation partielle de WordSmith Tools par l’utilisation parallèle de}

MicroConcord compilé par Scott & Johns, et publié par OUP en 1993. « It is a concordancer, operating

on IBM PCs running DOS. DOS is faster than Windows but the number of concordance lines is limited to around 1,500, and you can't save a concordance except as a text file ».

faire de cette étude un manuel de statistique. A ce titre, nous ne mentionnerons que des résultats (et non les opérations) ; et ce, seulement lorsqu’ils seront réellement pertinents par rapport à notre démarche argumentative.

Avant toute argumentation, il convient de se préoccuper initialement des inférences théoriques liées à l’origine périphrastique de l’emploi de DO.

2

Dans le document SEMANTAXE ET GRAMMATICALISATION DE DO EN ANGLAIS: APPROCHE CONTRASTIVE (Page 50-58)