• Aucun résultat trouvé

Classification interne du groupe bantoïde

N/A
N/A
Protected

Academic year: 2021

Partager "Classification interne du groupe bantoïde "

Copied!
161
0
0

Texte intégral

(1)

- - -

- - -

Dépôt Institutionnel de l’Université libre de Bruxelles / Université libre de Bruxelles Institutional Repository

Thèse de doctorat/ PhD Thesis Citation APA:

Piron, P. (1996). Classification interne du groupe bantoïde (Unpublished doctoral dissertation). Université libre de Bruxelles, Faculté de Philosophie et Lettres, Bruxelles.

Disponible à / Available at permalink : https://dipot.ulb.ac.be/dspace/bitstream/2013/212340/3/c9a115f6-f6d2-4b4c-aea7-4c728bb4cdd5.txt

(English version below)

Cette thèse de doctorat a été numérisée par l’Université libre de Bruxelles. L’auteur qui s’opposerait à sa mise en ligne dans DI-fusion est invité à prendre contact avec l’Université (di-fusion@ulb.be).

Dans le cas où une version électronique native de la thèse existe, l’Université ne peut garantir que la présente version numérisée soit identique à la version électronique native, ni qu’elle soit la version officielle définitive de la thèse.

DI-fusion, le Dépôt Institutionnel de l’Université libre de Bruxelles, recueille la production scientifique de l’Université, mise à disposition en libre accès autant que possible. Les œuvres accessibles dans DI-fusion sont protégées par la législation belge relative aux droits d'auteur et aux droits voisins. Toute personne peut, sans avoir à demander l’autorisation de l’auteur ou de l’ayant-droit, à des fins d’usage privé ou à des fins d’illustration de l’enseignement ou de recherche scientifique, dans la mesure justifiée par le but non lucratif poursuivi, lire, télécharger ou reproduire sur papier ou sur tout autre support, les articles ou des fragments d’autres œuvres, disponibles dans DI-fusion, pour autant que :

Le nom des auteurs, le titre et la référence bibliographique complète soient cités;

L’identifiant unique attribué aux métadonnées dans DI-fusion (permalink) soit indiqué;

Le contenu ne soit pas modifié.

L’œuvre ne peut être stockée dans une autre base de données dans le but d’y donner accès ; l’identifiant unique (permalink) indiqué ci-dessus doit toujours être utilisé pour donner accès à l’œuvre. Toute autre utilisation non mentionnée ci-dessus nécessite l’autorisation de l’auteur de l’œuvre ou de l’ayant droit.

--- English Version ---

This Ph.D. thesis has been digitized by Université libre de Bruxelles. The author who would disagree on its online availability in DI-fusion is invited to contact the University (di-fusion@ulb.be).

If a native electronic version of the thesis exists, the University can guarantee neither that the present digitized version is identical to the native electronic version, nor that it is the definitive official version of the thesis.

DI-fusion is the Institutional Repository of Université libre de Bruxelles; it collects the research output of the University, available on open access as much as possible. The works included in DI-fusion are protected by the Belgian legislation relating to authors’ rights and neighbouring rights.

Any user may, without prior permission from the authors or copyright owners, for private usage or for educational or scientific research purposes, to the extent justified by the non-profit activity, read, download or reproduce on paper or on any other media, the articles or fragments of other works, available in DI-fusion, provided:

The authors, title and full bibliographic details are credited in any copy;

The unique identifier (permalink) for the original metadata page in DI-fusion is indicated;

The content is not changed in any way.

It is not permitted to store the work in another database in order to provide access to it; the unique identifier (permalink) indicated above must always be used to provide access to the work. Any other use not mentioned above requires the authors’ or copyright owners’ permission.

(2)

Université Libre de Bruxelles Faculté de Philosophie et Lettres Section de Linguistique Africaine

Classification interne du groupe bantoïde

volume 3

Pascale PIRON

Dissertation originale présentée

en vue de l'obtention du titre de Promoteur : Docteur en Philosophie et Lettres Prof. Claire GREGOIRE

Année académique 1995-1996

(3)

Université Libre de Bruxelles Faculté de Philosophie et Lettres Section de Linguistique Africaine

Classification interne du groupe bantoïde

volume 3

Pascale PIRON

Dissertation originale présentée

en vue de l'obtention du titre de Promoteur :

Docteur en Philosophie et Lettres Prof. Claire GREGOIRE

Année académique 1995-1996

(4)

TABLE DES MATIERES

Volume 1 : pages 1 à 251 Volume 2 : pages 252 à 532 Volume 3 : pages 533 à 685 TABLE DES ILLUSTRATIONS

3. METHODE LEXICOSTATISTIQUE 533 3.1. Introduction ..' 533

3.2. Glottochronologie et chronologie relative 533 3.3. Choix de la liste de mots 534

3.3.1. Vocabulaire de base ou vocabulaire culturel et technique 534 3.3.2. Longueur de la liste de vocabulaire de base 534

3.3.3. Irrégularité du remplacement lexical 536 3.3.4. Classiflcation synchronique 536

3.4. Méthode comparative et lexicostatistique 537 3.5. L'impact du tabou 538

3.6. Qualité des listes lexicostatistiques 538 3.7. La méthode des innovations partagées 539

3.7.1. Introduction 539

3.7.2. Innovations lexicales 539

3.7.3. Complémentarité des méthodes : lexicostatistique et recherche d'innovations 541

3.7.4. Innovations phonologiques 542

3.8. Lexicostatistique, méthode comparative et statistique grammaticale 542 3.9. La lexicostatistique : un compromis entre la fin et les moyens 543 3.10. Présentation de la méthode lexicostatistique 544

3.10.1. Programme informatique LEXISTAT 544 3.10.2. Voisin le plus proche 544

3.10.3. Voisin le plus éloigné 546 3.10.4. Moyenne de groupe 546

3.11. Langues introduites dans le calcul lexicostatistique 546 3.11.1. Objectif et contexte de l'enquête 546

3.11.2. Sélection des langues 547

3.11.3. Langues bantoues sélectionnées pour le calcul lexicostatistique 549 3.11.4. Liste des langues bantoïdes non bantoues envisagées 553

3.11.5. Identification des langues 556

Classement des langues par ordre alphabétique 557 Classement des langues par numéro identificatoire 558 4. COMMENTAIRES DES RESULTATS LEXICOSTATISTIQUES 561

4.1. Introduction 561 4.2. Groupes stables 563

4.2.1. Introduction 563

4.2.2. IDENTIHCATION DES GROUPES STABLES 563 4.2.2.1. Listes portant sur un même dialecte 563

Groupe TIVOiDE 563

tiv (a) et (b) : FN 90% .563 Groupe BAMILEKE 564

fe'fe' (a) et (b) : FN 88% 564 ghomala' (a) et (b) : FN 85% 564 yemba (a) et (b) : FN 87% 564 4.2.2.2. Ensembles dialectaux 564

Groupe EKOÏDE 564

nnam et ekajuk (TU) : FN 97% 565

abanyom, nnam et ekajuk (QTU) : FN 87% 565 nkim et nkumm (RS) : FN 96% 565

Table des matières

(5)

efutop, nde, nselle et nta (MNOP) : FN 93% 565 bendeghe (F) et ejagham : FN 97% 565

ekparabong et balep (AB) : FN 90% 565 Groupe NYANG 565

bas-kenyang et haut-kenyang : FN 91% 565 Groupe RING 565

kom, kom-mbizinaku et kuo : FN 90% 565

aghem-wum, aghem-weh et aghem-isu : FN 92% 566 Groupe NGEMBA 566

bambili et bafut : FN 85% 566 mankon et awing : FN 86% 566 4.2.2.3. Groupes de langues 566

Groupe MAMBILOÏDE 566

wawa, vute-mbanjo, vute-yoko 566 konja-sundani et konja-ndung 567 mambila-atta et mambila-warwar 568 Groupe TKAR 569

twumwu et tikar-akuen 569 Groupe JARAWAN 570

Groupe TIVOÏDE 572

batu (3 langues) et buru 572 batu-anwe et buru 572

batu-amanda et batu-kamino 573 esimbi et ipulo 573

Groupe mbe+EKOÏDE 574

Groupe GRASSFŒLDS ELARGI 577 RING 579

Groupe NORD 581

limbum et nde yulana 581 mfumte et de wungtse 581

Groupe MBAM-NKAM : BAMILEKE, NOUN.

NGEMBA 581

BANTOU du MBAM : A60+nen 585 A51-A53 588

A+B20 589 B10-B30 592 4.3. Groupes valides 594

Introduction 594

Groupe MAMBILOÏDE 594 nizaa+wawa+vute 595 mambila-t-konja 595 Groupe noni+TIVOÏDE 597

Groupe TIVOÏDE 597 NYANG+EKOÏDE 600

EKO'ÏDE : efutopf nde+nselle+nta+abanyom+nnam+ekajuk (MNOP+QTU) 602

RING OUEST+CENTRE : babanki, kom, kuo, mmen, bum, bu et aghem 602 Groupe EST-GRASSFŒLD 602

Groupe NORD .604 shupamem+mungaka 606 fe'fe'+medumba 606 pinyin+bambili+bafut 606 Groupe A50 606

Autres groupes valides du BANTOU du NORD-OUEST 609 4.4. Langues flottantes 609

Groupe flottant : TIKAR 611 4.5. Seuil d'interprétation 613 5. CONCLUSION GENERALE 614

Table des matières

(6)

5.1. Introduction 614

5.2. Classification interne du groupe bantoïde 614

Groupe bantoïde : identification des groupes principaux 614 Classification interne des groupes principaux 620

Bantoïde nord 620

1 et 2. fam et tiba 620 S.Dakoïde 620 4. Mambiloïde 622 Mambiloïde et tivoïde 622 Bantoïde sud 624

Composition du groupe bantoïde sud 624 Absence ou présence de noeud bantou 626

Subdivisions principales du bantoïde sud non bantou et du bantou du nord-ouest 629

Classification interne du bantou du nord-ouest 630 Classification interne du bantoïde sud non bantou 631 Branche tikar 633

5.3. Orientation des recherches futures 634 6. BIBLIOGRAPHIE 638

7. INDEX DES LANGUES 659

8. ANNEXE : MATRICE DE SIMILARITE LEXICALE 673

Table des matières

(7)

TABLE DES ILLUSTRATIONS

Volume 3

Chapitre 3 : Méthode lexicostatistique

Carte : répartition des langues bantoïdes non bantoues utilisées pour l'enquête lexicostatistique 559 Carte : zones linguistiques de l'aire bantoue 560

Cb^itre 4 : Commentaires des résultats lexicostatistiques Figures : arbres B A, FN et NN complets 562

Carte : groupe jarawan 571 Carte : groupe ekoïde 576

Carte : groupe grassfields élargi 578 Carte : groupe ring 580

Carte : groupe Mbam-Nkam 584 Carte : groupe bantou du Mbam 587 Carte : groupe A+B20 591

Carte : groupe B10-B30 593 Carte : groupe mambiloïde 596 Carte : groupe noni+tivoïde 599 Carte : groupe nyang+ekoïde 601 Carte : groupe est-grassfield 603 Carte : groupe nord 605 Carte : groupe A50 608 Carte : langues "flottantes" 612 Chîçitre 5 : Conclusion générale

Carte : 4 groupes principaux de la classification du bantoïde selon l'arbre BA : dong, groupe mambiloïde, groupe tikar et groupe bantoïde sud 619

Carte : groupes principaux de la classification du bantoïde selon l'arbre B A (couleurs) 635

Table des illustrations

(8)

3. METHODE LEXICOSTATISTIQUE

3.1. Introduction

Depuis sa création et sa mise au point par SWADESH au début des années 50, la

lexicostatistique a été éprouvée sur des familles linguistiques diverses. C'est une méthode particulièrement intéressante pour la classification des langues sans tradition écrite parce qu'elle permet, à partir de données restreintes au vocabulaire de base, d'établir une première

chronologie relative des différenciations à l'intérieur d'un ensemble linguistique

L'avènement de la lexicostatistique a offert une nouvelle voie d'accès à l'histoire des langues sans écriture. Aussi l'enthousiasme des linguistes, mais aussi des historiens, des

anthropologues ou des archéologues n'a-t-il pas tardé à se manifester. Mais rapidement, les passions se sont soulevées et les critiques ont fusé, qui portaient tantôt sur la technique et ses présupposés, tantôt sur l'interprétation des résultats.

Je préciserai dans ce chapitre le type de méthode que j'utilise, ses limites, ses outils, ses avantages, ses inconvénients, et le crédit que j'entends accorder aux résultats ainsi obtenus. Je montrerai également pourquoi la lexicostatistique demeure l'instrument de premier choix dans l'état actuel des connaissances sur les langues bantoïdes. Enfin, je présenterai plus précisément les trois types de calcul lexicostatistique ainsi que la liste de langues qui ont été sélectionnées en vue de l'enquête que j'ai menée.

3.2. Glottochronologie et chronologie relative

La glottochronologie et la lexicostatistique ont des ambitions fondamentalement différentes par rapport à l'histoire : la glottochronologie prétend produire des datations absolues, tandis que la lexicostatistique limite l'interprétation de ses résultats à une chronologie relative.

La glottochronologie est une théorie interprétative : à partir des datations auxquelles se sont produites les différenciations successives des groupes linguistiques connus par l'existence de textes anciens, elle propose une datation absolue de l'origine linguistique et des différenciations internes qui organisent les groupes linguistiques sans tradition écrite.

L'échelle des datations absolues que propose la glottochronologie est établie par comparaison avec l'échelle de datation des langues indo-européennes qui connaissaient l'écriture. Or, on ne connaît pas le rôle que joue l'écriture sur la vitesse d'évolution des langues et il est difficile de se faire une idée générale du rythme d'évolution des langues non écrites. S'il y a des raisons de penser que les langues écrites et les langues non écrites n'évoluent pas selon le même rythme, il est extrêmement difficile de savoir si c'est ou non le cas, car il n'y a pas de possibilité réelle d'observation en la matière : l'observation devrait en effet porter sur une période suffisamment longue pour être significative, et, dans le cas précis des langues sans tradition écrite, la question de savoir comment et où trouver les témoignages relatifs à des périodes historiques éloignées ne se pose même pas, elle est sans objet

Il faut aussi envisager l'influence d'autres facteurs éventuels : le rythme d'évolution d'une langue est probablement très variable selon sa situation réelle. La langue est-elle par exemple parlée dans une entité politique unifiée ? Appartient-elle à une minorité entourée de langues du même groupe ou de groupes linguistiques différents ? Est-elle géographiquement isolée à cause du type d'habitat et de l'absence des moyens de communications (île, zone d'accès difficile) ?

1. Le lecteur intéressé par l'histoire de la lexicostatistique et par le contexte dans lequel cette méthode s'est développée se référera aux articles de HYMES (1960) et de DYEN (1975-1976).

Méthode lexicostatistique

(9)

Au long de l'histoire, le rythme d'évolution des langues n'est certainement pas constant non plus, et il doit y avoir des périodes où ce rythme est plus ou moins rapide, en fonction des événements que vit la population des locuteurs. Le nombre de situations différentes est infini, et il y a trop de facteurs à considérer pour retenir l'hypothèse d'un rythme général d'évolution que soutient la glottochronologie.

Il demeure que certains chercheurs continuent à utiliser, avec plus ou moins de précautions, la glottochronologie et les datations absolues qu'elle propose comme un cadre de référence destiné à appuyer des recherches menées dans une discipline adjacente à la linguistique (l'histoire, par exemple).

A mon avis, la seule manière d'obtenir une datation absolue en ce qui concerne les proto- langues est de se fonder sur la concordance des résultats que peuvent obtenir différentes disciplines scientifiques utilisant leurs techniques propres. Si les procédures de datation qu'utilisent l'archéologie et la paléo-palynologie, par exemple, aboutissent à des

approximations qui concordent avec celles que fournit la lexicostatistique, on peut estimer qu'il est fondé de retenir une datation hypothétique. Mais en l'absence de conclusions concordantes, et sans ce faisceau de présomptions, il y a peu de chance d'arriver à une datation que l'on puisse considérer comme admissible.

L'utilisation la plus prudente de la lexicostatistique consiste à l'employer uniquement afin de déterminer de façon plus ou moins précise la chronologie relative selon laquelle se sont produites les différenciations internes à l'intérieur d'un groupe linguistique donné (tel sous- groupe est resté unifié à une époque où un autre s'était déjà scindé, etc.). La validité des résultats obtenus au moyen de la lexicostatistique et celle de l'interprétation qui en faite dépendent, de plus, de diverses dispositions méthodologiques parmi lesquelles figurent, notamment, la liste de mots retenue, la qualité des relevés, l'étude préalable des

correspondances phonologiques, la rigueur des jugements d'apparentement et l'analyse des groupements.

3.3. Choix de la liste de mots

3.3.1. Vocabulaire de base ou vocabulaire culturel et technique

En lexicostatistique, le choix de la liste de mots est déterminant. Le principe qui préside à la sélection d'un type de vocabulaire précis est que certains éléments du lexique sont plus stables que d'autres car les notions auxquelles ils se réfèrent sont indissociables de la vie des locuteurs : ces éléments forment le "vocabulaire de base". Il a été démontré que les mots culturels et techniques s'empruntent plus facilement que les mots qui relèvent de ce vocabulaire de base, ce qui aurait pour effet que l'utilisation de vocabulaire culturel en lexicostatistique produirait plutôt une image des influences latérales que subissent les langues. En joignant le vocabulaire culturel et technique au vocabulaire de base on obtiendrait donc la superposition de deux images (relations latérales et relations généalogiques), superposition qui ne peut être interprétée en termes strictement génétiques. Une étude lexicostatistique dont l'ambition est de montrer l'histoire ancienne d'un groupe linguistique en produisant une image des relations généalogiques a tout intérêt à exclure le vocabulaire culturel et technique, et à se limiter au vocabulaire de base. Dans ce cadre, les listes de SWADESH constituent un outil de travail privilégié dans la mesure où elles ont déjà été étalonnées (voir HYMES 1960 :4-12).

3.3.2. Longueur de la liste de vocabulaire de base

Le vocabulaire de base utilisé en lexicostatistique comporte un nombre de mots très restreint, limité à 100 ou 200 mots dans les listes de SWADESH. Lorsque l'on travaille sur de grands groupes linguistiques, une liste courte offre l'avantage de pouvoir être récoltée et traitée pour un grand nombre de langues, dans des délais qui demeurent raisonnables, surtout s'il n'existe ni lexique ni description approfondie de la langue.

Méthode lexicostatistique

(10)

535

La liste de SWADESH n'est pas parfaite : elle ne s'adapte pas à toutes les situations et il faut parfois en éliminer certains mots. Le choix des items qu'elle comporte peut être critiqué ou remis en question. Néanmoins, le fait de s'y tenir permet de comparer les résultats d'enquêtes lexicostatistiques qui portent sur des ensembles linguistiques divers : il est par exemple possible de comparer les résultats obtenus pour les langues mande avec ceux des langues bantoues si la même liste de mots a été retenue. On constatera par exemple que deux langues mande peuvent avoir à peine 16% d'items communs, mais que deux langues bantoues atteignent toujours de meilleurs scores. Ce type d'observation permet d'engager une réflexion sur la famille Niger- Congo. Il ne peut être envisagé que si les enquêtes ont été conduites selon des méthodes identiques, fournissant des résultats dont on peut affirmer qu'ils sont effectivement

comparables. Si, par contre, les deux calculs lexicostatistiques se basent respectivement sur des listes de 200 et de 400 mots, ou s'ils se fondent sur des listes d'items différents, il est

extrêmement difficile d'apprécier, à sa juste valeur, la validité des observations que suggère la comparaison de leurs résultats.

Plus la liste est courte, plus chaque mot a d'incidence sur les pourcentages : si l'on s'en tient à une liste de 92 mots comme je l'ai fait, chaque mot représente plus d'un pour-cent dans les comparaisons. Certains auteurs préfèrent employer des listes de 400 mots : cela diminue l'incidence d'un mot manquant sur les pourcentages, mais perturbe les résultats d'une autre manière parce que ces listes plus longues contiennent du vocabulaire culturel. On l'a vu, il est inexact de penser que plus la liste est longue, meilleure est la représentation de la filiation des langues que l'on étudie en lexicostatistique : ce qui apparaît plus clairement avec une liste longue, c'est plutôt l'histoire des influences latérales que les différentes langues ont subies au cours de leur évolution.

HINNEBUSCH et al. (1981 : 133 et 223) montrent que les pourcentages obtenus lorsqu'ils comparent deux langues bantoues de l'est (le gweno et le rombo) diminuent de 20% selon qu'ils utilisent une liste de 400 mots ou la liste de 100 mots de SWADESH (passant ainsi de 76 à 56% d'items communs). Les listes de 400 et 200 mots, utilisées sur les langues Uogoli, soga et ganda, produisent quant à elles des différences allant en sens inverse : les valeurs obtenues à partir de la liste de 400 mots peuvent être inférieures de 19% par rapport à celles que l'on obtient à partir de la liste de 200 mots. Dans le premier cas, l'augmentation du pourcentage d'apparentement avec une liste plus longue indique que les langues en question ont eu des contacts secondaires. Dans le second cas, c'est l'inverse : la liste de 400 mots ne donne pas un pourcentage plus élevé, parce que les langues étudiées n'ont pas subi les mêmes influences latérales ou ne se sont pas influencées l'une l'autre au cours de leur histoire. Ce dernier cas de figure se comprend plus aisément si les langues sont parlées dans des zones géographiquement éloignées, et si les locuteurs ont des techniques et des cultures très fortement différenciées. Ce n'est pourtant pas le cas des langues en question, ce qui tend à montrer le haut degré de

"sensibilité" que manifeste la méthode lexicostatistique à des faits culturels dès que l'on emploie une liste lexicale plus longue que celle qui a été établie par SWADESH.

La présence d'emprunts non détectés tend à augmenter artificiellement les pourcentages d'apparentement (DYEN 1975), mais cela ne concerne pas les travaux d'HINNEBUSCH et al.

(1981) dans la mesure où ces linguistes ont utilisé une méthode comparative précise qui permet de déceler les mots empruntés. Mieux l'échantillon est connu des auteurs, moins forte en effet doit être la distorsion des résultats, même avec une liste de 400 mots. Mais toutes les enquêtes lexicostatistiques ne sont pas effectuées dans des conditions aussi favorables, soit parce que les descriptions linguistiques sont partielles ou inexistantes, soit pour de simples raisons de commodité : soit le nombre des langues envisagées est trop important par rapport aux moyens dont on dispose, soit le comparatiste utilise délibérément la lexicostatistique comme premier sondage avant d'entreprendre un travail comparatif sur un échantillon de la classification qu'il aura ainsi obtenue.

HEDINGER (1987) compare des langues très proches les unes des autres, les langues Manenguba (bantou A10), et après une application de la méthode comparative, il effectue un calcul lexicostatistique sur base des deux listes de SWADESH. Il obtient lui aussi des

Méthode lexicostatistique

(11)

pourcentages moins élevés avec la liste de 200 mots qu'avec celle de 100 mots, et cette baisse de 13% lui permet de déduire que le vocabulaire de la liste la plus courte est plus stable que celui de la liste la plus longue^.

D'un point de vue pratique, il faut encore noter qu'en principe, des lacunes dans une liste de 100 mots sont préférables à des remplacements arbitraires car ceux-ci risquent de perturber les résultats de façon significative. Seuls les items qui font partie de la liste de 200 mots peuvent être sélectionnés pour combler les lacunes de la liste plus courte.

3.3.3. Irrégularité du remplacement lexical

Même si l'on a pu relever une cadence moyenne dans la rétention du vocabulaire de base, on ne sait pas s'il y a un lien entre le rythme de remplacement lexical et le sens de chaque mot de la liste de vocabulaire de base. On constate par exemple qu'à l'intérieur du groupe bantoïde, les items "arbre", "mourir" ou "oeil" sont issus d'étymons Niger-Congo, alors que ceux qui signifient "corne" ou "oiseau" dans la plupart des langues en question semblent avoir été introduits plus récemment. Y a-t-il pour autant moyen de déduire que "mourir", "oeil" ou

"arbre" sont plus basiques que "corne" ou "oiseau" ? Si, depuis l'époque du proto-Niger- Congo, les items "arbre", "mourir" et "oeil" se sont très bien maintenus, s'est peut-être qu'ils correspondent à des notions plus basiques, mais cela n'exclut pas l'hypothèse selon laquelle les items "corne" ou "oiseau", plus récents, pourraient eux aussi avoir une espérance de vie très élevée : seul l'avenir permettra de la vérifier. Il doit être possible d'appliquer ce type d'expérience de plusieurs façons : soit en comparant l'ancienneté de ces cinq items dans des familles linguistiques différentes du Niger-Congo, soit en étudiant le comportement de ces items dans les langues écrites pour lesquelles on dispose d'informations qui sont échelonnées sur de longues périodes historiques (cf. les control cases).

3.3.4. Classification synchronique

Dans le cas où l'on désirerait montrer le degré de similitude réel et actuel entre les langues, il est souhaitable de choisir des listes composées des 3000 ou 5000 mots (par exemple) qui forment

le "vocabulaire courant" de ces langues. Il serait d'ailleurs intéressant de comparer ces résultats

avec ceux que l'on aurait obtenus à l'aide de listes de plus en plus restreintes, jusqu'à ne garder que le vocabulaire sélectionné par SWADESH.

Sans la contrainte qui porte sur l'emploi de cette liste particulière du vocabulaire de base, la lexicostatistique ne générerait pas l'image d'une filiation généalogique, même s'il reste exact

que la lexicostatistique montre aussi le degré de proximité et d'éloignement des langues actuelles, puisque les relations que la lexicostatistique décrypte sont évaluées sur la base de jugements de ressemblances qui portent sur le vocabulaire d'aujourd'hui. Le calcul des relations

"phénétiques" ne prend pas en considération l'origine de la ressemblance ou l'aspect phylogénique^, mais si l'on s'en tient au vocabulaire de base, l'interprétation d'une classification lexicostatistique (basée sur les relations "phénétiques") peut se transformer en spéculation phylogénique.

Entendons-nous bien : il est sans doute dangereux de considérer, sans rectificatif et sans critique, que les arbres classificatoires produits par la lexicostatistique reflètent directement l'histoire des langues. Ils produisent plutôt un "modèle" généalogique, en suggérant un certain

1. Il est amusant de constater avec HYMES (1960 : 7) que le vocabulaire de la liste de 100 mots apparaît plus fréquemment dans le langage des enfants anglophones de un à six ans que les 100 mots supplémentaires de la liste de 200 mots. C'est naturellement une constatation purement synchronique mais qui présente un certain

intérêt dans la mesure où le vocabulaire de base est censé être mentionné régulièrement dans le langage quotidien, et donc acquis dès le plus jeune âge.

2. Les termes "phénétique" et "phylogénique" sont surtout utilisés par les biologistes (voir SNEATH et SOKAL

1973 : 8-10) : une classification phénétique se base sur les ressemblances entre des traits que l'on observe (ce qui apparaît), tandis qu'une classification phylogénique suggère des relations entre les éléments étudiés, mais du point

de vue de l'évolution des espèces.

Méthode lexicostatistique

(12)

nombre d'hypothèses à propos de cette histoire qui, sans en être le reflet exact, est ce que l'on peut en savoir par une technique de recherche particulière.

3.4. Méthode comparative et lexicostatistique

On reproche à la lexicostatistique de ne pas pouvoir montrer l'histoire des langues lorsqu'elle porte sur des langues entre lesquelles les échanges d'influences latérales réciproques ont été importants parce qu'elles ont été en contact les unes avec les autres pendant plusieurs siècles.

On dit alors que la lexicostatistique ne tient pas compte de leur dynamique et des processus de diffusion produits par les contacts secondaires. C'est vrai.

On dit aussi que la proximité géographique et sociale a pour effet d'augmenter sensiblement les pourcentages de l'apparentement identifié par le calcul lexicostatistique. C'est ignorer deux choses. La première est que l'emploi d'une liste courte, on vient de le voir, écarte au maximum les mots les moins stables, les mots les plus empruntés ou diffusés. Pour que l'emprunt et la diffusion perturbent une classification lexicostatistique, il faut que les langues aient absorbé de nombreux mots étrangers parmi les 100 ou 200 notions de la liste de SWADESH : le

phénomène n'a pas été décrit dans la littérature.

La seconde, c'est qu'en principe, l'utilisation de la lexicostatistique doit suivre une étude de la phonologie comparative et non la précéder comme cela se fait souvent Car la connaissance ou la méconnaissance des règles de l'évolution phonologique propre aux systèmes considérés est déterminante pour la fiabilité des jugements d'apparentement

En effet, une bonne connaissance des correspondances phonologiques, outre le fait qu'elle fonde correctement les jugements d'apparentement, peut aboutir à déceler ce qui est emprunté, c'est-à-dire tout ce qui est issu des faits de contact. L'emprunt est repérable pendant une période historique relativement longue (plusieurs siècles) parce qu'il atteste des traits phonologiques marginaux ou qu'il échappe partiellement aux mécanismes des correspondances régulières. Les emprunts très anciens, en revanche, peuvent ne plus être perçus comme tels. Quand un mot emprunté est détecté, il est exclu du calcul : il reçoit un indice zéro et n'est pas comparé aux autres formes. En excluant ainsi les mots voyageurs des apparentements effectifs, on accroît le degré de fiabilité historique des résultats.

Il arrive par exemple que deux langues, appelons-les x et y, soient groupées d'après la lexicostatistique, mais qu'elles aient individuellement un rapport très différent à une langue tierce, z. Lorsqu'on n'a pas une connaissance comparative suffisante des trois langues en question, on peut ne pas repérer les emprunts entre les langues x et z ou entre y et z alors que ces langues auraient été utilisées lors de relations commerciales ou technologiques durables, par exemple. Ces anomalies, quand elles apparaissent dans les arbres (ou seulement dans la matrice de similarité), doivent être commentées. Quoiqu'il en soit, on n'insistera jamais assez sur le fait que l'emploi d'une liste de vocabulaire de base et la connaissance des règles de l'évolution phonologique propres aux systèmes considérés sont censés prévenir ce type de problème.

Très souvent, l'emploi de la lexicostatistique est cependant antérieur à l'étude comparative des langues : la lexicostatistique est alors employée pour fournir un premier schéma de

l'organisation interne d'un ensemble linguistique dont on sait peu de choses. Ces classifications préliminaires ont l'avantage d'offrir une représentation relativement claire des groupes, sous forme de chiffres dans les matrices de similarité et les tables de regroupement, et sous forme graphique dans les structures d'arbre qui interprètent ces matrices. Il faut cependant considérer ces résultats comme provisoires : ce sont des outils de travail souvent utiles mais qu'il convient d'améliorer ultérieurement

Méthode lexicostatistique

(13)

3.5. L'impact du tabou

DYEN (1975 : 134) s'est intéressé à l'impact du tabou linguistique et il a tenté de montrer que les pourcentages affectés par le tabou sont universellement sous-estimés. Il cite l'exemple des Tahitiens (emprunté à MARSHALL 1956 : 58 et suivantes^ qui, après la mort du roi, remplacent tous les mots contenant le nom du défunt et ceux qui y ressemblent par des substituts, n suppose que l'évitement linguistique touche, dans ce cas, une partie importante du vocabulaire et que cela aura pour effet d'affecter toute la configuration des pourcentages dans une enquête lexicostatistique effectuée au moment du deuil.

HYMES (1960 : 8-9) donne une autre version du même phénomène. Selon lui, les mots ressemblant au nom du roi sont tabous pendant toute la durée du règne mais ils sont restaurés à sa mort. A l'époque des premiers contacts avec les Tahitiens, les missionnaires blancs ont fixé l'usage de ces mots de remplacement dans leurs traductions, alors que cet évitement linguistique était temporaire. Cette intervention de l'écriture aurait pu altérer le taux de rétention par rapport à une situation où l'oralité pure aurait subsisté, mais HYMES prétend que la rétention moyenne, depuis l'époque proto-polynésienne jusqu'à aujourd'hui est normale. Cet exemple indique qu'il n'est pas certain que le tabou ait un effet de distorsion significatif sur de longues périodes, qu'il porte sur les mots ressemblant au nom du roi comme en tahitien, ou sur des parties du corps comme en greenlandique est et ouest (BERGSLAND 1958, cité par HYMES 1960 : 8-9).

On peut ajouter aux commentaires sur le cas du tahitien qu'il y a très peu de chance pour que le type dévitement linguistique décrit affecte massivement la liste des mots du vocabulaire de base utilisée par la lexicostatistique et que le remplacement de quelques deux ou trois mots de cette liste a, en fm de compte, une portée très limitée.

Il en va de même dans les langues africames, où l'évitement lexical touche plutôt le vocabulaire de la parenté, d'une partie de la faune (lion, serpent,...) ou encore les termes qui désignent le sang, dans certains contextes. Mais, de façon générale, le tabou n'a pas cette incidence sur le vocabulaire de base que DYEN supposait pour la langue de Tahiti : tout au plus peut-il frapper un ou deux mots dans une liste qui comprend 100 notions.

Pour ramener le débat à un plan plus général, il faut rappeler que les procédures de remplacement lexical touchent toutes les familles linguistiques (cf. latin capud > italien capo,

mais français tête, ou encore, italien coniglio, espagnol conejo, mais français lapin). Si deux langues apparentées se distinguent, entre autres choses, par le fait que l'une d'elles a conservé un réflexe de l'étymon ancien alors que l'autre a remplacé cet item par un autre, c'est un critère qui participe à leur différenciation au même titre que d'autres critères. Si ce genre de phénomène ne se produisait pas, la lexicostatistique aboutirait toujours à établir des pourcentages d'apparentement de 100%.

3.6. Qualité des listes lexicostatistiques

Outre les critiques qui portent sur le type de calcul lexicostatistique proprement dit^ - critiques que je ne suis pas en mesure de discuter - on relève encore quelques reproches adressés à la méthode ; ils portent sur la qualité des traductions dans les listes lexicostatistiques.

On lit parfois que des erreurs lors de la récolte des listes peuvent créer des divergences artificielles entre les langues, notamment lorsque le sens d'un mot est ambigu (eg. "bon" au goût ou "bon" par vertu, voir ô.O.bon) ou quand il n'existe pas de notion qui recouvre

précisément le sens recherché. Lorsqu'il existe plusieurs termes pour un même mot demandé à l'informateur, celui-ci a l'instruction de choisir la forme qui recouvre le champ sémantique le plus large, mais encore faut-il qu'une telle forme existe. La notion de "marcher", par exemple.

1. Thèse non publiée, niais citée par DYEN (1975 : 133-4) : MARSHALL, D. 1956 Polvnesian word historv.

2. A ce sujet, voir BANCEL (1988).

Méthode lexicostatistique

(14)

qui n'est recouverte que par un seul terme en français, possède plusieurs traductions dans la plupart des langues bantoues, selon la cadence ou l'allure de la marche. Cet exemple pose le problème du maniement d'une liste de vocabulaire : aussi rudimentaire que soit la liste, les notions qu'elle rassemble ne peuvent proposer un découpage sémantique universel. Avec l'exemple du verbe "marcher" dans les langues bantoues, une solution consiste à choisir une fois pour toutes un type de déplacement ou de marche précisé

La qualité des sources est, elle aussi, souvent mise en cause, que ce soit à cause de l'enquêteur qui note mal ou de l'informateur qui ne maîtrise pas la langue. Or, même dans les cas de mauvaise transcription, il y a généralement moyen de repérer les formes apparentées, car un mot imparfaitement noté n'a jamais été inventé par l'enquêteur. Si la liste de mots est récoltée auprès d'un informateur qui maîtrise peu la langue et cite beaucoup de mots de la langue véhiculaire ou d'une langue voisine qu'il emploie d'habitude, la proximité entre les deux langues qu'il mélange apparaîtra dans les résultats si le spectre de l'enquête est suffisamment large ; cette proximité anormale entre les deux langues suscitera sans doute un commentaire.

Mais il est vrai que si les langues mélangées sont parlées dans des aires contiguës et que le descripteur a, de ces langues, une connaissance limitée, le fait risque de passer inaperçu.

Pour que les pourcentages et la classification lexicostatistique soient perturbés de façon significative, il faut qu'un bon nombre d'erreurs produisent un effet cumulatif. Les erreurs généralisées sont certainement rares ; quant aux erreurs isolées, elles ont probablement très peu d'influence sur les résultats du calcul.

3.7. La méthode des innovations partagées 3.7.1. Introduction

La méthode des innovations partagées est parfois présentée comme la panacée universelle en matière de classification linguistique, et elle l'est en particulier par les détracteurs de la lexicostatistique. Plutôt que d'y voir un substitut idéal, sans doute vaut-il mieux considérer la recherche des innovations partagées comme un complément de la méthode lexicostatistique.

Lorsque l'on travaille sur un grand nombre de langues à peine décrites comme beaucoup de langues bantoïdes, cette méthode n'est pas fiable (j'en expose les raisons ci-dessous). Je conçois en revanche beaucoup mieux que l'on utilise le critère des innovations pour étudier un petit groupe linguistique dans la mesure où ce groupe a, au préalable, été identifié, notamment, au moyen de la lexicostatistique (NURSE 1995 : 2).

3.7.2. Innovations lexicales

Le mécanisme de l'innovation linguistique peut apparaître pour toute une série de raisons. A l'occasion d'une classification du groupe Benue-Congo, WILLIAMSON expose la problématique de l'innovation lexicale :

"Utiliser les innovations lexicales pose un problème certain parce qu'elles surgissent le plus souvent à travers un glissement sémantique. Puisque ce processus peut survenir de façon répétée et indépendante, on ne peut s'y fier complètement. Les innovations lexicales qui sont dues à l'emprunt ou à une invention apparente sont plus sûres mais beaucoup plus rares."

(WILLL\MSON 1989b : 249, ma traduction)

"Aucune des innovations lexicales présentées [par l'auteur pour le groupe Benue-Congo]

n'apparaît dans chaque division du groupe, et dans la plupart des cas, d'anciennes racines survivent à côté des nouvelles. On présume donc qu'une innovation lexicale entre

normalement dans une langue comme une alternative, et que les racines anciennes et récentes peuvent continuer à coexister pendant longtemps, jusqu'à ce que l'une d'elles remplace

1. HYMES (1960: 16-7) cite quelques autres exemples.

Méthode lexicostatistique

(15)

totalement l'autre, ou jusqu'à ce qu'elles se différencient sémantiquemenL Si la langue fait la différence entre des dialectes bien marqués, alors que les deux racines sont toujours en variante, certains dialectes peuvent stabiliser l'ancienne forme et d'autres la nouvelle, ce qui mène à la préservation des deux racines. Pour cette raison, on suppose ici que la présence d'une innovation lexicale particulière dans une langue (ou un groupe) est une raison suffisante pour placer cette langue (ou ce groupe) dans la branche qui se distingue par cette innovation, alors que l'absence de l'innovation dans une autre langue (ou un autre groupe) n'est pas une raison suffisante pour l'exclure. Il est pour cela nécessaire d'avoir un certain nombre d'innovations lexicales pour chaque branche que l'on propose afin d'augmenter les chances de voir apparaître au moins l'une des innovations de chaque langue soeur."

(WILLIAMSON 1989b : 251, ma traduction)

Quelques exemples foimis par les langues bantoïdes peuvent servir à illustrer le phénomène de la coexistence de deux termes pour une même notion dont parle WILLIAMSON ci-dessus :

medumba â-SÎ-3t "terre" < PEG *-Cl -c6?-3c "terre" < PEG * - c I k ' kensweinsei "arbre" cf. PB • - t l 3/4

fà-kâ? "arbre" racine présente dans les groupes noni f i a "brûler" < PWN *pi

cf. PB * - p i - k55 "brûler" cf. PEG *-k$-

Certains linguistes (ou chercheurs d'autres disciplines qui utilisent la linguistique) basent toute leur classification sur les innovations. Le plus souvent, ils utilisent les innovations lexicales parce qu'ils n'engagent pas (ou ne peuvent engager) les moyens nécessaires à un travail plus minutieux, plus lent certes, mais plus fiable. Ds s'épargnent la description des langues et leur comparaison approfondie et se limitent à la comparaison superficielle de lexiques mal connus, ce qui leur permet d'obtenir plus rapidement une classification et d'en tirer des conclusions en rapport avec leur discipline. En l'absence d'autre matériel, une classification superficielle de ce type peut être intéressante, principalement parce que son auteur a généralement récolté des listes de vocabulaire absolument inédites. Mais il incombe à celui qui utilise ce genre de classification de se renseigner sur la manière dont elle a été établie et d'en interpréter les conclusions en connaissance de cause.

Quelques chercheurs adoptent une attitude sceptique ou franchement hostile vis-à-vis de la lexicostatistique : la méthode qu'ils lui préfèrent ne sert ni à confirmer ni à infirmer les résultats obtenus en lexicostatistique, mais entend s'y substituer. D n'y a pourtant pas de raison pour que les résultats de la lexicostatistique, si celle-ci est postérieure à une étude de phonologie comparative, soient de qualité inférieure à ceux que procure la méthode des innovations. En effet, les utilisateurs de la méthode des innovations proposent généralement un nombre de phénomènes trop peu élevé pour asseoir une classification : le peu de faits qu'ils présentent ne tient pas forcément à un manque de rigueur de leur part, mais au fait que les innovations sont extrêmement difficiles à trouver. Et le problème est qu'ils accordent plus de crédit à des groupements établis chacun sur base de deux ou trois innovations qu'aux résultats obtenus par la lexicostatistique, alors que ces derniers sont largement garantis par une méthodologie précise.

On a par exemple déjà évoqué l'échec de BENNETT et STERK (1977) qui ont basé leur classification interne du groupe bantoïde sur de fausses innovations lexicales (voir SCHADEBERG 1986 dans le chapitre 1 et WATTERS 1989 : 409). On peut aussi citer l'exemple de BLENCH qui est certainement l'un des chercheurs les plus dynamiques actuellement dans le domaine de la classification du bantoïde. Sur trois innovations lexicales proposées par BLENCH (1993a : 115) pour justifier le noeud du groupe mambiloïde, l'une est

Méthode lexicostatistique

(16)

erronée : la pseudo-reconstruction # j a r "chèvre / mouton" est attestée dans une langue non mambiloïde, mais bantoïde sud, le rikpa' (A.53) : -jii 9/10. Il ne reste que deux innovations possibles pour ce noeud, "genou" et "hibou"*, ce qui est un peu faible, d'autant plus que

"genou" appartient au vocabulaire de base, mais que ce n'est pas le cas de "hibou".

L'utilisation de la méthode des innovations lexicales n'est valable que si l'on dispose d'un large inventaire des langues et d'un lexique assez étendu dans chaque langue, car, pour savoir si une forme représente effectivement une innovation, il faut pouvoir disposer d'une masse de données sur toutes les autres langues. Les données sur les langues bantoïdes non bantoues ne remplissent pas cette condition à l'heure actuelle.

Et, à supposer même que les données soient suffisantes, les innovations lexicales retenues vont-elles être choisies parmi le vocabulaire de base de la liste de SWADESH ou non ? On ne trouve généralement aucune allusion à ce problème, alors qu'il pourrait avoir des implications importantes sur les résultats obtenus ou sur leur interprétation.

Au sein de la famille linguistique mande, certaines langues possèdent un double vocabulaire pour certaines notions : il existe un mot commun et un mot respectueux dont les emplois sont adaptés au destinataire^. Les termes respectueux ont une forme très homogène à travers tout le domaine : ce sont donc des mots voyageurs récemment introduits. Ils frappent en grande partie le vocabulaire de base ("se coucher", "tête", etc.). Dans quelques unes de ces langues, le terme commun a disparu et il ne subsiste que le terme respectueux : comment ne pas faire l'erreur de les considérer comme des innovations lexicales qui caractériseraient ce groupe de langues ? La seule façon de détecter l'origine récente des mots respectueux est non seulement de connaître la phonologie comparative de ces langues, mais aussi de posséder des données sur toutes les autres langues afin d'y repérer l'existence du double vocabulaire.

Employée seule, la méthode des innovations est dangereuse car elle est trop directement dépendante de l'état actuel des connaissances et parce que l'on peut donc craindre que ses résultats évoluent en fonction même de la disponibilité du matériau. Elle relève du défi lorsqu'il s'agit d'appuyer ou de réfuter la classification d'un nombre élevé de langues dont la plupart ne sont pas décrites, car qu'est-ce-qui prouve que l'on ne trouvera pas telle pseudo-innovation considérée comme caractéristique du groupe x dans une langue trop peu étudiée jusqu'ici du groupe y ? En revanche, comparer les résultats de la lexicostatistique et ceux de la recherche d'innovations peut donner des résultats extrêmement intéressants.

3.7.3. Complémentarité des méthodes : lexicostatistique et recherche d'innovations

BENNETT et STERK (1977 : 248) considèrent que l'on ne peut se fier à un groupement de langues établi par la lexicostatistique que s'il est corroboré par une ou plusieurs innovations.

Celles-ci peuvent porter sur le lexique, la phonologie, la morphologie ou la syntaxe, pourvu que tous les membres du groupe - et eux seuls - les partagent. Mais, les réponses de MEEUSSEN (1974) à GREENBERG (1974), et de SCHADEBERG (1986) à BENNETT et STERK (1977) font la démonstration de quelques méprises au sujet de faits phonologiques, morphologiques et lexicaux qui, dans un premier temps, ont été présentés comme des spécimens d'innovation.

SCHADEBERG (1986) préconise, en plus d'une lexicostatistique, la recherche de changements phonétiques :

"Lexicostatistics can provide no more than a first hypothetical outline of a genetic classification. Conclusive évidence is hard to get from isoglosses, probably because we are unable to systemize in a useful way the facts of semantic change and language contact. The most promising approach to the complex problem of subclassifying Bantu and Bantoid

. Je n'ai pas vérifié la pertinence de ces deux "innovations" mainbiloïdes.

•. GREGOIRE, communication personnelle.

Méthode lexicostatistique

(17)

languages appears to lie in the search for irréversible and characteristic sound shifts. This task still Kes ahead." (SCHADEBERG 1986 :77)

Toutes les innovations que l'on croit repérer ne doivent pas forcément être mises sur le même pied : toutes ne sont pas significatives d'un point de vue historique car l'on n'est pas toujours en mesure de distinguer une innovation ancienne et significative d'une pseudo-innovation qui s'est propagée récemment par diffusion. La distinction entre innovation et rétention n'est pas non plus toujours facile à établir lorsqu'on travaille sur des groupes trop peu connus. Notons encore que les résultats obtenus sur base du critère des innovations morphologiques ne se superposent pas toujours aux résultats obtenus par la recherche des innovations lexicales, et qu'il faut également pouvoir interpréter cette divergence.

3.7.4. Innovations phonologiques

Le maniement des innovations phonologiques est particulièrement périlleux car les éléments relevés peuvent ne représenter que des faits de convergence. Ce phénomène est attesté entre des langues appartenant à des groupes et sous-groupes différents (le passage de 7 à 5 voyelles ou l'assibilation dans des langues bantoues), mais il existe également des faits de convergence absolument certains entre des langues de familles différentes.

Il arrive bien sûr que le regroupement effectué par la lexicostatistique à partir du lexique corresponde exactement à celui qui peut être effectué à partir de l'identification d'un trait phonologique particulier. Ainsi, par exemple, dans la famille des langues mande, toutes les langues que la lexicostatistique regroupe au sein de l'ensemble N-SW attestent simultanément un phénomène d'alternance consonantique initiale qu'elles sont seules à utiliser de manière tout à fait systématique^.

Des faits de convergence peuvent aussi se produire au niveau lexical pour la simple raison qu'il n'y a pas des milliers de métaphores possibles autour d'une même notion, et que les

glissements de sens peuvent s'effectuer de façon identique dans des langues de groupes différents. Ces faits montrent simplement que des groupes de locuteurs ont fait la même association.

D'un point de vue historique, les faits de convergence, qu'ils soient phonologiques ou lexicaux, n'ont aucune signification. Ils doivent être éliminés des candidats à l'innovation ; mais sans une bonne connaissance des langues sur lesquelles on travaille, ce n'est pas chose aisée.

3.8. Lexicostatistique, méthode comparative et statistique grammaticale

La dernière enquête de 542 relevés sur le bantou (BASTIN et al., en préparation) a montré qu'un travail lexicostatistique correctement appliqué ne donne pas de résultat surprenant par rapport à ce que l'on peut déduire de la linguistique comparative effectuée sur les langues les mieux documentées.

Cependant, les résultats lexicostatistiques peuvent toujours être corrigés par la méthode comparative classique. NURSE (1995) a montré que même des langues bantoues bien étudiées sont classées de manière différente selon que l'on utilise la lexicostatistique ou la méthode comparative :

"Most linguists would agrée that where lexical or lexicostatistical indices differ from phonological and/or morphological indices, the latter usually suggest ultimate genetic allegiance, whereas the lexical picture usually results from relatively récent borrowing. So

"Taita" is probably most closely related to Chaga, contrary to what lexicostatistics indicates.

. GREGOIRE, communication personnelle.

Méthode lexicostatistique

(18)

543

In East Africa, I am aware of other such cases. How many other such cases are there across the Bantu field ? Such cases lead to distort the whole statistical picture. If there were similar cases at higher levels of reconstruction, that would be more serions.

Many practitioners (Gleason 1959, Heine 1972, Embleton 1986) have emphasized that prudent use of lexicostatistics will provide a statement of probability, a provisional family tree, until such time as the Comparative Method can be applied. Lexicostatistics is not meant to replace the Comparative Method. Lexicostatistics is like an archaeological survey, not an in-depth excavation." NURSE (1995 : 2)

BASTIN et al. (1979 et 1983) ont comparé des calculs statistiques portant sur le lexique avec des calculs sur la grammaire dont l'application se limitait aux langues bantoues sur lesquelles les connaissances étaient de bon niveau. Et dans les deux cas, les confrontations ont permis de confirmer, dans l'ensemble, les résultats de la lexicostatistique.

La comparaison des classifications obtenues à l'aide de chacune de ces trois méthodes, la lexicostatistique, la comparative classique et la statistique grammaticale, permet donc de conclure que la lexicostatistique donne des résultats tout à fait honorables lorsqu'elle s'appuie sur une bonne connaissance des langues qu'elle envisage.

3.9. La lexicostatistique : un compromis entre la fin et les moyens

Malgré les reproches qui lui sont adressés, la lexicostatistique reste l'une des méthodes privilégiées pour la classification linguistique, et cela notamment parce que l'on ne dispose pas de meilleure alternative.

Un des intérêts de la lexicostatistique réside dans son côté forcément systématique : chaque forme doit être analysée et comparée avec toutes les autres. Ce volet méthodique qui permet d'assigner tel ou tel indice de parenté à chacune des centaines ou des milliers de formes récoltées offre l'avantage d'écarter momentanément le linguiste de ses a priori ou de ses intuitions sur les affinités générales des langues qu'il étudie. Noyé dans la quantité de comparaisons à effectuer, il aura moins tendance, lorsqu'il ne connaît pas bien les parlers sur lesquels il travaille, à privilégier la démonstration du rapport ou de l'absence de lien qu'il aurait pressentie entre certaines des langues qu'il envisage.

Ce qui importe, en fin de compte, c'est de rester modeste quant aux résultats que l'on obtient avec l'une ou l'autre méthode. Vouloir appliquer toutes les méthodes, de façon extensive, à un grand groupe de langues, est un défi impossible à relever dans la mesure où l'on dispose généralement non seulement de délais et de moyens limités, mais aussi de données

insuffisantes. Le groupe bantou est probablement le seul groupe de langues Niger-Congo qui ait bénéficié d'études aussi ambitieuses, mais il aura fallu plus d'un siècle de recherches ininterrompues pour arriver à ce niveau d'excellence. En-dehors du bantou, appliquer une seule méthode pour obtenir une classification linguistique donne des résultats qui sont peut-être insuffisants mais qui n'en représentent pas moins une étape importante à partir de laquelle d'autres progrès pourront être accomplis.

Le choix de l'une ou l'autre méthode ne repose pas seulement sur les convictions personnelles.

Il repose avant tout sur le type de données dont on dispose. On peut espérer améliorer progressivement une classification élaborée au gré des moyens disponibles. L'histoire de la classification du bantoïde sud (WATTERS et LEROY 1989) l'illustre bien : les regroupements ont varié au fur et à mesure de l'amélioration des connaissances, notamment grâce à de nombreux programmes d'enquêtes commandés pour la réalisation de l'Atlas linguistique du Cameroun (DIEU et RENAUD 1983). Depuis 20 ans, la recherche sur cette zone linguistique extrêmement fragmentée s'est développée de telle façon que les points qui sont discutés aujourd'hui et ceux dont il reste à débattre ont l'air sophistiqué par rapport à l'état de la

Méthode lexicostatistique

(19)

classification des langues du groupe bantoïde nord^ Mais il faut ajouter que plusieurs langues du groupe bantoïde sud ont bénéficié d'études descriptives et comparatives variées, alors que la classification du bantoïde nord qu'on propose aujourd'hui se base uniquement sur la méthode des innovations lexicales.

3.10. Présentation de la méthode lexicostatistique 3.10.1. Programme informatique LEXISTAT

Le calcul lexicostatistique qui a été mené dans cette étude à partir de 173 relevés^ a été effectué au moyen du programme LEXISTAT 2.0 créé il y a une dizaine d'années par Thilo

SCHADEBERG (Rijksuniversiteit te Leiden).

Après que les indices d'apparentement aient été introduits pour chaque terme et pour chaque langue, le programme produit une matrice de similarité dont les résultats sont basés sur le nombre de comparaisons, et non sur le nombre de formes. Le programme interprète ensuite cette matrice de similarité selon trois stratégies hiérarchiques. Celles-ci proposent des classifications selon le voisin le plus proche (appelée aussi méthode minimale ou nearest neighbour, NN), selon le voisin le plus éloigné (méthode maximale ou furthest neighbour, FN) et selon un type de moyenne de groupe (correspondant à l'ancienne "méthode de groupe" ou branch average, BA). Les trois types de calcul procèdent par agglomération, c'est-à-dire qu'ils amalgament successivement des langues ou groupes de langues jusqu'à obtenir la construction d'une structure en arbre (HENRICI 1973 : 95, SNEATH et SOKAL 1973 : 214-45). Les résultats chiffrés se trouvent dans trois tables de regroupement (cluster tables), une pour chaque méthode de calcul. Ces résultats sont reportés à la demi-dizaine la plus proche^ sur les arbres que dessine le programme LEXISTAT. La simplification des résultats à la demi-dizaine donne une image plus claire de l'arbre, car en éliminant les différences peu significatives, elle fait ressortir les rapports essentiels. Mais il est souvent nécessaire de se référer aux chiffres exacts pour légitimer un groupement mis en péril par des valeurs arrondies ou pour interpréter une simplification des rapports hiérarchiques réels.

Les particularités propres à chacune des trois méthodes (NN, FN, BA)'* sont brièvement présentées ci-dessous.

3.10.2. Voisin le plus proche

La méthode du voisin le plus proche ou "méthode minimale" porte aussi, en anglais, les noms de nearest neighbour method (NN) ou de single linkage clustering^.

On calcule la proximité qui s'établit entre deux groupes sur la base du pourcentage

d'apparentement le plus élevé existant entre deux langues relevant respectivement de chacun de ces groupes.

La classification selon le voisin le plus proche est très sensible aux emprunts non détectés. Son utilisation permet d'augurer que l'adjonction au calcul de langues occupant une position

^ Personnellement, je doute de l'existence d'un groupe bantoïde nord tel qu'il est défini aujourd'hui (HEDINGER 1989 et BLENCH 1993a). J'expose mes raisons plus loin, à l'occasion de l'interprétation des structures d'arbres (voir 5.2).

^. Initialement prévu pour 100 langues, la capacité du programme a été élargie par son auteur à 174 langues afin de répondre aux besoins de ce travail.

^. Le contraste qui s'établit entre deux arbres dont l'un reproduit les distances moyennes exactes et dont l'autre les reporte à la demi-dizaine est iUustré dans B ARRETEAU et JUNGRATTHMAYR (1993 : 124-5).

Les trois types de calculs seront désormais mentionnés par les abréviations NN, FN et BA.

^. II est possible que sous ces différentes appellations se cachent quelques divergences qui porteraient sur des détails de calcul.

Méthode lexicostatistique

(20)

géographique intermédiaire, augmente de manière sensible le pourcentage de ressemblances existant entre deux langues très différentes situées aux marges de l'aire considérée.

Elle produit généralement des arbres constitués de quelques groupes très larges. En effet, lorsqu'une langue peut être classée dans deux groupes différents, ceux-ci fusionnent.

Théoriquement, cette méthode accentue la séparation ou l'isolement des groupes. Mais lorsqu'aucun groupe de langues n'est franchement isolé, elle produit au contraire un groupe plus vaste qui se situe au niveau supérieur. D'un point de vue strictement classificatoire, il y a peu d'information à tirer de représentations au sein desquelles plusieurs langues (ou groupes de langues) fusionnent ainsi à un même niveau.

De surcroît, c'est principalement dans l'arbre NN que l'arrondissement des pourcentages à la demi-dizaine dans la résolution des arbres est le plus désavantageux : dans un calcul qui a déjà tendance à regrouper des séries de langues sous formes de chaînes peu éloquentes, cet arrondissement atténue encore la représentation hiérarchique. Ainsi, par exemple, le noeud qui regroupe les langues A60 et le nen (A44) n'est-il pas dessiné dans l'arbre NN, alors qu'il est mentionné dans la table de regroupement NN.

Théoriquement, il n'importe pas du tout qu'un groupe se trouve à gauche où à droite d'un autre dans la mesure oii ils se rattachent tous, et de façon indépendante, au même niveau. Ceci est valable pour les trois types d'arbres dessinés par les méthodes NN, FN et BA. Mais encore faut-il vérifier attentivement dans les tables de regroupement que la chaîne en est bien une : ne sont-ce pas, en réalité, l'arrondissement des pourcentages à la demi-dizaine et la résolution maximale des arbres aux 5% qui sont responsables d'un dessin où plusieurs embranchements se rejoignent au même niveau alors que les tables indiquent encore une certaine hiérarchie ? Si cette précaution a été prise et qu'il subsiste de larges chaînes dans les regroupements, il est peu intéressant d'en tenter une interprétation.

Parmi les trois méthodes envisagées ici, celle du voisin le plus proche est la moins adaptée à la classification des langues qui forment un continuum à l'intérieur duquel les emprunts réciproques^ sont nombreux parce qu'elle produit des arbres à chaînes. D'une langue à la suivante, les pourcentages de ressemblance sont élevés dans ces chaînes ; mais au sein d'une même chaîne, la première et la dernière langues peuvent être si différentes l'une de l'autre, qu'avec un autre type de calcul, elles sont séparées par plusieurs autres groupes.

L'arbre NN est nettement moins hiérarchisé que les arbres FN et BA. Il produit un nombre limité de niveaux de regroupements intermédiaires et un nombre d'embranchements de niveau supérieur particulièrement élevé. Ainsi, par exemple, si l'on considère les arbres produits par les trois types de calcul pour les langues bantoïdes, on relève 25 embranchements au niveau du 3è noeud (40%) en NN, mais seulement 8 embranchements en FN (15%). Qu'il y ait tout de même 23 embranchements au niveau du troisième noeud (30%) dans l'arbre BA est moins significatif, car ces noeuds subissent encore une hiérarchie, alors que les embranchements au niveau du troisième noeud de l'arbre NN sont véritablement juxtaposés sans grande

organisation.

"(NN) typically produces "onion types" trees, i.e. a succession of splits between one or a few language(s) on one side as against the rest of the languages on the other side"

(SCHADEBERG 1986:73)

L'intérêt majeur de l'arbre obtenu par la technique du NN réside essentiellement dans les informations qu'on peut tirer de sa comparaison avec les arbres produits par les techniques FN et BA.

. Il s'agit ici des emprunts qui n'ont pas été détectés au préalable, au cours d'un travail comparatif.

Méthode lexicostatistique

(21)

3.10.3. Voisin le plus éloigné

La méthode du voisin le plus éloigné ou "méthode maximale" est connue, en anglais, sous les noms de furthest neighbour method (FN) ou complète linkage clustering.

Cette technique est une autre méthode extrême, mais qui amalgame les groupes sur la base du plus faible pourcentage de similarité existant entre deux des langues qui relèvent de ces groupes.

Ce type de calcul est moins sensible aux emprunts qui peuvent s'être produits entre des langues qui appartiennent à des branches différentes. Il produit théoriquement des arbres organisés selon un schéma plus équilibré et attestant une hiérarchisation plus claire, dont on peut supposer qu'elle reflète mieux les rapports généalogiques.

3.10.4. Moyenne de groupe

La méthode selon la moyenne de groupe porte en anglais les noms de branch average method (B A), group average method ou average linkage clustering^.

Dans la méthode de moyenne de groupe, la distance retenue entre deux groupes particuliers est établie à partir de la similarité moyenne qui caractérise toutes les langues relevant de l'un et l'autre de ces groupes.

Contrairement aux techniques NN et FN, le calcul de la moyenne de groupe ne se base pas sur une relation extrême de proximité ou d'éloignement. Il donne des résultats qui sont

intermédiaires entre ceux que donnent respectivement les méthodes NN et FN, comme en témoigne le fait que l'on retrouve nécessairement dans l'arbre qu'il produit l'ensemble des noeuds figurant simultanément dans les arbres engendrés par les deux autres techniques de calcul. Ces noeuds représentent des groupements de portée généalogique.

Il existe d'autres méthodes de calcul qui produisent une hiérarchie basée sur la moyenne. Elles se distinguent les unes des autres par le type de moyenne qu'elles prennent en considération.

SNEATH et SOKAL (1973 : 228-40) envisagent ainsi l'utilisation de la moyenne arithmétique, du groupement centroïde^, du groupement surestimé et du groupement non surestimé^.

3.11. Langues introduites dans le calcul lexicostatistique 3.11.1. Objectif et contexte de l'enquête

Le but de la présente étude lexicostatistique est non seulement d'obtenir une classification interne, même partielle, du groupe bantoïde, mais encore d'étudier de manière aussi approfondie que possible les rapports d'articulation qui s'établissent entre les langues de ce groupe et les langues de l'ensemble bantou défmi au sens strict.

La fragmentation de la zone A et l'intégration d'une partie de cette zone au groupe bantoïde sont aujourd'hui communément admises, même si les premiers résultats auxquels ont abouti les études comparatives portant sur les langues de cette aire géographique ont souligné les traits typiquement bantous que l'on pouvait relever dans certains idiomes bantoïdes (tiv, jarawan, mambila, etc...). Ainsi, la position particulière propre au bantou du Mbam - c'est-à-dire au nen (A44) et aux langues du groupe A60 - avait été soulignée par plusieurs communications

^ Il n'est pas absolument certain que les différentes techniques citées en anglais calculent toutes le même type de moyenne.

2. Pour un exemple d'application de la méthode centroïde à la classincation de dialectes ijo, voir LEE et WILLIAMSON (1990).

3. En anglais : aritlimetic average, centroid clustering, weighted clustering, unweigbted clustering.

Méthode lexicostatistique

Références

Documents relatifs

Sur  El  Guedid,  deux  réunions  ont  eu  lieu  avec  les  agro­pasteurs concernés  par  le  projet.  La  première  s'est  déroulée  à  la  fin  de 

Recherche : dessine ²un ²thermomètre ²en ²essayant ²de nommer ²le$ ²partie$... Recherche : n dessine ²un ²thermomètre ²en ²essayant ²de nommer

Feb 03, 2022 · PRÉSENTATION DU PRIX DE LANGEAIS Le Tiercé Quarté Quinté+ du jeudi 3 février 2022 se disputera dans le temple du trot de Paris Vincennes.C'est le Prix de

Toutefois, l’augmentation du chiffre d’affaires en 2013 a été impactée, comme prévu, négativement par la fermeture des magasins Metro pour conversion, et ce pour une durée

5 Les coordinateurs de l’ouvrage ont évoqué divers types de communautés, comme nous l’avons mentionné précédemment, et dans la plupart des communautés, on cherche à développer

Afin d'analyser l'influence de la position moyenne du point de déferlement, X, sur la structure de l'onde stationnaire dans la zone de &#34;surf&#34;, nous avons représenté sur

La seconde particularité du modèle est de résumer la forme d'une courbe particulière par la valeur d'un seul paramètre (paramétre m) ; au lieu de deux états

Les faiblesses méthodologiques, notamment dans la définition des variables, et dans l'absence de certains éléments d'analyse s'ajoutent au risque toujours présent de tomber dans