• Aucun résultat trouvé

J’ai retracé à travers ce chapitre le développement dans trois disciplines (lalinguistique his- torique, la critique textuelleet lasystématique biologique) de méthodes permettant de réaliser uneinférence historiqueà partir de la comparaison des structures formelles des objets auxquelles elles s’intéressent. Bien que certains outils et concepts soient étonnamment proches, ces déve- loppements se sont fait de manière singulière dans chaque discipline et les méthodes qui en sont issues restent substantiellement différentes.

J’ai aussi détaillé un certain nombre de ces méthodes dans le but de mieux comprendre les spécificités de chacune d’entre elles et dans l’espoir de favoriser l’intercompréhension entre des disciplines très éloignées, mais qui rencontrent sur le sujet de l’inférence historique des problé- matiques communes. Si la grande majorité de ces méthodes n’a pas eu d’application directe dans cette thèse, leur compréhension m’a permis de me familiariser et de me questionner sur les prin- cipes généraux de l’inférence historique et de m’ouvrir l’esprit quant à la diversité des approches possibles.

On aura pu remarquer que les méthodes issues de la systématique biologique ont été plus longuement détaillées. Ceci vient sans doute en partie de ce que je les connais mieux, de par ma formation. Mais cela vient aussi de ce que ces méthodes ont été plus fréquemment utilisées pour étudier l’évolution culturelle au cours des dernières décennies. Aussi leur bonne compréhension s’avérait nécessaire, tant pour moi que pour les personnes amenées à lire cette thèse, afin de comprendre le chapitre suivant. En effet, de nombreuses disciplines s’étant appropriées les outils de la systématique biologique pour étudier l’histoire des cultures humaines, il m’a paru intéressant d’enrichir notre étude des musiques du Gabon de ces expériences. Je présenterai donc dans le chapitre suivant118 une revue détaillée de ces utilisations des méthodes issues de l’inférence phylogénétiquepour étudier des données culturelles.

118.↑ Chapitre2pages49à103.

Chapitre 2

Les méthodes issues de l’inférence

phylogénétique appliquées aux don-

nées culturelles

2.1 État de l’art disciplinaire . . . 53 2.1.1 Limites . . . 53 2.1.2 Critique textuelle . . . 53 2.1.2.1 État des lieux . . . 53 Les méthodes de distances . . . 53 Les distances utilisées . . . 54 La cladistique . . . 55 Autres méthodes . . . 56 2.1.2.2 Controverses et difficultés . . . 56 Différences dans les mécanismes d’évolution . . . 56 Les ancêtres observés . . . 56 Les multifurcations . . . 56 Le traitement des homoplasie . . . 57 La contamination . . . 57 La co-incidence . . . 57 L’identification et le traitement des caractères . . . 57 Le choix des caractères . . . 57 La pondération des caractères . . . 57 2.1.2.3 Évaluer la pertinence des méthodes . . . 58 Justifications théoriques . . . 58 Justifications empiriques indirectes . . . 59 Comparaison avec les résultats de la stemmatologie . . . 59 Robustesse de l’analyse . . . 59 Utilisation d’indices statistiques . . . 60 Validation empirique directe . . . 60 Validation sur données artificielles . . . 60

Utilisation de critères externes de validation . . . 61 2.1.3 Linguistique . . . 61 2.1.3.1 Premières approches . . . 61 Divergence et convergence de la biologie et de la linguistique . . . . 61 Méthode en réseau de Bandelt . . . 62 2.1.3.2 Les méthodes de caractères . . . 62 Méthodes cladistiques . . . 62 Méthodes de compatibilité . . . 63 Réseau par minimisation des transferts horizontaux (MLN) . . . . 63 2.1.3.3 Méthodes probabilistes. . . 64 L’inférence bayésienne . . . 64 Les migrations des populations . . . 64 2.1.4 Anthropologie de la culture matérielle . . . 65 2.1.4.1 Premières approches . . . 65 L’inférence historique en anthropologie . . . 65 Des travaux précurseurs, mais sans suite . . . 66 2.1.4.2 Tester des hypothèses historiques . . . 66 L’étude de Collard et Shennan . . . 66 Ethnogenèse ou phylogenèse ? . . . 67 Autres hypothèses testées . . . 68 2.1.4.3 Élargissement des approches . . . 68 Inférer les relations . . . 68 Évaluer ces outils d’inférence . . . 70 2.1.5 Musicologie . . . 70 2.1.5.1 Les travaux de Temkin . . . 70 2.1.5.2 Les travaux de Toussaint et coll. . . 71 Présentation des analyses . . . 71 En visant la classification . . . 72 En visant la reconstruction évolutive . . . 73 2.1.5.3 Les travaux de Le Bomin et coll. . . 73 2.1.6 Autres applications . . . 73 Concepts scientifiques . . . 74 Traditions orales . . . 74 Économie . . . 75 2.2 Considérations générales sur ces transpositions interdisciplinaires . . . 75 2.2.1 Spécificités disciplinaires . . . 75 Diversité des utilisations . . . 75 Particularismes . . . 75 2.2.2 La question de la transmission horizontale . . . 76 2.2.2.1 Influence de la transmission horizontale . . . 76 Sur la topologie inférée . . . 76 Sur l’estimation des dates de divergence . . . 78 Dans les méthodes comparatives phylogénétiquement informées . . 78 2.2.2.2 Détection et mesure de la transmission horizontale . . . 79 À partir des arbres phylogénétiques inférés . . . 79 À partir d’indices statistiques . . . 79 Indices de cohérence et de rétention . . . 79 Score δ et score Q-résiduel . . . 80 Par visualisation des données . . . 80

Autres méthodes . . . 81 2.3 Tableau comparatif de quelques études . . . 81 2.3.1 Objectifs et limites de ce tableau . . . 81 2.3.2 Présentation générale . . . 82 2.3.2.1 Contenu du tableau . . . 82 Les lignes : des analyses . . . . 82 Les colonnes : typologie des analyses . . . 83 2.3.2.2 Choix des analyses . . . 83 1. Des méthodes issues de l’inférence phylogénétique . . . 83 2. Des données culturelles . . . 84 3. Des relations comme résultat . . . 84 2.3.3 Description détaillée des champs du tableau . . . 84 2.3.3.1 Objectifs des analyses . . . 84 2.3.3.2 Données analysées . . . 86 2.3.3.3 Typologie des méthodes utilisées . . . 87 2.3.3.4 Éléments de caractérisation de ces méthodes . . . 88 Méthodes cladistiques . . . 88 Méthodes phénétiques . . . 90 Méthodes probabilistes . . . 91 Autres . . . 91 2.3.3.5 Logiciels utilisés . . . 92 2.3.4 Tableau comparatif . . . 93 2.4 Conclusion du chapitre . . . 103

Comme on l’a vu, les méthodes systématiques d’inférence phylogénétique se sont dévelop- pées en biologie dans la deuxième moitié du XXème siècle. Le développement de l’informatique

pendant cette même période a permis une automatisation de ces méthodes et sans doute facilité leur développement, permettant aux biologistes d’intégrer une quantité croissante de données dans leurs analyses. La fin du XXème siècle voit fleurir de nombreux algorithmes d’inférence

phylogénétique ainsi que des logiciels qui les implémentent, ce qui les rend de plus en plus faciles d’utilisation.

Depuis le début des années 19901 les méthodes développées dans le cadre de l’inférence phylogénétique2sont utilisées pour analyser des données de nature culturelle. Cette transposition méthodologique tient sans doute à la relative facilité d’utilisation de ces méthodes d’une part et leur capacité à analyser un grand nombre de données d’autre part. La manière dont ces méthodes sont utilisées est cependant très différente d’une discipline à l’autre, voire entre différentes études au sein d’une même discipline.

Ce chapitre vise ainsi à faire un état de l’art concernant cette utilisation des méthodes issues de l’inférence phylogénétique pour analyser des données de nature culturelle. Cette recension a pour objectif de mieux comprendre les problématiques auxquelles ont été confrontées les dif- férentes disciplines afin de m’inspirer de cette expérience pour l’étude des musiques du Gabon. Comme tout état de l’art, elle vise aussi à synthétiser les différents travaux effectués sur ce sujet afin d’en donner une vue d’ensemble et faire mieux connaître les recherches engagées, permettant un meilleur échange de savoir et donc un renforcement mutuel entre les disciplines3. Elle cherche enfin à établir une base de comparaison entre les différentes approches qui pourront permettre dans le futur de mieux comprendre et discuter les enjeux de la transposition de méthodes d’une discipline à l’autre4.

Je présente donc dans ce chapitre une revue de la littérature concernant l’application des méthodes issues de l’inférence phylogénétique dans différentes disciplines étudiant des objets culturels5. Je donne ensuite quelques considérations générales concernant la manière donc cette transposition méthodologique est effectué6, en m’appuyant sur un tableau recensant plus d’une centaine de publications utilisant de telles méthodes7.

1.↑ Même si les premières utilisations de méthodes issues de l’inférence phylogénétique en biologie sur des textes de manuscrits datent de la fin des années 1960 (voir partie2.1.2).

2.↑ Je groupe ces méthodes sous le terme deméthodes issues de l’inférence phylogénétique.

3.↑ N’étant moi-même pas spécialiste des différentes disciplines concernées, cet état de l’art est nécessairement limité par mon peu de recul et de culture dans ces domaines.

4.↑ Voir par exemple la partie9.4page306. 5.↑ Partie2.1page53.

6.↑ Partie2.2page75.

7.↑ Partie2.3page81.

2.1 État de l’art disciplinaire

2.1.1 Limites

L’ensemble des études appliquant des méthodes issues de l’inférence phylogénétique à des données culturelles est trop vaste pour être étudié ici. Je me concentrerai donc sur les études utilisant des méthodes 1) permettant de tracer des relations entre des groupes, 2) ayant été développées à l’origine dans le cadre de la systématique biologique et 3) qui sont appliquées à l’analyse de données culturelles8. Cette revue ne saurait pourtant être exhaustive, même si j’ai tenté d’y inclure, dans la mesure du possible, un maximum d’études publiées sur le sujet. Je n’ai pu par ailleurs rentrer dans le détails des méthodes et des objectifs de tous ces travaux. Il s’agit donc d’en donner un aperçu global, qui pourrait servir de base dans le futur à une étude plus approfondie des spécificités disciplinaires ou au contraire des problématiques communes à différents domaines.

2.1.2 Critique textuelle

2.1.2.1 État des lieux

Pendant la deuxième moitié du XXèmesiècle, alors que les méthodes automatisées d’inférence

phylogénétique se développent rapidement en biologie, l’attrait pour les méthodesstemmatiques diminue, probablement en lien avec le développement d’une pensée post-structuraliste qui remet en cause la possibilité de la reconstruction des textes anciens [353, pp. 104–106]. La conception de l’auteur·e unique d’un texte originel est remplacée par une vision plus construite, où le texte est la convergence d’influences multiples [353, p. 104]. L’image de l’arbre historique est remise en cause, pour lui préférer l’analogie du rhizome [353, p. 104]. Enfin la notion, essentielle chez Lachmann et Maas, d’erreurs présentes dans les manuscrits observés qu’il s’agirait d’identifier et de corriger, est très critiquée, entre autres pour sa connotation eugéniste [353, pp. 104–106]. Depuis la fin du XXème siècle, les méthodes développées par les biologistes sont de plus en plus

utilisées en critique textuelle, notamment parce qu’elles permettent de traiter un plus grand nombre de données et de mieux expliciter les méthodes et les choix d’analyse.

Les méthodes de distances. La première utilisation d’une méthode issue de la biologie

de l’évolution pour retrouver l’apparentement de manuscrits est due à Griffith [174]. Il utilise dans son analyses de différents manuscrits d’une œuvre de Juvenal une méthode provenant de la taxinomie numériquede Sokal et Sneath [A389]9, basée sur la mesure, pour chaque couple d’objets comparés, d’une valeur de similarité globale entre ces objets. Après avoir identifié les endroits où le texte varie dans les 16 manuscrits étudiés, il compte pour chaque paire de manuscrits le nombre de similarités sur ces lieux variants, obtenant ainsi une matrice de similarités. Les

8.↑ La partie2.3.2.2page83explique plus en détail les critères délimitant les analyses présentées ici.

valeurs obtenues sont alors regroupées en 8 classes de similarité proche, chacune représentée par un symbole. Chaque élément de la matrice est alors remplacé par un des 8 symboles de classe. La matrice est ensuite réorganisée par tâtonnement afin d’obtenir un regroupement des symboles semblables (et donc des distances de même ordre de grandeur). Cette matrice lui permet alors de visualiser des lignes de clivages séparant différentes parties homogènes (du point de vue des symboles contenus) de la matrice et de discuter la proximité des différents manuscrits. Cette méthode permet donc, via une étape très subjective et non répétable, d’obtenir plusieurs groupes de manuscrits proches ordonnés selon une similarité décroissante.

Cette méthode, laborieuse, non reproductible et donnant des résultats limités ne sera pas du tout reprise en critique textuelle10, et comme on le verra11, les critiques des textes préfèreront utiliser la méthodecladistique. Il faudra attendre le début des années 2000 pour que desméthodes de distancessoient de nouveau utilisées, profitant des développement de lataxinomie numérique. Macé et coll. [276] utilisent en particulier l’algorithme de neighbor joining12 pour identifier les ressemblances au sein de chacun de deux ensembles de manuscrits14.

Les méthodesphénétiquessont cependant critiquées (y compris en biologie) car l’utilisation d’une mesure de distance résumant les différences engendre une perte d’information importante, mieux prise en compte par les méthodes basées explicitement sur l’analyse desétatsdecaractères et de leur évolution. Bien que les résultats du neighbor joining dans les études de critique textuelle comparant différentes méthodes d’inférence historique ne soient pas toujours mauvais15 [34,361, 392], cette méthode est surtout utilisée afin de tester l’influence de certains paramètres sur la qualité de l’inférence [390, 393], car sa rapidité permet de répéter de nombreuses fois l’analyse en variant les paramètres16.

Par ailleurs la popularité croissante des réseauxphylogénétiques [209] au cours des années 2000 gagne aussi la critique textuelle, et plusieurs études s’approprient ces méthodes17, construi- sant pour la plupart des réseaux à partir d’unematrice de distances.

Les distances utilisées. Bien entendu, dans toutes ces analyses, le choix de la mesure de

distance utilisée est crucial et a une influence déterminante sur l’inférence historique obtenue. La plupart des travaux utilise une mesure de similarité18 globale entre les deux textes, définie 10.↑ Griffith [175] l’utilise cependant une nouvelle fois pour étudier une quinzaine de manuscrits des évangiles. 11.↑ Voir paragrapheLa cladistiquepage55.

12.↑ Cet algorithme proposé par Saitou et Nei [A365]13 permet de construire une arbre à partir d’une matrice

de distances de manière très rapide, grâce à une approximation donnant d’assez bons résultats [136, pp. 166–168]. 13. Citée par Felsenstein [136, pp. 166–168].

14.↑ Regroupant respectivement des manuscrits issus d’un texte de Grégoire de Nazianze et de Basile le Minime.

15.↑ Voir paragrapheValidation sur données artificiellespage60.

16.↑ Voir aussi l’utilisation de Spencer et coll. [391].

17.↑ Voir par exemple les travaux suivants :  [33,46,49,128,361,392,395,444]. Ces études explorent d’ailleurs la diversité des méthodes existantes, utilisant aussi bien la décomposition en bipartitions (split decomposition) [33,

361,392], les réseau de voisins (NeighborNet) [128, 361, 444], les super-réseaux (supernetworks) [444] ou les réseaux médians réduits (reduced median networks [46,395]).

comme la proportion de mots communs dans les deux séquences19 [174, 276, 390, 392, 393]. Dans leur étude sur les relations de filiation entre des courriers transmis en chaînes, Bennett et coll. [43] mesurent la similarité entre les textes de deux courriers en leur appliquant en même temps un algorithme de compression22: plus les textes se ressemblent, plus l’algorithme réussit à compresser l’ensemble des deux fichiers et plus le fichier produit sera de faible taille. Enfin, l’approche de Bordalejo [49] est par ailleurs tout à fait différente : ce n’est pas le contenu des différentes versions de textes des contes de Canterbury qui est comparé, mais leur ordre au sein des différents manuscrits. Elle utilise donc une mesure de distance qui permette de comparer l’ordre dans lequel sont présentés les contes dans chaque manuscrit et de prendre en compte l’ajout ou la suppression d’un conte dans un des manuscrits.

La cladistique. L’analogie entre méthodes stemmatiques etcladistiques a été remarquée de- puis longtemps [339]. Cette proximité méthodologique conduira à l’utilisation de méthodes cla- distiques dans le domaine de la critique textuelle. Ainsi Lee [252] utilise deux variantes des méthodes cladistiques pour retrouver les relations de filiations entre 10 manuscrits des Quaes-

tiones in Heptateuchum de Saint Augustin. En 1992, Robinson et O’Hara [356] lancent à la communauté scientifique le défi de reconstruire l’histoire de 44 manuscrits du Svipdagsmál à par- tir du contenu textuel uniquement et sans indications contextuelles. Les résultats obtenus par Robinson et O’Hara [357] en utilisant la cladistique, excellents tant en rapidité qu’en qualité, vont susciter un attrait pour la méthode de Hennig, qui se répand dans le domaine de la critique textuelle23.

Différentes variantes des méthodes cladistiques sont utilisées, comme dans l’étude de Macé et coll. [275] utilisant la stratocladistique, méthode issue de la paléontologie permettant d’intégrer des informations temporelles dans l’analyse, telles que l’âge des manuscrits ou des relations de parenté connues grâce à des données externes. La méthode cladistique comporte par ailleurs des limites importantes24et elle sera parfois modifiée et adaptée pour y remédier. Ainsi Carlson [78] cherche à permettre qu’un manuscrit observé soit placé à un nœud interne de l’arbre (et pas seulement commenœud externe)25 et qu’un manuscrit soit le père de plus de deux autres26.

19.↑ De nombreuses variantes existent, et diffèrent notamment par :

• les mots pris en comptes et ceux exclus dans le calcul : mots invariants, ponctuations, éléments jugés non significatifs, etc.20;

• la pondération éventuelle de certainslieux variants [393]21;

• la correction de la distance (prise en compte des changements multiples de caractères [390], besoin d’une distance ultramétrique, etc.).

20. Voir paragrapheLe choix des caractèrespage57. 21. Voir paragrapheLa pondération des caractèrespage57.

22.↑ Cette compression est effectuée par le logiciel GenCompress. Cette méthode est aussi utilisée en biologie pour mesurer la similarité de séquences moléculaires [43, p. 78].

23.↑ Notamment dans les études suivantes :  [7,233,275,354,355,357,366,367,392,394,444,447]. 24.↑ Certaines de ces limites sont détaillées dans la partie2.1.2.2page56.

25.↑ Voir paragrapheLes ancêtres observéspage56.

Autres méthodes. La plupart des autres méthodes d’inférence historique développées en bio-

logie de l’évolution n’ont, à ma connaissance, pas été utilisées en critique textuelle. Les méthodes probabilistes, aujourd’hui très populaires en biologie, ont été presque complètement ignorées. Spencer et coll. [392, pp. 509–510] l’expliquent par le manque de connaissance des mécanismes d’évolution des textes, rendant difficile la proposition d’un modèle d’évolution, nécessaire à l’uti- lisation de ces méthodes. Cependant Macé et coll. [275] ont récemment proposé une application de la méthode bayésienne pour étudier des manuscrits du Florilegium Coislinianum, grâce une typologie minutieuse des variantes, permettant de proposer des hypothèses sur le sens et la probabilité des transformations lors de la copie.

2.1.2.2 Controverses et difficultés

L’application des méthodes phylogénétiques à la critique textuelle pose un certain nombre de difficultés théoriques et pratiques. Howe et coll. [203] en ont récemment fait une revue assez détaillée, et je ne ferai que présenter succintement les principales d’entre elles.

Différences dans les mécanismes d’évolution.

Les ancêtres observés. En biologie, même si le statut de l’ancêtre27(et en particulier la relation entre les fossiles observés et les populations ancestrales) reste très débattu, les méthodes d’inférence phylogénétique n’envisagent l’ancêtre qu’hypothétique et l’ensemble des taxons étu- diés sont positionnés sur les branches terminales. La question se pose différemment en critique textuelle, où ce sont bien des relations généalogiques entre des objets que nous recherchons et non plus des relations phylogénétiques28. L’approche généralement utilisée est alors de considé- rer l’ancêtre comme un taxon terminal relié à un nœud interne par une branche de longueur nulle [49, 78] : par ce procédé l’ancêtre est en quelque sorte « assimilé » à ce nœud interne.

Les multifurcations. De même, les logiciels d’inférence phylogénétique visent à produire

des arbres dont tous les embranchements sont dichotomiques, les multifurcations ne servant qu’à représenter une incertitude non résolue. Cette conception intégralement dichotomique reste débattue, et est justifiée soit par des arguments biologiques (structure de l’évolution, mécanismes de spéciation, etc.) soit par des arguments épistémologiques. En critique textuellle, un même exemplaire d’un manuscrit peut être à l’origine de multiples copies. Cette spécificité, par rapport à la biologie, encouragent les critiques des textes à s’interroger sur la manière de prendre en compte les multifurcations dans les analyses afin d’améliorer les inférences [326, pp. 60–61] [357, p. 9] [78, p. 13].

27.↑ Voir par exemple les articles de Dayrat [112] et de Lecointre [250].

28.↑ Pour Lecointre et Le Guyader [251, pp. 44–46], c’est justement le statut de l’ancêtre qui différencie un

arbre généalogique d’un arbre phylogénétique. Voir aussi, à propos de la distinction entre ces deux types d’arbres, le travail de Lecointre [250, pp. 199–201].

Le traitement des homoplasie.

La contamination. La question de l’hybridation entre différentes lignées est un des points

les plus fréquemment soulevés lors de l’utilisation de méthodes issues de l’inférence phylogéné- tiques pour étudier l’histoire évolutive d’objets culturels, et reste importante en biologie dans le cas d’espèces sujettes à l’hybridation ou au transfert horizontalde gènes. Dans les études de critique textuelle, où l’on parle plus volontiers decontamination29, le problème est fréquemment évoqué30. Plusieurs études proposent des méthodes pour détecter ces contaminations31, certaines comme celle de Woerther et Khonsari [447, p. 230] étant là encore inspirées des méthodes utilisées en biologie pour détecter les hybridations ou les transferts latéraux de gènes.

La co-incidence. Le problème de laconvergenceindépendante de certains caractères vers un même état dans différentes lignées est un problème aussi bien en biologie qu’en critique tex- tuelle (où l’on parle plutôt de co-incidence), car elle tend à brouiller le signal phylogénétique. Si l’analyse statistique de nombreux caractères (en particulier via une méthode de parcimonie) cherche justement à minimiser l’effet de ce signal conflictuel, l’inférence devient néanmoins im- possible lorsque celui-ci est trop important. La question est régulièrement abordée en critique