• Aucun résultat trouvé

Considérations générales sur ces transpositions interdisciplinaires

Une analyse détaillée des spécificités ou convergences de ces réutilisations méthodologiques dans différentes discipliness est hors de la portée de cette thèse. Je propose cependant dans cette partie quelques réflexions issues de mes lectures plus ou moins partielles des travaux présentés dans la partie2.1. Elles concernent principalement deux points : les spécificités méthodologiques ou épistémologiques de certaines disciplines et la question de la transmission horizontale.

2.2.1 Spécificités disciplinaires

Diversité des utilisations. Comme on a pu le voir, les utilisations de méthodes issues de l’inférence phylogénétique pour étudier des données culturelles prolifèrent (notamment depuis les années 2000) et sont nombreuses et variées. Cette variabilité concerne aussi bien les méthodes utilisées (phénétique, cladistique ou probabiliste, avec une grande diversité au sein même de ces catégories générales) que les objectifs poursuivis, y compris pour une même méthode. Ain- si, l’analyse cladistique peut-être utilisée pour classifier un ensemble de données (par exemple chez Ebach et coll. [129]), pour inférer des relations historiques (par exemple dans l’étude de Rexová et coll. [347]), tester une hypothèse formulée a priori (Lycett [268]) ou encore tester la présence d’un signal de transmission vertical dans les données étudiées (cas des travaux de Le Bomin et coll. [240]). Cette diversité globale se retrouve au niveau disciplinaire : dans toutes les disciplines où j’ai relevé un nombre relativement important d’études (c’est-à-dire la critique textuelle, la linguistique historique, l’anthropologie de la culture matérielle, l’ethnomusicologie) les trois grandes catégories de méthodes issues de l’inférence phylogénétique ont été utilisées. On la retrouve même parfois au sein d’une même analyse, puisque certaines (par exemple Roos et Heikkilä [361]) comparent les mérites respectifs de nombreuses méthodes différentes quand d’autres utilisent une même méthode à différentes fins.

Particularismes. À travers cette diversité, on peut cependant relever des spécificités de cer-

taines disciplines. Ainsi les études issues de l’anthropologie culturelle font beaucoup plus souvent

118.↑ Citées par McCarthy [284, pp. 288–289].

119.↑ Cet exemple est à seul but pédagogique.

appel à des méthodes cladistiques que la linguistique historique. Celle-ci fait un usage important des méthodes probabilistes, en particulier ces dernières années. L’intérêt de cette discipline est souvent l’inférence des relations historiques ainsi que des dates de divergence et des localisations géographiques ancestrales des groupes identifiés. Si la question des migrations intéresse aussi l’anthropologie culturelle et l’archéologie, elle l’aborde plus souvent par le biais formel d’un test d’hypothèse dans une logique hypothético-déductive. En critique textuelle, au-delà des relations entre manuscrits c’est bien souvent le contenu du texte des manuscrits anciens qui est recherché, dans la visée de la publication d’une édition critique d’un texte. On voit donc que l’adaptation de ces méthodes aux spécificités de la discipline et leur insertion au sein d’une tradition métho- dologique propre120 conduit à des tendances particulières dans l’étude de chaque type d’objet culturel.

2.2.2 La question de la transmission horizontale

Une critique récurrente de l’utilisation desméthodes issues de l’inférence phylogénétiqueafin d’étudier l’évolution culturelle réside dans le fait que cette dernière serait beaucoup plus sujette à latransmission horizontaleque l’évolution biologique, rendant ces méthodes inappropriées [172, p. 2299]. Afin de mieux comprendre les problèmes que cela pose et les manières de les résoudre, je présenterai tout d’abord quelques études cherchant à évaluer l’impact qu’a la transmission horizontale sur les résultats des méthodes phylogénétiques, puis j’évoquerai certains outils utilisés pour détecter et quantifier la transmission horizontale dans les données culturelles.

2.2.2.1 Influence de la transmission horizontale

Si le problème de l’impact de latransmission horizontalesur les résultats des méthodes phy- logénétiques appliquées à des données culturelles a suscité de nombreux débats [172, p. 2299], ceux-ci sont restés essentiellement théoriques. Les quelques études ayant abordé empiriquement la question sont basées sur la simulation : des données évolutives sont créées par évolution arti- ficielle simulée par ordinateur, puis la méthode testée est appliquée à ces données. Connaissant l’histoire réelle de cette évolution artificielle, l’efficacité de la méthode peut ainsi être évaluée. On peut aussi tester de la même manière sarobustesse, c’est-à-dire sa capacité à donner des résultats similaires lorsque l’on modifie légèrement les données ou les paramètres de l’analyse. Cette ap- proche a permis de tester l’influence de la transmission horizontale sur la justesse de la topologie inférée d’une part et sur l’exactitude des dates de divergence estimées d’autre part. Elle a aussi permis de tester son influence lors de l’utilisation desméthodes comparatives phylogénétiquement informées. Ce sont ces trois aspects que je détaille ci-dessous.

Sur la topologie inférée. La première étude que j’ai pu retrouver testant l’influence de la

transmission horizontale sur la topologie de l’arbre phylogénétique inféré est celle publiée par

120.↑ Et parfois avec une logique similaire, comme dans le cas déjà mentionné de la méthodestemmatiques

McMahon et McMahon [287, pp. 111–118] dans un ouvrage portant plus généralement sur la classification des langues à partir de méthodes quantitatives. Le but originel de cette analyse est de simuler numériquement des relations phylogénétiques par évolution artificielle puis d’y chercher les motifs caractéristiques d’un emprunt, ce qui permettrait ensuite de repérer les évé- nements de transmission horizontale. Pour cela les auteur·e·s font évoluer 200 unités lexicales

(des « mots ») sur une période de 220 générations d’après un arbre dont la topologie a été choisie à l’avance et comprenant 12 langues. Deux modèles d’évolution sont utilisés : le modèle « hihi » plutôt conservateur (une modification par mot en moyenne sur les 220 générations) et le modèle « lolo » dont la vitesse d’évolution moyenne est double. De plus, un emprunt d’intensité variant de 0 à 20% est permis entre deux des langues évoluant (A et B). Une matrice de distances est ensuite calculée à partir des fréquences observées des mots apparentés puis un arbre phylogéné- tique est inféré avec le logiciel Phylip. Les auteur·e·s montrent que pour un taux d’emprunt de

10% entre A et B, la topologie inférée est erronée dans 80% des cas, l’effet s’accentuant lorsque le taux d’emprunt augmente.

Cependant, comme le soulignent Greenhill et coll. [172, p. 2304], l’étude comporte de nom- breux biais. Tout d’abord la méthode d’inférence phylogénétique utilisée est peu puissante car elle est basée sur le calcul de distances globales, ce qui a pour effet de résumer les différences à un seul chiffre et donc à perdre une partie de l’information historique. Le mode d’emprunt utilisé, autorisé seulement entre A et B (et qualifié de « systématique ») est très particulier et n’affecte pas les principales branches de l’arbre [172, p. 2304]. De plus le choix d’une topologie arbitraire et de deux taxonsarbitraires autorisés à échanger rend l’étude conditionnée par ces choix sans que la robustesse à une variation de ces choix a priori ne soit testée. Enfin la différence entre la topologie inférée et la topologie réelle n’est pas quantifiée, alors que les topologies considérées fausses ne diffèrent que peu de la topologie réelle.

L’étude de Greenhill et coll. [172] a pour but explicite de tester l’influence de la transmission horizontale sur la topologie et les dates de divergences inférées. Les auteurs simulent l’évolution de langues à l’aide d’une variante stochastique du modèle de Dollo121, où les mots sont considérés apparaître, être empruntés, puis disparaître (birth–borrow–death) avec une certaine probabilité fixée a priori. L’évolution se fait selon deux topologies prédéfinies, l’une considérée équilibrée et l’autre moins. Le taux d’emprunt est variable dans les différentes simulations et peut se faire de manière globale (un mot pouvant passer de n’importe quelle langue à n’importe quelle autre) ou de manière locale (seules les langues ayant divergé il y a moins de N années peuvent échanger des mots). Les relations phylogénétiques sont ensuite inférées à partir des données produites grâce à une méthodebayésienne. La justesse des topologies est enfin quantifiée par la perturbation : la mesure de distance de quadruplets (QDM123) est estimée entre la topologie inférée et la topologie réelle, ainsi qu’entre la topologie réelle et celle d’un arbre aléatoire. La perturbation est la dif- férence entre ces deux QDM normalisées. Les auteurs montrent ainsi que la topologie inférée reste

121.↑ Le modèle utilisé est repris de l’étude de Nicholls et Gray [A317]122.

122. Citée par Greenhill et coll. [172, p. 2300].

toujours plus juste qu’une topologie aléatoire. De manière générale, les résultats sont meilleurs lorsque la topologie réelle est équilibrée. Lorsque l’emprunt est local, la topologie reste très juste même lorsque le taux d’emprunt est fort (jusqu’à 50%). La justesse est moindre lorsque l’emprunt est global et diminue avec le taux d’emprunt. Les auteurs montrent donc qu’un taux d’emprunt réaliste (autour de 20% selon eux) ne diminue que peu la qualité de l’inférence phylogénétique.

Sur l’estimation des dates de divergence. Afin de vérifier les résultats de leur analyse

supportant l’hypothèse de l’origine anatolienne de la langue indo-européenne, Atkinson et coll. [28] simulent l’évolution de langues à partir de deux modèles : la version stochastique du modèle de Dollo et un modèle finite-sites. Différents taux d’emprunt (10%, 20% et 100%) sont testés ainsi que deux modèles d’emprunt, qu’ils qualifient respectivement de global et de local. Dans ce dernier cas, seules les langues ayant divergé il y a moins de N années peuvent échanger (la valeur de N étant variable elle aussi). La date de divergence du dernier ancêtre commun est ensuite estimée par inférence bayésienne à partir des données générées, puis comparée à la date de divergence réelle. Les auteurs montrent que la date de divergence est toujours sous-estimée (et jamais surestimée). Un taux d’emprunt global assez élevé (20%) ne fausse que très peu la date. Un emprunt local de 20% pour N = 4000 ans ne provoque une sous-estimation de la date que pour le modèle de Dollo stochastique, mais pas pour le modèle finite-sites. De plus, en simulant un effet de divergence en chaîne des dialectes (taux d’emprunt de 100% pour N = 500 ans), les auteurs montrent que la sous-estimation de la date reste faible124.

Par ailleurs, Greenhill et coll. [172] infèrent aussi la date de divergence à la racine de l’arbre et la comparent avec la date réelle. Ils montrent là encore que la date de divergence est systéma- tiquement sous-estimée et ce d’autant plus que le taux emprunt est grand. La sous-estimation est plus importante lorsque la topologie de l’arbre est moins régulière. Lorsque l’emprunt est local la sous-estimation reste assez faible, mais elle devient substantielle lorsque l’emprunt est global.

Dans les méthodes comparatives phylogénétiquement informées. Lesméthodes com- paratives phylogénétiquement informées126 (MCPIs) sont des méthodes analysant les données d’un ensemble de populations en prenant en compte l’information concernant leurs relations phylogénétiques établies au préalable127. S’il existe de la transmission horizontale au sein du système étudié, les relations phylogénétiques utilisées peuvent être inexactes et ceci peut faus- ser l’analyse se servant des MCPIs. Il est donc nécessaire d’évaluer à quel point ce biais peut impacter les conclusions de l’analyse.

Deux études ont abordé l’influence de la transmission horizontale sur les résultats produits à l’aide de MCPIs, utilisées pour étudier des tendances dans l’évolution de caractères culturels. Ces

124.↑ À l’instar de cette étude, d’autres articles semblent analyser l’influence de la transmission horizontale

pour vérifier la robustesse de leurs analyses, comme ceux de Atkinson et Gray [25] et de Nicholls et Gray [A317]125,

mais je n’ai pas eu le temps de les approfondir. 125. Citées par Atkinson et coll. [28].

126.↑ Phylogenetic comparative methods(PCMs), en anglais.

127.↑ L’entrée du glossaireméthodes comparatives phylogénétiquement informéesdonne des explications plus

études s’intéressent plus particulièrement à deux MCPIs : la méthode des contrastes indépendants et letest de Mantel128. Alors que Nunn [319] estime que ces deux méthodes sont très sensibles à des taux même faibles de transmission horizontale, Currie et coll. [102] montrent par une étude plus nuancée que les MCPIs peuvent être dans certaines conditions robustes face aux effets de la transmission horizontale.

2.2.2.2 Détection et mesure de la transmission horizontale

De nombreuses méthodes ont été proposées pour détecter et parfois quantifier l’importance de latransmission horizontalelors de l’inférence phylogénétique. Cette partie se propose de présenter succinctement quelques-unes d’entre elles.

À partir des arbres phylogénétiques inférés. Développées dans le cadre de l’étude de la

coévolution en biologie [A88], les méthodes dites de jungle129 permettent de mesurer le nombre d’événements de transferts horizontaux nécessaires pour réconcilier deuxarbres phylogénétiques non congruents et de donner ainsi une estimation du taux de transmission horizontale [102, p. 3910]. Dans le cadre de l’évolution culturelle, cette méthode a par exemple été utilisée par Temkin et Eldredge [413]130 pour étudier l’évolution d’instruments de musique et par Tehrani et coll. [411] pour étudier l’évolution de techniques et de motifs de tissage. Dans une perspec- tive proche, Nelson-Sathi et coll. [306] et List et coll. [264] utilisent la méthode en réseau par minimisation des transferts horizontaux131 [A104]132 qui permet, à partir d’un arbre préétabli, de rechercher le nombre minimal detransferts horizontauxpermettant d’expliquer les données.

À partir d’indices statistiques.

Indices de cohérence et de rétention. L’indice de cohérence133 (IC) et l’indice de ré- tention134 (IR) sont deux indices statistiques utilisés en biologique pour quantifier la cohérence entre un arbre donné et une matrice de caractères. Plusieurs études appliquant des méthodes cladistiques à des données culturelles utilisent ces indices pour avoir une idée de la présence de transmission horizontale dans le système étudié [217,271,408]135 [240]. La logique sous-jacente est la suivante : si la valeur de ces indices est élevée, les données sont relativement bien expliquées par un arbre (plus que des données aléatoires) ce qui suggère un signal de transmission plutôt vertical. Si elle est faible, c’est qu’il est nécessaire d’expliquer les données par de nombreuses homoplasies, lesquelles peuvent indiquer une importante transmission horizontale. Afin d’évaluer

128.↑ Le test de Mantel est décrit dans l’annexeB.3page421.

129.↑ Jungle methods, en anglais.

130.↑ Voir paragrapheLes travaux de Temkinpage71.

131.↑ Voir paragrapheRéseau par minimisation des transferts horizontaux (MLN)page63. 132.↑ Citée par List et coll. [264, p. 45].

133.↑ Consistency Index (CI) en anglais.

134.↑ Retention Index (RI) en anglais.

si le processus de mélange136, comparativement à celui de ramification137, est plus important lors de l’évolution culturelle que lors de l’évolution biologique138, Collard et coll. [94] comparent la valeur des ICs et des IRs obtenus à partir de 21 jeux de données biologiques et 21 jeux de données culturels. Les valeurs obtenues ne se révèlent pas significativement différentes, avec un IR moyen de 0,61 (valeurs entre 0,35 et 0,94) pour les données biologiques et de 0,59 (valeurs entre 0,42 et 0,78) pour les données culturelles. Ceci leur permet de conclure que les données culturelles étudiées jusqu’ici ne sont pas spécialement moins bien expliquées par une structure arborescenteque les données biologiques, mais aussi de donner une échelle à laquelle se réfèrent par la suite diverses études pour évaluer la grandeur des IRs calculés139.

Cependant Nunn et coll. [321, p. 3813] expriment des réserves quant à l’utilisation de ces indices pour évaluer l’importance de la transmission horizontale. En effet ils sont basés sur la mesure de l’homoplasie qui peut indiquer la présence de transmission horizontale, mais aussi de convergences. La valeur des ICs et IRs peut donc être faible, même en l’absence de transmission horizontale, si la vitesse d’évolution est relativement importante. Par ailleurs, si un assez grand nombre d’éléments sont empruntés conjointement140, les valeurs de ces indices peuvent être éle- vées et ne pas révéler ces événements de transfert horizontal peu nombreux mais significatifs de par leur impact. Ainsi des ICs et IRs faibles n’indiquent pas nécessairement une forte transmis- sion horizontale et des ICs et IRs forts ne sont pas incompatibles avec une forte transmission horizontale. De plus ces indices ne peuvent être intégrés dans un cadre statistique et ne peuvent être testés rigoureusement, tout au plus peuvent-ils être comparés à d’autres résultats (tels ceux de Collard et coll. [94]) issus de la littérature.

Score δ et score Q-résiduel. Le score δ141 est un indice proposé par Holland et coll. [A199]142pour évaluer à quel point unematrice de distancespeut être représentée sous la forme d’un arbre, avant même d’inférer latopologiede cet arbre. Gray et coll. [167] proposent d’utiliser un dérivé de cet indice, le score Q-résiduel143, pour évaluer à quel point un réseau de bipar- titions144 a une topologie proche d’un arbre, et donc indirectement permettre de détecter la présence de transmission horizontale et les unités évolutives impliquées.

Par visualisation des données. Il est aussi possible de représenter les données servant à

l’inférence phylogénétique avec des méthodes comme leréseau de voisins145 [67] ne présupposant pas une organisation en arbre, permettant de visualiser d’éventuelles marques de transmission

136.↑ Blending, en anglais.

137.↑ Branching, en anglais.

138.↑ Voir aussi à ce sujet le paragrapheEthnogenèse ou phylogenèse ?page67. 139.↑ Par exemple les études de Tehrani [409, p. 4] ou Le Bomin et coll. [240, p. 8].

140.↑ De tels emprunts en « paquets » sont semble-t-il vraisemblables, comme je le discuterai dans la partie 7.2page251.

141.↑ Score delta, ou δ-score en anglais. 142.↑ Citée par Gray et coll. [167, p. 3925]. 143.↑ Q-residual score en anglais.

144.↑ Split network, en anglais.

horizontale [28, p. 196]. Par exemple Buckley [71] représente les données issues de la description de 36 traditions de tissage sous la forme d’un réseau de voisin. Ils observent la présence de nombreusesréticulationsdans le diagramme obtenu, lequel constitue unréseaudont la forme est assez différente de celle d’un arbre. Les auteurs déduisent de cette observation (combinée avec d’autres) la présence probable de transmission horizontale [71, pp. 10–12].

Autres méthodes. Une manière d’évaluer le taux de transmission horizontale est évidemment

de chercher par une analyse détaillée l’origine de chacun des éléments et d’estimer par expertise si il a été emprunté. C’est par exemple l’approche de Bowern et coll. [57] dans leur étude de la variabilité des taux d’emprunt et c’est ce qui est fréquemment fait dans les inférences à partir d’unités lexicales où les mots empruntés sont écartés de l’analyse.

J’ai pu recenser diverses autres méthodes de détection et de mesure de la transmission hori- zontale au cours de mes lectures, sans avoir le temps de comprendre et discuter chacune d’entre elles. Je me contenterai donc de donner les noms et les références des travaux où je les ai trou- vées mentionnées, afin que les personnes intéressées puissent s’y référer et approfondir le sujet. Il s’agit dutest de Mantel [319, p. 182], de la statistique D [162, p. 3], de l’indice d’arbritude de Rambaut146 [358, p. 3838], du test de longueur par permutation147 [408, p. 449], du biais de distribution des longueurs d’arbres148 [280, p. 167]149 ou encore de l’indice de Bremer [280, p. 168]149.