• Aucun résultat trouvé

Les biologistes, pour modéliser la biodiversité, ont traditionnellement utilisés des arbres, censés représenter les liens qui unissent les organismes dont ils étudient l’évolution. La démarche suivie pour démêler la complexité de ces relations a toujours été de déterminer d’abord le processus le plus simple pouvant l’expliquer, puis de le complexifier progressivement afin que sa valeur descriptive et/ou prédictive devienne de plus en plus fidèle à la réalité. Dans les arbres qui décrivent les relations entre les organismes, les nœuds internes représentent les ascendants inférés et les feuilles, les taxa réellement observés. La longueur des branches reliant les nœuds entre eux est relative à la quantité de variation entre les taxa (inférés ou observés). Ainsi, un arbre peut-il être interprété biologiquement pour démontrer une histoire évolutive. L’utilisation de tels arbres présuppose néanmoins que le mécanisme sous-jacent à l’évolution des taxa est un mécanisme strictement bifurcatif, c'est-à-dire qu’un descendant a toujours un seul ascendant. Or, cette ascendance unique ne modélise pas explicitement la réalité évolutive de tous les jeux de données de séquences. Dans le cas des phénomènes d’explosion évolutive, comme par exemple la primo-infection au virus HIV (Buendia & Narasimhan 2009), l’arbre inféré des données devrait présenter des polytomies pour rendre compte des véritables liens phylogénétiques entre les taxa. Ces polytomies figurent des incertitudes quant au patron réel des branchements de l’arbre, ce qui revient à dire que plusieurs topologies sont possibles pour résoudre le jeu de données. Dans le cas d’histoires évolutives complexes, les nœuds internes peuvent non seulement être inférés, mais être également des taxa réellement observés. Ainsi, la représentation des interactions entre les taxa, pour être fidèle à la réalité évolutive, devrait être modélisée en un réseau, c'est-à-dire un arbre réticulé.

Les réseaux ne présupposent pas un modèle évolutif en forme d’arbre et ne vont pas contraindre la résolution d’un jeu de données à devenir un arbre. Leur utilisation peut donc

a minima indiquer si le meilleur modèle pour résoudre un jeu de données est ou non un

arbre. Les réseaux peuvent montrer les histoires évolutives parallèles, mais non identiques, de lignées dérivant pourtant d’un ancêtre commun. Un réseau peut donc avoir deux interprétations biologiques possibles : (i) la représentation de liens non dichotomiques entre ascendants et descendants et (ii) la représentation de patrons évolutifs incompatibles résultant de conflits ou d‘incertitudes dans la résolution des données (Morrison 2005). Dans le cas des populations dont la reproduction est sexuée par exemple, les liens entre organismes ne sont explicables que par un réseau, pour la simple raison que la reproduction sexuée implique l’inter-fécondation, ce qui génère un réseau de connections entre parents et descendants, appelé généalogie réticulée. La reproduction sexuée n’est cependant pas le seul mécanisme introduisant ces phénomènes de réticulation. En effet, dans le cas de mécanismes tels que les recombinaisons, les hybridations, les transferts latéraux de gènes ou les réassortiments géniques, les descendants ont manifestement également plusieurs ascendants (Arenas et al. 2008 ; Posada & Crandall 2001).

Les conflits entre des patrons de caractères différents peuvent rendre un arbre phylogénétique instable, ces conflits n’étant pas compatibles avec une représentation en un arbre unique. Les conflits peuvent avoir plusieurs origines : (i) des incertitudes ou des ambigüités dues à des données non suffisamment précises (défaut d’alignement des séquences, utilisation d’un modèle évolutif non adapté…), (ii) l’existence d’homoplasies dans les données, c'est-à-dire que les caractères, au lieu d’être hérités, proviennent de convergence (similarité des caractères, mais non réelle homologie) ou de reversions et (iii) d’évènements évolutifs impliquant des échanges de gènes ou de fragment de gènes entre des organismes différents.

La plupart du temps, ces conflits sont résolus en affectant un poids aux nœuds de l’arbre, comme c’est par exemple le cas avec le ré-échantillonnage des données (bootstraps). Une valeur faible de bootstrap signifie qu’il existe de nombreux conflits entre patrons de caractères, sans pour autant en expliciter la nature et la localisation. En effet, l’arbre phylogénétique produit est l’arbre majoritaire, les arbres conflictuels représentant les patrons mineurs restant discrets. Les interconnections des branches, dans un réseau vont permettre de spécifier la nature et la localisation des conflits. Ainsi, les parties du réseau ressemblant à un arbre dichotomique vont représenter une absence de conflit entre les patrons de caractères, tandis que les multifurcations attesteront un manque de données pour résoudre leur phylogénie. Enfin, les réticulations (également appelées anastomoses) montrent l’existence d’un conflit entre au moins deux patrons de caractères. Ainsi, le réseau montre visuellement les arbres alternatifs compatibles avec le jeu de données. Tout comme dans le cas d’un arbre bifurcatif, la distance phénétique entre deux taxa est proportionnelle au nombre de changements d’état des caractères ou à la distance génétique à la différence près qu’il peut exister plusieurs chemins pour la représenter.

La façon de construire les réseaux est très semblable à celle utilisée pour construire les arbres. Concernant les arbres, il s’agit de regarder les états des caractères dans le jeu de données, puis de les résumer (les « afficher ») en un diagramme sur lequel on place une racine afin de lui donner une direction évolutive. Il n’existe ainsi qu’un chemin unique et sans ambigüité entre la racine et chaque nœud ou feuille de l’arbre, chaque nœud interne inférant un ancêtre. Ainsi, les caractères et leur interprétation phylogénétique sont-ils réunis sur un seul et même diagramme. Cette possibilité provient du fait que les méthodes de construction d’arbres délaissent les ambigüités (rares) qui existent dans les données pour ne s’intéresser qu’aux évènements évolutifs « vrais » (plus nombreux). La construction d’un réseau selon cette approche « d’affichage des caractères » reviendrait à superposer les arbres correspondant à tous les patrons possibles, et compatibles avec les données, les plexus anastomotiques représentant les zones conflictuelles. L’enracinement du réseau permettra de lui donner une direction évolutive. Cependant un tel réseau n’est pas interprétable sur le plan de l’évolution de l’état des caractères puisque l’ensemble des nœuds, tout comme l’ensemble des réticulations dans le réseau ne correspondent pas obligatoirement à un ancêtre (Nakhleh et al. 2003), ni à un évènement évolutif. En tant que

résumé mathématiques d’arbres multiples (Bryant 2003), les réseaux permettent donc d’explorer les données, mais ne résolvent pas leur véritable phylogénie.

Pour construire des réseaux phylogénétiques explicites, des méthodes ont été développées visant à modéliser les processus sous-jacents aux réticulations des arbres phylogénétiques (recombinaisons, hybridation, transferts latéraux de gènes…) en détectant les patrons de caractères que ces processus induisent dans les données. Le principe de construction assume un arbre raciné auquel on ajoute des réticulations selon un modèle mathématique déterminé en fonction du processus biologique choisi. Les séquences ancestrales peuvent alors évoluer en séquences descendantes, le réseau étant contraint par une direction temporelle due à la racine. Plusieurs types de réseaux phylogénétiques explicites peuvent être construits selon cinq différentes méthodes.

Les réticulogrammes sont des réseaux construits selon une méthode basée sur les distances (Legendre & Makarenkov 2002 ; Makarenkov & Legendre 2004). Un premier arbre est d’abord construit selon une méthode de distance, puis les réticulations sont ajoutées progressivement de façon à optimiser des critères d’adéquation du réseau aux données. Le principe sous-jacent à cette méthode est que les phénomènes de réticulation sont plus rares que les dichotomies dans un jeu de données et donc le réseau ne devrait pas trop dévier de l’arbre phylogénétique qui reste le modèle le plus simple pour représenter les données. Les réticulations, qui représentent donc les différents patrons de caractères non explicites dans l’arbre original, sont parfois difficilement interprétables. Comme toutes les branches sont représentées dans ces réseaux, y compris celles ayant une longueur nulle, le diagramme est d’autant plus difficile à lire lorsque le nombre de caractères non résolus croît. De plus, malgré la racine, la direction des branches peut rester ambigüe.

La méthode statistique en parcimonie permet également de construire des réseaux (Templeton et al. 1992). Le principe est alors de connecter les taxa en fonction de l’augmentation des différences de caractères observés entre eux, dans la limite de la fiabilité phylogénétique parcimonieuse car la parcimonie est sujette au phénomène d’attraction des longues branches. Comme en parcimonie, chaque branche représente un changement particulier de caractère. L’interprétation biologique est la même que pour un arbre parcimonieux, puisque les nœuds ancestraux sont explicitement inférés. Cette méthode peut néanmoins aboutir à la construction de réseaux multiples et disjoints lorsque la diversité des caractères est trop élevée, et la direction des branches même en présence d’une racine, reste parfois ambigüe.

Des méthodes basées sur les caractères ont aussi été développées, permettant de construire des réseaux dits médians, principalement appliquées aux caractères binaires (Bandelt et al. 2000). Ces méthodes affichent visuellement tous les états des caractères afin de voir les incompatibilités entre les différents patrons, mais demande une nouvelle dimension pour chaque nouveau patron implémenté. Le diagramme devient donc vite très complexe avec l’augmentation du nombre de différences entre les caractères.

L’interprétation biologique est possible, les branches parallèles étant contraintes par le modèle à être unidirectionnelles et sans ambigüité en présence d’une racine. Toutefois, les nœuds internes du réseau ne représentant pas tous un ancêtre inféré, interpréter toutes les réticulations en tant qu’évènement évolutif augmente le risque de génération de faux positifs.

Une quatrième famille de méthode a été développée, utilisant le principe de la « décomposition par partitionnement » (split decomposition). L’objectif de cette méthode est d’afficher le maximum d’états des caractères dans un diagramme à deux dimensions. Le diagramme peut être construit en utilisant la parcimonie, mais le plus souvent la méthode utilise une mesure des distances entre les caractères (Bandelt & Dress 1992b ; Bandelt 1992a). Le réseau inféré représente une collection de différentes bipartitions 𝐴 et 𝐵 non vides d’un jeu de données 𝐷, de telle manière que 𝐴 ∪ 𝐵 = 𝐷 et que 𝐴 ∩ 𝐵 = ∅. Pour chaque partition du jeu de données, une distance est définie et un index d’isolement est calculé en utilisant des quartets de partitions. Cet index établit si la distance calculée peut soutenir la partition réalisée. La décomposition par partitionnement utilisera alors les distances affectées à chaque partition ainsi que l’index d’isolement afin de trouver la réalisation minimale permettant de résoudre le jeu de données. En effet, les relations unissant quatre taxa peuvent être décrites en construisant trois arbres non enracinés. Si un seul taxon diffère par ses caractères, un seul arbre sera construit, tandis que si au moins deux taxa diffèrent, ce sera un réseau. L’affichage des conflits dans ces réseaux génère des multifurcations non informatives (représentant des faux négatifs) lorsque le conflit est trop complexe. De plus, les nœuds internes ne représentant pas tous des ancêtres, l’interprétation biologique peut être rendue difficile, bien que les branches parallèles soient unidirectionnelles.

Nous venons de le voir, les réseaux médians génèrent des faux positifs, tandis que la décomposition par partitionnement génère des faux négatifs. Pour pallier ces deux problèmes, la méthode dite des « réseaux voisins » (neighbor-net) a été développée (Bryant & Moulton 2004). Basée sur l’utilisation des distances entre les taxa, cette méthode tend à généraliser les méthodes du plus proche voisin (neighbor-joining) en affichant les données en deux dimensions. C’est la meilleure méthode pour résoudre les phylogénies complexes, même si son interprétation biologique est parfois difficile. En effet, bien que la racine et le modèle infèrent des branches parallèles unidirectionnelles, certains des nœuds internes ne correspondront pas à des ancêtres.

5- Les virus dans l’histoire évolutive du vivant