• Aucun résultat trouvé

PARTIE I: INTRODUCTION

CHAPITRE 1 - DE L’INTERET DES DONNEES MOLECULAIRES

1.3. L’analyse des données moléculaires

Les données moléculaires consistent en séquences d’ADN, d’ARN ou d’acides aminés. Une séquence n’est autre chose que l’ensemble de bases ou de résidus ordonnés qu’un organisme quelconque va présenter à un gène ou à une région génomique particuliers.

De manière similaire aux données morphologiques, les jeux de données moléculaires vont contenir des caractères, en l’occurrence, chacun des sites de la séquence, ainsi que des états de caractère qui correspondront à chacun des bases ou des résidus présents à un site donné. Bien sûr, pour qu’elles soient comparables, les séquences doivent aussi satisfaire la condition sine qua non d’être homologues, et cette homologie doit aussi être vérifiée pour chacun des sites comparés. C’est pourquoi il est nécessaire de conduire, avant de procéder à l’inférence phylogénétique proprement dite, ce qu’on appelle l’alignement de séquences (Figure 1.4).

En effet, pendant l’évolution des séquences d’ADN, substitutions, insertions et délétions vont produire la plupart des différences observables entre séquences. A ceci peuvent s’ajouter des accélérations du taux d’évolution, ou les faibles contraintes sélectives agissant, par exemple, sur les régions non-codantes. Aux différences entre séquences vont s’ajouter des facteurs comme la taille et le nombre des séquences et l’usage de codes génétiques différents ce qui va nécessairement faire augmenter le nombre de comparaisons ainsi que la probabilité d’occurrence des événements mentionnés ci-dessus.

Figure 1.4. Portion de l’ARNr mitochondrial 12S de Chiroptères et un groupe externe (la vache, Bos

taurus) a) non alignée ; et b) alignée. L’alignement sert à mettre en correspondance les sites

homologues des séquences afin de les rendre comparables. On apprécie aussi le fait que dans cet alignement il y a des régions qui sont plus faciles à aligner que d’autres.

C’est pourquoi, l’alignement de séquences a nécessité le développement d’outils et d’algorithmes informatiques permettant d’analyser les volumes croissants de séquences tout en profitant des améliorations de la puissance de calcul et incorporant des informations de type biologique qui peuvent fournir des paramètres qui augmenterait la fiabilité de l’alignement.

Par exemple, l’analyse de séquences codantes offre la possibilité de traduire les séquences, aligner les acides aminés et puis revenir aux séquences en nucléotides. Ceci a l’avantage de la conservation des acides aminés, beaucoup plus marquée que chez les nucléotides en raison des contraintes physico-chimiques des protéines et de la redondance du code génétique pour les nucléotides. Ceci est avantageux de deux points de vue : le premier est que en alignant les séquences protéiques le nombre de caractères est divisé par trois grâce à l’encodage par codons. Ensuite, ceci va permettre d’aligner avec plus de fiabilité les zones hypervariables tout en respectant le cadre de lecture, ce qui n’est pas toujours le cas pour les séquences nucléotidiques. Ce type de démarche est conduit de manière très performante par des logiciels comme MACSE [Ranwez et al., 2011] qui permet en plus d’aligner des séquences utilisant des codes génétiques différents.

De manière fréquente, il va résulter que certaines régions vont être difficiles à aligner et leur comparaison aura peu de fiabilité. Dans ce cas particulier, le mieux est d’exclure ces régions des analyses afin d’éviter un faux signal et des estimations erronées des différents paramètres qui peuvent être calculés à partir des séquences. Des outils comme GBLOCKS [Castresana, 2000] et trimAL [Capella-Gutierrez et al., 2009], permettent d’améliorer de manière considérable la qualité des alignements.

Suite à l’alignement, il est possible d’identifier deux types de caractères :

Invariables : ceux qui ont le même état de caractère pour tous les taxons. En

conséquence, ils ne fournissent aucune information sur les relations de parenté et ne sont pas directement utilisables pour la reconstruction phylogénétique.

Variables : Ce sont des sites qui vont présenter des états de caractère différents

lorsqu’ils sont comparés pour tous les taxons. Ici, on peut encore reconnaître deux types : un premier groupe inclut les caractères dits informatifs, correspondant à ceux qui sont partagés par au moins deux taxons et qui sont donc susceptibles de fournir des informations par rapport à l’apparentement des taxons concernés. Le

deuxième groupe, les caractères non-informatifs, comprend les sites qui, même s’ils sont variables, présentent différents états de caractère qui ne sont pas partagés mais exclusifs à un taxon particulier (Figure 1.5).

Selon la manière dont ils apparaissent le long de l’arbre, les caractères peuvent aussi être classés en deux groupes : d’une part, les plésiomorphies, correspondant aux états de caractère considérés comme les états ancestraux, et, d’autre part, les apomorphies, incluant les états considérés comme dérivés. Les apomorphies qui sont partagées par deux ou plus de taxons prennent le nom de synapomorphies (caractères dérivés partagés) tandis que celles qui ne sont pas partagées mais présentes de manière exclusive chez un taxon particulier reçoivent le nom d’autapomorphies. Il est aussi possible qu’un état de caractère apparaisse comme étant partagé par deux taxons ou plus, mais que ce caractère soit apparu de manière indépendante. Les états de caractère touchés par cette situation reçoivent le nom de homoplasies ou convergences évolutives. Il peut arriver aussi que certains taxons subissent des reversions, c’est-à-dire qu’ils reviennent à l’état de caractère ancestral à partir d’un état dérivé.

Figure 1.5. Exemples des différents types de caractères sur un alignement de l’ARN ribosomique

mitochondrial 12S chez les Chiroptères. Le « I » montre un site invariable, les étoiles des sites variables mais non-informatifs et les flèches des sites variables informatifs. Sur le site informatif le plus à droite, il y a une synapomorphie potentielle pour les individus présentant un C en supposant que T serait l’état ancestral car présent chez le groupe externe (Bos taurus).