• Aucun résultat trouvé

3 - Distribution des mutations rares ou en fréquences intermédiaires dans le polymorphisme des espèces (spectres de fréquences alléliques)

Après concaténation des alignements des différents allèles obtenus par Reads2snps pour une espèce donnée (alignements de 12 à 20 allèles selon l’espèce), pour chaque position polymorphe la fréquence de l’allèle alternatif a été calculée en utilisant un minimum de 16 allèles (8 pour P. furcosetosa, espèce pour laquelle nous n’avons que 6 individus séquencés) identifiés. Puis des comptes par classe de fréquence sont réalisés pour identifier le nombre de mutations par classes de fréquence à l’aide d’un script python développé par V. Mataigne (M2 Bioinfo, ABIMS).

A - Distribution des mutations polymorphes non-synonymes selon la nature des acides aminés

Comme précédemment, après concaténation des alignements des différents allèles obtenus par Reads2snps pour une espèce donnée (alignements de 12 à 20 allèles selon l’espèce), les remplacements d’acides aminés entre allèles ainsi que leur directionalité ont été comptés entre paires de séquences à l’aide du programme MutCount de la suite AdaptSearch implémentée dans Galaxy3 (AdaptSearch v. beta, V. Mataigne ; Fontanillas et al. 2016). Les fréquences de ces remplacements selon les 12 espèces analysées ont ensuite fait l’objet d’une analyse en composantes principales avec le module FactomineR (Hê et al. 2008) sous R.

B - Mesures d’activité de la cMDH entre espèces et détermination de la température de dénaturation thermique (Tm) des différentes isoformes

Afin d’étudier un cas concret, et de se faire une idée de l’effet de l’environnement et de l’action de la sélection nous avons cherché à caractériser le polymorphisme d’un système enzymatique central. La malate déshydrogénase cytoplasmique (cMDH) joue un rôle important dans l’alternance des métabolismes aérobie et anaérobie (navette malate-aspartate). Elle est présente dans tous les tissus, en quantité suffisamment importante pour permettre la mesure de son activité sans nécessité de purification. Elle catalyse l’inter-conversion de l’oxaloacétate (OAA) en L-malate en utilisant comme co-facteur le NADH. Le suivi de la réaction dans le sens de la formation de L-malate est possible grâce au suivi de la consommation simultanée de NADH qui présente un pic d’absorbance à 340 nm. Pour étudier la cinétique de cet enzyme entre les différentes espèces et leur habitat thermique, les tissus de chaque individu/espèce sont placés dans 500 µL de tampon d’extraction anti-protéase (NaCl 150 mM ; PMSF 1 mM ; NaH2PO4 10 mM ; pH 7,2) pour y être broyés sur glace. Le broyat est ensuite centrifugé à 4°C, 12000 rpm pendant 15 min afin de récupérer le surnageant contenant les protéines cytosolubles et conservé sur glace jusqu’à son injection dans un milieu réactionnel afin de faire ensuite les mesures d’activité dans un spectrophotomètre thermostaté à 20°C.

C - Mesure d’activité et détermination du Tm

Le mélange réactionnel (tampon Imidazole 50 mM ; MgCl2 1,5 mM ; NADH 0,1 mM ; OAA 0,1 mM ; pH 7,4) est placé directement dans les cuves de spectrophotométrie et 10 µL d’extrait protéique brut est ajouté. Des tests préliminaires de dilution des extraits protéiques sont réalisés afin que la concentration en cMDH permette de suivre le déroulement de la réaction enzymatique sur 5 min et de déterminer la vitesse initiale de la réaction. La réaction s’effectue à 20°C avec des extraits protéiques ayant été incubés auparavant durant 20 min à 0, 15, 25, et une gamme de température entre 30 et 45°C (10 échantillons dans une machine PCR à gradient), au besoin d’autres mesures ont été faites dans une gamme de températures plus étroite autour de la température ou une baisse d’activité est constatée. Les vitesses initiales ainsi obtenues pour les différentes températures d’incubation permettent de définir la température (Tm) pour laquelle la cMDH perd la moitié de son activité initiale (référence mesurée avec l’extrait incubé à 0°C). La valeur de Tm est déterminée par ajustement d’une courbe de type ‘survie’ avec le logiciel JPM11. L’algorithme explore différentes valeurs permettant d’ajuster la valeur du

plateau, la valeur de Tm et une valeur correspondant à la pente autour du Tm. Chaque valeur permet de tester la corrélation avec les valeurs mesurées de façon à minimiser les écarts entre valeur théorique et mesurée. Les valeurs de Tm sont ensuite comparées entre individus au sein de chaque espèce et entre espèces à l’aide de boîtes à moustaches obtenues par ggplot sour R pour estimer le degré d’hétérogénéité de la sensibilité des différentes isoformes selon l’habitat thermique de l’espèce analysée.

D - Test de Tukey

Le test de Tukey ou test DSH (différences significatives honnêtes) permet une comparaison simultanée deux à deux de plusieurs moyennes en se basant sur des distributions de Student. Il permet ainsi de mettre en évidence des groupes statistiques au sein d’un ensemble de distributions. Ce test est réalisable sous R et permet une plus grande confiance dans les différences mises en évidence puisqu’il est plus conservateur que la plupart des tests habituels réalisés pour ce genre de comparaison (Faraway 2002). Ce test nous a également permis tester la significativité des différences entre les distributions du D de Tajima et des indices de diversité associés obtenus par espèce.

4 - Résultats

A - Contrôle qualité des banques

Après un séquençage Illumina sur 2 lignes d’un séquenceur Hiseq 2500 par le service de génomique dédié de l’Université McGill (plateforme Génome-Québec, Canada), les données nous ont été envoyées sous la forme de fichiers après démultiplexage des lectures selon les 12 index choisis et nettoyés sur la base des phred scores (12 fichiers compressés contenant les données de séquençage appariées (R1 & R2)).

Dans un premier temps une vérification du nombre de lectures obtenues pour chaque combinaison barcode/index (données individu) a été réalisée pour identifier la proportion relative de chaque individu dans la composition de la banque pour le séquençage. La Figure V-1 montre une comparaison des individus les plus couverts de chaque espèce. Cette comparaison permet de nous assurer que le nombre de lectures obtenues par séquençage Illumina est comparable entre individus au sein d’une même espèce et entre espèces.

Figure V-18 : Abondances relatives des lectures de chaque individu dans les banques spécifiques pour nos espèces de Terebellomorpha (Alvinellidae et Terebellidae)

Figure V-19 : Abondances relatives des lectures de chaque individu dans les banques spécifiques pour nos espèces de Polynoidae

Figure V-20 : Couvertures (en nombre de lectures) comparées entre les 12 espèces sur les 10 individus les plus couverts (6 pour P. furcosetosa).

B - Alignement des séquences sur les transcriptomes de référence

Pour chacune des banques associées à une espèce, les lectures des 10 individus les plus couverts ont été conservées et alignées sur un transcriptome de référence. Le tableau V-2 récapitule les conditions d’alignement des lectures sur les transcrits ainsi que le pourcentage de lectures associé à une région codante pour chaque espèce. Pour la majorité des cas, l’alignement réalisé en End-to-End a permis d’obtenir un taux d’alignement des lectures compris entre 0,23 et 5,14%. Dans les autres cas, différents tests ont été réalisés afin de définir les conditions d’alignement en mode Local (plus permissif en fonction de la longueur de la graine permettant l’alignement et le nombre de mésappariements sur cette graine). La taille optimale de la séquence d’ancrage (graine) pour obtenir un pourcentage de locus maximal est comprise entre 18 et 20 bp.

Table V-9 : Bilan des conditions et résultats des alignements réalisés pour chaque espèce. L’espèce de référence correspond au transcriptome utilisé comme référence. Le taux d’alignement (en % de lectures alignées sur le total) est indiqué.

Ces alignements étant réalisés sur des transcriptomes limités aux cadres de lecture ouverte, il a été possible d’identifier des sites polymorphes (SNP) pour un petit nombre de contigs et de caractériser les polymorphismes synonyme et non-synonyme à l’aide du script dNdSpiNpiS (développé par Nicolas Galtier et collaborateurs). Les figures V-4 et V-5 représentent respectivement la moyenne et l’écart type des valeurs de N et S mesurées pour l’ensemble de ces contigs pour les Terebellomorpha et Aphroditiformia avec le nombre de contigs utilisés pour chaque espèce. On constate dans les deux groupes d’annélides (Terebellomorpha et Aphroditiformia) une grande diversité dans la distribution des valeurs de N et S selon l’espèce. Bien que très variable d’une espèce à l’autre, aucune corrélation n’a été trouvée entre la variabilité inter-locus (différence entre les valeurs maximale et minimale) et le nombre de contigs utilisés pour chaque espèce.

Dans le cas des Aphroditiformia, une corrélation linéaire positive est observée entre N et S avec une distinction marquée des deux espèces hydrothermales (L. fimbriatum et B. segonzaci) présentant des diversités synonyme et non-synonyme nettement inférieures à celles des autres espèces. En effet, ces deux espèces ont une diversité trois fois plus petite que celle des espèces originaires d’Antarctique et de Bretagne. De plus, bien qu’aucune différence significative n’ait été trouvée entre les espèces antarctiques et bretonnes, les espèces de l’environnement polaire semblent présenter des valeurs de diversité légèrement plus élevées que celle du milieu côtier breton.

Figure V-21 : Diversités synonyme (piS) et non-synonyme (piN) des espèces de Polynoidae hydrothermales (rouge), antarctiques (bleu) et bretonnes (vert). Les moyennes et écarts types présentés sont obtenus sur la base des mesures réalisées un nombre de contigs relativement variable et indiqué pour chaque espèce.