• Aucun résultat trouvé

Analyse des mutations synonymes pour le gène env

Nous avons donc développé de nouvelles méthodes afin de détecter une pression de sélection spécifique à l’étude de la phase -2. Nous présentons maintenant deux des méthodes développées.

3.3 Analyse des mutations synonymes pour le gène env

Nous proposons ici une méthode originale, qui se base sur les contraintes imposées par le code génétique. Notre hypothèse est la suivante : nous détectons une pression de sélection lorsque la séquence du gène env autorise plusieurs possibilités pour le codage des acides aminés d’ASP (mutations synonymes sur env et non synonymes sur asp), mais où seulement une partie de ces possibilités (un des acides aminés possibles) est observée.

Pour les analyses qui suivent, nous allons considérer les codons du gène env comme codons de référence et codons conditions, et le codon en vis à vis sur asp comme codon induit (cf. Fig. 3.3). Le codon de référence va déterminer l’essentiel du codon induit sur l’antisens ; dans certain cas cette détermination dépendra du codon condition.

De la même façon nous pouvons définir les acides aminés codés par ces codons comme acides aminés de référence, acides aminés conditions et acides aminés induits.

FIGURE3.3 –Schéma représentant les codons en sens et en antisens.

Du fait du chevauchement des positions 1 et 2, l’acide aminé induit sera dans la majorité des cas totalement contraint à un seul acide aminé possible. Par exemple, si l’acide aminé de référence est une Alanine (Ala, A), alors l’acide aminé induit sera nécessaire-ment une Alanine. Si l’acide aminé de référence est une Proline (Pro,P), alors l’acide aminé induit sera une Glycine (Gly, G).

Parfois le choix sera également limité en fonction de l’acide aminé condition. Par exemple lorsque les acides aminés de condition et de référence sont des Cystéines (Cys, C), alors le l’acide aminé induit sera nécessairement une Glutamine (Gln, Q).

Dans d’autres cas, il peut y avoir plusieurs choix (2 ou 3, jamais plus), et ceux-ci dé-pendent toujours de l’acide aminé condition. Par exemple, lorsque les acides aminés de condition et de référence sont respectivement une Isoleucine (Ile, I) suivie d’une Cystéine (Cys, C), alors l’acide aminé induit est une Glutamine (Gln, Q) ou une Histidine (His, H). Un cas important est celui du codon stop ; par exemple lorsque les acides aminés de condition et de référence sont respectivement une Cystéine et une Tyrosine, alors "l’acide aminé" induit est obligatoirement un stop. Ceci implique que le motif Cystéine-Tyrosine en sens est impossible dès lors qu’il y a en vis-à-vis d’un gène che-vauchant en phase -2. Lorsque les acides aminés de condition et de référence sont respectivement une Alanine suivie d’une Tyrosine, alors l’acide aminé induit peut être un codon stop ou une Tyrosine.

Pour résumer trois scénarios sont possibles :

1. Acide aminé de référence → 1 seul acide aminé induit possible (ici l’acide aminé condition n’importe pas)

2. Acide aminé condition + Acide aminé de référence → 1 seul acide aminé induit possible

3. Acide aminé condition + Acide aminé de référence → Plusieurs acides aminés induits possibles

Le codon stop est codé par les codons {taa, tag} et {tga}, nous devons alors distinguer les deux cas. De même, nous devons distinguer plusieurs cas pour les acides aminés Leucine, Arginine et Sérine, qui sont chacun codés par plusieurs combinaisons de nucléotides en positions 1 et 2 du codon. À l’inverse tous les autres acides aminés sont codés par une combinaison unique sur les positions 1 et 2. Si nous résonnons en terme d’acides aminés conditions, références et induits, nous avons ainsi 20+3=23 possibilités pour les acides aminés conditions et références. En effet, on suppose que le brin sens ne contient pas de codons stops. Au niveau de l’acide aminé induit 20+3+2=25 possibilités sont possibles (20+3 acides aminés et 2 types de codons stops différents).

Pour détecter la pression de sélection, on se base sur les cas où il existe plusieurs possi-bilités pour l’acide aminé induit. La liste de l’ensemble des binômes d’acides aminés (condition + référence) possibles et des acides aminés induits a alors été réalisées. La première étape de l’analyse a consisté à scanner l’alignement protéique de séquence dans le sens de la phase +1 et à observer pour chaque site le binôme d’acides aminés rencontré et l’acide aminé induit. Nous avons ensuite regardé dans quelle mesure, une seule possibilité est retenue alors qu’il y a un choix multiple. Pour les sites du codon

start et les choix qui incluent des codons stops, la mesure a été orientée respectivement

vers une présence/absence de ces choix.

3.3. Analyse des mutations synonymes pour le gène env

entre les acides aminées Glutamine (Glu, Q) et Histidine (His, H). Si la proportion entre ces acides aminés est de 95% de Q et 5% de H, l’indice mesuré pour ce choix à cette position était de 95%. Si le choix possible est entre un codon stop et les acides aminés Cystéines et Tryptophanes, nous avons mesuré la proportion de séquences dépourvues du codon stop.

Pour chaque site et chaque choix, nous avons ensuite comparé les indices dans le groupe M et les groupes non M. Afin de comparer les résultats entre les deux groupes, il fallait que la distribution des distances entre les séquences du groupe M et non M (le groupe O dans cette étude) soit comparable. Pour cela nous estimons à l’aide du logiciel DNADIST (Felsenstein, 2005), les distances évolutives paires à paires entre les séquences pour le groupe M et pour le groupe O (groupe le plus similaire au groupe M en terme de distance intra-groupe). Le modèle F84 avec une loi gamma de 1 et un paramètre kappa= 2.077 est utilisé pour l’analyse. Ce ratio kappa (taux de transition/transversion) a été estimé à l’aide du logiciel Phyml en se basant sur un arbre phylogénétique de 100 séquences du gène env (GTR, Γ4).

L’étape suivante a consisté à réaliser deux échantillons ayant des distances phylogéné-tiques proches. Pour cela, nous avons calculé un score prenant en compte la somme des différences au carré de la fréquence de chaque classe de la distribution des distances phylogénétiques de chaque groupe, discrétisées en 20 classes différentes.

Scor e = X20

x=1(di st M(x) − di stnonM(x))2 (3.1)

avec di st M(x) et di stnonM(x) la fréquence des distances évolutives présentent dans la classe x.

Nous avons ensuite choisi une séquence au hasard à supprimer parmi les séquences du groupe M. Si la suppression de cette séquence améliorait le score de plus de 0.000001 nous avons supprimé cette séquence de l’analyse, sinon nous l’avons gardé. Cette étape a été réitérée jusqu’à l’obtention d’un score égal à 0.001. Nous avons ainsi obtenu des échantillons de séquences disposant d’une distribution de distances proches (cf. fig. 3.4). Cinq échantillons sont réalisés avec près de 2 000 séquences pour le groupe M et les 52 séquences disponibles pour le groupe O.

Après comptage pour chaque site des différents choix possibles, nous n’avons intégré à notre analyse que les choix possédant un total d’au moins 100 éléments pour le groupe M et 10 pour le groupe O. Un test de proportion (Z-score) est également effectué afin de ne garder que les résultats dont la proportion de l’acide aminé majoritaire est significativement différente (p-value <5%) entre les deux groupes.

FIGURE3.4 –Distribution des distances évolutives du groupe M et O avant A) et après B) sélec-tion des séquences du groupe M.

Plus le score moyen observé est proche de 1 plus la pression de sélection est forte. Des tests de Wilcoxon ont ensuite été réalisés afin d’obtenir une p-value pour évaluer la différence entre les différents échantillons. Les sites analysés étant les mêmes pour la région ASP du groupe M et du groupe O, nous avons utilisé un test appareillé pour comparer ces deux groupes. Ce même test a été réalisé pour la comparaison entre la région Env-ASP du groupe M et O. Quant à la comparaison des régions ASP et Env-ASP (régions de part et d’autre de la région ASP) les sites étant indépendant nous avons réalisé un test non appareillé. Nous obtenons les résultats présentés dans la figure 3.5. Nous observons une différence très significative entre la région ASP du groupe M et du groupe O (P-value=0.02) ainsi qu’entre la région ASP et la région Env-ASP du groupe M (P-value=0.01). Cette différence n’est pas présente entre les régions Env-ASP des groupes M et O (Score respectivement de 0.78 et 0.79, P-value=1), ni entre les régions ASP et Env-ASP du groupe O (P-value =0.9). La méthode appliquée ici a donc permis de mettre en évidence une pression exercée par la protéine ASP.

Cependant, cette méthode implique la réalisation de plusieurs tests imbriqués qui peuvent influencer les résultats. En effet, après sélection des séquences du groupe M, nous avons réalisé un test de proportion puis un test de Wilcoxon. De plus, les contraintes étant très fortes, la mesure n’est réalisée que sur peu de sites (environ une dizaine de sites suivant les échantillons pour la région ASP). De plus, la majorité de ces sites concernent des choix impliquant un codon stop. Ensuite, le score obtenu est très dépendant de l’échantillonnage réalisé. En effet, suivant la distribution des distances phylogénétiques dans l’échantillon nous obtenons des résultats différents. Enfin, la corrélation phylogénétique entre les séquences n’est pas prise en considération.