• Aucun résultat trouvé

Nous avons ici mesuré la conservation des acides aminés le long de la séquence pro-téique ASP. Dans la figure 2.18, nous avons mis en parallèle la conservation propro-téique le

2.5. Analyse de l’usage du code du gène asp et de la composition en acides aminés de la protéine ASP

long de la phase -2 avec la conservation protéique le long de la phase +1 (Env). Pour cela, nous avons mesuré le pourcentage de présence de l’acide aminé majoritaire à chaque position donnée le long de la séquence. La séquence protéique de la phase +1 (Env) est inversé afin de pouvoir comparer les deux courbes.

FIGURE2.18 –Conservation le long de la séquence ASP. On observe ici la totalité de la conser-vation de la phase -2 (en rouge) et de la protéine env (en bleu, sens de la protéine inversé pour permettre la comparaison). Une fenêtre glissante de 20 sites (moyenne) est réalisée en prenant en considération la conservation du site majoritaire.

Si nous observons la région de l’ORF ASP sur la phase -2, nous retrouvons au début de la séquence une région très conservée (> à 80% de conservation), celle-ci est ensuite suivie de deux zones variables. Dans la première zone variable, la courbe diminue jusqu’à 50% de conservation, quant à la seconde zone variable la courbe chute jusqu’à seulement environ 20% de conservation. Si nous comparons ce résultat avec l’observation obtenue pour la protéine Env, nous retrouvons ces deux zones variables. Il s’agit respectivement des régions V5 et V4. En effet au niveau de ces régions, la variabilité au niveau protéique et nucléique est très importante. Nous avons également mesuré la conservation de chacune des trois positions des codons (1er epositions, 2nd positions, et 3eme positions). Comme attendu, nous observons une conservation forte des premières et deuxième positions des codons et une conservation plus faible de la troisième position, que ce soit dans le sens du gène env comme dans le sens de la phase -2. Au niveau des zones variables, les trois positions des codons sont très variables au niveau du gène env. Cette variabilité se répercute alors sur la protéine ASP. Tout au long de la séquence, nous observons une corrélation très forte entre la conservation de la séquence protéique en phase -2 et la protéine Env, que ce soit dans la région chevauchante comme dans la région non chevauchante.

pression de sélection purificatrice sur la phase +1 entraînera une pression de sélection purificatrice sur la phase -2 et inversement. On peut donc se demander si la conservation observée au niveau de la protéine ASP n’est pas le simple reflet de la conservation de la protéine Env. En effet comme on l’a vu précédemment, sur la phase -2 il y a une très forte proportion de sites qui sont totalement contraints par le chevauchement de gène. En moyenne pour chaque site, la phase -2 ne dispose que de 1.5 acides aminés différents possibles sans modifier la séquence de Env. Pour certains sites cette liberté est inexistante. On peut prendre l’exemple sur la phase +1 d’une Lysine (K)(AAA ou AAG) suivie d’une Phénylalanine (P) (TTT ou TTC) ; sur la phase -2 le codon sera AAT ou AAC codant l’Asparagine (N). Ce site est alors totalement contraint, un seul acide aminé est possible. Une conservation de la Lysine (K) et de la Phénylalanine (P) entraînera alors obligatoirement une conservation de l’Asparagine (N) sur la phase -2. Il existe des contraintes encore plus fortes avec par exemple une conservation simple de l’Alanine (A) sur la phase +1 qui entraîne également une conservation d’une Alanine (A) sur la phase -2.

Nous avons alors cherché à observer la conservation des acides aminées non totalement contraints. Pour cela pour chaque binôme d’acides aminés de la phase +1, il a fallu établir la liste des acides aminés induits. Par exemple :

Phe + His :

TTT + CAT → stop (TGA) TTT + CAC → stop (TGA) TTC + CAT → Trp (TGG) TTC + CAC → Trp (TGG)

+1→ -2

À partir de la conservation de la séquence ASP, nous avons mesuré la proportion de sites contraints et non contraints. Sur une fenêtre glissante, nous avons ainsi calculé la proportion de séquences pour lesquelles les acides aminés majoritaires sont tota-lement contraints (1 seul choix d’acide aminé possible sur la phase -2), la proportion de séquences pour lesquelles les acides aminés majoritaires ne sont pas totalement contraints (plusieurs choix possibles d’acides aminés au niveau de la phase -2), et la proportion de séquences ne disposant pas des acides aminés majoritaires mais dont la conformation sur la phase +1 permettent la présence de ces acides aminés (cf. Fig. 2.19).

Au niveau de la région ASP, nous retrouvons une proportion assez importante de sé-quences disposant des acides aminés majoritaires mais qui ne sont pas contraints. De plus, la proportion de séquences dont les sites sont non contraints par le gène env et

2.5. Analyse de l’usage du code du gène asp et de la composition en acides aminés de la protéine ASP

ne disposant pas du site majoritaire est très faible. Une part de la conservation de la protéine ASP semble donc indépendante de la protéine Env. Cependant, si nous obser-vons les résultats tout au long de la phase -2, nous retrouobser-vons une répartition du même type. La conservation protéiques au niveau de la phase -2 semble donc principalement induite par les contraintes engendrées par le gène env et la corrélation phylogénétique qu’il existe entre les séquences. Les analyses présentées ci-dessus ne nous permettent alors pas de savoir s’il existe une pression de sélection s’exerçant afin de maintenir l’ORF du gène asp. Des analyses statistiques plus spécifiques sont nécessaires afin de vérifier s’il existe une pression de sélection ou non.

FIGURE2.19 –Conservation le long de la séquence ASP en fonction des contraintes. Dans le sens de la phase -2, nous représentons ici en utilisant une fenêtre glissante de 20 sites (moyenne) le nombre de séquences disposant des acides aminés majoritaires et dont les sites sont contraints (bleu), le nombre de séquences disposant des acides aminés majoritaires et dont les sites sont non contraints (rouge), et le nombre de séquences pour lesquelles la présence des acides aminés majoritaires est possible (mais non observé) sans modifier la séquence du gène env (gris).

Dans ce chapitre, nous avons donc mis en évidence la présence de l’ORF ASP dans les séquences du groupe M. L’ORF est cependant absent dans les groupes et sous-types non pandémiques. L’analyse phylogénétique du gène env mis en parallèle avec la recherche de l’ORF ASP nous a permis de montrer l’apparition récente et progressive de l’ORF ASP. On retrouve notamment une séquence de virus touchant le singe : SIVcpz_Ptt, qui dispose de l’ORF ASP dans sa totalité. Cette séquence est l’une des séquences SIVcpz_Ptt la plus proche du groupe M. L’apparition de l’ORF ASP est alors très probablement concomitante avec l’apparition du groupe pandémique. La création du gène asp est une création de novo par chevauchement de gène, on ne retrouve alors logiquement aucune séquence similaire dans les bases de données. Cette absence d’homologie entraîne des difficultés notamment

pour la modélisation de la structure de la protéine. Les analyses de la composition en acides aminés montrent que cette protéine dispose (dans la majorité des cas) de deux régions très hydrophobes de type transmembranaires. On retrouve également des motifs particuliers très conservés tel que le doublet de cystéine ou le motif PxxPxxP pouvant jouer un rôle dans la phagocytose. Enfin, nous retrouvons une conservation le long de la protéine ASP qui est très corrélée avec la conservation le long de la protéine Env. Nous ne retrouvons pas de variation entre la région codant la protéine ASP et le reste de la phase -2. On peut alors se demander si la présence de cet ORF n’est pas seulement due aux contraintes de codage induites par la protéine Env. Observe-t-on une pression de sélection au niveau de la protéine ASP ?

Les points essentiels mis en évidence dans ce chapitre sont :

XLa présence de l’ORF ASP au sein des séquences du groupe M

L’absence de l’ORF ASP au sein des séquences non-M

XL’apparition concomitante du groupe M et de l’ORF ASP

3 Détection d’une pression de sélection

C

Echapitre présente les différentes méthodes développées et utilisées afin de mettre en évidence la pression de sélection qui s’exerce sur le gène asp. Dans un premier temps, nous avons mis en évidence la significativité de la présence et la conservation de l’ORF ASP dans les séquences du groupe M à l’aide de simulations de séquences. Nous avons ensuite testé les méthodes usuelles présentées précédemment afin d’étudier l’évolution d’un gène, à savoir l’étude de la vitesse d’évolution, le calcul du ratio dN/dS et l’utilisation du logiciel Synplot2. Nous avons ensuite développé de nouvelles méthodes. La première, assez générale, analyse l’ensemble des sites non totalement contraints du gène asp. Le principe consiste ici à observer si, au niveau de ces sites, pour lesquels plusieurs acides aminés peuvent être codés, on retrouve une répartition homogène des acides aminés ou si un acide aminé est majoritaire. Si le long de la séquence d’ASP, les acides aminés sont très conservés notamment au niveau de ces sites non contraints, il y aura alors un indice d’une pression de sélection. La seconde méthode analyse plus précisément les codons starts et stops tout en prenant en compte le chevauchement en phase -2 et la corrélation phylogénétique des séquences. Nous comparons alors le nombre de mutations observées et attendues permettant l’apparition de codons stops, sans modifier les acides aminés présents sur le gène env.

Sommaire

3.1 Présence et conservation de l’ORF ASP par simulation de séquences 106

3.1.1 Probabilité d’apparition de l’ORF ASP . . . 106