Récupération des séquences : - Le chevauchement env/asp

1.4 Le chevauchement env/asp

2.1.1 Récupération des séquences :

2.1.3 Alignements de séquences . . . 73

2.2 Conservation de l’ORF ASP . . . 76

2.2.1 Analyse générale . . . 76 2.2.2 Analyse détaillée de la phase -2 . . . 79

2.3 Évolution de l’ORF ASP . . . 81

2.3.1 Analyse phylogénétique . . . 81 2.3.2 Corrélation entre prévalence et présence de l’ORF ASP. . . 84 2.3.3 Séquences sans l’ORF ASP . . . 86

2.3.4 Origine de l’ORF ASP . . . 89

2.4 Recherche de similarités de protéines dans les bases de données . . 91 2.5 Analyse de l’usage du code du gène asp et de la composition en acides

aminés de la protéine ASP . . . 93

2.5.1 Analyse de l’usage du code . . . 93 2.5.2 Analyse de la composition en acides aminés . . . 94 2.5.3 Hydropathie de la protéine ASP et prédiction de la structure . . 97 2.5.4 Conservation de la protéine ASP . . . 99

2.1 Les données

L’ensemble des analyses réalisées tout au long de cette thèse est basé sur l’analyse de séquences génétiques. Il est alors apparu indispensable de disposer d’un jeu de données fiable. Avec la multiplication et l’amélioration des méthodes de séquençage, nous disposons à l’heure actuelle d’une quantité considérable de séquences nucléiques. Par exemple, dans la banque de données GenBank (base de données maintenue par le NCBI (National Center for Biotechnology Information)), nous dénombrons en 2016 prés de 200 millions de séquences. Cependant, les études réalisées sur la protéine ASP sont très récentes, et, de ce fait, il n’existe à l’heure actuelle que très peu de séquences du gène asp dans les banques de données (4 séquences). La réalisation d’un répertoire fiable et exhaustif de séquences codant pour la protéine ASP a donc été une première étape indispensable.

Comme nous l’avons vu précédemment, l’ORF de la protéine ASP est chevauchant en phase -2 par rapport à l’ORF du gène env. De nombreuses séquences de ce gène sont disponibles dans les banques de données. Nous nous sommes donc basés sur les séquences du gène env, pour obtenir après génération du brin antisens un ensemble de séquences de l’ORF ASP. Les banques de données n’étant pas dépourvues d’erreurs une étape de nettoyage, avec suppression de certaines séquences a été nécessaire. Après cette étape, nous disposions encore de plus de 20 000 séquences provenant de divers groupes et sous-types.

Afin de pouvoir comparer les séquences entre elles et réaliser des analyses évolutives sur le gène asp il a été nécessaire de réaliser des alignements multiples de séquences de qualité, dans le sens du gène env (phase +1) et dans le sens de la phase -2.

2.1.1 Récupération des séquences :

Les séquences nucléiques et protéiques du gène env complet de VIH-1 et SIV ont été récupérées à partir de la base de données de Los Alamos "HIV database" (https:

2.1. Les données

//www.hiv.lanl.gov/content/index). Cette base de données met à disposition un très grand nombre de séquences du VIH-1, du VIH-2 et du SIV. Elle est mise à jour périodi-quement et contient l’ensemble des séquences soumises dans Genbank. Ces séquences proviennent de différents projets de recherche nécessitant le séquençage du virus. Nous retrouvons de nombreuses métadonnées associées à chaque séquence telles que l’origine géographique de collecte, l’année de collecte, le sous-type viral considéré et éventuellement certaines informations sur le patient comme le groupe à risque auquel l’individu appappartient, le sexe ou la progression de la maladie.

Nous avons téléchargé l’ensemble des séquences disponibles du gène env de tous les groupes du VIH-1 (groupes M, N, O et P), ainsi que les séquences des virus SIVcpzPtt (Pan troglodytes troglodytes), SIVcpzPts (Pan troglodytes schweinfurthii) qui touchent les chimpanzé et SIVgor qui touche le gorille.

Lors du téléchargement, la dernière mise à jour de la base de données de Los Alamos à partir de la base de données Genbank datait du 15 septembre 2015. Le téléchargement n’incluait pas les séquences considérées comme problématiques par la base de données de Los Alamos. Ces séquences problématiques correspondent à des séquences dispo-sant d’une forte proportion de caractères non ATGC (plus de 100 caractères consécutifs ou plus de 3% de la séquence), des contaminants (les auteurs définissent la séquence comme étant un potentiel contaminant), des hypermutants (nombre excessif d’une même transition (A → G par exemple)), des séquences synthétiques, des séquences avec des délétions artificielles (soit plus de 100 nucléotides supprimées par l’auteur), des séquences trop courtes ou des séquences dont la séquence complémentaire a été déposée par erreur à la place de la séquence du brin sens. À cette étape, nous dispo-sions de 32 343 séquences tous groupes confondus (32 309 séquences pour le VIH-1, 29 séquences pour les virus SIVcpz, et 5 séquences pour le SIVgor). Pour chaque sé-quence, nous avons également récupéré l’ensemble des métadonnées associées dont notamment le sous-type, la date de prélèvement et l’identifiant patient qui sont des informations pouvant être très utiles pour les différentes analyses. La présence des métadonnées telles que le groupe à risque auquel l’individu appartient, le sexe ou la progression de la maladie est malheureusement disparate en fonction des séquences. Nous n’avons donc pas pu réaliser d’analyses basées sur celle-ci.

Afin d’améliorer la qualité des données disponibles, il a été nécessaire de procéder une étape de nettoyage. Pour cela, l’ensemble des séquences pour lesquelles il n’y a pas de correspondance entre les séquences nucléiques et protéiques récupérées ont été supprimées. En effet, ces séquences ont subi une modification de la part des auteurs et peuvent contenir des erreurs. Dans la majorité des cas, il s’agit de la suppression de codons stops, ou de déphasages (frameshifts). Cette étape de nettoyage a entraîné la suppression de 2 877 séquences et de toutes les séquences du groupe P et du

SIV-gor. Nous les avons alors directement récupérées sur la banque de donnée Genbank (http ://www.ncbi.nlm.nih.gov/genbank/).

Enfin, les séquences nucléiques identiques ont également été supprimées. Nous avons considéré comme identiques, deux séquences possédant exactement la même suite de nucléotides. Pour chaque groupe de séquences identiques, une seule séquence est gardée (choix arbitraire de la séquence gardée). Cette étape a entraîné la suppression de 5 543 séquences.

Après nettoyage, nous disposons de 23 923 séquences dont la répartition est présentée dans la table 2.1. Ce nettoyage a permis d’améliorer la qualité des données disponibles. Cependant, il est important d’avoir à l’esprit que ces séquences peuvent contenir des erreurs de séquençage non détectables au niveau du gène env qui pourraient impacter le gène asp.

TABLE2.1 –Répartition du nombre de séquences après nettoyage (total = 23 923 séquences).

Groupe # de séquences VIH-1 M 23 831 VIH-1 N 7 VIH-1 O 52 VIH-1 P 2 SIVcpz 26 SIVgor 5

Dans le document Bioinformatique des gènes chevauchants; application à la protéine antisens ASP du VIH-1 (Page 88-91)