• Aucun résultat trouvé

Probabilité d’apparition de l’ORF ASP

3.2 Analyses évolutives le long de la séquence du gène env . . . 110 3.3 Analyse des mutations synonymes pour le gène env . . . 113 3.4 Méthode basée sur l’analyse des codons starts et stops . . . 117

3.4.1 Le codon start . . . 117 3.4.2 Les codons stops (potentiels et imposés) . . . 120 3.4.3 Méthode développée . . . 123 3.4.4 Propriétés de la méthode développée . . . 129

3.5 Perspectives : pour aller plus loin avec la méthode . . . 132

3.5.1 Généralisation de l’analyse sur l’ensemble des sites synonymes 132 3.5.2 Généralisation de la méthode des stops potentiels aux autres

phases de lecture . . . 135

3.1 Présence et conservation de l’ORF ASP par simulation

de séquences

L’ORF ASP est présent et conservé au niveau des séquences du groupe M. Cependant, les contraintes de codage sont telles que ces observations pourraient être dues à la conservation du gène env. Nous avons dans un premier temps utilisé des expériences de simulations afin de montrer que ces observations ne pouvaient pas être dues au hasard. Pour cela, nous avons calculé la probabilité d’observer un ORF de la taille d’ASP dans une séquence codante, et notamment dans une séquence disposant des mêmes propriétés que la séquence du gène env. Dans un second temps, nous avons mis en évidence la significativité de la conservation de l’ORF ASP au sein des séquences du groupe M.

3.1.1 Probabilité d’apparition de l’ORF ASP

Comme nous l’avons vu dans la partie 1.2.2.1, la phase -2 est l’une des phases de lecture les plus favorables pour la présence d’un ORF chevauchant (présence d’un codon start et absence de codons stops). Nous avons ici calculé la probabilité d’observer un ORF d’au moins 150 codons, ce qui correspond à la limite que nous nous sommes fixée pour la longueur de l’ORF ASP. Pour cela nous avons analysé les séquences du génome humain, les séquences du génome du VIH-1, et plus particulièrement les séquences du gène env.

Analyse du génome humain. Nous avons choisi d’analyser les séquences du génome

humain afin d’avoir un aperçu général de la probabilité d’observer un ORF. Pour cela, nous avons analysé l’ensemble des gènes du génome humain qui disposent d’une taille approximativement égale ou supérieure à la taille du gène env (2 571 nucléotides). Les séquences de l’ensemble des gènes ont été récupérées à partir de la base de données RefSeq "Reference Sequence" (http://www.ncbi.nlm.nih.gov/refseq/). Cette base de données fournit un ensemble complet, intégré et non redondant de séquences anno-tées (génomiques, ARN et protéines). À partir du fichier multi-genbank, nous n’avons récupéré que les CDS (Coding DNA Sequence) des gènes recherchés, c’est à dire les parties codantes.

3.1. Présence et conservation de l’ORF ASP par simulation de séquences

Nous n’avons pris en compte que les séquences dont la longueur était au moins égale à la longueur du gène env soit 2571 nucléotides avec une flexibilité de 60 nucléotides. Suivant la taille de la séquence, nous avons analysé : soit la totalité de la séquence, soit seulement une partie. Si la séquence disposait d’une longueur plus ou moins égale à la longueur du gène env (+ ou - 60 nucléotides), nous avons analysé la totalité de la séquence. Si la séquence était plus grande que le gène env, nous avons analysé, soit au hasard une section de la séquence de la taille du gène env, soit lorsque cela était possible un découpage en morceaux distinct de la sequence (séquences dont la longueur était au moins égale au double de la longueur du gène env). Après avoir généré la phase -2 des séquences nucléiques, nous avons recherché le nombre de séquences disposant d’un ORF d’au moins 150 codons. Afin de prendre en compte le découpage au hasard des séquences longues nous avons réalisés 500 analyses différences. Sur les 1477 séquences obtenues, nous retrouvons en moyenne 270 séquences qui disposent au moins d’un ORF de plus de 150 codons sur la phase -2, soit 18% des séquences qui disposent d’un ORF sur la phase -2.

Comme nous l’avons vu dans la partie 1.2.2.1, la probabilité d’obtenir un ORF varie en fonction du pourcentage de GC. Sur la phase +1, plus le pourcentage de GC est fort, plus la fréquence de codon start augmente et la fréquence de codon stop sur la phase -2 diminue. La probabilité d’observer un ORF semble donc plus élevée pour un pourcentage de GC élevé. Nous avons alors réalisé une analyse comparative entre la présence d’un ORF sur la phase -2 (d’au moins 150 codons) et le pourcentage de GC sur la phase +1 des séquences du génome humain disponibles (cf Fig. 3.1). Nous observons bien une augmentation de la fréquence des ORFs présents avec l’augmentation du pourcentage de GC. En effet, pour un pourcentage de GC de 70%, nous observons plus de 45% des séquences qui disposent d’un ORF chevauchant sur la phase -2. Les gènes avec un fort pourcentage de GC disposent donc d’une forte probabilité de présence de gènes chevauchants sur cette phase de lecture. Le pourcentage de GC du gène env est de 41%, si l’on se fixe sur les observations réalisées sur le génome humain (cf Fig. 3.1), nous observons alors moins de 5% des séquences qui disposent d’un ORF de 150 codons qui sont vraisemblablement dû au hasard.

Analyse du génome du VIH-1. Nous avons ensuite analysé les séquences du génome

du VIH-1. On s’est alors demandé si tout au long du génome du VIH-1, un ORF chevau-chant tel que l’ORF ASP pouvait apparaître par hasard (sur n’importe quelle phase de lecture). Pour répondre à cette question, nous avons simulé 10 000 séquences de la taille du génome du VIH-1 en se basant sur la longueur de la séquence de référence HXB2 soit 3 239 codons, et en utilisant l’usage du code du VIH-1 (www.kazusa.or.jp/codon/). L’analyse a été réalisée 1000 fois afin d’améliorer sa robustesse. En considérant les cinq phases de lecture, nous observons alors une probabilité de 38% d’observer un ORF

che-vauchant d’au moins 150 codons (20% pour un ORF d’au moins 180 qui correspond à la longueur d’ASP pour HXB2). La probabilité d’observer un ORF chevauchant sur l’une des autres phases de lecture est donc relativement importante au niveau du génome du VIH-1.

FIGURE3.1 –Pourcentage de séquences disposant d’un ORF par rapport au pourcentage de GC. En rouge est représenté le pourcentage de GC du gène env (41%) pour lequel 3% des séquences disposent d’un ORF.

Analyse du gène env. Nous avons réalisé la même analyse en se focalisant sur le gène env et sur la phase -2. Après avoir calculé l’usage du code du gène env (proportion

de chaque codon) à partir de l’ensemble des séquences disponibles dans notre jeu de données, nous avons simulé 10 000 séquences de la taille du gène env, soit 856 codons. Nous obtenons ici une probabilité d’environ 10% d’observer un ORF d’au moins 150 codons et de 3% d’observer un ORF de 180 codons.

D’après les observations réalisées ci-dessus, la probabilité pour que la présence de l’ORF ASP soit due au hasard ne peut pas être rejetée. L’apparition peut être due à des mutations entraînant la suppression d’un codon stop par exemple. Cependant au cours de l’histoire évolutive on peut émettre l’hypothèse que sans pression de sélection pour maintenir cet ORF il n’y aurait pas eu de conservation de celui-ci.