Recherche de similarité et alignement de séquences

1.1 Outils bioinformatiques pour l’étude de gènes

1.1.1 Analyses préliminaires

1.1.1.2 Recherche de similarité et alignement de séquences

La recherche d’homologie entre les séquences est un élément fondamental. L’objectif est de mettre en évidence des séquences ou des régions de séquences avec une forte similarité. Ceci permet d’obtenir des informations importantes sur la famille d’appar-tenance de la protéine et d’obtenir ainsi des indices sur la fonction et la structure³de la protéine. En effet si deux séquences sont homologues, il est probable qu’elles aient une fonctionnalité et/ou une structure très proche. On parle d’homologie entre deux séquences si celles-ci ont évolué à partir d’un même ancêtre commun. Il faut cependant faire attention, toutes les séquences similaires ne sont pas forcement homologues. En effet, les séquences homologues évoluent au cours du temps et peuvent ainsi deve-nir très différentes. À l’inverse, des séquences non issus d’un même ancêtre commun peuvent par convergence évolutive devenir très similaires. Ce n’ai alors pas parce que deux séquences sont similaires qu’elles seront également forcement homologues. Plusieurs méthodes et outils permettent de retrouver des séquences similaires. Deux outils sont particulièrement utilisés pour cette recherche. Le premier, le logiciel Blast (Altschul et al., 1997), utilise des alignements de séquences afin de quantifier la similarité entre les séquences. Le second, le logiciel HMMer (Finn et al., 2011), utilise un modèle basé sur des chaînes de Markov cachées (Baum and Petrie, 1966).

3. La structure d’une protéine correspond à sa composition en acides aminés et sa conformation en trois dimensions.

1.1. Outils bioinformatiques pour l’étude de gènes Blast La suite de logiciels Blast (Basic Local Alignment Search Tool) (Altschul et al.,

1997) développée par le NCBI est l’un des outils les plus utilisés pour la recherche de séquences nucléiques ou protéiques similaires. La recherche de similarité est ici basée sur l’alignement des séquences permettant notamment de mettre en évidence les événements de substitutions (mutations) et les événements de délétions et d’insertions appelées indels (insertions or deletions en anglais) qui ont eu lieu entre ces séquences.

Par exemple, si nous observons l’alignement entre les mots "sportif" et "sortie", nous retrouvons 5 lettres identiques, une substitution et un indel (cf. Fig. 1.1).

FIGURE1.1 –Exemple d’alignement. Nous retrouvons ici des lettres identiques dans les deux séquences (S, O, R, T, I), une lettre différente qui correspond à une substitutions (soit E->F, soit F->E), et un "indel" représenté par un gap "-" qui correspond soit à une insertion, soit à une délétion en fonction de l’histoire évolutive.

Plus les séquences seront similaires, plus le nombre de sites identiques sera impor-tants. Le logiciel n’aligne que deux séquences à la fois et quantifie la similitude entre ces séquences. Il compare alors la séquence requête avec l’ensemble des séquences disponibles dans une (ou des) base(s) de données publique.

Le principe de base est le découpage de la séquence de la requête en motifs élémen-taires (définis par l’utilisateur : 2 ou 3 acides aminés). Le logiciel va ensuite rechercher parmi l’ensemble des séquences de la base de données, les motifs similaires aux motifs élémentaires de la séquence requête. Un motif similaire correspond à un motif dont l’alignement avec le motif de la séquence requête obtient un score supérieur au score seuil. Ce score prend en considération les matchs (sites équivalents) et mis-matchs (sites différents), une matrice de substitution⁴(cf. section : Analyses évolutives), ainsi que le nombre de gaps introduits dans l’alignement. Dans un deuxième temps, le motif va être étendu dans les deux directions le long de chaque séquence de manière à ce que le score de l’alignement puisse être amélioré. L’extension s’arrête si le score diminue fortement par rapport à la valeur maximale qu’il avait atteint (seuil fixé), si le score devient inférieur ou égal à zéro ou si les extrémités d’une des deux séquences sont atteintes. Nous obtenons alors une liste de régions similaires pour chaque séquence de la base de données ainsi qu’un score accompagné de la Expect-value (E-value). Le score quantifie la similarité entre les deux séquences et la E-value indique la fiabilité de cet alignement. Il correspond au nombre d’alignements avec un score égal ou supérieur que nous pouvons obtenir par hasard. Plus cette E-value est faible, plus l’alignement

4. La matrice de substitution permet de connaître la capacité d’un nucléotide, d’un codon ou d’un acide aminé à être substitué

sera significatif.

Nous pouvons améliorer cette recherche en utilisant le logiciel PSI-BLAST (Position Specific iterated BLAST) appartenant à la suite de logiciel Blast. Il s’agit d’un processus itératif produisant un profil PSSM (Position Specific Score Matrix) à partir de l’aligne-ment des séquences disposant d’un score significatif. Il s’agit d’une sorte de résumé de l’alignement multiple. À chaque itération ce profil est corrigée par l’ajout des nouvelles séquences disposant d’un score significatif. PSI-BLAST permet ainsi de détecter des relations plus distante entre les séquences.

HMMer Une généralisation de cette notion de profil a été développée en utilisant des

modèles de Markov cachés, dont l’acronyme communément utilisé est HMM pour "Hid-den Markov Model" en anglais. Ces modèles HMM sont très utilisés pour la modélisation de séquences mais également pour la réalisation et l’interrogation des bases de don-nées de domaines telles que Pfam (http://pfam.xfam.org/). Ils permettent également la détection et l’alignement de séquences homologues éloignées.

Un modèle de Markov est un modèle statistique qui est composé d’états et de transi-tions. Les transitions correspondent à la probabilité de passer d’un état à un autre. Ces transitions sont unidirectionnelles et chaque état dispose de transitions vers l’ensemble des autres états. La figure 1.2 montre un exemple d’une chaîne de Markov entre les états "temps ensoleillé" ou "temps pluvieux". Nous admettons ici que le fait qu’il ait plu ou non aujourd’hui est la seule considération à prendre en compte pour prévoir s’il pleuvra demain. Ainsi, dans notre exemple s’il fait un temps pluvieux, alors il y a 30% de chance que le temps reste pluvieux et 70% de chance qu’il devienne ensoleillé.

Nous pouvons ensuite calculer la probabilité qu’une suite d’états de longueur T soit observée (par exemple la probabilité qu’il pleuve 5 jours de suite). Le modèle de Markov caché est quant à lui basé sur un modèle de Markov dont les états sont cachés. Nous ne pouvons observer que des éléments émis par ces états appelés observations. De plus, lors de l’analyse d’une séquence de ces observations, il n’est pas possible de savoir par quelle séquence d’états le processus est passé.

Pour la recherche de séquences similaires, on peut utiliser la suite de logiciels HMMer avec notamment le logiciel phmmer. Celui-ci va à partir d’une séquence requête réaliser un profil. Il s’agit d’un profil HMM à trois états (match, insertion, délétion) réalisé le long de la séquence requête. Il dispose de probabilités d’insertion et de délétion définis de façon empirique, et d’une matrice de substitution (BLOSUM62) permettant la définition de l’acide aminé lors d’un match. Il est alors possible à partir de ce profil de modéliser une nouvelle séquence alignée à la séquence requête.

1.1. Outils bioinformatiques pour l’étude de gènes

FIGURE1.2 –Exemple d’une chaîne de Markov. Chaîne de Markov à 2 états : temps pluvieux et temps ensoleillé. Si l’état est ensoleillé, les transitions indiquent une probabilité de 90% de rester ensoleillé et 10% de passer à l’état pluvieux. Si l’état est pluvieux, il y a une probabilité de 70% de passer à l’état ensoleillé et 30% de chance de rester à l’état pluvieux.

Dans le cas présent, le logiciel phmmer recherche des séquences qui auraient pu être modélisées à partir du profil HMM. Il compare alors pour chaque séquence, la vraisem-blance du profil HMM généré avec la vraisemvraisem-blance d’un modèle de séquence dont les probabilités des substitutions sont distribués de façon identique. Tout comme avec Blast, une E-value est également donnée.

En parallèle de cette recherche avec phmmer, une recherche à l’aide du logiciel hmm-scan est également réalisable. Celui-ci compare la séquence requête avec des profils HMM présents dans des bases de données spécialisées telle que Pfam. On peut éga-lement à partir d’un alignement de séquences, générer un HMM spécifique à cet ali-gnement à l’aide de hmmbuild puis lancer hmmsearch qui réalisera une recherche de séquences similaires. Enfin le programme jackhmmer, réalise une recherche proche de la recherche PSIBLAST. Après une étape lançant le logiciel phmmer, il adapte le profil HMM à l’aide des meilleurs de résultats obtenus puis réitère son opération.

Prosite L’identification de la fonction de la protéine peut également être réalisée

en recherchant une "signature" au sein de la séquence. Une signature correspond à une expression régulière qui définit une séquence dégénérée des régions protéiques partageant une même fonction. Par exemple la signature : L-x(2)-L-x(2)-L-x(2)-L peut correspondre aux séquences : LMGLSYLAGL, LAGLWALVSL, LKALPQLSVL ect... Il existe des signatures spécifiques pour un site donné, un domaine donné, ou une famille de protéine donnée. La base de données Prosite (Bairoch, 1992) référence un ensemble de signatures disponibles. Il est possible de rechercher au sein de cette base de données s’il existe une signature qui correspond à une région (ou la totalité) de la séquence requête. Nous pouvons par exemple citer l’outil ProScan (https://npsa-prabi.ibcp.fr/ cgi-bin/npsa_automat.pl?page=/NPSA/npsa_proscan.html) utilisé pour la recherche de signatures référencées.

Ces logiciels nous permettent alors de détecter l’ensemble des séquences similaires à la séquence requête disponibles dans les bases de données. À partir de ces séquences, nous pouvons avoir des indices sur la fonctionnalité mais également la structure de la protéine. Malheureusement, les bases de données ne sont pas exhaustives, elles représentent en majorité des séquences de mammifères ou de plantes. De plus, si la protéine étudiées a été créé de novo (cf. partie 2.3.4), il est fort probable que l’on ne retrouve pas de séquences ou de domaines similaires.

L’analyse de la séquence protéique et notamment de l’hydropathie de celle-ci va per-mettre d’éper-mettre des hypothèses sur la structure secondaire de la protéine, quelles parties de la protéine sont exposées, s’il existe des domaines transmembranaires, ou des régions désordonnées.

Dans le document Bioinformatique des gènes chevauchants; application à la protéine antisens ASP du VIH-1 (Page 31-35)