• Aucun résultat trouvé

2.2 Comparaison structurale

3.1.2 Corrélations séquentiellement distantes

La conservation locale n'est pas nécessairement la seule trace au niveau de la sé-quence de l'appartenance à une famille structurale. En eet, d'une part, comme nous l'avons déjà vu, la structure est souvent plus conservée que la séquence, et il se peut que deux séquences aient fortement divergé au point de n'avoir que 30% d'identité de séquence, mais ayant toujours la même structure [CS96]. Par ailleurs, comme nous l'avons vu dans la section 1.2, la pression de sélection peut faire évoluer deux séquences non-homologues (ne partageant pas un ancêtre commun) vers une même structure et a fortiori une même fonction.

La similarité de séquence peut donc ne pas rendre compte de parties plus conservées que d'autres  et la conservation globale pourrait même être très faible , mais les structures associées peuvent être très similaires.

Un moyen de caractériser des familles structurales sans avoir recours directement à l'homologie de séquence est d'observer le fait suivant : dans la protéine, il existe des acides-aminés nécessaires au maintien global de la structure via l'interaction physico-chimique de certains acides-aminés. Ainsi, les paires d'acides-aminés proches en struc-ture portent une contrainte mutuelle en séquence. Par exemple, si un acide-aminé est muté alors qu'il participe à une interaction essentielle au maintien de la protéine, il y a de fortes chances qu'une mutation dite compensatoire soit sélectionnée pour l'acide-aminé avec lequel il interagissait de manière à préserver l'interaction entre les deux.

On voit alors que la famille structurale à laquelle appartient une séquence est carac-térisé notamment par des interactions séquentiellement distantes. On se propose ici de présenter des méthodes permettant la caractérisation d'une famille structurale à l'aide de l'information de co-évolution en séquence, puis nous introduirons des techniques plus récentes permettant de prédiction de contact à partir de cette même information. Enn, nous verrons comment on peut évaluer l'adéquation d'une séquence à une structure. Ensembles de co-évolution Dans [HRLR09], les auteurs présentent une méthode utilisant un alignement multiple de séquences protéiques d'une même famille pour déter-miner des ensembles d'acides-aminés  appelés Protein Sectors  ayant une histoire évolutive commune. L'idée fondamentale derrière cette approche est de regrouper les positions de co-évolution de résidus.

Techniquement, les auteurs calculent la matrice d'entropie relative entre chaque colonne de l'alignement multiple des séquences de la famille. Ils calculent ensuite les vecteurs propres de cette matrice et conservent ceux associées aux valeurs propres les plus signicatives1. L'espace des vecteurs propres est ensuite découpé par des frontières linéaires en "secteurs" (la technique est laissée libre dans la méthode présentée, bien que les auteurs aient choisi d'utiliser l'Independent Component Analysis [HKO04]), qui détermine l'appartenance de chaque résidu à un unique secteur. Un secteur va donc regrouper des acides-aminés ayant une histoire évolutive commune.

1A noter que le mode dominant (correspondant à la valeur propre la plus haute) est mis de côté car représentant uniquement selon les auteurs la parenté phylogénétique globale de la famille et ne rendant donc pas compte d'une unité ayant une histoire évolutive propre au sein de la famille.

Caractérisation via la séquence 37 On observe que les secteurs calculés dans les exemples présentés dans l'article [HRLR09] présentent une proximité spatiale surprenante avec une identication fonctionnelle rela-tivement claire (comme par exemple un secteur représentant la poche du site catalytique, un autre contenant la triade catalytique elle-même), bien qu'aucune contrainte de ce type n'ait été intégré dans le calcul des secteurs. Ceci indique que la co-évolution est liée à la structure tri-dimensionnelle de la protéine : an de maintenir la fonction  et donc la structure  la protéine, des mutations compensatoires sont sélectionnées au cours de l'évolution.

L'approche de Protein Sectors nécessite cependant un alignement multiple réalisé avec beaucoup de séquences an d'avoir une statistique able pour l'entropie relative des colonnes de l'alignement. "Blocks In Sequences" (BIS) [DC12] contourne cette dif-culté en utilisant une méthode combinatoire qui identie en premier lieu les fragments (contigus en séquence) qui sont conservés dans l'alignement multiple puis qui regroupe ces fragments an de détecter ceux qui co-évoluent. Ici encore, bien qu'aucun a priori sur la proximité spatiale des résidus n'est été utilisé dans la dénition des BIS, on ob-serve que ceux-ci sont fortement localisés spatialement. Il est à noter que dans ces deux méthodes, les signatures dénies ne sont pas contiguës dans la séquence.

Si on dispose d'une quantité susante de séquences d'une famille alors les ensembles d'acides-aminés dénis par les deux méthodes précédentes donnent une information sur la proximité spatiale de ceux-ci et peuvent constituer une signature séquentielle du fold de la famille. Dans le prochain paragraphe, nous verrons comment on peut en eet aller plus loin et prédire de manière plus précise les résidus qui seront proches en structures.

Prédiction de contacts Comme nous l'avons vu avec les deux méthodes précédentes, les ensemble d'acides-aminés co-évoluant sont proches en structure. Pour prédire les contacts de manière précise (et non pas seulement des groupes d'acides-aminés proches en structure), on se base sur les même techniques que précédemment mais en exploitant une idée supplémentaire. Considérons trois résidus éloignés dans la séquence se retrou-vant proches en structure dans une conguration comme dans la gure ci-dessous :

Fig. 3.1: Chaîne de contact induisant des co-variations entre les acides-aminés aux positions i et j, ainsi que j et k sur les séquences de la même famille structurale.

Alors au sein de cette famille structurale (on entend ici les protéines partageant le même fold), les séquences porteront des co-variations entre les résidus i,j et k. Cepen-dant, en utilisant simplement l'information de co-évolution comme précédemment, on ne peut distinguer si i est en contact direct avec j ou avec k. C'est pourquoi certaines méthodes modient la matrice de co-évolution an d'obtenir une nouvelle matrice ren-dant compte plus nement des co-évolutions directes (i.e. une matrice décrivant les co-évolutions avec le plus de parcimonie possible : la donnée de co-évolution de i et j ainsi que j et k indique transitivement la donnée de co-évolution de i et k). Par exemple, PsiCov [JBCP12] est un outil de prédiction de contact qui utilise la matrice de corré-lation partielle des occurrences des acides-aminés dans les colonnes d'un alignement multiple.

D'autres techniques similaires comme celle utilisée dans le prédicteur de fold EVfold [MCS+11] génèrent un modèle probabiliste d'entropie maximum pour les séquences d'un alignement multiple en respectant les distributions d'acides-aminés colonne par colonne ainsi que les distributions sur les paires de colonnes des paires.

Threading Nous venons de voir que la séquence peut rendre compte d'informations sur la structure : d'une part les fragments de séquence conservés représentent des frag-ments de structures conservés, mais aussi que la co-variation de résidus dans la séquence donne une information supplémentaire sur la structure que ces séquences décrivent.

On présente ici le threading [PMBB00] (littéralement enlage), une méthode per-mettant l'identication du fold2 associé à une séquence. Il s'agit d'aligner une séquence S sur une structure P (en général il s'agit du c÷ur structural partagé par toutes les

2Nous dirons ici que deux protéines partagent le même fold si elles se superposent sur une partie signicative  notamment en dehors des boucles  de leur structure.

Caractérisation structurale 39 protéines d'un même fold) et d'en calculer un score d'adéquation. Un calcul de signica-tivité permet de déterminer si la séquence S code pour une protéine ayant le fold P . On peut donc voir le threading comme une méthode de recherche d'homologues lointains dont la séquence ne porte pas assez de similarité pour identier une homologie, mais dont les mutations préservent les interactions entre les acides-aminés.

Par exemple, dans l'outil FROST [MPZG02], pour chaque type de fold, un repré-sentant de structure est choisi à partir duquel on extrait un c÷ur structural. Celui-ci consiste simplement à ne conserver que les acides-aminés inclus dans les structures se-condaires hélices α et brins β.

FROST calcule ensuite deux scores (un score dit 1D d'homologie, et un score dit 3D de compatibilité d'acides-aminés en contact) dont l'optimisation guide l'alignement de la séquence sur le c÷ur.

Pour le score 1D, à partir de séquences homologues trouvées avec l'outil PSI-BLAST [AMS+97], FROST construit un alignement multiple et génère une PSSM pour chacun des fragments de structure secondaire constitutifs du c÷ur structural. Ceci permet d'éta-blir un score de similarité de séquence comme nous l'avons vu précédemment avec dans la section PSSM.

Par ailleurs, FROST établit un score 3D d'interaction3 : le score attribué à l'ali-gnement de deux acides-aminés a et b aux positions i et j en contact dans le c÷ur est log-proportionnel à la probabilité jointe de trouver à des positions en contact le couple a, bainsi que le couple ri, rj (où ri, rj désigne les acides-aminés du c÷ur en position i, j respectivement).

Ainsi FROST rend compte à la fois de la similarité de séquence liée à une éventuelle homologie, mais aussi à l'information de maintien de structure via le score 3D favorisant les acides-aminés interagissant en général.

Le threading permet de caractériser depuis la séquence l'appartenance à un fold en utilisant des informations de structure. Nous allons voir maintenant comment caractéri-ser uniquement à l'aide de la structure l'appartenance d'une protéine à un fold ou plus généralement à une famille structurale.