• Aucun résultat trouvé

Conformation alternatives récurrentes

3.2 Repliement structural à l’aide du protocole ARIA

3.2.3 Conformation alternatives récurrentes

Malgré les différentes interprétations des cartes de contact évolutives et natives, il n’existe qu’une faible proportion dans le jeu de données d’ensembles de structures dont la précision descend en dessous de 2 Å. La principale raison de cette faible convergence est l’existence de conformations alternatives plus accessibles au cours de la minimisation.

Dans le cas présent, deux groupes de conformations semblent se distinguer comme le suggère le comportement bimodale des distributions de justesse des structures. (II.Lb). Ces conformations alternatives correspondent généralement à des structures

avec une inversion locale ou globale de la topologie par rapport à la conformation native. La chiralité des résidu reste en revanche identique entre les deux modèles. L’apparition de ces artefacts est un problème déjà signalé dans les approches standard en RMN et correspond généralement à une quantité d’information trop faible dans une ou plusieurs régions pour converger vers une seule structure stable. Les zones associées à une faible densité de contraintes étant plus exposées à une inversion de la topologie par rapport à la conformation recherchée.

La formation de conformations miroirs rend l’étape de sélection et validation des structures particulièrement difficile. Les critères relatif au respect des contraintes (nombre par résidus, données exclues) se révèlent inefficace pour permettre une distinction claire entre les images. L’information utilisée étant relativement similaire

Figure II.K: Justesse des ensembles ARIA en fonction du nombre de contraintes natives sélectionnées à la première itération.

a 0.0 2.5 5.0 7.5 10.0 12.5 15.0

C RMSD

DSSP ref

[Å]

BPT1_BOVIN CADH1_HUMAN CD209_HUMAN CHEY_ECOLI ELAV4_HUMAN O45418_CAEEL OMPR_ECOLI PCBP1_HUMAN RASH_HUMAN RNH_ECOLI SPTB2_HUMAN THIO_ALIAC YES_HUMAN

iter 8 | native

b

Figure II.L: Images miroires topologiques. II.La : Exemples d’images miroires

topolo-giques par rapport à la structure de référence ELAV4_HUMAN (vert) à la dernière itération. La coloration des structure correspondent à l’écart entre les coordonnées de la conformation générée par rapport à la structure de référence allant de bleu pour la valeur la plus faible à rouge. L’inversion est ici princi-palement localisée au niveau de la première hélice (région colorée en rouge)

du côté N terminal.II.Lb: Distributions de la justesse des structures dérivées à

partir de la contrainte native à la dernière itération.

dans cette situation entre les conformations. Le principal risque avec cette absence de convergence vers une seule solution est de diminuer l’impact de l’attribution automatique qui aura moins tendance à filtrer la liste de contraintes si l’ensemble est peu précis.

4

Conclusion

Les résultats présentés dans ce chapitre suggèrent l’existence d’interprétations de contacts plus performantes pour maximiser l’information native capturée dans les cartes de contacts évolutives. Ces définitions ont la particularité d’être moins per-missives par rapport à celles retrouvées dans les études comparatives. Les plus constantes en terme de performance associent typiquement un seuil autour de 5 Å aux distances entre les carbones bêta et ceux de la chaîne latérale.

L’analyse des critères d’exclusion initialement conçus pour analyser les contacts du programme EVFold (mfDCA) a également permis de confirmer leur efficacité pour améliorer la précision d’autres catégories de prédiction de contacts. Ces derniers restent cependant encore imparfaits et d’autres méthodes comme la déconvolution des matrices de contacts natifs ou scores de prédictions peuvent ici être envisagées [165]. Elle valide également les observations faites dans de précédentes études comparatives sur la performance des méthodes dites consensus et la pertinence d’un seuil de sélection unique pour soutirer un maximum d’information à partir de ces cartes de contacts.

Appliquées au protocole d’ARIA, les contraintes de distances évolutives ont ef-fectivement abouties à des conformations relativement proches de la réalité. Le rallongement de la dynamique moléculaire a joué un rôle particulier pour faciliter la convergence des systèmes. A l’exception de la classe β, l’utilisation d’un poids uniforme pour traiter les contraintes s’est révélé être la méthode la plus robuste pour conduire à une solution plus stable.

Bien qu’on puisse améliorer la convergence des structures en adaptant le traitement des cartes de contacts et les paramètres du protocole d’ARIA, le manque d’informa-tion structurale induit cependant la formad’informa-tion d’images miroirs topologiques même en présence de contacts natifs. Ces dernières respectant la majorité des contraintes évolutives, elles ne peuvent être supprimées au cours du protocole.

Une alternative présentée dans ce chapitre concerne le traitement des listes de contacts en un même nombre de contraintes ambiguës entre une partie ou l’en-semble des atomes lourds de chaque résidu. Ces résultats n’ont ici pas montré de différence significative par rapport à des contraintes non ambiguë. Plusieurs pistes sont envisageables pour améliorer la qualité des prédictions parmi lesquelles une

ractérisation plus fine du type d’information (distance cible brute ou pondérée, liste d’atomes impliqués dans l’interaction, ...) et adapter en conséquence les fonctions de pénalité.

Une piste explorée dans la partie IV est de modifier la distance cible fixée à 2,5 Å dans les résultats précédents par une plus représentative de l’environnement chimique des contacts. Le poids automatique des contraintes étant détecté en fonction de l’accord avec la distance cible, une distance plus représentative de l’ensemble des contributions devrait pouvoir attribuer un poids plus important aux prédictions correctes qu’avec une distance cible fixe. Une autre source pouvant être à l’origine des difficultés observées dans les expérimentations contrôle est la formulation de la distance effective. Cette dernière héritée du traitement des données RMN est peut être mal adaptée aux contraintes ambiguës localisées à un seul contact entre deux résidus.

Un autre point pouvant également conduire à une interprétation imprécise concerne les cartes de références utilisées pour valider les résultats. Bien qu’on observe des résultats comparables avec les données de prédiction, les cartes natives du fait de la sélection aléatoire des contacts peuvent ne pas contenir la même qualité d’information pour replier une structure. Une validation plus rigoureuse est ici à envisager pour la comparaison avec les cartes natives en utilisant par exemple une méthode d’échantillonnage du type jacknife.

Parallèlement à l’interprétation et la pertinence des contacts sélectionnés, une autre source potentielle d’erreur peut provenir du choix des structures de référence réso-lues principalement par cristallographie aux rayons X. Contrairement aux contacts observés dans ces structures, les couplages évolutifs peuvent également refléter la dynamique interne du complexe ou décrire des conformations alternatives pouvant apparaître dans la famille protéique. Définir un modèle consensus ou comparer avec l’ensemble des modèles existants dans une famille pourrait ici permettre de détecter les potentielles zones de conflits dans les cartes prédites. Un soin particulier devra être apporté à l’avenir sur la détection de ces contacts et l’approche à utiliser pour modéliser les différentes conformations possibles.

III

Adaptation d’ARIA à la prédiction de novo

Bien qu’il soit possible d’obtenir des conformations natives en suivant le protocole définit dans ARIA, les paramètres testés n’ont pas été suffi-sant pour favoriser la convergence systématique vers une conformation native. Le manque d’information structurale étant la cause principale à l’origine du problème de convergence des structures. Dans ce chapitre, nous explorons les modifications apportées au protocole qui ont per-mis d’améliorer significativement la qualité des prédictions à partir de contraintes évolutives.

1

Introduction

Du à la précision et à la quantité variable de l’information fournie par les contacts évolutifs, l’espace de recherche est particulièrement large et ne permet pas de conver-ger l’ensemble des conformations générées vers la solution native. Une partie des structures générées tout au long du protocole sont ainsi topologiquement incor-rectes soit localement soit au niveau global. Dans ces situations, adapter les critères de violations des contraintes de distance ou modifier l’algorithme de recherche et minimisation ne semble pas suffisant pour faciliter la convergence du système.

Une première piste pour résoudre ces problèmes est d’adopter un potentiel énergique plus restreint pour réduire la complexité de l’espace de recherche. Cette stratégie est adoptée dans certaines approches de détermination de structure en RMN ou en prédiction de structure implique des champs de forces semi-empiriques contenant des termes dérivés de base de données de structures connues à haute résolution. Bien que la rigueur physique de ces potentiels de forces moyennes (PMF) soit discutable, ils ont l’avantage de posséder un excellent rapport signal sur bruit. De plus la fiabilité de ces fonctions de pénalité doit à priori croître à mesure que les bases de données structurales évoluent. Les scores énergétiques dans les PMF sont généralement dérivées de corrélations entre des variables internes de complexes moléculaires d’une base de donnée structurale à haute résolution. Les potentiels statistiques retranscrivent en général des interaction physiques clairement établies comme les liaisons hydrogènes et contribuant de manière significative à la stabilité des molécules. L’impact de ce type de potentiel sur le repliement sera traité au début de cette partie.

L’apparition quasi systématique de conformations alternatives comme les images miroirs topologiques parmi l’ensemble de structures générées reste un problème récurrent dans les simulations de repliement protéique. Plusieurs raisons expliquent la formation de ces conformations. L’incertitude présent dans les données peut être la source de conformations alternatives d’énergies similaires. Elles sont aussi régulièrement désignées comme un artefact de repliement dans les champs de forces empiriques du au degré élevé de symétrie existant dans la structure native permettant également l’existence de conformations symétriques énergétiquement favorables. Ces dernières rentrent en compétition avec la conformation native et peuvent être dans certains cas entropiquement plus accessible [166, 167].

Une solution fréquemment utilisée dans les études d’ancrage de protéine ou en dy-namique moléculaire est d’utiliser des algorithmes de partitionnement pour séparer les différentes solutions. Ces méthodes ont été envisagées dans ce chapitre pour se soustraire des conformations alternatives durant le protocole tout comme l’analyse des critères qualitatifs discriminant la conformation native [152] ou la modification des scores énergétiques des structures. La difficulté étant de rendre le potentiel de surface plus précis tout en évitant de trop favoriser la formation de minima locaux [168-170].

2

Matériel et méthodes

2.1 Potentiels statistiques

Potentiel statistique de Ramachandran

Le potentiel de Ramachandran ajoute une fonction de pénalité supplémentaire au champ de force associée aux angles de torsions de la protéine. Ce dernier permet par exemple de restreindre les angles ϕ et ψ de la liaison peptidique pour l’ensemble des résidus1dans les régions énergiquement favorable du diagramme de Ramachandran. Cette fonction intègre les valeurs de structures à haute résolution obtenue par radiocristallographie dans la base de donnée PROCHECK [171] par l’intermédiaire de l’équation suivante : EDB(x) = −kDB(logPx) ∂EDB(xi) ∂x ≈ −kDB EDB(xi−1) − EDB(xi+1) 2 (2.1)

où x correspond aux angles ϕ/ψ, χ12, χ23, ϕ/ψ/χ1, χ123 et χ42 et Pi

correspond à la moyenne des fréquences d’apparition dans la base de donnée. kDB est ici le poids associé au potentiel qui est unique pour l’ensemble des termes ajoutés. Les fonctions d’énergies étant discrètes, la dérivée partielle de ces termes nécessaire à l’introduction dans le protocole de dynamique est approximée par la pente locale de la fonction.

Potentiel statistique de liaisons hydrogènes

Un deuxième potentiel statistique intégré dans la suite CNS a été testé durant la seconde phase de refroidissement du recuit simulé. Ce dernier contraint la géométrie locale des liaisons hydrogènes en décomposant l’énergie attribuée aux liaisons hydrogènes en quatre termes obtenues par la formule inversée de Boltzmann à partir d’une autre base de donnée de structures à haute résolution [172]. Le premier terme E(r, θ, φ) décrit la position de l’hydrogène amide donneur en fonction de celle

1. A l’exception de la proline et glycine

2. Du fait de la nature de ces angles dièdres, l’énergie est restreinte à un nombre limité de combinaisons de résidus

de l’oxygène accepteur. Les trois autres termes décrivent les corrélations entre les variables angulaires θ0, φ0 et θ00 (voir Fig.III.A).

Figure III.A:Potentiel de forces

moyennes associé aux liaisons hydrogènes Source : [172]

L’implémentation dans CNS se décompose en deux modes de détection des liaisons hy-drogènes. Dans le mode manuel, chaque liai-son hydrogène est définie par l’utilisateur. Le mode automatique s’appuie sur la proximité et l’environnement au niveau des paires HN/O du squelette carboné pour sélectionner les liai-sons hydrogènes utilisées dans le potentiel.

Seul le mode automatique a actuellement été testé dans le protocole d’ARIA puisqu’il s’agit de la méthode la plus objective pour détecter les liaisons hydrogènes durant la minimisa-tion. Une autre stratégie à évaluer à l’avenir et recommandée dans l’article d’origine pour éviter une sur ou sous-détection des liaisons hydrogènes est d’alterner entre les modes au-tomatiques et manuels en utilisant les liaisons hydrogènes "acceptables"3.