• Aucun résultat trouvé

Validation des structures résolues par RMN

3.3 ARIA : une approche itérative d’attribution de données RMN et calcul

3.3.3 Validation des structures résolues par RMN

2 d < dsup+ 0.5 a +b + ∆ dsup+ 0.5 < d ∆ = min

d − dsup ssidsup< d

0 dinf < d < dsup

dinf − d ssid < dinf

(3.3)

Le potentiel log harmonique illustré dans la figureI.Gpeut également être utilisé en tant que fonction cible durant la seconde étape de refroidissement du recuit simulé et pendant l’étape de dynamique explicite. Contrairement au premier potentiel, ce terme ne possède qu’un seul minima s’abstenant ainsi des limites fixées dans le premier. Au vu des précédentes expérimentations, l’utilisation de ce potentiel est particulièrement recommandée pour le traitement de contraintes de distances ambiguës [33].

3.3.3 Validation des structures résolues par RMN

Le processus de validation d’une structure obtenue à partir de données RMN est sen-siblement différent des autres approches expérimentales. Contrairement au facteur R en cristallographie évaluant le degré de fiabilité par rapport au modèle de maille utilisé, évaluer la convergence d’une structure en RMN reste une tâche délicate bien

qu’il existe actuellement des protocoles standardisés pour le dépôt de structures dans les bases de données [138].

Figure I.H:Représentation schématique des mesures de précision et justesse. Figure

repro-duite depuis Spronk et al. [139].

Pour évaluer la convergence des résultats, une mesure couramment utilisée est la précision de l’ensemble de structures. Celle ci équivaut à l’écart quadratique moyen (RMSD) des coordonnées atomiques après alignement des conformations et permet de donner une premier estimation de la convergence. Bien que la formule soit sensible à la taille des protéines, une précision en dessous de 1, 5 Å traduit souvent un ensemble convergent. Néanmoins la précision des coordonnées atomiques n’est pas une mesure représentative de l’incertitude des données initiales ni considérée comme une estimation pertinente de la dynamique interne du système.

Estimer la justesse d’une conformation en l’absence de structure de référence né-cessite géneralement deux types de métriques : les mesures estimant l’accord entre données et modèles obtenus ou celles relevant de la connaissance générale des structures dans les bases de données. Selon la nature de la biomolécule et l’expéri-mentation RMN utilisée, la pertinence de ces critères diffère pour évaluer l’ensemble de conformations notamment lorsqu’il existe un grand nombre de régions flexibles [140, 141].

Les mesures statistiques vérifient la topologie du modèle avec des valeurs observées dans des bases de données structurales. Ce sont essentiellement ces critères qui permettent d’estimer la pertinence d’une structure. Il existe à ce jour un vaste choix de méthodes pour identifier les incohérences dans une structure déterminé à partir de contraintes RMN en fonction d’un ou plusieurs critères géométriques. Pour cette étape, quatre outils différents sont intégrés dans le protocole d’ARIA : PROCHECK [142], Molprobity [143], WHAT IF [144] et ProSa [142]. D’autres outils sont disponibles pour apporter des éléments qualitatifs supplémentaires comme la méthode AQUA [145] ou le serveur web PSVS [146].

Chapitre 3 Modélisation d’une structure par Résonance

4

Objectifs de la thèse

Bien qu’il existe des algorithmes de prédiction structurale traitant l’information évolutive avec une efficacité plus qu’honorable, plusieurs aspects requièrent encore une attention particulière. Parmi les limites actuelles, la robustesse de ces approches en terme de convergence reste encore discutable face à certaines protéines. De même un traitement consensus prenant en compte la présence variable de contacts faux positif reste à définir (voir Fig.I.I).

Figure I.I: Erreurs de prédiction de contact. Deux prédictions de contact évolutifs (rouge)

sont présentés par rapport aux contacts observés dans une structure native. Les encadrés rouge et bleu sont respectivement associés à des contacts faux négatifs et faux positifs.

L’interprétation des contacts évolutifs mais également les difficultés rencontrées présentent des similitudes avec la résolution de structure en RMN. La spectroscopie par RMN permet en effet de détecter des paires d’atomes proches dans l’espace (< 5 Å) et d’obtenir une pseudo carte de contact à partir de laquelle sera dérivée des contraintes de distances pour déterminer la structure tridimensionnelle. Parmi les différentes approches robustes utilisées, ARIA (Ambiguous Restraint for Iterative Assignment) est un des logiciels les plus efficaces pour interpréter les données de RMN et déterminer la structure associée. ARIA suit un processus itératif et propose différents outils comme l’utilisation de contraintes ambiguës pour filtrer et interpréter efficacement un ensemble de contraintes de distances.

Dans ce contexte, l’objectif suivit au cours de ce travail est de proposer le développe-ment d’une approche alternative de traitedéveloppe-ment des cartes de contacts évolutifs pour prédire un ensemble de modèles structuraux. Cette méthode s’appuie sur le protocole itératif d’ARIA. L’analyse en amont de l’information contenue dans les cartes de contacts et l’intégration avec des données provenant d’autres sources expérimentales ou prédites ont été abordé dans ces travaux.

4.1 Traitement de l’information de contact

L’information obtenue par les méthodes extrapolant une information de couplage à partir d’un alignement de séquence n’attribue actuellement qu’un score binaire ou réel pour chaque paire de position dans la séquence protéique. Les approches de prédiction de structures utilisant actuellement cette information s’appuient sur une définition de contact unique entre les carbones α ou β (excepté entre les résidus proline et glycine) pour interpréter et modéliser les contacts évolutifs. Bien qu’il s’agisse d’une définition efficace au vue des précédentes publications, l’incertitude apportée par cette interprétation peut être à l’origine de l’ajout de contacts faux positif, la suppression de contacts vrai positifs ou encore la formation d’incohérences au cours de la modélisation dès lors qu’on les traduits en contraintes spatiales. Ces problématiques seront ainsi soulevées dans la deuxième partie.

4.2 Adaptation du protocole d’ARIA à la prédiction

structurale de novo

La seconde partie de ce manuscrit traite le développement et l’adaptation des contraintes évolutives au protocole itératif d’ARIA. La quantité et la qualité des informations fournies par les algorithmes de prédiction de contact, des potentiels énergétiques supplémentaires et une étape supplémentaire de partitionnement des structures ont été introduit dans le protocole. En parallèle, l’intégration avec d’autres données prédites ou expérimentales a été testée pour améliorer la qualité des conformations obtenues. Ces résultats seront traités dans la partie IV.

II

Repliement tridimensionnel d’une protéine

à partir d’une carte de contact

L’information de contact obtenue par les méthodes de co-évolution asso-cie habituellement un score unique pour chaque paire de résidus possible. Pour utiliser ces données dans une simulation de dynamique moléculaire tout atome, il est nécessaire de préciser avec exactitude l’information pouvant être extraite à l’échelle atomique. La conversion d’un contact entre résidus en un ensemble de contraintes de distances soulève en effet des questions sur la nature des atomes impliqués et la distance cible en fonction de la résolution des différentes approches. Cette partie a pour vocation d’étudier différentes interprétations des cartes de distance et d’évaluer leur impact sur le repliement d’une structure suivant le protocole ARIA à partir d’un jeu de données contrôle.

1

Introduction

La représentation sous la forme d’une carte de contact à partir d’une matrice de distance est une approximation relativement efficace pour simplifier l’analyse et la comparaison des propriétés de complexes macromoléculaires [147]. Ce type de représentation est également utilisée dans le cas des algorithmes d’alignement de structure [148], la classification automatique de domaines [149] ou encore l’identification de résidus importants (sites fonctionnels, repliement, stabilité, . . .).

Contrairement aux études sur des structures expérimentales, la définition utilisée pour interpréter les contacts prédits n’est pas clairement définie. L’interprétation d’une carte de contact dépend de la manière dont l’interface entre les résidus est décrite. Cette dernière correspond dans le cas d’une protéine au choix des atomes par résidus et à un ou plusieurs seuil de distance. Selon le type d’interaction et le phénomène physique étudié, ces définitions peuvent fortement varier [150, 151]. Une définition globalement acceptée dans les études comparatives de cartes de contacts établit un contact entre deux résidus lorsque la distance entre les Cβ (ou Cα pour la glycine) est inférieure à 8 Å dans la structure native [152].

Dans le cadre de la prédiction de structure à l’aide de contacts évolutifs, les défi-nitions utilisées sont relativement confuses et dérivent en général des contraintes de distances assez permissives impactant la capacité des algorithmes utilisant cette information à converger vers une solution consensus. Définir de manière objective le type d’interaction (choix des atomes et de la distance cible) pour construire les contraintes géométriques en fonction du modèle de prédiction utilisé reste une question épineuse [153]. Une définition de contact imprécise peut conduire à une perte d’information indispensable au repliement de la structure. A l’inverse, une définition trop stricte se traduit quant à elle par un risque élevé d’inclure un grand nombre de contraintes faux positives.

Le premier objectif dans ce chapitre est de proposer une estimation plus précise de l’information structurale obtenue par les méthodes de prédiction et d’étudier l’impact du choix d’une définition de contact sur la qualité de la carte par rapport aux modèles de référence. Nous vérifierons ensuite la validité du protocole CNS utilisé par ARIA à replier une structure en se basant sur des cartes de contacts natives.

2

Méthodes