Les différents critères d’évaluation - Évaluation, sélection et raffinement des modèles

Nouvelles méthodesNouvelles méthodes

3 Modélisation comparative adaptée pour les superfamilles

3.5 Évaluation, sélection et raffinement des modèles

3.5.1 Les différents critères d’évaluation

Les différents outils et critères d’évaluation ont été déjà abordés lors de la section 2.5.4. Selon les méthodes utilisées pour la reconstruction, les critères d’évaluation n’ont pas été les mêmes. Ainsi, pour les premières méthodes basées sur des outils RMN, le critère essentiel était celui de la géométrie au niveau du plan de Ramachandran. Le logiciel de référence pour ce genre d’évaluation est PROCHECK. Il permet entre autres de vérifier si les couples (ϕ,ψ) sont bien situés dans les zones autorisées du diagramme de Ramachandran, de contrôler de la distorsion géométrique des chaînes latérales, la planéité des cycles aromatiques etc. Les meilleurs modèles PROCHECK étaient alors sélectionnés pour une relaxation, et une seconde sélection se fait ensuite sur le critère de l’énergie totale de chaque modèle après relaxation.

Pour les modèles issus de Modeller, un processus assez similaire a été appliqué. Modeller dispose de son propre score, appelé fonction objective, qu’il calcule pour tous les modèles qu’il génère. Ce score est une combinaison de plusieurs paramètres aussi bien statistiques qu’énergétiques. Plus ce score est bas, meilleure est la structure. Cependant, la meilleure fonction objective n’est pas toujours synonyme de meilleure solution. En effet, la notion de « meilleur modèle » est variable selon les logiciels d’évaluation utilisés. De ce fait, chaque fois que j’ai eu à sélectionner un modèle parmi l’ensemble de ceux générés par Modeller, j’ai dû chercher un compromis entre les différentes méthodes d’évaluation. Avec l’expérience, certains programmes ont été privilégiés : ainsi, je n’ai pas eu à utiliser PROCHECK dans la mesure où tous les modèles sortis par Modeller étaient « propres » au niveau du plan Ramachandran. J’ai en revanche utilisé ANOLEA, PROQ ainsi que Prosa II pour évaluer les modèles (cf. Tableau 2.3 à la page 120). Il n’a pas été possible pour moi d’établir un script pour le choix des modèles par ces outils : les scores étant calculés différemment, un consensus n’est pas réalisable. La recherche d’un meilleur compromis entre les scores calculés par ces différents programmes est encore manuelle.

3.5.2 Affinement avant d’être exploité

Une fois le modèle choisi, vient l’étape d’affinement. Le modèle est dans un premier temps soumis au logiciel SCWRL (http://bioserv.cbs.cnrs.fr/HTML_BIO/frame_scwrl.html) (Canutsecu et al., 2003) qui réattribue les chaînes latérales de façon à minimiser les « clashes » entre chaînes latérales, et entre chaînes latérales et squelette peptidique. SCWRL dispose pour cela d’une bibliothèque de rotamère et propose une liste de valeurs de χ1-χ2-χ3-χ4 en fonction des valeurs ϕ et ψ

du squelette peptidique. Lorsque les chaînes latérales sont correctement positionnées, une minimisation est opérée suivie d’une dynamique pour « relâcher » la molécule. C’est d’ailleurs au cours de cette étape que l’on procède à la « fixation » de l’hème sur la cystéine proximale, et ce quel que soit le logiciel utilisé pour la dynamique. Au cours de ma thèse, j’ai été conduit à tester différents champs de force sur les modèles que j’obtenais : GROMOS, CHARMM et AMBER. J’ai d’abord travaillé avec le champ de force GROMOS en raison de la simplicité du programme GROMACS pour le paramétrage et sa robustesse. Dans ses premières versions (V3.1.4) il était très aisé d’attacher l’hème à l’apoprotéine : GROMACS disposait en effet des fichiers nécessaires à la reconnaissance de l’hème et sa fixation à la cystéine la plus proche. Cette procédure de fixation se faisait automatiquement, sans intervention de l’utilisateur. Dans les versions plus récentes, la présence de l’hème dans le site actif, empêche l’encapsulation de la protéine entière dans une boîte d’eau. Comme je n’ai pas réussi à trouver l’origine du problème, je suis passé à une version plus ancienne de GROMACS et plus tard à une nouvelle suite de logiciels. J’ai adopté par la suite le programme NAMD pour réaliser les simulations, car c’est un outil qui offre la possibilité d’utiliser aussi bien le champ de force CHARMM qu’AMBER. Les différentes simulations opérées sur les modèles ont montré qu’il n’y avait pas de différences notables entre ces deux champs de force, au niveau des résultats. Pour la suite des expériences, c’est finalement le champ de force AMBER que j’ai utilisé.

Quels que soient les outils utilisés pour la simulation, les paramétrages des simulations ont été à peu près équivalents. Dans tous les cas, le modèle à relaxer a été placé dans une boîte d’eau périodique –on parle alors de simulations en solvant explicite– dont les bords sont situés à 10 Å du bord des résidus de surface de la protéine. En fait, la taille de la boîte est définie par l’utilisateur, et peut être plus petite. Par sécurité, la marge de 10 Å autour de la protéine a toujours été appliquée, conduisant à des boîtes périodiques parallèlipédiques de l’ordre de 95x85x75 Å3. La forme de la boîte n’est quant à elle pas importante (cubique, octaédrique …), seule sa périodicité l’est. En effet, les conditions périodiques (correspondant à une duplication de la boîte le long des trois axes du référentiel) permettent le maintient du nombre de molécules total, de volume et de pression dans les ensembles NVT ou NPT. Une des conséquences indirecte lors de l’utilisation de ces conditions périodiques est de s’affranchir d’un nombre trop important de molécules dans le système et donc soulager le temps de calcul pour chaque simulation. Ainsi, si une molécule d’eau par exemple sort de la boîte par une face, elle est générée systématiquement aussitôt sur la face opposée, permettant au système de conserver le même nombre d’atomes. Dans un souci de neutralité du système, des contre-ions sont ajoutés au système (Na+ ou Cl–). Une fois la solvatation réalisée, le système peut alors être minimisé, équilibré et soumis à une simulation de MD pour des temps variables allant de la picoseconde à la nanoseconde,

qui se traduisent en temps de calcul de quelques jours à quelques semaines. En fin de dynamique, l’énergie du système est évaluée pour vérifier si le modèle obtenu est stable ou non. Après cette ultime étape, je dispose alors d’un support de travail pour analyser les mécanismes de reconnaissance des P450s in silico.

3.5.3 Traitement additionnel (et optionnel) des régions inter-blocs sur les

modèles obtenus

Lorsque j’ai voulu valider la méthodologie de reconstruction à l’aide de blocs structuraux conservés, j’ai souvent été confronté à des « divergences structurales » au niveau des régions inter-blocs entre le modèle et la structure de référence (exemple 1tqn pour le modèle du CYP 3A4). Quelle que soit l’approche utilisée sous Modeller (avec ou sans alignement inter-bloc), des différences de repliements sont observées entre la structure-test et les modèles générés, localisées surtout au niveau de ces régions qui ne devaient pas porter d’information structurale. La méthode de reconstruction des boucles proposées par le logiciel Modeller n’a pas donné les résultats espérés, comme cela a été déjà évoqué. Dans l’ancienne stratégie basée sur les outils RMN, N. Loiseau et M. Cottevieille essayaient de s’affranchir de ce problème par l’utilisation du recuit simulé sous Xplor. C’était possible car les fichiers de contraines étaient générés explicitement en format Xplor, et le programme pouvait calculer toutes les violations des contraintes spatiales pour chaque modèle généré. Avec Modeller, cette étape n’est pas accessible du fait d’un format obscure des fichiers : la récupération des fichiers de violations des contraintes de Modeller n’était d’aucune aide, étant dans l’incapacité de les exploiter.

Il fallait donc trouver une alternative à cette étape ultime d’affinement sous Xplor. Cela m’a conduit à prendre contact avec K. Zimmermann du MIG (Mathématique, Informatique et Génome) à l’INRA de Jouy-en-Josas. Je cherchais un minimisateur efficace et seul ORAL (Zimmermann, 1991) semblait adapté à l’esprit de la minimisation par blocs : il relaxe uniquement des portions d’une molécule bordées par deux blocs rigides (ou semi-rigides) déterminés par l’utilisateur. Son concept plutôt novateur était cependant limité par la génération de champ de force qu’il intègre : AMBER4. Avec mes simulations conduites sous AMBER6, les topologies n’étaient pas compatibles. Il a donc fallu reconstruire toutes les topologies sous AMBER4. Par ailleurs, ORAL utilise le package d’AMBER, qui est sous licence. Je ne disposais pas de licence sur mes propres machines.

3.6 Conclusion

Au travers de ce chapitre, j’ai présenté la stratégie de reconstitution de P450s inconnus à basse identité de séquences mise au point au laboratoire. Avec les différentes générations de modélisateurs, cette stratégie s’est vue modifiée. J’ai réalisé les principaux changements au cours de ma thèse, en apportant une nouvelle façon d’aligner ainsi qu’une nouvelle manière de construire les modèles, tout en conservant la philosophie initiale : celle d’utiliser les éléments structuraux communs à tous les P450s pour servir d’ossature aux nouveaux modèles. Ainsi, pour chaque étape, j’ai présenté les deux méthodes (l’ancienne et la nouvelle) afin que l’on puisse se rendre compte à la fois de leurs différences, mais également des problèmes auxquels j’ai été confronté pour adapter cette méthodologie aux nouveaux outils mis à disposition. À chaque difficulté rencontrée dans l’adaptation de la méthode, différentes approches pour trouver une solution ont été présentées.

On dit souvent qu’un beau dessin vaut mieux qu’un long discours, aussi, je terminerai ce chapitre par un schéma récapitulatif présentant la méthodologie générale de reconstruction de P450s utilisée au laboratoire sous ses deux aspects : avant et après mon arrivée. La dualité sera alors plus visible pour chaque étape de la reconstruction.

Le prochain chapitre est consacré au logiciel que j’ai développé pour automatiser de façon non ambiguë le positionnement des blocs sur la séquence cible : Caliseq. Ce logiciel prend donc place à l’une des étapes les plus importantes de la méthodologie, à savoir fournir au logiciel de construction de modèle par homologie, l’alignement le plus fiable.

Figure 3-9 Schéma récapitulatif de la méthodologie appliquée à la reconstruction à bas taux d'identité des P450s

Choix des P450s de référence Choix des P450s de référence

Ancienne stratégie Nouvelle stratégie

Identification des CSBs . Logiciel GOK

. Fusion des 3 jeux de templates . Logiciel GAKUSA

Transformation de chaque bloc en PSSM puis alignement des blocs sur la séquence du P450s à reconstruire, indépendamment les uns des autres par déplacement des profils sur la séquence cible

. Logiciels Make_consenus et SmartConsAlign

Alignement simultané de l’ensemble des Blocs sur la séquence du P450s à reconstruire, par programmation dynamique . Programme Caliseq

Construction du modèle par homologie à l’aide de logiciels de RMN en utilisant les contraintes spatiales entre les atomes des résidus dans les blocs

. Banque de rotamères de Karplus, utilisation du logiciel DYANA pour la construction selon les contraintes spatiales et enfin logiciel XPLOR pour le recuit simulé et pour optimisation

Alignement des régions de séquences inter-blocs . Programme Clustalw . Utilisation des SSE . Alignement manuel

Construction du modèle par homologie de manière automatisée

. Logiciel Modeller

Recuit simulé sur les régions inter-blocs . Utilisation de la fonctionnalité de Modeller pour reconstruire les boucles de novo . Programme ORAL (sous AMBER4)

Evaluation des modèles générés . Logiciel Procheck

. Evaluation de l’énergie globale

Evaluation des modèles générés

. Compromis Fonction Objective de Modeller, logiciel ProsaII, logiciel ProQ et logiciel Anolea

Affinement des modèles sélectionnés en boîte de solvant . Gromacs . NAMD Etape 1 : Identification des CSBs Etape 3 :

Construction des modèles

Etape finale :

Sélection du modèle final Etape 2 :

159

CHAPITRE

4

Dans le document Relations structure - Fonction dans la superfamille des Cytochromes P450 (Page 160-166)