- - -
- - -
Dépôt Institutionnel de l’Université libre de Bruxelles / Université libre de Bruxelles Institutional Repository
Thèse de doctorat/ PhD Thesis Citation APA:
Vandevuer, S. (2006). Etude assistée par ordinateur de protéines et de leurs interactions avec des ligands : application à la D-alanine:Dalanine ligase et à la P-glycoprotéine (Unpublished doctoral dissertation). Université libre de Bruxelles, Faculté des sciences, Bruxelles.
Disponible à / Available at permalink : https://dipot.ulb.ac.be/dspace/bitstream/2013/210792/1/f2fa35b5-91de-4069-a624-1d14cf758a1d.txt
(English version below)
Cette thèse de doctorat a été numérisée par l’Université libre de Bruxelles. L’auteur qui s’opposerait à sa mise en ligne dans DI-fusion est invité à prendre contact avec l’Université ([email protected]).
Dans le cas où une version électronique native de la thèse existe, l’Université ne peut garantir que la présente version numérisée soit identique à la version électronique native, ni qu’elle soit la version officielle définitive de la thèse.
DI-fusion, le Dépôt Institutionnel de l’Université libre de Bruxelles, recueille la production scientifique de l’Université, mise à disposition en libre accès autant que possible. Les œuvres accessibles dans DI-fusion sont protégées par la législation belge relative aux droits d'auteur et aux droits voisins. Toute personne peut, sans avoir à demander l’autorisation de l’auteur ou de l’ayant-droit, à des fins d’usage privé ou à des fins d’illustration de l’enseignement ou de recherche scientifique, dans la mesure justifiée par le but non lucratif poursuivi, lire, télécharger ou reproduire sur papier ou sur tout autre support, les articles ou des fragments d’autres œuvres, disponibles dans DI-fusion, pour autant que :
Le nom des auteurs, le titre et la référence bibliographique complète soient cités;
L’identifiant unique attribué aux métadonnées dans DI-fusion (permalink) soit indiqué;
Le contenu ne soit pas modifié.
L’œuvre ne peut être stockée dans une autre base de données dans le but d’y donner accès ; l’identifiant unique (permalink) indiqué ci-dessus doit toujours être utilisé pour donner accès à l’œuvre. Toute autre utilisation non mentionnée ci-dessus nécessite l’autorisation de l’auteur de l’œuvre ou de l’ayant droit.
--- English Version ---
This Ph.D. thesis has been digitized by Université libre de Bruxelles. The author who would disagree on its online availability in DI-fusion is invited to contact the University ([email protected]).
If a native electronic version of the thesis exists, the University can guarantee neither that the present digitized version is identical to the native electronic version, nor that it is the definitive official version of the thesis.
DI-fusion is the Institutional Repository of Université libre de Bruxelles; it collects the research output of the University, available on open access as much as possible. The works included in DI-fusion are protected by the Belgian legislation relating to authors’ rights and neighbouring rights.
Any user may, without prior permission from the authors or copyright owners, for private usage or for educational or scientific research purposes, to the extent justified by the non-profit activity, read, download or reproduce on paper or on any other media, the articles or fragments of other works, available in DI-fusion, provided:
The authors, title and full bibliographic details are credited in any copy;
The unique identifier (permalink) for the original metadata page in DI-fusion is indicated;
The content is not changed in any way.
It is not permitted to store the work in another database in order to provide access to it; the unique identifier (permalink) indicated above must always be used to provide access to the work. Any other use not mentioned above requires the authors’ or copyright owners’ permission.
UNIVERSITÏ LIBRE DE BRUXELLES Facidré des Saences
ETUDE ASSISTEE PAR ORDINATEUR DE PROTEINES ET DE
LEURS INTERACTIONS AVEC DES LIGANDS : APPLICATION A LA D-ALANINE:D-ALANINE LIGASE ET A LA P-GLYCOPROTEINE
Thèse pnésemée en vue de Vobrennon du gnade de DocreuK en Saences
PnomoreuK : Dr- Mannne PnévosT
Vandevuen - Juiller 2006
EacuLré des Saences
ETUDE ASSISTEE PAR ORDINATEUR DE PROTEINES ET DE LEURS INTERACTIONS AVEC DES LIGANDS : APPLICATION A LA D-ALANINE:D-ALANINE LIGASE ET A LA P-GLYCOPROTEINE
Thèse puésemée en vue de L'ohenTion du gmde de Docreun en Saences PKoœoreuR : Dr. Maimne PnévosT
Sréphane Vandevuen - Juiller 2006
T.n tout premier Cieuje voudrais adresser mes remerciements Ces pCus vifs et Ces pCus sincères à Martine (Prévost, pour m'avoir dirigé et épauCé durant toute ma tCèse. Martine, j'ai Beaucoup apprécié de travaiCCer à vos côtés et de partager votre passion pour Ca Bioinformatique. Merci pour vos conseiCs et votre disponiBiCité de chaque instant. Sans vos encouragements constants tout ce travaiC n 'aurait pu arriver à terme.
J'aurai pas maC voyagé d'un service à Cautre durant ma thèse, ce qui m'a permis de rencontrer un grand nombre de personnes très intéressantes. J'en citerai ici certains en tâchant, même si je suis sûr du contraire, de n'ouBCier personne. Tout dabord merci aivcpersonnes qui ont fait Ce chovç^
de travaiCCer dans ce domaine un peu étrange qu'est Ca Bioinformatique, et avec qui j'ai passé pas maC de temps : Marianne, <Dimitri, OCves, IsaBeCCe (avec qui fai toujours pu discuter CiBrement de BouCbt ou dautres choses), Jean-Marc (un tout grand monsieur, capable de vous arranger n'importe queCproblème informatique pourvu qu'on Cui donne un déCai suffisamment court), (Benjamin (dit «petit scarabée »), etpCus récemment^Ce:)(gndre.
(Durant mon passage au fameioiDZ j'ai pris plaisir à côtoyer de nombreuses personnes. Cèst grâce à elles que je dois être un des rares initiés comprenant Ca signification de termes aussi nébuCetoique (PJCDJf, JCJ¥T, et autres (pJ{(EJdC... J'ai aussi eu Ce plaisir de partager des soupers de labo (souvent bien arrosés) dans une ambiance très sympathique. Merci à ÇiCCes pour sa bonne humeur constante, à Tred pour ses délires et ses conseiCs plus sérieux^ à (Benjamin et Jlmaud, compagnons d études en chimie, et à Cécile Moucheron, sans qui je ne serais vraisemblablement jamais entré dans un groupe de bioinformatique. Je tiens égalèment à saluer Ce professeur Jacques (R§isse, que j'admire tout particulièrement comme enseignant et comme homme de sciences possédant une culture phénoménale. (Enfin un tout grand ME(RCC à JficoCe Detienne pour sa gentillesse, ses petits gestes attentionnés, et tous les petits services qui m'ont rendu Ca vie de doctorant plus agréable sans une tonne de paperasse. Je salue ensuite les membres du laboratoire du professeur (Philippe (Bogaerts, au sein duquel j'ai été rattaché pendant un certain temps. Mon parcours m'a ensuite ramené du côté des sciences dans le service de structure et fonction des membranes biologiques. Il me faut ainsi remercier pour leur accueil de nombreuses personnes de ce service, et en particulier Vincent, Jean-Marie, Erih^ Michel, Véronique et bien sûr toutes ces jolies doctorantes, hélas plus présentes dans les laboratoires de biochimie que derrière un écran en bioinformatique. J'ai également eu le grand plaisir (et une certaine crainte, vu sa réputation) de retrouver mon binôme d étudiant en chimie : Louis. Courage pour la fin de ta thèse, viewç^ !
Je voudrais ensuite remercier les personnes avec qui fai pu établir des relations amicales via des collaborations : les docteurs Erançoise Van (Bambehe et Paul (Tulhens de IVCL, ainsi que Dorian et Isabelle. Strasbourg, je tiens à saluer Einton Sirochjn et le professeur Jlnnich^
Dejaegere pour leur excellent accueil et leurs précieux conseils.
semhCant de m’écouterpCus d’une minute. (Bertrand, tu as maintenant un exemplaire complet de ma thèse, avec un titre définitif qui plus est. Je ne pense pas que ça te serve un jour mais je te devais Bien ça. (Pourfaire Bref coucou à mon frérot Xavier, aux«ze Benz », à JLlêxU> Ant, Eérid, (Dimitri, leurs femmes respectives (ou pas), et à ma petite nièce Camille.
Séverine, mon amour, tu sais Bien que je n’aurais pas la place dans un ouvrage aussi modeste que celui-ci pour te dire à que!point je t’aime. Merci d’être à mes côtés chaque jour où fai Besoin de toi Et n’ouBlie pas : les gens Bizarres ce sont les autres !
Enfin je voudrais remercier mes parents pour m’avoir permis de suivre les études que je souhaitais. Merci pour Céducation que vous m’avez donnée, j’en suis très fier.
U est de Bon ton de clôturer ces remerciements par une citation hautement philosophique. Mon choixs’est ainsi porté sur (Barjavel, 1968):
Ce travail a été suBsidté par des Bourses du Ponds pour Ca PfchercBe dans Cindustrie et CjLgriculture, de ùi Tondation JiCice et DavidV^an <Buuren,,et de Ca Région 'Wallonne.
Résumé... 9
Abréviations et Formules...10
===== SECTION A === Chapitre 1 - Introduction générale...12
1.1 Méthodes expérimentales... 16
1.1.1 Cristallographie aux rayons X... 16
1.1.2 Résonance magnétique nucléaire... 19
1.1.3 Microscopie électronique... 21
1.2 Méthodes théoriques... 23
1.2.1 Description du système... 23
1.2.2 Dynamique moléculaire... 28
1.2.3 Modélisation comparative... 30
1.2.4 Méthode d’enfilage...33
1.2.5 Méthodes ab initia... 35
1.2.5.1 Prédictions par recherche globale... 35
1.2.5.2 Evolution du système durant le reploiement...36
1.3 Les protéines au sein de complexes... 38
1.4 Notre travail...41
===== SECTION B : P-GLYCOPROTEINE ===== Chapitre 2 - Introduction... 43
2.1 Généralités...43
2.2 Données structurales... 46
2.2.1 Topologie... 46
2.2.2 Microscopie électronique... 48
2.2.3 Criblage par mutagenèse de cystéines... 53
2.2.4 Autres études structurales... 55
2.3 Structures expérimentales d’autres transporteurs à ABC...57
2.3.1 Structure par diffraction aux rayons X de MsbA de E. coli... 57
2.3.2 Structure par diffraction aux rayons X de MsbA de V. choiera...59
2.3.3 Structure par diffraction aux rayons X de MsbA de S. typhimurium...60
2.3.4 Structure par diffraction aux rayons X de BtuCD... 62
2.4 Mécanisme catalytique...63
2.5 Liaison de drogues au sein de P-gp...65
2.6 Objectif du travail et stratégie... 67
6
3.2 Modélisation comparative...69
3.3 Dynamique moléculaire de corps rigides... 70
3.4 Positionnement de ligands...72
Chapitre 4 - Résultats et discussion...73
4.1 Modélisation au niveau atomique de P-gp...73
4.2 Comparaison avec d'autres modèles... 82
4.3 Positionnement de drogues au sein du modèle... 84
4.3.1 Positionnement du verapamil et de la rhodamine...85
4.3.2 Prédictions d’affinité...89
4.4 Conclusions et perspectives... 91
=== SECTION C : D-ALANINE:D-ALANINE LIGASE == Chapitre 5 - Introduction... 94
5.1 La paroi bactérienne... 94
5.2 Structure et mécanisme réactionnel de la D-alanine:D-alanine ligase... 98
5.3 Méthodes prédictives pour la recherche de ligands...102
5.3.1 Méthodes de filtrage... 105
5.3.2 Méthodes de conception ne se basant pas sur la structure de la cible... 108
5.3.2.1 QSAR... 108
5.3.2.2 Méthode basée sur un pharmacophore...108
5.3.3 Méthodes basées sur la connaissance de la structure de la cible... 110
5.3.3.1 Positionnement du ligand... 111
5.3.3.2 Evaluation de l’affinité... 112
5.3.3.3 Conception de novo de ligands... 116
5.3.3.4 Criblage virtuel de bases de données...118
5.4 Objectif du travail et stratégie... 120
Chapitre 6 - Description des outils informatiques et méthodologie... 122
6.1 LUDI...122
Description générale... 122
6.2 MCSS... 126
6.3 Autodock... 130
6.4 Divers... 134
7.2 Analyse critique des programmes utilisés... 137
7.2.1 LUDI... 140
7.2.2 MCSS... 144
7.2.2.1 Placement des ligands... 144
1.2.22 Paramétrisation du calcul de solvatation...148
7.2.3 Autodock... 150
7.2.4 Comparaison de la qualité du positionnement...154
7.2.5 Comparaison de la qualité de la prédiction d’affinité... 157
7.2.6 Conclusions...160
7.3 Conception de novo d'inhibiteurs potentiels...161
7.4 Positionnement de fragments moléculaires... 170
7.4.1 Cartographie du site de liaison de la ligase... 170
7.4.2 Positiormement de fragments moléculaires plus étendus... 174
7.5 Troisième approche - criblage d'une base de données...181
7.6 Conclusions et perspectives...186
—= SECTION D : CONCLUSIONS ET ANNEXES == Chapitre 8 - Conclusions générales... 190
Bibliographie... 192
Annexe A. Alignements de séquences...207
Annexe B. Molécules issues de la recherche d’inhibiteurs... 209
Annexe C. Publications... 215
8
La biologie structurale a pour objectif de définir, dans un contexte tridimensionnel, et à l’échelle atomique ou moléculaire, les structures et les mécanismes impliqués dans les systèmes biologiques. Dans le cadre de cette thèse, deux sujets nous ont permis d’aborder l’étude assistée par ordinateur des protéines, et leurs interactions avec des ligands.
Le premier volet de la thèse a été consacré à l’étude de la P-glycoprotéine (P-gp). Cette protéine membranaire est associée au phénomène de résistances multiples aux drogues, rendant sa caractérisation d’une haute importance sur le plan médical. Afin de modéliser la structure tridimensionnelle de P-gp, nous avons eu recours à une combinaison de méthodes théoriques, incluant la modélisation comparative et la dynamique moléculaire de corps rigides. Le modèle final a été soigneusement confronté aux diverses données expérimentales d’origine biochimique et de microscopie électronique, et comparé aux autres modèles publiés. En plus de la modélisation proprement dite, le positionnement d’une série de ligands a été réalisé au sein de la cavité centrale de la protéine. L’évaluation de leur affinité relative a montré une très bonne corrélation avec les valeurs expérimentales. Les géométries d’interaction protéine-ligand ont également été comparées aux données expérimentales, et corroborent l’existence de multiples sites de liaison pour un ligand donné. Les interactions observées au sein des complexes s’accordent également avec un modèle de pharmacophore proposé récemment.
La seconde partie de cette thèse s’inscrit dans le cadre de la lutte contre les bactéries, via l’étude de la D-alanine:D-alanine ligase, une enzyme impliquée dans la synthèse de la paroi bactérienne. Une recherche d’inhibiteurs a été réalisée en ayant recours à des méthodes prédictives se basant sur la structure expérimentale de l’enzyme. Ces méthodes ont été validées en positionnant des composés pour lesquels des données structurales ou d’affinité sont disponibles dans la littérature. Dans une première approche nous avons procédé à la conception de novo d’un inhibiteur de la ligase. Divers fragments moléculaires ont ainsi été positionnés dans le site actif, et connectés pour former des inhibiteurs potentiels. Dans une seconde approche, nous avons procédé au criblage d’une base de données reflétant la diversité structurale de plus de 70 000 molécules. Plusieurs composés émergent de cette recherche, avec des affinités prédites particulièrement fortes. Des premiers tests expérimentaux, réalisés par un laboratoire partenaire, ont révélé que l’un des composés conçus par l’approche de novo possède une activité inhibitrice. Les tests sur les composés sélectionnés par criblage de base de données devront être réalisés prochainement.
3D : tridimensionnel
ABC : ATP-binding cassette (boîte de liaison d’ATP) ADP : adénosine diphosphate
ARN : acide ribonucléique ATP : adénosine triphosphate
CAPRI : critical assessment of predicted interactions CASP : critical assessment of structure prédiction EC : extracellulaire
FET : fluorescence energy transfer (transfert d’énergie de fluorescence) Ki : constante d’inhibition
IC : intracellulaire
IC50 : concentration inhibant 50% de l’activité ME : microscopie électronique
MDR : multiple drug résistance (résistance multiple aux drogues) MTS : méthanethiosulfonate
NBD ; nucléotide binding domain NIH ; national institute of health (USA) NOE : effet nucléaire Overhauser PDB : protein data bank
P-gp : P-glycoprotéine
RMN : résonance magnétique nucléaire
RMSD : root mean square déviation (écart quadratique moyen) SIDA : syndrome de l’immunodéficience acquise
TM : transmembranaire
VIH : virus de l’immunodéficience humaine
Formules
RMSD =
où n est le nombre de paires d’atomes
et di la distance séparant les deux atomes de la paire i
10
Introduction générale
La biologie structurale est un domaine interdisciplinaire qui s’attache à l’étude de la structure et de la dynamique de biomolécules, telles que les protéines et les acides nucléiques. Ceci comprend également l’étude des interactions qu’elles forment entre elles, et avec diverses molécules organiques. Ce sujet est crucial pour la compréhension du vivant, car ce sont ces biomolécules qui remplissent les fonctions cellulaires, et que généralement leur structure tridimensionnelle (3D) est spécifique au rôle qu’elles occupent. Les bases de la biologie structurale sont la définition de la structure chimique, qui date du début des années 1800 ; la détermination de la structure atomique, dans les années 1900 ; et la compréhension de la structure des polymères, dans les années 1920. Le véritable essor de la biologie structurale correspond à la détermination de la structure des gènes dans les années 1950 (Watson & Crick, 1953), et à la première détermination d’une structure de protéine en 1957 (Kendrew et al., 1958). Enfin le séquençage du génome humain s’est terminé avec la fin du précédent millénaire et apporte des perspectives d’envergure {International Human Genome Sequencing Consortium, 2004). On nomme protéomique l’étude des parties codantes d’un génome qui correspondent à des protéines (Englbrecht & Facius, 2005 ; Liu
& Hsu, 2005). La protéomique struchirale s’attache ainsi à la détermination de la structure de biomolécules, par des méthodes expérimentales et prédictives.
La détermination de la structure de protéines n’est pas uniquement un enjeu théorique, mais une étape importante dans la lutte contre les maladies qui affligent l’homme. A l’heure actuelle, l’ensemble des médicaments utilisés visent quelque 400 cibles différentes. Le décodage du génome humain a, quant à lui, permis d’estimer la présence d’environ 20000 à 25000 gènes différents.
Parmi ceux-ci on peut estimer, suivant différentes sources, qu’entre 3000 et 5000 peuvent servir de cible potentielle pour une nouvelle drogue (Hopkins & Groom, 2002). Bien que le génome soit à présent disponible sous forme de séquence, on n’en connaît que peu de choses en termes de fonction pour les protéines encodées, et encore moins pour ce qui est de la structure de ces protéines. L’accès à des informations structurales de haute qualité est un pré-requis fondamental polir de nombreux domaines d’étude du vivant, comme la biologie moléculaire, la pharmacologie moléculaire, la chimie médicinale, ou encore la conception rationnelle de drogues. La traduction complète de protéomes en données structurales est ainsi un défi majeur pour l’ère génomique. A terme, ceci permettra une avancée majeure en médecine, au niveau de la compréhension, du diagnostic, de la prévention et du traitement des maladies.
12
L’importance que prend la biologie structurale se reflète dans le nombre croissant de projets de protéomique structurale à large échelle (Maggio & Ramnarayan, 2001). A titre d’exemple le National Institute of Health (NIH) a accordé des subsides de l’ordre de 125 millions de dollars au projet « Protein Structure Initiative », commencé en septembre 2000, et destiné à produire 10000 structures de protéines par cristallographie aux rayons X. Une initiative similaire a été lancée au Japon, sous le nom de « Protein Poids Project », cette fois en ayant recours à la résonance magnétique nucléaire (RMN). De tels travaux reposent en partie sur des tentatives d’accélérer les méthodes physiques de détermination de structure de biomolécules. Néanmoins si plusieurs facteurs limitants comme le clonage, l’expression, la purification et la cristallisation de protéines peuvent être améliorés, il n’en demeure pas moins que certaines protéines ne donneront pas d’informations structurales par des méthodes physiques. 11 se peut par exemple en spectroscopie aux rayons X que les cristaux ne diffractent pas. Actuellement, on estime que seulement une protéine sur vingt aboutit lors d’études structurales. Par ailleurs certaines protéines, comme les protéines membranaires, cristallisent très difficilement, ou dans des conditions éloignées de leur enviroimement naturel. Ainsi se focaliser uniquement sur les méthodes expérimentales présenterait de nombreuses limitations.
La modélisation comparative, que l’on peut décrire brièvement comme une méthode permettant de prédire la structure d’une protéine en se basant sur la structure d’autres protéines de séquence similaire, présente l’avantage sur les méthodes expérimentales d’un gain de temps et d’argent conséquent, et serait donc une alternative intéressante. Cependant elle souffre d’une limitation ; il faut disposer d’autres structures, qui serviront de moule (ou gabarit) pour modéliser la protéine d’intérêt. Heureusement ce handicap s’atténue peu à peu avec la détermination, par des méthodes expérimentales, de la structure de protéines au sein de chaque classe de reploiement. Le futur de la biologie structurale s’oriente donc vers une approche combinant méthodes expérimen
tales et théoriques. Le « Protein Structure Initiative », mentionné plus haut, reflète clairement cette orientation puisque ce travail peut être décomposé en quatre étapes (Maggio & Ramnarayan, 2001).
En premier lieu il s’agira d’organiser les protéines de séquence coimue en familles ; ensuite il faut sélectionner des représentants de chaque famille comme cible ; déterminer la structure de ces cibles par des méthodes expérimentales ; et enfin construire par modélisation comparative une structure 3D pour les autres protéines appartenant à chaque famille. Par ailleurs, d’autres méthodes de modélisation de structures de protéines, ne se basant pas sur des structures existantes, bénéficient d’im succès grandissant et viennent étoffer les apports des méthodes prédictives (Bradley et al, 2005).
La représentation classique de la structure d’une protéine est fréquemment liée à la diffraction de rayons X, et laisse généralement une impression de structure figée. Il faut cependant garder en tête que la spectroscopie de rayons X donne une information basée sur la position moyenne des
atomes de la protéine dans le cristal, et que ceux-ci sont sujets à des mouvements. Les mouvements au sein d’une protéine peuvent être classifiées grossièrement en trois familles (Brooks et al., 1988, et plus particulièrement les chapitres 7 à 9). La première comprend les mouvements dits locaux, associés à des mouvements de l’ordre de 0,01 à 5 Â, sur une échelle de temps allant de 10’^^ à 10'*
s. Ceci comprend des fluctuations des positions atomiques (par exemple de petits mouvements nécessaires à une enzyme pour accommoder un substrat), des mouvements de chaîne latérale (permettant à un ligand d’entrer ou de sortir par exemple), et des mouvements de boucles (comme le passage d’un état désordonné à un état ordonné qui active une enzyme). Une seconde famille reprend les mouvements dits de corps rigides, d’une amplitude de 1 à 10 Â, sur une durée de 10'^ à 1 s. On y retrouve des mouvements d’hélices (qui peuvent induire des changements structuraux à large échelle), des mouvements de type charnière (qui ouvrent ou ferment une région de la protéine), et les mouvements de sous-unités (que l’on retrouve dans des processus de transitions allostériques). Enfin la dernière famille est celle des mouvements de grande amplitude, de plus de 5 Â, prenant 10'^ à lO'^ s. De tels mouvements comprennent la transition entre hélice et structure non- ordonnée (que l’on retrouve dans l’activation d’hormones), l’association ou la dissociation de complexes protéiques (comme la formation des virus, ou l’activation des protéines de fusion), et également les transitions lors des processus de reploiement et de dénaturation de protéines.
La dynamique des protéines a ainsi toute son importance dans de nombreux phénomènes, comme la reconnaissance moléculaire qui peut avoir lieu entre deux protéines ou entre ime protéine et une molécule organique (Camacho, 2005). La dynamique est également à la base de l’activité enzymatique des protéines, qui peut soit résulter en des modifications chimiques (le cas le plus fréquent), soit générer une force mécanique (par exemple l’agitation de flagelles). Cette dynamique des protéines est particulièrement difficile à mettre en évidence expérimentalement. Les principaux apports dans ce domaine viennent de la RMN, puisque cette technique est sensible à la fois à l’amplitude des mouvements et au temps nécessaire pour les accomplir. En général les mouvements au sein des protéines sont rapides à l’échelle de la RMN (de l’ordre de la ms), et l’expérience enregistre donc une structure moyenne entre les différentes conformations (Palmer & Kroenke, 2001). Toutefois il existe des phénomènes lents, tels que la réorientation des cycles aromatiques, ou des mouvements de charnière, qui peuvent être étudiés par RMN. De plus, de nouvelles techniques (Mittermaier 8c Kay, 2006) sont élaborées pour permettre d’élargir le champ d’étude de la RMN au niveau de la dynamique de protéines.
Etant donné la faible quantité de données expérimentales, les méthodes bioinformatiques sont énormément utilisées. Ainsi les simulations de dynamique moléculaire permettent de faire le lien entre la structure et la dynamique, en permettant d’explorer l’espace conformationnel accessible aux protéines. La première simulation de dynamique moléculaire a été rapportée en 1977, et consistait en une trajectoire de 9,2 ps pour une petite protéine placée dans le vide (McCammon et
14
al., 1977). Onze ans plus tard, une simulation de 210 ps a pu être effectuée pour la même protéine en présence d’eau (Levitt & Sharon, 1988). L’accroissement de la puissance de calcul, et l’élaboration de nouvelles méthodologies, a depuis permis d’effectuer des simulations sur des systèmes de taille nettement plus grande, et sur une échelle de temps jusqu’à 100000 fois plus longue, soit une durée de 10 ns à 1 ps (Duan & Kollman, 1998), avec la protéine placée dans un environnement composé de molécules d’eau et d’ions.
Les simulations de dynamique moléculaire permettent ainsi d’obtenir des données à deux niveaux. D’ime part on peut observer l’évolution au cours du temps de la structure globale d’une protéine. Ainsi en partant par exemple d’un état dénaturé on peut tenter de mettre en évidence les étapes importantes du reploiement des protéines. Dans ce domaine on est confronté à deux contraintes. Premièrement le processus de reploiement est un événement de longue durée à l’échelle de la dynamique moléculaire, et deuxièmement le pas d’intégration doit être aussi petit que possible si on veut que chaque pose de la dynamique soit significative (McCammon, 1996). Le processus est donc coûteux à simuler en termes de temps de calcul. D’autre part on peut s’attacher à un niveau plus fin, comme les mouvements au niveau atomique. Ceci permet de répondre à des questions très spécifiques, comme par exemple quels résidus d’une protéine de type « moteur à ATP » sont directement impliqués dans la liaison de l’ATP, son hydrolyse, et la transmission du mouvement au niveau moléculaire (Karplus & Kuriyan, 2005).
1.1 Méthodes expérimentales
La détermination de la structure de biomolécules à l’échelle atomique peut actuellement être envisagée par deux méthodes expérimentales : la cristallographie aux rayons X et la RMN. Cette section détaille ces deux méthodes, ainsi que la microscopie électronique, qui est particulièrement utile dans la détermination de structure de larges complexes de protéines.
1.1.1 Cristallographie aux rayons X
La cristallographie aux rayons X est la technique ayant permis de déterminer le plus grand nombre de structures 3D de biomolécules, et reste la méthode de choix au vu de l’excellente résolution accessible (jusqu’à 1,0 Â) (Lamzin & Perrakis, 2000 ; Sali et ah, 2003 ; Acharya &
Lloyd 2005). La gamme de taille des biomolécules dont il est possible de déterminer la structure par cette approche est également très étendue, et va de petites molécules telles que l’insuline (5,8 kDa) ou les domaines PDZ (d’une centaine de résidus), au ribosome 70S, qui est constitué d’un assemblage de 52 protéines et 3 molécules d’ARN, pour une masse moléculaire de 2500 kDa.
Dans cette méthode, les biomolécules sont ordonnées en im certain arrangement spatial au sein de cristaux, qui sont exposés à des rayons X . Ces derniers ont une longueur d’onde de l’ordre de l’angstrôm, donc du même ordre de grandeur que les liaisons atomiques. Dans des cas favorables, une résolution de la structure 3D au niveau de l’atome est donc possible. Quand un cristal est exposé à des rayons X, un motif de diffraction est obtenu (figure 1.1). Celui-ci consiste en une série de réflexions à différentes intensités, qui est le résultat de la diffraction des rayons X à travers les électrons des atomes se trouvant dans le réseau cristallin. En effectuant ime rotation du cristal selon un certain angle, défini par la symétrie du cristal, on obtient des points de diffraction pour tous les atomes ordonnés au sein de la biomolécule. Chacim de ces points de diffraction est défini par trois paramètres : l’amplitude, qui peut être mesuré par l’intensité du point, la longueur d’onde, définie par la source de rayons X, et la phase. Pour reconstruire l’image de la densité électronique de la biomolécule, il faut cormaître l’ensemble de ces trois paramètres liés à la diffraction du rayoïmement. Le problème majeur de la cristallographie des macromolécules tient dans la perte d'information des phases des ondes difïfactées car seules les intensités des faisceaux difîfactés sont enregistrées. C’est ce qu’on appelle le « problème des phases » en cristallographie de macromolécules.
Une première technique, nommée remplacement isomorphe multiple, permet de déterminer la phase en réalisant une seconde expérience dans laquelle la biomolécule est dopée en atomes lourds.
Une alternative à cette technique est la méthode dite de remplacement moléculaire (Rossman &
16
Henderson, 1982), dans laquelle on utilise une molécule homologue de structure connue pour évaluer la phase. Cette structure peut également provenir d’vme technique de modélisation. Enfin la méthode de diffusion anomale à longueur d’ondes multiples (Hendrickson, 1991) nécessite une source de rayons X variable, comme un synchrotron, et la présence d’un ou plusieurs atomes présentant une anomalie de diffraction au sein du cristal, par exemple des ions métalliques. En effectuant plusieurs acquisitions à différentes longueurs d’ondes il est également possible de déterminer la phase.
(a) Single crystal (b) Diffraclion pattern (c) Electron density map (d) Ribbon diagram
Figure 1.1 : étapes parcourues dans la détermination de la structure d’une protéine par cristallographie aux rayons X.
Source : Acharya & Lloyd2005 (Elsevier Ltd)
Une fois les données collectées, il est possible de calculer la densité électronique en n’importe quel point du cristal (figure 1.1). L’étape suivante est alors de construire un modèle atomique préliminaire au sein de la densité électronique. Pour ce faire différentes procédures de minimisation d’énergie sont appliquées pour améliorer la structure. D’autres raffinements consistent à ajouter les molécules d’eau, les ions métalliques, et d’éventuels cofacteurs, avant de minimiser à nouveau la structure 3D. Ce processus est réitéré jusqu’à ce que le positionnement soit considéré comme idéal, comme attesté par différents critères (Helliwell, 2005). Cette procédure est de nos jours largement automatisée (Perrakis et al., 1999). Il est important de se rappeler que la diffraction se produit simultanément pour toutes les biomolécules. Ainsi la strucfrire 3D obtenue est une image qui est la moyenne sur un certain temps de l’ensemble des molécules du réseau cristallin.
Comme il a déjà été mentionné plus haut, la spectroscopie par diffraction de rayons X est une méthode de choix, qui permet d’obtenir des structures à très haute définition (soit 1,5 Â et moins).
Un autre avantage est que des systèmes de grande taille peuvent être examinés, permettant ainsi d’obtenir des informations précieuses sur les interactions au sein des complexes protéine-protéine.
Une limitation de la méthode est que la structure de la biomolécule est obtenue alors qu’elle est dans un état cristallin. Ainsi certaines portions de protéines dans im cristal peuvent être dans des conformations différentes de celles adoptées en solution. Autant que possible, il est donc indiqué
d’examiner les autres données structurales existantes, comme celles issues de la RMN, afin de mettre en évidence des artefacts de cristallisation. Il faut toutefois nuancer cette limitation en précisant qu’une protéine dans un cristal est fortement hydratée et garde en général de nombreuses propriétés, notamment son activité (Weber, 1991). Dans de nombreux cas, la cristallographie aux rayons X et la RMN donnent des structures très proches pour une protéine donnée, avec un RMSD allant de 1,0 à 2,0 A.
Une seconde limitation à la méthode, plus importante, est la nécessité d’avoir accès à un cristal de protéines d’vme qualité suffisante pour assurer la diffraction. Ces dernières années ont cependant vu de très grands progrès voir le jour en ce domaine, avec l’automatisation et la miniafruisation des systèmes tests. Ainsi il devient possible de tester en quelques minutes un large éventail de conditions de cristallisation, ce qui aurait pris plusieurs semaines il y a de cela quatre ou cinq ans (Chayen, 2004). La cristallisation reste cependant un problème délicat pour certains systèmes, comme les protéines membranaires.
L’avènement de la spectroscopie aux rayons X à haut débit montre que la maîtrise de cette technique s’améliore de plus en plus. On cherche ainsi actuellement à optimiser et à automatiser au plus haut point la méthode, et ce à chacune de ses étapes (Lamzin & Perrakis, 2000 ; Abola et al, 2000). Tout d’abord en ce qui concerne la cristallisation de protéines, des méthodes sont mises au point pour tester de manière systématique un ensemble de conditions (pH, force ionique, température..) de plus en plus étendu. C’est au final la quantité de protéine disponible en un temps dormé qui devient le facteur limitant. Une fois obtenus, les cristaux sont collectés et conservés, de manière à pouvoir les soumettre rapidement, les uns après les autres, au rayonnement d’un synchrotron. La manipulation automatisée d’im grand nombre de cristaux est ainsi un élément permettant de gagner un temps considérable. Au niveau de la collecte des données, c’est un ensemble d’éléments technologiques comme une source stable et puissante de rayons X (synchrotron) et des diffractomètres de haute précision qui permettent un gain de temps. Enfin au niveau de l’interprétation des données, les efforts portent actuellement sur l’évaluation rapide de la qualité de la diffraction.
18
1.1.2 Résonance magnétique nucléaire
La RMN en solution est la seconde méthode de choix pom déterminer la structure de biomolécules à l’échelle atomique. Le principal avantage de la méthode est qu’elle ne nécessite pas de cristalliser la molécule d’intérêt. Ainsi la plupart des structures déterminées par RMN déposées dans la PDB n’ont pas d’analogues déterminés par diffraction de rayons X, et plusieurs ne forment pas de cristal qui diffracte (Montelione et al., 2000). Les structures déterminées par RMN de haute résolution ont des structures de qualité comparable à celle de structures déterminées par cristallographie à une résolution de 2,0 à 2,5 Â.
La détermination de structure par RMN en solution peut être divisée en cinq étapes principales (Montelione et al., 2000 ; Liu & Hsu, 2005). La première de celles-ci est la préparation d’un échantillon, soit environ 500 pL d’une solution de protéine à une concentration de 1 mM. Si la molécule a une masse moléculaire dépassant les 10 kDa, un enrichissement en isotopes et est requis pour résoudre les recouvrements de spectroscopie du proton. L’accès à des systèmes de surexpression à haut rendement, ainsi que l’incorporation facile d’isotopes, permet de plus en plus que cette étape devienne une routine. L’échantillon est ensuite utilisé pour enregistrer un ensemble d’expériences de RMN multidimensionnelle qui donnent, après traitement des données par transformation de Fourier, les spectres RMN. Ceux-ci vont permettre, dans une troisième étape, l’assignation séquentielle complète des signaux (à savoir les fréquences de résonance) (Vuister et al., 1990). Cette assignation se fait par l’examen des déplacements chimiques, qui dépendent de l’enviroimement électronique du noyau, et des couplages scalaires entre protons, transmis par les liaisons covalentes. Les couplages scalaires peuvent être assez facilement isolés pour un résidu donné, car le couplage ne se transmet pas par la liaison peptidique. Cette étape permettra ensuite (quatrième étape) de dériver de nombreuses données quant à la conformation de la protéine, qui proviennent de deux sources (Braun, 1987). D’une part la mesure de constantes de couplage scalaire, mentionnés plus haut, permet d’obtenir des données quant aux angles de torsion au sein de la biomolécule. D’autre part les couplages spatiaux, ou effets NOE (pour effet nucléaire Overhauser) permettent d’obtenir des distances entre protons non liés chimiquement et situés à des distances de 5 Â ou moins. Enfin dans une cinquième et dernière étape, une prédiction de la structure de la protéine est effectuée à partir des premières contraintes mises en évidence à la quatrième étape. L’ensemble des données expérimentales sont traduites sous forme de contraintes de distance et d’angle, et incorporées aux potentiels classiques de dynamique moléculaire. En effectuant un « recuit simulé » (voir point 1.2.2) pour minimiser l’énergie de la structure, il est alors possible de générer un ensemble de structures en accord avec le champ de force et les contraintes.
La possibilité de dériver vme structure en solution offre de nombreux avantages par rapport à la nécessité de travail sur un cristal. Il est ainsi possible de faire des comparaisons de structures en fonction des conditions de la solution, qui peuvent moduler les relations structure-fonction. Ainsi
des données de titrage de pH peuvent être mesurées pour déterminer les valeurs de pK^ pour des groupements ionisables spécifiques dans la protéine (tels que ceux présents au sein du site actif d’ime enzyme). Un autre avantage de la RMN est l’observation des perturbations des fréquences de résonance. Celles ci permettent d’identifier des composés venant se lier à la protéine, et de mettre en évidence le ou les sites de liaison au sein de la protéine. Certains mouvements moléculaires peuvent également être mis en évidence, en fonction de leur échelle de temps (Mittermaier & Kay, 2006). La RMN est ainsi la méthode expérimentale de choix pour l’observation de processus dynamiques.
Même si des progrès significatifs ont été réalisés dans ce domaine, la taille de la biomolécule reste un facteur limitant pour la spectroscopie par RMN. Les méthodes standard qui permettent d’établir ime structure à haute résolution sont ainsi limités à des protéines de masse inférieure à 25- 30 kDa. En tenant compte de la longueur typique des protéines dérivées d’un génome, et en tenant compte que certaines protéines sont de nature oligomérique, on peut estimer que, à l’heure actuelle, seulement environ 25% d’un protéome peut être étudié par RMN en solution (Montelione, 2000). Il est cependant possible dans une certaine mesure d’étudier des protéines de grande taille, car celles- ci sont en général organisées en domaines relativement isolés, de l’ordre de 175 résidus. L’étude par RMN d’un domaine isolé peut donc fournir des données structurales. Une seconde limite aux expériences de RMN en solution vient de la concentration en protéine (typiquement de l’ordre de 1 mM) qu’il faut obtenir dans l’échantillon. Ceci empêche l’étude de protéines ayant une faible solubilité, ou celles coimues pour former des agrégats.
Le futur de la RMN est certainement aussi prometteur que celui de la spectroscopie aux rayons X (Altieri & Byrd, 2004). Une première avancée importante est la réduction du temps d’acquisition des données. Ceci passe par la construction d’aimants à plus haut champ, mais surtout par l’amélioration de la sonde, qui est la pièce destinée à récolter les signaux RMN. De nouvelles méthodes voient également le jour pour répondre au besoin de travailler sur des biomolécules de grande taille (Fernandez & Wider, 2003 ; Kay, 2004). De nombreux travaux s’attachent également à l’automatisation de l’interprétation des données. De récents développements permettent à l’heure actuelle l’attribution automatisée des signaux et l’élaboration de structures 3D de protéines allant de 50 à 200 résidus. En présence de données de bonne qualité, l’attribution des signaux des spectres peut être effectuée en quelques dizaines de minutes. Malgré tout, du travail reste encore à produire pour que l’on puisse vraiment qualifier cette tâche de routinière. Enfin, grâce à ces avancées technologiques et la contribution de la génomique, plusieurs projets de génomique structurale voient le jour. Ceux-ci consistent en l’expression systématique de protéines enrichies en isotopes
^^C et *^N de manière à permettre la détermination systématique de leur structure par RMN.
20
1.1.3 Microscopie électronique
La microscopie électronique (ME) est une méthode de détermination de structure consistant à bombarder le spécimen d’un faisceau d’électrons. Les motifs de diffraction ainsi obtenus permettent d’établir la structure d’une biomolécule à partir d’un réseau cristallin bi-dimensionnel, alors qu’un réseau 3D, plus délicat à obtenir, est nécessaire pour la cristallographie aux rayons X.
Dans le cas particulier des protéines membranaires, ces cristaux bi-dimensionnels permettent d’observer la protéine en présence de lipides, un environnement similaire aux conditions physiologiques, plutôt qu’en présence de détergents, nécessaires à la formation d’un cristal 3D. La ME permet également l’étude de systèmes de grande taille, comme les complexes de protéines.
La technique la plus utilisée actuellement en ME de biomolécules est la cryo-ME, qui consiste à geler la protéine dans son état natif, en présence d’eau (Chiu et al., 2005 ; Wang & Sigworth, 2006). Ceci atténue deux inconvénients de la ME classique : d’ime part la déshydratation du spécimen placé sous vide dans le microscope, et d’autre part les dégâts infligés au spécimen par le faisceau d’électrons. Un autre atout pour la détermination de structure de biomolécules est la technique dite d’analyse de particule isolée (Rosenthal & Henderson, 2003 ; Jiang & Ludtke, 2005). Celle-ci consiste à enregistrer plusieurs milliers d’images de molécules individuelles orientées aléatoirement (par opposition à un agencement précis au sein d’un cristal). Un ordinateur est ensuite utilisé pour aligner et combiner toutes ces images, et reconstruire ainsi une image 3D du spécimen. La ME reste cependant limitée par sa résolution moyenne : généralement entre 7 et 30 Â.
Les deux atouts principaux de la ME sont d’une part la possibilité de déterminer la structure de complexes de biomolécules de grande taille et d’autre part la possibilité de traiter des biomolécules qui ne cristallisent pas, ou difficilement, comme les protéines membranaires. Les reconstructions 3D obtenues par cryo-ME sont ainsi utilisables pour agencer entre eux des modèles au niveau atomique décrivant les constituants d’un complexe de macromolécules. Ce positionnement peut être effectué de manière très précise quand la densité électronique est assez fine pour identifier les structures secondaires. A une résolution inférieure, le positionnement est plus délicat et des critères quantitatifs doivent être considérés pour évaluer cette modélisation (Rossmann et al., 2001 ; Volkmann & Hanein, 1999).
Même si les perspectives ouvertes par la cryo-ME de particules isolées sont impressionnantes, cette méthode reste relativement lente par rapport à la cristallographie de rayons X ou la RMN. La détermination d’une structure à une résolution de l’ordre de 2 nm nécessite dans de bonnes conditions un mois de collecte de doimées, et un autre mois pour les traiter. Si l’on veut dresser une carte de densité électronique permettant d’identifier les structures secondaires d’une protéine, le travail peut s’étendre sur plusieurs mois (Sali et al., 2003). Un autre désavantage de la ME est que
la collecte de données est actuellement un travail de spécialistes, dont la formation peut prendre des mois voir des années avant de pouvoir manipuler efficacement les microscopes modernes.
Le futur de la ME passe, comme la cristallographie aux rayons X, par une certaine automatisation. En effet, l’enregistrement des images peut actuellement se faire en suivant un protocole bien établi et en répétant l’opération de nombreuses fois. Ainsi des études de ME où la collecte d’images a été réalisée de manière automatisée ont récemment été publiées (Zhang et al., 2001). L’étape suivante de l’automatisation est la sélection d’images des particules isolées, afin de reconstruire l’image 3D de la biomolécule. Ainsi une publication récente présente une détermination de la structure d’une particule du virus de la mosaïque du tabac à une résolution d’environ 1 nm, qui a été réalisée en moins de 24 heures (Zhu et al., 2001).
22
1.2 Méthodes théoriques
Les méthodes de séquençage d’ADN et de protéines sont aujourd’hui bien développées en milieu académique comme industriel. Le séquençage à haut débit, et l’automatisation de l’identification de gènes accélèrent encore la découverte de séquences codantes, ce qui génère un accroissement impressioimant de la taille de bases de données de séquences, telles que SwissProt' et TrEMBL . De son côté, la détermination de structure par cristallographie aux rayons X et par RMN progresse à un rythme bien moindre. Il y a en conséquence un grand nombre de protéines pour lesquelles aucune structure 3D n’est coimue à ce jour (Forster, 2002). La capacité de déterminer la structure d’une protéine par des méthodes rapides et de faible coût apparaît ainsi comme une nécessité. Les méthodes théoriques offrent ce potentiel de prédiction de structure, qui s’avère précieux pour la détermination de protéomes entiers.
On parle en général de la structure d’une protéine, en sous-entendant que cette structure est unique. Il a en effet été montré expérimentalement que, dans la plupart des cas, une protéine fraîchement traduite à partir d’un ARN messager va se reployer spontanément en une unique structure (Anfinsen, 1972). De plus si on dénature certaines protéines, elles vont ensuite revenir spontanément à leur forme reployée, une fois remises dans des conditions physiologiques. Il faut cependant noter qu’il existe un certain nombre de protéines, nommées chaperones, dont le rôle est d’aider d’autres protéines à se reployer correctement (Young et ah, 2004). Ainsi à l’opposé du reploiement « esseulé », certaines protéines ont besoin de la présence de chaperones pour se reployer correctement. Un défi de la biologie structurale est en particulier la prédiction de la structure 3D d’une protéine, à partir de sa seule séquence en résidus. Par ailleurs certaines protéines peuvent adopter des conformations différentes. Un exemple bien coimu de ceci est le prion (May et al, 2006).
1.2.1 Description du système
La prédiction de la structure d’une protéine repose sur un principe fondamental : dans leur état fonctiormel, les protéines adoptent la conformation présentant la plus basse énergie libre (Gruebele, 2002). Partant de là on comprend clairement que la modélisation de la structure d’une protéine passe par l’élaboration d’une fonction d’énergie décrivant correctement le système étudié.
Etant au cœur des calculs effectués pour décrire et faire évoluer le système, la fonction d’énergie doit être aussi précise que possible, sans toutefois alourdir inutilement les calculs. Ainsi, si une *
* http://www.expasy.org/sprot/
^ http://www.ebi.ac.uk/trembl/
approche quantique^, dans laquelle la structure électronique est considérée explicitement, est la plus rigoureuse, elle n’est applicable qu’à des systèmes de petite taille (allant jusqu’à environ 100 atomes) au vu du temps de calcul nécessaire. On n’aura donc recours à cette approche que dans des cas particuliers, comme ceux qui impliquent la formation ou la rupture de liaisons chimiques.
Potentiels empiriques
Les potentiels communément utilisés dans les études assistées par ordinateur portant sur la structure et la dynamique des protéines sont donc de type classique (Brooks et al, 1988 ; Mackerell, 2004). L’énergie potentielle est évaluée d’une part via des termes énergétiques décrivant les interactions entre atomes liés comme des déviations par rapport à une valeur de minima. Ainsi
les longueurs de liaison et angles atomiques sont traités par des potentiels harmoniques, et les angles dièdres par une série de Fourier tronquée. Les interactions non-liées sont prises en compte d’une part sous la forme d’un potentiel de Lennard-Jones, intégrant des contributions attractives et répulsives, et d’autre part via la loi de Coulomb, qui traite les interactions entre charges ponctuelles. Un potentiel typique de mécanique moléculaire peut donc s’écrire sous la forme :
>'= "E \K,(b-b,Ÿ+ E \K,^e-e,Ÿ+ X^Jl + cos(n^-^)]
liaisons angles dièdres
9r<Ij
£.r Z H
'.y V y V y
(équation 1.1)
Les valeurs d’équilibre pour les longueurs de liaison (bo), les angles (0o), les angles dièdres (4>), ainsi que les valeurs de charge partielle (q), de constantes de force (K) et des paramètres de van der Waals (ey, oy) doivent être déterminés avec précision. Ceci se fait par des calculs complexes de mécanique quantique, ou empiriquement en calibrant l’équation de potentiel sur des données expérimentales (voir par exemple Ponders & Case, 2003). Ainsi les longueurs de liaison peuvent être observées sur des structures cristallographiques, les constantes de force sont dérivées d’études spectroscopiques, les charges peuvent être calculées par des calculs de mécanique quantique. Enfin les paramètres de van der Waals sont habituellement ajustés en dernier, de manière empirique.
La sélection d’un formalisme mathématique pour décrire l’énergie d’un système, qui comprend un ensemble de paramètres de mécanique moléculaire, est dénommé champ de force.
Certains champs de force peuvent inclure des termes supplémentaires (par rapport à l’équation 1.1),
^ Ces méthodes quantiques portent parfois le nom de méthodes ab initio. Nous avons évité ici cette appellation pour éviter toute confusion avec la modélisation d’une protéine ab initio (par opposition à la modélisation comparative et à la méthode d’enfilage)
24
par exemple pour maintenir la non-planarité de certains groupes ou pour traiter explicitement les ponts hydrogène. D’autres champs de force ont recours à des termes croisés pour tenir compte de la déformation simultanée de la longueur de liaison et de l’angle de liaison. Plusieurs champs de force différents sont ainsi largement utilisés et régulièrement améliorés. Des simulations de dynamique moléculaire utilisant ces champs de force montrent que ceux-ci ne font dévier la chaîne principale d’une protéine de structure connue que d’im RMSD d’environ 1 à 2 Â (Mackerell, 2004). Cette valem est globalement dans la marge de l’erreur expérimentale sur la stmcture d’une protéine, puisque des structures observées par différentes expériences de cristallographie aux rayons X (ou par RMN) portant sur la même protéine font varier sa chaîne principale d’environ 1 Â en RMSD.
AMBER (Case et al, 2005) et CHARMM (Brooks et al., 1983) sont deux champs de force couramment utilisés pour décrire des systèmes de biomolécules.
Outre le champ de force proprement dit, un problème cmcial dans la représentation du système est la description de l’environnement, donc du solvant, et de son influence sur la protéine.
L’importance de la solvatation quant au reploiement et à la stabilité d’ime protéine est im concept largement accepté de nos jours ; on pense en particulier que l’effet hydrophobe est un élément déterminant intervenant dans la stabilité d’une protéine (Creighton, 1993, chapitre 7.5). Diverses méthodes permettant de prendre en compte la solvatation ont été intégrés aux potentiels empiriques, de manière à garder un équilibre entre exactitude et temps de calcul. Globalement on peut distinguer deux cas : soit le solvant est décrit explicitement, soit les molécules d’eau sont traitées de manière implicite. Le premier cas, qui consiste donc à traiter les molécules de solvant et les ions comme autant de corps individuels au sein du système, est plus rigoureux mais nettement plus coûteux en temps de calcul. Dans le second cas, le système entier peut être décrit par une unique constante diélectrique permettant de tenir compte du solvant. Une variante à ceci, fréquemment utilisée, est d’utiliser un terme diélectrique variable avec la distance afin de simuler l’écrantage des interactions électrostatiques par le solvant (Leach, 2001, pages 202-203). Une seconde approche est celle dite du continuum électrostatique, qui consiste à traiter la macromolécule comme une zone à basse constante diélectrique, entourée par une région de constante diélectrique moyenne ou haute.
Ceci permet une évaluation rapide, applicable à des systèmes de grande taille.
Potentiels statistiques
Une alternative aux potentiels empiriques est formée par les potentiels statistiques, également appelés potentiels de force moyeime (Sippl, 1995 ; Godzik, 1996). Ceux-ci sont basés sur l’observation de bases de données de protéines de structures connues, et sur le principe que les structures observées le plus fréquemment sont celles de basse énergie. Ceci découle de la loi de Boltzmann, qui permet de relier les densités de probabilité et l’énergie. Dans le cadre de la mécanique statistique, ces fréquences d’apparition peuvent donc être converties en énergie libre.
L’avantage des potentiels statistiques est de pouvoir être facilement adaptés à différentes
représentations de la structure des protéines (cf. plus loin), et d’inclure certaines contributions entropiques.
Représentations simplifiées
La prédiction de la structure d’vme protéine, ou la simulation de son évolution au cours du temps, peut être ime tâche extrêmement coûteuse en termes de temps de calcul. Dans certains cas il est alors judicieux de se tourner vers une représentation simplifiée du système. Outre les simplifications qui peuvent être effectuées au niveau du solvant (voir plus haut), il est possible de modifier la représentation du système au niveau de la protéine (Kolinski, 2004).
Une première étape de simplification, couramment utilisée, est d’intégrer chaque atome d’hydrogène non-polaire à l’atome de carbone qui le porte. Ainsi un groupement méthyl est représenté par un unique pseudo-atome plutôt que par quatre atomes distincts. Ce pseudo-atome doit être correctement paramétrisé, de manière par exemple à ce que ses interactions de van der Waals aient une dépendance correcte en la distance. De la même manière, il faudra procéder à des ajustements au niveau des longueurs de liaison, des angles de valence et des angles dièdres impliqués. Les hydrogènes polaires sont généralement traités explicitement, car le traitement correct d’une interaction de type pont hydrogène demande une description précise de la géométrie entre le donneur et l’accepteur. Etant donné qu’environ la moitié des atomes d’une biomolécule est constituée d’hydrogènes non-polaires, ce genre de simplification permet un gain substantiel de temps de calcul. Ce genre de représentations en hydrogènes polaires est courante dans les dynamiques utilisant des potentiels empiriques, comme par exemple dans l’ensemble « paraml9 » de CHARMM (Brooks et al, 1983).
D’autres atomes unifiés peuvent ainsi être utilisés pour traiter certains systèmes spécifiques.
Ainsi pour des simulations de dynamique moléculaire de protéines au sein de membranes biologiques, on peut représenter la queue aliphatique des lipides par quelques pseudo-atomes, chacim d’eux regroupant deux à quatre groupements méthyl (Sperotto et al, 2006). Des études du reploiement de protéines sont de leur côté parfois effectuées en traitant la chaîne latérale de chaque résidu, voir tout le résidu, comme un unique pseudo-atome (Covell, 1992 ; Hinds & Levitt, 1994).
Cette dernière représentation est couramment utilisée lorsque l’on a recourt aux potentiels de force moyerme.
Outre une simplification au niveau de la représentation des atomes du système, il est également possible de restreindre les mouvements de ces atomes. C’est le cas par exemple dans les modèles de treillis, où chaque résidu est représenté comme un point qui est positionné sur un treillis 3D (Crippen, 1991). Ces méthodes ne permettent donc pas une totale liberté de mouvement des
26
résidus, mais sont néanmoins utiles car ils permettent une exploration relativement complète du système, au prix d’ime capacité de calcul très faible.