• Aucun résultat trouvé

1.1 Les prot´ eines

N/A
N/A
Protected

Academic year: 2021

Partager "1.1 Les prot´ eines"

Copied!
37
0
0

Texte intégral

(1)

Chapitre 1

Introduction g´ en´ erale

1.1 Les prot´ eines

Les prot´eines sont des macromol´ecules biologiques qui interviennent dans la grande majorit´e des processus qui r´egissent le fonctionnement de tout ˆetre vivant [1, 2]. Les rˆoles jou´es par les prot´eines au sein d’un organisme sont aussi vari´es que complexes.

Certaines prot´eines, appel´ees enzymes, agissent en tant que catalyseurs et augmentent de plusieurs ordres de magnitude, avec une sp´ecificit´e remarquable, les vitesses des multiples r´eactions indispensables `a la survie de l’organisme. Ce sont ´egalement des prot´eines qui servent au stockage et au transport de petites mol´ecules ou d’ions, qui interviennent dans le processus de la photosynth`ese, qui contrˆolent le passage de mol´ecules au travers des membranes lipidiques qui d´elimitent les cellules et leurs compartiments, ou qui, en tant qu’hormones, transmettent l’information et permettent la r´egulation de processus cellulaires complexes. En outre, diverses prot´eines – dont notamment les anticorps – sont affect´ees au syst`eme immunitaire et permettent `a l’organisme de se d´efendre contre les intrusions bact´eriennes ou virales. D’autres assurent la r´ealisation des nombreuses tˆaches associ´ees `a l’expression du g´enome : ouverture de la double h´elice d’ADN, transcription en ARN, r´eparation de g`enes endommag´es,... Les prot´eines sont ´egalement des composantes majeures des syst`emes de conversion d’´energie chimique en ´energie m´ecanique, tels que les muscles. Notons finalement que de nombreuses prot´eines ont simplement un rˆole structural et fournissent l’architecture filamenteuse indispensable `a l’organisation des cellules et `a la g´en´eration de mat´eriaux tels que les os, les cheveux ou les ongles.

Structure primaire

Malgr´e leur grande diversit´e fonctionnelle, les prot´eines constituent une classe de mol´ecules plutˆot homog`ene : toutes sont des polym`eres lin´eaires construits `a partir de diff´erentes combinaisons des 20 unit´es de base que sont les acides amin´es (occasionnellement, certaines versions modifi´ees de ces 20 acides amin´es sont pr´esentes dans les prot´eines). La plupart peuvent ˆetre formul´es de la mani`ere suivante :

5

(2)

L’atome de carbone central est appel´e carbone α. A celui-ci sont li´es un groupement amine (-NH

2

), un groupement carboxyle (-COOH) et une chaˆıne lat´erale (commun´ement symbolis´ee par -R). C’est la nature de cette chaˆıne lat´erale qui est distinctive de chaque acide amin´e, et qui lui procure ses propri´et´es particuli`eres. Notons que la formule g´en´erale ci-dessus souffre une exception. En effet, dans la proline, la chaˆıne lat´erale ´etablit un lien avec l’atome d’azote de la chaˆıne principale. Techniquement, la proline n’est donc pas un acide amin´e mais un acide imin´e :

Dans une prot´eine, les acides amin´es sont li´es entre eux par le lien peptidique qui est form´e par une r´eaction de condensation :

Les acides amin´es joints au sein d’une telle chaˆıne polypeptidique sont g´en´eralement appel´es r´esidus (un terme qui fait r´ef´erence `a la perte d’une mol´ecule d’eau lors de la condensation). Le nombre de r´esidus n´ecessaire `a la g´en´eration d’une prot´eine est fort variable et est compris entre une cinquantaine et plusieurs milliers. L’ordre dans lequel les diff´erents types de r´esidus se succ`edent le long d’une chaˆıne prot´eique constitue la structure primaire, ou s´equence, de cette prot´eine. En g´en´eral, la structure primaire d’une prot´eine permet de l’identifier sans ambiguit´e et contient `a elle seule toute l’information n´ecessaire `a l’adoption d’une structure sp´ecifique et `a l’ex´ecution de sa fonction biologique.

Structure secondaire

Le lien peptidique C–N a un caract`ere partiel de double liaison, suffisant pour

empˆecher une rotation libre autour de ce lien `a temp´erature physiologique. Les atomes

C

α

de deux r´esidus voisins, ainsi que les atomes interm´ediaires C, O, N et H, sont

donc contraints dans un mˆeme plan. Cependant, outre les degr´es de libert´e associ´es aux

conformations des chaˆınes lat´erales, les chaˆınes polypeptidiques jouissent ´egalement d’une

certaine libert´e de rotation autour des liens N–C

α

et C

α

–C (voir Annexe A). Il en r´esulte

que le nombre de conformations potentiellement accessibles `a un polypeptide d’une

(3)

certaine longueur est ph´enom´enal. Parmi cette multitude de possibilit´es, certains motifs structuraux r´eguliers sont observ´es de mani`ere r´ecurrente dans les structures de prot´eines.

Ces arrangements conformationnels locaux sont regroup´es sous la d´enomination de structure secondaire.

Les ´el´ements de structure secondaire les plus fr´equemment rencontr´es dans les prot´eines sont l’h´elice α et le feuillet β (Figure 1.1). Un tour d’h´elice α correspond `a 3.6 r´esidus et `a une translation d’environ 5.4 ˚ A le long du grand axe de l’h´elice. Cette conformation permet un empilement quasi-optimal des atomes de la chaˆıne principale (les chaˆınes lat´erales pointent vers l’ext´erieur de l’h´elice), ainsi que la formation d’un pont hydrog`ene entre l’oxyg`ene carbonyle de chaque r´esidu et l’hydrog`ene amide du r´esidu situ´e trois positions plus loin. Les feuillets β sont constitu´es de brins qui peuvent ˆetre assembl´es de mani`ere parall`ele ou anti-parall`ele. Chaque brin comprend plusieurs r´esidus cons´ecutifs qui adoptent une conformation ´etendue et qui ´etablissent des ponts hydrog`ene avec les r´esidus des brins voisins.

Figure 1.1 – Repr´esentation sch´ematique d’une h´elice α et d’un feuillet β. Les chaˆınes lat´erales des r´esidus et les atomes d’hydrog`ene ne sont pas repr´esent´es. Les atomes d’azote sont mis en

´evidence (gris fonc´e) et les ponts hydrog`ene sont sch´ematis´es `a l’aide de traits pointill´es liant l’atome d’oxyg`ene (donneur) `a l’atome d’azote (accepteur). (a) H´elice α. (b) Feuillet β anti-parall`ele.

Outre l’h´elice α et le feuillet β, d’autres motifs structuraux r´eguliers existent, bien

qu’ils soient beaucoup plus rares. Il s’agit notamment des h´elices 3

10

et π (caract´eris´ees

(4)

par un pas diff´erent de celui de l’h´elice α) et des conformations ´etendues de type polyproline. Notons ´egalement que certaines conformations bien d´efinies de quelques r´esidus cons´ecutifs sont fr´equemment associ´ees `a des (( tournants )) entre ´el´ements de structure secondaire.

Structure tertiaire et quaternaire

La plupart des prot´eines naturelles se reploient pour adopter une conformation tri- dimensionnelle unique appel´ee structure tertiaire, ou native. Un exemple de structure tertiaire de prot´eine est propos´e en Figure 1.2.a. La repr´esentation sch´ematique (( en rubans )) permet de cerner ais´ement l’organisation de la chaˆıne polypeptidique. Elle est cependant quelque peu trompeuse quant `a l’occupation de l’espace : les atomes d’une prot´eine sont en effet agenc´es selon un empilement d’une densit´e remarquable, comparable `a celle de cristaux de petites mol´ecules organiques. Un caract`ere important de la structure tertiaire est qu’elle n´ecessite l’´etablissement d’interactions entre des r´esidus fort ´eloign´es dans la s´equence. De telles interactions sont d’ailleurs fr´equemment appel´ees interactions tertiaires.

Figure 1.2 – Structure tertiaire et quaternaire. Les chaˆınes prot´eiques sont repr´esent´ees sch´ematiquement (( en rubans )) . (a) Structure tertiaire. (b) Structure quaternaire.

Cette capacit´e `a adopter une structure sp´ecifique et unique distingue les prot´eines des polym`eres al´eatoires d’acides amin´es. Elle est d’ailleurs g´en´eralement indispensable

`a la r´ealisation de leurs fonctions biologiques. Ainsi, les sites actifs des enzymes sont typiquement constitu´es de quelques r´esidus ´eloign´es dans la s´equence et rapproch´es les uns des autres lors du reploiement, et c’est souvent la g´eom´etrie particuli`ere des r´esidus alentours qui est responsable de leur sp´ecificit´e remarquable. Un autre exemple concerne les prot´eines de transport, telles que l’h´emoglobine qui accueille l’oxyg`ene dans une cavit´e enfouie au sein de sa structure tertiaire.

Dans certains cas, plusieurs chaˆınes polypeptidiques, identiques ou non, peuvent s’assembler pour former une unit´e oligom´erique. Leur agencement dans l’espace constitue alors la structure quaternaire, dont un exemple est propos´e en Figure 1.2.b.

Remarquons que nous nous limitons dans ce travail au cadre des prot´eines dites

globulaires, qui sont pour la plupart solubles dans le cytosol, et dans l’eau. Au contraire,

(5)

les prot´eines fibreuses – dont le rˆole est essentiellement structural – s’organisent en agr´egats insolubles constitu´es de tr`es nombreux monom`eres. Les prot´eines membranaires pr´esentent ´egalement des propri´et´es particuli`eres qui les distinguent des prot´eines globulaires, et qui leur permettent de s’adapter `a l’environnement hydrophobe de l’int´erieur des membranes, dans lequel leurs structures sont partiellement plong´ees.

1.2 Le reploiement des prot´ eines

Plusieurs dizaines de milliers de s´equences prot´eiques sont encod´ees dans le g´enome humain. A quelques exceptions pr`es, chacune adopte une structure bien d´efinie qui lui permet d’accomplir sa fonction biologique. Si certaines de ces structures sont fort similaires, elles peuvent tout de mˆeme ˆetre classifi´ees en environ un millier d’architectures fondamentalement distinctes. Le reploiement est donc un processus extrˆemement sp´ecifique [3, 4].

Le reploiement est ´egalement un processus particuli`erement efficace. In vivo, chaque prot´eine doit en effet trouver rapidement sa structure native, fonctionnelle, parmi d’innombrables conformations alternatives, et ce au sein d’un environnement cellulaire surpeupl´e (`a titre d’exemple, la concentration en macromol´ecules dans un cytoplasme bact´erien typique approche les 350 mg/ml). Diverses prot´eines, appel´ees chaperons, ont pour mission d’assister le reploiement d’autres prot´eines dans ces conditions difficiles, et d’empˆecher leur agr´egation (pour des revues voir [5–11]). L’existence de telles prot´eines semble indiquer que la s´equence d’une prot´eine ne contient pas forc´ement toute l’information n´ecessaire `a la g´en´eration de sa structure native. Cependant, il a

´et´e constat´e que de nombreuses prot´eines sont capables de se reployer spontan´ement in vitro, dans l’eau et en absence de toute autre esp`ece mol´eculaire.

Le paradoxe de Levinthal

La premi`ere observation de reploiement spontan´e et r´eversible in vitro a ´et´e r´ealis´ee par Anfinsen au d´ebut des ann´ees 60 [12, 13]. Cette observation est `a l’origine d’une id´ee largement accept´ee dans le domaine, selon laquelle la structure native d’une prot´eine correspond g´en´eralement `a sa conformation d’´energie libre minimale, du moins dans des conditions environnementales appropri´ees.

Mais si le reploiement des prot´eines est effectivement sous contrˆole thermodynamique, une question judicieuse est de savoir comment une prot´eine peut trouver, en un temps raisonnable, sa structure de plus basse ´energie parmi le nombre astronomique de conformations possibles. A titre d’exemple, une prot´eine de 100 r´esidus peut adopter 2

100

( ' 10

30

) conformations distinctes, si l’on suppose que seulement deux conform`eres sont accessibles `a chaque r´esidu. Si le passage d’une conformation `a une autre est r´ealis´e en 10

−13

secondes (ce qui correspond au temps n´ecessaire pour la rotation autour d’une liaison), il faudrait `a la prot´eine au minimum 10

17

secondes, c’est-`a-dire environ trois milliards d’ann´ees, pour (( tester )) toutes les conformations possibles. Les prot´eines arrivent pourtant `a retrouver leurs structures natives dans un laps de temps qui est de l’ordre de la milliseconde `a la seconde.

L’apparente incompatibilit´e entre ces faits, relev´ee initialement par Levinthal au cours

d’une conf´erence en 1969 [14], a ´et´e rapidement ´erig´ee en paradoxe et a fait couler

(6)

´enorm´ement d’encre depuis lors [15–17]. Pourtant, Levinthal donna imm´ediatement la solution, ´evidente, de son (( paradoxe )) : les prot´eines n’explorent pas l’int´egralit´e de leur espace conformationnel, et il faut donc que leur reploiement soit (( guid´e )) , par exemple via la formation rapide de certaines interactions qui seraient d´eterminantes pour la suite du processus. Reste bien entendu `a ´eclaircir les d´etails.

Interm´ ediaires de reploiement et mod` eles ph´ enom´ enologiques

D`es le d´ebut des ann´ees 70, les d´eveloppements des techniques exp´erimentales ont progressivement permis d’´etudier, avec de plus en plus de d´etail, les ´ev´enements qui se d´eroulent au cours du reploiement. En particulier, l’observation et la caract´erisation d’interm´ediaires de reploiement (pour des revues, voir par exemple [18–22]) a confort´e l’id´ee selon laquelle les prot´eines suivraient un nombre restreint de chemins lors de leur reploiement.

Divers mod`eles th´eoriques ont ´egalement ´et´e ´elabor´es afin d’expliquer la rapidit´e

´etonnante du reploiement des prot´eines. Parmi ceux-ci, le mod`ele de diffusion-collision propose un m´ecanisme de reploiement hi´erarchique qui permet de r´eduire drastiquement l’espace conformationnel `a explorer [23–27]. Le reploiement se jouerait dans un premier temps au niveau de microdomaines de la prot´eine, de fragments de s´equence suffisamment petits pour ˆetre capables d’explorer rapidement l’enti`eret´e de leur espace conformation- nel. Les mouvements par diffusion et les interactions ´etablies entre les petites unit´es structurales ainsi form´ees m`enerait alors `a la formation de domaines plus cons´equents et finalement `a l’assemblage de la structure compl`ete. En revanche, selon le mod`ele de nucl´eation-condensation [28–31], des fragments isol´es de prot´eines ne b´en´eficient pas d’une stabilit´e suffisante pour peupler significativement les ´etats correspondants `a leurs conformations natives. La stabilisation de ces conformations n´ecessite l’´etablissement d’interactions tertiaires, entre r´esidus ´eloign´es dans la s´equence. L’´etape limitante du processus de reploiement serait alors la formation d’un noyau de reploiement, caract´eris´e par un certain nombre de contacts natifs ´etablis entre des r´esidus cl´es. Une fois ce noyau form´e, les fragments adjacents adopteraient rapidement leur structure native au contact de celui-ci. Citons ´egalement le mod`ele de l’effondrement hydrophobe [32–34], selon lequel la tendance des r´esidus hydrophobes `a se regrouper pour ´eviter tout contact avec l’eau aurait une influence pr´epond´erante au cours des premiers instants du reploiement. Un

´etat compact non-sp´ecifique serait alors rapidement atteint, et la recherche de la structure native au sein de cet ensemble r´eduit de conformations pourrait ˆetre r´ealis´ee en un temps raisonnable.

Bien que chacun de ces diff´erents mod`eles puisse s’appuyer sur un certain nombre de r´esultats exp´erimentaux, il est apparu qu’aucun d’entre eux n’est suffisamment g´en´eral pour expliquer l’ensemble des observations r´ealis´ees au sujet du reploiement des prot´eines.

Par ailleurs, l’existence de prot´eines qui se reploient tr`es rapidement sans peupler aucun

´etat interm´ediaire [35–37] ne permet pas non plus de prˆeter, de mani`ere g´en´erale, un rˆole d´ecisif `a de tels ´etats.

Paysage ´ energ´ etique

Au cours des ann´ees 90, une (( nouvelle vue )) du reploiement des prot´eines s’est

d´evelopp´ee [39–52]. Une des caract´eristiques principales de cette nouvelle vue est qu’elle

(7)

Figure 1.3 – Repr´esentation sch´ematique du paysage ´energ´etique d’une prot´eine. La forme en entonnoir du paysage ´energ´etique r´esulte du fait que les interactions natives sont pour la plupart favorables, au contraire des interactions non-natives. Ceci implique que l’´energie des conformations diminue lorsque la similarit´e avec la structure native augmente. L’´energie associ´ee `a l’axe vertical inclut certaines contributions entropiques (notamment le gain d’entropie du solvant r´esultant de l’enfouissement de r´esidus hydrophobes). L’entropie dite conformationnelle, li´ee au nombre de conformations caract´eris´ees par une ´energie donn´ee, correspond `a la largeur de l’entonnoir (Figure adapt´ee `a partir de [38]).

se focalise sur la description globale du paysage ´energ´etique des prot´eines – c’est-`a-dire

la repr´esentation multi-dimensionnelle de l’´energie libre des diff´erentes conformations

en fonction de leur similarit´e avec la structure native. Le reploiement est consid´er´e

comme une organisation progressive d’un ensemble de conformations (partiellement)

d´eploy´ees, selon une multitude de voies qui suivent les courbes d’un paysage ´energ´etique

en forme d’entonnoir (folding funnel), dont le fond correspond `a l’´etat natif (Figure 1.3).

(8)

C’est cette forme particuli`ere du paysage ´energ´etique qui permet aux prot´eines d’´evoluer rapidement en direction de leur structure native, quelque soit leur conformation initiale, plutˆot que d’errer ind´efiniment `a la recherche de ce minimum global d’´energie libre.

Remarquons que si le paysage ´energ´etique en forme d’entonnoir semble ˆetre une caract´eristique g´en´erale des prot´eines, il n’en va pas de mˆeme pour n’importe quelle s´equence d’acides amin´es. Selon le principe de frustration minimale, la s´equence d’une prot´eine naturelle aurait ´et´e optimis´ee au cours de l’´evolution de mani`ere `a ce que les interactions ´etablies au sein de la structure native soient le moins possible conflictuelles, et `a garantir en cons´equence un reploiement rapide et efficace [40, 53].

Ainsi, au sein d’une prot´eine (( id´eale )) dont le paysage ´energ´etique est un entonnoir parfait, chaque interaction native contribue de mani`ere ´equivalente `a la stabilisation de la structure native, et toutes les interactions non-natives sont d´estabilisantes [51]. Dans ce cas, l’´energie diminue presque lin´eairement lorsque la similarit´e avec la structure native augmente (Figure 1.4). Notons que nous utilisons ici le terme (( interaction )) dans un sens tr`es large, et que l’´energie dont nous parlons inclut toutes les contributions `a l’´energie libre `a l’exception de l’entropie conformationnelle, qui refl`ete le nombre de conformations associ´ees `a une ´energie donn´ee. Cette entropie conformationnelle diminue elle aussi lorsque la similarit´e avec la structure native augmente (Figure 1.4). Typiquement, la perte d’entropie conformationnelle est plus franche au d´ebut du reploiement qu’`a la fin : lorsque de nombreux contacts natifs sont d´ej`a form´es, en former un nouveau ne restreint pas beaucoup plus les mouvements possibles de la chaˆıne.

Il est ´evident que la mani`ere dont l’´energie et l’entropie conformationnelle se compensent d´epend fortement de la temp´erature. Au dessus d’une certaine temp´erature (la temp´erature de reploiement T

r

) la perte d’entropie n´ecessaire `a la formation de la structure native devient dominante et l’´etat natif est donc instable. A des temp´eratures proches de T

r

, l’´etat natif est g´en´eralement s´epar´e de l’´etat d´eploy´e par une barri`ere

´energ´etique qui correspond `a un ´etat de transition (Figure 1.4).

Bien entendu, les prot´eines naturelles ne correspondent pas `a des paysages ´energ´etiques en forme d’entonnoir parfait. Le fait que la perte d’entropie conformationnelle puisse ˆetre plus ou moins importante selon l’interaction native cr´e´ee, ainsi que l’existence d’interactions natives d´efavorables et la possibilit´e d’´etablir des interactions non-natives favorables, induisent une certaine ruguosit´e de la surface de l’entonnoir (Figure 1.3) et peuvent expliquer l’observation de certains chemins pr´ef´er´es (avec par exemple une formation primitive de certains ´el´ements de structure secondaire, ou un effondrement hy- drophobe rapide) et d’interm´ediaires de reploiement. Cette nouvelle vue du reploiement des prot´eines ne remet donc pas forc´ement en question les mod`eles et th´eories ´enonc´es auparavant, mais procure plutˆot un cadre g´en´eral dans lequel il est en principe possible d’interpr´eter les particularit´es des m´ecanismes de reploiement de chaque prot´eine.

Le reploiement des grandes prot´ eines

Il est important de remarquer que la plupart des ´etudes th´eoriques du reploiement des

prot´eines se limitent au cas des petites prot´eines. Le reploiement des grandes prot´eines

et des prot´eines multim´eriques [54, 55] peut suivre des voies nettement plus complexes,

difficilement interpr´etables dans le cadre d’un entonnoir de reploiement unique. Il

implique g´en´eralement le reploiement individuel de certaines parties, ou domaines, de

(9)

Figure 1.4 – Profil ´energ´etique (1D) du reploiement d’une prot´eine dans un entonnoir (( parfait )) . L’´energie, l’entropie conformationnelle et l’´energie libre de reploiement sont donn´ees en fonction de la similarit´e avec la structure native. Cette similarit´e est g´en´eralement quantifi´ee `a l’aide d’une coordonn´ee r´eactionnelle telle que le nombre de contacts natifs ou la compacit´e de la structure.

Les lettres D, T et N indiquent l’´etat d´enatur´e, l’´etat de transition et l’´etat natif, respectivement.

La variation de l’´energie libre de reploiement r´esulte de la compensation imparfaite de l’´energie et de l’entropie conformationnelle. Elle est repr´esent´ee ici `a une temp´erature l´eg`erement inf´erieure `a la temp´erature de reploiement (Figure adapt´ee `a partir de [51]).

la prot´eine, et ´eventuellement le reploiement de certains domaines au contact d’autres domaines d´ej`a reploy´es.

1.3 Modifications conformationnelles

Outre leur capacit´e `a adopter une structure bien sp´ecifique avec une rapidit´e

remarquable, il est apparu que les prot´eines naturelles sont pour la plupart fort tol´erantes

envers les mutations de leurs s´equences. Si l’on n´eglige les petites variations autour d’une

structure donn´ee, l’espace des s´equences est bien plus ´etendu que celui des structures

natives de prot´eines, et de larges ensembles de s´equences prot´eiques correspondent `a

des conformations de plus basse ´energie fort similaires. Pendant de nombreuses ann´ees,

il a ´et´e suppos´e que les s´equences des prot´eines naturelles sont situ´ees au milieu de ces

ensembles, et que de nombreuses mutations sont n´ecessaires `a d´estabiliser leurs structures

natives et `a en favoriser d’autres. Ceci est d’ailleurs assez compr´ehensible en regard du

(10)

principe de frustration minimale ´enonc´e pr´ec´edemment : modifier la nature d’un r´esidu d’une prot´eine peut alt´erer son paysage ´energ´etique, mais la forme en entonnoir de ce paysage refl`ete un biais dominant envers la structure native et implique que l’´eventuelle nouvelle structure d’´energie minimale sera g´en´eralement fort similaire `a l’ancienne.

Un contre-exemple est connu de longue date : il s’agit d’une mutation ponctuelle Glu → Val dans la s´equence de l’h´emoglobine, qui entraˆıne la formation d’agr´egats fibreux `a l’origine du d´eveloppement d’un certain type d’an´emie (sickle cell anemia) [56–59]. Cependant, il s’agissait encore r´ecemment d’un cas isol´e. Ces derni`eres ann´ees, le nombre de prot´eines connues pour ˆetre sujettes `a d’importantes r´eorganisations conformationnelles suite `a une (ou quelques) mutation(s) s’est consid´erablement accru. A titre d’exemple, au sein de la prot´eine homodim´erique r´epresseur ARC, les deux brins β situ´es dans la r´egion N-terminale de chaque sous-unit´e forment un feuillet β anti-parral`ele (Figure 1.5.a). Il a ´et´e montr´e qu’un double mutant de cette prot´eine, o` u les r´esidus Asn et Leu en positions 11 et 12 dans la s´equence, respectivement, sont interchang´es, adopte une structure au sein de laquelle ces deux brins β sont remplac´es par de courtes h´elices (Figure 1.5.b) [60, 61]. Curieusement, lorsque le r´esidu Asn en position 11 est remplac´e par une leucine mais que le r´esidu Leu en position 12 est conserv´e, la prot´eine mutante est capable d’adopter les deux conformations, et semble donc constituer une sorte d’interm´ediaire de l’´evolution [62].

Figure 1.5 – Modification conformationnelle du r´epresseur ARC suite `a deux mutations dans sa s´equence. (a) Structure native du r´epresseur ARC sauvage (code PDB : 1arr). (b) Structure adopt´ee par le double mutant Asn11 → Leu, Leu12 → Asn du r´epresseur ARC (code PDB : 1qtg).

En outre, il est apparu que certaines prot´eines peuvent subir de profondes modifica- tions structurales et ˆetre ainsi `a l’origine de diverses maladies, dites conformationnelles, telles que les enc´ephalopathies spongiformes ou la maladie d’Alzheimer [63–67]. Les

´ev´enements d´eclencheurs de ces bouleversements conformationnels ne sont pas toujours tr`es clairs. Dans les cas h´er´editaires, une mutation a g´en´eralement pour effet de faciliter la transition vers le conform`ere pathologique. Ainsi, plus de 20 mutations ponctuelles de la prot´eine du prion humaine responsables de maladies du prion h´er´editaires sont connues

`a ce jour [68]. Les modifications structurales `a l’origine de maladies conformationnelles

peuvent ´egalement affecter des prot´eines de s´equences sauvages, par exemple suite `a

l’exposition `a certaines conditions environnementales particuli`eres (T

, pH, radicaux

libres, ...). Notons que les maladies du prion sont assez particuli`eres `a ce niveau car elles

(11)

peuvent aussi avoir une origine infectieuse : il semble que le conform`ere pathologique (dit scrapie) puisse induire la modification conformationnelle de prot´eines du prion (( saines )) [68].

Des modifications conformationnelles majeures peuvent ´egalement ˆetre intimement li´ees `a la r´ealisation de la fonction biologique. Ainsi, il a ´et´e observ´e que certaines toxines bact´eriennes adoptent des structures non-natives qui leur permettent de tra- verser les membranes lipidiques [69]. Un autre exemple concerne les prot´eines de la famille des serpines, qui inhibent l’activit´e d’autres prot´eines `a l’aide d’un m´ecanisme particuli`erement ´elabor´e sur lequel nous reviendrons au Chapitre 6 [70–74]. Dans un registre quelque peu diff´erent, relevons ´egalement l’existence de nombreuses prot´eines, dites (( nativement d´eploy´ees )) [75–77], qui ne se structurent pas, ou peu, ou uniquement au contact de certaines (macro)mol´ecules sp´ecifiques. La flexibilit´e hors norme des chaˆınes polypeptidiques de ces prot´eines est indispensable `a l’ex´ecution de leur fonctions biologiques.

Ces diverses indications de la flexibilit´e conformationnelle des prot´eines, relev´ees pour la plupart assez r´ecemment, ont forc´e la remise en question d’un certain nombre d’id´ees recues, ou plutˆot d’espoirs, concernant le reploiement des prot´eines. Il est donc fort d´elicat aujourd’hui d’affirmer que chaque prot´eine poss`ede une structure tri-dimensionnelle unique, qui correspond `a un minimum global d’´energie libre. Ces hypoth`eses restent n´eanmoins valables pour de larges gammes d’applications et sont donc encore d’usage courant. Bien qu’elle ait rendu obsol`etes certaines vieilles croyances, et s´erieusement compliqu´e le probl`eme de l’´etude th´eorique des prot´eines, la d´ecouverte de cette flexibilit´e conformationnelle a ´egalement guid´e la recherche vers de nouveaux domaines, comme en t´emoigne par exemple le Paracelsus Challenge dont l’objectif est la conception de prot´eines qui partagent une importante identit´e de s´equence mais adoptent des structures tri-dimensionnelles fort diff´erentes [78]. Par ailleurs, il a ´et´e sugg´er´e que les modifications conformationnelles de prot´eines – qu’elles soient associ´ees `a la fonction biologique saine ou au d´eveloppement de maladies – peuvent repr´esenter un m´ecanisme g´en´eral d’activation et pr´esenter en cons´equence de nombreuses perspectives d’application en ing´enierie mol´eculaire [79].

1.4 Etude in silico des prot´ eines

Depuis qu’il a ´et´e mis en ´evidence que la plupart des prot´eines adoptent des conformations sp´ecifiques et bien d´efinies, d’innombrables projets de recherche ont ´et´e consacr´es `a l’´etude th´eorique du reploiement des prot´eines, et `a la mise au point de m´ethodes visant `a pr´edire la structure native d’une prot´eine ou `a concevoir des s´equences compatibles avec une structure donn´ee. L’ambition de cette section est de donner au lecteur un bref apercu de l’´etat de l’art dans ce domaine, et de mettre en ´evidence les difficult´es fr´equemment rencontr´ees dans ce type de recherches, sans pour autant revendiquer un caract`ere exhaustif [80].

1.4.1 Les fonctions d’´ energie

Toutes les applications mises au point dans le but d’´etudier les prot´eines in

silico n´ecessitent l’utilisation d’une fonction ´energ´etique capable d’´evaluer l’ad´equation

(12)

entre une s´equence et une structure donn´ees. La conception d’une telle fonction est naturellement d’une importance primordiale. En effet, mˆeme dot´ee d’un brillant algorithme de recherche dans l’espace conformationnel, aucune m´ethode de pr´ediction des structures natives de prot´eines n’arrivera `a ses fins si elle est bas´ee sur une fonction

´energ´etique incapable de discriminer les structures natives parmi d’autres.

Comme nous l’avons vu pr´ec´edemment, les prot´eines sont g´en´eralement caract´eris´ees par une stabilit´e marginale (quelques kcal/mole) qui r´esulte de la compensation d’importantes contributions enthalpiques et entropiques. La grande difficult´e inh´erente

`a la d´efinition d’une fonction d’´energie ad´equate r´eside donc dans le besoin d’une grande pr´ecision, difficilement compatible avec la nature complexe du processus de reploiement et avec les limitations associ´ees aux syst`emes informatiques disponibles.

Deux classes majeures de fonctions ´energ´etiques ont ´et´e ´elabor´ees dans le domaine. Il s’agit des potentiels semi-empiriques et des potentiels statistiques. Notons que certaines approches hybrides, combinant ces deux types de potentiels, ont ´egalement ´et´e d´ecrites [81, 82].

Potentiels semi-empiriques

Les potentiels semi-empiriques prennent la forme d’expressions analytiques d´ecrivant les diff´erentes interactions rencontr´ees dans les prot´eines, dont les param`etres sont ajust´es

`a partir de calculs de m´ecanique quantique ou de r´esultats exp´erimentaux obtenus sur de petites mol´ecules [83–87]. Il est ´evident que la pr´ecision avec laquelle les diverses interactions sont d´ecrites d´epend de mani`ere cruciale de la param´etrisation de ces fonctions. Beaucoup d’efforts ont donc ´et´e consacr´es `a cet aspect du d´eveloppement de potentiels semi-empiriques [86]. Un autre caract`ere d´elicat de cette approche concerne le choix d’une description ad´equate du solvant. La prise en compte explicite d’un nombre suffisant de mol´ecules d’eau induirait en effet une augmentation consid´erable de la complexit´e du syst`eme mod´elis´e. En cons´equence, divers mod`eles implicites, dans lesquels les mol´ecules d’eau sont substitu´ees par un milieu continu, ont ´et´e ´elabor´es [88].

Bien qu’ils ne soient que des approximations des (( vrais )) potentiels, les potentiels semi-empiriques pr´esentent l’avantage de correspondre `a des interactions bien d´efinies auxquelles des significations physiques claires peuvent ˆetre associ´ees. Le prix `a payer est que ces potentiels doivent n´ecessairement ˆetre combin´es avec une description d´etaill´ee – au niveau atomique – des prot´eines. Leur utilisation est donc g´en´eralement tr`es coˆ uteuse en termes de temps de calcul. Remarquons ´egalement que ces potentiels ne consid`erent pas la contribution de l’entropie (`a l’exception de celle li´ee au solvant, selon le mod`ele choisi pour la description de celui-ci).

Potentiels statistiques

Une alternative s´eduisante aux potentiels semi-empiriques est incarn´ee par les potentiels statistiques, qui sont d´eriv´es de bases de donn´ees de prot´eines dont les structures natives sont connues. Deux approches peuvent ˆetre envisag´ees pour extraire des potentiels de bases de donn´ees de ce type. La premi`ere consiste `a imposer une expression analytique dont les param`etres sont optimis´es de mani`ere `a obtenir un

´ecart ´energ´etique important entre des structures natives de prot´eines et des ensembles

de structures alternatives [89–102]. Dans la seconde, les potentiels sont d´eriv´es des

(13)

fr´equences relatives d’observation de petits ´el´ements de s´equence et de structure (pour des revues, voir [103–111]). Lorsque le formalisme utilis´e se place dans le cadre de la m´ecanique statistique, ces fr´equences peuvent ˆetre converties en ´energie libre. Nous aborderons ces potentiels en d´etail dans le chapitre suivant.

Au contraire des potentiels semi-empiriques, les potentiels d´eriv´es de bases de donn´ees de structures prot´eiques peuvent ˆetre ais´ement adapt´es `a n’importe quelle repr´esentation (plus ou moins simplifi´ee) de la structure des prot´eines, et ils incluent certaines contributions entropiques. Cependant, malgr´e les nombreux succ`es obtenus grˆace aux potentiels de ce type, leur signification physique assez n´ebuleuse est `a l’origine de fr´equentes remises en question de leur validit´e [104, 112–116].

Potentiels de G¯o

Parmi les autres types de fonctions ´energ´etiques existantes, relevons l’existence de potentiels ultra-simplifi´es, dits (( de G¯o )) en r´ef´erence `a l’auteur qui est `a l’origine de la premi`ere approche de ce type [30]. Ces potentiels sont bas´es sur l’id´ee que les interactions non-natives ne contribuent pas significativement `a la forme globale du paysage ´energ´etique. C’est-`a-dire qu’ils supposent en quelque sorte que le reploiement des prot´eines suit une surface de potentiel en forme d’entonnoir parfait, chaque interaction native form´ee correspondant `a un pas vers le fond de cet entonnoir. Typiquement, les potentiels de G¯o sont ind´ependants de la s´equence, et sont compos´es d’un terme attractif li´e `a la formation de contacts natifs et d’un terme entropique non nul pour les r´esidus qui ne sont pas dans leur conformation native.

De tels potentiels ne sont naturellement pas exploitables pour pr´edire la struc- ture d’une prot´eine donn´ee, ou pour concevoir une s´equence compatible avec une certaine structure. Comme nous le verrons en Section 1.4.3, ces fonctions ´energ´etiques drastiquement simplifi´ees permettent n´eanmoins de reproduire qualitativement, voire quantitativement, certains aspects du reploiement des prot´eines.

1.4.2 Pr´ ediction de la structure native

Pour pouvoir comprendre comment une prot´eine fonctionne, et ´eventuellement ˆetre capable d’agir sur les processus cellulaires dans lesquels elle intervient, il est indispensable de connaˆıtre sa structure. De nombreuses structures natives de prot´eines ont ´et´e d´etermin´ees exp´erimentalement – essentiellement par cristallographie aux rayons X ou par r´esonance magn´etique nucl´eaire (pour des revues voir [117–122]) – et rep´ertori´ees dans une base de donn´ees accessible `a tous, la Protein Data Bank (PDB) [123].

Cependant, l’application de ces techniques exp´erimentales consume un temps non- n´egligeable et le nombre de s´equences prot´eiques connues `a ce jour est beaucoup plus important que le nombre de structures r´esolues. Cet ´ecart continue d’ailleurs `a se creuser rapidement. La conception de m´ethodes permettant de pr´edire la structure d’un prot´eine

`a partir de sa s´equence est donc un probl`eme dont les enjeux sont majeurs, et qui fascine

de nombreux scientifiques depuis plusieurs d´ecennies. Diverses pistes ont ´et´e suivies dans

le but r´esoudre ce probl`eme, ´el´ementaire en principe mais extrˆemement complexe en

pratique.

(14)

Mod´ elisation comparative et reconnaissance de structure

A l’heure actuelle, les approches qui permettent d’obtenir les meilleurs r´esultats sont la mod´elisation comparative et la reconnaissance de structure. Toutes deux sont n´eanmoins d´ependantes de l’existence de prot´eines dont les structures sont connues et qui pr´esentent une certaine similarit´e de s´equence ou de structure avec la prot´eine cible.

La mod´elisation comparative est bas´ee sur le fait que les prot´eines qui partagent un certain degr´e d’identit´e de s´equence adoptent g´en´eralement des structures similaires.

Cette m´ethode consiste donc en l’identification de prot´eines pr´esentant une importante identit´e de s´equence avec la prot´eine cible, et en l’utilisation des structures de ces prot´eines en tant que mod`eles pour reconstruire la structure inconnue (pour des revues voir [124–129]).

La reconnaissance de structure fait quant `a elle usage d’une librairie de structures prot´eiques. La s´equence de la prot´eine cible est enfil´ee successivement sur chacune des structures de la librairie, et un crit`ere ´energ´etique est mis `a contribution afin d’isoler les meilleures associations s´equence-structure (pour des revues voir [130–135]). L’existence de prot´eines dont la structure est r´esolue et qui exhibent une forte identit´e de s´equence avec la prot´eine cible n’est donc pas indispensable `a l’ex´ecution de cette m´ethode.

N´eanmoins, aucun r´esultat correct ne peut ˆetre esp´er´e si la structure `a pr´edire ne pr´esente pas, ou peu, de similarit´es avec certaines structures incluses dans la librairie.

Pr´ ediction ab initio

La pr´ediction de structure ab initio est l’approche la plus g´en´erale, mais aussi la plus exigeante. Elle permet en principe de pr´edire des structures ne pr´esentant aucune similarit´e avec des structures connues. L’appelation ab initio indique ici que la pr´ediction de structure ne n´ecessite, comme donn´ees initiales, que la s´equence de la prot´eine ainsi qu’une fonction d’´energie.

Les approches de ce type, comme d’ailleurs les m´ethodes de reconnaissance de structure, sont traditionnellement bas´ees sur l’hypoth`ese selon laquelle la structure native d’une prot´eine correspond au minimum global d’´energie libre, et reposent donc sur diverses techniques visant `a localiser ce minimum. La validit´e de cette hypoth`ese ayant ´et´e r´ecemment remise en question par un certain nombre d’observations (voir Section 1.3), il est devenu d´elicat d’attribuer aux pr´edictions ab initio une g´en´eralit´e sans limites. En fait, ces m´ethodes peuvent ˆetre r´eparties en deux cat´egories : celles qui tentent de reproduire le processus de reploiement et qui ont donc une chance d’aboutir `a l’´etat natif mˆeme s’il ne correspond pas au minimum global d’´energie libre, et celles qui se concentrent sur la recherche de ce minimum et dont l’int´erˆet est forc´ement limit´e `a un sous-ensemble de prot´eines (( simples )) . Notons cependant que les connaissances concernant les m´ecanismes de reploiement des prot´eines sont encore relativement restreintes et qu’il est donc difficile d’´evaluer dans quelle mesure une m´ethode donn´ee reproduit correctement ces m´ecanismes.

Discr´ etisation et hi´ erarchisation

Avec une repr´esentation d´etaill´ee des prot´eines et des fonctions d’´energie pr´ecises,

il est parfaitement impossible de mener `a terme une recherche exhaustive de l’espace

(15)

conformationnel, mˆeme pour de petites prot´eines. Des simplifications drastiques sont donc n´ecessaires afin de rendre la pr´ediction de structure envisageable.

Les repr´esentations discr`etes des structures prot´eiques sont fort utiles pour r´eduire la taille de l’espace conformationnel. On distingue g´en´eralement les repr´esentations sur r´eseau (lattice) et hors r´eseau (off-lattice). Les mod`eles hors r´eseau reposent g´en´eralement sur la restriction, `a certaines valeurs bien d´efinies, des angles de torsion de la chaˆıne principale φ et ψ (voir Annexe A) [136, 137]. Depuis les premiers mod`eles de r´eseaux bi-dimensionnels mis au point pour ´etudier le reploiement des prot´eines [138], d’´enormes progr`es ont ´et´e r´ealis´es dans la conception de r´eseaux tri-dimensionnels caract´eris´es par des nombres de coordination ´elev´es et qui permettent de mod´eliser plus pr´ecis´ement les structures prot´eiques et leurs particularit´es [139–142]. Les mod`eles sur r´eseau ont l’avantage d’ˆetre nettement plus faciles `a manipuler que les mod`eles hors r´eseau de complexit´e ´equivalente : ils n´ecessitent moins de temps de calcul et tiennent compte automatiquement de certains effets de volume exclu. Cependant, les restrictions angulaires inh´erentes aux mod`eles sur r´eseau les rendent moins r´ealistes, et il est souvent n´ecessaire d’introduire un biais pour forcer la formation de structures secondaires. Il a d’ailleurs ´et´e montr´e qu’`a complexit´e ´equivalente, la qualit´e de la reproduction d’une structure cristallographique est bien meilleure avec un mod`ele hors r´eseau [143].

Une approche assez courante qui permet d’´eviter de longues errances dans l’espace conformationnel consiste `a envisager la pr´ediction de structure de mani`ere hi´erarchique.

Une possibilit´e est de commencer par identifier les ´el´ements de structure secondaire qui composent la prot´eine et de les assembler par la suite en un mod`ele tri-dimensionnel,

`a l’aide de certaines r`egles de reploiement garantissant une organisation r´ealiste de ces

´el´ements [144–148]. Plutˆot que de se concentrer sur les structures secondaires, d’autres m´ethodes divisent la prot´eine cible en petits fragments [149–152]. La g´en´eration de la structure compl`ete r´esulte alors de l’assemblage des conformations de plus basses

´energies de ces fragments. La limitation majeure de ces proc´edures concerne le taux de succ`es relativement faible (environ 70 % [153, 154]) des m´ethodes de pr´ediction de structure secondaire ou, plus g´en´eralement, des m´ethodes de pr´ediction structurale qui ne tiennent pas compte des interactions entre r´esidus distants dans la s´equence.

Certains d´eveloppements r´ecents de proc´edures hi´erarchiques ont n´eanmoins permis d’obtenir des r´esultats particuli`erement encourageants, notamment grˆace `a la conception de techniques d’assemblage qui autorisent certaines modifications des conformations locales pr´ec´edemment ´etablies [155, 156].

L’ambition de certaines approches hi´erarchiques est de donner un sens physique `a la division en fragments de la prot´eine dont la structure doit ˆetre pr´edite [137, 157]. Ainsi, si une r´egion d’une prot´eine est capable de se reployer et d’adopter sa structure native en l’absence du reste de la prot´eine, il est parfaitement l´egitime de commencer par pr´edire la structure de cette r´egion avant de se confronter `a la prot´eine dans son enti`eret´e.

Naturellement, un des d´efis inh´erents `a cette approche concerne l’identification et la localisation de ces r´egions de reploiement autonome [158].

Techniques d’exploration de l’espace conformationnel

Mˆeme si l’´etendue de l’espace conformationnel peut ˆetre consid´erablement r´eduite

grˆace `a sa discr´etisation et `a l’utilisation de proc´edures hi´erarchiques, localiser le

minimum global d’´energie libre en ´evitant de rester bloqu´e dans des minima locaux

(16)

est une tˆache ardue qui n´ecessite l’application de techniques efficaces d’exploration de l’espace conformationnel. Nous nous limiterons ici `a quelques exemples de m´ethodes de ce type, choisies parmi les plus couramment utilis´ees ou les plus int´eressantes.

La dynamique mol´eculaire repose sur l’int´egration num´erique des ´equations de mouvement de Newton pour les diff´erents atomes de la prot´eine. Cette m´ethode permet en principe d’aboutir `a une trajectoire classique reliant l’´etat d´eploy´e `a l’´etat natif [159, 160]. Cependant, le caract`ere approximatif de la description du solvant et des param`etres semi-empiriques d´efinissant les fonctions ´energ´etiques (voir Section 1.4.1), coupl´e `a l’int´egration sur de longues p´eriodes de temps, peut induire des d´eviations importantes par rapport au d´eroulement r´eel du reploiement. Par ailleurs, cette technique est extrˆemement coˆ uteuse en terme de temps de calcul : l’´echelle de temps accessible est de l’ordre de la nanoseconde `a la microseconde, tandis que le temps n´ecessaire au reploiement d’une prot´eine r´eelle se situe plutˆot entre la milliseconde et la seconde [37, 161, 162]. Les travaux de pr´ediction de structure par dynamique mol´eculaire ont donc ´et´e essentiellement limit´es `a l’´etude de peptides, et il est assez improbable que cette m´ethode puisse, dans un futur proche, ˆetre couramment appliqu´ee `a des prot´eines de taille moyenne. Nous verrons toutefois, en Section 1.4.3, que des proc´edures de dynamique mol´eculaire peuvent ˆetre utilis´ees pour ´etudier le processus de reploiement lorsque la structure native est connue.

Une des techniques les plus populaires de simulation du reploiement des prot´eines est la m´ethode de Monte Carlo [163]. Un avantage, cons´equent, de cette m´ethode par rapport `a la dynamique mol´eculaire est qu’elle peut ˆetre utilis´ee en combinaison avec des repr´esentations discr`etes (sur ou hors r´eseau) des structures prot´eiques et des fonctions

´energ´etiques simplifi´ees. La simulation par Monte Carlo proc`ede par it´erations au d´epart d’une structure quelconque. A chaque it´eration, une petite modification al´eatoire est apport´ee `a la structure et soumise au crit`ere de Metropolis : la nouvelle structure est accept´ee avec une probabilit´e P = min (1, exp[ − ∆E/kT ]), o` u ∆E est la diff´erence d’´energie entre la nouvelle structure et la derni`ere structure accept´ee, et k est la constante de Boltzmann. Un inconv´enient de cette technique est que les simulations restent fr´equemment bloqu´ees dans des minima locaux d’´energie. Afin d’y rem´edier, les m´ethodes de Monte Carlo sont souvent associ´ees `a une proc´edure de recuit simul´e [164], qui consiste en une diminution graduelle de la temp´erature au cours de la simulation.

Ainsi, `a haute temp´erature, les barri`eres d’´energie sont ais´ement franchies et une large portion de l’espace conformationnel peut ˆetre parcourue. Lorsque la temp´erature d´ecroˆıt, la simulation converge vers un minimum, que l’on esp`ere global. Notons que, si l’on peut associer un sens physique aux modifications qui m`enent d’une structure `a une autre, les trajectoires obtenues peuvent ´egalement fournir des informations concernant le processus de reploiement.

Plusieurs variantes des m´ethodes de Monte Carlo ont ´egalement ´et´e d´evelopp´ees

afin d’am´eliorer leur efficacit´e [165]. A titre d’exemple, citons celles qui reposent sur

les statistiques g´en´eralis´ees de Tsallis [166–168] : le crit`ere de Metropolis est remplac´e

par un autre crit`ere ´energ´etique, qui permet de moduler les probabilit´es de passage

des barri`eres ´energ´etiques. Une autre approche prometteuse est bas´ee sur l’id´ee que les

conformations qui ne peuvent ˆetre atteintes en un temps raisonnable ne devraient pas

ˆetre consid´er´ees [169]. Cette condition cin´etique a ´et´e traduite en restrictions sur les

modifications conformationnelles acceptables, `a l’aide de mod`eles de diffusion.

(17)

Il existe de nombreuses autres techniques de recherche de la conformation de plus basse ´energie, moins courantes mais non sans int´erˆet pour autant. Parmi elles, les algorithmes g´en´etiques proc`edent `a partir de populations constitu´ees de structures diverses, qui sont soumises `a un sch´ema ´evolutif pour converger finalement, en principe, vers la structure native [170–173]. Les g´en´erations successives de structures sont cr´e´ees via des modifications des conformations de quelques r´esidus ou des combinaisons de plusieurs structures parentes. Le crit`ere de M´etropolis est appliqu´e afin d’accepter, ou de rejeter, les structures qui constituent chaque nouvelle g´en´eration. Les proc´edures de recherche exhaustive intelligente reconstruisent la structure s´equentiellement, par additions successives de r´esidus. D`es que la conformation de la chaˆıne prot´eique ne respecte plus certaines contraintes, g´eom´etriques et/ou ´energ´etiques, l’algorithme fait marche arri`ere [174–176]. Un autre exemple d’approche int´eressante est le difficilement traduisible Convex Global Underestimator [177,178], dont le dessein est la reconstruction du paysage ´energ´etique, `a l’aide d’une parabole multi-dimensionnelle, sur la base de l’´echantillonage al´eatoire d’un nombre restreint de conformations. Cette m´ethode semble ˆetre capable de localiser assez rapidement le minimum global d’´energie libre pour de petites prot´eines.

1.4.3 Etude du reploiement

Les r´esultats exp´erimentaux obtenus dans le cadre de l’´etude du reploiement des prot´eines sont commun´ement interpr´et´es sur la base de mod`eles macroscopiques `a deux

´etats (D ­ N, o` u D correspond `a l’´etat d´enatur´e et N `a l’´etat natif), ou `a plusieurs

´etats si des interm´ediaires (I) sont pris en compte (D ­ I ­ N, I ­ D ­ N, D ­ I

1

­ I

2

­ . . . ­ I

n

­ N,...) [37]. Les quantit´es obtenues exp´erimentalement, qui en g´en´eral peuvent ˆetre honorablement reproduites par de tels mod`eles, repr´esentent des moyennes sur de nombreuses conformations individuelles des chaˆınes prot´eiques, et ne fournissent pas d’informations au niveau microscopique, comme par exemple l’ensemble de conformations qui constituent l’´etat d´enatur´e ou les ´etats interm´ediaires. En revanche, les simulations in silico du reploiement des prot´eines tentent g´en´eralement de d´ecrire les

´ev´enements mol´eculaires qui induisent la formation de la structure native d’une chaˆıne prot´eique isol´ee. En cons´equence, ´etablir un lien entre les simulations r´ealis´ees au niveau microscopique et les observations exp´erimentales macroscopiques est une tˆache d´elicate.

Il est donc souvent fort difficile de valider les r´esultats d’´etudes th´eoriques du reploiement autrement qu’`a l’aide de comparaisons qualitatives plutˆot grossi`eres.

Points de comparaison entre simulations et exp´ eriences

La vitesse de reploiement est l’un des param`etres qui peuvent `a la fois ˆetre mesur´es exp´erimentalement et, en principe, extraits de simulations du reploiement. N´eanmoins,

´etant donn´e qu’une prot´eine peut suivre une multitude de chemins entre l’´etat d´enatur´e et l’´etat natif, la vitesse de reploiement est d´etermin´ee par la forme du paysage

´energ´etique dans son ensemble, et sa pr´ediction est donc loin d’ˆetre ´evidente. Nous verrons

toutefois qu’il est apparu que la cin´etique de reploiement des petites prot´eines semble

essentiellement d´etermin´ee par un nombre restreint de caract´eristiques structurales, et

qu’un certain espoir de r´esoudre ce probl`eme est donc permis.

(18)

Par ailleurs, mˆeme s’il est fort improbable que les prot´eines suivent un chemin de reploiement unique, les th´eories actuelles du reploiement n’excluent pas la formation de certaines conformations relativement sp´ecifiques `a des moments cl´es du reploiement.

De telles conformations peuvent en principe ˆetre identifi´ees in silico et compar´ees `a des interm´ediaires de reploiement observ´es exp´erimentalement. En outre, l’existence

´eventuelle de structures non-natives, mal reploy´ees, pourrait ´egalement ˆetre caract´eris´ee th´eoriquement et exp´erimentalement.

Un autre outil qui est fr´equemment utilis´e pour comparer simulations et exp´eriences est fourni par les valeurs de φ. La valeur de φ associ´ee `a un r´esidu d’une prot´eine est d´efinie comme le rapport entre le changement de l’´energie libre d’activation du reploiement (∆∆G

) et le changement de stabilit´e de la structure native (∆∆G), suite `a la mutation de ce r´esidu (Figure 1.6). Les valeurs de φ ont ´et´e largement exploit´ees pour caract´eriser la structure de l’´etat de transition du reploiement de prot´eines [31, 179]. Une faible valeur de φ implique que le r´esidu en question ne participe pas, ou peu, `a la formation de l’´etat de transition, tandis qu’une valeur proche de l’unit´e indique qu’il joue un rˆole particuli`erement important dans cet ´etat. Remarquons que, si cette interpr´etation simple des valeurs de φ est soutenue par de nombreux r´esultats exp´erimentaux, elle n’est pas pour autant universelle. Elle semble en effet peu pertinente dans le cas de paysages

´energ´etiques rugueux. Des valeurs de φ n´egatives ou sup´erieures `a l’unit´e peuvent ˆetre obtenues, par exemple, si des interactions non-natives contribuent `a la g´en´eration de l’´etat de transition [180–182].

Figure 1.6 – D´efinition des valeurs de φ. Profil ´energ´etique du reploiement selon une coordonn´ee de r´eaction. Les lettres D, T et N indiquent l’´etat d´enatur´e, l’´etat de transition et l’´etat natif, respectivement. Les courbes en trait continu et interrompu correspondent au profil avant et apr`es mutation d’un r´esidu, respectivement. La valeur de φ associ´ee `a ce r´esidu est ´egale `a ∆∆G

/∆∆G. (a) La mutation d´estabilise la structure native et, dans une moindre mesure, l’´etat de transition (0 < φ < 1).

(b) La mutation stabilise la structure native mais n’est pas impliqu´e dans la formation de l’´etat de transition (φ = 0).

Mod` eles d´ etaill´ es

Avec une repr´esentation compl`etement d´etaill´ee – au niveau atomique – des prot´eines,

un environnement constitu´e de mol´ecules de solvant explicites et des potentiels semi-

empiriques, simuler le processus de reploiement complet de prot´eines de taille moyenne

(19)

serait beaucoup trop coˆ uteux en temps de calcul. De plus, mˆeme si l’on disposait de suffisamment de temps et de puissance de calcul pour qu’une telle simulation soit possible, elle serait loin d’ˆetre suffisante car peu repr´esentative des myriades de trajectoires individuelles possibles entre les conformations de l’´etat d´enatur´e et de l’´etat natif. Des approches alternatives ont n´eanmoins ´et´e d´evelopp´ees afin d’obtenir des informations sur le reploiement tout en conservant le d´etail atomique de la repr´esentation.

Des m´ethodes d’´echantillonnage biais´e ont ´et´e mises au point dans le but de recons- truire le paysage ´energ´etique d’une prot´eine donn´ee [183–186]. Dans un premier temps, un ensemble de conformations, ´equitablement r´eparties – selon quelques coordonn´ees de r´eaction – dans l’espace conformationnel, est cr´e´e `a l’aide de simulations de d´eploiement sous des conditions d´enaturantes. Les coordonn´ees de r´eaction les plus fr´equemment utilis´ees sont le nombre de contacts natifs et le rayon de gyration. Naturellement, le choix de la (ou des) coordonn´ee(s) de r´eaction est crucial et peut avoir une influence importante sur les r´esultats obtenus. Ces conformations servent de point de d´epart `a des simulations de dynamique mol´eculaire biais´ee. Le biais prend la forme d’un potentiel quadratique qui est additionn´e `a la fonction ´energ´etique de mani`ere `a concentrer l’´echantillonnage dans une zone restreinte centr´ee sur la conformation initiale. L’objectif est de cr´eer un r´eseau de conformations qui lient les conformations initiales, et d’en extraire la variation de la densit´e d’´etats le long des coordonn´ees de r´eactions choisies afin de calculer le profil

´energ´etique.

Une autre mani`ere d’´etudier le reploiement en utilisant une repr´esentation d´etaill´ee des prot´eines est de suivre leur d´eploiement sous des conditions fortement d´enaturantes (typiquement `a des temp´eratures sup´erieures `a 400 K) [160,187–192]. Sous de telles condi- tions, le d´eploiement est rapide et quelques nanosecondes de simulation sont g´en´eralement suffisantes `a la reproduction de l’enti`eret´e du processus. Plusieurs simulations de ce type peuvent donc ˆetre r´ealis´ees, et des informations sur les m´ecanismes de reploiement extraites des trajectoires de d´eploiement observ´ees. Il faut toutefois se soumettre `a l’hypoth`ese selon laquelle le reploiement suit la trajectoire inverse du d´eploiement. Une certaine prudence est donc de mise dans l’interpr´etation des r´esultats car cette hypoth`ese n’est pas parfaitement valide. En effet, si les m´ecanismes de d´eploiement et de reploiement semblent ˆetre globalement similaires, les ´etats de transition peuvent ˆetre d´eplac´es, et certains interm´ediaires rencontr´es au cours du reploiement peuvent ˆetre compl`etement

´evit´es par les trajectoires de d´eploiement [186].

Mod` eles minimalistes

Des alternatives existent `a l’utilisation de mod`eles tr`es d´etaill´es des prot´eines pour

l’´etude in silico de leur reploiement. De nombreuses approches bas´ees sur des mod`eles

extrˆemement simplifi´es des prot´eines sont en effet apparues. Leur application est justifi´ee

par diverses observations qui sugg`erent que les m´ecanismes de reploiement des petites

prot´eines sont essentiellement d´etermin´es par l’arrangement g´en´eral de la structure native

et quasiment ind´ependants des d´etails de la s´equence [193–195]. Ainsi, une corr´elation

notable a ´et´e relev´ee entre les vitesses de reploiement d´etermin´ees exp´erimentalement

et l’ordre de contact (contact order ), d´efini comme la s´eparation moyenne le long de la

s´equence entre deux r´esidus qui sont en contact dans la structure native [196]. Un ordre

de contact ´elev´e refl`ete une pr´edominance des interactions entre r´esidus ´eloign´es dans la

s´equence et implique de grandes pertes d’entropie lors de la formation de contacts natifs

(20)

au d´ebut du reploiement. En revanche, une valeur moindre de l’ordre de contact indique une importance accrue des interactions locales et des pertes d’entropie restreintes au cours des premi`eres ´etapes du reploiement. Notons qu’il a ´egalement ´et´e montr´e que la stabilit´e de l’´etat natif et la taille de la prot´eine sont des facteurs importants dont la prise en compte permet d’affiner la corr´elation entre l’ordre de contact et la vitesse de reploiement [193, 197].

L’importance prise par certaines caract´eristiques structurales grossi`eres dans la d´etermination des m´ecanismes de reploiement pouvait d´ej`a ˆetre pressentie au vu de plusieurs ´etudes th´eoriques du reploiement de s´equences simplifi´ees sur des r´eseaux cubiques minimalistes. De telles ´etudes ont par exemple permis de g´en´erer des s´equences, compos´ees uniquement de deux types de r´esidus (hydrophobes et polaires), qui adoptent une structure unique en suivant un processus de reploiement coop´eratif similaire `a celui de vraies prot´eines [50,198–200]. Certaines versions am´elior´ees de mod`eles de ce type, usant de s´equences r´eelles, ont notamment ´et´e capables de fournir des informations sur l’´etat de transition, ou encore sur le rˆole des interactions non-natives [181,201]. Un autre exemple est fourni par des simulations d’une chaˆıne compos´ee de 27 r´esidus appartenant `a trois classes diff´erentes (hydrophobes, neutres et polaires) [202]. La s´equence a ´et´e concue pour correspondre `a une surface de potentiel qui pr´esente plusieurs entonnoirs de reploiement distincts, et ces simulations refl`etent donc certains m´ecanismes qui pourraient ˆetre mis en oeuvre lors de modifications pathologiques des conformations de prot´eines, telles que l’agr´egation de la prot´eine du prion.

Un autre type d’approche, initi´e par G¯o au d´ebut des ann´ees 80, repose sur l’id´ee que le rˆole jou´e par les interactions non-natives au cours du reploiement est n´egligeable en premi`ere approximation [30, 203–205]. Chaque r´esidu d’une prot´eine est donc consid´er´e comme ´etant soit dans sa conformation native (n), soit dans une conformation compl`etement al´eatoire (r). Une s´equence donn´ee de n et de r correspond alors `a un ensemble de conformations indistinguables, dont l’´energie libre est estim´ee `a l’aide de fonctions ´energ´etiques simples, ind´ependantes de la s´equence, et qui n´ecessitent la connaissance de la structure native (voir Section 1.4.1). De plus, les r´esidus qui sont dans leur conformation native sont g´en´eralement contraints de former un nombre limit´e de segments continus le long de la s´equence. Ces lourdes simplifications permettent d’explorer amplement, voire de mani`ere exhaustive, l’espace conformationnel, et d’en extraire suffisamment d’informations sur le paysage ´energ´etique pour entreprendre une analyse d´etaill´ee des m´ecanismes de reploiement. Ainsi, l’´etat de transition, correspondant aux conformations de plus haute ´energie libre le long des trajectoires de plus basse ´energie libre, peut ˆetre identifi´e et traduit en termes de valeurs de φ. A ce niveau, un bon accord qualitatif existe entre les valeurs calcul´ees et celles obtenues exp´erimentalement : les r´egions de prot´eines caract´eris´ees par des valeurs de φ plutˆot ´elev´ees ou plutˆot basses sont en g´en´eral correctement identifi´ees.

Il est n´eanmoins apparu que pour certaines prot´eines, les corr´elations entre les valeurs de φ mesur´ees et calcul´ees sont faibles, et que des fonctions ´energ´etiques plus pr´ecises sont indispensables `a l’´etude de leur reploiement. Il a ainsi ´et´e n´ecessaire d’introduire une d´ependance explicite de l’´energie libre vis-`a-vis de la s´equence afin de reproduire, avec un mod`ele de type G¯o, les diff´erences observ´ees exp´erimentalement entre les

´etats de transition de deux prot´eines dont l’arrangement structural est similaire [206].

Remarquons que, malgr´e la possibilit´e d’introduire de telles am´eliorations, ces mod`eles

(21)

souffrent de limitations fondamentales li´ees au fait que l’influence des interactions non- natives est totalement n´eglig´ee. Cette approximation est sans doute relativement valable dans le cas de petites prot´eines (( simples )) , mais vraisemblablement pas pour des prot´eines dont certaines r´egions marquent, par exemple, une nette pr´ef´erence pour des conformations non-natives en absence d’interactions tertiaires [180].

Comme nous l’avons discut´e pr´ec´edemment, la pr´ediction de la vitesse de reploiement d’une prot´eine est un d´efi particuli`erement exigeant. Des r´esultats encourageants ont n´eanmoins pu ˆetre obtenus dans ce domaine `a l’aide de mod`eles de type G¯o. A titre d’exemple, certains ont proc´ed´e via la r´esolution d’une ´equation de mouvement par diffusion le long de profils ´energ´etiques uni-dimensionnels, g´en´er´es suite `a un

´echantillonage de l’espace conformationnel [205]. D’autres ont pr´ef´er´e estimer les vitesses de reploiement sur la base de la r´esolution d’´equations cin´etiques sur un r´eseau de conformations liant l’´etat d´enatur´e `a l’´etat natif, au point d’´equilibre thermodynamique entre ces deux ´etats [207].

Mod` eles interm´ ediaires

S’il est int´eressant de souligner les diff´erences entre les m´ethodes bas´ees sur des mod`eles d´etaill´es et minimalistes, de s’attarder quelque peu sur les moyens mis en oeuvre et les r´esultats obtenus par ces deux approches fort diff´erentes, il serait pourtant injuste de passer sous silence l’existence de nombreuses ´etudes du reploiement des prot´eines effectu´ees `a l’aide de mod`eles plus ou moins simplifi´es, situ´es entre ces deux extrˆemes. Parmi elles, citons simplement la r´ealisation de simulations du reploiement de fragments de prot´eines, conduites selon une proc´edure de Monte Carlo avec une repr´esentation discr`ete, hors r´eseau, des structures et des potentiels statistiques d´ecrivant les interactions locales et/ou non-locales (le long de la s´equence) [137, 157]. Les r´esultats de ces simulations sugg`erent que la formation de certains ´el´ements de structure secondaire est dominante au cours des premi`eres ´etapes du reploiement des prot´eines ´etudi´ees et semble n´ecessairement pr´ec´eder le compactage de la structure.

1.4.4 Autres d´ efis

La pr´ediction de la structure native et le d´echiffrage des m´ecanismes de reploiement ne sont pas les uniques enjeux de l’´etude in silico des prot´eines. Ainsi, de nombreux efforts ont ´et´e consentis dans le but de pr´edire la localisation du site actif d’une prot´eine, de mod´eliser les interactions qui peuvent s’´etablir entre deux prot´eines ou entre une prot´eine et une petite mol´ecule et, de mani`ere plus g´en´erale, de reproduire les m´ecanismes qui permettent `a chaque prot´eine d’assurer sa fonction (pour des revues, voir notamment [208–218]).

Par ailleurs, la conception de prot´eines dont les s´equences ont ´et´e modifi´ees de

mani`ere `a pr´esenter certaines propri´et´es particuli`eres, telles que par exemple une stabilit´e

accrue [219–222], est ´egalement un th`eme captivant dont les applications potentielles sont

nombreuses. Dans le mˆeme ordre d’id´ees, notons que certaines tentatives plus ambitieuses

ont ´et´e engag´ees afin de g´en´erer des structures prot´eiques nouvelles et de concevoir des

s´equences qui se reploient pour adopter ces structures (pour des revues, voir [223–227]).

(22)

1.5 Notre travail

Ce travail se place dans le cadre de l’´etude th´eorique des liens entre la s´equence d’une prot´eine et sa (ou ses) structure(s) tertiaire(s). Outre l’introduction et la conclusion, il s’organise en deux parties principales. La premi`ere (Chapitres 2 `a 4) est consacr´ee au d´eveloppement de potentiels de force moyenne d´eriv´es de base de donn´ees de prot´eines dont les structures sont connues. La deuxi`eme (Chapitres 5 et 6) d´ecrit l’application de programmes bas´es sur de tels potentiels `a l’´etude de prot´eines qui, sous certaines conditions, adoptent des structures alternatives. Les Annexes apportent quelques pr´ecisions suppl´ementaires concernant la repr´esentation simplifi´ee des structures prot´eiques, les bases de donn´ees structurales ainsi que les programmes que nous avons utilis´es.

Au Chapitre 2, nous d´ecrirons le formalisme utilis´e pour la d´erivation de potentiels de force moyenne dans le cadre des prot´eines, en portant une attention particuli`ere aux diff´erentes hypoth`eses qui doivent ˆetre ´emises. Nous verrons que l’impact de ces hypoth`eses sur les fonctions ´energ´etiques ainsi d´efinies est encore loin d’ˆetre clairement

´etabli et qu’il est donc essentiel d’approfondir notre compr´ehension de la signification physique de ces potentiels. C’est dans cet ´etat d’esprit que nous aborderons, au Chapitre 3, l’analyse de l’influence de la taille des prot´eines incluses dans la base de donn´ees sur les potentiels qui en sont d´eriv´es. Nous discuterons les diff´erents aspects de la d´ependance des potentiels en la taille des prot´eines, ainsi que l’opportunit´e de prendre en compte cette d´ependance afin d’am´eliorer leur pouvoir pr´edictif [228]. La mise au point d’une proc´edure g´en´erale de d´erivation de potentiels bas´es simultan´ement sur plusieurs descripteurs conformationnels, ainsi que des termes de couplage appropri´es, sera pr´esent´ee au Chapitre 4. Nous d´ecrirons la g´en´eration d’une fonction ´energ´etique particuli`erement performante qui tient compte des corr´elations existant entre la nature, la conformation et l’accessibilit´e au solvant de r´esidus, et leur s´eparation dans l’espace et/ou le long de la s´equence [229].

Le Chapitre 5 est consacr´e `a l’´etude de prot´eines sujettes `a une permutation de domaines. Ce ph´enom`ene, qui implique la g´en´eration d’un oligom`ere suite `a l’´echange de fragments structuraux entre monom`eres identiques, concerne des prot´eines fort diverses et proc`ede selon des m´ecanismes encore mal compris. Nous relaterons les diverses ´etapes de notre recherche, qui a permis de mettre en ´evidence certaines caract´eristiques qui semblent d´eterminantes dans les s´equences et structures de ces prot´eines, ainsi que de concevoir rationnellement un ensemble de mutations ponctuelles suppos´ees affecter leur propension `a permuter [230]. Les r´esultats qui seront pr´esent´es au Chapitre 6 concernent l’α

1

-antitrypsine. Cette prot´eine accomplit son rˆole biologique `a l’aide d’importantes modifications structurales. Elle peut ´egalement, sous certaines conditions, ˆetre soumise

`a un processus de polym´erisation qui est `a l’origine de diverses maladies. Nous avons

s´electionn´e rationnellement plusieurs mutations ponctuelles susceptibles d’augmenter ou

de diminuer la tendance `a polym´eriser de l’α

1

-antitrypsine. Une collaboration avec le

groupe australien du Professeur S.P. Bottomley a permis de tester exp´erimentalement

certains de ces mutants [231].

(23)

[1] J.D. Rawn. Biochemistry. Neil Patterson Publishers, Burlington, 1989.

[2] T.E. Creighton. Proteins : structures and molecular properties. W.H. Freeman and Company, New York, 1993.

[3] R.H. Pain, editor. Mechanisms of protein folding, volume 32 of Frontiers in molecular biology. Oxford University Press, New York, 2000.

[4] C.R. Matthews, editor. Protein folding mechanisms, volume 53 of Advances in protein chemistry. Academic Press, San Diego, 2000.

[5] R.J. Ellis and S.M. Hemmingsen. Molecular chaperones : proteins essential for the biogenesis of some macromolecular structures. Trends in Biochemical Science, 14 :339–342, 1989.

[6] J. Ostermann. The function of chaperones during intracellular protein sorting, folding and assembly. Biotechnology and genetic engineering reviews, 8 :219–249, 1990.

[7] A.A. Gatenby, P.V. Viitanen, and G.H. Lorimer. Chaperonin assisted polypeptide folding and assembly : implications for the production of functional proteins in bacteria. Trends in Biotechnology, 8 :354–358, 1990.

[8] M.J. Gething. Molecular chaperones : individualists or groupies ? Current Opinion in Cell Biology, 3 :610–461, 1991.

[9] F.U. Hartl. Molecular chaperones in cellular protein folding. Nature, 381 :571–579, 1996.

[10] J. Martin and F.U. Hartl. Chaperone-assisted protein folding. Current Opinion in Structural Biology, 7 :41–52, 1997.

[11] F.U. Hartl and M. Hayer-Hartl. Molecular chaperones in the cytosol : from nascent chain to folded protein. Science, 295 :1852–1858, 2002.

[12] C.B. Anfinsen, E. Haber, M. Sela, and F.H. White Jr. The kinetics of formation of native ribonuclease during oxidation of the reduced polypeptide chain. Proceedings of the National Academy of Sciences (USA), 47 :1309–1314, 1961.

[13] C.B. Anfinsen. Principles that govern the folding of protein chains. Science, 181 :223–230, 1973.

[14] C. Levinthal. How to fold graciously. In P. Debrunner, J. Tsibris, and E. Munck, editors, Mossbauer spectroscopy in biological systems, pages 22–24, Allerton House, Monticello, Illinois, 1969. University of Illinois Press, Urbana.

[15] M. Karplus. The Levinthal paradox : yesterday and today. Folding and Design, 2 :S69–75, 1997.

27

Références

Documents relatifs

— arrange(xmin,xmax,pas) ( array range ) : cr´ ee un array dont le premier ´ el´ ement est xmin et dont chaque ´ el´ ement est distant de pas, le dernier ´ etant strictement

– Si vous utilisez une calculatrice (vous n’en avez pas besoin), celle-ci doit ˆetre valid´ee par une vignette autocollante ´emise par la COOP ´etudiante ZONE... – Ne d´etachez

Comment des personnes atteintes d’une maladie chronique peuvent-elles trouver leur place dans le contexte actuel du marché du travail.. Comment éviter, alors que l’état de santé

Pour le dénominateur, les racines sont 0 et −1, le coefficient dominant est 1 &gt; 0.. Il est donc positif « à l’extérieur » des racines, négatif « entre »

Le latin et le grec au Collège Saint-Louis , c’est 4 heures/semaine de la 3e à la rhétorique avec comme objectifs d’acquérir discipline et méthode de

Pour cueillir des baies des noix Attention au bout de trois Je vais compter sur mes doigts Monsieur ours réveille-toi.. Et à trois attrape-moi Un,

(3) Comme P et vraie et qu’au moins un chat n’est pas gris, la contraposée permet d’affirmer qu’il ne fait pas sombre et qu’il ne fait pas nuit.. Par conséquent Q est

Dans chacune des deux situations donn´ ees plus bas, comment placer 20 boules dont 10 sont noires et 10 sont blanches dans deux urnes de mani` ere ` a maximiser la probabilit´ e