Disponible à / Available at permalink :

(1)

- - -

Dépôt Institutionnel de l’Université libre de Bruxelles / Université libre de Bruxelles Institutional Repository

Thèse de doctorat/ PhD Thesis Citation APA:

Dehouck, Y. (2005). Développement de potentiels statistiques pour l'étude in silico de protéines et analyse de structurations alternatives (Unpublished doctoral dissertation). Université libre de Bruxelles, Faculté des sciences appliquées – Chimie, Bruxelles.

Disponible à / Available at permalink : https://dipot.ulb.ac.be/dspace/bitstream/2013/211040/12/d6e415e8-3386-435f-a3e8-44c2fcbfe428.txt

(English version below)

Cette thèse de doctorat a été numérisée par l’Université libre de Bruxelles. L’auteur qui s’opposerait à sa mise en ligne dans DI-fusion est invité à prendre contact avec l’Université ([email protected]).

Dans le cas où une version électronique native de la thèse existe, l’Université ne peut garantir que la présente version numérisée soit identique à la version électronique native, ni qu’elle soit la version officielle définitive de la thèse.

DI-fusion, le Dépôt Institutionnel de l’Université libre de Bruxelles, recueille la production scientifique de l’Université, mise à disposition en libre accès autant que possible. Les œuvres accessibles dans DI-fusion sont protégées par la législation belge relative aux droits d'auteur et aux droits voisins. Toute personne peut, sans avoir à demander l’autorisation de l’auteur ou de l’ayant-droit, à des fins d’usage privé ou à des fins d’illustration de l’enseignement ou de recherche scientifique, dans la mesure justifiée par le but non lucratif poursuivi, lire, télécharger ou reproduire sur papier ou sur tout autre support, les articles ou des fragments d’autres œuvres, disponibles dans DI-fusion, pour autant que :

Le nom des auteurs, le titre et la référence bibliographique complète soient cités;

L’identifiant unique attribué aux métadonnées dans DI-fusion (permalink) soit indiqué;

Le contenu ne soit pas modifié.

L’œuvre ne peut être stockée dans une autre base de données dans le but d’y donner accès ; l’identifiant unique (permalink) indiqué ci-dessus doit toujours être utilisé pour donner accès à l’œuvre. Toute autre utilisation non mentionnée ci-dessus nécessite l’autorisation de l’auteur de l’œuvre ou de l’ayant droit.

--- English Version ---

This Ph.D. thesis has been digitized by Université libre de Bruxelles. The author who would disagree on its online availability in DI-fusion is invited to contact the University ([email protected]).

If a native electronic version of the thesis exists, the University can guarantee neither that the present digitized version is identical to the native electronic version, nor that it is the definitive official version of the thesis.

DI-fusion is the Institutional Repository of Université libre de Bruxelles; it collects the research output of the University, available on open access as much as possible. The works included in DI-fusion are protected by the Belgian legislation relating to authors’ rights and neighbouring rights.

Any user may, without prior permission from the authors or copyright owners, for private usage or for educational or scientific research purposes, to the extent justified by the non-profit activity, read, download or reproduce on paper or on any other media, the articles or fragments of other works, available in DI-fusion, provided:

The authors, title and full bibliographic details are credited in any copy;

The unique identifier (permalink) for the original metadata page in DI-fusion is indicated;

The content is not changed in any way.

It is not permitted to store the work in another database in order to provide access to it; the unique identifier (permalink) indicated above must always be used to provide access to the work. Any other use not mentioned above requires the authors’ or copyright owners’ permission.

(2)

032 GJ

Vniversité Liôre de (BnvçeCCes TacuCté des Sciences JippCiquées

(DéveCoppement de potentiels statistiques pour rétude in siCico de protéines et anaCyse de

structurations aCternatives

^ves (Defiouc^ - AvnC 2005

THèse ptéamtée en vue de CoBtention du grade de (Docteur en Sciences Appliquées

Tdtèse : Dr. Marianne (Rpoman

(3)

Vniversité LiSre cCe (BrwçeCCes TacuCté des Sciences dLppCiquées

(DéveCoppement de potentiels statistiques pour Cétude in siCico de protéines et anaCyse de

structurations aCternatives

‘Yves <Defiouc^ - JlvriC 2005

Yhèse présentée en vue de CoStention du grctde de <Docteur en Sciences JLppCiquées

(Directrice de Yhèse : (Dr. ‘Marianne (Rpoman

(4)

(5)

Cette thèse est un travaiCpersonneCdans un sens...

‘ECCe est néanmoins Ce fruit d’interactions muCtipks, de rencontres, de coCùihorations,

‘Et de nombreuses discussions, parfois entêtées mais toujours enrichissantes.

Je tiens tout naturellement, mais aussi tout particuCièrement, à remercier sincèrement

Marianne, (Pour ta disponihiCité, tes muCtipCes aides, conseils et encouragements.

Jlu-delà de tes qualités scientifiques incontestables et de ton optimisme résolu, L'intérêt sincère que tu manifestes vis-à-vis des personnes qui travaillent avec toi.

Et ta volonté de créer un environnement de travail où chacun a son mot à dire (et le dit).

Sont des caractéristiques de ta personnalité qui m’ont impressionnées.

Ce sont, je pense, de réelles qualités de « chef», (Dans le sens le plus honorable de ce terme que tu n’aimes sans doute pas beaucoup.

(Dimitri, Malgré ton implication dans une unité douteuse de scouts Schaerbeehpis,

‘Ta capacité à inlassablement répondre à mes questions plus ou moins stupides, (Pafois même à inlassablement m'écouter répondre seul à mes questions plus ou moins stupides.

Et ta bonne humeur inébranlable, ont fait de toi le meilleur collègue de bureau imaginable.

Christophe, Comment ne pas s’incliner devant f homme qui a vu (R-S., (D’autant qu’il est ma foi (Une reste rien d'autre) de fort agréable compagnie.

Intellectuellement engagé, mais tout de même intelligent.

Et puis, comme dirait je ne sais plus qui... il faut combattre ces maladies... trouver un remède !

Jean Marc, Monsieur "li, fidèle compagnon des petites pauses nicotine, et grand manitou des ordinateurs.

Particulièrement indispensable en ces temps de post-déménagement.

Philippe pour Caccueilcha!eurew(^(voire festif) dans son service et dans ses labos, iJUcole et Jlrlette sans qui bien des choses se révéleraient nettement plus compliquées.

Mile ‘ToHey etjachy Lievin, membres de mon comité d’accompagnement, Jacques (prisse et Kjistin Partih^pour avoir accompagné mes débuts dans h recherche,

‘Cincent ‘Rgussens pour son aide et sa patience, Stephen P. Pottomley et toute son équipe, (DirhjDehouch^pour ses illustrations,

Jlinsi que tous ceu\ que je n 'ai pas cité mais qui ont participé de près ou de loin à ce travail et/ou à Cambiance agréable dans hquede U a été réalisé.

Je pense en particulier auy^ locataires et ey^-locataires du P2, de ClJ(D5 et, plus récemment, de CV(D3.

Sans oublier ma famille et mes amis.

Pour tout le reste, ce qui a de Cimportance et ce qui n 'en a pas.

Je tiens également à eoqmmer ma reconnaissance envers I T.%,I.Ji., Qui m’a fait confiance et m’a accordé son soutien financier pour h réalisation de cette thèse.

Et pour finir, j’envoie un petit sourire à Cautre.

C’est juste pour rire... mais ça ne fera de mal à personne.

(6)

TeeC the sunsHine on yourface — It ’s in a computer now Çone in the future — ^ay out in space

((BCur- Out oftime)

(7)

Résumé

Cette thèse se place dans le cadre de l’étude in silico, c’est-à-dire assistée par ordinateur, des liens qui unissent la séquence d’une protéine à la (ou aux) structure(s) tri-dimensionnelle(s) qu’elle adopte. Le décryptage de ces liens présente de nombreuses applications dans divers domaines et constitue sans doute l’une des problématiques les plus fascinantes de la recherche en biologie moléculaire.

Le premier aspect de notre travail concerne le développement de potentiels sta

tistiques dérivés de bases de données de protéines dont les structures sont connues.

Ces potentiels présentent plusieurs avantages : ils peuvent être aisément adaptés à des représentations structurales simplifiées, et permettent de définir un nombre limité de fonctions énergétiques qui incarnent l’ensemble complexe d’interactions gouvernant la structure et la stabilité des protéines, et qui incluent également certaines contributions entropiques. Cependant, leur signification physique reste assez nébuleuse, car l’impact des diverses hypothèses nécessaires à leur dérivation est loin d’être clairement établi.

Nous nous sommes attachés à l’étude de certaines limitations des ces potentiels : leur dépendance en la taille des protéines incluses dans la base de données, la non-additivité des termes de potentiels, et l’importance souvent négligée de l’environnement protéique spécifique ressenti par chaque résidu. Nous avons ainsi mis en évidence que l’influence de la taille des protéines de la base de données sur les potentiels de distance entre résidus est spécifique à chaque paire d’acides aminés, peut être relativement importante, et résulte essentiellement de la répartition inhomogène des résidus hydrophobes et hydrophiles entre le coeur et la surface des protéines. Ces résultats ont guidé la mise au point de fonctions correctives qui permettent de tenir compte de cette influence lors de la dérivation des potentiels. Par ailleurs, la définition d’une procédure générale de dérivation de potentiels et de termes de couplage a rendu possible la création d’une fonction énergétique qui tient compte simultanément de plusieurs descripteurs de séquence et de structure (la nature des résidus, leurs conformations, leurs accessibilités au solvant, ainsi que les distances qui les séparent dans l’espace et le long de la séquence). Cette fonction énergétique présente des performances nettement améliorées par rapport aux potentiels originaux, et par rapport à d’autres potentiels décrits dans la littérature.

Le deuxième aspect de notre travail concerne l’application de programmes basés sur des potentiels statistiques à l’étude de protéines qui adoptent des structures alternatives.

La permutation de domaines est un phénomène qui affecte diverses protéines et qui

implique la génération d’un oligomère suite à l’échange de fragments structuraux

entre monomères identiques. Nos résultats suggèrent que la présence de "faiblesses

structurales”, c’est-à-dire de régions qui ne sont pas optimales vis-à-vis de la stabilité de

la structure native ou qui présentent une préférence marquée pour une conformation

non-native en absence d’interactions tertiaires, est intimement liée aux mécanismes

de permutation. Nous avons également mis en évidence l’importance des interactions

de type cation-7r, qui sont fréquemment observées dans certaines zones clés de la

permutation. Finalement, nous avons sélectionné un ensemble de mutations susceptibles

de modifier sensiblement la propension de diverses protéines à permuter. L’étude

expérimentale de ces mutations devrait permettre de valider, ou de raffiner, les hypothèses

(8)

que nous avons proposées quant au rôle joué par les faiblesses structurales et les

interactions de type cation-7r. Nous avons également analysé une autre protéine soumise

à d’importants réarrangements conformationnels : l’ai-antitrypsine. Dans le cas de cette

protéine, les modifications structurales sont indispensables à l’exécution de l’activité

biologique normale, mais peuvent sous certaines conditions mener à la formation de

polymères insolubles et au développement de maladies. Afin de contribuer à une meilleure

compréhension des mécanismes responsables de la polymérisation, nous avons cherché

à concevoir rationnellement des protéines mutantes qui présentent une propension à

polymériser contrôlée. Des tests expérimentaux ont été réalisés par le groupe australien

du Professeur S.P. Bottomley, et ont permis de valider nos prédictions de manière assez

remarquable.

(9)

Table des matières

I Introduction générale 4

1 Introduction générale 5

1.1 Les protéines ... 5

1.2 Le reploieinent des protéines... 9

1.3 Modifications conformationnelles ... 13

1.4 Etude in silico des protéines... 15

1.4.1 Les fonctions d’énergie... 15

1.4.2 Prédiction de la structure native... 17

1.4.3 Etude du reploiement... 21

1.4.4 Autres défis... 25

1.5 Notre travail... 26

Bibliographie... 27

II Potentiels de force moyenne 42 2 Introduction théorique 43 2.1 Définition générale dans un système simple... 43

2.2 Définition dans le cadre des protéines... 45

2.2.1 Potentiel de distance entre résidus... 45

2.2.2 Différents types de potentiels ... 48

2.2.3 Hypothèses et approximations... 49

Bibliographie... 62

3 Influence de la taille des protéines 70 3.1 Introduction... 70

3.2 Dépendance générale en la taille des protéines... 72

3.3 Dépendance dans le cas de paires de résidus spécifiques... 74

3.4 Dépendance à longue distance... 78

3.5 Prise en compte de la taille des protéines... 83

3.5.1 Utilisation de plusieurs bases de données... 83

3.5.2 Définition de fonctions correctives... 84

3.6 Conclusions... 90

Bibliographie... 92

1

(10)

TABLE DES MATIÈRES 2

4 Mise au point de termes de couplage 94

4.1 Introduction... 94

4.1.1 Notre approche... 95

4.1.2 Méthode d’évaluation des performances... 96

4.2 Potentiels locaux...101

4.2.1 Potentiels locaux basés sur les domaines de torsion...101

4.2.2 Potentiels locaux basés sur l’accessibilité au solvant... 106

4.2.3 Potentiels locaux indépendants de la séquence...108

4.2.4 Combinaison des potentiels locaux ...114

4.2.5 Influence des différents paramètres ...116

4.3 Potentiels de distance... 119

4.3.1 Contributions à un corps...120

4.3.2 Contributions à deux corps... 126

4.3.3 Combinaison des potentiels de distance... 131

4.3.4 Influence des différents paramètres ...134

4.4 Combinaison des potentiels locaux et de distance ...135

4.5 Comparaison avec d’autres potentiels... 136

4.6 Conclusions... 141

Bibliographie...145

III Structurations alternatives 149 5 Permutation de domaines 150 5.1 Introduction... 150

5.1.1 Historique et définitions... 150

5.1.2 Mécanismes et aspects énergétiques...151

5.1.3 Importance biologique...154

5.2 Recherche de déterminants de la permutation de domaines... 160

5.2.1 Définition des ensembles de protéines étudiées... 161

5.2.2 Faiblesses structurales selon PoPMuSiC... 162

5.2.3 Faiblesses structurales selon Fugue ...167

5.2.4 Interactions cation-7r...171

5.3 Modulation rationnelle de la permutation de domaines ...176

5.4 Conclusions et perspectives...181

Bibliographie...184

6 Polymérisation de Poi-antitrypsine 192 6.1 Introduction ...192

6.1.1 Mécanisme d’inhibition...192

6.1.2 Conformations alternatives et pathologiques...193

6.2 Identification in silico de mutations modulant la polymérisation...195

6.2.1 Stratégie...196

6.2.2 Modélisation de la forme polymérique... 197

6.2.3 Sélection de mutations candidates... 198

6.3 Caractérisation expérimentale des mutations... 199

6.3.1 Impact des mutations sur la stabilité... 200

(11)

TABLE DES MATIÈRES 3

6.3.2 Impact des mutations sur la propension à polymériser... 201

6.3.3 Impact des mutations sur l’activité biologique... 202

6.3.4 Impact des mutations sur la structure... 204

6.4 Conclusions... 204

Bibliographie...206

IV Conclusion générale 213

7 Conclusion générale 214

V Annexes 218

A Représentation simplifiée des protéines 219

B Bases de données de structures protéiques 222

C Fugue 229

D PoPMuSiC 232

(12)

(première Partie :

Introduction générale

(13)

Chapitre 1

Introduction générale

1.1 Les protéines

Les protéines sont des macromolécules biologiques qui interviennent dans la grande majorité des processus qui régissent le fonctionnement de tout être vivant [1,2]. Les rôles joués par les protéines au sein d’un organisme sont aussi variés que complexes.

Certaines protéines, appelées enzymes, agissent en tant que catalyseurs et augmentent de plusieurs ordres de magnitude, avec une spécificité remarquable, les vitesses des multiples réactions indispensables à la survie de l’organisme. Ce sont également des protéines qui servent au stockage et au transport de petites molécules ou d’ions, qui interviennent dans le processus de la photosynthèse, qui contrôlent le passage de molécules au travers des membranes lipidiques qui délimitent les cellules et leurs compartiments, ou qui, en tant qu’hormones, transmettent l’information et permettent la régulation de processus cellulaires complexes. En outre, diverses protéines - dont notamment les anticorps - sont affectées au système immunitaire et permettent à l’organisme de se défendre contre les intrusions bactériennes ou virales. D’autres assurent la réalisation des nombreuses tâches associées à l’expression du génome ; ouverture de la double hélice d’ADN, transcription en ARN, réparation de gènes endommagés,... Les protéines sont également des composantes majeures des systèmes de conversion d’énergie chimique en énergie mécanique, tels que les muscles. Notons finalement que de nombreuses protéines ont simplement un rôle structural et fournissent l’architecture filamenteuse indispensable à l’organisation des cellules et à la génération de matériaux tels que les os, les cheveux ou les ongles.

Structure primaire

Malgré leur grande diversité fonctionnelle, les protéines constituent une classe de molécules plutôt homogène : toutes sont des polymères linéaires construits à partir de différentes combinaisons des 20 unités de base que sont les acides aminés (occasionnellement, certaines versions modifiées de ces 20 acides aminés sont présentes dans les protéines). La plupart peuvent être formulés de la manière suivante :

R

I

H2N-CaH-COOH

5

(14)

CHAPITRE 1. INTRODUCTION GENERALE 6

L’atome de carbone central est appelé carbone a. A celui-ci sont liés un groupement amine (-NH2), un groupement carboxyle (-COOH) et une chaîne latérale (communément symbolisée par -R). C’est la nature de cette chaîne latérale qui est distinctive de chaque acide aminé, et qui lui procure ses propriétés particulières. Notons que la formule générale ci-dessus souffre une exception. En effet, dans la proline, la chaîne latérale établit un lien avec l’atome d’azote de la chaîne principale. Techniquement, la proline n’est donc pas un acide aminé mais un acide iminé :

H 2

H 2 C CH 2

\ /

HN-CaH-COOH

Dans une protéine, les acides aminés sont liés entre eux par le lien peptidique qui est formé par une réaction de condensation :

R' R2

I I

H2N-CaH-COOH + H2N-CaH-COOH

R' O R2

I II I

H2N-CaH-C-NH-CaH-COOH + H 2 O

Les acides aminés joints aii sein d’une telle chaîne polypeptidique sont généralement appelés résidus (un terme qui fait référence à la perte d’une molécule d’eau lors de la condensation). Le nombre de résidus nécessaire à la génération d’une protéine est fort variable et est compris entre une cinquantaine et plusieurs milliers. L’ordre dans lequel les différents types de résidus se succèdent le long d’une chaîne protéique constitue la structure primaire, ou séquence, de cette protéine. En général, la structure primaire d’une protéine permet de l’identifier sans ambiguité et contient à elle seule toute l’information nécessaire à l’adoption d’une structure spécifique et à l’exécution de sa fonction biologique.

Structure secondaire

Le lien peptidique C-N a un caractère partiel de double liaison, suffisant pour

empêcher une rotation libre autour de ce lien à température physiologique. Les atomes

Ca de deux résidus voisins, ainsi que les atomes intermédiaires C, O, N et H, sont

donc contraints dans un même plan. Cependant, outre les degrés de liberté associés aux

conformations des chaînes latérales, les chaînes polypeptidiques jouissent également d’une

certaine liberté de rotation autour des liens N-C q et C q -C (voir Annexe A). Il en résulte

que le nombre de conformations potentiellement accessibles à un polypeptide d’une

(15)

CHAPITRE 1. INTRODUCTION GENERALE 7

certaine longueur est phénoménal. Parmi cette multitude de possibilités, certains motifs structuraux réguliers sont observés de manière récurrente dans les structures de protéines.

Ces arrangements conformationnels locaux sont regroupés sous la dénomination de structure secondaire.

Les éléments de structure secondaire les plus fréquemment rencontrés dans les protéines sont l’hélice a et le feuillet j3 (Figure 1.1). Un tour d’hélice a correspond à 3.6 résidus et à une translation d’environ 5.4 Â le long du grand axe de l’hélice. Cette conformation permet un empilement quasi-optimal des atomes de la chaîne principale (les chaînes latérales pointent vers l’extérieur de l’hélice), ainsi que la formation d’un pont hydrogène entre l’oxygène carbonyle de chaque résidu et l’hydrogène amide du résidu situé trois positions plus loin. Les feuillets /3 sont constitués de brins qui peuvent être assemblés de manière parallèle ou anti-parallèle. Chaque brin comprend plusieurs résidus consécutifs qui adoptent une conformation étendue et qui établissent des ponts hydrogène avec les résidus des brins voisins.

F

igure

1.1 - Représentation schématique d’une hélice a et d’un feuillet j3. Les chaînes latérales des résidus et les atomes d’hydrogène ne sont pas représentés. Les atomes d’azote sont mis en évidence (gris foncé) et les ponts hydrogène sont schématisés à l’aide de traits pointillés liant l’atome d’oxygène (donneur) à l’atome d’azote (accepteur), (a) Hélice a. (b) Feuillet ^ anti-parallèle.

Outre l’hélice a et le feuillet /5, d’autres motifs structuraux réguliers existent, bien

qu’ils soient beaucoup plus rares. Il s’agit notamment des hélices 3io et tt (caractérisées

(16)

CHAPITRE 1. INTRODUCTION GENERALE 8

par un pas différent de celui de l’hélice a) et des conformations étendues de type polyproline. Notons également que certaines conformations bien définies de quelques résidus consécutifs sont fréquemment associées à des « tournants » entre éléments de structure secondaire.

Structure tertiaire et quaternaire

La plupart des protéines naturelles se reploient pour adopter une conformation tri

dimensionnelle unique appelée structure tertiaire, ou native. Un exemple de structure tertiaire de protéine est proposé en Figure 1.2.a. La représentation schématique « en rubans » permet de cerner aisément l’organisation de la chaîne polypeptidique. Elle est cependant quelque peu trompeuse quant à l’occupation de l’espace : les atomes d’une protéine sont en effet agencés selon un empilement d’une densité remarquable, comparable à celle de cristaux de petites molécules organiques. Un caractère important de la structure tertiaire est qu’elle nécessite l’établissement d’interactions entre des résidus fort éloignés dans la séquence. De telles interactions sont d’ailleurs fréquemment appelées interactions tertiaires.

F

igure

1.2 — Structure tertiaire et quaternaire. Les chaînes protéiques sont représentées schématiquement « en ruhans ». (a) Structure tertiaire, (b) Structure quaternaire.

Cette capacité à adopter une structure spécifique et unique distingue les protéines des polymères aléatoires d’acides aminés. Elle est d’ailleurs généralement indispensable à la réalisation de leurs fonctions biologiques. Ainsi, les sites actifs des enzymes sont typiquement constitués de quelques résidus éloignés dans la séquence et rapprochés les uns des autres lors du reploiement, et c’est souvent la géométrie particulière des résidus alentours qui est responsable de leur spécificité remarquable. Un autre exemple concerne les protéines de transport, telles que l’hémoglobine qui accueille l’oxygène dans une cavité enfouie au sein de sa structure tertiaire.

Dans certains cas, plusieurs chaînes polypeptidiques, identiques ou non, peuvent s’assembler pour former une unité oligomérique. Leur agencement dans l’espace constitue alors la structure quaternaire, dont un exemple est proposé en Figure 1.2.b.

Remarquons que nous nous limitons dans ce travail au cadre des protéines dites

globulaires, qui sont pour la plupart solubles dans le cytosol, et dans l’eau. Au contraire.

(17)

CHAPITRE 1. INTRODUCTION GÉNÉRALE 9

les protéines fibreuses - dont le rôle est essentiellement structural - s’organisent en agrégats insolubles constitués de très nombreux monomères. Les protéines membranaires présentent également des propriétés particulières qui les distinguent des protéines globulaires, et qui leur permettent de s’adapter à l’environnement hydrophobe de l’intérieur des membranes, dans lequel leurs structures sont partiellement plongées.

1.2 Le reploiement des protéines

Plusieurs dizaines de milliers de séquences protéiques sont encodées dans le génome humain. A quelques exceptions près, chacune adopte une structure bien définie qui lui permet d’accomplir sa fonction biologique. Si certaines de ces structures sont fort similaires, elles peuvent tout de même être classifiées en environ un millier d’architectures fondamentalement distinctes. Le reploiement est donc un processus extrêmement spécifique [3,4].

Le reploiement est également un processus particulièrement efficace. In vivo, chaque protéine doit en effet trouver rapidement sa structure native, fonctionnelle, parmi d’innombrables conformations alternatives, et ce au sein d’un environnement cellulaire surpeuplé (à titre d’exemple, la concentration en macromolécules dans un cytoplasme bactérien typique approche les 350 mg/ml). Diverses protéines, appelées chaperons, ont pour mission d’assister le reploiement d’autres protéines dans ces conditions difficiles, et d’empêcher leur agrégation (pour des revues voir [5-11]). L’existence de telles protéines semble indiquer que la séquence d’une protéine ne contient pas forcément toute l’information nécessaire à la génération de sa structure native. Cependant, il a été constaté que de nombreuses protéines sont capables de se reployer spontanément in vitro, dans l’eau et en absence de toute autre espèce moléculaire.

Le paradoxe de Levinthal

La première observation de reploiement spontané et réversible in vitro a été réalisée par Anfinsen au début des années 60 [12,13]. Cette observation est à l’origine d’une idée largement acceptée dans le domaine, selon laquelle la structure native d’une protéine correspond généralement à sa conformation d’énergie libre minimale, du moins dans des conditions environnementales appropriées.

Mais si le reploiement des protéines est effectivement sous contrôle thermodynamique, une question judicieuse est de savoir comment une protéine peut trouver, en un temps raisonnable, sa structure de plus basse énergie parmi le nombre astronomique de conformations possibles. A titre d’exemple, une protéine de 100 résidus peut adopter 2100 10^*^) conformations distinctes, si l’on suppose que seulement deux conformères sont accessibles à chaque résidu. Si le passage d’une conformation à une autre est réalisé en 10“^^ secondes (ce qui correspond au temps nécessaire pour la rotation autour d’une liaison), il faudrait à la protéine au minimum 10^^ secondes, c’est-à-dire environ trois milliards d’années, pour « tester » toutes les conformations possibles. Les protéines arrivent pourtant à retrouver leurs structures natives dans un laps de temps qui est de l’ordre de la milliseconde à la seconde.

L’apparente incompatibilité entre ces faits, relevée initialement par Levinthal au cours

d’une conférence en 1969 [14], a été rapidement érigée en paradoxe et a fait couler

(18)

CHAPITRE 1. INTRODUCTION GÉNÉRALE 10

énormément d’encre depuis lors [15-17]. Pourtant, Levinthal donna immédiatement la solution, évidente, de son « paradoxe » : les protéines n’explorent pas l’intégralité de leur espace conformationnel, et il faut donc que leur reploiement soit « guidé », par exemple via la formation rapide de certaines interactions qui seraient déterminantes pour la suite du processus. Reste bien entendu à éclaircir les détails.

Intermédiaires de reploiement et modèles phénoménologiques

Dès le début des années 70, les développements des techniques expérimentales ont progressivement permis d’étudier, avec de plus en plus de détail, les événements qui se déroulent au cours du reploiement. En particulier, l’observation et la caractérisation d’intermédiaires de reploiement (pour des revues, voir par exemple [18-22]) a conforté l’idée selon laquelle les protéines suivraient un nombre restreint de chemins lors de leur reploiement.

Divers modèles théoriques ont également été élaborés afin d’expliquer la rapidité étonnante du reploiement des protéines. Parmi ceux-ci, le modèle de diffusion-collision propose un mécanisme de reploiement hiérarchique qui permet de réduire drastiquement l’espace conformationnel à explorer [23-27]. Le reploiement se jouerait dans un premier temps au niveau de microdomaines de la protéine, de fragments de séquence suffisamment petits pour être capables d’explorer rapidement l’entièreté de leur espace conformation

nel. Les mouvements par diffusion et les interactions établies entre les petites unités structurales ainsi formées mènerait alors à la formation de domaines plus conséquents et finalement à l’assemblage de la structure complète. En revanche, selon le modèle de nucléation-condensation [28-31], des fragments isolés de protéines ne bénéficient pas d’une stabilité suffisante pour peupler significativement les états correspondants à leurs conformations natives. La stabilisation de ces conformations nécessite l’établissement d’interactions tertiaires, entre résidus éloignés dans la séquence. L’étape limitante du processus de reploiement serait alors la formation d’un noyau de reploiement, caractérisé par un certain nombre de contacts natifs établis entre des résidus clés. Une fois ce noyau formé, les fragments adjacents adopteraient rapidement leur structure native au contact de celui-ci. Citons également le modèle de l’effondrement hydrophobe [32-34], selon lequel la tendance des résidus hydrophobes à se regrouper pour éviter tout contact avec l’eau aurait une influence prépondérante au cours des premiers instants du reploiement. Un état compact non-spécifique serait alors rapidement atteint, et la recherche de la structure native au sein de cet ensemble réduit de conformations pourrait être réalisée en un temps raisonnable.

Bien que chacun de ces différents modèles puisse s’appuyer sur un certain nombre de résultats expérimentaux, il est apparu qu’aucun d’entre eux n’est suffisamment général pour expliquer l’ensemble des observations réalisées au sujet du reploiement des protéines.

Par ailleurs, l’existence de protéines qui se reploient très rapidement sans peupler aucun état intermédiaire [35-37] ne permet pas non plus de prêter, de manière générale, un rôle décisif à de tels états.

Paysage énergétique

Au cours des années 90, une « nouvelle vue » du reploiement des protéines s’est

développée [39-52]. Une des caractéristiques principales de cette nouvelle vue est qu’elle

(19)

CHAPITRE 1. INTRODUCTION GÉNÉRALE 11

Entropie

<--->

F

igure

1.3 - Représentation schématique du paysage énergétique d’une protéine. La forme en entonnoir du paysage énergétique résulte du fait que les interactions natives sont pour la plupart favorables, au contraire des interactions non-natives. Ceci implique que l’énergie des conformations diminue lorsque la similarité avec la structure native augmente. L’énergie associée à l’axe vertical inclut certaines contributions entropiques (notamment le gain d’entropie du solvant résultant de l’enfouissement de résidus hydrophobes). L’entropie dite conformationnelle, liée au nombre de conformations caractérisées par une énergie donnée, correspond à la largeur de l’entonnoir (Figure adaptée à partir de [38]).

se focalise sur la description globale du paysage énergétique des protéines - c’est-à-dire

la représentation multi-dimensionnelle de l’énergie libre des différentes conformations

en fonction de leur similarité avec la structure native. Le reploiement est considéré

comme une organisation progressive d’un ensemble de conformations (partiellement)

déployées, selon une multitude de voies qui suivent les courbes d’un paysage énergétique

en forme d’entonnoir {folding funnel), dont le fond correspond à l’état natif (Figure 1.3).

(20)

CHAPITRE 1. INTRODUCTION GENERALE 12

C’est cette forme particulière du paysage énergétique qui permet aux protéines d’évoluer rapidement en direction de leur structure native, quelque soit leur conformation initiale, plutôt que d’errer indéfiniment à la recherche de ce minimum global d’énergie libre.

Remarquons que si le paysage énergétique en forme d’entonnoir semble être une caractéristique générale des protéines, il n’en va pas de même pour n’importe quelle séquence d’acides aminés. Selon le principe de frustration minimale, la séquence d’une protéine naturelle aurait été optimisée au cours de l’évolution de manière à ce que les interactions établies au sein de la structure native soient le moins possible conflictuelles, et à garantir en conséquence un reploiement rapide et efficace [40,53].

Ainsi, au sein d’une protéine « idéale » dont le paysage énergétique est un entonnoir parfait, chaque interaction native contribue de manière équivalente à la stabilisation de la structure native, et toutes les interactions non-natives sont déstabilisantes [51]. Dans ce cas, l’énergie diminue presque linéairement lorsque la similarité avec la structure native augmente (Figure 1.4). Notons que nous utilisons ici le terme « interaction » dans un sens très large, et que l’énergie dont nous parlons inclut toutes les contributions à l’énergie libre à l’exception de l’entropie conformationnelle, qui reflète le nombre de conformations associées à une énergie donnée. Cette entropie conformationnelle diminue elle aussi lorsque la similarité avec la structure native augmente (Figure 1.4). Typiquement, la perte d’entropie conformationnelle est plus franche au début du reploiement qu’à la fin : lorsque de nombreux contacts natifs sont déjà formés, en former un nouveau ne restreint pas beaucoup plus les mouvements possibles de la chaîne.

Il est évident que la manière dont l’énergie et l’entropie conformationnelle se compensent dépend fortement de la température. Au dessus d’une certaine température (la température de reploiement Tr) la perte d’entropie nécessaire à la formation de la structure native devient dominante et l’état natif est donc instable. A des températures proches de Tr, l’état natif est généralement séparé de l’état déployé par une barrière énergétique qui correspond à un état de transition (Figure 1.4).

Bien entendu, les protéines naturelles ne correspondent pas à des paysages énergétiques en forme d’entonnoir parfait. Le fait que la perte d’entropie conformationnelle puisse être plus ou moins importante selon l’interaction native créée, ainsi que l’existence d’interactions natives défavorables et la possibilité d’établir des interactions non-natives favorables, induisent une certaine ruguosité de la surface de l’entonnoir (Figure 1.3) et peuvent expliquer l’observation de certains chemins préférés (avec par exemple une formation primitive de certains éléments de structure secondaire, ou un effondrement hy

drophobe rapide) et d’intermédiaires de reploiement. Cette nouvelle vue du reploiement des protéines ne remet donc pas forcément en question les modèles et théories énoncés auparavant, mais procure plutôt un cadre général dans lequel il est en principe possible d’interpréter les particularités des mécanismes de reploiement de chaque protéine.

Le reploiement des grandes protéines

Il est important de remarquer que la plupart des études théoriques du reploiement des

protéines se limitent au cas des petites protéines. Le reploiement des grandes protéines

et des protéines multimériques [54,55] peut suivre des voies nettement plus complexes,

difficilement interprétables dans le cadre d’un entonnoir de reploiement unique. Il

implique généralement le reploiement individuel de certaines parties, ou domaines, de

(21)

CHAPITRE 1. INTRODUCTION GÉNÉRALE 13

F

igure

1.4 - Profil énergétique (ID) du reploiement d’une protéine dans un entonnoir

« parfait ». L’énergie, l’entropie conformationnelle et l’énergie libre de reploiement sont données en fonction de la similarité avec la structure native. Cette similarité est généralement quantifiée à l’aide d’une coordonnée réactionnelle telle que le nombre de contacts natifs ou la compacité de la structure.

Les lettres D, T et N indiquent l’état dénaturé, l’état de transition et l’état natif, respectivement.

La variation de l’énergie libre de reploiement résulte de la compensation imparfaite de l’énergie et de l’entropie conformationnelle. Elle est représentée ici à une température légèrement inférieure à la température de reploiement (Figure adaptée à partir de [51]).

la protéine, et éventuellement le reploiement de certains domaines au contact d’autres domaines déjà reployés.

1.3 Modifications conformationnelles

Outre leur capacité à adopter une structure bien spécifique avec une rapidité

remarquable, il est apparu que les protéines naturelles sont pour la plupart fort tolérantes

envers les mutations de leurs séquences. Si l’on néglige les petites variations autour d’une

structure donnée, l’espace des séquences est bien plus étendu que celui des structures

natives de protéines, et de larges ensembles de séquences protéiques correspondent à

des conformations de plus basse énergie fort similaires. Pendant de nombreuses années,

il a été supposé que les séquences des protéines naturelles sont situées au milieu de ces

ensembles, et que de nombreuses mutations sont nécessaires à déstabiliser leurs structures

natives et à en favoriser d’autres. Ceci est d’ailleurs assez compréhensible en regard du

(22)

CHAPITRE 1. INTRODUCTION GENERALE 14

principe de frustration minimale énoncé précédemment : modifier la nature d’un résidu d’une protéine peut altérer son paysage énergétique, mais la forme en entonnoir de ce paysage reflète un biais dominant envers la structure native et implique que l’éventuelle nouvelle structure d’énergie minimale sera généralement fort similaire à l’ancienne.

Un contre-exemple est connu de longue date : il s’agit d’une mutation ponctuelle Glu^Val dans la séquence de l’hémoglobine, qui entraîne la formation d’agrégats fibreux à l’origine du développement d’un certain type d’anémie {sickle cell anémia) [56-59]. Cependant, il s’agissait encore récemment d’un cas isolé. Ces dernières années, le nombre de protéines connues pour être sujettes à d’importantes réorganisations conformationnelles suite à une (ou quelques) mutation(s) s’est considérablement accru. A titre d’exemple, au sein de la protéine homodimérique répresseur ARC, les deux brins /?

situés dans la région N-terminale de chaque sous-unité forment un feuillet P anti-parralèle (Figure 1.5.a). Il a été montré qu’un double mutant de cette protéine, où les résidus Asn et Leu en positions 11 et 12 dans la séquence, respectivement, sont interchangés, adopte une structure au sein de laquelle ces deux brins P sont remplacés par de courtes hélices (Figure 1.5.b) [60,61]. Curieusement, lorsque le résidu Asn en position 11 est remplacé par une leucine mais que le résidu Leu en position 12 est conservé, la protéine mutante est capable d’adopter les deux conformations, et semble donc constituer une sorte d’intermédiaire de l’évolution [62].

F

igure

1.5 - Modification conformationnelle du répresseur ARC suite à deux mutations dans sa séquence, (a) Structure native du répresseur ARC sauvage (code PDB : larr). (b) Structure adoptée par le double mutant Asnll—^Leu, Leul2->Asn du répresseur ARC (code PDB : Iqtg).

En outre, il est apparu que certaines protéines peuvent subir de profondes modifica

tions structurales et être ainsi à l’origine de diverses maladies, dites conformationnelles,

telles que les encéphalopathies spongiformes ou la maladie d’Alzheimer [63-67]. Les

événements déclencheurs de ces bouleversements conformationnels ne sont pas toujours

très clairs. Dans les cas héréditaires, une mutation a généralement pour effet de faciliter

la transition vers le conformère pathologique. Ainsi, plus de 20 mutations ponctuelles de

la protéine du prion humaine responsables de maladies du prion héréditaires sont connues

à ce jour [68]. Les modifications structurales à l’origine de maladies conformationnelles

peuvent également affecter des protéines de séquences sauvages, par exemple suite à

l’exposition à certaines conditions environnementales particulières (T°, pH, radicaux

libres, ...). Notons que les maladies du prion sont assez particulières à ce niveau car elles

(23)

CHAPITRE 1. INTRODUCTION GÉNÉRALE 15

peuvent aussi avoir une origine infectieuse : il semble que le conformère pathologique (dit scrapie) puisse induire la modification conformationnelle de protéines du prion

« saines » [68].

Des modifications conformationnelles majeures peuvent également être intimement liées à la réalisation de la fonction biologique. Ainsi, il a été observé que certaines toxines bactériennes adoptent des structures non-natives qui leur permettent de tra

verser les membranes lipidiques [69]. Un autre exemple concerne les protéines de la famille des serpines, qui inhibent l’activité d’autres protéines à l’aide d’un mécanisme particulièrement élaboré sur lequel nous reviendrons au Chapitre 6 [70-74]. Dans un registre quelque peu différent, relevons également l’existence de nombreuses protéines, dites « nativement déployées » [75-77], qui ne se structurent pas, ou peu, ou uniquement au contact de certaines (macro)molécules spécifiques. La flexibilité hors norme des chaînes polypeptidiques de ces protéines est indispensable à l’exécution de leur fonctions biologiques.

Ces diverses indications de la flexibilité conformationnelle des protéines, relevées ponr la plupart assez récemment, ont forcé la remise en question d’un certain nombre d’idées reçues, ou plutôt d’espoirs, concernant le reploiement des protéines. Il est donc fort délicat aujourd’hui d’affirmer que chaque protéine possède une structure tri-dimensionnelle unique, qui correspond à un minimum global d’énergie libre. Ces hypothèses restent néanmoins valables pour de larges gammes d’applications et sont donc encore d’usage courant. Bien qu’elle ait rendu obsolètes certaines vieilles croyances, et sérieusement compliqué le problème de l’étude théorique des protéines, la découverte de cette flexibilité conformationnelle a également guidé la recherche vers de nouveaux domaines, comme en témoigne par exemple le Paracelsus Challenge dont l’objectif est la conception de protéines qui partagent une importante identité de séquence mais adoptent des structures tri-dimensionnelles fort differentes [78]. Par ailleurs, il a été suggéré que les modifications conformationnelles de protéines - qu’elles soient associées à la fonction biologique saine ou au développement de maladies - peuvent représenter un mécanisme général d’activation et présenter en conséquence de nombreuses perspectives d’application en ingénierie moléculaire [79].

1.4 Etude in silico des protéines

Depuis qu’il a été mis en évidence que la plupart des protéines adoptent des conformations spécifiques et bien définies, d’innombrables projets de recherche ont été consacrés à l’étude théorique du reploiement des protéines, et à la mise au point de méthodes visant à prédire la structure native d’une protéine ou à concevoir des séquences compatibles avec une structure donnée. L’ambition de cette section est de donner au lecteur un bref aperçu de l’état de l’art dans ce domaine, et de mettre en évidence les difficultés fréquemment rencontrées dans ce type de recherches, sans pour autant revendiquer un caractère exhaustif [80].

1.4.1 Les fonctions d’énergie

Toutes les applications mises au point dans le but d’étudier les protéines in

silico nécessitent l’utilisation d’une fonction énergétique capable d’évaluer l’adéquation

(24)

CHAPITRE 1. INTRODUCTION GÉNÉRALE 16

entre une séquence et une structure données. La conception d’une telle fonction est naturellement d’une importance primordiale. En effet, même dotée d’un brillant algorithme de recherche dans l’espace conformationnel, aucune méthode de prédiction des structures natives de protéines n’arrivera à ses fins si elle est basée sur une fonction énergétique incapable de discriminer les structures natives parmi d’autres.

Comme nous l’avons vu précédemment, les protéines sont généralement caractérisées par une stabilité marginale (quelques kcal/niole) qui résulte de la compensation d’importantes contributions enthalpiques et entropiques. La grande difficulté inhérente à la définition d’une fonction d’énergie adéquate réside donc dans le besoin d’une grande précision, difficilement compatible avec la nature complexe du processus de reploiement et avec les limitations associées aux systèmes informatiques disponibles.

Deux classes majeures de fonctions énergétiques ont été élaborées dans le domaine. 11 s’agit des potentiels semi-empiriques et des potentiels statistiques. Notons que certaines approches hybrides, combinant ces deux types de potentiels, ont également été décrites [81,82].

Potentiels semi-empiriques

Les potentiels semi-empiriques prennent la forme d’expressions analytiques décrivant les différentes interactions rencontrées dans les protéines, dont les paramètres sont ajustés à partir de calculs de mécanique quantique ou de résultats expérimentaux obtenus sur de petites molécules [83-87]. Il est évident que la précision avec laquelle les diverses interactions sont décrites dépend de manière cruciale de la paramétrisation de ces fonctions. Beaucoup d’efforts ont donc été consacrés à cet aspect du développement de potentiels semi-empiriques [86]. Un autre caractère délicat de cette approche concerne le choix d’une description adéquate du solvant. La prise en compte explicite d’un nombre suffisant de molécules d’eau induirait en effet une augmentation considérable de la complexité du système modélisé. En conséquence, divers modèles implicites, dans lesquels les molécules d’eau sont substituées par un milieu continu, ont été élaborés [88].

Bien qu’ils ne soient que des approximations des « vrais » potentiels, les potentiels semi-empiriques présentent l’avantage de correspondre à des interactions bien définies auxquelles des significations physiques claires peuvent être associées. Le prix à payer est que ces potentiels doivent nécessairement être combinés avec une description détaillée - au niveau atomique - des protéines. Leur utilisation est donc généralement très coûteuse en termes de temps de calcul. Remarquons également que ces potentiels ne considèrent pas la contribution de l’entropie (à l’exception de celle liée au solvant, selon le modèle choisi pour la description de celui-ci).

Potentiels statistiques

Une alternative séduisante aux potentiels semi-empiriques est incarnée par les

potentiels statistiques, qui sont dérivés de bases de données de protéines dont les

structures natives sont connues. Deux approches peuvent être envisagées pour extraire

des potentiels de bases de données de ce type. La première consiste à imposer une

expression analytique dont les paramètres sont optimisés de manière à obtenir un

écart énergétique important entre des structures natives de protéines et des ensembles

de structures alternatives [89-102]. Dans la seconde, les potentiels sont dérivés des

(25)

CHAPITRE 1. INTRODUCTION GÉNÉRALE 17

fréquences relatives d’observation de petits éléments de séquence et de structure (pour des revues, voir [103-111]). Lorsque le formalisme utilisé se place dans le cadre de la mécanique statistique, ces fréquences peuvent être converties en énergie libre. Nous aborderons ces potentiels en détail dans le chapitre suivant.

Au contraire des potentiels semi-empiriques, les potentiels dérivés de bases de données de structures protéiques peuvent être aisément adaptés à n’importe quelle représentation (plus ou moins simplifiée) de la structure des protéines, et ils incluent certaines contributions entropiques. Cependant, malgré les nombreux succès obtenus grâce aux potentiels de ce type, leur signification physique assez nébuleuse est à l’origine de fréquentes remises en question de leur validité [104,112-116].

Potentiels de Gô

Parmi les autres types de fonctions énergétiques existantes, relevons l’existence de potentiels ultra-simplifiés, dits « de Gô » en référence à l’auteur qui est à l’origine de la première approche de ce type [30]. Ces potentiels sont basés sur l’idée que les interactions non-natives ne contribuent pas significativement à la forme globale du paysage énergétique. C’est-à-dire qu’ils supposent en quelque sorte que le reploiement des protéines suit une surface de potentiel en forme d’entonnoir parfait, chaque interaction native formée correspondant à un pas vers le fond de cet entonnoir. Typiquement, les potentiels de Gô sont indépendants de la séquence, et sont composés d’un terme attractif lié à la formation de contacts natifs et d’un terme entropique non nul pour les résidus qui ne sont pas dans leur conformation native.

De tels potentiels ne sont naturellement pas exploitables pour prédire la struc

ture d’une protéine donnée, ou pour concevoir une séquence compatible avec une certaine structure. Comme nous le verrons en Section 1.4.3, ces fonctions énergétiques drastiquement simplifiées permettent néanmoins de reproduire qualitativement, voire quantitativement, certains aspects du reploiement des protéines.

1.4.2 Prédiction de la structure native

Pour pouvoir comprendre comment une protéine fonctionne, et éventuellement être capable d’agir sur les processus cellulaires dans lesquels elle intervient, il est indispensable de connaître sa structure. De nombreuses structures natives de protéines ont été déterminées expérimentalement - essentiellement par cristallographie aux rayons X ou par résonance magnétique nucléaire (pour des revues voir [117-122]) - et repértoriées dans une base de données accessible à tous, la Protein Data Bank (PDB) [123].

Cependant, l’application de ces techniques expérimentales consume un temps non-

négligeable et le nombre de séquences protéiques connues à ce jour est beaucoup plus

important que le nombre de structures résolues. Cet écart continue d’ailleurs à se creuser

rapidement. La conception de méthodes permettant de prédire la structure d’un protéine

à partir de sa séquence est donc un problème dont les enjeux sont majeurs, et qui fascine

de nombreux scientifiques depuis plusieurs décennies. Diverses pistes ont été suivies dans

le but résoudre ce problème, élémentaire en principe mais extrêmement complexe en

pratique.

(26)

CHAPITRE 1. INTRODUCTION GÉNÉRALE 18

Modélisation comparative et reconnaissance de structure

A l’heure actuelle, les approches qui permettent d’obtenir les meilleurs résultats sont la modélisation comparative et la reconnaissaiice de structure. Toutes deux sont néanmoins dépendantes de l’existence de protéines dont les structures sont connues et qui présentent une certaine similarité de séquence ou de structure avec la protéine cible.

La modélisation comparative est basée sur le fait que les protéines qui partagent un certain degré d’identité de séquence adoptent généralement des structures similaires.

Cette méthode consiste donc en l’identification de protéines présentant une importante identité de séquence avec la protéine cible, et en l’utilisation des structures de ces protéines en tant que modèles pour reconstruire la structure inconnue (pour des revues voir [124-129]).

La reconnaissance de structure fait quant à elle usage d’une librairie de structures protéiques. La séquence de la protéine cible est enfilée successivement sur chacune des structures de la librairie, et un critère énergétique est mis à contribution afin d’isoler les meilleures associations séquence-structure (pour des revues voir [130-135]). L’existence de protéines dont la structure est résolue et qui exhibent une forte identité de séquence avec la protéine cible n’est donc pas indispensable à l’exécution de cette méthode.

Néanmoins, aucun résultat correct ne peut être espéré si la structure à prédire ne présente pas, ou peu, de similarités avec certaines structures incluses dans la librairie.

Prédiction ab initio

La prédiction de structure ab initio est l’approche la plus générale, mais aussi la plus exigeante. Elle permet en principe de prédire des structures ne présentant aucune similarité avec des structures connues. L’appelation ab initio indique ici que la prédiction de structure ne nécessite, comme données initiales, que la séquence de la protéine ainsi qu’une fonction d’énergie.

Les approches de ce type, comme d’ailleurs les méthodes de reconnaissance de structure, sont traditionnellement basées sur l’hypothèse selon laquelle la structure native d’une protéine correspond au minimum global d’énergie libre, et reposent donc sur diverses techniques visant à localiser ce minimum. La validité de cette hypothèse ayant été récemment remise en question par un certain nombre d’observations (voir Section 1.3), il est devenu délicat d’attribuer aux prédictions ab initio une généralité sans limites. En fait, ces méthodes peuvent être réparties en deux catégories : celles qui tentent de reproduire le processus de reploiement et qui ont donc une chance d’aboutir à l’état natif même s’il ne correspond pas au minimum global d’énergie libre, et celles qui se concentrent sur la recherche de ce minimum et dont l’intérêt est forcément limité à un sous-ensemble de protéines « simples ». Notons cependant que les connaissances concernant les mécanismes de reploiement des protéines sont encore relativement restreintes et qu’il est donc difficile d’évaluer dans quelle mesure une méthode donnée reproduit correctement ces mécanismes.

Discrétisation et hiérarchisation

Avec une représentation détaillée des protéines et des fonctions d’énergie précises,

il est parfaitement impossible de mener à terme une recherche exhaustive de l’espace

(27)

CHAPITRE 1. INTRODUCTION GENERALE 19

conformationnel, même pour de petites protéines. Des simplifications drastiques sont donc nécessaires afin de rendre la prédiction de structure envisageable.

Les représentations discrètes des structures protéiques sont fort utiles pour réduire la taille de l’espace conformationnel. On distingue généralement les représentations sur réseau (lattice) et hors réseau (off-lattice). Les modèles hors réseau reposent généralement sur la restriction, à certaines valeurs bien définies, des angles de torsion de la chaîne principale 4> et xj) (voir Annexe A) [136,137]. Depuis les premiers modèles de réseaux bi-dimensionnels mis au point pour étudier le reploiement des protéines [138], d’énormes progrès ont été réalisés dans la conception de réseaux tri-dirnensionnels caractérisés par des nombres de coordination élevés et qui permettent de modéliser plus précisément les structures protéiques et leurs particularités [139-142]. Les modèles sur réseau ont l’avantage d’être nettement plus faciles à manipuler que les modèles hors réseau de complexité équivalente : ils nécessitent moins de temps de calcul et tiennent compte automatiquement de certains effets de volume exclu. Cependant, les restrictions angulaires inhérentes aux modèles sur réseau les rendent moins réalistes, et il est souvent nécessaire d’introduire un biais pour forcer la formation de structures secondaires. Il a d’ailleurs été montré qu’à complexité équivalente, la qualité de la reproduction d’une structure cristallographique est bien meilleure avec un modèle hors réseau [143].

Une approche assez courante qui permet d’éviter de longues errances dans l’espace conformationnel consiste à envisager la prédiction de structure de manière hiérarchique.

Une possibilité est de commencer par identifier les éléments de structure secondaire qui composent la protéine et de les assembler par la suite en un modèle tri-dimensionnel, à l’aide de certaines règles de reploiement garantissant une organisation réaliste de ces éléments [144-148]. Plutôt que de se concentrer sur les structures secondaires, d’autres méthodes divisent la protéine cible en petits fragments [149-152]. La génération de la structure complète résulte alors de l’assemblage des conformations de plus basses énergies de ces fragments. La limitation majeure de ces procédures concerne le taux de succès relativement faible (environ 70 % [153, 154]) des méthodes de prédiction de structure secondaire ou, plus généralement, des méthodes de prédiction structurale qui ne tiennent pas compte des interactions entre résidus distants dans la séquence.

Certains développements récents de procédures hiérarchiques ont néanmoins permis d’obtenir des résultats particulièrement encourageants, notamment grâce à la conception de techniques d’assemblage qui autorisent certaines modifications des conformations locales précédemment établies [155,156].

L’ambition de certaines approches hiérarchiques est de donner un sens physique à la division en fragments de la protéine dont la structure doit être prédite [137,157]. Ainsi, si une région d’une protéine est capable de se reployer et d’adopter sa structure native en l’absence du reste de la protéine, il est parfaitement légitime de commencer par prédire la structure de cette région avant de se confronter à la protéine dans son entièreté.

Naturellement, un des défis inhérents à cette approche concerne l’identification et la localisation de ces régions de reploiement autonome [158].

Techniques d’exploration de l’espace conformationnel

Même si l’étendue de l’espace conformationnel peut être considérablement réduite

grâce à sa discrétisation et à l’utilisation de procédures hiérarchiques, localiser le

minimum global d’énergie libre en évitant de rester bloqué dans des minima locaux

(28)

CHAPITRE 1. INTRODUCTION GÉNÉRALE 20

est une tâche ardue qui nécessite l’application de techniques efficaces d’exploration de l’espace conformationnel. Nous nous limiterons ici à quelques exemples de méthodes de ce type, choisies parmi les plus couramment utilisées ou les plus intéressantes.

La dynamique moléculaire repose sur l’intégration numérique des équations de mouvement de Newton pour les différents atomes de la protéine. Cette méthode permet en principe d’aboutir à une trajectoire classique reliant l’état déployé à l’état natif [159, 160]. Cependant, le caractère approximatif de la description du solvant et des paramètres semi-empiriques définissant les fonctions énergétiques (voir Section 1.4.1), couplé à l’intégration sur de longues périodes de temps, peut induire des déviations importantes par rapport au déroulement réel du reploiement. Par ailleurs, cette technique est extrêmement coûteuse en terme de temps de calcul : l’échelle de temps accessible est de l’ordre de la nanoseconde à la microseconde, tandis que le temps nécessaire au reploiement d’une protéine réelle se situe plutôt entre la milliseconde et la seconde [37,161,162]. Les travaux de prédiction de structure par dynamique moléculaire ont donc été essentiellement limités à l’étude de peptides, et il est assez improbable que cette méthode puisse, dans un futur proche, être couramment appliquée à des protéines de taille moyenne. Nous verrons toutefois, en Section 1.4.3, que des procédures de dynamique moléculaire peuvent être utilisées pour étudier le processus de reploiement lorsque la structure native est connue.

Une des techniques les plus populaires de simulation du reploiement des protéines est la méthode de Monte Carlo [163]. Un avantage, conséquent, de cette méthode par rapport à la dynamique moléculaire est qu’elle peut être utilisée en combinaison avec des représentations discrètes (sur ou hors réseau) des structures protéiques et des fonctions énergétiques simplifiées. La simulation par Monte Carlo procède par itérations au départ d’une structure quelconque. A chaque itération, une petite modification aléatoire est apportée à la structure et soumise au critère de Metropolis : la nouvelle structure est acceptée avec une probabilité P = min (1, exp[—A£'/A:r]), où AE est la différence d’énergie entre la nouvelle structure et la dernière structure acceptée, et k est la constante de Boltzmann. Un inconvénient de cette technique est que les simulations restent fréquemment bloquées dans des minima locaux d’énergie. Afin d’y remédier, les méthodes de Monte Carlo sont souvent associées à une procédure de recuit simulé [164], qui consiste en une diminution graduelle de la température au cours de la simulation.

Ainsi, à haute température, les barrières d’énergie sont aisément franchies et une large portion de l’espace conformationnel peut être parcourue. Lorsque la température décroît, la simulation converge vers un minimum, que l’on espère global. Notons que, si l’on peut associer un sens physique aux modifications qui mènent d’une structure à une autre, les trajectoires obtenues peuvent également fournir des informations concernant le processus de reploiement.

Plusieurs variantes des méthodes de Monte Carlo ont également été développées

afin d’améliorer leur efficacité [165]. A titre d’exemple, citons celles qui reposent sur

les statistiques généralisées de Tsallis [166-168] : le critère de Metropolis est remplacé

par un autre critère énergétique, qui permet de moduler les probabilités de passage

des barrières énergétiques. Une autre approche prometteuse est basée sur l’idée que les

conformations qui ne peuvent être atteintes en un temps raisonnable ne devraient pas

être considérées [169]. Cette condition cinétique a été traduite en restrictions sur les

modifications conformationnelles acceptables, à l’aide de modèles de diffusion.

(29)

CHAPITRE 1. INTRODUCTION GÉNÉRALE 21

Il existe de nombreuses autres techniques de recherche de la conformation de plus basse énergie, moins courantes mais non sans intérêt pour autant. Parmi elles, les algorithmes génétiques procèdent à partir de populations constituées de structures diverses, qui sont soumises à un schéma évolutif pour converger finalement, en principe, vers la structure native [170-173]. Les générations successives de structures sont créées via des modifications des conformations de quelques résidus ou des combinaisons de plusieurs structures parentes. Le critère de Métropolis est appliqué afin d’accepter, ou de rejeter, les structures qui constituent chaque nouvelle génération. Les procédures de recherche exhaustive intelligente reconstruisent la structure séquentiellement, par additions successives de résidus. Dès que la conformation de la chaîne protéique ne respecte plus certaines contraintes, géométriques et/ou énergétiques, l’algorithme fait marche arrière [174-176]. Un autre exemple d’approche intéressante est le difficilement traduisible Convex Global Underestimator [177,178], dont le dessein est la reconstruction du paysage énergétique, à l’aide d’une parabole multi-dimensionnelle, sur la base de l’échantillonage aléatoire d’un nombre restreint de conformations. Cette méthode semble être capable de localiser assez rapidement le minimum global d’énergie libre pour de petites protéines.

1.4.3 Etude du reploiement

Les résultats expérimentaux obtenus dans le cadre de l’étude du reploiement des protéines sont communément interprétés sur la base de modèles macroscopiques à deux états (D N, où D correspond à l’état dénaturé et N à l’état natif), ou à plusieurs états si des intermédiaires (I) sont pris en compte (D^I^N, D;=^:

Il ^ I2 ^ ... ^ In ^ N,...) [37]. Les quantités obtenues expérimentalement, qui en général peuvent être honorablement reproduites par de tels modèles, représentent des moyennes sur de nombreuses conformations individuelles des chaînes protéiques, et ne fournissent pas d’informations au niveau microscopique, comme par exemple l’ensemble de conformations qui constituent l’état dénaturé ou les états intermédiaires. En revanche, les simulations in silico du reploiement des protéines tentent généralement de décrire les événements moléculaires qui induisent la formation de la structure native d’une chaîne protéique isolée. En conséquence, établir un lien entre les simulations réalisées au niveau microscopique et les observations expérimentales macroscopiques est une tâche délicate.

Il est donc souvent fort difficile de valider les résultats d’études théoriques du reploiement autrement qu’à l’aide de comparaisons qualitatives plutôt grossières.

Points de comparaison entre simulations et expériences

La vitesse de reploiement est l’un des paramètres qui peuvent à la fois être mesurés

expérimentalement et, en principe, extraits de simulations du reploiement. Néanmoins,

étant donné qu’une protéine peut suivre une multitude de chemins entre l’état dénaturé

et l’état natif, la vitesse de reploiement est déterminée par la forme du paysage

énergétique dans son ensemble, et sa prédiction est donc loin d’être évidente. Nous verrons

toutefois qu’il est apparu que la cinétique de reploiement des petites protéines semble

essentiellement déterminée par un nombre restreint de caractéristiques structurales, et

qu’un certain espoir de résoudre ce problème est donc permis.

Disponible à / Available at permalink :

- - -

- - -

Dépôt Institutionnel de l’Université libre de Bruxelles / Université libre de Bruxelles Institutional Repository

Thèse de doctorat/ PhD Thesis Citation APA:

Disponible à / Available at permalink : https://dipot.ulb.ac.be/dspace/bitstream/2013/211040/12/d6e415e8-3386-435f-a3e8-44c2fcbfe428.txt

(English version below)

Cette thèse de doctorat a été numérisée par l’Université libre de Bruxelles. L’auteur qui s’opposerait à sa mise en ligne dans DI-fusion est invité à prendre contact avec l’Université ([email protected]).

Dans le cas où une version électronique native de la thèse existe, l’Université ne peut garantir que la présente version numérisée soit identique à la version électronique native, ni qu’elle soit la version officielle définitive de la thèse.

Le nom des auteurs, le titre et la référence bibliographique complète soient cités;

L’identifiant unique attribué aux métadonnées dans DI-fusion (permalink) soit indiqué;

Le contenu ne soit pas modifié.

--- English Version ---

This Ph.D. thesis has been digitized by Université libre de Bruxelles. The author who would disagree on its online availability in DI-fusion is invited to contact the University ([email protected]).

If a native electronic version of the thesis exists, the University can guarantee neither that the present digitized version is identical to the native electronic version, nor that it is the definitive official version of the thesis.

The authors, title and full bibliographic details are credited in any copy;

The unique identifier (permalink) for the original metadata page in DI-fusion is indicated;

The content is not changed in any way.

It is not permitted to store the work in another database in order to provide access to it; the unique identifier (permalink) indicated above must always be used to provide access to the work. Any other use not mentioned above requires the authors’ or copyright owners’ permission.

032 GJ

Vniversité Liôre de (BnvçeCCes TacuCté des Sciences JippCiquées

(DéveCoppement de potentiels statistiques pour rétude in siCico de protéines et anaCyse de

structurations aCternatives

^ves (Defiouc^ - AvnC 2005

THèse ptéamtée en vue de CoBtention du grade de (Docteur en Sciences Appliquées

Tdtèse : Dr. Marianne (Rpoman

Vniversité LiSre cCe (BrwçeCCes TacuCté des Sciences dLppCiquées

(DéveCoppement de potentiels statistiques pour Cétude in siCico de protéines et anaCyse de

structurations aCternatives

‘Yves <Defiouc^ - JlvriC 2005

Yhèse présentée en vue de CoStention du grctde de <Docteur en Sciences JLppCiquées

(Directrice de Yhèse : (Dr. ‘Marianne (Rpoman

Cette thèse est un travaiCpersonneCdans un sens...

‘ECCe est néanmoins Ce fruit d’interactions muCtipks, de rencontres, de coCùihorations,

‘Et de nombreuses discussions, parfois entêtées mais toujours enrichissantes.

Je tiens tout naturellement, mais aussi tout particuCièrement, à remercier sincèrement

Marianne, (Pour ta disponihiCité, tes muCtipCes aides, conseils et encouragements.

Jlu-delà de tes qualités scientifiques incontestables et de ton optimisme résolu, L'intérêt sincère que tu manifestes vis-à-vis des personnes qui travaillent avec toi.

Et ta volonté de créer un environnement de travail où chacun a son mot à dire (et le dit).

Sont des caractéristiques de ta personnalité qui m’ont impressionnées.

Ce sont, je pense, de réelles qualités de « chef», (Dans le sens le plus honorable de ce terme que tu n’aimes sans doute pas beaucoup.

(Dimitri, Malgré ton implication dans une unité douteuse de scouts Schaerbeehpis,

‘Ta capacité à inlassablement répondre à mes questions plus ou moins stupides, (Pafois même à inlassablement m'écouter répondre seul à mes questions plus ou moins stupides.

Et ta bonne humeur inébranlable, ont fait de toi le meilleur collègue de bureau imaginable.

Christophe, Comment ne pas s’incliner devant f homme qui a vu (R-S., (D’autant qu’il est ma foi (Une reste rien d'autre) de fort agréable compagnie.

Intellectuellement engagé, mais tout de même intelligent.

Et puis, comme dirait je ne sais plus qui... il faut combattre ces maladies... trouver un remède !

Jean Marc, Monsieur "li, fidèle compagnon des petites pauses nicotine, et grand manitou des ordinateurs.

Particulièrement indispensable en ces temps de post-déménagement.

Philippe pour Caccueilcha!eurew(^(voire festif) dans son service et dans ses labos, iJUcole et Jlrlette sans qui bien des choses se révéleraient nettement plus compliquées.

Mile ‘ToHey etjachy Lievin, membres de mon comité d’accompagnement, Jacques (prisse et Kjistin Partih^pour avoir accompagné mes débuts dans h recherche,

‘Cincent ‘Rgussens pour son aide et sa patience, Stephen P. Pottomley et toute son équipe, (DirhjDehouch^pour ses illustrations,

Jlinsi que tous ceu\ que je n 'ai pas cité mais qui ont participé de près ou de loin à ce travail et/ou à Cambiance agréable dans hquede U a été réalisé.

Je pense en particulier auy^ locataires et ey^-locataires du P2, de ClJ(D5 et, plus récemment, de CV(D3.

Sans oublier ma famille et mes amis.

Pour tout le reste, ce qui a de Cimportance et ce qui n 'en a pas.

Je tiens également à eoqmmer ma reconnaissance envers I T.%,I.Ji., Qui m’a fait confiance et m’a accordé son soutien financier pour h réalisation de cette thèse.

Et pour finir, j’envoie un petit sourire à Cautre.

C’est juste pour rire... mais ça ne fera de mal à personne.

TeeC the sunsHine on yourface — It ’s in a computer now Çone in the future — ^ay out in space

((BCur- Out oftime)

Résumé

Le premier aspect de notre travail concerne le développement de potentiels sta­

tistiques dérivés de bases de données de protéines dont les structures sont connues.

Le deuxième aspect de notre travail concerne l’application de programmes basés sur des potentiels statistiques à l’étude de protéines qui adoptent des structures alternatives.

La permutation de domaines est un phénomène qui affecte diverses protéines et qui

implique la génération d’un oligomère suite à l’échange de fragments structuraux

entre monomères identiques. Nos résultats suggèrent que la présence de "faiblesses

structurales”, c’est-à-dire de régions qui ne sont pas optimales vis-à-vis de la stabilité de

la structure native ou qui présentent une préférence marquée pour une conformation

non-native en absence d’interactions tertiaires, est intimement liée aux mécanismes

de permutation. Nous avons également mis en évidence l’importance des interactions

de type cation-7r, qui sont fréquemment observées dans certaines zones clés de la

permutation. Finalement, nous avons sélectionné un ensemble de mutations susceptibles

de modifier sensiblement la propension de diverses protéines à permuter. L’étude

expérimentale de ces mutations devrait permettre de valider, ou de raffiner, les hypothèses

que nous avons proposées quant au rôle joué par les faiblesses structurales et les

interactions de type cation-7r. Nous avons également analysé une autre protéine soumise

à d’importants réarrangements conformationnels : l’ai-antitrypsine. Dans le cas de cette

protéine, les modifications structurales sont indispensables à l’exécution de l’activité

Le premier aspect de notre travail concerne le développement de potentiels sta