Disponible à / Available at permalink :

(1)

- - -

Dépôt Institutionnel de l’Université libre de Bruxelles / Université libre de Bruxelles Institutional Repository

Thèse de doctorat/ PhD Thesis Citation APA:

Folch, B. (2010). Etude bioinformatique de la stabilité thermique des protéines: conception de potentiels statistiques dépendant de la température et développement d'approches prédictives (Unpublished doctoral dissertation). Université libre de Bruxelles, Faculté des Sciences – Ecole Interfacultaire des Bioingénieurs, Bruxelles.

Disponible à / Available at permalink : https://dipot.ulb.ac.be/dspace/bitstream/2013/210106/14/f03c3666-ea67-4234-99ad-9669e0ce521b.txt

(English version below)

Cette thèse de doctorat a été numérisée par l’Université libre de Bruxelles. L’auteur qui s’opposerait à sa mise en ligne dans DI-fusion est invité à prendre contact avec l’Université (di-fusion@ulb.ac.be).

Dans le cas où une version électronique native de la thèse existe, l’Université ne peut garantir que la présente version numérisée soit identique à la version électronique native, ni qu’elle soit la version officielle définitive de la thèse.

DI-fusion, le Dépôt Institutionnel de l’Université libre de Bruxelles, recueille la production scientifique de l’Université, mise à disposition en libre accès autant que possible. Les œuvres accessibles dans DI-fusion sont protégées par la législation belge relative aux droits d'auteur et aux droits voisins. Toute personne peut, sans avoir à demander l’autorisation de l’auteur ou de l’ayant-droit, à des fins d’usage privé ou à des fins d’illustration de l’enseignement ou de recherche scientifique, dans la mesure justifiée par le but non lucratif poursuivi, lire, télécharger ou reproduire sur papier ou sur tout autre support, les articles ou des fragments d’autres œuvres, disponibles dans DI-fusion, pour autant que :

Le nom des auteurs, le titre et la référence bibliographique complète soient cités;

L’identifiant unique attribué aux métadonnées dans DI-fusion (permalink) soit indiqué;

Le contenu ne soit pas modifié.

L’œuvre ne peut être stockée dans une autre base de données dans le but d’y donner accès ; l’identifiant unique (permalink) indiqué ci-dessus doit toujours être utilisé pour donner accès à l’œuvre. Toute autre utilisation non mentionnée ci-dessus nécessite l’autorisation de l’auteur de l’œuvre ou de l’ayant droit.

--- English Version ---

This Ph.D. thesis has been digitized by Université libre de Bruxelles. The author who would disagree on its online availability in DI-fusion is invited to contact the University (di-fusion@ulb.ac.be).

If a native electronic version of the thesis exists, the University can guarantee neither that the present digitized version is identical to the native electronic version, nor that it is the definitive official version of the thesis.

DI-fusion is the Institutional Repository of Université libre de Bruxelles; it collects the research output of the University, available on open access as much as possible. The works included in DI-fusion are protected by the Belgian legislation relating to authors’ rights and neighbouring rights.

Any user may, without prior permission from the authors or copyright owners, for private usage or for educational or scientific research purposes, to the extent justified by the non-profit activity, read, download or reproduce on paper or on any other media, the articles or fragments of other works, available in DI-fusion, provided:

The authors, title and full bibliographic details are credited in any copy;

The unique identifier (permalink) for the original metadata page in DI-fusion is indicated;

The content is not changed in any way.

It is not permitted to store the work in another database in order to provide access to it; the unique identifier (permalink) indicated above must always be used to provide access to the work. Any other use not mentioned above requires the authors’ or copyright owners’ permission.

(2)

D 03711 LIBRE DE BRUXELLES

Faculté des Sciences

Ecole Interfacultaire de Bioingénieurs Faculté des Sciences appliquées

Etude bioinformatique de la stabilité thermique des protéines :

conception de potentiels statistiques dépendant de la température et développement d’approches prédictives

Benjamin Folch

Thèse présentée en vue de l’obtention du grade de Docteur en Sciences agronomiques et Ingénierie biologique

Directrice de thèse : Marianne Rooman

Service 3BIO - Unité de Bioinformatique Génomique et Structurale Université L: bre d e Bruxelles

(3)

ULB UNIVERSITE LIBRE DE BRUXELLES

y^r//o

Faculté des Sciences

Ecole Interfacultaire de Bioingénieurs Faculté des Sciences appliquées

Etude bioinformatique de la stabilité thermique des protéines :

conception de potentiels statistiques dépendant de la température et développement d’approches prédictives

Composition du jury Pr. Christophe Biot

Benjamin Fokh Pr. Marianne Rooman

Pr. Raphaël Guerois Pr. René Wintjens Pr. Tom Lenaerts Secrétaire : Pr. Dimitri Gilis Président : Pr. Philippe Bogaerts

Thèse présentée en vue de l’obtention du grade de Docteur en Sciences agronomiques et Ingénierie biologique

Directrice de thèse : Marianne Rooman

Service 3BIO - Unité de Bioinformatique Génomique et Structurale

(4)

Marianne, J'ai l'impression que c'était hier quand tu m'as demandé si je songeais à faire une thèse,

moi,... une thèse, ... moi !! ...une THESE !! Pfff... à d'autres ! je dirais que je me suis laissé tenter, j'y ai même mordu à pleine dents.

Il n'empêche, c'est pas toujours rose (et al.) une thèse, surtout avec mon humeur versatile.

Les chemins sinueux que j'explore m'ont souvent piégé dans des minima locaux, et tu m'en as sorti plus d'une fois ! Ce fut un bon petit bout de chemin tout de même.

Toutes ces discussions, ces conseils, ces encouragements ! Quelle énergie ! quel optimisme sans faille et quelle source de connaissance !

je pense que je n'arriverais jamais assez à te remercier, ni pour l'encadrement de cette thèse ni pour ton soutien moral ...un air de Brassens peut-être?

Yves, à quoi bon le développement de réseaux de neurones

puisque tu seras toujours à des kilomètres devant ? J'ai adoré bosser avec toi.

Ton calme face à mes tentatives d'explications biscornues me sidère, ton sourire complice et tes vannes subtiles lâchées à demi mot sont divines merci pour ton aide inestimable, tes remarques sont toujours empruntes d'une objectivité et sont d'une justesse...

mieux que le meilleur des co-prontoteurs ! cette thèse est sans conteste un beau travail d'équipe, merci à vous deux.

Dimitri, toujours de bonne humeur et prêt à rendre le moindre service, à participer à l'activité la plus invraisemblable ... à quand la prochaine bière home-made ? JMK, The Master System Man ! Pfff... je n'ose même pas imaginer le nombre de petites astuces que j'ai apprises à tes

côtés. PERL, PyMol, Gnuplot, XmGrace, et j'en passe ! J'aurais toujours un dromadaire à mes côtés, promis ! Philippe, toujours overbooké mais toujours prêt à répondre à la moindre question.

Merci pour ta gentillesse, ton accueil chaleureux, et ta patience ai'ec un zouave comme moi... Merci chef ! En parlant de zouaves je ne peux m'empêcher de penser aux 2 chercheurs du cinquième.

Vivement un petit weekend réparateur, causette, jeux de cartes, de bons petits plats... et de la TchikBio ! parés pour de nouvelles aventures ? Un grand merci à Arlette, Jean-Louis et Nathalie ... trio de choc ! c'est très agréable de vous avoir sous la main, merci pour tous les petits services, ... petits ... petits ...

Jaro, Niu, tbanks again for your help when I moved ! Merci à tous ceux du service, votre compagnie m'est fort agréable.

Je tiens à remercier tous ceux qui m'ont entouré, supporté, amis, famille, j'ai une chance incroyable, même si je ne m'en rends pas toujours compte.

Merci à mes poulets, mes poulettes, mes cochons, mes biches, mes marmottes, mes poussins.

Merci à mes parents ... j'ai toujours une chanson à vous faire partager !

Je remercie également le F.R.I.A. de m'avoir soutenu financièrement pendant 4 années ainsi que la Fondation Héger-Massa pour la bourse qu'elle m'a octroyée

Merci à Ronnie Cuber, Gerry Mulligan, Gary Smulyan Sonny Rollins, Stan Getz

Ron Gilbert, que de beaux rêves à vivre, revivre et à accomplir ...

A quand l'arrivée du printemps selon vous ?

(5)

Résumé

Cette thèse de doctorat s’inscrit dans le cadre de l’étude in silico des relations qui lient la séquence d’une protéine à sa structure, sa stabilité et sa fonction. Elle a pour objectif de permettre à terme la conception rationnelle de protéines modifiées qui restent actives dans des conditions physico-chimiques non physiologiques. Nous nous sommes plus particulièrement penchés sur la stabilité thermique des protéines, qui est définie par leur température de fusion Tm au-delà de laquelle leur structure n’est thermodynamiquement plus stable. Notre travail s’articule en trois grandes parties : la recherche de facteurs favorisant la thermostabilité des protéines parmi des familles de protéines homologues, la mise sur pied d’une base de données de protéines de structure et de déterminées expérimentalement, de laquelle sont dérivés des potentiels statistiques dépendant de la température, et enfin la mise au point de deux outils bioinformatiques visant à prédire d’une part la Tm d’une protéine à partir de la Tm de protéines homologues et d’autre part les changements de thermostabilité d’une protéine (ATm) engendrés par l’introduction d’une mutation ponctuelle.

La première partie a pour objectif l’identification des facteurs de séquence et de structure (e.g. fréquence de ponts salins, d’interactions cation-7i...) responsables des différentes stabilités thermiques de protéines homologues au sein de huit familles (chapitre 2). La spécificité de chaque famille ne nous a pas permis de généraliser l’impact de ces différents facteurs sur la stabilité thermique des protéines. Cependant, cette approche nous a permis de constater la multitude de stratégies différentes suivies par les protéines pour atteindre une plus grande thermostabilité.

La deuxième partie concerne le développement d’une approche originale pour évaluer l’influence de la température sur la contribution de différents types d’interactions à l’énergie libre de repliement des protéines (chapitres 3 et 4). Cette approche repose sur la dérivation de potentiels statistiques à partir d’ensembles de protéines de thermostabilité moyenne distincte.

Nous avons d’une part collecté le plus grand nombre possible de protéines de structure et de Tm déterminées expérimentalement, et d’autre part développé des potentiels tenant compte de l’adaptation des protéines aux températures extrêmes au cours de leur évolution. Cette méthode originale a mis en évidence la dépendance en la température d’interactions protéiques tels les ponts salins, les interactions cation-7t, certains empilements hydrophobes ... Elle nous a en outre permis de mettre le doigt sur l’importance de considérer la dépendance en la température non seulement des interactions attractives mais également des interactions répulsives, ainsi que sur l’importance de décrire la résistance thermique par la Tm plutôt que la Te„v, température de l’environnement de l’organisme dont elle provient (chapitre 5).

La dernière partie de cette thèse concerne l’utilisation des profils énergétiques dans un but prédictif. Tout d’abord, nous avons développé un logiciel bioinformatique pour prédire la thermostabilité d’une protéine sur la base de la thermostabilité de protéines homologues. Cet outil s’est avéré prometteur après l’avoir testé sur huit familles de protéines homologues.

Nous avons également développé un deuxième outil bioinformatique pour prédire les changements de thermostabilité d’une protéine engendrés par l’introduction d’une mutation ponctuelle, en s’inspirant d’un logiciel de prédiction des changements de stabilité

(6)

thermodynamique des protéines développé au sein de notre équipe de recherche. Ce deuxième algorithme de prédiction repose sur le développement d’une grande base de données de mutants caractérisés expérimentalement, d’une combinaison linéaire de potentiels pour évaluer la àTm, et d’un réseau de neurones pour identifier les coefficients de la combinaison.

Les prédictions générées par notre logiciel ont été comparées à celles obtenues via la corrélation qui existe entre stabilités thermique et thermodynamique, et se sont avérées plus fiables.

Les travaux décrits dans notre thèse, et en particulier le développement de potentiels statistiques dépendant de la température, constituent une nouvelle approche très prometteuse pour comprendre et prédire la thermostabilité des protéines. En outre, nos travaux de recherche ont permis de développer une méthodologie qui pourra être adaptée à l’étude et à la prédiction d’autres propriétés physico-chimiques des protéines comme leur solubilité, leur stabilité vis-à-vis de l’acidité, de la pression, de la salinité ... lorsque suffisamment de données expérimentales seront disponibles.

(7)

Table des Matières

Introduction

Chapitre 1... 5

1.1 Les protéines... 7

1.2 La stabilité thermodynamique des protéines... 12

U La thermostabilité des protéines... 16

1.4 Stratégies de thermostabilisation... 21

1.5 Méthodes prédictives de la résistance thermique des protéines... 25

1.5.1 Prédiction de la thermostabilité à partir d’observations réalisées sur des protéines homologues . 26 1.5.2 Prédiction de la thermophilicité à partir du gène codant... 26

1.5.3 Prédiction de la thermophilicité à partir de la séquence d’acides aminés... 26

1.5.4 Prédiction de la thermorésistance sur la base d’un moment dipolaire électrique... 27

1.5.5 Prédiction des changements de thermostabilité à partir des changements de stabilité thermodynamique... 27

1.5.6 Prédiction directe des changements de thermostabilité... 28

1.6 Applications industrielles de protéines psychro- et thermostables... 30

1.7 Notre travail...33

Recherche de facteurs favorisant la thermostabilité des protéines Chapitre 2... 35

2.1 Défînition de huit familles de protéines homologues... 36

2.2 Facteurs de séquence et de structure...38

2.2.1 Les ponts hydrogène...38

2.2.2 Les ponts disulfures... 39

2.2.3 Les ponts salins... 39

2.2.4 Les interactions effectives entre acides aminés hydrophobes... 39

2.2.5 Les interactions aromatiques...39

2.2.6 Les interactions cation-Ji...40

2.2.7 Le pourcentage de structure secondaire... 40

2.2.8 La composition en acides aminés... 40

23 Méthodes d’identification des différents facteurs... 41

2.4 Résultats... 44

2.4.1 Variation de la composition en acides aminés... 44

2.4.2 Acylphosphatase...45

2.4.3 Adénylate kinase...46

2.4.4 a-Amylase...47

2.4.5 « Cold Shock Protein »...47

2.4.6 Cytochrome P450... 48

2.4.7 Glycoside hydrolase (Endoglucanase 12A)... 49

2.4.8 Lysozyme... 50

2.4.9 Myoglobine...50

2.5 Discussion...52

(8)

Méthodes et outils développés en vue de l’étude de la dépendance en la température d’interactions protéiques

Chapitre 3... 55

3.1 Bases de données de protéines... 56

3.1.1 Bases de données de protéines sauvages...56

3.1.2 Conception de groupes de protéines sauvages de thermostabilité distincte...59

3.1.2.1 Conception des groupes... 60

3.1.2.2 Conception des groupes... 61

^(4)BD4 [249] 3.1.2.3 Conception des groupes... 62

^(2)r„ ^(2)t;„„ [251] 3.1.2.4 Conception des groupeset...63

[250] 3.1.2.5 Conception des groupes... ^"^[249-251] 3.1.3 Génération de séries de groupes aléatoires à partir d’un modèle de division...66

3.1.4 Conception d’une base de données de structures protéiques pour l’étude des géométries [249] d’interaction des ponts salins... 66^52] 3.1.5 Conception d’une base de données de mutants... 67

3.2 Potentiels statistiques... 71

3.2.1 Potentiels de distance... ^^[249 251] 3.2.2 Adaptation de potentiels de distance à l’étude de la thermostabilité des protéines...75

3.2.3 Résolution des profils énergétiques et limites d’occurrences non significatives...77

3.2.3.1 Répartition des distances inter-résidus en intervalles discrets...77

3.2.3.2 Limite du nombre d’occurrences...78

3.2.4 Prise en compte de la taille des chaînes latérales lors de regroupements d’acides aminés [250] similaires...78

3.2.5 Potentiels statistiques adaptés aux interactions cation-Ti... 80

[249] 3.3 Identification des ponts salins et de leurs géométries d’interaction... 82

[249-251] 3.4 Critères d’évaluation d’écarts entre profils énergétiques...84

3.4.1 Ecart énergétique entre les minima d’énergie... 84

3.4.2 Progression entre les profils énergétiques aux minima d’énergie... 85

3.4.3 Surface énergétique globale...85

3.4.4 Surface énergétique locale autour d’un minimum d’énergie...86

3.5 Propension relative d’exposition au solvant d’un résidu...87

Analyse de la dépendance en la température d’interactions protéiques Chapitre 4. 89

4.1 Etude préliminaire de l’influence de la température sur quatre types d’interactions 91 4.1.1 Les contributions à un corps du potentiel de distance... 91

4.1.2 Les interactions effectives entre résidus hydrophobes... 96

4.1.3 Les ponts salins...101

4.1.3.1 Les ponts salins formés avec la lysine... 104

4.1.3.2 Les ponts salins formés avec l’arginine... 107

4.1.4 Les interactions aromatiques... 109

4.1.5 Les interactions cation-Ti... 111

[249] [249] 4.2 Identification des interactions méso- et thermostabilisantes... 114

4.2.1 Les interactions thermostabilisantes... 116

4.2.1.1 Les ponts salins...117

4.2.1.2 Les interactions cation-7C...119

4.2.1.3 Les interactions aromatiques... 121

4.2.1.4 Les interactions entre résidus chargés négativement et résidu aromatiques (W et Y)...122

4.2.1.5 Les interactions entre résidus chargés et de petite taille... 123

(9)

Table des matières

4.2.1.6 Les interactions impliquant les résidus I, C ou M...124

4.2.1.7 Autres interactions thermostabilisantes...126

4.2.2 Les interactions mésostabilisantes...126

4.2.2.1 Les interactions entre résidus polaires non-chargés...127

4.2.2.2 Les interactions entre paires de résidus polaires non-chargés et chargés négativement.... 128

4.2.2.3 Les interactions entre résidus chargés négativement et la phénylalanine...129

4.2.2.4 Les interactions entre paires de résidus polaires non-chargés et résidus de petite taille ou aliphatiques... 129

4.2.2.5 Les interactions entre paires de résidus de petite taille... 130

4.2.2.6 Les interactions entre la leucine et d’autres résidus...131

4.3 Conclusions... 132

Analyse de la corrélation entre la thermostabilité et la thermophilicité des protéines

I

Chapitre 5... 137

5.1 Corrélation entre la thermophilicité et la thermostabilité des protéines... 138

5.2 Impact de l’approximation de la thermostabilité par la thermophilicité : Te„v = T„. 142

Elaboration d'approches de prédiction de la thermostabilité des protéines sur la base de potentiels statistiques Chapitre 6... 145

[250] 6.1 Prédiction de la thermostabilité de protéines homologues...147

[252] 6.2 Prédiction des changements de thermostabilité de mutants...150

6.2.1 Méthodes...150

6.2.2 Résultats... 155

6.2.3 Comparaison avec les estimations obtenues à partir de prédictions des changements de stabilité thermodynamique...156

Conclusions générales et perspectives Chapitre 7... 159

7.1 Conclusions générales...159

7.2 Perspectives... 162

Bibliographie...165

Annexes

Tableau A.l - Liste des champs des différentes tables de notre base de données... 1

Tableau A.2 - Détinition des champs repris dans les tables de notre base de données... 3

Tableau A.3 - Liste des 166 protéines sauvages de BDs... 5

Tableau A.4 - Liste des 1601 et 829 mutants de BD^ et BDg... 9

Tableau A.5 - Détails concernant toutes les interactions thermostabilisantes identifîées... 20

Tableau A.6 - Détails concernant toutes les interactions mésostabilisantes identifiées... 22

Figures A.1-A.55 - Profils énergétiques des interactions thermostabilisantes...24

Figures A.56-A.88 - Profils énergétiques des interactions mésostabilisantes...43

(10)

4

(11)

Chapitre 1 Introduction

« D ’où venons-nous ? »

Voilà l’une des premières questions qui nous effleure l’esprit, qui fait partie de celles que l’on se pose constamment puisque sa réponse nous échappe sans cesse et qui soulève un grand nombre de débats philosophiques et métaphysiques. Pour tenter d’y répondre, nous sommes capables d’une imagination débordante. L’homme. Cette machinerie biologique, biochimique et biophysique complexe capable de concepts abstraits est le fruit de l’ajustement d’un nombre de processus qu’il n’arrive pourtant pas à élucider. Comment tous ces différents procédés se sont-ils accordés pour s’harmoniser et former « cet animal étrange » ? D’où proviennent ces unités primaires qui régissent tous les processus du corps humain ? Quelle est l’origine de la vie ? Les scientifiques qui ne manquent pas de créativité et de persévérance pour tenter de trouver la réponse à cette question, proposent quelques points de vue intéressants. Ceux-ci reposent évidemment sur des hypothèses ... qui somme toute sont parfaitement envisageables.

Les molécules qui sont à l’origine de la vie telle que nous la connaissons peuvent être extraterrestres ou intrinsèques à notre planète Terre. En effet, il est possible qu’elles proviennent de débris de météorites et de comètes qui se seraient écrasés sur la Terre peu après sa formation (panspermie). Cependant, la formation des premières molécules organiques complexes (acides aminés, sucres ...) pourrait également avoir eu lieu sur Terre.

En effet, vers la moitié du XX® siècle les expériences de synthèse prébiotiques menées par Miller et ses collaborateurs ont mis en évidence la formation d’acides aminés simples à partir d’une atmosphère particulière soumise à des chocs électriques Cette atmosphère composée de gaz divers (CH⁴, NH3, H2, H2O...) et les fortes décharges appliquées avaient pour but de reproduire les conditions du climat régnant sur la planète Terre primitive. Ces expériences ont à la base été fortement critiquées à cause de contaminations possibles.

Cependant, celles-ci et d’autres du même type ont été menées récemment et corroborent les résultats originellement observés

Même si de telles molécules ont pu se former sur la Terre (grâce aux diverses compositions et conditions climatiques) ou ont été véhiculées jusqu’à elle par panspermie, comment ces minuscules premières molécules organiques ont fait pour interagir jusqu’à la formation de complexes extrêmement élaborés ? Cette question semble aujourd’hui avoir trouvé des réponses possibles. En effet, certaines expériences ont montré la possibilité de formation de petites vésicules lipidiques capables de former un espace plus confiné Ces vésicules seraient les ancêtres des membranes cellulaires d’aujourd’hui et ont peut-être facilité l’interaction entre deux acides aminés. D’autre peu-t, les surfaces minérales de certaines pierres et argiles sont propices à l’adsorbtion d’acides aminés leur offrant également la possibilité d’interagir. Notons que la formation d’un lien peptidique entre deux acides aminés n’est pas thermodynamiquement favorable dans un milieu contenant beaucoup de molécules d’eau mais que celle-ci se produit spontanément dans un milieu de salinité élevée et en présence d’atomes de cuivre (mécanisme de SIPF ^^^). Ces réactions entre acides aminés pourraient avoir donné

(12)

naissance à de petits peptides primitifs. Ces petits peptides prébiotiques de quelques acides aminés seulement pourraient avoir joué un rôle important dans le développement de la vie si certains d’entre eux sont biologiquement actifs. Ils pourraient alors constituer le chaînon manquant entre les acides aminés et les protéines avant ou pendant le développement de l’ARN^^’^. L’hypothèse du monde de l’ARN souvent mise en avant, suppose qu’avant l’apparition des protéines et des premières molécules d’ADN, l’acide ribonucléique était à lui seul le maître des réactions biochimiques et du stockage de l’information sur la planète Toutefois l’activité enzymatique n’a été démontrée que pour des chaînes d’ARN relativement longues (ribozymes), ce qui ébranle quelque peu cette hypothèse. Une autre hypothèse est qu’il y ait eu coexistence des peptides et de l’ARN dès l’origine de la vie (monde ARN-peptide).

Ce domaine de la science étudiant les prémices de la vie est très délicat puisqu’il est impossible de réaliser des vérifications expérimentales directes. Une étape pour laquelle il n’existe pour ainsi dire pas d’hypothèse, est l’origine du code génétique, qui permet aux molécules d’ADN d’encoder la séquence des peptides puis des protéines aux multiples fonctions biologiques.

(13)

Chapitre 1 — Introduction

« Qui sommes-nous ? »

1.1 Les protéines

La quasi-totalité des réactions biochimiques régissant la vie des organismes de notre planète son perpétrées par de petites entités biologiques appelées protéines Certaines d’entre elles sont plus connues sous le nom d’enzymes et sont responsables de la catalyse de divers substrats. D’autres ont un rôle biologique à jouer au sein d’un organisme vivant qui ne dépend pas de leur capacité à mener à bien une réaction quelconque mais de leur structure particulière. Ainsi, le rôle simplement structural de certaines protéines consiste à foimiir l’architecture filamenteuse indispensable à la génération des os, cheveux ou ongles. D’autres encore sont responsables du transport de petites molécules ou d’ions au travers de la membrane cellulaire, de la régulation de processus cellulaires complexes (hormones), de la reconnaissance d’antigènes intms lors de la réponse immunitaire adaptative (anticorps), de la transcription de l’ADN ... Ces entités mésoscopiques constituent en fait de vraies petites machines qui régissent la quasi-totalité des réactions du monde vivîmt. Leur nombre et leur diversité est gigantesque puisque leurs tâches sont tout aussi multiples et variées bien que leur confection repose sur un alphabet de seulement 20 lettres. En effet, toutes ces macromolécules ont la particularité d’être des polymères d’acides aminés sélectionnés parmi 20 acides aminés de nature différente. Ces maillons de la chaîne protéique sont des acides a-aminés. Dans la nature il en existe plus d’une centaine de différents cependant les protéines ne sont formées qu’à partir des 20 acides aminés suivants : l’alanine (A, Ala), la cystéine (C, Cys), l’acide aspartique (D, Asp), l’acide glutamique (E, Glu), la phénylalanine (F, Phe), la glycine (G, Gly), Thistidine (H, His), l’isoleucine, (I, De), la lysine (K, Lys), la leucine (L, Leu), la méthionine (M, Met), l’asparagine (N, Asn), la proline (P, Pro), la glutamine (Q, Gin), l’arginine (R, Arg), la sérine (S, Ser), la thréonine (T, Thr), la valine (V, Val), le tryptophane (W, Trp) et la tyrosine (Y, Tyr).

Tous ces acides aminés possèdent le même squelette : un groupe carboxyle (-COOH), un groupe amine (-NH2), un atome d’hydrogène et un radical R attachés à un atome de carbone C«. Ce qui les différentie entre eux est le radical particulier de chacun (fîg. 1.1). Ces radicaux R ou chaînes latérales (en comparaison de la chaîne polypeptidique principale) sont de longueur plus ou moins différente et certains possèdent des fonctions chimiques particulières.

De manière générale, les acides aminés peuvent être regroupés selon la nature de leur chaîne latérale. Ainsi les radicaux R hydrophobes conduisent à des acides aminés généralement appelés hydrophobes, ceux portîint un cycle aromatique sont conmiunément appelés acides aminés aromatiques ...

Figure 1.1 - Formule générale d’un acide aminé.

(14)

Le nombre d’acides aminés d’une protéine peut aller d’environ 40 à plusieurs milliers et toute l’information nécessaire à sa fonction biologique et sa structure réside dans l’ordre dans lequel sont distribués ses acides aminés. L’ordre de ces acides aminés est défini dans le code génétique d’un être vivant dans ce qui est communément appelé le protéome (il s’agit de la partie du génome qui après transcription et traduction donne lieu à des protéines). Ces acides aminés se lient les uns aux autres par des réactions de condensation en chaîne entre le groupement carboxylique du premier et le groupement amine du suivant. Lors de cette réaction de condensation, une molécule d’eau est libérée et deux acides aminés sont reliés par un lien peptidique C-N entre eux (fig. 1.2). Les acides aminés ainsi reliés portent le nom de résidus faisant référence aux résidus de la réaction de condensation. Ce sont ces longues chaînes polypeptidiques que l’on nomme protéines. La séquence d’acides aminés de la chaîne principale d’une protéine est communément appelée structure primaire.

Figure 1.2- Réaction de condensation.

A cause de la délocalisation électronique présente autour du lien peptidique C-N formé entre chaque résidu, ce lien se rapproche d’une double liaison. Ce caractère fort marqué en empêche sa libre rotation et place les acides aminés C, N, O et H dans un même plan spatial communément appelé plan peptidique (fig. 1.3).

(15)

Figure 1.3 - Plan peptidiques entre résidus.

Cependant cette chaîne principale n’est pas complètement rigide puisque ces plans peptidiques peuvent s’orienter différemment les uns par rapport aux autres en fonction de deux degrés de liberté. Ces deux degrés de liberté de la chaîne principale sont les angles de torsion (|) (rotation autour du lien N-Ca) et \|/ (rotation autour du lien Ca-C) de ces différents plans peptidiques formés entre les résidus. Par ailleurs l’angle Cù autour du lien peptidique peut prendre deux valeurs distinctes correspondant aux deux arrangements cis et trans d’une double liaison (à savoir : 180° et 0°). Le nombre de conformations accessibles de ces chaînes devient vite gigantesque en augmentant le nombre de résidus. Cependant, certains motifs structuraux comme les hélices ou les feuillets sont récurrents au sein de stmctures protéiques et correspondent à des arrangements particuliers des angles de torsion (|), \|/ et co (fîg. 1.4).

Figure 1.4 - Schéma des motifs structuraux en hélice a et feuillet fi. Figure adaptée de la référence

Les angles de torsion (j), X)/ et O) peuvent être regroupés en domaines de torsion auxquels sont associés ces différents types de motifs structuraux (fîg. 1.5). Ces motifs structuraux constituent la structure secondaire d’une protéine. Ces structures secondaires permettent entre autres la formation de ponts hydrogènes (ponts H) entre les atomes de la chaîne principale. Leur récurrence suggère qu’elles ont une contribution stabilisante au sein des protéines.

(16)

co=180° ü)=0°

4

^>

Figure 1.5- Diagramme de Ramachandran. Ce diagramme reprend les valeurs de <|), \|/ et co les plus représentées au sein des protéines divisées en sept domaines de torsion. Les domaines A et C correspondent aux structures secondaires en hélices a et 3iq. Les domaines B et P correspondent à des structures plus étendues de type feuillet P et conformations de type polyproline. Les domaines G et E correspondent en général à des tournants et le domaine O à une conformation cis autour du lien polypeptidique. Figure adaptée de la référence

Une fois le gène codant pour une protéine entièrement traduit en une séquence d’acides aminés, celle-ci se reploie dans l’espace et adopte une structure tridimensionnelle généralement unique \ L’adoption de sa structure est en général nécessaire au bon fonctionnement de la protéine et lui confère sa fonction au sein de l’organisme. Il existe cependant des protéines naturellement non repliées ou qui ne se replient qu’en contact avec leur ligand ou substrat. D’autre part, certaines subissent des modifications post-traductionnelles Certaines protéines adoptent dans certaines conditions une conformation alternative stable qui les empêche d’atteindre leur structure native. Certaines de ces protéines adoptant de telles conformations alternatives sont la cause de maladies conformationnelles comme par exemple la protéine du prion, responsable de la maladie de Creutzfeld-Jakob A part ces exceptions, la majorité des protéines possèdent une structure native unique. Cette structure tridimensionnelle qu’adopte la protéine est sa structure tertiaire. Au sein de cette structure de nombreuses interactions sont formées. 11 s’agit d’interactions locales entre résidus voisins (comme au sein des motifs structuraux) mais également des interactions tertiaires impliquant des résidus éloignées dans la séquence mais qui une fois la structure 3D adoptée sont proches spatialement. Ces interactions peuvent se former entre les atomes des chaînes latérales ou principales des résidus et peuvent être de nature variée : interactions aromatiques, électrostatiques ou encore des ponts hydrogènes.

Par ailleurs, certaines protéines ne sont pas formées d’une seule chaîne polypeptidique mais de plusieurs qui peuvent être identiques (homo-multimères) ou différentes (hétéro-multimères). Ainsi, la structure quaternaire d’une protéine est définie par la nature, le nombre d’unités peptidiques et leur agencement dans l’espace.

La nomenclature utilisée pour les différents degrés de structure des protéines provient historiquement de la manière hiérarchique dont leur repliement était supposé avoir lieu. En effet, au départ d’un brin d’ADN codant pour une protéine donnée, celui-ci est transcrit en ARN messager puis traduit laissant place à une longue séquence d’acides aminés (structure primaire). Certains domaines de cette longue chaîne polypeptidique étaient supposés adopter

(17)

Chapitre 1 - Introduction

d’abord une structure secondaire, permettant ensuite à ce polymère d’adopter une conformation tridimensionnelle (structure tertiaire), et pour finir, dans certains cas, plusieurs unités polypeptidiques s’agencent entre elles et adoptent une structure quaternaire (fîg. 1.6).

Cependant, ces différents niveaux de structurations ne sont pas adoptés séquentiellement comme il avait été supposé auparavant mais plus ou moins simultanément. En effet, le degré d’accord entre le modèle hiérarchique dépend de la protéine et des conditions expérimentales.

Il n’y a donc pas de hiérarchie temporelle entre ces différentes structures puisque la formation des motifs structuraux et l’adoption d’une structure tridimensionnelle complète ont lieu plus ou moins en même temps. Par ailleurs, le repliement natif d’une protéine peut exiger la modification partielle de diverses structures secondaires.

Structure quaternaire Figure 1.6 - Niveaux de structuration des protéines.

(18)

1.2 La stabilité thermodynamique des protéines

Au cours des années 60, plusieurs expériences ont permis de mettre en évidence que la strueture primaire d’une protéine, sa séquence d’acides aminés, contient toute l’information nécessaire au bon repliement de celle-ci En effet, celle-ci se reploie spontanément in vitro en une structure tridimensionnelle communément appelée structure native. Cependant, au sein d’une cellule, l’encombrement créé par tous les métabolytes présents rend plus difficile le repliement in vivo de certaines protéines (surtout celles de grande taille). Ces protéines font donc en général appel à des confrères capables de les aider à adopter leur structure native. Il s’agit de protéines chaperonnes capables d’isoler les chaînes polypeptidiques non-repliées, partiellement structurées, ou mal repliées afin de leur permettre d’atteindre leur structure native

En outre, les résultats expérimentaux du repliement in vitro de la ribonucléase-A ont montré que le repliement des protéines est sous le contrôle de la thermodynamique ’ \ En effet, cette protéine se replie spontanément et son repliement est réversible. En s’écartant des conditions physiologiques de la protéine, celle-ci se dénature et ne retrouve sa structure native qu’une fois ces conditions rétablies. A partir de eette expérience et d’autres du même type, il est communément admis que le repliement natif d’une protéine correspond à la conformation d’énergie libre minimale adoptée par la chaîne polypeptidique parmi d’autres conformations accessibles. Ce repliement est extrêmement rapide pour de petites protéines globulaires : en quelques millisecondes seulement la séquence d’acides aminés se reploie en une structure (généralement) unique dans l’espace. Ces observations ont amené Levinthal à poser un paradoxe célèbre confrontant le laps de temps gigantesque nécessaire à une chaîne polypeptidique pour explorer l’entièreté de son espace conformationnel et le repliement extrêmement rapide observé expérimentalement. Ce paradoxe révèle qu’une chaîne protéique n’explore pas son espace conformationnel intégralement mais qu’elle suit un ou plusieurs chemins pouvant être guidée par des interactions déterminantes réalisées lors des prémices de son repliement. Ainsi, l’espace conformationnel d’une protéine est souvent représenté corrnne une sorte d’entonnoir abrupt entrainant la protéine vers la conformation native d’énergie libre minimale.

Le système macroscopique fermé à volume constant et pression constante défini par un ensemble de protéines plongées dans un milieu aqueux peut être décrit par l’énergie libre de Gibbs dans une généralisation des conditions standards, correspondant à la protéine solvatée à une pression d’une atmosphère. Celle-ci s’écrit :

G\T) = H\T)-TS\T) (1.1)

Comme le montre cette équation, l’énergie libre de Gibbs G° d’un système s’évalue à l’aide de son enthalpie de son entropie 5® et dépend de la température T du système. De manière générale, les petites protéines globulaires que nous allons étudier dans ce travail ne passent pas par un état intermédiaire et possèdent une transition de type « tout-ou-rien ». Dès lors, une protéine présente deux états distincts (natif et dénaturé) ayant chacun une énergie libre différente. La stabilité thermodynamique d’une protéine est évaluée par son énergie libre de repliement ACf(T), définie par la différence d’énergie libre entre ses états natif (G^ ) et dénaturé (G^) dans des conditions standards à une température T donnée.

AG°(T) = G^(r)-G°(T) (1.2)

(19)

Le premier terme fait référence à la protéine sous sa forme repliée qui est fortement stabilisé par toutes les interactions (effectives) favorables existantes dans sa conformation native (ponts hydrogènes, interactions électrostatiques, effet hydrophobe, interactions de van der Waals ...)* Cependant, en adoptant cette stmcture, la chaîne polypeptidique perd un grand nombre de degrés de libertés conduisant à un terme entropique défavorable. L’énergie libre de Gibbs de l’état dénaturé G^ d’une protéine est essentiellement à l’image de sa grande entropie conformationnelle. En effet, cet état renferme un grand nombre de micro-états correspondant à des conformations protéiques dénaturées séparées par de très faibles barrières énergétiques (fig. 1.7).

Etat Dénaturé (D) Etat Natif (N)

Figure 1.7 - Représentation schématique de l’état natif et l’état dénaturé d’une protéine.

L’état natif (N) correspond à la structure native d’une protéine qui peut être déterminée expérimentalement. L’état dénaturé est un ensemble de conformations non structurées. Cet état renferme un très grand nombre de micro-états séparés par de faibles barrières énergétiques (représentés en pointillés).

Le repliement spontané d’une protéine en sa structure native suggère que dans le système protéine/eau, l’état natif soit plus favorable thermodynamiquement que l’état dénaturé. Ceci ne s’applique pas aux protéines membranaires puisqu’une partie de leur structure s’insère dans les membranes lipidiques mais elles ne seront pas considérées dans ce travail.

Les valeurs de stabilité thermod)mamique des protéines se situent généralement entre -5 et -20 kcal/mole (ce qui est de l’ordre de quelques ponts hydrogènes seulement). De prime abord, la raison pour laquelle les protéines se replient facilement en leur structure native n’est pas évidente compte tenu de la grande entropie conformationnelle que renferme son état dénaturé. L’une des forces majeures conduisant au repliement des protéines est liée à la présence de résidus hydrophobes [>®-'2.27-29] effet, la chaîne polypeptidique d’une protéine dans son état dénaturé met en contact tous ses résidus avec le solvmt. Cependant, certains de ses résidus ont des chaînes latérales très hydrophobes et la solvatation de ces corps hydrophobes immobilise un grand nombre de molécules de solvant. Cette inunobilisation confère une grande perte d’entropie au système et contrebalance en partie la contribution de l’entropie conformationnelle liée aux différentes conformations accessibles de la chaîne polypeptidique non repliée. Afin de réduire cet effet défavorable entre les molécules de solvant et les résidus hydrophobes, ceux-ci ont tendance à se regrouper de manière à minimiser la surface de contact avec le solvant (tout comme une émulsion d’huile dans de

(20)

l’eau évolue naturellement vers une séparation des deux phases liquides, fig. 4.8). Ce phénomène porte le nom d’effet hydrophobe.

Une des hypothèses pour expliquer ces faibles valeurs de stabilité thermodynamique est le lien étroit qui existe entre la stabilité et l’activité des protéines. Une protéine (notamment son site actif) doit être suffisamment flexible pour accomplir sa fonction biologique. La flexibilité intrinsèque d’une protéine lui confère deux propriétés essentielles à son bon fonctionnement : la reconnaissance de sites d’ancrage et dans le cas des enzymes la mobilité nécessaire pour mener à bien la réaction enzymatique. En effet, cette relation entre stabilité et flexibilité est essentielle pour qu’une enzyme puisse se déformer légèrement pour laisser entrer le substrat dans son site actif, accomplir sa fonction et l’en expulser. En ce qui concerne les protéines jouant un rôle purement structural, cette flexibilité leur permet d’être reconnues par d’autres

protéines et/ou de reconnaître leurs sites d’ancrage.

La stabilité thermodynamique d’une protéine ou encore son énergie libre de repliement peut être déterminée expérimentalement par des expériences de dénaturation En effet, elle est évaluée par le rapport des concentrations de la protéine en ces deux états. L’énergie libre de repliement d’une protéine à une température donnée peut s’écrire de la manière suivante :

AG°(r) = -/?rin—

[D] (1.3)

où R est la constante des gaz parfaits, T la température, [N] et [D] sont les concentrations de la protéine dans son état natif et dénaturé respectivement.

Expérimentalement il est possible de calculer la fraction des concentrations d’une protéine dans ses états natifs et dénaturés par des techniques de Dichroïsme Circulaire (DC) et de fluorescence entre autres. La première méthode utilise la particularité des protéines repliées possédant des motifs structuraux capables d’absorber la lumière polarisée alors que l’état dénaturé d’une protéine présente un motif d’absorption bien différent. La deuxième méthode utilise la capacité fluorescente de certains acides aminés (aromatiques) engendrant un profil de fluorescence distinct entre les états replié et dénaturé d’une protéine. Les signaux (S) détectés par ces méthodes expérimentales sont en général mesurés à température fixe (ambiante). Dans des conditions physiologiques, la grande majorité des protéines en solution se retrouvent préférentiellement dans leur état natif. Le signal correspondant à l’infime partie de protéines dénaturées (Su) est difficilement détectable dans ces conditions et la marge d’erreur est trop importante. Dès lors, il est impossible de calculer le rapport [N]/[D] dans des conditions physiologiques, cependant le signal 5n détecté par l’une des méthodes expérimentales dans ces conditions peut être associé au signal de l’état natif de la protéine. En introduisant un dénaturant chimique (e.g. urée), le signal évolue petit à petit vers un signal S^d fixe correspondant au signal de l’état dénaturé de la protéine. En effectuant plusieurs mesures des signaux S a correspondant aux diverses concentrations en dénaturant [d], il est possible d’évaluer les changements du rapport [N]/[D] de la manière suivante :

[N]

[D],

iS,-S^)

^(1.4)

(21)

A l’aide de ces mesures expérimentales, les énergies libres de repliement d’une protéine à différentes doses de dénaturant peuvent être déterminées :

AG“(r) = -RT\n^^^

iS,-S^) (1.5)

La dénaturation de petites protéines globulaires composées d’une seule chaîne polypeptidique se déroule en général en une seule étape sans passer par l’intermédiaire d’un état de transition. Dans de telles conditions, AG” (7) évolue linéairement en fonction de la concentration en dénaturant [rf] (fig. 1.8).

Figure 1.8 - Relation linéaire entre la concentration en dénaturant [d] et la AG” (7).

La pente de la droite mi>N ainsi formée peut dès lors être utilisée pour évaluer l’énergie de repliement d’une protéine en l’absence de dénaturant en réalisant une extrapolation des données

(22)

1.3 La thermostabilité des protéines

La structure native d'une protéine est stable dans une certaine gamme de conditions physico-chimiques qui lui sont propres. Tant que les conditions sont telles que l'énergie libre de l'état natif est inférieure ou égale à celle de l'état dénaturé, la protéine se retrouve préférentiellement dans sa conformation native. L'une des grandeurs physiques influençant clairement l'équilibre entre ces deux états est la température. La courbe de stabilité d'une protéine est d'ailleurs représentée par la variation de son énergie libre de repliement AG” en fonction de la température T (fig. 1.9).

I____________I I____________I____________!____________I____________I I____________I

260 280 300 320 340

r(K)

Figure 1.9 - Courbe de stabilité d’une protéine fictive. La stabilité de cette protéine est évaluée par AG°(7) à température cunbiante (7’=298 K). L’intervalle de température où la structure de la protéine reste stable se situe entre les deux températures de dénaturation à froid et à chaud T„.

En examinant la courbe de stabilité d'une protéine, il est possible d’observer l’intervalle de température dans lequel cette protéine est stable thermodynamiquement. En effet, tant que l’énergie libre de repliement A(f(T) d’une protéine est négative, la conformation native de la protéine est thermodynamiquement plus favorable que sa conformation dans un état dénaturé.

De telles bornes de températures suggèrent que ces macromolécules essentielles à la vie d’un organisme ne peuvent accomplir leur fonction biologique au-delà de ces limites thermiques.

Si tel est le cas, comment se fait-il que les moindres recoins de notre planète Terre soient peuplés d’organismes et/ou micro-organismes ? En effet, il existe beaucoup de biotopes aux températures extrêmes et aux conditions de vie qui paraissent à première vue impossibles.

Cependant, certains organismes ou micro-organismes possèdent des caractéristiques particulières qui leur ont permis de s’adapter à ces conditions extrêmesD’ailleurs peut-on parler d’« adaptation » ? Ce mot implique que les conditions climatiques de notre planète ont évolué, mais de quelle manière ? A quelle température les premiers signes de vie sont-ils apparus ? Quels sont les changements climatiques auxquels ils ont dû faire face ? Ces questions restent sans réponse, bien qu’en général la thèse de la température élevée de la planète Terre primitive soit plus largement acceptée, l’hypothèse de l’émergence de la vie dans des conditions de très faible température ne peut être exclue Que l’apparition de vie sur Terre se soit déroulée dans des conditions thermiques froides, chaudes, extrêmes, aujourd’hui la vie a colonisé la presque totalité de la planète, des profondeurs abyssales aux cimes vertigineuses de l’Everest, des eaux bouillantes des geysers aux banquises gelées de l’antarctique. Une taxinomie à l’image des conditions extrêmes de l’environnement dans lequel se développent ces organismes/micro-organismes les distingue en : halophiles (adaptés

(23)

à des concentrations élevées en sels), acidophiles et alkediphiles (adaptés à des pH faibles et élevés respectivement), barophiles (adaptés aux pressions élevées), thermophiles et psychrophiles (adaptés à des températures élevées et faibles respectivement)... Tous ces organismes/micro-organismes sont regroupés sous la dénomination d’extrêmophiles faisant référence aux caractéristiques extrêmes de leur biotope

En ce qui concerne les organismes/micro-organismes adaptés aux températures extrêmes, il existe une classification largement utilisée les regroupant en fonction de la température de leur habitat

• Psychrophiles (en dessous de 20°C)

• Mésophiles (entre 20°C et 45 °C)

• Thermophiles (entre 45 °C et 80°C)

• Hyperthermophiles (au-delà de 80°C)

La plupart des micro-organismes résistants à des conditions extrêmes de température sont issus d’un groupe particulier aux caractéristiques distinctes : archaea (du grec : archaios, ancien). Identifiés par Cari Woese et ses collègues à l’aide de leurs séquences d’ARN ribosomaux particulières, les archaea ne possèdent pas de noyau et la composition lipidique de leur membrane est très différente de celles des bactéries ainsi que leurs mécanismes de réplication d’ADN Les analyses phylogéniques basées sur les ARN ribosomaux indiquent que les organismes hyperthermophiles des règnes bactérien et archaea sont les plus proches de LUCA (Last Universal Common Ancestor) suggérant qu’ils pourraient avoir retenu des caractéristiques archaïques dans leurs biomolécules et leur métabolisme

Ces micro-organismes adaptés aux températures extrêmes, possèdent des caractéristiques distinctes. Certains micro-organismes thermophiles disposent d’une membrane cellulaire capable de rester imperméable à haute température, d’autres d’un ADN plus résistant à la dénaturation thermique mais avant tout, pour que toutes les réactions biophysiques nécessaires à leur survie soient réalisables, ils disposent de protéines thermorésistantes (thermostables) De même, les organismes psychrophiles renferment des protéines psychrorésistantes (psychrostables) adaptées aux faibles températures et capables de perpétrer leur fonction biologique dans des conditions de température parfois proches de 0°C

La résistance thermique d’une protéine peut être évaluée de plusieurs manières différentes. Deux des descripteurs les plus populaires en ce qui concerne les enzymes sont la température 7% et le temps Le premier est la température à laquelle l'activité diminue de moitié et le deuxième le temps à une température T arbitraire avant que l'activité d'une enzyme ne diminue de moitié. L'inconvénient de ces deux descripteurs est qu'ils ne peuvent s'appliquer qu'aux protéines ayant une activité enzymatique. Un autre descripteur fort populaire et s’appliquant cette fois-ci à tous les types de protéines est la température Tgm correspondant à la température de l’environnement dans lequel se développe le micro-organisme auquel elles appartiennent. En ce qui concerne les protéines issues d’organismes pluricellulaires à sang chaud, leur température Tenv correspond à la température interne de leur hôte. Ce descripteur a l’avantage d’être relativement aisé à déterminer puisqu’il suffit de connaître l’organisme dont est issu la protéine et la température de son habitat ou de son corps. Cependant il n’est pas représentatif de la thermostabilité intrinsèque des protéines. En effet, le corps humain possède des protéines beaucoup plus résistantes que d’autres et pourtant ce descripteur de thermorésistance Tenv leur accorde une résistance thermique identique. Les meilleures grandeurs pour décrire la thermostabilité d’une protéine

(24)

sont sans conteste leurs températures de dénaturation froide et chaude {Jm et Tm, fig- 1-9).

Ces grandeurs thermodynamiques sont propres à chaque protéine et correspondent aux bornes de température inférieure et supérieure du domaine de stabilité thermodynamique de la protéine. A ces deux températures particulières, l’énergie libre de repliement d’une protéine est nulle et la probabilité d’observer la protéine dans son état natif et dénaturé est donc identique. De manière générale c’est la température de dénaturation chaude, ou encore température de fusion Tm qui sert à décrire la stabilité thermique d’une protéine. En effet, l’autre température est difficilement mesurable et observable puisqu’elle se trouve en général en dessous de 0°C. Par rapport aux autres descripteurs, la Tm peut d’une part être déterminée non seulement pour des enzymes mais également pour des protéines sans fonction enzymatique et d’autre part cette température est une grandeur intrinsèque à la protéine et non de son hôte. Cependant la détermination expérimentale de cette valeur n’est pas des plus aisées et plusieurs difficultés peuvent être rencontrées (ex : irréversibilité du procédé causée par l’agrégation des protéines, dépendance en la concentration...). C’est une des raisons pour lesquelles peu de protéines disposent d’une Tm mesurée expérimentalement. H a donc été important par le passé d’utiliser un autre descripteur de cette grandeur et le choix s’est porté sur la Tenv Ces deux descripteurs sont liés puisqu’on général la température de fusion d’une protéine est adaptée à l’habitat de l’organisme dont elle est issue. Cependant il existe plusieurs exceptions et vu le faible nombre de protéines dont la température de fusion est déterminée il serait risqué d’en faire une généralisation. Il est évident que les protéines issues d’organismes hyperthermophiles possèdent une température de fusion supérieures à leur Tem et donc aux Tenv de protéines issues des autres catégories d’organismes mais l’inverse n’est pas forcément vrai. Ainsi, une protéine issue d’un organisme mésophile peut présenter une température de fusion supérieure à la Tenv de protéines issues d’organismes hyperthermophiles. Une forte corrélation entre ces deux grandeurs a été démontrée par le passé à l’aide des quelques représentants de protéines dont la Tm était disponible L’importance de l’utilisation de la Tm plutôt que la Tenv lors de l’analyse bioinformatique de la stabilité thermique des protéines fait l’objet du chapitre 5 de cette thèse.

Les deux stabilités thermique (7^) et thermodynamique (AG°(r)) sont reliées entre elles puisque AG°(7)„)=0 mais il s’agit bien de deux grandeurs physiques différentes. Cette relation est complexe et deux protéines ayant à température ambiante la même stabilité thermodynamique AG°(298 K) peuvent posséder des résistances thermiques fort différentes (fm). Qui plus est, une protéine peut avoir une AG°(298 K) élevée mais une Tm moins grande qu’une protéine ayant une AG°(298 K) plus faible, comme illustré à la figure 1.11. D’ailleurs le coefficient de corrélation de la régression linéaire entre ces deux grandeurs à partir d’un petit échantillon de protéines est très faible (section 6.1). Ce faible coefficient est lié à la diversité de structures, de composition et de thermostabilités que les protéines présentent et augmente lorsque l’on considère uniquement des protéines homologues issues d’une même famille.

D est possible d’écrire des relations mathématiques dans le cadre de certaines approximations entre ces deux grandeurs. Le système fermé en équilibre à température, pression et volume constants d’une protéine plongée dans un solvant se décrit par la différence d’énergie libre de Gibbs AG°(7) entre ses états natif et dénaturés G^ (eq. 1.2).

En utilisant la définition de cette fonction d’état de l’équation 1.1 il vient :

AG" (T) = A// ° (r) - 7A5 ” (r) (1.7)

(25)

OÙ AI^ÇT) est la variation enthalpique entre l’état natif et dénaturé de la protéine qui est essentiellement liée aux contributions des interactions présentes dans la structure native (interactions coulombiennes, de van der Waals, ...), A5°(T) est la variation entropique entre l’état natif et dénaturé de la protéine essentiellement lié à la grande entropie conformationnelle de l’état dénaturé et à l’effet hydrophobe.

Sachant qu’à la température de fusion Tm, l’énergie de repliement d’une protéine est nulle, l’équation 1.7 à cette température s’écrit :

AG\TJ = 0 = AH\TJ-T„AS\TJ

(

1

.

8

)

où Aff(Tm) et A5°(rm) sont respectivement les variations d’enthalpie et d’entropie du système à la température de fusion Tm-

Supposer que les grandeurs entropiques et enthalpiques n’ont aucune dépendance en la température revient à faire varier linéairement ACf(T) avec la température. Ce comportement n’est clairement pas celui observé expérimentalement (fig. 1.9). Par ailleurs la dénaturation de protéines en solution présente un changement de capacité calorifique. Ainsi, la chaleur nécessaire à fournir pour augmenter d’un degré une solution de protéines dénaturées est plus importante que lorsqu’elles sont repliées. Dès lors, à une température T donnée il vient :

AS‘’(7’) = AS\TJ + (1.9)

où le changement de capacité calorifique observé entre l’état natif et dénaturé est représenté par ACp, Cp étant la capacité calorifique à pression constante définie comme :

Cp(T) =

(

1

.

10

)

L’équation de la courbe de stabihté d’une protéine s’écrit dès lors : r

AG°{T) = AH\TJ 71-f V T

1 I

+ ^ACp(T)dT-T JACpiT)_{PK- /}

(

1

.

11

)

A ce stade il est possible de faire l’hypothèse que la variation de capacité calorifique associée à la dénaturation protéique est indépendante de la température T. Dès lors les variations d’enthalpie et d’entropie ainsi que la stabilité thermodynamique d’une protéine peuvent être décrites par :

AH\T) = AH\TJ + ACpiT-TJ AS'^iT) = A5“(T; ) + ACp In

/■ J. ^

T

(

1

.

12

)

(1.13)

(26)

(1.14) AG\T) = AH\TJ T -T

*m /

-ACJT^-T 1-ln f rjf ^

Ces relations mathématiques sont capables de reproduire la forme parabolique légèrement arrondie des courbes de stabilités protéiques mesurées expérimentalement et sont en général utilisées pour déterminer les paramètres thermodynamiques (Alf(Tm) et AI^(Tm)) du système.

Le scanning calorimétrique différentiel (SCD) permet d’étudier les transitions induites thermiquement comme le changement de conformation des macromolécules (fîg. 1.10). Cette technique mesure la capacité calorifique du système en fonction de la température Lors de la dénaturation d’une protéine, de nombreuses interactions sont brisées libérant une grande quantité de chaleur. Avec cette technique il est possible d’évaluer la température de fusion (Tm), la variation d’enthalpie à cette température ainsi que le changement de capacité calorifique entre les états natif et dénaturés ACp. Les techniques les plus utilisées pour mesurer la température de fusion des protéines sont la SCD, le DC et la fluorescence. La démarche consiste à chauffer les protéines en solution jusqu’à l’apparition d’une franche transition. Cette transition correspond à un fort dégagement de chaleur mesurable par la SCD ou à une modification des spectres d’absorption et d’émission mesurés par les techniques de DC et fluorescence.

Température (°C)

Figure 1.10 - Scanning calorimétrique différentiel (SCD). Cette technique permet en une seule expérience d’identifier trois paramètres thermodynamiques du repliement protéique : la stabilité thermique (T„) évaluée par la température à laquelle la transition est observée, la variation d’enthalpie à la température de fusion évaluée par l’aire du pic de transition ainsi que le changement de capacité calorifique entre ses états natif et dénaturés ACp.

(27)

1.4 Stratégies de thermostabilisation

Les courbes de stabilité des protéines issues d’organismes psychrophiles, mésophiles et thermophiles présentent certaines dissemblances grâce auxquelles leurs structures natives restent stables et fonctionnelles à la température interne de leur hôte ou de leur habitat. Les protéines issues d’organismes extrêmophiles ont une conformation et une séquence optimisées vis-à-vis des températures extrêmes. Leurs paramètres thermodynamiques sont fixés de façon à ce qu’elles se retrouvent préférentiellement dans leur état natif dans ces conditions de température physiologique extrêmes. En s’inspirant des courbes de stabilité des protéines, différentes stratégies permettant d’augmenter la stabilité thermique peuvent être envisagées

Figure 1.11 - Stratégies de thermostabilisation.

Comme le montre la figure 1.11 une protéine (a) peut atteindre une température de fusion plus élevée en déplaçant l’entièreté de sa courhe de stabilité vers le bas (b), en la déplaçant vers des températures plus élevées (c), ou en arrondissant et en élargissant sa courbe de stabilité (d). Ces trois stratégies permettant d’aboutir à une stabilité thermique accrue ont été observées soit indépendamment soit en combinaison. A ces trois méthodes il est possible de faire correspondre trois mécanismes thermodynamiques différents : le décalage de la courbe vers le bas correspondrait à une augmentation de la variation d’enthalpie en la température de stabilité maximale sans compenser les variations entropiques [a —b], le décalage de la courbe vers des températures plus élevées correspondrait à une diminution de la variation entropique en la température de fusion AS°^ [a ^ d] et l’élargissement de la courbe correspondrait à une diminution de la différence de capacité calorifique entre l’état natif et dénaturé ACp [a —^ c]. n a été observé que la diminution de la variation de capacité calorifique correspond entre autres à une meilleure répartition d’acides aminés chargés en surface des protéines thermostables, une plus petite taille ainsi que la présence de structure résiduelle dans leur état dénaturé q semblerait que l’une des combinaisons les plus observées au sein de protéines issues d’organismes thermophiles soit un décalage vers le bas combiné à un élargissement de sa courbe de stabilité Cependant il existe également un grand nombre de protéines dont la stratégie est d’abaisser l’entièreté de leur courbe de stabilité

Ces stratégies bien que claires d’un point de vue thermodynamique, le sont beaucoup moins d’un point de vue de la séquence et/ou structure protéique. En effet, les séquences et