1Chapitre 1

(1)

1Chapitre 1

Introduction

« D’où venons-nous ? »

Voilà l’une des premières questions qui nous effleure l’esprit, qui fait partie de celles que l’on se pose constamment puisque sa réponse nous échappe sans cesse et qui soulève un grand nombre de débats philosophiques et métaphysiques. Pour tenter d’y répondre, nous sommes capables d’une imagination débordante. L’homme. Cette machinerie biologique, biochimique et biophysique complexe capable de concepts abstraits est le fruit de l’ajustement d’un nombre de processus qu’il n’arrive pourtant pas à élucider. Comment tous ces différents procédés se sont-ils accordés pour s’harmoniser et former « cet animal étrange » ? D’où proviennent ces unités primaires qui régissent tous les processus du corps humain ? Quelle est l’origine de la vie ? Les scientifiques qui ne manquent pas de créativité et de persévérance pour tenter de trouver la réponse à cette question, proposent quelques points de vue intéressants. Ceux-ci reposent évidemment sur des hypothèses … qui somme toute sont parfaitement envisageables.

Les molécules qui sont à l’origine de la vie telle que nous la connaissons peuvent être extraterrestres ou intrinsèques à notre planète Terre. En effet, il est possible qu’elles proviennent de débris de météorites et de comètes qui se seraient écrasés sur la Terre peu après sa formation (panspermie). Cependant, la formation des premières molécules organiques complexes (acides aminés, sucres …) pourrait également avoir eu lieu sur Terre.

En effet, vers la moitié du XX^e siècle les expériences de synthèse prébiotiques menées par Miller et ses collaborateurs ont mis en évidence la formation d’acides aminés simples à partir d’une atmosphère particulière soumise à des chocs électriques^[1,2]. Cette atmosphère composée de gaz divers (CH₄, NH₃, H₂, H₂O…) et les fortes décharges appliquées avaient pour but de reproduire les conditions du climat régnant sur la planète Terre primitive. Ces expériences ont à la base été fortement critiquées à cause de contaminations possibles.

Cependant, celles-ci et d’autres du même type ont été menées récemment et corroborent les résultats originellement observés ^[3].

Même si de telles molécules ont pu se former sur la Terre (grâce aux diverses compositions et conditions climatiques) ou ont été véhiculées jusqu’à elle par panspermie, comment ces minuscules premières molécules organiques ont fait pour interagir jusqu’à la formation de complexes extrêmement élaborés ? Cette question semble aujourd’hui avoir trouvé des réponses possibles. En effet, certaines expériences ont montré la possibilité de formation de petites vésicules lipidiques capables de former un espace plus confiné ^[4]. Ces vésicules seraient les ancêtres des membranes cellulaires d’aujourd’hui et ont peut-être facilité l’interaction entre deux acides aminés. D’autre part, les surfaces minérales de certaines pierres et argiles sont propices à l’adsorbtion d’acides aminés leur offrant également la possibilité d’interagir. Notons que la formation d’un lien peptidique entre deux acides aminés n’est pas thermodynamiquement favorable dans un milieu contenant beaucoup de molécules d’eau mais que celle-ci se produit spontanément dans un milieu de salinité élevée et en présence d’atomes

[5]

(2)

naissance à de petits peptides primitifs. Ces petits peptides prébiotiques de quelques acides aminés seulement pourraient avoir joué un rôle important dans le développement de la vie si certains d’entre eux sont biologiquement actifs. Ils pourraient alors constituer le chaînon manquant entre les acides aminés et les protéines avant ou pendant le développement de l’ARN^[6,7]. L’hypothèse du monde de l’ARN souvent mise en avant, suppose qu’avant l’apparition des protéines et des premières molécules d’ADN, l’acide ribonucléique était à lui seul le maître des réactions biochimiques et du stockage de l’information sur la planète^[8]. Toutefois l’activité enzymatique n’a été démontrée que pour des chaînes d’ARN relativement longues (ribozymes), ce qui ébranle quelque peu cette hypothèse. Une autre hypothèse est qu’il y ait eu coexistence des peptides et de l’ARN dès l’origine de la vie (monde ARN-peptide).

Ce domaine de la science étudiant les prémices de la vie est très délicat puisqu’il est impossible de réaliser des vérifications expérimentales directes. Une étape pour laquelle il n’existe pour ainsi dire pas d’hypothèse, est l’origine du code génétique, qui permet aux molécules d’ADN d’encoder la séquence des peptides puis des protéines aux multiples fonctions biologiques.

(3)

« Qui sommes-nous ? »

1.1 Les protéines

La quasi-totalité des réactions biochimiques régissant la vie des organismes de notre planète son perpétrées par de petites entités biologiques appelées protéines^[9-12]. Certaines d’entre elles sont plus connues sous le nom d’enzymes et sont responsables de la catalyse de divers substrats. D’autres ont un rôle biologique à jouer au sein d’un organisme vivant qui ne dépend pas de leur capacité à mener à bien une réaction quelconque mais de leur structure particulière. Ainsi, le rôle simplement structural de certaines protéines consiste à fournir l’architecture filamenteuse indispensable à la génération des os, cheveux ou ongles. D’autres encore sont responsables du transport de petites molécules ou d’ions au travers de la membrane cellulaire, de la régulation de processus cellulaires complexes (hormones), de la reconnaissance d’antigènes intrus lors de la réponse immunitaire adaptative (anticorps), de la transcription de l’ADN … Ces entités mésoscopiques constituent en fait de vraies petites machines qui régissent la quasi-totalité des réactions du monde vivant. Leur nombre et leur diversité est gigantesque puisque leurs tâches sont tout aussi multiples et variées bien que leur confection repose sur un alphabet de seulement 20 lettres. En effet, toutes ces macromolécules ont la particularité d’être des polymères d’acides aminés sélectionnés parmi 20 acides aminés de nature différente. Ces maillons de la chaîne protéique sont des acides α-aminés. Dans la nature il en existe plus d’une centaine de différents cependant les protéines ne sont formées qu’à partir des 20 acides aminés suivants : l’alanine (A, Ala), la cystéine (C, Cys), l’acide aspartique (D, Asp), l’acide glutamique (E, Glu), la phénylalanine (F, Phe), la glycine (G, Gly), l’histidine (H, His), l’isoleucine, (I, Ile), la lysine (K, Lys), la leucine (L, Leu), la méthionine (M, Met), l’asparagine (N, Asn), la proline (P, Pro), la glutamine (Q, Gln), l’arginine (R, Arg), la sérine (S, Ser), la thréonine (T, Thr), la valine (V, Val), le tryptophane (W, Trp) et la tyrosine (Y, Tyr).

Tous ces acides aminés possèdent le même squelette : un groupe carboxyle (–COOH), un groupe amine (–NH₂), un atome d’hydrogène et un radical R attachés à un atome de carbone C_α. Ce qui les différentie entre eux est le radical particulier de chacun (fig. 1.1). Ces radicaux R ou chaînes latérales (en comparaison de la chaîne polypeptidique principale) sont de longueur plus ou moins différente et certains possèdent des fonctions chimiques particulières.

De manière générale, les acides aminés peuvent être regroupés selon la nature de leur chaîne latérale. Ainsi les radicaux R hydrophobes conduisent à des acides aminés généralement appelés hydrophobes, ceux portant un cycle aromatique sont communément appelés acides aminés aromatiques …

Figure 1.1 – Formule générale d’un acide aminé.

(4)

Le nombre d’acides aminés d’une protéine peut aller d’environ 40 à plusieurs milliers et toute l’information nécessaire à sa fonction biologique et sa structure réside dans l’ordre dans lequel sont distribués ses acides aminés. L’ordre de ces acides aminés est défini dans le code génétique d’un être vivant dans ce qui est communément appelé le protéome (il s’agit de la partie du génome qui après transcription et traduction donne lieu à des protéines). Ces acides aminés se lient les uns aux autres par des réactions de condensation en chaîne entre le groupement carboxylique du premier et le groupement amine du suivant. Lors de cette réaction de condensation, une molécule d’eau est libérée et deux acides aminés sont reliés par un lien peptidique C–N entre eux (fig. 1.2). Les acides aminés ainsi reliés portent le nom de résidus faisant référence aux résidus de la réaction de condensation. Ce sont ces longues chaînes polypeptidiques que l’on nomme protéines. La séquence d’acides aminés de la chaîne principale d’une protéine est communément appelée structure primaire.

Figure 1.2 – Réaction de condensation.

A cause de la délocalisation électronique présente autour du lien peptidique C–N formé entre chaque résidu, ce lien se rapproche d’une double liaison. Ce caractère fort marqué en empêche sa libre rotation et place les acides aminés C, N, O et H dans un même plan spatial communément appelé plan peptidique (fig. 1.3).

(5)

Figure 1.3 – Plan peptidiques entre résidus.

Cependant cette chaîne principale n’est pas complètement rigide puisque ces plans peptidiques peuvent s’orienter différemment les uns par rapport aux autres en fonction de deux degrés de liberté. Ces deux degrés de liberté de la chaîne principale sont les angles de torsion φ (rotation autour du lien N–C_α) et ψ (rotation autour du lien C_α–C) de ces différents plans peptidiques formés entre les résidus. Par ailleurs l’angle ω autour du lien peptidique peut prendre deux valeurs distinctes correspondant aux deux arrangements cis et trans d’une double liaison (à savoir : 180° et 0°). Le nombre de conformations accessibles de ces chaînes devient vite gigantesque en augmentant le nombre de résidus. Cependant, certains motifs structuraux comme les hélices ou les feuillets sont récurrents au sein de structures protéiques et correspondent à des arrangements particuliers des angles de torsion φ, ψ et ω (fig. 1.4).

Figure 1.4 – Schéma des motifs structuraux en hélice α et feuillet β. Figure adaptée de la référence ^[13].

Les angles de torsion φ, ψ et ω peuvent être regroupés en domaines de torsion auxquels sont associés ces différents types de motifs structuraux (fig. 1.5). Ces motifs structuraux constituent la structure secondaire d’une protéine. Ces structures secondaires permettent entre autres la formation de ponts hydrogènes (ponts H) entre les atomes de la chaîne principale. Leur récurrence suggère qu’elles ont une contribution stabilisante au sein des protéines.

(6)

Figure 1.5 – Diagramme de Ramachandran. Ce diagramme reprend les valeurs de φ, ψ et ω les plus représentées au sein des protéines divisées en sept domaines de torsion. Les domaines A et C correspondent aux structures secondaires en hélices α et 310. Les domaines B et P correspondent à des structures plus étendues de type feuillet β et conformations de type polyproline. Les domaines G et E correspondent en général à des tournants et le domaine O à une conformation cis autour du lien polypeptidique. Figure adaptée de la référence ^[14].

Une fois le gène codant pour une protéine entièrement traduit en une séquence d’acides aminés, celle-ci se reploie dans l’espace et adopte une structure tridimensionnelle généralement unique^[9-12]. L’adoption de sa structure est en général nécessaire au bon fonctionnement de la protéine et lui confère sa fonction au sein de l’organisme. Il existe cependant des protéines naturellement non repliées ou qui ne se replient qu’en contact avec leur ligand ou substrat. D’autre part, certaines subissent des modifications post-traductionnelles^[15,16]. Certaines protéines adoptent dans certaines conditions une conformation alternative stable qui les empêche d’atteindre leur structure native. Certaines de ces protéines adoptant de telles conformations alternatives sont la cause de maladies conformationnelles comme par exemple la protéine du prion, responsable de la maladie de Creutzfeld-Jakob^[17-21]. A part ces exceptions, la majorité des protéines possèdent une structure native unique. Cette structure tridimensionnelle qu’adopte la protéine est sa structure tertiaire. Au sein de cette structure de nombreuses interactions sont formées. Il s’agit d’interactions locales entre résidus voisins (comme au sein des motifs structuraux) mais également des interactions tertiaires impliquant des résidus éloignées dans la séquence mais qui une fois la structure 3D adoptée sont proches spatialement. Ces interactions peuvent se former entre les atomes des chaînes latérales ou principales des résidus et peuvent être de nature variée : interactions aromatiques, électrostatiques ou encore des ponts hydrogènes.

Par ailleurs, certaines protéines ne sont pas formées d’une seule chaîne polypeptidique mais de plusieurs qui peuvent être identiques (homo-multimères) ou différentes (hétéro-multimères). Ainsi, la structure quaternaire d’une protéine est définie par la nature, le nombre d’unités peptidiques et leur agencement dans l’espace.

La nomenclature utilisée pour les différents degrés de structure des protéines provient historiquement de la manière hiérarchique dont leur repliement était supposé avoir lieu. En effet, au départ d’un brin d’ADN codant pour une protéine donnée, celui-ci est transcrit en ARN messager puis traduit laissant place à une longue séquence d’acides aminés (structure primaire). Certains domaines de cette longue chaîne polypeptidique étaient supposés adopter

(7)

d’abord une structure secondaire, permettant ensuite à ce polymère d’adopter une conformation tridimensionnelle (structure tertiaire), et pour finir, dans certains cas, plusieurs unités polypeptidiques s’agencent entre elles et adoptent une structure quaternaire (fig. 1.6).

Cependant, ces différents niveaux de structurations ne sont pas adoptés séquentiellement comme il avait été supposé auparavant mais plus ou moins simultanément. En effet, le degré d’accord entre le modèle hiérarchique dépend de la protéine et des conditions expérimentales.

Il n’y a donc pas de hiérarchie temporelle entre ces différentes structures puisque la formation des motifs structuraux et l’adoption d’une structure tridimensionnelle complète ont lieu plus ou moins en même temps. Par ailleurs, le repliement natif d’une protéine peut exiger la modification partielle de diverses structures secondaires.

Figure 1.6 – Niveaux de structuration des protéines.

(8)

1.2 La stabilité thermodynamique des protéines

Au cours des années 60, plusieurs expériences ont permis de mettre en évidence que la structure primaire d’une protéine, sa séquence d’acides aminés, contient toute l’information nécessaire au bon repliement de celle-ci^[22,23]. En effet, celle-ci se reploie spontanément in vitro en une structure tridimensionnelle communément appelée structure native. Cependant, au sein d’une cellule, l’encombrement créé par tous les métabolytes présents rend plus difficile le repliement in vivo de certaines protéines (surtout celles de grande taille). Ces protéines font donc en général appel à des confrères capables de les aider à adopter leur structure native. Il s’agit de protéines chaperonnes capables d’isoler les chaînes polypeptidiques non-repliées, partiellement structurées, ou mal repliées afin de leur permettre d’atteindre leur structure native [24,25,26].

En outre, les résultats expérimentaux du repliement in vitro de la ribonucléase-A ont montré que le repliement des protéines est sous le contrôle de la thermodynamique^[22,23]. En effet, cette protéine se replie spontanément et son repliement est réversible. En s’écartant des conditions physiologiques de la protéine, celle-ci se dénature et ne retrouve sa structure native qu’une fois ces conditions rétablies. A partir de cette expérience et d’autres du même type, il est communément admis que le repliement natif d’une protéine correspond à la conformation d’énergie libre minimale adoptée par la chaîne polypeptidique parmi d’autres conformations accessibles. Ce repliement est extrêmement rapide pour de petites protéines globulaires : en quelques millisecondes seulement la séquence d’acides aminés se reploie en une structure (généralement) unique dans l’espace. Ces observations ont amené Levinthal à poser un paradoxe célèbre confrontant le laps de temps gigantesque nécessaire à une chaîne polypeptidique pour explorer l’entièreté de son espace conformationnel et le repliement extrêmement rapide observé expérimentalement. Ce paradoxe révèle qu’une chaîne protéique n’explore pas son espace conformationnel intégralement mais qu’elle suit un ou plusieurs chemins pouvant être guidée par des interactions déterminantes réalisées lors des prémices de son repliement. Ainsi, l’espace conformationnel d’une protéine est souvent représenté comme une sorte d’entonnoir abrupt entrainant la protéine vers la conformation native d’énergie libre minimale.

Le système macroscopique fermé à volume constant et pression constante défini par un ensemble de protéines plongées dans un milieu aqueux peut être décrit par l’énergie libre de Gibbs dans une généralisation des conditions standards, correspondant à la protéine solvatée à une pression d’une atmosphère. Celle-ci s’écrit :

) ( ) ( )

( ⁰ ⁰

0 T H T TS T

G = − (1.1)

Comme le montre cette équation, l’énergie libre de Gibbs G⁰ d’un système s’évalue à l’aide de son enthalpie H⁰, de son entropie S⁰ et dépend de la température T du système. De manière générale, les petites protéines globulaires que nous allons étudier dans ce travail ne passent pas par un état intermédiaire et possèdent une transition de type « tout-ou-rien ». Dès lors, une protéine présente deux états distincts (natif et dénaturé) ayant chacun une énergie libre différente. La stabilité thermodynamique d’une protéine est évaluée par son énergie libre de repliement ∆G⁰(T), définie par la différence d’énergie libre entre ses états natif (G_N⁰ ) et dénaturé (G_D⁰) dans des conditions standards à une température T donnée.

) ( ) ( )

( _N⁰ _D⁰

0 T G T G T

G = −

∆ (1.2)

(9)

Le premier terme G_N⁰ fait référence à la protéine sous sa forme repliée qui est fortement stabilisé par toutes les interactions (effectives) favorables existantes dans sa conformation native (ponts hydrogènes, interactions électrostatiques, effet hydrophobe, interactions de van der Waals …)^[27-29]. Cependant, en adoptant cette structure, la chaîne polypeptidique perd un grand nombre de degrés de libertés conduisant à un terme entropique défavorable. L’énergie libre de Gibbs de l’état dénaturé G_D⁰ d’une protéine est essentiellement à l’image de sa grande entropie conformationnelle. En effet, cet état renferme un grand nombre de micro-états correspondant à des conformations protéiques dénaturées séparées par de très faibles barrières énergétiques (fig. 1.7).

Figure 1.7 − Représentation schématique de l’état natif et l’état dénaturé d’une protéine.

L’état natif (N) correspond à la structure native d’une protéine qui peut être déterminée expérimentalement. L’état dénaturé est un ensemble de conformations non structurées. Cet état renferme un très grand nombre de micro-états séparés par de faibles barrières énergétiques (représentés en pointillés).

Le repliement spontané d’une protéine en sa structure native suggère que dans le système protéine/eau, l’état natif soit plus favorable thermodynamiquement que l’état dénaturé. Ceci ne s’applique pas aux protéines membranaires puisqu’une partie de leur structure s’insère dans les membranes lipidiques mais elles ne seront pas considérées dans ce travail.

Les valeurs de stabilité thermodynamique des protéines se situent généralement entre -5 et -20 kcal/mole (ce qui est de l’ordre de quelques ponts hydrogènes seulement). De prime abord, la raison pour laquelle les protéines se replient facilement en leur structure native n’est pas évidente compte tenu de la grande entropie conformationnelle que renferme son état dénaturé. L’une des forces majeures conduisant au repliement des protéines est liée à la présence de résidus hydrophobes [10-12,27-29]. En effet, la chaîne polypeptidique d’une protéine dans son état dénaturé met en contact tous ses résidus avec le solvant. Cependant, certains de ses résidus ont des chaînes latérales très hydrophobes et la solvatation de ces corps hydrophobes immobilise un grand nombre de molécules de solvant. Cette immobilisation confère une grande perte d’entropie au système et contrebalance en partie la contribution de l’entropie conformationnelle liée aux différentes conformations accessibles de la chaîne polypeptidique non repliée. Afin de réduire cet effet défavorable entre les molécules de solvant et les résidus hydrophobes, ceux-ci ont tendance à se regrouper de manière à minimiser la surface de contact avec le solvant (tout comme une émulsion d’huile dans de

(10)

l’eau évolue naturellement vers une séparation des deux phases liquides, fig. 4.8). Ce phénomène porte le nom d’effet hydrophobe.

Une des hypothèses pour expliquer ces faibles valeurs de stabilité thermodynamique est le lien étroit qui existe entre la stabilité et l’activité des protéines. Une protéine (notamment son site actif) doit être suffisamment flexible pour accomplir sa fonction biologique. La flexibilité intrinsèque d’une protéine lui confère deux propriétés essentielles à son bon fonctionnement : la reconnaissance de sites d’ancrage et dans le cas des enzymes la mobilité nécessaire pour mener à bien la réaction enzymatique. En effet, cette relation entre stabilité et flexibilité est essentielle pour qu’une enzyme puisse se déformer légèrement pour laisser entrer le substrat dans son site actif, accomplir sa fonction et l’en expulser. En ce qui concerne les protéines jouant un rôle purement structural, cette flexibilité leur permet d’être reconnues par d’autres protéines et/ou de reconnaître leurs sites d’ancrage.

La stabilité thermodynamique d’une protéine ou encore son énergie libre de repliement peut être déterminée expérimentalement par des expériences de dénaturation^[30-35]. En effet, elle est évaluée par le rapport des concentrations de la protéine en ces deux états. L’énergie libre de repliement d’une protéine à une température donnée peut s’écrire de la manière suivante :

] D [

] N ln[ )

0(

RT T

G =−

∆ (1.3)

où R est la constante des gaz parfaits, T la température, [N] et [D] sont les concentrations de la protéine dans son état natif et dénaturé respectivement.

Expérimentalement il est possible de calculer la fraction des concentrations d’une protéine dans ses états natifs et dénaturés par des techniques de Dichroïsme Circulaire (DC) et de fluorescence entre autres. La première méthode utilise la particularité des protéines repliées possédant des motifs structuraux capables d’absorber la lumière polarisée alors que l’état dénaturé d’une protéine présente un motif d’absorption bien différent. La deuxième méthode utilise la capacité fluorescente de certains acides aminés (aromatiques) engendrant un profil de fluorescence distinct entre les états replié et dénaturé d’une protéine. Les signaux (S) détectés par ces méthodes expérimentales sont en général mesurés à température fixe (ambiante). Dans des conditions physiologiques, la grande majorité des protéines en solution se retrouvent préférentiellement dans leur état natif. Le signal correspondant à l’infime partie de protéines dénaturées (S_D) est difficilement détectable dans ces conditions et la marge d’erreur est trop importante. Dès lors, il est impossible de calculer le rapport [N]/[D] dans des conditions physiologiques, cependant le signal SN détecté par l’une des méthodes expérimentales dans ces conditions peut être associé au signal de l’état natif de la protéine. En introduisant un dénaturant chimique (e.g. urée), le signal évolue petit à petit vers un signal S_D fixe correspondant au signal de l’état dénaturé de la protéine. En effectuant plusieurs mesures des signaux Sd correspondant aux diverses concentrations en dénaturant [d], il est possible d’évaluer les changements du rapport [N]/[D] de la manière suivante :

) (

] D [

] N [

D N

S S

d d

d −

= − (1.4)

(11)

A l’aide de ces mesures expérimentales, les énergies libres de repliement d’une protéine à différentes doses de dénaturant peuvent être déterminées :

) (

) ln(

) (

D 0 N

S S

S RT S

T G

d d

d −

− −

=

∆ (1.5)

La dénaturation de petites protéines globulaires composées d’une seule chaîne polypeptidique se déroule en général en une seule étape sans passer par l’intermédiaire d’un état de transition. Dans de telles conditions, ∆G_d⁰(T) évolue linéairement en fonction de la concentration en dénaturant [d] (fig. 1.8).

] [ )

( )

( ⁰ _D _N

0 T G T m d

G_d =∆ + ₋

∆ (1.6)

Figure 1.8 – Relation linéaire entre la concentration en dénaturant [d] et la ∆G_d⁰(T). La pente de la droite m_D-N ainsi formée peut dès lors être utilisée pour évaluer l’énergie de repliement d’une protéine en l’absence de dénaturant en réalisant une extrapolation des données^[31-35].

(12)

1.3 La thermostabilité des protéines

La structure native d'une protéine est stable dans une certaine gamme de conditions physico-chimiques qui lui sont propres. Tant que les conditions sont telles que l'énergie libre de l'état natif est inférieure ou égale à celle de l'état dénaturé, la protéine se retrouve préférentiellement dans sa conformation native. L'une des grandeurs physiques influençant clairement l'équilibre entre ces deux états est la température. La courbe de stabilité d'une protéine est d'ailleurs représentée par la variation de son énergie libre de repliement ∆G⁰ en fonction de la température T (fig. 1.9).

Figure 1.9 – Courbe de stabilité d’une protéine fictive. La stabilité de cette protéine est évaluée par ∆G⁰(T) à température ambiante (T=298 K). L’intervalle de température où la structure de la protéine reste stable se situe entre les deux températures de dénaturation à froid T_m^*et à chaud T_m.

En examinant la courbe de stabilité d'une protéine, il est possible d’observer l’intervalle de température dans lequel cette protéine est stable thermodynamiquement. En effet, tant que l’énergie libre de repliement ∆G⁰(T) d’une protéine est négative, la conformation native de la protéine est thermodynamiquement plus favorable que sa conformation dans un état dénaturé.

De telles bornes de températures suggèrent que ces macromolécules essentielles à la vie d’un organisme ne peuvent accomplir leur fonction biologique au-delà de ces limites thermiques.

Si tel est le cas, comment se fait-il que les moindres recoins de notre planète Terre soient peuplés d’organismes et/ou micro-organismes ? En effet, il existe beaucoup de biotopes aux températures extrêmes et aux conditions de vie qui paraissent à première vue impossibles.

Cependant, certains organismes ou micro-organismes possèdent des caractéristiques particulières qui leur ont permis de s’adapter à ces conditions extrêmes^[36-46]. D’ailleurs peut-on parler d’« adaptation » ? Ce mot implique que les conditions climatiques de notre planète ont évolué, mais de quelle manière ? A quelle température les premiers signes de vie sont-ils apparus ? Quels sont les changements climatiques auxquels ils ont dû faire face ? Ces questions restent sans réponse, bien qu’en général la thèse de la température élevée de la planète Terre primitive soit plus largement acceptée, l’hypothèse de l’émergence de la vie dans des conditions de très faible température ne peut être exclue^[47]. Que l’apparition de vie sur Terre se soit déroulée dans des conditions thermiques froides, chaudes, extrêmes, aujourd’hui la vie a colonisé la presque totalité de la planète, des profondeurs abyssales aux cimes vertigineuses de l’Everest, des eaux bouillantes des geysers aux banquises gelées de l’antarctique. Une taxinomie à l’image des conditions extrêmes de l’environnement dans lequel se développent ces organismes/micro-organismes les distingue en : halophiles (adaptés

(13)

à des concentrations élevées en sels), acidophiles et alkaliphiles (adaptés à des pH faibles et élevés respectivement), barophiles (adaptés aux pressions élevées), thermophiles et psychrophiles (adaptés à des températures élevées et faibles respectivement)… Tous ces organismes/micro-organismes sont regroupés sous la dénomination d’extrêmophiles faisant référence aux caractéristiques extrêmes de leur biotope^[36-46].

En ce qui concerne les organismes/micro-organismes adaptés aux températures extrêmes, il existe une classification largement utilisée les regroupant en fonction de la température de leur habitat [36,41,42]:

• Psychrophiles (en dessous de 20°C)

• Mésophiles (entre 20°C et 45°C)

• Thermophiles (entre 45°C et 80°C)

• Hyperthermophiles (au-delà de 80°C)

La plupart des micro-organismes résistants à des conditions extrêmes de température sont issus d’un groupe particulier aux caractéristiques distinctes : archaea (du grec : archaios, ancien). Identifiés par Carl Woese et ses collègues à l’aide de leurs séquences d’ARN ribosomaux particulières, les archaea ne possèdent pas de noyau et la composition lipidique de leur membrane est très différente de celles des bactéries ainsi que leurs mécanismes de réplication d’ADN^[48]. Les analyses phylogéniques basées sur les ARN ribosomaux indiquent que les organismes hyperthermophiles des règnes bactérien et archaea sont les plus proches de LUCA (Last Universal Common Ancestor) suggérant qu’ils pourraient avoir retenu des caractéristiques archaïques dans leurs biomolécules et leur métabolisme^[39,49].

Ces micro-organismes adaptés aux températures extrêmes, possèdent des caractéristiques distinctes. Certains micro-organismes thermophiles disposent d’une membrane cellulaire capable de rester imperméable à haute température, d’autres d’un ADN plus résistant à la dénaturation thermique mais avant tout, pour que toutes les réactions biophysiques nécessaires à leur survie soient réalisables, ils disposent de protéines thermorésistantes (thermostables)^[44,45]. De même, les organismes psychrophiles renferment des protéines psychrorésistantes (psychrostables) adaptées aux faibles températures et capables de perpétrer leur fonction biologique dans des conditions de température parfois proches de 0°C^[36,46].

La résistance thermique d’une protéine peut être évaluée de plusieurs manières différentes. Deux des descripteurs les plus populaires en ce qui concerne les enzymes sont la température T_½ et le temps t_½. Le premier est la température à laquelle l'activité diminue de moitié et le deuxième le temps à une température T arbitraire avant que l'activité d'une enzyme ne diminue de moitié. L'inconvénient de ces deux descripteurs est qu'ils ne peuvent s'appliquer qu'aux protéines ayant une activité enzymatique. Un autre descripteur fort populaire et s’appliquant cette fois-ci à tous les types de protéines est la température T_env correspondant à la température de l’environnement dans lequel se développe le micro-organisme auquel elles appartiennent. En ce qui concerne les protéines issues d’organismes pluricellulaires à sang chaud, leur température T_env correspond à la température interne de leur hôte. Ce descripteur a l’avantage d’être relativement aisé à déterminer puisqu’il suffit de connaître l’organisme dont est issu la protéine et la température de son habitat ou de son corps. Cependant il n’est pas représentatif de la thermostabilité intrinsèque des protéines. En effet, le corps humain possède des protéines beaucoup plus résistantes que d’autres et pourtant ce descripteur de thermorésistance Tenv leur accorde une résistance thermique identique. Les meilleures grandeurs pour décrire la thermostabilité d’une protéine

(14)

sont sans conteste leurs températures de dénaturation froide et chaude (T_m^* et T_m, fig. 1.9).

Ces grandeurs thermodynamiques sont propres à chaque protéine et correspondent aux bornes de température inférieure et supérieure du domaine de stabilité thermodynamique de la protéine. A ces deux températures particulières, l’énergie libre de repliement d’une protéine est nulle (∆G⁰(T_m^*)=0=∆G⁰(T_m)) et la probabilité d’observer la protéine dans son état natif et dénaturé est donc identique. De manière générale c’est la température de dénaturation chaude, ou encore température de fusion Tm qui sert à décrire la stabilité thermique d’une protéine. En effet, l’autre température est difficilement mesurable et observable puisqu’elle se trouve en général en dessous de 0°C. Par rapport aux autres descripteurs, la T_m peut d’une part être déterminée non seulement pour des enzymes mais également pour des protéines sans fonction enzymatique et d’autre part cette température est une grandeur intrinsèque à la protéine et non de son hôte. Cependant la détermination expérimentale de cette valeur n’est pas des plus aisées et plusieurs difficultés peuvent être rencontrées (ex : irréversibilité du procédé causée par l’agrégation des protéines, dépendance en la concentration…). C’est une des raisons pour lesquelles peu de protéines disposent d’une T_m mesurée expérimentalement. Il a donc été important par le passé d’utiliser un autre descripteur de cette grandeur et le choix s’est porté sur la Tenv. Ces deux descripteurs sont liés puisqu’en général la température de fusion d’une protéine est adaptée à l’habitat de l’organisme dont elle est issue. Cependant il existe plusieurs exceptions et vu le faible nombre de protéines dont la température de fusion est déterminée il serait risqué d’en faire une généralisation. Il est évident que les protéines issues d’organismes hyperthermophiles possèdent une température de fusion supérieures à leur Tenv

et donc aux T_env de protéines issues des autres catégories d’organismes mais l’inverse n’est pas forcément vrai. Ainsi, une protéine issue d’un organisme mésophile peut présenter une température de fusion supérieure à la Tenv de protéines issues d’organismes hyperthermophiles. Une forte corrélation entre ces deux grandeurs a été démontrée par le passé à l’aide des quelques représentants de protéines dont la Tm était disponible^[50]. L’importance de l’utilisation de la Tm plutôt que la Tenv lors de l’analyse bioinformatique de la stabilité thermique des protéines fait l’objet du chapitre 5 de cette thèse.

Les deux stabilités thermique (T_m) et thermodynamique (∆G⁰(T)) sont reliées entre elles puisque ∆G⁰(T_m)=0 mais il s’agit bien de deux grandeurs physiques différentes. Cette relation est complexe et deux protéines ayant à température ambiante la même stabilité thermodynamique ∆G⁰(298 K) peuvent posséder des résistances thermiques fort différentes (T_m). Qui plus est, une protéine peut avoir une ∆G⁰(298 K) élevée mais une T_m moins grande qu’une protéine ayant une ∆G⁰(298 K) plus faible, comme illustré à la figure 1.11. D’ailleurs le coefficient de corrélation de la régression linéaire entre ces deux grandeurs à partir d’un petit échantillon de protéines est très faible (section 6.1). Ce faible coefficient est lié à la diversité de structures, de composition et de thermostabilités que les protéines présentent et augmente lorsque l’on considère uniquement des protéines homologues issues d’une même famille.

Il est possible d’écrire des relations mathématiques dans le cadre de certaines approximations entre ces deux grandeurs. Le système fermé en équilibre à température, pression et volume constants d’une protéine plongée dans un solvant se décrit par la différence d’énergie libre de Gibbs ∆G⁰(T) entre ses états natif G_N⁰ et dénaturés G_D⁰ (eq. 1.2).

En utilisant la définition de cette fonction d’état de l’équation 1.1 il vient : )

( )

( ⁰ ⁰

0 T H T T S T

G =∆ − ∆

∆ (1.7)

(15)

où ∆H⁰(T) est la variation enthalpique entre l’état natif et dénaturé de la protéine qui est essentiellement liée aux contributions des interactions présentes dans la structure native (interactions coulombiennes, de van der Waals, …), ∆S⁰(T) est la variation entropique entre l’état natif et dénaturé de la protéine essentiellement lié à la grande entropie conformationnelle de l’état dénaturé et à l’effet hydrophobe.

Sachant qu’à la température de fusion T_m, l’énergie de repliement d’une protéine est nulle, l’équation 1.7 à cette température s’écrit :

) ( )

( 0

)

( ⁰ ⁰

0

m m

m

m H T T S T

T

G = =∆ − ∆

∆ ,

m m

m T

T T H

S ( )

)

( ⁰

0 ∆

=

∆ (1.8)

où ∆H⁰(T_m) et ∆S⁰(T_m) sont respectivement les variations d’enthalpie et d’entropie du système à la température de fusion Tm.

Supposer que les grandeurs entropiques et enthalpiques n’ont aucune dépendance en la température revient à faire varier linéairement ∆G⁰(T) avec la température. Ce comportement n’est clairement pas celui observé expérimentalement (fig. 1.9). Par ailleurs la dénaturation de protéines en solution présente un changement de capacité calorifique. Ainsi, la chaleur nécessaire à fournir pour augmenter d’un degré une solution de protéines dénaturées est plus importante que lorsqu’elles sont repliées. Dès lors, à une température T donnée il vient :













∆ +

∆

=

∆

∫

^T

T P m

m

dT T C T

H T

H⁰( ) ⁰( ) ( ) ,











 ∆

+

∆

=

∆

∫

^T

T P m

m

T dT T T C

S T

S ( )

) ( )

( ⁰

0 (1.9)

où le changement de capacité calorifique observé entre l’état natif et dénaturé est représenté par ∆C_p, C_p étant la capacité calorifique à pression constante définie comme :

P P

P T

T S T T H

C ∂

= ∂

∂

=∂ )

( (1.10)

L’équation de la courbe de stabilité d’une protéine s’écrit dès lors :

∫

^∆ ⁻ ^∆

+







 −

∆

=

∆

T

T P T

T P m

m m

T dT T T C

dT T T C

T T T

H T

G ( )

) ( )

( )

( ⁰

0 (1.11)

A ce stade il est possible de faire l’hypothèse que la variation de capacité calorifique associée à la dénaturation protéique est indépendante de la température T. Dès lors les variations d’enthalpie et d’entropie ainsi que la stabilité thermodynamique d’une protéine peuvent être décrites par :

) (

) ( )

( ⁰

0

m P

m C T T

T H T

H = ∆ + ∆ −

∆ (1.12)







∆  +

∆

=

∆

m P

m T

C T T

S T

S⁰( ) ⁰( ) ln (1.13)

(16)































− 

−

∆

−







 −

∆

=

∆

m m

P m

m

m T

T T T T C

T T T

H T

G⁰( ) ⁰( ) 1 ln (1.14)

Ces relations mathématiques sont capables de reproduire la forme parabolique légèrement arrondie des courbes de stabilités protéiques mesurées expérimentalement et sont en général utilisées pour déterminer les paramètres thermodynamiques (∆H⁰(Tm) et ∆S⁰(Tm)) du système.

Le scanning calorimétrique différentiel (SCD) permet d’étudier les transitions induites thermiquement comme le changement de conformation des macromolécules (fig. 1.10). Cette technique mesure la capacité calorifique du système en fonction de la température^[51,53]. Lors de la dénaturation d’une protéine, de nombreuses interactions sont brisées libérant une grande quantité de chaleur. Avec cette technique il est possible d’évaluer la température de fusion (T_m), la variation d’enthalpie à cette température ∆H⁰(T_m) ainsi que le changement de capacité calorifique entre les états natif et dénaturés ∆Cp. Les techniques les plus utilisées pour mesurer la température de fusion des protéines sont la SCD, le DC et la fluorescence. La démarche consiste à chauffer les protéines en solution jusqu’à l’apparition d’une franche transition. Cette transition correspond à un fort dégagement de chaleur mesurable par la SCD ou à une modification des spectres d’absorption et d’émission mesurés par les techniques de DC et fluorescence.

Figure 1.10 – Scanning calorimétrique différentiel (SCD). Cette technique permet en une seule expérience d’identifier trois paramètres thermodynamiques du repliement protéique : la stabilité thermique (T_m) évaluée par la température à laquelle la transition est observée, la variation d’enthalpie à la température de fusion ∆H⁰(Tm) évaluée par l’aire du pic de transition ainsi que le changement de capacité calorifique entre ses états natif et dénaturés ∆C_p.

(17)

1.4 Stratégies de thermostabilisation

Les courbes de stabilité des protéines issues d’organismes psychrophiles, mésophiles et thermophiles présentent certaines dissemblances grâce auxquelles leurs structures natives restent stables et fonctionnelles à la température interne de leur hôte ou de leur habitat. Les protéines issues d’organismes extrêmophiles ont une conformation et une séquence optimisées vis-à-vis des températures extrêmes. Leurs paramètres thermodynamiques sont fixés de façon à ce qu’elles se retrouvent préférentiellement dans leur état natif dans ces conditions de température physiologique extrêmes. En s’inspirant des courbes de stabilité des protéines, différentes stratégies permettant d’augmenter la stabilité thermique peuvent être envisagées^[53].

Figure 1.11 – Stratégies de thermostabilisation.

Comme le montre la figure 1.11 une protéine (a) peut atteindre une température de fusion plus élevée en déplaçant l’entièreté de sa courbe de stabilité vers le bas (b), en la déplaçant vers des températures plus élevées (c), ou en arrondissant et en élargissant sa courbe de stabilité (d). Ces trois stratégies permettant d’aboutir à une stabilité thermique accrue ont été observées soit indépendamment soit en combinaison. A ces trois méthodes il est possible de faire correspondre trois mécanismes thermodynamiques différents^[53-54] : le décalage de la courbe vers le bas correspondrait à une augmentation de la variation d’enthalpie en la température de stabilité maximale sans compenser les variations entropiques [a _→ b], le décalage de la courbe vers des températures plus élevées correspondrait à une diminution de la variation entropique en la température de fusion ⁰

Tm

∆S [a _→ d] et l’élargissement de la courbe correspondrait à une diminution de la différence de capacité calorifique entre l’état natif et dénaturé ∆Cp [a _→ c]. Il a été observé que la diminution de la variation de capacité calorifique correspond entre autres à une meilleure répartition d’acides aminés chargés en surface des protéines thermostables, une plus petite taille ainsi que la présence de structure résiduelle dans leur état dénaturé [34,55-63]. Il semblerait que l’une des combinaisons les plus observées au sein de protéines issues d’organismes thermophiles soit un décalage vers le bas combiné à un élargissement de sa courbe de stabilité^[54]. Cependant il existe également un grand nombre de protéines dont la stratégie est d’abaisser l’entièreté de leur courbe de stabilité^[64-71].

Ces stratégies bien que claires d’un point de vue thermodynamique, le sont beaucoup moins d’un point de vue de la séquence et/ou structure protéique. En effet, les séquences et

(18)

structures de protéines de thermostabilité différente sont extrêmement semblables. Petit à petit, grâce à la caractérisation d’organismes thermophiles, des génomes entiers renfermant des protéines thermostables ont pu être séquencés et des variations de composition ont pu être observées^[72-75]. En effet, l’ADN de ces micro-organismes révèle une plus forte abondance de cytosine et guanine lui permettant de se dénaturer moins facilement. Par ailleurs, il semblerait que ces micro-organismes aient un usage préférentiel de certains codons synonymes^[76,77]. Des observations plus récentes liées au séquençage de plusieurs génomes d’organismes psychrophiles ont également montré un biais de l’utilisation de certains codons synonymes^[78]. D’autre part, en comparant leur protéome avec des protéomes issus de micro-organismes mésophiles, des variations de composition en acides aminés peuvent être observées^[79-83]. Ainsi, la proportion d’acides aminés chargés (D,E,K,R) est plus grande au sein de protéines thermostables que mésostables au détriment d’acides aminés polaires non-chargés (N,Q,S,T). Cependant ces différences de composition ne donnent aucun indice sur les interactions protéiques contribuant à la stabilité thermique des protéines.

L’intérêt suscité par la résistance thermique des protéines thermostables grandissant d’année en année, le nombre de leurs structures résolues expérimentalement a fortement augmenté. Dès lors, plusieurs études systématiques à la recherche de facteurs reponsables de la thermostabilité des protéines ont vu le jour^[84-102]. Ces études comparent les séquences et les structures de protéines homologues issues d’organismes psychro-, méso-, thermo- et hyperthermophiles. En faisant l’hypothèse que les différences observables entre ces protéines sont uniquement le fruit d’une adaptation thermique, ces travaux ont répertorié un grand nombre de facteurs allant en faveur ou à l’encontre d’une augmentation de stabilité thermique.

En voici quelques uns en faveur d’une plus grande stabilité thermique :

• le pourcentage en structure secondaire [85,90,91,94-96,99-101,103]

• le pourcentage d’acides aminés chargés [72-75,85,91,94,95,98-103]

• le nombre de ponts disulfures [44,89,105-110]

• le nombre de ponts salins [44,84,87,88,91,94-96,99,100,102,103,111-130]

• l’empilement hydrophobe [44,91,97,118,131-135]

• le nombre de ponts hydrogènes [40,44,50,91,94,95,103,115,124-126,136-139]

• une meilleure répartition des acides aminés chargés en surface [44,62,63,117,119,124,126,128,140- 143]

• la compacité de la structure protéique [10,44,91,122,131,133-135]

• la stabilisation des dipôles présents aux extrémités des hélices [44,103,144-146]

• la présence de proline [44,135,147-155]

• le nombre d’interactions aromatiques [44,156-160]

• une rigidité accrue [44,161-163]

• la formation de micro-réseaux d’interactions diverses [45,110,125,137,141,158,160,164,165]

• le nombre d’interactions cation-π_ [91,99,103,164]

• …

Par ailleurs, il existe également des protéines dont la température de fusion peut varier en fonction de paramètres extérieurs tels la concentration en un ion [44,166-168]. D’autres encore subissent des modifications post-traductionnelles leur conférant une plus grande résistance thermique [44,103,169-173].

(19)

Tous ces facteurs on été observés alternativement dans des protéines thermostables appartenant à diverses familles de protéines homologues. Ces travaux, plutôt que d’identifier une stratégie unique ou un ensemble restreint de stratégies influençant la stabilité thermique des protéines, ont mis en évidence la complexité et la multitude de stratagèmes mis en place par la nature pour que chaque être vivant dispose de protéines stables et biologiquement fonctionnelles. En considérant un ensemble de protéines plus large sans tenir compte de leur homologie, les dissemblances entre protéines de stabilité thermodynamique faible et élevée sont beaucoup plus difficiles à observer.

Les faibles dissemblances présentes entre protéines de différente résistance thermique peuvent s’expliquer par le lien étroit entre stabilité et activité. Cette hypothèse fut étayée par l’observation à température ambiante de la flexibilité accrue de certaines enzymes psychrostables diminuant leur activité biologique [140,174-176]. Cette hypothèse est référencée sous le nom des « états correspondants »^[174]. Elle suggère que toute protéine dans ses propres conditions physiologiques a une flexibilité similaire. Ainsi la flexibilité de ces protéines psychrostables dans leur environnement glacial correspond à la flexibilité de protéines mésostables à température ambiante. Il existe un lien étroit entre la stabilité et l’activité d’une protéine [46,140,176-185]. De manière générale, une grande flexibilité diminue la stabilité des protéines bien que l’inverse peut être vrai localement^[184,185]. Une protéine, ou en tout cas son site actif, doit être suffisamment flexible pour être capable d’accomplir son activité biologique. Certaines protéines psychrostables ont tendance à augmenter leur flexibilité au détriment de leur stabilité pour parvenir au maintien de leur fonction biologique à basse température^[177]. Ce lien étroit entre stabilité et flexibilité se répercute de plusieurs manières différentes selon la protéine étudiée. Il existe certains cas où les régions stabilisantes et fonctionnelles d’une protéine sont séparées spatialement (e.g. le lysozyme du phage T4).

Dans d’autres cas une structure secondaire renforcée formant un squelette rigide couplé à un site actif plus flexible permet de maintenir l’équilibre entre l’activité et la stabilité de la protéine^[178]. Cette hypothèse est confirmée par différentes expériences qui ont montré que l’introduction d’une mutation d’un résidu impliqué dans la catalyse ou l’accrochage du substrat pourrait entraîner une meilleure stabilité de la protéine au détriment de sa fonction biologique^[186]. D’autre part, l’introduction d’une mutation augmentant la rigidité de domaines structuraux peut améliorer la stabilité de la protéine^[163].

Peu nombreuses sont les approches plus globales sur l’identification de facteurs conduisant à une hausse de stabilité thermique des protéines de manière générale. L’une des raisons de cette précarité peut être le faible nombre de protéines disponibles pour mener à bien ces travaux. En effet, bien que le nombre de protéines de structure et de stabilité thermique déterminée expérimentalement ne cesse de grandir, étudier de manière globale la répartition de tous ces facteurs parmi des séquences et des structures de protéines non homologues peut facilement aboutir à des résultats peu significatifs.

Une autre hypothèse renforçant cette difficulté à trouver une voie commune à la détermination de la stabilité thermique des protéines a été formulée récemment. Pour l’énoncer, il est nécessaire de considérer que l’apparition de la vie sur la Terre a eu lieu lorsqu’il y régnait un climat semblable à celui des cheminées hydrothermales sous-marines d’aujourd’hui où la température est particulièrement élevée (au dessus de 100°C). Plusieurs études semblent confirmer cette hypothèse et d’ailleurs, lors de la découverte des archaea hyperthermophiles peuplant les évents des dorsales océaniques, les biologistes ont découvert l’un des organismes les plus primitifs de la planète^[187,188]. Sur l’arbre phylogénétique, ces organismes figurent en effet tout près de l’ancêtre commun^[39,49].

(20)

Il est dès lors raisonnable de supposer que les premiers micro-organismes sur terre étaient capables de supporter de telles conditions de température. Cette conception ouvre la porte vers de nouveaux horizons où la thermostabilité d’une protéine peut être considérée comme une propriété acquise différemment en fonction de la chronologie historique de l’organisme dont elle provient^[189]. Berezovsky et Shakhnovich supposent l’existence de deux mécanismes d’adaptation thermique : l’un basé sur la séquence et l’autre sur la structure. Ces deux mécanismes s’appliquent en fonction de l’évolution historique de l’organisme thermophile dont est issue la protéine à savoir une archaea (qui s’est développée dans un environnement initialement chaud) ou une bactérie mésophile ayant recolonisé un environnement chaud. Le mécanisme d’adaptation thermique basé sur la structure s’appliquerait aux protéines issues d’archaea tandis que le mécanisme d’adaptation thermique basé sur la séquence serait d’application sur les protéines issues de bactéries mésophiles ayant recolonisé un environnement chaud et considérées comme thermophiles aujourd’hui. En effet, les archaea (hyper-)thermophiles sont supposées être les organismes les plus proches de l’ancêtre commun. Ces archaea ont développé des protéines présentant une structure optimisée vis-à-vis de ces conditions de températures élevées pour perpétrer leur fonction plutôt qu’une optimisation de leur séquence. Il semblerait que leur séquence pourrait encore être optimisée pour atteindre des températures de fusion encore plus élevées. Ces protéines possèderaient une structure plus compacte que leurs homologues mésophiles grâce à ce mécanisme d’adaptation thermique. Les bactéries mésophiles ayant recolonisé un environnement chaud ont dû adapter leurs protéines pour conserver une activité et une structure à des températures élevées. Le moyen qu’elles auraient utilisé serait une adaptation thermique basée sur la séquence en modifiant ponctuellement leur séquence afin de créer différentes interactions fortes leur permettant de garder leur structure native à haute température. Ces protéines présenteraient une structure fort semblable à celle de leurs homologues mésophiles mais une séquence différente. Que cette hypothèse soit juste ou pas, nombreuses sont les stratégies qui permettent d’atteindre une plus grande stabilité thermique. Il est donc très difficile d’inférer des règles de thermostabilisation à partir d’un petit échantillon de protéines.

(21)

« Où allons-nous ? »

1.5 Méthodes prédictives de la résistance thermique des protéines

Le terme bioinformatique désigne un domaine de recherche scientifique utilisant l’outil informatique pour résoudre des problèmes biologiques. La bioinformatique possède des domaines variés allant de la modélisation de systèmes biologiques au niveau moléculaire et cellulaire (rythmes circadiens, repliement des protéines, séquençage de l’ADN) à l’étude de l’évolution de populations animales en fonction de leur environnement en passant par l’analyse d’image, la reconstruction tridimensionnelle et la phylogénie. Il s’agit d’une branche théorique de la biologie souvent décrite par le terme in silico faisant référence aux semi-conducteurs en silicium des ordinateurs.

La bioinformatique a développé divers modèles visant à reconstituer le repliement d’une protéine, d’en prédire sa conformation, d’en étudier sa stabilité thermodynamique et même d’en prédire d’éventuels changements, d’en évaluer sa solubilité, sa résistance thermique … en d’autres termes : les différentes propriétés physico-chimiques qui la caractérisent. Le repliement d’une protéine peut être étudié en utilisant des techniques de recherche de minimum global d’énergie libre dans son espace conformationnel (ab initio) ou par comparaison entre séquences similaires adoptant des structures similaires. L’objectif étant de trouver la meilleure adéquation entre la séquence et la structure il a fallu développer des outils capables d’évaluer cette affinité. Ces outils prennent la forme de fonctions d’énergie qui doivent être capables de décrire la contribution énergétique des multiples interactions protéiques ainsi que de tenir compte de la présence d’un solvant. Ces fonctions énergétiques peuvent être de deux classes différentes : issues de calculs de mécanique quantique et/ou de résultats expérimentaux sur de petites molécules (potentiels semi-empiriques^[190,191]) ou bien dérivées de bases de données de structures protéiques^[192-201]. Ces derniers peuvent prendre la forme analytique d’une équation dont les paramètres sont optimisés en maximisant l’écart énergétique entre la structure native et les autres conformations possibles^[192-194]. Ils peuvent également être dérivés des fréquences relatives d’observation de petits éléments de séquence associés à de petits éléments de structure (potentiels-statistiques^[195-201]).

Il existe déjà un certain nombre de logiciels visant à prédire les changements de stabilité thermodynamique liés à l’introduction d’une mutation au sein d’une protéine. En revanche, en ce qui concerne la prédiction de la stabilité thermique T_m d'une protéine ou du changement de stabilité thermique encouru lors de l'introduction d'une mutation ∆T_m, très peu de méthodes ont été développées à ce jour. Certaines méthodes de prédiction ne prédisent pas directement la stabilité thermique proprement dite (Tm) mais plutôt la « thermophilicité » des protéines [205,210-216]. Nous employons ce terme pour désigner la classe d’organismes à laquelle appartient l’hôte d’une protéine. Ainsi, certaines n’ont pour but que de différencier leur appartenance à un organisme mésophile ou thermophile. D’autres méthodes reposent sur un mélange de mesures de différentes grandeurs évaluant une sorte de « résistance thermique globale »^[217]. Les résultats de ces différentes méthodes ne sont pas aisément comparables puisqu’elles ne reposent pas toujours sur la même définition de la thermostabilité et qu’ils l’évaluent sur des échantillons de protéines différents.

Les premières prédictions réalisées reposaient sur les observations réalisées entre protéines homologues de thermostabilité distincte. Ces prédictions n’ayant pas toujours l’effet escompté, certains domaines de l’industrie ont perdu patience et utilisé des méthodes très