Texte intégral

(1)

2Chapitre 2

Recherche de facteurs favorisant la thermostabilité des protéines

L’une des premières recherches que nous avons effectuées dans le domaine de la stabilité thermique des protéines a eu pour objectif de mettre en évidence différents facteurs de structure et de séquence favorisant la thermostabilité des protéines. En effet, plusieurs travaux déjà réalisés dans ce domaine ont souligné l’impact de différents facteurs et notamment :

les ponts hydrogène [40,44,50,91,94,95,103,115,124-126,136-139]

les ponts disulfures [44,89,105-110]

les ponts salins [44,84,87,88,91,94-96,99,100,102,103,111-130]

la fraction de ponts salins inclus dans des réseaux électrostatiques [125,165]

les interactions effectives entre acides aminés hydrophobes [44,91,97,118,131-135]

les interactions aromatiques [44,156-160]

les interactions cation-π [91,99,103,164]

le pourcentage de structure secondaire [85,90,91,94-96,99-101,103]

la composition en acides aminés [72-75,85,91,94,95,98-103]

Les recherches ayant permis d’identifier ces facteurs sont essentiellement des travaux effectués sur différentes familles de protéines homologues comprenant des protéines de stabilité thermique différente issues d’organismes et de micro-organismes divers. La grande similarité entre les homologues d’une même famille laisse place cependant à quelques faibles dissemblances. Ces faibles dissemblances sont alors associées à des paramètres responsables de la différence de stabilité thermique présente entre ces homologues. Cependant, les résultats de ces différents travaux mettant en exergue l’influence de l’un ou l’autre facteur sur la thermostabilité des protéines sont parfois en contradiction.

Nous avons étudié l’abondance et les proportions de ces divers facteurs au sein de huit familles de protéines monomériques homologues : Acylphosphatase, Adénylate kinase, α-Amylase, « Cold Shock Protein », Cytochrome P450, Glycoside hydrolase (Endoglucanase 12A), Lysozyme et Myoglobine (tableau 2.1).

La démarche que nous avons suivie peut être résumée en quelques points : définition des familles de protéines monomériques homologues, développement d’une méthode automatique d’évaluation des divers facteurs, évaluation de la proportion de chaque facteur au sein de chaque protéine d’une même famille, détermination de la régression linéaire entre les proportions de ces facteurs et leurs températures de fusion Tm afin d’en extraire un coefficient de corrélation et une p-valeur. Ce coefficient nous permet d’appréhender l’influence favorable

(2)

2.1 Définition de huit familles de protéines homologues

Un des grands défis de cette thèse de doctorat a été de constituer une base de données la plus exhaustive possible regroupant des protéines dont la structure tridimensionnelle et la stabilité thermique ont été déterminées expérimentalement (section 3.1.1). C’est à partir de la base de données de protéines sauvages monomériques BD5 que nous avons obtenu ces huit familles de protéines homologues. Deux protéines sont dites homologues lorsque les gènes qui codent pour celles-ci ont une origine commune. Afin de s’assurer de leur homologie, nous avons d’une part évalué leur identité de séquence avec l’outil bioinformatique ClustalW [253]. Il est en général considéré qu’au dessus de 40% d’identité de séquence, deux protéines sont homologues [254]. D’autre part, nous avons réalisé une superposition de structure avec l’outil bioinformatique DaliLite [255]. Le Z-score fournit par DaliLite est une mesure de la qualité de l’alignement. Si le Z-score est au dessus de 20, les deux protéines sont homologues, entre 8 et 20 elles le sont probablement, entre 2 et 8 la décision est difficile, en dessous de 2 les deux protéines ne sont pas homologues [255].

Parmi ces différentes familles certaines protéines peuvent aisément être identifiées comme homologues par un alignement de séquence alors que d’autres non. En particulier, les membres de la famille des cytochromes P450 ou des myoglobines ont des pourcentages d’identités de séquence relativement faibles (tableau 2.1). Un alignement de structure avec l’outil bioinformatique DaliLite permet cependant de mettre en évidence leur homologie.

Comme le montrent les résultats des alignements de séquence et de structure obtenus sur la famille des lysozymes, l’homologue issu du phage λ est fort éloigné des trois autres (tableau 2.1). Les Z-scores obtenus entre cet homologue et les autres restent dans une gamme de valeurs où l’homologie est incertaine.

(3)

Famille de protéines homologues Code

PDB a Tm

(°C) Organisme hôte de la protéine

Id.

seq.

(%) b

Al.Struct.

DaliLite c (%) (σÅ)

Z- Score d

Nb.

a.a.

e

2acy 53,8 Bos taurus 100 - - 98

2bjd 100,8 Sulfolobus solfataricus 20 92 (1,1) 17,7 90 Acylphosphatase

1w2i 111,5 Pyrococcus horikoshii 29 92 (1,2) 17,7 90

1p3j 43,3 Bacillus subtilis 100 - - 212

1s3g 47,6 Bacillus globisporus 67 98 (0,7) 35,2 217 1aky 47,7 Saccharomices cerevisiae 42 97 (1,1) 32,7 218 1ank 51,8 Escherichia coli 48 97 (1,3) 30,7 214 Adénylate kinase

1zip 74,5 Bacillus stearothermophilus 74 98 1,6 33,1 217 1aqh 44,0 Alteromonas haloplanctis 100 - - 448

1ppi 65,6 Sus scrofa 46 89 (1,5) 51,1 496

1jae 65,9 Tenebrio molitor 41 92 (1,3) 52,4 471

1smd 70,3 Homo sapiens 44 88 (1,3) 51,0 496

α-Amylase

1bli 101,0 Bacillus licheniformis 13 76 (2,8) 28,5 481

1csp 53,8 Bacillus subtilis 100 - - 67

1mjc 56,7 Escherichia coli 59 96 (1,4) 12,9 69

« Cold shock protein »

1c9o 76,9 Bacillus caldolyticus 83 100 (0,8) 14,9 66

1bu7 47,0 Bacillus megaterium 100 - - 455

1oxa 55,0 Saccharopolyspora erythraea 13 82 (3,1) 32,4 403 1akd 61,0 Pseudomonas putida 10 82 (3,4) 30,0 405 1n97 88,0 Thermus thermophilus 20 98 (2,4) 40,2 385 Cytochrome P450

1f4t 91,0 Sulfolobus solfataricus 17 92 (3,0) 30,4 367

1oa3 49,2 Hypocrea schweinitzii 100 - - 217

1h8v 54,5 Trichoderma reesei 93 100 (0,4) 41,2 217 1oa4 66,8 Streptomyces sp. 31 95 (1,8) 27,9 222 Glycoside hydrolase

(Endoglucanase 12A)

1olr 68,7 Humicola grisea 47 100 (1,0) 36,4 223

1am7 52,3 Phage λ 100 - - 154

2lzm 64,8 Phage T4 16 53 (3,3) 2,8 164

1lz1 64,9 Homo sapiens 10 69 (3,3) 5,4 130

Lysozyme

4lyz 74,8 Gallus gallus 2 69 (3,2) 5,2 129

2fal 52,0 Aplysia limacina 100 - - 146

1ymb 78,3 Equus caballus 21 97 (2,0) 18,2 153

Myoglobine

1bvc 82,2 Physeter catodon 21 97 (2,0) 18,4 153

Tableau 2.1 – Caractéristiques des protéines homologues de chaque famille. a Code PDB de la structure de la protéine fournit par la « Protein Data Bank » [256]. b,c,d Les identités de séquence et alignements de structure ont été réalisés au sein de chaque famille par rapport à son premier membre.

b Alignement réalisé avec le logiciel ClustalW [253]. c Alignement de structure réalisé par DaliLite exprimé en pourcentage de résidus alignés, l’écart quadratique moyen des coordonnées atomiques des carbones α entre les deux structures tertiaires superposées est donné entre parenthèses [255]. d Z-score fournit par DaliLite [255]. e Nombre de résidus de la protéine.

(4)

2.2 Facteurs de séquence et de structure 2.2.1 Les ponts hydrogène

Un pont hydrogène n’est pas une liaison covalente. C’est une liaison physique de type dipôle-dipôle entre un atome électronégatif portant un doublet d’électrons libre (O, N, …) et un atome d’hydrogène possédant une liaison covalente avec un autre atome relativement électronégatif. Le premier atome électronégatif joue le rôle de donneur d’électrons (accepteur d’hydrogène) et le second joue le rôle de donneur d’hydrogène. L’hydrogène quant à lui joue le rôle d’accepteur d’électrons. En effet, une liaison covalente entre un atome relativement électronégatif et un atome d’hydrogène possède un dipôle. Ce dipôle exprime le fait que les deux électrons mis en commun pour réaliser cette liaison covalente sont attirés par l’atome plus électronégatif (fig. 2.1). Ce déséquilibre en présence d’un autre atome électronégatif avec un doublet libre donne lieu à une liaison hydrogène plus communément appelée pont hydrogène ou pont H.

Figure 2.1 – Représentation simplifiée d’un pont hydrogène entre deux molécules d’eau.

Bien que cette interaction soit de faible valeur énergétique, au sein d’une protéine, les ponts H sont omniprésents. En effet ils possèdent un grand rôle dans la formation et le maintien des motifs structuraux secondaires des protéines (hélice α, feuillet β,…). Il a été suggéré à plusieurs reprises que les liaisons hydrogènes jouent un rôle important dans le maintien de l’activité biologique à haute température. Ainsi, certains homologues issus d’organismes thermophiles disposent d’un plus grand nombre de ponts H que d’autres issus d’organismes mésophiles voir psychrophiles [40,44,50,91,94,95,103,115,124-126,136-139].

La structure tridimensionnelle d’une protéine laisse place à la distinction de trois types de ponts hydrogènes différents :

les ponts H (LL) formés entre atomes des deux chaînes latérales d’une paire de résidus.

les ponts H (PP) formés entre atomes de la chaîne principale d’une paire de résidus.

Ces ponts H se retrouvent en grande partie dans la stabilisation des motifs de la structure secondaire des protéines.

les ponts H (LP) formés entre un atome de la chaîne latérale d’un résidu et un atome de la chaîne principale d’un résidu.

(5)

2.2.2 Les ponts disulfures

Les ponts disulfures sont des liaisons covalentes fortes entre deux atomes de soufre. Le seul parmi les vingt acides aminés présents dans les protéines capable de former ces interactions est la cystéine. Ces ponts disulfures font partie des interactions tertiaires ou quaternaires dans le cas de certaines protéines multimériques. Ces liaisons peuvent dans certains cas servir au maintien de la stabilité de protéines monomériques (e.g. maurotoxine, neurotoxines, …) ou au maintien des liaisons entre différentes chaînes polypeptidiques d’une protéine multimérique (e.g. anticorps, insuline …). Par ailleurs, ces interactions sembleraient jouer un rôle quant à la thermostabilité de certaines protéines [44,89,105-110].

2.2.3 Les ponts salins

L’interaction électrostatique entre deux acides aminés de charge opposée est communément appelée pont salin. Les ponts salins considérés dans ce travail impliquent les paires de résidus [D-K], [E-K], [D-R] et [E-R]. Il serait possible d’ajouter à ces deux groupes d’acides aminés l’histidine. Cependant, l’histidine possède une constante d’acidité qui induit une grande variabilité de ses deux états (chargé ou non-chargé) en fonction de l’environnement dans lequel elle se trouve. Afin d’éviter les incertitudes liées à cette particularité, nous n’avons pas considéré l’histidine comme potentiellement capable de former des ponts salins.

Ces interactions ont été à plusieurs reprises mises en avant comme facteur promouvant la thermostabilité des protéines au sein de familles de protéines homologues. Les ponts salins sont capables de former des réseaux électrostatiques pour lesquels une tendance similaire a été observée [44,84,87,88,91,94-96,99,100,102,103,111-130,165].

2.2.4 Les interactions effectives entre acides aminés hydrophobes

Plus communément appelées interactions hydrophobes, il s’agit du rapprochement de deux corps hydrophobes dans un milieu aqueux polaire lié à l’effet hydrophobe. L’effet hydrophobe joue un rôle principal dans le repliement d’une protéine. En contact avec un solvant aqueux polaire, une chaîne polypeptidique présentant des résidus hydrophobes contraint le système à perdre de son entropie et favorise son repliement en un empilement favorable de résidus hydrophobes. Un empilement plus compact et avec un caractère hydrophobe fort semble favoriser la thermostabilité des protéines [44,91,97,118,131-135].

2.2.5 Les interactions aromatiques

Ces interactions quadrupolaires se forment entre les cycles aromatiques des résidus F, W et Y. Bien que l’histidine puisse former de telles interactions, nous l’avons à nouveau négligée à cause de la charge qu’elle peut porter. Ces interactions contribuent à la stabilité thermodynamique des protéines et la présence d’amas de résidus aromatiques joue un rôle favorable vis-à-vis de leur thermostabilité [44,156-160]. Elles existent essentiellement sous deux conformations : la conformation en T (les deux cycles aromatiques sont orientés de façon perpendiculaire) et l’empilement en parallèle de leurs cycles aromatiques.

(6)

2.2.6 Les interactions cation-π π π π

Il s’agit de l’interaction entre un acide aminé portant une charge positive (K, R et éventuellement H) et les orbitales π du groupement phényle d’un résidu aromatique (F, W, Y). La délocalisation des électrons du cycle imidazole de l’histidine peut également jouer ce rôle. Les résidus N et Q peuvent quant à eux réaliser des interactions amino-π entre leur groupement portant une charge partielle positive et un résidu aromatique. Le double rôle de l’histidine en tant qu’acide aminé chargé ou aromatique en fonction de son environnement proche et de son partenaire est pris en compte dans l’étude de ces interactions. Ces interactions tertiaires contribuent à la stabilité de la structure d’une protéine et jouent un rôle dans la reconnaissance des anticorps et des couples récepteur-ligand [257-261].

2.2.7 Le pourcentage de structure secondaire

Certaines études ont montré que des protéines thermostables ont une structure secondaire plus étendue que celle de leurs homologues mésostables [85,90,91,94-96,99-101,103]. Les motifs structuraux en hélice α et en feuillet β des protéines homologues thermostables prennent la place des boucles flexibles non structurées des homologues mésostables (fig. 2.2). Il y a un lien assez clair entre ce phénomène et le maintien de la fonction biologique d’une protéine à des températures extrêmes. En effet, la flexibilité d’une protéine est essentielle pour maintenir sa fonction. Que la température optimale de fonctionnement (Topt) d’une protéine soit élevée ou basse, sa flexibilité à cette température sera très semblable pour lui permettre d’accomplir son activité (hypothèse d’état correspondant, section 1.4) [172]. En suivant cette hypothèse, il peut paraître logique qu’à température ambiante, une protéine thermostable soit moins flexible qu’une protéine mésostable.

Figure 2.2 – Illustration schématique de la structure secondaire plus étendue d’un homologue thermostable. Figure adaptée de la référence [10].

2.2.8 La composition en acides aminés

Dès les premiers pas effectués dans ce domaine de recherche, la composition en acides aminés des protéines thermostables et mésostables a été analysée. De manière générale il a été observé que leur composition varie et que la proportion d’acides aminés chargés (D,E,K,R) augmente au détriment d’acides aminés polaires non-chargés (N,Q,S,T) [72-75,85,91,94,95,98-103]. Une des explications de cette variation est liée à la déamidation plus aisée de l’asparagine et la glutamine à température élevée. Par ailleurs la sérine et la thréonine facilitant ce processus sont également moins abondantes au sein de protéines thermostables [44,80].

(7)

2.3 Méthodes d’identification des différents facteurs

Ci-dessous sont décrits brièvement les divers logiciels, méthodes et critères utilisés pour déterminer chaque facteur au sein d’une protéine donnée.

a) Les ponts hydrogènes : définis et comptabilisés à l’aide du logiciel HBPLUS [262], nous différencions trois types de ponts H, les ponts H formés entre deux atomes situés sur les chaînes latérales d’une paire de résidus (LL), situés sur leur chaîne principale (PP), dont l’un est situé sur la chaîne latérale et l’autre sur la chaîne principale (LP)

b) Les ponts disulfures : définis et comptabilisés à l’aide du programme DSSP utilisant un critère de distance spatiale de 3,0 Å entre deux atomes de soufres de deux cystéines [263]. c) Les ponts salins : comptabilisés à l’aide du logiciel HBPLUS [262], nous considérons la

formation d’un pont salin entre un atome d’oxygène du groupement carboxyle des chaînes latérales des résidus D ou E et un atome d’azote de l’extrémité des chaînes latérales des résidus K ou R lorsqu’ils sont séparés par une distance spatiale inférieure ou égale à 4,0 Å [264].

d) La fraction de ponts salins inclus dans des réseaux électrostatiques : ce facteur correspond au nombre de ponts salins inclus dans des chaînes de ponts salins (réseaux électrostatiques) divisé par le nombre total de ponts salins de la protéine. Un pont salin est considéré comme inclus dans une chaîne s’il intervient dans la formation de plus d’un seul pont salin.

e) Les interactions effectives entre deux résidus hydrophobes : déterminées par un critère de distance spatiale de maximum 8 Å entre les centres géométriques (Cµ) d’une paire de résidus parmi A, I, L, M et V. Ce critère définit un contact plutôt qu’une interaction proprement dite entre deux résidus hydrophobes ce qui décrit correctement l’effet hydrophobe.

f) Les interactions aromatiques : déterminées par un critère de distance spatiale de maximum 8 Å entre les centres géométriques (Cµ) d’une paire de résidus parmi F, W et Y. Ce critère défini un contact plutôt qu’une interaction proprement dite entre deux résidus aromatiques. Malheureusement, cette description mélange plusieurs contributions différentes. En effet, deux acides aminés aromatiques dont les Cµ sont distants de moins de 8 Å peuvent former une interaction ayant plusieurs composantes différentes : une composante électrostatique, une composante liée au recouvrement d’orbitales π et une composante liée à l’effet hydrophobe. Bien que nous utilisions le terme d’interaction aromatique, il s’agit plutôt d’un contact entre résidus aromatiques.

g) Les interactions cation-π : déterminées par un critère d’angle et de distance entre une paire de résidus parmi (H), K, N, Q, R et F, (H), W, Y. Le critère de distance requiert que moins de 4,5 Å séparent un des atomes du cycle aromatique de l’un des atomes portant la charge positive [200,258]. Le critère d’angle impose que ce dernier soit au dessus du plan défini par le cycle aromatique. Ces deux critères définissent un cylindre au dessus du cycle aromatique de 4,5 Å dans lequel doit se trouver un des atomes portant la charge positive (fig. 2.3).

(8)

Figure 2.3 – Critères géométriques définissant les interactions cations-π. N est le vecteur normal au plan aromatique, m est le centre du cycle, c et π représentent la charge positive (partielle) et l’atome du cycle aromatique le plus proche de c respectivement, ils sont séparés par la distance d. r vaut deux fois le rayon du cycle aromatique. C est le vecteur reliant le centre du cycle aromatique et c, P est le vecteur de longueur r d’origine m passant par π. Nous considérons qu’il y a une interaction de type cation-π entre le cycle et la charge si d est inférieur ou égal à 4,5Å et si l’angle entre N et C est plus petit ou égal à celui formé entre N et N+P. Figure issue de la référence [200].

h) Le pourcentage en structure secondaire : en utilisant le logiciel DSSP (basé sur les séquences de ponts hydrogènes et des critères géométriques) nous comptabilisons le nombre de résidus inclus dans des motifs structuraux tels que les hélices et les feuillet β parmi l’entièreté des résidus [263]. Le pourcentage de structure secondaire en hélice (feuillet) est donné par le nombre de résidus inclus dans une hélice (feuillet) divisé par le nombre total de résidus de la protéine.

i) La composition en acides aminés : déterminée par simple comptage des résidus de nature identique au sein de la protéine (à partir de la description structurale de la Protein Data Bank [256]) et normalisé par le nombre de résidus de la protéine (exprimé en pourcent, eq. 2.1). Ce facteur global a été complété par deux autres évaluant la composition au cœur et en surface de chaque protéine. Un résidu s est considéré comme étant au cœur (en surface) si sa surface exposée au solvant est inférieure à 50% (égale ou supérieure à 50%) de celle exposée dans le tri-peptide G-s-G [265].

N AAGlobal = Ns

% ;

int int s

Int N

AA = N

% ;

ext ext s

Ext N

AA = N

% (2.1)

où %AAGlobal, %AAInt et %AAExt désignent les pourcentages du résidu s dans l’entièreté de la protéine, au cœur et en surface de celle-ci. N est le nombre de résidus de la protéine, Ns est le nombre de résidus de type s, Nint (Next) est le nombre de résidus au cœur (en surface) de la protéine, Ns-int (Ns-ext) est le nombre de résidus de type s au cœur (en surface) de celle-ci.

Les facteurs a, b, c, e, f et g, sont normalisés par le nombre de résidus de la protéine à partir de laquelle ils ont été obtenus et exprimés en pourcent dans les tableaux de résultats 2.3-2.10. Le nombre de ponts salins inclus dans des réseaux électrostatiques (d) n’est normalisé que par le nombre total de ponts salins de la protéine et n’est pas exprimé en pourcent.

Les résultats sont d’abord décrits pour chacune des familles de protéines sous forme de tableaux reprenant la proportion de chacun des facteurs au sein de chaque protéine.

L’influence de ceux-ci est évaluée par famille à l’aide du coefficient de corrélation de la

(9)

régression linéaire de chaque facteur avec la température de fusion des protéines. La significativité de cette corrélation est attestée par une p-valeur qui estime la probabilité d’observer une telle corrélation dans une distribution aléatoire. Une corrélation est de manière générale considérée comme significative si sa p-valeur est en dessous de 0,05. En ce qui concerne la variation de la proportion d’acides aminés en fonction de la thermostabilité, un tableau récapitulatif sur l’ensemble des huit familles est fourni.

(10)

2.4 Résultats

Les premiers résultats que nous allons présenter récapitulent les variations de la proportion d’acides aminés en fonction de la thermostabilité sur l’ensemble des huit familles (tableau 2.2). Cette variation est en effet susceptible d’avoir un impact sur certains des facteurs de structure et certaines interactions que nous avons considérés. Ensuite, les résultats sont présentés pour chacune des familles de protéines sous forme de tableaux reprenant la proportion de chacun des facteurs au sein de chaque protéine. L’influence de ceux-ci est évaluée par famille à l’aide du coefficient de corrélation de la régression linéaire de chaque facteur avec la température de fusion des protéines. La significativité de cette corrélation est attestée par une p-valeur qui estime la probabilité d’observer une telle corrélation dans une distribution aléatoire. Une corrélation est de manière générale considérée comme significative si sa p-valeur est en dessous de 0,05.

Ces résultats sont ensuite regroupés en un tableau résumant l’essentiel de ces observations et donnant lieu à une discussion plus générale.

2.4.1 Variation de la composition en acides aminés

L’un des facteurs considérés dans notre étude est la composition en acides aminés des protéines. En effet, les protéines issues d’organismes thermophiles présentent une composition en acides aminés différente. Dès lors, le pourcentage de chaque acide aminé dans chaque protéine au sein de chaque famille a été calculé. Pour chacune d’elles, une régression linéaire a été effectuée entre les températures de fusion et les pourcentages des vingt résidus de ses homologues. Les coefficients de corrélation de ces régressions sont présentés dans le tableau 2.2.

Famille \ Acide aminé A C D E F G H I K L

Acylphosphatase 0,98 n.d. -0,99 0,86 0,54 0,60 -0,71 -0,98 -0,83 0,63 Adénylate kinase 0,09 0,12 -0,72 -0,30 -0,26 -0,29 0,07 -0,69 -0,59 -0,17 α-Amylase -0,35 -0,75 0,53 0,67 -0,15 -0,28 0,76 -0,12 0,81 0,50 Cold Shock Protein -1,00 n.d. -0,56 0,17 -0,42 0,86 0,75 -0,35 -0,35 0,65 Cytochromes P450 -0,17 -0,43 -0,65 0,90 0,10 -0,12 -0,59 0,02 0,01 0,54 Glycoside hydrolase -0,68 0,96 0,83 0,94 -0,06 -1,00 0,97 0,88 -0,53 0,21 Lysozyme 0,85 0,92 -0,83 -0,71 -0,94 -0,25 -0,79 -0,71 -0,91 -0,85 Myoglobine -0,97 n.d. -0,78 1,00 -1,00 0,29 1,00 0,99 0,99 1,00

*-*-*-*-*-*-* M N P Q R S T V W Y

Acylphosphatase 0,40 0,20 0,95 0,94 0,85 0,80 0,98 0,60 0,22 0,06 Adénylate kinase 0,88 0,22 -0,59 -0,06 0,88 0,18 0,23 0,34 -0,01 -0,12 α-Amylase -0,67 -0,93 0,00 -0,06 0,36 -0,99 0,06 -0,48 0,41 0,81 Cold Shock Protein 0,75 0,98 -0,37 0,68 0,80 -0,56 -0,38 0,68 0,75 0,63 Cytochromes P450 -0,62 -0,10 0,08 -0,70 0,68 0,30 -0,40 -0,43 0,75 0,31 Glycoside hydrolase -0,54 -0,97 0,81 -0,97 0,93 -0,79 -0,37 -0,22 0,51 -0,63 Lysozyme -0,45 0,78 -0,92 -0,53 0,76 0,03 -0,01 0,76 0,94 0,23 Myoglobine -0,99 -1,00 -0,99 0,94 -0,48 -0,98 0,87 -0,93 -0,99 0,97

Tableau 2.2 – Coefficients de corrélation entre le pourcentage en acides aminés et la température de fusion des protéines au sein de chaque famille. Les coefficients de corrélation présentés en gras sont considérés comme significatifs (avec une p-valeur ≤ 0,05) et ceux en italique sont considérés comme faiblement significatifs (avec une p-valeur ≤ 0.1).

(11)

De manière générale nous retrouvons dans ce tableau les tendances déjà observées à savoir un remplacement des acides aminés polaires non-chargés par des acides aminés chargés plus la température de fusion de la protéine est élevée [72-75,85,91,94,95,98-103]. En effet, parmi les vingt acides aminés, les variations en abondance de l’acide glutamique et de l’asparagine apparaissent au sein de trois familles comme influençant significativement la stabilité thermique des protéines parmi ces huit familles. Ce premier résidu est plus abondant parmi les homologues thermostables alors que l’inverse est observé pour le second. Par ailleurs, la variation en composition des protéines en certains résidus est sporadiquement corrélée avec la variation de stabilité thermique dans certaines familles. Certaines de ces variations sont plus aisées à interpréter comme l’augmentation relative de la présence de H, K et R ainsi que la diminution relative de Q et S chez les homologues plus thermostables.

D’autres plus compliquées comme l’augmentation relative de L et M ainsi que la diminution relative de F et W. Il est à noter également qu’une augmentation du pourcentage de cystéine chez les homologues thermostables pourrait faire songer à l’accroissement du nombre de ponts disulfures bien que ce ne soit pas le cas ici dans la famille présentant cette tendance puisque tous les homologues n’ont qu’un seul pont disulfure [40]. Une diminution du pourcentage de glycine peut être liée à la plus grande flexibilité qu’elle apporte dans une chaîne polypeptidique et qui stabilise son état déplié.

Nous avons également analysé les variations de composition au cœur et en surface de chaque protéine parmi ces huit familles. Les résultats que nous avons obtenus sont peu significatifs mais néanmoins ils corroborent certaines tendances déjà observées [44,98-103,141]. En effet, une plus grande proportion d’acides aminés chargés et/ou polaires se retrouvent en surface au sein des protéines thermorésistantes.

2.4.2 Acylphosphatase

La réaction chimique catalysée par ces enzymes en présence d’eau enlève le radical phosphate d’un acyle pour en former un carboxyle [266,267]. Ce type de réaction entre en jeu notamment dans la voie métabolique de la glycolyse et du pyruvate (eq. 2.2).

(2.2)

Le seul facteur ayant une corrélation significative au sein de cette famille est l’augmentation du nombre de contacts entre acides aminés hydrophobes plus la température de fusion de la protéine considérée est élevée (tableau 2.3). Il semblerait donc qu’afin de se préserver d’une dénaturation thermique, ces protéines augmentent le nombre d’interactions effectives entre leurs résidus hydrophobes. L’augmentation du nombre de résidus hydrophobes et/ou l’augmentation de la compacité de leur espace de contact sont deux voies possibles pour y parvenir. Parmi les acides aminés hydrophobes, seule l’alanine montre une augmentation conséquente (tableau 2.2).

(12)

Tm (C°)a PDBb Ponts salinsc P-sal/

Chd LLe LPf PPg Ponts-

Htoth Cat-πi Hydrophj Aromk %Hélicel %Feuilletm 53,8 2acy 3,1 0,7 10,2 12,2 60,2 82,7 2,0 4,3 6,1 24,5 41,8 100,8 2bjd 5,6 0,4 5,6 11,1 80,0 96,7 1,1 7,7 5,6 24,4 43,3 111,5 1w2i 10,0 0,6 7,8 24,4 61,1 93,3 1,1 8,3 2,2 24,4 42,2 Coeff. Corrélationn : 0,87 -0,69 -0,78 0,58 0,38 0,92 -0,98 1,00 -0,74 -0,98 0,56 P-valeuro : 0,32 0,51 0,43 0,60 0,75 0,26 0,11 0,01 0,47 0,11 0,62

Tableau 2.3 – Valeurs des facteurs de la famille des Acylphosphatases.a Température de fusion de la protéine. b Code PDB correspondant à la structure de la protéine. Les valeurs des facteurs présentés sont normalisées par le nombre de résidus de la protéine considérée et exprimés en pourcent sauf pour Psal/Chd, c Nombre de ponts salins. d Nombre de ponts salins inclus dans des réseaux électrostatiques normalisé par le nombre total de ponts salins. e Nombre de ponts hydrogène entre atomes des chaînes latérales de résidus. f Nombre de ponts hydrogène entre un atome d’une chaîne latérale d’un résidu et un atome de la chaîne principale. g Nombre de ponts hydrogène entre atomes de la chaîne principale. h Nombre total de ponts hydrogènes. i Nombre d’interactions cation-π.

j Nombre d'interactions effectives entre deux résidus hydrophobes. k Nombre d’interactions entre deux résidus aromatiques. l Pourcentage de résidus adoptant le motif en hélice α ou 310. m Pourcentage de résidus adoptant le motif en feuillet β. n Coefficient ce la corrélation linéaire entre chaque facteur et la température de fusion. o p-valeur de la corrélation, « n.d. » est utilisé si la p-valeur ne peut être calculée. n,o Les valeurs en gras sont considérées comme significatives ayant une p-valeur ≤ 0,05 et les valeurs en italique ont une p-valeur ≤ 0.2.

2.4.3 Adénylate kinase

Cette protéine est une phosphotransférase, une enzyme qui intervient dans la réaction de transformation de deux molécules d’ADP (adénosine di-phosphate) en une molécule d’ATP et d’AMP (adénosine tri- et mono-phosphate) [268-270].

AMP ATP

ADPAdénylate kinase→ +

2 (2.3)

Tm (C°)a PDBb Ponts salinsc

P-sal/

Chd LLe LPf PPg Ponts-

Htoth Cat-πi Hydrophj Aromk %Hélicel %Feuilletm 43,3 1p3j 4,7 0,6 6,1 16,0 67,0 89,2 0,5 6,2 1,4 51,4 16,5 47,6 1s3g 5,1 0,4 5,1 18,9 63,1 87,1 1,4 6,1 0,5 47,9 16,6 47,7 1aky 5,5 0,3 9,2 17,9 62,8 89,9 0,0 7,3 0,0 49,5 16,5 51,8 1ank 6,5 0,4 3,7 10,3 62,6 76,6 0,0 6,6 0,9 43,0 15,9 74,5 1zip 6,0 0,3 6,9 17,5 64,1 88,5 0,9 7,2 0,5 51,2 16,1 Coeff. Corrélationn : 0,53 -0,57 0,09 0,08 -0,17 0,03 0,02 0,58 -0,28 0,19 -0,53 P-valeuro : 0,35 0,32 0,88 0,90 0,78 0,97 0,97 0,31 0,65 0,75 0,36

Tableau 2.4 – Valeurs des facteurs de la famille des Adénylate kinases. Légende cf. tableau 2.3.

Parmi les différents facteurs définis aucun ne semble apporter une réponse significative à l’augmentation de la température de fusion des protéines de cette famille. En ce qui concerne la composition en acides aminés, l’arginine et la méthionine augmentent significativement en fonction de la thermostabilité (tableau 2.2). L’augmentation de méthionine est difficile à expliquer, c’est un acide aminé très rare et une variation minime de leur nombre peut conduire à cette tendance. Cependant le remplacement d’un résidu hydrophobe par une méthionine peut conduire à une augmentation du nombre de ponts H. L’augmentation du nombre d’arginines

(13)

peut être liée à la tendance peu significative de l’augmentation du nombre de ponts salins et à celle déjà observée de l’augmentation du nombre d’acides aminés chargés au sein de protéines thermorésistantes.

2.4.4 α α-Amylase α α

Cette enzyme largement utilisée dans l’industrie agro-alimentaire catalyse la dégradation de l’amidon en sucres plus simples (amylopectine glucose). Plus précisément elle hydrolyse les liaisons α-(1-4)-glycosidiques de l’amidon [140,161,177].

(2.4)

Tm (C°)a PDBb Ponts salinsc P-sal/

Chd LLe LPf PPg Ponts-

Htoth Cat-πi Hydrophj Aromk %Hélicel %Feuilletm 44,0 1aqh 3,8 0,5 8,5 25,0 52,0 85,5 2,5 4,9 11,2 30,8 23,4 65,6 1ppi 5,4 0,4 10,9 30,4 49,4 90,7 2,0 4,4 9,9 28,2 23,8 65,9 1jae 4,5 0,5 9,6 29,2 51,9 90,6 2,1 5,0 9,2 26,8 25,1 70,3 1smd 6,3 0,2 12,3 34,6 50,7 97,6 2,6 4,4 10,5 27,7 23,6 101,0 1bli 6,0 0,2 12,1 34,3 54,3 100,6 3,3 4,6 12,7 26,6 24,3 Coeff. Corrélationn : 0,75 -0,78 0,78 0,83 0,54 0,92 0,72 -0,31 0,54 -0,81 0,38 P-valeuro : 0,14 0,12 0,12 0,08 0,34 0,03 0,17 0,61 0,35 0,09 0,53

Tableau 2.5 – Valeurs des facteurs de la famille des α-Amylases. Légende cf. tableau 2.3.

Cette famille de protéines homologues met en évidence l’augmentation du nombre de ponts hydrogène pour palier à la dénaturation thermique. En effet le nombre total de ponts H augmente et cette tendance est plus fortement liée à l’augmentation de ponts H de type LP (entre un atome de la chaîne latérale et un atome de la chaîne principale) qu’aux deux autres.

Ces interactions bien que de faible valeur énergétique contribuent à augmenter leur stabilité thermodynamique à haute température. D’autre part, la diminution du pourcentage d’acides aminés insérés dans un motif d’hélice est moins significative mais elle peut être liée à une mauvaise reconnaissance de ces motifs ou à leur raccourcissement afin d’augmenter leur compacité. La diminution des acides aminés N et S plus la thermostabilité des protéines augmente est significative et corrèle avec l’observation que les acides aminés polaires non-chargés sont moins présents au sein de protéines thermorésistantes.

2.4.5 « Cold Shock Protein »

Ces petites protéines compactes en β-barrel sont fortement exprimées suite à une chute de la température et permettent de réguler la synthèse de diverses protéines afin de maintenir les fonctions essentielles à la survie d’un micro-organisme à une température plus faible [141,271-273].

Les variations du nombre de ponts salins et de leur mise en réseau électrostatique sont les deux seuls facteurs considérés susceptibles d’expliquer les différences de thermostabilité entre

(14)

de ces protéines. D’autre part, il semblerait que la plus grande thermostabilité de la protéine provenant de Bacillus caldolyticus (1c9o) soit liée à une augmentation des acides aminés chargés en surface [141]. Bien que nous n’observions pas de variation significative en ce qui concerne la composition en acides aminés chargés en surface, la tendance observée concernant le nombre de ponts salins impliquant des résidus chargés corrobore ces observations.

Tm (C°)a PDBb Ponts salinsc P-sal/

Chd LLe LPf PPg Ponts-

Htoth Cat-πi Hydrophj Aromk %Hélicel %Feuilletm

53,6 1csp 1,5 0,0 7,5 13,4 46,3 67,2 1,5 6,1 9,0 4,5 55,2

56,7 1mjc 1,5 0,0 10,1 10,1 53,6 73,9 0,0 5,4 8,7 4,4 49,3 76,9 1c9o 4,6 0,7 15,2 12,1 50,0 77,3 0,0 6,1 9,1 4,6 62,1 Coeff. Corrélationn : 0,99 0,99 0,97 -0,01 0,13 0,83 -0,60 0,32 0,67 0,68 0,82 P-valeuro : 0,08 0,08 0,14 0,10 0,92 0,38 0,59 0,79 0,53 0,52 0,38

Tableau 2.6 – Valeurs des facteurs de la famille des « Cold Shock Protein ». Légende cf.

tableau 2.3.

2.4.6 Cytochrome P450

Ces enzymes sont essentielles à un organisme pour l’utilisation de composés carbonés comme source d’énergie, le catabolisme de médicaments, la biosynthèse de stéroïdes… Ces enzymes sont donc présentes dans toute la biosphère et leur nombre au sein d’un même organisme est imposant. Ainsi, le génome de l’être humain dispose d’environ 180 cytochromes P450 [274]. Leur rôle est de catalyser la monooxygénation d’un grand nombre de composés organiques (eq. 2.5).

NAD(P)H + H+ + R-H + O2C →.P450 NAD(P)+ + H2O + R-OH (2.5)

Tm (C°)a PDBb Ponts salinsc P-sal/

Chd LLe LPf PPg Ponts-

Htoth Cat-πi Hydrophj Aromk %Hélicel %Feuilletm 47,0 1bu7 7,0 0,5 9,5 19,8 64,2 93,4 2,4 6,7 5,9 55,0 11,0 55,0 1oxa 6,2 0,2 5,0 23,3 60,6 88,8 0,0 8,3 5,2 50,9 10,9 61,0 1akd 6,2 0,4 9,6 22,0 55,6 87,2 2,5 6,6 5,9 49,4 10,4 88,0 1n97 6,8 0,6 5,5 19,2 64,2 88,8 2,1 7,6 6,0 57,1 10,7 91,0 1f4u 8,2 0,6 7,1 24,0 63,2 94,3 1,1 6,5 6,0 49,9 13,1 Coeff. Corrélationn : 0,58 0,78 -0,23 -0,3 -0,12 0,15 -0,45 -0,23 0,45 -0,16 0,14 P-valeuro : 0,31 0,12 0,70 0,62 0,85 0,81 0,45 0,71 0,44 0,80 0,82

Tableau 2.7 – Valeurs des facteurs de la famille des Cytochrome P450. Légende cf. tableau 2.3.

Aucun facteur considéré dans ce travail ne montre une variation significative capable d’expliquer la variation de thermostabilité au sein de cette famille de protéines. Cependant, Yano et al. (2003) ont mis en évidence le rôle important du nombre de ponts salins inclus dans des réseaux électrostatiques au sein des cytochrome P450 [165]. Nos résultats n’étant pas significatifs nous ne pouvons que constater qualitativement qu’effectivement la proportion de ponts salins est un facteur moins déterminant que la proportion inclus dans des réseaux électrostatiques. Une augmentation significative de la proportion d’acide glutamique corrèle avec ces observations (tableau 2.2).

(15)

2.4.7 Glycoside hydrolase (Endoglucanase 12A)

Il s’agit d’enzymes très utilisées dans l’industrie textile et alimentaire capables de dégrader la cellulose. Ces cellulases hydrolysent les liens β-(1-4)-glycosidiques [108,275,276].

(2.6)

Tm (C°)a PDBb Ponts salinsc

P-sal/

Chd LLe LPf PPg Ponts-

Htoth Cat-πi Hydrophj Aromk %Hélicel %Feuilletm

49,2 1oa3 0,5 0 11,1 16,6 61,8 89,4 1,8 3,1 14,3 7,4 56,2

54,5 1h8v 0,9 0 12,9 17,5 59,5 89,9 0,9 3,1 14,3 6,5 55,8

66,8 1oa4 2,3 0 10,4 23,0 57,2 90,5 1,8 4,8 9,9 5,9 50,5

68,7 1olr 2,2 0 8,5 20,2 57,4 86,1 1,8 3,3 13,9 9,4 53,8

Coeff. Corrélationn : 1,00 n.d. -0,72 0,88 -0,97 0,43 0,33 0,60 -0,56 0,28 -0,80 P-valeuro : 0,01 n.d. 0,275 0,121 0,03 0,57 0,672 0,402 0,436 0,716 0,203

Tableau 2.8 – Valeurs des facteurs de la famille des Glycoside hydrolases. Légende cf.

tableau 2.3.

Deux facteurs parmi ceux considérés varient significativement avec les différences de stabilité thermique de cette famille de protéines homologues : le nombre de ponts salins et le nombre de ponts H de type PP (entre deux atomes de la chaîne principale). L’anti-corrélation entre ces ponts H et la température de fusion des protéines peut être liée à une tendance à réaliser un plus grand nombre d’interactions tertiaires plutôt que locales pour éviter une dénaturation globale de la structure protéique. Bien que tous les ponts H puissent être considérés comme des interactions tertiaires ou locales en fonction des cas, il est possible de faire une analogie entre les ponts H de type PP et les motifs structuraux de la structure secondaire d’une protéine d’une part et les ponts H de type LL et les interactions tertiaires de la structure tertiaire d’une protéine d’autre part. Par ailleurs nous observons à nouveau une augmentation significative du nombre de ponts salins avec la thermostabilité croissante de ces protéines. En ce qui concerne la variation de la composition en acides aminés en fonction de la thermostabilitié croissante : E et R augmentent significativement au détriment de N et Q, la proportion de cystéines augmente mais le nombre de ponts disulfures reste identique (un seul) et la proportion de glycine diminue. Cette diminution reflète la stabilisation de l’état natif d’une protéine par la diminution de son entropie conformationnelle [149,163]. En effet, la chaîne latérale de la glycine étant un simple atome d’hydrogène, son insertion confère une grande flexibilité dans une chaîne polypeptidique qui contribue au terme entropique stabilisant l’état dénaturé d’une protéine. Les travaux de Sandgren et al. (2003) sur la différence de stabilité thermique entre les protéines de cette famille issues des organismes Trichoderma reesei (1h8v) et Humicola grisea (1olr) montrent le rôle important de trois cystéines supplémentaires dans la protéine 1olr vis-à-vis de la thermostabilité [141,276]. Bien que spatialement proches ces trois cystéines ne forment pas de ponts disulfures et leur influence est semble-t-il due à plusieurs interactions formées entre les cystéines et leurs acides aminés voisins.

(16)

2.4.8 Lysozyme

Ces protéines sont des hydrolases capables de lyser les parois bactériennes. Les phages utilisent ces enzymes pour s’insérer dans leur hôte. En outre, ces enzymes préservent certains organismes d’infections bactériennes.

Les augmentations du nombre d’interactions cation-π et de la proportion de résidus inclus dans des feuillets β sont significatives au sein de cette famille de protéines parmi les homologues plus thermostables. Avec une significativité plus faible (p-valeur <0,1) les ponts salins semblent aussi contribuer au gain de thermostabilité dans cette famille. Les interactions cation-π bien qu’ayant une composante électrostatique sont moins souvent que les ponts salins citées dans la littérature comme facteur favorisant la thermostabilité des protéines.

Cependant leur rôle thermostabilisant dans cette famille est prépondérant. Par ailleurs, l’accroissement du pourcentage de motif structuraux en feuillet β avec la thermostabilité corrèle avec un prolongement des motifs de structure secondaire des protéines thermostables (feuillets et/ou hélices) plusieurs fois proposé comme mécanisme permettant d’éviter des boucles trop flexibles facilitant la dénaturation thermique [85,90,91,94-96,99-101,103].

Tm (C°)a PDBb Ponts salinsc P-sal/

Chd LLe LPf PPg Ponts-

Htoth Cat-πi Hydrophj Aromk %Hélicel %Feuilletm 52,3 1am7 8,7 0,5 12,0 24,7 53,3 90,0 1,3 5,1 4,0 42,0 8,0

65,0 2lzm 5,5 0 7,3 18,3 64,6 90,2 2,4 7,0 2,4 66,5 9,2

74,8 4lyz 2,3 0 10,1 20,2 55,0 85,3 3,1 5,3 6,2 39,5 10,9 80,3 1lz1 3,9 0 11,5 29,2 56,9 97,7 3,9 5,5 4,6 39,2 12,3 Coeff. Corrélationn : -0,91 -0,86 -0,05 0,25 0,11 0,32 0,99 0,01 0,47 -0,26 0,98 P-valeuro : 0,09 0,14 0,95 0,75 0,89 0,68 0,01 0,99 0,53 0,74 0,02

Tableau 2.9 – Valeurs des facteurs de la famille des Lysozymes. Légende cf. tableau 2.3.

2.4.9 Myoglobine

La myoglobine est une protéine jouant le rôle de transporteur d’oxygène. Elle a la particularité d’être constituée d’une seule chaîne polypeptidique qui contient un noyau porphyrique (hème) renfermant un atome de fer (Fe2+) [183,277].

Tm (C°)a PDBb Ponts salinsc P-sal/

Chd LLe LPf PPg Ponts-

Htoth Cat-πi Hydrophj Aromk %Hélicel %Feuilletm

52,0 2fal 2,7 0 1,4 13,0 84,3 98,6 2,1 7,5 13,0 78,8 0

81,2 1ymb 3,9 0 5,2 13,1 79,7 98,0 2,0 6,5 3,3 73,9 0

85,0 1bvc 6,5 0,2 2,6 17,0 78,4 98,0 2,6 6,9 3,3 75,8 0

Coeff. Corrélationn : 0,81 0,59 0,67 0,60 -0,99 -0,99 0,48 -0,88 -0,99 -0,87 n.d.

P-valeuro : 0,40 0,60 0,53 0,59 0,07 0,07 0,68 0,32 0,07 0,33 n.d.

Tableau 2.10 – Valeurs des facteurs de la famille des Myoglobines. Légende cf. tableau 2.3.

Parmi les divers facteurs considérés aucun ne présente une corrélation significative avec la variation de thermostabilité des protéines de cette famille. Par contre les variations des pourcentages en acides aminés parmi ces protéines donnent de meilleures corrélations avec leurs changements de stabilité thermique (tableau 2.2). L’acide glutamique et l’histidine sont plus abondants plus la stabilité thermique augmente à l’inverse de la phénylalanine, la leucine et l’asparagine. Au sein de cette famille l’augmentation du pourcentage en acides aminés

(17)

chargés E et H se fait au détriment de l’acide aminé polaire non-chargé N et des résidus hydrophobes L et F. Cette tendance est corroborée par plusieurs travaux [72-75,85,91,94,95,98-103].

Figure

Updating...

Références

Updating...

Sujets connexes :