Texte intégral

(1)

Chapitre 5 – Corrélation entre Tenv et Tm

5Chapitre 5

Analyse de la corrélation entre la thermostabilité et la thermophilicité des protéines

Ce chapitre a pour objectif de mettre en évidence l’importance du choix du descripteur de la thermostabilité des protéines lors d’une étude bioinformatique. En effet, bien que la température de fusion (Tm) d’une protéine soit considérée comme le meilleur descripteur de sa stabilité thermique, une des approximations souvent réalisées dans ce domaine consiste à utiliser la température de l’environnement dans lequel se développe l’organisme duquel provient la protéine (Tenv). Nous définissons la thermophilicité d’une protéine par sa Tenv qui désigne la classe d’organismes à laquelle appartient son hôte. Cette approximation entre Tm et Tenv est généralement réalisée car le nombre de protéines dont la Tm est connue est très faible et permet donc d’agrandir considérablement l’échantillon de protéines étudié. Afin de visualiser l’impact de cette approximation, nous avons dans un premier temps calculé la corrélation entre ces deux descripteurs parmi les 127 protéines de notre base de données BD4. Dans un deuxième temps, nous avons évalué l’influence de cette approximation lors de la dérivation de potentiels statistiques définis à l’équation 3.12 à partir de groupes de protéines de Tm élevée et faible ainsi que de groupes de Tenv élevée et faible. En comparant les profils énergétiques décrivant les ponts salins formés avec l’arginine ainsi obtenus, la contribution plus favorable des ponts salins (relativement aux autres interactions) à haute température apparaît beaucoup plus clairement en utilisant la Tm pour décrire la thermostabilité des protéines.

(2)

protéines

La thermostabilité des protéines repose sur une combinaison subtile de plusieurs facteurs et l’adaptation thermique peut être fort différente d’une protéine à l’autre. Bien que dans ce travail nous énoncions des pistes permettant de mieux appréhender cette grandeur thermodynamique, il reste encore un bout de chemin à parcourir. L’une des contraintes majeures dans ce domaine est sans conteste la petite taille de l’échantillon de protéines dont la structure et la température de fusion ont été déterminées expérimentalement. Tout au long de cette thèse de doctorat, nous nous sommes efforcés de l’agrandir à l’aide de nouvelles données disponibles dans la littérature caractérisant la thermostabilité de nouvelles protéines.

Comme le montre la section 3.1.1, nous avons commencé par une base de données comportant 87 entrées puis 127 et au final 166. Cependant, afin de contourner cet obstacle lié au manque de données, l’une des approximations couramment réalisée dans ce domaine est d’évaluer la résistance thermique des protéines par le biais de la température de l’environnement de l’organisme dont elle provient Tenv. Plus précisément, la Tenv d’une protéine correspond à la température de l’habitat de son hôte lorsqu’il s’agit d’un micro-organisme ou un organisme pluricellulaire à sang froid. Lorsqu’il s’agit d’un organisme pluricellulaire à sang chaud, la Tenv correspond à la température corporelle de l’organisme.

La différence entre Tm et Tenv peut dans certains cas être assez importante. Que les organismes thermophiles nécessitent des protéines thermostables pour accomplir les fonctions biologiques nécessaires à leur survie est un fait certain. L’inverse n’est pas forcément vrai, d’ailleurs certains organismes mésophiles disposent de protéines capables de maintenir leur structure et leur activité à des températures très élevées. Cependant, cette approximation a longtemps été réalisée et justifiée par une très forte corrélation entre Tm et Tenv observée par Gromiha et al. (1999) sur un petit nombre de familles de protéines homologues [50]. Ce groupe de recherche a en effet rapporté un coefficient de corrélation moyen de 0,91 entre ces deux grandeurs parmi les différentes familles de protéines homologues considérées (la droite de régression qu’ils ont obtenue est donnée à l’équation 5.1). Les auteurs de cet article scientifique restent très vagues quant au nombre exact de protéines et de familles mis en œuvre pour obtenir une telle corrélation. Leur échantillon contient seulement 56 protéines dont ils connaissent la Tenv. Après vérification dans la littérature il semblerait que seulement 10 d’entre elles possèdent une Tm déterminée expérimentalement. Le grand coefficient de corrélation moyen qu’ils ont obtenu a vraisemblablement été calculé tenant compte de régressions linéaires effectuées au sein de familles ne comportant que deux ou trois homologues.

Tm≈ 24,4°C + 0,93Tenv (5.1)

Actuellement, l’échantillon de protéines dont la température de fusion est déterminée expérimentalement est bien plus grand. Nous avons dès lors calculé à nouveau cette corrélation à partir de notre base de données de 127 protéines monomériques sauvages BD4 (section 3.1.1). Nos résultats montrent que ces deux grandeurs sont en effet corrélées (fig. 5.1).

Cependant le coefficient de régression n’étant que de 0,59 il est difficile de considérer que ces deux valeurs sont équivalentes. La droite de régression que nous avons dérivée s’écrit :

Tm 42,9°C + 0,62Tenv (5.2)

(3)

Chapitre 5 – Corrélation entre Tenv et Tm

Figure 5.1 – Corrélation entre la Tm et la Tenv de 127 protéines sauvages. La droite en pointillés correspond à une équivalence parfaite entre Tm et Tenv, celle en trait continu correspond à la régression linéaire entre ces deux grandeurs parmi les 127 protéines sauvages de la BD4 (eq. 5.2).

Figure réalisée avec le logiciel XMgrace [290].

Parmi les 127 protéines de notre base de données, toutes les températures de fusion ont été mesurées par des expériences de dénaturation. Cependant, certaines expériences ne spécifient pas si cette dénaturation est réversible ou non, dès lors la température de fusion mesurée pourrait être une température de fusion apparente Tm(app), généralement proche mais plus faible que la température de fusion réelle (section 3.1.1). En ne considérant que les 68 protéines pour lesquelles la Tm a été déterminée lors d’une dénaturation thermique réversible, le coefficient de corrélation diminue encore légèrement (0,56). La droite de régression qui en découle reste cependant quasiment identique :

Tm≈ 42,2°C + 0,65Tenv (5.3)

La divergence entre ces deux températures Tm et Tenv est clairement illustrée par la présence de nombreuses protéines ayant une Tenv proche de 37°C au sein de notre base de données. Ces protéines proviennent essentiellement de mammifères ou de bactéries avec lesquelles ils vivent en symbiose (e.g. Escherichia coli). Ces protéines ont des températures de fusion couvrant un très large intervalle, allant de 39,45°C à 90°C pour l’ubiquitine humaine. La protéine la plus thermostable de notre base de données BD4 provenant d’un organisme mésophile possède une Tm au-delà de 120°C. L’hôte de cette protéine est la bactérie Desulfovibrio vulgaris capable de survivre dans des environnements contaminés [298]. Cet exemple suggère qu’en plus de la Tenv, d’autres caractéristiques de l’organisme, tels que leur caractère acidophile ou halophile, peuvent influencer la Tm de ses protéines. Qui plus est, les différentes fonctions et localisations des protéines dans un organisme vivant ainsi que le fait que certaines protéines sont stabilisées in vivo par la formation de complexes intermoléculaires sont autant de causes participant à cette faible corrélation. D’autre part, il est parfaitement concevable que la thermostabilité élevée de certaines protéines appartenant à des organismes mésophiles soit simplement le fruit du hasard. En effet, il existe clairement une pression évolutive liée à la température pour les protéines appartenant à des organismes thermophiles. Une telle pression évolutive n’existe pas pour les protéines issues d’organismes mésophiles et donc lors de leur évolution, les mutations introduites au hasard conférant une plus grande stabilité thermique n’ont pas de raison d’être rejetées. Une autre hypothèse encore pourrait être la conservation de protéines ayant appartenu aux premiers organismes qui vraisemblablement seraient apparus alors que le climat terrestre était extrêmement chaud [187,188].

(4)

provient partiellement du fait que la Tm d’une protéine doit nécessairement être plus grande que sa Tenv. De manière à analyser l’impact de cette contrainte, nous avons construit 106 permutations aléatoires entre les couples [Tm, Tenv] respectant la condition Tm > Tenv. Le coefficient de corrélation entre ces couples formés aléatoirement équivaut en moyenne à 0,40 et ne dépasse 0,59 que dans 0,07% des cas. La condition Tm > Tenv n’est donc pas suffisante pour expliquer la relation que nous observons. Il est en effet possible de considérer que les valeurs des Tm soient en moyenne relativement proches des Tenv puisqu’il n’y a probablement pas de pression évolutive pour qu’une protéine dispose d’une Tm beaucoup plus grande que sa Tenv. Ceci s’avère être généralement le cas pour les protéines ayant une Tenv particulièrement grande ou particulièrement basse alors qu’une plus grande variabilité de la Tm est observée pour les protéines dont la Tenv oscille entre 20°C et 40°C. Il est impossible de tirer une conclusion de cette observation puisque notre base de données ne comporte que très peu de protéines issues d’organismes hyperthermophiles et psychrophiles. Cependant, cette observation suggère que les organismes supérieurs, multicellulaires, qui sont pour la plupart mésophiles, auraient besoin de protéines couvrant une large gamme de températures de fusion puisqu’ils contiennent différents tissus. Ceux-ci constituent un grand nombre d’environnements différenciés possédant leurs propres caractéristiques de pH et de salinité.

En effet, parmi les protéines de notre base de données figurent notamment l’ubiquitine humaine (Tm=90,0°C) localisée dans de nombreux compartiments subcellulaires ainsi qu’une protéase humaine (Tm=77,0°C), une ribonucléase de grenouille (Tm=87,8°C) et une hydrolase de porc (Tm=88,5°C) toutes trois extraites de leur pancréas où les conditions de pH sont légèrement basiques.

La corrélation que nous avons calculée ici ne tient pas compte du type de protéines sur lesquelles ces températures ont été mesurées. Une plus forte corrélation entre Tm et Tenv peut être attendue en la dérivant au sein d’une famille de protéines homologues puisque l’intervalle de (thermo-)stabilité optimal d’une protéine dépend de sa fonction et de l’environnement spécifique dans lequel elle est active. Cependant, même s’il est possible d’observer de meilleures corrélations en utilisant cette approche, le nombre restreint de protéines d’une même famille ne permet pas d’en dériver une corrélation statistiquement significative. Par exemple, notre base de données contient 5 adénylate kinases issues d’organismes différents dont l’intervalle de la Tenv s’étend de 15°C à 51°C. Le coefficient de corrélation entre Tm et Tenv au sein de cette famille s’élève à 0,71 mais possède une p-valeur relativement grande (0,179). Le tableau 5.1 reprend les valeurs de ces deux paramètres lors de la régression linéaire entre Tm et Tenv pour les 8 familles de protéines homologues définies au chapitre 2.

Famille Nombre de

représentants Coefficient de

corrélation p-valeur

Acylphosphatase 3 1,00 0,003

Adénylate kinase 5 0,71 0,179

a-Amylase 5 0,80 0,101

« Cold shock protein » 3 0,99 0,074

Cytochrome P450 5 0,99 0,002

Glycoside hydrolase 4 0,51 0,487

Lysozyme 4 0,77 0,233

Myoglobine 3 0,99 0,093

Moyenne 0,85 0,146

Tableau 5.1 – Coefficients de corrélation et p-valeurs des régressions linéaires entre Tm et Tenv au sein de 8 familles de protéines homologues.

(5)

Chapitre 5 – Corrélation entre Tenv et Tm

Nous observons que de manière générale, les corrélations entre ces deux températures sont effectivement meilleures au sein de familles de protéines. L’approximation réalisée en considérant que Tenv et Tm sont parfaitement corrélées aurait dès lors un impact moins néfaste lors de travaux effectués sur des familles de protéines homologues que lors d’analyses englobant un grand nombre de protéines différentes. Même si la corrélation globale entre ces deux températures est relativement faible, cette approximation peut s’avérer utile lors de l’étude des facteurs déterminant la stabilité thermique des protéines.

(6)

thermophilicité : T

env

= T

m

Afin d’illustrer et d’analyser l’impact de cette approximation, nous avons comparé les profils énergétiques dérivés de bases de données de thermorésistance moyenne différente (chapitre 4) en utilisant d’une part Tm et d’autre part Tenv comme descripteur de la thermostabilité des protéines. En effet, comme nous l’avons montré au chapitre 4, les contributions à l’énergie libre de repliement des ponts salins formés avec l’arginine dépendent fortement de la température relativement aux autres interactions. Ces résultats ont été mis en évidence en utilisant d’une part le potentiel statistique défini à l’équation 3.12 et d’autre part en utilisant des groupes de protéines de résistance thermique moyenne différente réalisés sur la base de leur Tm. Nous avons comparé ces résultats avec ceux obtenus en dérivant ce même potentiel mais en utilisant non plus la Tm mais la Tenv pour former les groupes de protéines de résistance thermique moyenne différente. Le potentiel statistique de l’équation 3.12 peut donc être réécrit de la manière suivante :

) ( ) ( ) ' , (

) , ,' , ln (

) , ,' , (

x x T x

T P d P s s P

T d s s kT P

T d s s W

x =− ⋅ ⋅

∆ (5.4)

Tx est la température Tm ou Tenv moyenne du groupe de protéines. Les autres termes sont définis à l’équation 3.12.

A cet effet, nous avons dans un premier temps divisé notre base de données BD4 de 127 protéines en deux groupes sans recouvrement, l’un contenant les protéines avec la Tm la plus haute et l’autre avec la Tm la plus basse (section 3.1.2.4). En utilisant notre méthode de raffinement décrite à la section 3.1.2 pour éviter les redondances, nous avons obtenu deux groupes de protéines non redondants G1(2)Tm et G2(2)Tm avec des températures de fusion moyennes Tm de 53°C et 81°C respectivement (tableau 3.6). Dans un deuxième temps nous avons formé deux autres groupes de température Tenv moyenne (Tenv) en utilisant exactement la même procédure mais en se basant sur les Tenv des 127 protéines (section 3.1.2.4). Nous obtenons ainsi deux autres groupes G1(2)Tenv et G2(2)Tenv avec des températures de fusion moyennes Tm de 60°C et 73°C (tableau 3.8). Logiquement, les Tm moyennes des groupes formés en tenant compte de la Tenv au lieu de la Tm présentent un plus faible écart (28°C et 13°C d’écart entre les groupes se basant respectivement sur la Tm et la Tenv des protéines). Le pH moyen auquel les températures de fusion ont été déterminées reste dans chacun des 4 groupes très proche de conditions physiologiques (entre 6,8 et 7,0). En plus de ces 4 groupes, 1000 séries aléatoires de 2 groupes ont été réalisées en utilisant la méthode décrite à la section 3.13.

Nous avons donc dérivé le potentiel de distance

Tx

W (eq. 5.4) à partir de ces 1002 paires de groupes de protéines. Nous nous sommes attardés sur les profils énergétiques décrivant les contributions des ponts salins formés avec l’arginine [D-R] et [E-R] dérivés de la paire de groupes formée en se basant sur la Tm des protéines et celle formée en se basant sur la Tenv des protéines (fig. 5.2). Comme nous l’avons déjà observé au chapitre 4, ces profils présentent deux minima correspondant à deux géométries d’interaction différentes (fig. 4.10, section 4.1.3). Ces minima sont plus profonds lorsqu’ils sont dérivés des 2 groupes contenant

(7)

Chapitre 5 – Corrélation entre Tenv et Tm

les protéines ayant une Tm ou Tenv élevée attestant le fait que ces interactions sont plus favorables à haute température relativement aux autres interactions. Cependant ce caractère est plus marqué entre les groupes formés en se basant sur la Tm des protéines. Le deuxième minimum finit même par disparaître du profil énergétique [E-R] dérivé du groupe contenant les protéines de Tenv élevée. Ceci est clairement lié à l’impact de l’approximation suggérant que Tm est identique à Tenv.

Figure 5.2 – Profils énergétiques des ponts salins [D-R] et [E-R]. Les minima d’énergie des profils dérives des quatre groupes de protéines de Tm/Tenv élevée et Tm/Tenv faible sont représentés par des cercles de couleur. Figure réalisée avec le logiciel XMgrace [290].

Nous avons utilisé le critère De (section 3.4.1) afin d’évaluer les écarts énergétiques

Tx

∆∆W au premier et second minimum en procédant de la même manière qu’à la section 4.1.3.2.

A l’aide des 1000 séries aléatoires générées, nous avons évalué la significativité des écarts énergétiques observés De entre les profils dérivés des groupes de Tm ou Tenv élevées et basses.

Nous avons donc estimé la probabilité de rencontrer une série aléatoire dont les profils énergétiques présentent un écart De équivalent ou supérieur entre chacun des 4 minima. Ces probabilités sont très faibles en considérant la paire de groupes de la série G(2)Tm formée en se basant sur la Tm des protéines (tableau 5.2). Elle est clairement plus élevée pour la paire se basant sur la Tenv des protéines. En considérant que les ponts salins [D-R] et [E-R] ont un comportement similaire, ces probabilités sont de 0,2% et 0,3% pour les groupes de la série

Tm

G(2) . Celles-ci s’élèvent à 1,5% et 1,8% pour les groupes de la série G(2)Tenvformés en se basant sur la Tenv.

A partir de ces faibles probabilités nous pouvons en conclure que les ponts salins formés avec l’arginine sont plus favorables à haute température (section 4.1.3.2). Cependant la situation est moins claire en utilisant le descripteur Tenv puisque les probabilités correspondantes sont entre deux et neuf fois supérieures à celles observées en utilisant la Tm

comme descripteur. Dans ce cas, nous pouvons conclure que la température de fusion des protéines est un meilleur choix que leur Tenv pour étudier la thermostabilité des protéines.

(8)

utilisé Paire de résidus (kcal/mole) (%) (kcal/mole) (%)

[D-R] 0,26 5,8 0,38 1,7

[E-R] 0,37 1,5 0,20 10,8

Tm

[DE-R]c 0,3 0,2

[D-R] 0,22 11,2 0,26 10,7

[E-R] 0,30 5,6 0,13 31,2

Tenv

[DE-R]c 1,5 1,8

Tableau 5.2 – Comparaison des profils énergétiques dérivés des paires de groupes de protéines formés en se basant sur la Tm ou la Tenv. a De1 et De2 sont les écarts énergétiques au premier et second minimum entre les profils énergétiques dérivés des groupes de protéines de Tm ou Tenv faible et élevée. b Pe1 et Pe2 sont les probabilités d’observer un tel écart entre une paire de groupes formés aléatoirement. c Les probabilités Pe1 et Pe2 sont calculées en considérant que les ponts salins formés entre les paires [D-R] et [E-R] ont le même comportement.

Cet exemple démontre clairement qu’en utilisant une classification se basant sur la Tenv

des protéines, la présence de protéines de Tm très différentes peut faire chuter la force du signal. Cet effet peut être d’autant plus néfaste pour des facteurs de séquence ou de structure moins prononcés (e.g. des interactions entre paires de résidus moins bien corrélées avec la thermostabilité des protéines que les ponts salins formés avec l’arginine). Cependant, bien que la Tm soit un meilleur descripteur de la résistance thermique d’une protéine, le faible nombre de protéines dont la Tm est connue rend l’usage de la Tenv incontournable lors de certaines études. L’utilisation de ce descripteur dans ce domaine reste informative lorsque le signal à observer est fort mais peut s’avérer délétère à l’observabilité de faibles signaux.

Figure

Updating...

Références

Updating...

Sujets connexes :