Texte intégral

(1)

3Chapitre 3

Méthodes et outils développés en vue de l’étude de la

dépendance en la température d’interactions protéiques

La méthode mise au point dans le chapitre précédent, comptabilisant les occurrences de certains facteurs au sein de 8 familles de protéines homologues de stabilité thermique différente n’a pas permis d’identifier le ou les facteurs universellement responsables d’une plus grande résistance aux températures extrêmes (chapitre 2). Cependant au sein d’une famille, certains des facteurs considérés présentent une forte corrélation avec la variation de stabilité thermique. Au final, nous avons constaté que chaque famille possède des spécificités qui lui sont propres et qu’il n’y a pas un facteur unique permettant d’atteindre une thermostabilité donnée. Les résultats de cette approche restant trop spécifiquement liés à chaque famille de protéines, nous avons opté pour une nouvelle voie de recherche plus globale : l’étude de la dépendance en la température d’interactions protéiques indépendamment des familles homologues. Ce changement de point de vue et de voie de recherche a été influencé par la prise en compte de deux observations : la variation marquée de la pénalité de désolvatation d’une interaction électrostatique avec la température et l’impact sur les potentiels statistiques de caractéristiques physico-chimiques liées aux bases de données de protéines dont ils sont dérivés [112,199].

En effet, A. Elcock a montré que la pénalité de désolvatation encourue lors de la formation d’un pont salin diminue à haute température [112]. Ainsi, la contribution d’une telle interaction à la stabilité thermodynamique d’une protéine varie avec la température.

D’autre part, il a été montré au sein de notre équipe que si l’on dérive des potentiels de force moyenne à partir de bases de données de protéines de tailles différentes, les profils énergétiques qui en découlent montrent des comportements distincts [199].

Ayant en tête ces deux résultats, nous avons voulu répondre à une question qui nous brulait les lèvres : se pourrait-il que la dérivation de potentiels statistiques à partir de bases de données de protéines de thermostabilité différente fournisse des profils énergétiques distincts, et que les différences observées soient représentatives de l’influence de la température sur la contribution des ponts salins à l’énergie libre de repliement des protéines ? Si tel est le cas, pourquoi en rester là ? Ne serions-nous pas alors capables d’évaluer la dépendance en la température d’autres interactions protéiques ? A partir de ces premières questions, nous avons entrepris la quête du décryptage du code protéique conférant la thermostabilité à l’aide de potentiels statistiques. Ce nouvel axe requiert le développement de deux outils majeurs : la conception de bases de données de protéines de thermostabilité distincte et la mise au point de potentiels statistiques tenant compte de la thermostabilité des protéines. La majorité de ce chapitre est consacrée d’une part aux diverses bases de données que nous avons conçues au fil de notre travail et d’autre part aux potentiels statistiques que nous avons développés. De manière générale ce chapitre décrit les outils que nous avons utilisés et mis en place pour mener à bien l’étude de la dépendance en la température d’interactions protéiques. Les résultats de cette nouvelle approche originale sont présentés au chapitre 4 de cette thèse de doctorat.

(2)

3.1 Bases de données de protéines

Dans le domaine de la bioinformatique, les bases de données constituent la matière première de la recherche. Cette matière première est traitée par des algorithmes informatiques pour en extraire des lois régissant divers mécanismes biologiques. Ces lois sont par la suite utilisées afin de prédire le comportement d’un élément donné au sein d’un nouvel échantillon.

Il est capital dès lors de disposer de bases de données qui soient d’une part les plus exactes possibles, afin que les lois extraites soient capables de prédire au mieux le comportement des divers facteurs, et d’autre part les plus complètes possibles, afin que ces lois restent d’application dans un nouvel échantillon de données.

3.1.1 Bases de données de protéines sauvages

La stabilité thermique d’une protéine est définie par un intervalle de température dans lequel sa structure native reste stable (fig. 1.9). Il y a donc deux données essentielles pour mener à bien une étude bioinformatique sur la thermostabilité des protéines : leur stabilité thermique et leur structure. Les bases de données que nous allons développer doivent donc contenir ces deux données et les algorithmes informatiques que nous allons développer auront pour objectif d’explorer le lien existant entre celles-ci.

Au fil de nos recherches nous avons affiné les critères de sélection des données que nous avons collectées. Ces critères ont pour objectif d’éliminer le plus possible les éventuelles erreurs commises tant au point de vue des erreurs expérimentales que du point de vue de leur retranscription dans les articles scientifiques. Ils permettent également de rendre nos bases de données plus justes et mieux adaptées à l’étude de la thermostabilité des protéines en évitant d’introduire des biais liés à d’autres facteurs (e.g. la présence de dénaturant lors de la mesure expérimentale de la température de fusion). Voici les différents critères que nous avons choisis :

1. La structure d’une protéine doit être résolue par cristallographie aux rayons X et disposer d’une résolution inférieure ou égale à 2,5 Å.

2. La protéine doit être monomérique lors de la détermination de sa Tm.

3. Si une protéine dispose de plusieurs températures de fusion, correspondant à des sous-domaines, elle est rejetée.

4. La température de fusion doit être déterminée expérimentalement en absence d’agents dénaturants.

5. Lorsqu’une même protéine a fait l’objet de plusieurs expériences et que nous disposons de plusieurs températures de fusion décrivant sa thermostabilité dans différentes conditions de pH et mesurées selon différentes méthodes, nous sélectionnons préférentiellement les expériences réalisées au pH le plus proche de 7.

Si plusieurs expériences ont été néanmoins réalisées au même pH, la Tm de cette protéine correspond à la moyenne des Tm rapportées.

(1.) Le tout premier critère de sélection fait référence à la structure tertiaire des protéines.

Celle-ci peut être déterminée à l’aide de plusieurs méthodes dont la cristallographie aux rayons X et la résonnance magnétique nucléaire. Dès le début de notre recherche nous avons choisi de considérer uniquement les structures protéiques ayant été résolues par cristallographie aux rayons X. Ce choix nous a permis de définir un critère de résolution

(3)

en-deçà duquel nous avons considéré que la qualité des profils énergétiques en serait affectée.

Ainsi, lorsque nous parlons de protéines de structure connue, nous sous-entendons de structure déterminée par cristallographie aux rayons X avec une résolution inférieure ou égale à 2,5 Å.

(2.) Le deuxième critère de sélection s’applique en fonction de la structure quaternaire des protéines. Cette nouvelle contrainte est née du raisonnement suivant : la température de fusion mesurée dans le cas d’une petite protéine monomérique globulaire, présentant en général une dénaturation coopérative de type « tout-ou-rien », peut être assimilée à la dénaturation de sa structure tertiaire dans sa globalité. En revanche, comment peut-on attribuer une température de fusion à une protéine adoptant une structure quaternaire multimérique ? Que représente-t-elle ? Il n’est pas évident de répondre à ces questions. En effet, la dénaturation d’une protéine homo-multimérique présentant plusieurs unités identiques peut se faire selon plusieurs schémas différents. L’une des possibilités est d’observer d’abord une dissociation du multimère en monomères identiques sans perdre leur structure repliée pour ensuite se dénaturer à une température plus élevée. Dans ce cas, la température de fusion observée correspond non pas au multimère mais bien au monomère. Mais il est également possible que la dissociation et la dénaturation aient lieu plus ou moins simultanément. La situation est encore plus complexe si la protéine est un hétéro-multimère. Ainsi, la dénaturation de la naphtalène 1,2-dioxigénase peut suivre plusieurs schémas de dissociation et la température de fusion observée expérimentalement peut correspondre à différents stades et/ou polymères (fig. 3.1) [278]. Après avoir constaté ces quelques difficultés liées à l’obtention d’une température de fusion pour les protéines possédant une structure quaternaire, nous n’avons sélectionné que les protéines monomériques.

Figure 3.1 – Schéma de dissociation de la naphtalène 1,2-dioxigénase . Figure adaptée de la référence [278].

(3.) Le troisième critère se réfère aux protéines monomériques qui ne se dénaturent pas en une seule étape et qui présentent différentes températures de dénaturation liées soit à des états de transitions soit à la dénaturation de sous-domaines. Cette restriction empêche l’insertion de températures de fusion ne correspondant pas à une dénaturation complète de la structure native d’une protéine.

(4. & 5.) Les deux derniers critères font référence aux conditions expérimentales dans lesquelles la température de fusion a été mesurée. Les différentes techniques de mesure de cette grandeur thermodynamique ont été présentées à la section 1.3 et consistent en des dénaturations thermiques où le seul agent dénaturant est la température. Ces deux critères ont pour objectif d’éliminer les mesures expérimentales effectuées en présence d’autres agents dénaturants (chimiques, conditions particulières d’acidité et/ou de pression) et de manière

(4)

générale à conserver celle mesurée dans les conditions les plus proches des conditions physiologiques. La présence d’autres agents dénaturants lors de certaines expériences de dénaturation thermique a pour objectif de rendre cette dénaturation réversible. En effet, la température de dénaturation Tm d’une protéine est une grandeur thermodynamique représentant un équilibre où les concentrations dans ses états natif et dénaturé sont identiques (section 1.3). En principe, en dépassant cette température, la majorité des protéines se retrouvent dans un état dénaturé et il suffit de repasser en dessous de cette température pour retrouver une majorité de protéines repliées correctement. Cependant les dénaturations thermiques des protéines ne sont pas toutes réversibles. Certaines protéines s’agrègent avant d’atteindre la température de fusion Tm. La température de dénaturation observée alors n’est plus la Tm mais la température de fusion apparente Tm(app). Bien que celles-ci soient en général relativement proches, il est important de les distinguer. Cependant, la Tm mesurée en présence de dénaturants chimiques est en général bien plus faible que la vraie valeur. Dès lors, nous avons décidé de ne pas considérer les températures de fusion mesurées en présence de dénaturants chimiques.

Pour suivre, nous allons exposer chronologiquement les différentes bases de données de protéines sauvages de structure et de Tm connues que nous avons conçues en vue de la dérivation de potentiels statistiques. A la fin de la section 3.1, nous présenterons un tableau récapitulatif des différentes bases de données de protéines que nous avons conçues.

Lors de la réalisation de notre mémoire de fin d’études, nous avons conçu une première base de données BD1 regroupant 87 protéines de structure et de température de fusion connues. Celle-ci comporte non seulement des protéines monomériques mais également homo-multimériques. Cette première base de données a été réalisée essentiellement à l’aide de résultats expérimentaux repris d’une base de données accessible sur Internet (ProTherm [279]) qui répertorie des mesures expérimentales de grandeurs thermodynamiques associées au repliement de protéines. La conception de cette première base de données a nécessité la mise en place d’un algorithme informatique permettant d’extraire ces mesures expérimentales.

Comme il s’agit là d’un échantillon relativement restreint, l’un des objectifs récurrents tout au long de cette thèse de doctorat a été de l’agrandir et de l’affiner.

L’interrogation de la base de données ProTherm un an plus tard, n’a permis de récolter que 14 données supplémentaires. Armés de patience et de courage, nous avons épluché plus de 340 articles scientifiques (datés entre 1995 et 2005) dont le titre contient le mot

« thermostability » répondant à la requête insérée dans le champ « title » de la banque de données PubMed [280]. Nous avons également parcouru les 134 articles scientifiques répondant aux mots clés « thermostability melting » sur ce même serveur le 19/12/2005. En outre, ces articles nous ont amenés à en examiner de plus anciens rédigés dans les années 80. Cette recherche minutieuse et fastidieuse a néanmoins porté ses fruits puisque notre base de données BD2 a atteint 199 entrées. Parmi ces 199 entrées, 151 d’entre elles présentent moins de 25% d’identité de séquence entre elles. Ces 151 protéines constituent notre base de données BD3 et ont été utilisées pour estimer les propensions relatives d’exposition au solvant des 20 acides aminés comme expliqué à la section 3.5.

L’une des principales difficultés que nous avons rencontrées pour agrandir notre base de données a été le faible nombre de protéines dont la température de fusion a été déterminée expérimentalement. La plupart du temps, la caractérisation de la stabilité thermique d’une protéine se fait par comparaison de son activité résiduelle à différentes températures sans pour autant mesurer une T . Après avoir pris conscience de la problématique liée aux protéines

(5)

multimériques, nous avons constaté avec dépit que notre base de données BD4 ne comporte plus que 127 entrées.

L’intérêt suscité par la résistance thermique des protéines a conduit à la caractérisation de nouvelles protéines issues d’organismes et micro-organismes divers. Ainsi, au fil des années de doctorat, nous sommes finalement parvenus à collecter un total de 166 protéines sauvages (BD5) dont la structure et la température de fusion ont été déterminées expérimentalement tout en respectant les critères fixés. La liste des 166 protéines monomériques sauvages de la BD5 est fournie en annexe de ce travail (tableau A.3).

3.1.2 Conception de groupes de protéines sauvages de thermostabilité distincte

L’objet de notre recherche est de dériver des potentiels statistiques à partir de bases de données de protéines pour identifier des facteurs responsables de leur thermostabilité. Pour y parvenir, nous utilisons la particularité des potentiels statistiques capables de s’imprégner des relations présentes dans un environnement protéique moyen constitué d’un ensemble de protéines. En effet, les profils énergétiques que nous fournissent les potentiels statistiques présentent une dépendance vis-à-vis des propriétés physico-chimiques intrinsèques à l’ensemble de protéines duquel ils ont été dérivés [199]. En générant des groupes de protéines de résistance thermique moyenne croissante, nous générons divers environnements protéiques moyens décrivant chacun les relations présentes au sein de protéines de stabilité thermique semblable.

Ainsi que nous l’avons exposé précédemment, nous avons agrandi notre base de données monomériques petit à petit, tout au long de nos travaux. Nous avons essentiellement utilisé deux d’entre elles, dénommées BD4 et BD5, à partir desquelles nous avons conçu ces groupes de protéines. Nous avons donc réalisé différentes séries de groupes en fonction de l’agrandissement de notre base de données et des connaissances acquises ainsi qu’en fonction des différents potentiels statistiques que nous avons utilisés et développés. Toutes ces séries de groupes de protéines monomériques de stabilité thermique distincte ont été raffinées à l’aide d’une méthode de raffinement automatique.

Les potentiels statistiques sont sensibles à la redondance liée à la présence de protéines partageant un haut degré d’identité de séquence. En effet, la présence de protéines similaires entraine un biais dans les fréquences relatives d’observation de certains éléments de séquence ou de structure sur lesquelles se basent les potentiels statistiques. Dès lors, nous avons développé une méthode automatique de raffinement des groupes de chaque série pour en ôter les protéines présentant plus de 25% d’identité de séquence. Cet algorithme informatique utilise le programme PISCES pour identifier les paires de protéines partageant plus de 25%

d’identité de séquence [281]. PISCES calcule l’identité de séquence entre toutes les paires de protéines d’un groupe donné. Dans un cas simple où parmi toutes les protéines d’un groupe, deux protéines présentent plus de 25% d’identité de séquence, PISCES propose d’en enlever une des deux. Dans un cas plus complexe où un ensemble de plus de deux protéines partagent ce pourcentage, alors PISCES propose d’enlever la protéine se trouvant au noyau de cet enchevêtrement de protéines semblables de manière à n’en retirer que le moins possible. Dans le deuxième cas, nous laissons PISCES décider de la protéine à retirer. Dans le cas plus simple cependant, notre algorithme prend le relais en effectuant une vérification permettant d’augmenter la différence de stabilité thermique moyenne de chaque groupe d’une série (cette vérification est abrogée dans le cas de séries aléatoires, section 3.1.3). Cette vérification

(6)

compare les températures de fusion des deux protéines et ôte celle dont la Tm est la moins représentative du groupe renforçant ainsi la dissimilitude entre les groupes d’une même série.

Ainsi, lors du raffinement du premier groupe d’une série (les deux premiers groupes de la série G(5)BD4) comprenant les protéines ayant les températures de fusion les plus faibles, l’algorithme éjecte la protéine ayant la Tm la plus élevée. Inversement, lors du raffinement du dernier groupe d’une série (les deux derniers groupes de la série G(5)BD4) comprenant les protéines ayant les températures de fusion les plus élevées, l’algorithme éjecte la protéine ayant la Tm la plus faible. Les groupes centraux quant à eux conservent la protéine ayant la Tm la plus proche de leur température de fusion moyenne <Tm>. De cette manière nous accentuons la dissimilitude entre chaque groupe d’une même série. Chacun représente ainsi un environnement protéique de résistance thermique qui lui est propre évaluée par sa température de fusion moyenne après raffinement notée Tm pour la distinguer de la <Tm>

avant raffinement.

3.1.2.1 Conception des groupes G(5)BD4

La première série de groupes de protéines que nous avons formée est issue de la base de données de protéines BD4. La taille de cette base de données étant fort petite, nous avons décidé de la diviser en cinq groupes présentant un recouvrement entre eux (G1(5)BD4, G2(5)BD4,

) 4

5 ( 3

G BD , G4(5)BD4 et G5(5)BD4). En répartissant les protéines selon leur thermostabilité croissante ils comportent chacun 70 protéines (sauf le dernier 67) dont la température de fusion moyenne

<Tm> est croissante et partagent chacun 55 protéines avec le groupe de <Tm> supérieure. Le premier groupe comporte les 70 protéines de faible résistance thermique numérotées de 1 à 70, le deuxième celles allant de 16 à 85 et ainsi de suite. Cette division en cinq groupes présentant un recouvrement entre eux permet de générer de plus grands groupes (constituant un plus large échantillon) et d’observer une progression entre les divers profils énergétiques dérivés en fonction de la résistance thermique moyenne. Les caractéristiques des différents groupes de cette série, après exécution de la procédure de raffinement automatique sont présentées dans les tableaux 3.1 et 3.2.

Le potentiel de distance ∆Wds (eq. 3.6) a été dérivé à partir de ces groupes. Il a été utilisé pour l’analyse des différences de comportement des profils énergétiques dérivés à partir de ces cinq environnements protéiques moyens de Tm croissante (section 4.1).

Série G(5)BD4 Nombre de protéines Tm(°C) a <pH> (σ) b <Nombre de résidus> (σ) c Code de couleurs d

) 4

5 ( 1

G BD 57 53,8 6,8 (1,5) 259 (164) █▬█

) 4

5 ( 2

G BD 60 58,6 6,8 (1,5) 242 (142) █▬█

) 4

5 ( 3

G BD 56 63,0 6,7 (1,5) 258 (152) █▬█

) 4

5 ( 4

G BD 56 70,9 6,6 (1,7) 241 (152) █▬█

) 4

5 ( 5

G BD 54 79,8 6,8 (1,1) 230 (153) █▬█

Tableau 3.1 – Caractéristiques de la série de groupes G(5)BD4après raffinement. a Moyenne de la température de fusion des protéines d’un groupe donné. b Moyenne des pH auxquels les Tm des protéines d’un groupe donné ont été mesurées, l’écart type est présenté entre parenthèses. c Moyenne du nombre de résidus des protéines d’un groupe donné, l’écart type est présenté entre parenthèses. d Code de couleurs utilisé lors de la présentation des profils énergétiques dérives de ces différents groupes.

(7)

Résidu G1(5)BD4 G2(5)BD4 G3(5)BD4 G4(5)BD4 G5(5)BD4 Résidu G1(5)BD4 G2(5)BD4 G3(5)BD4 G4(5)BD4 G5(5)BD4

A 8,7 8,9 8,3 8,1 8,4 M 1,7 1,6 1,8 1,7 1,8

C 1,4 1,4 1,5 1,6 1,6 N 5,1 5,1 5,0 5,1 4,7

D 6,3 6,5 6,5 6,3 6,3 P 4,5 4,5 4,7 4,5 4,4

E 5,7 5,4 5,6 6,0 6,4 Q 4,2 4,1 4,0 3,8 3,6

F 4,2 4,1 4,1 4,2 4,2 R 3,8 3,9 4,1 4,7 5,2

G 7,9 8,3 8,2 8,2 7,9 S 6,8 6,8 6,8 6,5 6,1

H 2,0 1,9 2,1 2,1 2,2 T 6,0 6,1 6,0 5,7 5,2

I 4,9 4,7 5,0 5,2 5,3 V 6,4 6,6 6,6 6,3 6,6

K 6,5 5,9 5,7 5,6 6,0 W 1,5 1,7 1,8 1,7 1,7

L 8,8 8,5 8,3 8,4 8,3 Y 3,7 4,0 4,1 4,4 4,3

Tableau 3.2 – Compositions en acides aminés des groupes G(5)BD4 exprimées en pourcent.

3.1.2.2 Conception des groupes G(2)BD4

A partir de cette même base de donnés de 127 protéines monomériques (BD4), nous avons conçu deux groupes plus larges visant à étudier les interactions cation-π. Nous avons divisé la base de données BD4 en deux groupes de 90 protéines, l’un contenant les protéines les plus thermostables G2(2)BD4 et l’autre celles ayant la température de fusion la plus faible G1(2)BD4. Les caractéristiques des deux groupes de cette série après avoir exécuté notre algorithme de raffinement automatique sont présentées dans les tableaux 3.3 et 3.4.

Série G(2)BD4 Nombre de protéines Tm(°C) a <pH> (σ) b <Nombre de résidus> (σ) c Code de couleurs d

) 4

2 ( 1

G BD 70 56,4 6,8 (1,4) 255 (161) gris

) 4

2 ( 2

G BD 68 75,1 6,6 (1,6) 230 (150) mmuullttiiccoololorree

Tableau 3.3 – Caractéristiques de la série de groupes G(2)BD4 après raffinement. Légende cf. tableau 3.1.

Résidu G1(2)BD4 G2(2)BD4 Résidu G1(2)BD4 G2(2)BD4

A 8,8 8,2 M 1,8 1,7

C 1,4 1,6 N 5,1 5,0

D 6,5 6,4 P 4,4 4,5

E 5,6 5,9 Q 4,1 3,8

F 4,1 4,0 R 3,9 4,6

G 8,0 8,1 S 6,7 6,5

H 2,0 2,1 T 5,9 5,6

I 5,0 5,4 V 6,4 6,6

K 6,2 6,0 W 1,6 1,8

L 8,5 8,0 Y 4,0 4,4

Tableau 3.4 – Compositions en acides aminés des groupes G(2)BD4 exprimées en pourcent.

Le potentiel de cation-π ∆Wcat-π (eq. 3.16) a été dérivé à partir de ces groupes. Il a été utilisé pour l’analyse des différences de comportement des profils énergétiques des interactions cation-π dérivés à partir de ces deux environnements protéiques moyens de Tm croissante (section 4.1.5).

(8)

3.1.2.3 Conception des groupes G(4)BD4

Ces groupes ont été conçus pour la dérivation d’un nouveau potentiel de distance tenant compte de l’adaptation thermique des protéines. Il s’agit à nouveau de groupes issus de la base de données BD4 comportant 70 protéines chacun et présentant un recouvrement moindre de manière à éviter une trop grande ressemblance entre eux. Le modèle de division utilisé consiste en quatre groupes symbolisant les quatre domaines de stabilité thermique des protéines à savoir : psychrostables, mésostables, thermostables et hyperthermostables. La répartition des protéines de ce modèle de division en 4 groupes est le suivant : en classant les protéines de 1 à 127 selon leur température de fusion, le premier groupe comporte les protéines 1 à 70, le deuxième celles de 20 à 89, le troisième celles de 39 à 108 et le dernier celles de 58 à 127. Cette répartition des protéines est le modèle de division qui sera utilisé pour la génération des séries de groupes aléatoires associées (section 3.1.3). En exécutant notre algorithme de raffinement automatique, les groupes de protéines aux Tm les plus extrêmes G1(4)BD4 et G4(4)BD4 présentent uniquement 6 protéines communes. Les caractéristiques de ces différents groupes sont présentées dans les tableaux 3.5 et 3.6.

Série G(4)BD4 Nombre de protéines Tm(°C) a <pH> (σ) b <Nombre de résidus> (σ) c Code de couleurs d

) 4

4 ( 1

G BD 57 54,0 6,8 (1,5) 259 (164) █▬█

) 4

4 ( 2

G BD 60 60,8 6,7 (1,5) 242 (141) █▬█

) 4

4 ( 3

G BD 57 66,3 6,6 (1,6) 253 (153) █▬█

) 4

4 ( 4

G BD 55 79,5 6,8 (1,1) 235 (156) █▬█

Tableau 3.5 – Caractéristiques de la série de groupes G(4)BD4 après raffinement. Légende cf. tableau 3.1.

Résidu G1(4)BD4 G2(4)BD4 G3(4)BD4 G4(4)BD4 Résidu G1(4)BD4 G2(4)BD4 G3(4)BD4 G4(4)BD4

A 8,7 8,7 8,3 8,3 M 1,7 1,7 1,7 1,8

C 1,4 1,5 1,6 1,6 N 5,1 5,1 5,1 4,7

D 6,3 6,5 6,4 6,4 P 4,5 4,6 4,7 4,4

E 5,7 5,5 5,6 6,2 Q 4,2 4,0 4,0 3,6

F 4,2 4,1 4,1 4,1 R 3,8 4,0 4,1 5,1

G 7,9 8,1 8,3 8,0 S 6,8 6,8 6,8 6,1

H 2,0 2,0 2,1 2,2 T 6,0 6,0 6,0 5,3

I 4,9 4,9 5,0 5,3 V 6,4 6,6 6,5 6,5

K 6,5 5,9 5,6 5,9 W 1,5 1,7 1,6 1,8

L 8,8 8,5 8,3 8,2 Y 3,7 4,0 4,2 4,4

Tableau 3.6 – Compositions en acides aminés des groupes G(4)BD4 exprimées en pourcent.

Le potentiel de distance

Tm

W (eq. 3.12) a été dérivé à partir de ces groupes. Il a été utilisé pour l’analyse quantitative des différences de comportement des profils énergétiques des ponts salins et des interactions effectives entre résidus hydrophobes dérivés à partir de ces quatre environnements protéiques moyens de Tm croissante (section 4.1).

(9)

3.1.2.4 Conception des groupes G(2)Tm et G(2)Tenv

Ces deux séries de groupes sont issues de notre base de données BD4 de 127 protéines. Le modèle de division est simple puisqu’il divise cette base de données en deux groupes sans recouvrement. Ainsi, nous avons classé ces 127 protéines en fonction de leur Tm (Tenv) croissante, les 64 protéines ayant les Tm (Tenv) les plus faibles ont été injectées dans le groupe

Tm

G1(2) (G1(2)Tenv) et les 63 protéines les plus thermostables dans le groupe G2(2)Tm (G2(2)Tenv). Les caractéristiques de ces différents groupes après l’exécution de notre méthode de raffinement automatique sont préséntées aux tableaux 3.7, 3.8, 3.9 et 3.10.

Ces deux séries de deux groupes ont été utilisées à la section 5.2 afin de montrer l’impact du choix du descripteur de la thermostabilité des protéines sur les profils énergétiques du potentiel statistique

Tm

W (eq. 3.12).

Série G(2)Tm Nombre de protéines Tm(°C) a <pH> (σ) b <Nombre de résidus> (σ) c Code de couleurs d

Tm

G1(2) 53 53,2 6,8 (1,5) 260 (168) █▬█

Tm

G2(2) 50 81,2 6,8 (1,1) 222 (148) █▬█

Tableau 3.7 – Caractéristiques de la série de groupes G(2)Tm après raffinement. Légende cf.

tableau 3.1.

Résidu G1(2)Tm G2(2)Tm Résidu G1(2)Tm G2(2)Tm

A 8,5 8,3 M 1,7 1,9

C 1,4 1,3 N 5,0 4,9

D 6,4 6,4 P 4,5 4,4

E 5,8 6,3 Q 4,2 3,4

F 4,3 4,0 R 3,9 5,3

G 7,9 8,3 S 6,7 6,0

H 2,0 2,2 T 6,0 5,2

I 4,9 5,6 V 6,4 6,6

K 6,4 5,8 W 1,5 1,8

L 8,9 8,0 Y 3,7 4,4

Tableau 3.8 – Compositions en acides aminés des groupes G(2)Tm exprimées en pourcent.

Série G(2)Tenv Nombre de protéines Tm(°C) a <pH> (σ) b <Nombre de résidus> (σ) c Code de couleurs d

Tenv

G1(2) 52 60,1 7,0 (0,8) 262 (164) ▬ ▬

Tenv

G2(2) 51 72,9 6,8 (1,0) 218 (155) ▬ ▬

Tableau 3.9 – Caractéristiques de la série de groupes G(2)Tenv après raffinement. Légende cf.

tableau 3.1.

Ces deux séries de deux groupes ont été utilisées à la section 5.2 afin de montrer l’impact du choix du descripteur de la thermostabilité des protéines sur les profils énergétiques du potentiel statistique

Tm

W (eq. 3.12).

(10)

Résidu G1(2)Tenv G2(2)Tenv Résidu G1(2)Tenv G2(2)Tenv

A 8,4 8,4 M 1,7 1,9

C 1,4 1,4 N 5,3 4,6

D 6,5 6,5 P 4,4 4,6

E 5,6 6,1 Q 4,1 3,6

F 4,3 3,9 R 4,0 4,9

G 8,3 8,0 S 6,7 5,9

H 1,9 2,4 T 5,8 5,5

I 5,1 5,2 V 6,3 6,5

K 6,5 6,2 W 1,4 2,0

L 8,4 8,4 Y 4,0 4,2

Tableau 3.10 – Compositions en acides aminés des groupes G(2)Tenv exprimées en pourcent.

3.1.2.5 Conception des groupes G(2)BD5

Ces groupes sont issus d’une nouvelle base de données BD5. Les 166 protéines de cette nouvelle base de données ont été divisées en 2 groupes dont l’un comporte les 83 protéines dont les températures de fusion sont les plus faibles et l’autre les 83 protéines dont les Tm sont les plus élevées (G1(2)BD5 et G2(2)BD5 respectivement). Cette répartition des protéines est le modèle de division qui sera utilisé pour la génération des séries aléatoires associées (section 3.1.3). Par ailleurs, nous avons conçu un groupe de référence Gref(2)BD5 à partir des 166 protéines de la BD5 en exécutant notre algorithme de raffinement automatique comme s’il s’agissait d’un groupe central d’une série (c.à.d. en retirant les protéines dont la Tm est la plus éloignée de la température de fusion moyenne). Les caractéristiques des groupes de cette série après raffinement sont présentées aux tableaux 3.11 et 3.12.

Série G(2)BD5 Nombre de protéines Tm(°C) a <pH> (σ) b <Nombre de résidus> (σ) c Code de couleurs d

) 5

2 ( 1

G BD 65 51,8 6,8 (1,2) 224 (124) █▬█

) 5

2 ( BD

Gref 115 65,3 6,8 (1,2) 208 (121) ▬ ▬

) 5

2 ( 2

G BD 65 79,1 6,9 (1,3) 182 (114) █▬█

Tableau 3.11 – Caractéristiques de la série de groupes G(2)BD5 après raffinement. Légende cf. tableau 3.1.

Ces groupes ont été conçus pour la dérivation du potentiel

Tm

Wd

∆ (eq. 3.13) tenant compte de l’adaptation de séquence des protéines issues d’organismes thermophiles. La division en deux groupes seulement sans recouvrement entre eux a été choisie pour étudier l’influence de la température sur les contributions des interactions formées entre toutes les paires de résidus.

Elle permet de maximiser les différences entre les environnements protéiques moyens définis par ces deux groupes et d’en extraire des profils énergétiques se basant sur des fréquences d’observations plus représentatives (section 4.2).

(11)

Résidu G1(2)BD5 Gref(2)BD5 G2(2)BD5 Résidu G1(2)BD5 Gref(2)BD5 G2(2)BD5

A 8,4 8,4 7,9 M 1,7 1,8 2,0

C 1,1 1,3 1,6 N 5,2 5,0 4,8

D 6,4 6,5 6,4 P 4,5 4,5 4,3

E 5,7 5,7 6,6 Q 4,3 4,0 3,5

F 4,0 3,9 4,0 R 4,0 4,2 5,0

G 8,2 8,3 8,0 S 6,8 6,6 6,0

H 2,0 2,1 2,1 T 6,1 5,9 5,3

I 4,9 5,1 5,4 V 6,6 6,7 6,6

K 6,2 6,2 6,5 W 1,6 1,6 1,7

L 8,9 8,4 8,0 Y 3,6 4,0 4,2

Tableau 3.12 – Compositions en acides aminés des groupes G(2)BD5 exprimées en pourcent.

De la même manière que nous avons agrandi graduellement notre échantillon de protéines au cours de ces années de doctorat, allant de 87 (BD1) à 166 (BD5), nous avons généré plusieurs séries de groupes de Tm distincte. Ces séries bien que distinctes ont cependant toutes le même objectif : représenter le mieux possible un environnement protéique de résistance thermique moyenne donnée. Le tableau récapitulatif 3.13 répertorie ces différentes séries de groupes de Tm distincte.

Nom de

la série Base de

données source Nombre de groupes Sections a Potentiels statistiques

dérivés b Critères statistiques appliqués c

) 4

5 ( BD

G BD4 5 4.1 ∆Wds1, ∆Wds2 et ∆Wds -

) 4

2 ( BD

G BD4 2 4.1.4 ∆Wcat-π -

) 4

4 ( BD

G BD4 4 4.1.2 et 4.1.3 ∆Wds et

Tm

W De et Dp

Tm

G(2) BD4 2 5.2 ∆Wds et

Tm

W De et Dp

Tenv

G(2) BD4 2 5.2 ∆Wds et

Tm

W De et Dp

) 5

2 ( BD

G BD5 2 4.2 et 6.1 WdTm Amin et Atotal

Tableau 3.13 – Tableau récapitulatif des différentes séries de groupes conçues. a Sections de cette thèse de doctorat où ces séries on été exploitées. b Potentiels statistiques ayant été dérivés de ces séries de groupes. c Critères statistiques appliqués pour évaluer la significativité statistique des écarts de comportement entre les profils énergétiques dérivés des différents groupes d’une même série à l’aide des séries aléatoires lui étant associées (section 3.1.3 et 3.4).

La première série de groupes de protéines de thermostabilité différente G(5)BD4 a été réalisée à partir de la BD4 pour observer qualitativement la dépendance en la température des potentiels de distance standards ∆Wds (eq. 3.6) ainsi que de leur composante à un corps (eq. 3.9). La deuxième série G(2)BD4 a également été réalisée à partir de la BD4 mais en vue d’étudier plus en profondeur l’influence de la température sur la contribution des interactions cation-π à l’aide d’un potentiel statistique prévu à cet effet ∆Wcat-π (eq. 3.16). Ce potentiel statistique nécessite de plus grands échantillons de protéines car il prend en compte non seulement un critère de distance mais également un critère d’angle. La combinaison de ces deux critères induit la nécessité de considérer des bases de données de taille plus importante pour obtenir des potentiels statistiques significatifs. La troisième série G(4)BD4 a été réalisée à partir de la BD4 dans le but de prouver statistiquement l’effet de la température sur la

(12)

contribution des ponts salins et de l’empilement hydrophobe à l’aide d’un nouveau potentiel statistique tenant compte de l’adaptation des protéines thermostables

Tm

W (eq. 3.12). Les profils énergétiques dérivés de ces différentes séries sont présentés et discutés dans la section 4.1 de cette thèse de doctorat.

La quatrième et la cinquième série issues toutes deux de la BD4 (G(2)Tm et G(2)Tenv) ont été utilisées afin de montrer l’impact du choix du descripteur de la thermostabilité des protéines sur les profils énergétiques du potentiel statistique

Tm

W (chapitre 5).

La dernière série G(2)BD5 à été réalisée à partir de la BD5 dans le but d’étudier la dépendance en la température des contributions de toutes les interactions entre paires de résidus et d’en extraire des profils énergétiques visant à prédire la stabilité thermique à l’aide d’un potentiel mieux adapté à notre base de données

Tm

Wd

∆ (eq. 3.13). Les profils énergétiques dérivés de cette série sont présentés et discutés dans la section 4.2 de cette thèse de doctorat.

3.1.3 Génération de séries de groupes aléatoires à partir d’un modèle de division

Afin d’avoir une vue objective sur la significativité des différences de comportement observées entre les profils énergétiques dérivés à partir de groupes de protéines de résistance thermique moyenne distincte, nous avons généré des séries de groupes aléatoires. Ces séries s’inspirent du modèle de division utilisé lors de la conception d’une série de groupes donnée.

Cette méthode a été utilisée pour les séries de groupes G(4)BD4,G(2)Tm ,G(2)Tenv et G(2)BD5 et permet d’attester la significativité de nos résultats. Ainsi, en suivant exactement le modèle de division en N groupes de la série considérée, nous générons mille séries de groupes aléatoires de notre base de données monomériques en N groupes (BD4 ou BD5 en fonction de la série considérée). Les groupes de chaque série aléatoire ainsi générés sont ensuite raffinés par notre méthode de raffinement automatique sans toutefois tenir compte de la température de fusion des protéines lors de leur rejet (section 3.1.1). Ces séries aléatoires doivent cependant respecter un critère que nous avons fixé les rendant indépendantes de la thermostabilité des protéines : il doit y avoir un écart de moins de 3°C entre les Tm de chacun de leurs N groupes après raffinement. Les variations, écarts, dissemblances entre les contributions énergétiques obtenues entre les N groupes de la série étudiée sont comparées aux variations, écarts et dissemblances observées entre les N groupes de chacune des mille séries de groupes aléatoires leur étant associées. De cette manière nous pouvons mesurer la probabilité d’obtenir des fluctuations énergétiques entre N groupes de protéines indépendamment de la thermostabilité.

Ces variations, écarts et dissemblances sont mesurées à l’aide de critères définis à la section 3.4.

3.1.4 Conception d’une base de données de structures protéiques pour l’étude des géométries d’interaction des ponts salins

Lors de l’étude de la dépendance en la température des contributions des ponts salins, nous avons observé un comportement particulier qui nous a poussés à étudier en profondeur la géométrie de leur interaction. Afin d’examiner la géométrie de ces interactions, nous avons conçu une grande base de données de protéines dont la structure a été déterminée par

Figure

Updating...

Références

Updating...

Sujets connexes :