• Aucun résultat trouvé

Conception des groupes

Dans le document Disponible à / Available at permalink : (Page 66-72)

23 Méthodes d’identification des différents facteurs

3.1 Bases de données de protéines

3.1.2 Conception de groupes de protéines sauvages de thermostabilité distincte

3.1.2.1 Conception des groupes

La première série de groupes de protéines que nous avons formée est issue de la base de données de protéines BD4. La taille de cette base de données étant fort petite, nous avons décidé de la diviser en cinq groupes présentant un recouvrement entre eux ( ,

^(5)fiD4 ^ Q(5)BD.t q<.5)bd^ ^ répaitissaut les protéines selon leur thermostabilité croissante ils comportent chacun 70 protéines (sauf le dernier 67) dont la température de fusion moyenne

<Tm> est croissante et partagent chacun 55 protéines avec le groupe de <Tm> supérieure. Le premier groupe comporte les 70 protéines de faible résistance thermique numérotées de 1 à 70, le deuxième celles allant de 16 à 85 et ainsi de suite. Cette division en cinq groupes présentant un recouvrement entre eux permet de générer de plus grands groupes (constituant un plus large échantillon) et d’observer une progression entre les divers profils énergétiques dérivés en fonction de la résistance thermique moyenne. Les caractéristiques des différents groupes de cette série, après exécution de la procédure de raffinement automatique sont présentées dans les tableaux 3.1 et 3.2.

Le potentiel de distance AW^is (eq. 3.6) a été dérivé à partir de ces groupes. Il a été utilisé pour l’analyse des différences de comportement des profils énergétiques dérivés à partir de ces cinq environnements protéiques moyens de T^ croissante (section 4.1).

Série Nombre de protéines f„CC)“ <pH> (0) * <Nombre de résidus> (a) “ Code de couleurs q(.5)BD^ 57 53,8 6,8 (1,5) 259 (164)

■-I

G&bd, 60 58,6 6,8 (1,5) 242 (142)

i-i

G(5)BD, 56 63,0 6,7 (1,5) 258 (152)

■-I

q(5)BD, 56 70,9 6,6 (1,7) 241 (152)

Kl

q(S)BD, 54 79,8 6,8 (1,1) 230(153)

Kl

Tableau 3.1 - Caractéristiques de la série de groupes après raffinement.“Moyenne de la température de fusion des protéines d’un groupe donné. * Moyenne des pH auxquels les T„ des protéines d’un groupe donné ont été mesurées, l’écart type est présenté entre parenthèses. “ Moyenne du nombre de résidus des protéines d’un groupe donné, l’écart type est présenté entre parenthèses. ‘‘ Code de couleurs utilisé lors de la présentation des profils énergétiques dérives de ces différents groupes.

Chapitre 3 - Méthodes et outils Résidu Q(5)BDt g(5)«D, q(5)BD, Résidu q{5)BD, G(5)BD, Q(5)BDt q(5)BD, A 8,7 8,9 8,3 8,1 8,4 M 1,7 1,6 1,8 1,7 1,8 C 1,4 1,4 1,5 1,6 1,6 N 5,1 5,1 5,0 5,1 4,7 D 6,3 6,5 6,5 6,3 6,3 P 4,5 4,5 4,7 4,5 4,4 E 5,7 5,4 5,6 6,0 6,4 Q 4,2 4,1 4,0 3,8 3,6 F 4,2 4,1 4,1 4,2 4,2 R 3,8 3,9 4,1 4,7 5,2 G 7,9 8,3 8,2 8,2 7,9 S 6,8 6,8 6,8 6,5 6,1 H 2,0 1,9 2,1 2,1 2,2 T 6,0 6,1 6,0 5,7 5,2 I 4,9 4,7 5,0 5,2 5,3 V 6,4 6,6 6,6 6,3 6,6 K 6,5 5,9 5,7 5,6 6,0 W 1,5 1,7 1,8 1,7 1,7 L 8,8 8,5 8,3 8,4 8,3 Y 3,7 4,0 4,1 4,4 4,3

Tableau 3.2 - Compositions en acides aminés des groupes exprimées en pourcent.

3.1.2.2 Conception des groupes ^

A partir de cette même base de donnés de 127 protéines monomériques (BD4), nous avons conçu deux groupes plus larges visant à étudier les interactions cation-71. Nous avons divisé la base de données BD4 en deux groupes de 90 protéines, l’un contenant les protéines les plus thermostables et l’autre celles ayant la température de fusion la plus faible . Les caractéristiques des deux groupes de cette série après avoir exécuté notre algorithme de raffinement automatique sont présentées dans les tableaux 3.3 et 3.4.

Série Nombre de

protéines Vcy <pH> (a) <Nombre de résidus> (0) Code de couleurs

Q(2)BDt

70 56,4 6,8 (1,4) 255 (161) gris G(2)BD,

68 75,1 6,6 (1,6) 230 (150) multicolore

Tableau 3.3 - Caractéristiques de la série de groupes après raffinement. Légende cf. tableau 3.1.

Résidu q(2)BD, G(2)BD, Résidu Qi2)BD, Gi2)BD,

A 8,8 8,2 M 1,8 1,7 C 1,4 1,6 N 5,1 5,0 D 6,5 6,4 P 4,4 4,5 E 5,6 5,9 Q 4,1 3,8 F 4,1 4,0 R 3,9 4,6 G 8,0 8,1 S 6,7 6,5 H 2,0 2,1 T 5,9 5,6 I 5,0 5,4 V 6,4 6,6 K 6,2 6,0 W 1,6 1,8 L 8,5 8,0 Y 4,0 4,4

Tableau 3.4 - Compositions en acides aminés des groupes exprimées en pourcent.

Le potentiel de cation-7i ésWcat-K (eq. 3.16) a été dérivé à partir de ces groupes. Il a été utilisé pour l’analyse des différences de comportement des profils énergétiques des interactions cation-71 dérivés à partir de ces deux environnements protéiques moyens de croissante (section 4.1.5).

3.1.2.3 Conception des groupes ^ ^

Ces groupes ont été conçus pour la dérivation d’un nouveau potentiel de distance tenant compte de l’adaptation thermique des protéines. Il s’agit à nouveau de groupes issus de la base de données ££>4 eomportant 70 protéines chacun et présentant un recouvrement moindre de manière à éviter une trop grande ressemblance entre eux. Le modèle de division utilisé consiste en quatre groupes symbolisant les quatre domaines de stabilité thermique des protéines à savoir : psychrostables, mésostables, thermostables et hyperthermostables. La répartition des protéines de ce modèle de division en 4 groupes est le suivant : en classant les protéines de 1 à 127 selon leur température de fusion, le premier groupe comporte les protéines 1 à 70, le deuxième celles de 20 à 89, le troisième celles de 39 à 108 et le dernier celles de 58 à 127. Cette répartition des protéines est le modèle de division qui sera utilisé pour la génération des séries de groupes aléatoires associées (seetion 3.1.3). En exéeutant notre algorithme de raffinement automatique, les groupes de protéines aux les plus

extrêmes et présentent uniquement 6 protéines communes. Les

earactéristiques de ces différents groupes sont présentées dans les tableaux 3.5 et 3.6.

Série Nombre de

protéines VC)“ <pH> (a) * <Nombre de résidus> (a) Code de couleurs

QWBDt 57 54,0 6,8 (1,5) 259 (164)

Kl

GWBD, 60 60,8 6,7 (1,5) 242 (141)

Kl

G(4)BD, 57 66,3 6,6 (1,6) 253 (153)

Kl

qWBD, 55 79,5 6,8 (1,1) 235 (156)

Kl

Tableau 3.5 - Caractéristiques de la série de groupes après raffinement. Légende cf. tableau 3.1. Résidu q{4)BD, GWbd, q(4)BD, qWBD, Résidu qWBD^ G^bd, GWbd, (J(4)B£>4 A 8,7 8,7 8,3 8,3 M 1,7 1,7 1,7 1,8 C 1,4 1,5 1,6 1,6 N 5,1 5,1 5,1 4,7 D 6,3 6,5 6,4 6,4 P 4,5 4,6 4,7 4,4 E 5,7 5,5 5,6 6,2 Q 4,2 4,0 4,0 3,6 F 4,2 4,1 4,1 4,1 R 3,8 4,0 4,1 5,1 G 7,9 8,1 8,3 8,0 S 6,8 6,8 6,8 6,1 H 2,0 2,0 2,1 2,2 T 6,0 6,0 6,0 5,3 I 4,9 4,9 5,0 5,3 V 6,4 6,6 6,5 6,5 K 6,5 5,9 5,6 5,9 W 1,5 1,7 1,6 1,8 L 8,8 8,5 8,3 8,2 Y 3,7 4,0 4,2 4,4

Tableau 3.6 - Compositions en acides aminés des groupes exprimées en pourcent.

Le potentiel de distance AW^ (eq. 3.12) a été dérivé à partir de ces groupes. Il a été utilisé pour l’analyse quantitative des différences de comportement des profils énergétiques des ponts sahns et des interactions effectives entre résidus hydrophobes dérivés à partir de ces quatre environnements protéiques moyens de eroissante (section 4.1).

Chapitre 3 — Méthodes et outils

3.1.2.4 Conception des groupes ^ et ^

Ces deux séries de groupes sont issues de notre base de données BD4 de 127 protéines. Le modèle de division est simple puisqu’il divise cette base de données en deux groupes sans recouvrement. Ainsi, nous avons classé ces 127 protéines en fonction de leur Tm (Tenv)

croissante, les 64 protéines ayant les Tm {Tenv) les plus faibles ont été injectées dans le groupe ) et les 63 protéines les plus thermostables dans le groupe ). Les caractéristiques de ces différents groupes après l’exécution de notre méthode de raffinement automatique sont préséntées aux tableaux 3.7, 3.8, 3.9 et 3.10.

Ces deux séries de deux groupes ont été utilisées à la section 5.2 afin de montrer l’impact du choix du descripteur de la thermostabilité des protéines sur les profils énergétiques du potentiel statistique àWf (eq. 3.12).

Série Nombre de

protéines ver <pH> (a) * <Nombre de résidus> (a) Code de couleurs 53 53,2 6,8 (1,5) 260(168) l-l 50 81,2 6,8 (1,1) 222 (148) l-l

Tableau 3.7 - Caractéristiques de la série de groupes après raffinement. Légende cf.

tableau 3.1.

Résidu G(2)r„ G(2)2i„'^2 Résidu G(2)r„ Gf>"" A 8,5 8,3 M 1,7 1,9 C 1,4 1,3 N 5,0 4,9 D 6,4 6,4 P 4,5 4,4 E 5,8 6,3 Q 4,2 3,4 F 4,3 4,0 R 3,9 5,3 G 7,9 8,3 S 6,7 6,0 H 2,0 2,2 T 6,0 5,2 I 4,9 5,6 V 6,4 6,6 K 6,4 5,8 w 1,5 1,8 L 8,9 8,0 Y 3,7 4,4

Tableau 3.8 - Compositions en acides aminés des groupes exprimées en pourcent.

Série Nombre de protéines VC)“ <pH> (a) * <Nombre de résidus> (a) Code de couleurs G(2)r„,

52 60,1 7,0 (0,8) 262 (164) 51 72,9 6,8 (1,0) 218(155)

Tableau 3.9 - Caractéristiques de la série de groupes après raffinement.Légende cf. tableau 3.1.

Ces deux séries de deux groupes ont été utilisées à la section 5.2 afin de montrer l’impact du choix du descripteur de la thermostabilité des protéines sur les profils énergétiques du potentiel statistique (eq. 3.12).

Résidu G(2)7-„, Résidu G(2)r^ G(2)r„, A 8,4 8,4 M 1,7 1,9 C 1,4 1,4 N 5,3 4,6 D 6,5 6,5 P 4,4 4,6 E 5,6 6,1 Q 4,1 3,6 F 4,3 3,9 R 4,0 4,9 G 8,3 8,0 S 6,7 5,9 H 1,9 2,4 T 5,8 5,5 I 5,1 5,2 V 6,3 6,5 K 6,5 6,2 W 1,4 2,0 L 8,4 8,4 Y 4,0 4,2

Tableau 3.10 - Compositions en acides aminés des groupes exprimées en pourcent.

3.1.2.5 Conception des sroupes ^ ^

Ces groupes sont issus d’une nouvelle base de données BD5. Les 166 protéines de cette nouvelle base de données ont été divisées en 2 groupes dont T un comporte les 83 protéines dont les températures de fusion sont les plus faibles et l’autre les 83 protéines dont les Tm sont les plus élevées et respectivement). Cette répartition des protéines est le modèle de division qui sera utilisé pour la génération des séries aléatoires associées (section 3.1.3). Par ailleurs, nous avons conçu un groupe de référence à partir des 166 protéines de la BD5 en exécutant notre algorithme de raffinement automatique comme s’il s’agissait d’un groupe central d’une série (c.à.d. en retirant les protéines dont la Tm est la plus éloignée de la température de fusion moyenne). Les caractéristiques des groupes de cette série après raffinement sont présentées aux tableaux 3.11 et 3.12.

Série Nombre de protéines t;(°c)“ <pH> (a) ’’ <Nombre de résidus> (a) Code de couleurs ‘‘

q(2)BD^ 65 51,8 6,8 (1,2) 224(124)

H

Gi2JBO, 115 65,3 6,8 (1,2) 208 (121) G(2)«D3 65 79,1 6,9 (1,3) 182(114)

I-I

Tableau 3.11 - Caractéristiques de la série de groupes après raffinement. Légende cf. tableau 3.1.

Ces groupes ont été conçus pour la dérivation du potentiel AW^ (eq. 3.13) tenant compte de l’adaptation de séquence des protéines issues d’organismes thermophiles. La division en deux groupes seulement sans recouvrement entre eux a été choisie pour étudier l’influence de la température sur les contributions des interactions formées entre toutes les paires de résidus. Elle permet de maximiser les différences entre les environnements protéiques moyens définis par ces deux groupes et d’en extraire des profils énergétiques se basant sur des fréquences d’observations plus représentatives (section 4.2).

Chapitre 3 — Méthodes et outils

Résidu Q(2)BDi Gi2,BO, G^bd, Résidu G(.2)BD, ^(2)BD^^ref G(2)BD,

A 8,4 8,4 7,9 M 1,7 1,8 2,0 C 1,1 1,3 1,6 N 5,2 5,0 4,8 D 6,4 6,5 6,4 P 4,5 4,5 4,3 E 5,7 5,7 6,6 O 4,3 4,0 3,5 F 4,0 3,9 4,0 R 4,0 4,2 5,0 G 8,2 8,3 8,0 S 6,8 6,6 6,0 H 2,0 2,1 2,1 T 6,1 5,9 5,3 I 4,9 5,1 5,4 V 6,6 6,7 6,6 K 6,2 6,2 6,5 W 1,6 1,6 1,7 L 8,9 8,4 8,0 Y 3,6 4,0 4,2

Tableau 3.12 - Compositions en acides aminés des groupes exprimées en pourcent.

De la même manière que nous avons agrandi graduellement notre échantillon de protéines au cours de ces années de doctorat, allant de 87 {BD\) à 166 nous avons généré plusieurs séries de groupes de distincte. Ces séries bien que distinctes ont cependant toutes le même objectif : représenter le mieux possible un environnement protéique de résistance thermique moyenne donnée. Le tableau récapitulatif 3.13 répertorie ces différentes séries de groupes de distincte.

Nom de la série

Base de

données source Nombre de groupes Sections “

Potentiels statistiques dérivés * Critères statistiques appliqués BD4 5 4.1 àWj,i,AW4s2etAWjs -Q(2)BDt BD4 2 4.1.4 -qWBD, BD4 4 4.1.2 et 4.1.3 et De et Dp G(2)T„ BD4 2 5.2 AWjs et AW= De et Dp BD4 2 5.2 AWjs et AWf^ De et Dp q(2)BD^ BDs 2 4.2 et 6.1 ^min ^lolal

Tableau 3.13 - Tableau récapitulatif des différentes séries de groupes conçues. Sections de cette thèse de doctorat où ces séries on été exploitées. * Potentiels statistiques ayant été dérivés de ces séries de groupes. Critères statistiques appliqués pour évaluer la significativité statistique des écarts de comportement entre les profils énergétiques dérivés des différents groupes d’une même série à l’aide des séries aléatoires lui étant associées (section 3.1.3 et 3.4).

La première série de groupes de protéines de thermostabilité différente a été réalisée à partir de la BD4 pour observer qualitativement la dépendance en la température des potentiels de distance standards AW^s (eq. 3.6) ainsi que de leur composante à un corps (eq. 3.9). La deuxième série a également été réalisée à partir de la BD4 mais en vue d’étudier plus en profondeur l’influence de la température sur la contribution des interactions cation-7ü à l’aide d’un potentiel statistique prévu à cet effet AWcat-;i: (eq. 3.16). Ce potentiel statistique nécessite de plus grands échantillons de protéines car il prend en compte non seulement un critère de distance mais également un critère d’angle. La combinaison de ces deux critères induit la nécessité de considérer des bases de données de taille plus importante pour obtenir des potentiels statistiques significatifs. La troisième série a été réalisée à partir de la BD4 dans le but de prouver statistiquement l’effet de la température sur la

contribution des ponts salins et de l’empilement hydrophobe à l’aide d’un nouveau potentiel statistique tenant compte de l’adaptation des protéines thermostables AWj. (eq. 3.12). Les profils énergétiques dérivés de ces différentes séries sont présentés et discutés dans la section 4.1 de cette thèse de doctorat.

La quatrième et la cinquième série issues toutes deux de la BD4 et ) ont été utilisées afin de montrer l’impact du choix du descripteur de la thermostabilité des protéines sur les profils énergétiques du potentiel statistique AW= (chapitre 5).

* m

La dernière série à été réalisée à partir de la BD^ dans le but d’étudier la dépendance en la température des contributions de toutes les interactions entre paires de résidus et d’en extraire des profils énergétiques visant à prédire la stabilité thermique à l’aide d’un potentiel mieux adapté à notre base de données AW^ (eq. 3.13). Les profils énergétiques dérivés de cette série sont présentés et discutés dans la section 4.2 de cette thèse de doctorat.

3.1.3 Génération de séries de groupes aléatoires à partir d’un modèle de

division

Afin d’avoir une vue objective sur la significativité des différences de comportement observées entre les profils énergétiques dérivés à partir de groupes de protéines de résistance thermique moyenne distincte, nous avons généré des séries de groupes aléatoires. Ces séries s’inspirent du modèle de division utiüsé lors de la conception d’une série de groupes donnée.

Cette méthode a été utilisée pour les séries de groupes et et

permet d’attester la significativité de nos résultats. Ainsi, en suivant exactement le modèle de division en N groupes de la série considérée, nous générons mille séries de groupes aléatoires de notre base de données monomériques en N groupes {BD^ ou BD5 en fonction de la série considérée). Les groupes de chaque série aléatoire ainsi générés sont ensuite raffinés par notre méthode de raffinement automatique sans toutefois tenir compte de la température de fusion des protéines lors de leur rejet (section 3.1.1). Ces séries aléatoires doivent cependant respecter un critère que nous avons fixé les rendant indépendantes de la thermostabilité des protéines : il doit y avoir un écart de moins de 3°C entre les de chacun de leurs N groupes après raffinement. Les variations, écarts, dissemblances entre les contributions énergétiques obtenues entre les N groupes de la série étudiée sont comparées aux variations, écarts et dissemblances observées entre les N groupes de chacune des mille séries de groupes aléatoires leur étant associées. De cette manière nous pouvons mesurer la probabilité d’obtenir des fluctuations énergétiques entre N groupes de protéines indépendamment de la thermostabilité. Ces variations, écarts et dissemblances sont mesurées à l’aide de critères définis à la section 3.4.

3.1.4 Conception d^une base de données de structures protéiques pour

Dans le document Disponible à / Available at permalink : (Page 66-72)