• Aucun résultat trouvé

Conception d’une base de données de structures protéiques pour l’étude des géométries [249]

Dans le document Disponible à / Available at permalink : (Page 72-77)

23 Méthodes d’identification des différents facteurs

3.1 Bases de données de protéines

3.1.4 Conception d’une base de données de structures protéiques pour l’étude des géométries [249]

Lors de l’étude de la dépendance en la température des contributions des ponts salins, nous avons observé un comportement particulier qui nous a poussés à étudier en profondeur la géométrie de leur interaction. Afin d’examiner la géométrie de ces interactions, nous avons conçu une grande base de données de protéines dont la structure a été déterminée par

Chapitre 3 — Méthodes et outils

O

cristallographie aux rayons X avec très bonne résolution (inférieure ou égale à 2,0 A). Celle-ci a été téléchargée du serveur de Dunbrack Lab proposant diverses bases de données structurales classées selon deux critères : la résolution maximale de la structure protéique la moins bien résolue de la base de données ainsi que le pourcentage d’identité de séquence maximum entre toutes les paires de protéines de la base de données Les valeurs de ces deux critères que nous avons choisies pour former notre base de données sont respectivement 2,0 A et 20%. Cette requête nous a fourni 2855 protéines partageant moins de 20% d’identité de séquence entre elles et possédant une stmcture de résolution inférieure ou égale à 2,0 A. Nous en avons retiré toutes les protéines multimériques et conservé les 540 protéines monomériques qui constituent notre base de données BD(). Ce grand échantillon de structures de protéines a été utilisé pour observer les différentes géométries adoptées par deux résidus formant un pont salin (section 3.3).

3.1.5 Conception d’une base de données de mutants

En progressant dans la quête du décryptage du code protéique conférant la thermostabiüté, nous sommes parvenus à obtenir des profils énergétiques décrivant l’influence de la température sur les contributions des interactions protéiques. L’idée de pouvoir les utiliser pour prédire le changement de stabilité thermique encouru lors de l’introduction d’une mutation nous est alors apparue très clairement. Dès lors, nous nous sommes attelés à la conception d’une base de données à partir de laquelle nous avons d’une part construit cette méthode prédictive et d’autre part évalué son pouvoir de prédiction. Ce nouvel objectif a demandé une re-conceptualisation totale de notre façon de construire une base de données de protéines. En effet, nous avons décidé de tenter le pari audacieux de construire une base de données répertoriant plus de 23.500 expériences de dénaturation. Cette base de données a été construite à l’aide de toutes les données que nous avions déjà récoltées ainsi qu’avec toutes les entrées de la base de données ProTherm Outre cette base de données librement accessible, nous avons utilisé les informations présentes dans d’autres banques de données afin de recouper toutes les informations utiles à notre recherche sur la thermostabilité des protéines. Parmi elles figurent les banques de données de structure de protéines PDB Pqs[282] gj. PDBsum^^*^ ainsi que les banques de données taxinomiques d’organismes PGTdb^^^'*^ et NCBI^^^^l La conception de cette base de données a demandé beaucoup d’heures de travail et nous espérons, dans un futur proche, la rendre accessible par une interface Web.

Cette grande base de données est directement inspirée de ProTherm. Cependant, nous l’avons entièrement restructurée et remaniée afin de la rendre la plus maniable possible. Nous avons également rajouté de nombreux champs liés notamment à la structure protéique et aux spécificités des organismes desquels proviennent les protéines. Notre base de données s’articule aujourd’hui autour de neuf tables reliées entre elles par quelques champs clés :

1. Table des expériences de dénaturation chimique 2. Table des expériences de dénaturation thermique 3. Table des protéines

4. Table des structures protéiques 5. Table des organismes

6. Table des mutations 7. Table des additifs 8. Table des références 9. Table des journaux

Les deux premières de ces neuf tables comportent tous les renseignements concernant une expérience effectuée sur une protéine donnée. H s’agit d’expériences de dénaturation permettant de décrire différentes caractéristiques d’une protéine. Cette thèse de doctorat étudiant la thermostabilité des protéines, nous nous intéressons essentiellement aux dénaturations thermiques capables de déterminer la température de fusion Tm des protéines. Cependant, afin de construire une large base de données la plus complète possible, nous avons tenu compte de toutes les expériences de dénaturation que nous avons rencontrées. Ainsi, les deux premières tables constituent le noyau de notre base de données à partir desquelles toutes les autres tables sont reliées. La troisième table comporte tous les champs directement liés à la description d’une protéine donnée sur laquelle une expérience a été menée. La quatrième reprend toutes les données relatives aux structures de ces protéines résolues expérimentalement. La cinquième fait l’inventaire de tous les organismes desquels sont issues les protéines présentes dans la base de données. La sixième, renferme toutes les informations concernant l’éventuelle présence d’une mutation. La septième énumère les différents additifs (ions, solutions tampons ...) présents lors des expériences de dénaturation. La huitième englobe toutes les références bibliographiques concernant toutes les expériences de dénaturation ainsi que certaines relatives à certaines structures protéiques. La dernière a pour objectif de rassembler les noms et abréviations des divers journaux scientifiques ayant publié les articles répertoriés dans la huitième table. Pour mieux percevoir la structure de notre nouvelle base de données, en voici un schéma simplifié :

Figure 3.2 - Schéma simplifié de la structure de notre base de données.

Notre base de données comporte aujourd’hui plus de 23.500 expériences de dénaturation chimique ou thermique réalisées sur 1.411 protéines. Une description plus détaillée de chaque table et de chacun de leurs champs est fournie en annexe (tableaux A.l et A.2).

En interrogeant cette grande base de données, nous avons extrait toutes les entrées correspondant à des variations de températures de fusion (AT’;„) observées sur des protéines monomériques ayant subi une mutation ponctuelle et possédant une structure tridimensionnelle de bonne résolution (inférieure ou égale à 2,5 A). Tout au long de cette thèse, le mot « mutant » fait référence à une protéine ayant subi une mutation ponctuelle.

Chapitre 3 - Méthodes et outils

autrement dit, une protéine dont un des acides aminés a été remplacé par un autre. Les 4.888 entrées correspondant à notre requête, ont été vérifiées une à une et corrigées si nécessaire à l’aide de la consultation des articles scientifiques rapportant les mesures de ATm et des banques de données structurales disponibles. Nous avons vérifié :

• l’absence de dénaturant chimique lors de l’expérience de dénaturation thermique • l’absence d’état de transition entre l’état natif et dénaturé de la protéine mutée • l’absence d’un état multimérique lors de la dénaturation

• l’absence de délétions et d’insertions d’acides aminés

• la disponibilité d’une structure monomérique (de la protéine sauvage) • la bonne résolution de cette structure

Parmi ces 4.888 entrées, 2.238 ont dû être rejetées par manque d’information ou parce que les données étaient erronées. Finalement, 2.650 expériences de dénaturation thermique ont été menées dans des conditions expérimentales respectant nos critères. Certaines de ces entrées font référence au même mutant dont laAT^ a été mesurée dans des conditions de pH différentes ou en présence de différentes solutions tampon et/ou additifs. Afin de tenir compte de ces différentes expériences réalisées sur un même mutant, une <ATm> moyenne leur a été attribuée en tenant compte de certaines pondérations (eq. 3.1). Ces pondérations (z,) accordent plus d’importance aux expériences réalisées dans des conditions proches des conditions physiologiques (pH = 7 et absence d’additifs).

Z^rzr(ATj, < AT >= ---Zzf-zr 1=1 avec Z, m e, V ^max) sim>0 zf=\ sim = 0 (3.1)

N est le nombre d’entrées dans notre banque de données dont la ATm a été mesurée pour un mutant donné, m est le nombre d’additifs présents en solution durant l’expérience, C,y est la concentration de l’additif j dans l’expérience i et Cy"^ est la concentration maximale d’additif

j parmi l’entièreté des 2.650 entrées.

Au final, nous obtenons une base de données BDj de 1.601 mutants différents réalisés à partir de 91 protéines sauvages dont la stmcture a été résolue et dont la ATm encourue lors de l’introduction d’une mutation ponctuelle a été mesurée expérimentalement (ou attribuée par l’équation 3.1).

Par ailleurs, lors du développement de notre méthode de prédiction des changements de thermostabilité, nous avons voulu comparer son pouvoir prédictif avec celui d’un autre logiciel développé au sein de notre unité (chapitre 6). Ce logiciel performant (PoPMuSiC-2.0^^^^^) a été conçu pour prédire les changements de stabilité thermodynamique liés à l’introduction de mutations (AACf). Afin de mettre ces deux outils de prédiction sur un même pied d’égalité, nous avons constitué un échantillon de mutants dont la ATm et le AAG® liés à l’introduction d’une mutation ponctuelle sont connus. Pour y parvenir, nous avons

croisé notre base de données BD-j avec celle utilisée pour le développement du logiciel PoPMuSiC-2.0. Cette base de données comporte 2.648 mutants dont le changement de stabilité thermodynamique (AAG”) a été mesuré expérimentalement. Après avoir croisé ces deux banques de données, nous avons constitué un échantillon de 829 mutants possédant une Ar^n et un AAG° déterminés expérimentalement (BDs). La liste des 1.601 et des 829 mutants est fournie en annexe de ce travail (tableau A.4).

Les différentes bases de données de protéines sauvages et mutantes conçues et exploitées dans cette thèse de doctorat sont répertoriées dans le tableau récapitulatif suivant :

Nom Nombre de protéines s. ou m.“ Résol. (Â)" Structure quaternaire ou AT„ mesurée ‘‘ % identité séq.' Section^ Annexes*

BDi 87 S. <2,5 Mono- et homo-multimères T - -

-BDi 199 5. <2,5 Mono- et homo-multimères Tm - -

-BDi 151 s. <2,5 Mono- et homo-multimères T* m 25% 4.1.1

-BD^ 127 s. <2,5 Monomères T - 4.1 5.2

-BDs 166 S. <2,5 Monomères 7’m - 4.2 Tab. A.3

BDe 540 5. <2,0 Monomères - 20% 4.1.2

-BDn 1601 m. <2,5 Monomères - 6.2 Tab. A.4

BDs 829 m. <2,5 Monomères - 6.3 Tab. A.4

Tableau 3.14 - Tableau récapitulatif des bases de données que nous savons conçues.s. (to.) désigne une base de données de protéines sauvages (ayant une mutation ponctuelle). * Limite de résolution par cristallographie aux rayons X en  parmi toutes les structures protéiques de la base de données considérée. Structures quaternaires des protéines de la base de données considérée. “^Grandeur thermodynamique mesurée expérimentalement {T„, AT^ ou aucune de ces grandeurs). ' Pourcentage d’identité de séquence maximal entre deux protéines de la base de données considérée. ■^Sections de cette thèse de doctorat où ces séries on été exploitées. * Annexes reprenant les détails de

Chapitre 3 — Méthodes et outils

Dans le document Disponible à / Available at permalink : (Page 72-77)