• Aucun résultat trouvé

Séquences expérimentales et modèles structuraux

2.4 Les principaux programmes de CPD

3.1.2 Séquences expérimentales et modèles structuraux

3.1.2.1 Choix des modèles structuraux

Bien qu’homologues, les domaines PDZ n’ont pas exactement la même structure tridimen- sionnelle. L’utilisation d’un squelette fixe unique peut alors introduire un biais et un manque de transférabilité. Deux modèles structuraux sont donc pris en compte lors de l’optimisation. Ils correspondent aux domaines PDZ de Tiam1 et Cask dont les identifiants PDB sont res- pectivement 4GVD et 1KWA. Tous deux sont des domaines de classe II, c’est-à-dire qu’ils reconnaissent préférentiellement le motif Φ-X-Φ à l’extrémité C-terminale du ligand, Φ étant un acide aminé hydrophobe.

La structure 4GVD de Tiam1 correspond au domaine PDZ lié à son ligand naturel, le peptide Syndecan1 (Sdc1). La majorité des tests effectués par la suite étant faite sur la forme

3.1. Optimisation des énergies de référence

apo du domaine, le peptide est retiré du modèle structural. La valeur du RMSD entre les structures cristallographiques de Tiam1 apo et holo (liée à un peptide) étant de seulement 0,5 Å, le retrait du peptide ne devrait pas nuire à la transférabilité du modèle entre ces deux formes. Bien que cristallisée sans ligand, la structure de Cask (1KWA) montre que l’extrémité C-terminale d’un autre domaine PDZ de la maille occupe le sillon de liaison du peptide. Comme pour Tiam1, les formes apo et holo de Cask sont probablement proches.

Afin de tester notre modèle par validation croisée, les seconds domaines PDZ de la Synté- nine (code PDB 1R6J) et de la protéine DLG2 (code PDB 2BYG) sont également sélectionnés. Ces domaines appartiennent à la classe I et reconnaissent le motif S|T-X-Φ à l’extrémité C- terminale du ligand. Comme pour Cask, ces deux structures n’ont pas été co-cristallisées avec un peptide mais le site de liaison est occupé par l’extrémité C-terminale d’un autre domaine PDZ de la maille.

Les quatres structures sont très proches, notamment au niveau de 14 positions du cœur hydrophobe (figure 3.2A). La plus grande dissimilarité se situe au niveau des boucles et des extrémités qui sont très flexibles. On peut également observer une légère rotation de l’hélice

α2 de Tiam1 qui n’est pas retrouvée dans les trois autres structures. Le RMSD entre les

différentes protéines a des valeurs entre 1,0 et 2,1 Å. Le pourcentage d’identité entre les différentes séquences est compris entre 17 et 33%. Ainsi, les protéines Tiam1 et Cask possèdent

une identité de séquences de 33% et un RMSD de 1,7 Å (calculé sur 42 Cα). La Synténine et

DLG2 présentent le pourcentage d’identité le plus faible (17%) mais sont structurellement les

plus proches avec un RMSD de 1,0 Å calculé sur 60 Cα (figure 3.2B).

Les séquences des quatre domaines sont également comparées à un sous-ensemble de l’ali- gnement Pfam seed (figure 3.3). Les 14 positions de cœur sont bien conservées dans l’ali- gnement. On observe néanmoins quelques arginines, lysines et glutamines à certaines de ces positions. Cela peut s’expliquer par la petite taille des domaines PDZ qui peut permettre aux longues chaines aliphatiques de l’arginine et de la lysine d’être enfouies tout en exposant leur tête polaire au solvant.

3.1.2.2 Recherche de séquences homologues proches

Les séquences de Tiam1 et Cask ne permettent pas de décrire la diversité des domaines PDZ. Il faut donc agrandir le jeu de séquences expérimentales tout en restant compatible avec les squelettes de Tiam1 et Cask. Le jeu de séquences est donc élargi en recherchant

Figure 3.2 – Modèles structuraux utilisés pour l’optimisation des énergies de réfé- rence. A : Structure tridimensionnelle des 4 domaines PDZ. Les atomes Cβ des 14 positions

du cœur sont représentés par les sphères (les numéros de résidus correspondent à ceux de Tiam1). B : Proximité entre les domaines PDZ. Pour chaque lien, le pourcentage d’identité et le RMSD (Å) entre les atomes du squelette sont indiqués. Le nombre entre parenthèses

correspond au nombre d’atomes Cα utilisés pour calculer le RMSD.

des séquences homologues de Tiam1 et Cask dans la base de données Uniprot. Pour cela le programme BLAST est utilisé (Altschul et al. [1990]) avec Tiam1 et Cask comme requêtes et la matrice de score Blosum62. Seules les séquences ayant un score d’identité entre 60% et 85% par rapport à la séquence requête sont conservées. Pour limiter la redondance, si deux séquences ont un pourcentage d’identité supérieur à 95%, seule l’une des deux est conservée. Nous obtenons ainsi 50 séquences homologues pour Tiam1 et 126 pour Cask. Ces ensembles

seront notés HT et HC respectivement (Annexe A, figures A.1 et A.2). Les fréquences en acides

aminés sont ensuite calculées pour chaque jeu de séquences H en moyennant sur toutes les séquences et toutes les positions.

La composition du cœur étant différente du reste de la protéine, avec une plus grande proportion d’acides aminés hydrophobes, les fréquences ont été calculées séparément pour les

3.1. Optimisation des énergies de référence 10 20 30 40 50 60 70 80 90 100 4GVD (Tiam1) 1KWA (CASK) 1R6J (Synténine) 2BYG (DLG2) LIMK1_HUMAN LIMK2_CHICK LIMK2_RAT CTPA_SYNP2 PRC_HAEIN PRC_ECOLI DEGPL_BARHE HTOA_HAEIN DEGQ_ECOLI DEGP_ECOLI DEGP_SALTY DEGQ_ECOLI HTOA_HAEIN DEGS_ECOLI DEGS_HAEIN RSEP_ECOLI SP4B_BACSU NM111_YEAST SIPA1_MOUSE YQI7_CAEEL AFAD_HUMAN DVL1_MOUSE DSH_DROME DLG1_DROME DLG4_RAT DLG1_DROME DLG4_RAT DLG4_RAT DLG1_DROME DLG4_RAT S I H I E K SD T - - A AD T Y G F S L S S V E E DG - - - I R R L Y VN S V K E T - - G L A S K KG - L K AGD E I L E I - - NN R A AD A L - N S SM L KD F L SQ - - P - - S LG L L V R T Y S R L VQ F Q KN - - T D E P MG I T L KMN E - - - LNH C I V A R I MHG - - GM I H RQG T LH VGD E I R E I - - NG I S V ANQ - T V E Q LQ KM L R E MRG - - S I T F K I V P S P R T I T MH KD - - S T GH VG F I F KNG K - - - I T S I V KD - - S S A A RNG - L L T E HN I C E I - - NGQN V I G L - KD SQ I AD I L S T SG T - - V V T I T I MP A V V E I K L - F K - - G P KG LG F S I AGG VGNQ - H - - - - I P GDN S I Y V T K I I DG - - G A AQ KDG R LQ VGD R L LMV - - NN Y S L E E V - T H E E A V A I L KN T S E - - V V Y L K VG K P - - L V S I P A S - - SHG K RG L S V S I D P P HG P P G C - G T E H SH T V R VQG VD P G - CMS P D V KN S I H VGD R I L E I - - NG T P I RN V - P LD E I D L L I Q E T S R - - L LQ L T L E - - - - L I SMP A A - - T DG K RG F S V S V E GG C S S - - - Y A T G VQ V K E VN RM - H I S P D V RN A I H P AD R I L E I - - NG A P I R T L - Q V E E V E D L I R K T SQ - - T LQ L L I E - - - - L I SMP A T - - T E C R RG F S V S V E S A S SN - - - Y A T T VQ V K E VN RM - H I S P NN RN A I H P GD R I L E I - - NG T P V R T L - R V E E V E D A I NQ T SQ - - T LQ L L I E - - - - S L K V S T S - G E L SG VG LQ I N VN P E V - - - D V L E V I L P L P G - - S P A E A AG - I E A KDQ I L A I - - DG I D T RN I - G L E E A A A RMRG K KG - S T V S L T V K - - - - S F N E S I N - L S L E G I G T T LQ S E DD - - - E I S I K S L V P G - - A P A E R S K K LH P GD K I I G V - - GQ E D V VGW- R L E D L V E K I KG K KG - T K V R L E I E - - - - N T E MS L - - - S L E G I G A V LQMDDD - - - Y T V I N SMV AG - - G P A A K S K A I S VGD K I VG V - - GQ VD V I GW- R LDD V V A L I KG P KG - S K V R L E I L - - - - QQ L I E KG L VQ RGWLG VQ I Q P V T K E I SD S I - G L K E A KG A L I T D P L KG - - P A A K AG - - I K AGD V I I S V - - NG E K I ND V - RD L A K R I ANMS P G E - - T V T LG VW- - - - QQ I L E F GQ V R RG L LG I KGG E LN AD L A K A F - N V S AQQG A F V S E V L P K - - S A A E K AG - L K AGD I I T AM - - NGQ K I S S F - A E I R A K I A T T G AG K - - E I S L T Y L - - - - Q L I D F G E - I K RG L LG I KG T E MS AD I A K A F - N LD VQ RG A F V S E V L P G - SG S A K AG - - V K AGD I I T S L - - NG K P LN S F - A E L R S R I A T T E P G T - - K V K LG L L - - - - QMV E Y GQ - V K RG E LG I MG T E LN S E L A K AM - K VD AQ RG A F V SQ V L P N - S S A A K AG - - I K AGD V I T S L - - NG K P I S S F - A A L R AQ VG T MP VG S - - K L T LG L L - - - - Q SQ VD S - - - S T I F SG I E G A E MSN KG - - - QD KG V V V S S V K AN - S P A AQ I G - - L K KGD V I I G A - - NQQ P V KN I - A E L R K I LD S K P S - - - - V L A LN I Q - - - - S A S A E M I - - T P A L E G A T L SDGQ L KD - - - GG KG I K I D E V V KG - S P A AQ AG - - LQ KDD V I I G V - - N RD R VN S I - A E MR K V L A A K P A - - - - I I A LQ I V - - - - Q L S S K T E - - L P A LDG A T L KD Y D A KG - - - V KG I E I T K I Q P N - S L A AQ RG - - L K SGD I I I G I - - N RQM I E N I - R E LN K V L E T E P S - - - - A V A LN I L - - - - L I RDG R V - - I RG Y I G I GG R E I A P LH AQGG - G I DQ LQG I V VN E V S P D - G P A AN AG - - I Q VND L I I S V - - DN P A I S A L - E T MDQ V A E I R P G S - - - V I P V V VM - - - - K I MRDG R - V I RG Y F G VQ SD I S S S S E - - - E G I V I T D V S P N - S P A A K SG - - I Q VGD V I L K L - - NNQ E G I S A - R E MMQ I I AN T K P N S - - K V L V T I L - - - - E P D K E D - - - P V S S LG I R P RG P Q I - - - E P V L E N VQ P N - - S A A S K AG - LQ AGD R I V K V - - DGQ P L T QW- - V T F VM L V RDN P G K - - S L A L E I E - - - - D L K V I P - - - GGQ S I G V K LH S VG V L V - - - VG F HQ I N T S E G K K S P G E T AG - I E AGD I I I E M - - NGQ K I E KM - ND V A P F I Q K AG K T G - E S LD L L I K - - - - QWL L K P Y - D E C R R LG L T S E R E S E A R A K - - - - F P E N I G L L V A E T V L R - E G P G Y D K - - I K E GD T L I S I - - NG E T I S S F MQ VD K I QD E N VG K - - - - E I Q L V I Q - - - - E L A L P RD - - GQG R LG F E VD A - - - E G F I T H V E R F - - T F A E T T G - L R P G A R L L R V - - CGQ T L P K L - G P E T A AQM L R S A P - - - K V C V T V L - - - - E V I D AHG - Q V T I R VG F K I GGG I DQD P T K A P F K Y P D SG V Y I T N V E SG - - S P AD V AG - L R KHD K I LQ V - - NG AD F T MM - T HD R A V K F I KQ S K - - - V L HM L V A - - - - T V T L K K - - - - QNGMG L S I V A A KG AGQ - - - D K LG I Y V K S V V KG - - G A AD VDG R L A AGDQ L L S V - - DG R S L VG L - SQ E R A A E LMT R T S S - - V V T L E V A - - - - T V T LNME - - RHH F LG I S I VGQ SND R - - - GDGG I Y I G S I MKG - - G A V A ADG R I E P GDM L LQ V - - ND VN F E NM - SNDD A V R V L R E I V S T G P I S L T V A - - - - T V S I NME - - A VN F LG I S I VGQ SN RG - - - GDGG I Y VG S I MKG - - G A V A LDG R I E P GDM I LQ V - - ND VN F E NM - T ND E A V R V L R E V VQ P G P I K L V V A - - - - E I D L V K - - - GG KG LG F S I AGG I GNQH I - - - P GDNG I Y V T K LMDG - - G A AQ VDG R L S I GD K L I A V R T NG KN L E N V - T H E L A V A T L K S I T D - - K V T L I I G - - - - E I K L I K - - - G P KG LG F S I AGG VGNQH I - - - P GDN S I Y V T K I I E G - - G A AH KDG R LQ I GD K I L A V - - N S VG L E D V - MH E D A V A A L KN T Y D - - V V Y L K V A - - - - D I Q L E R - - - GN SG LG F S I AGG T DN P H I - - - G T D T S I Y I T K L I SG - - G A A A ADG R L S I ND I I V S V - - ND V S V VD V - P H A S A VD A L K K AGN - - V V K LH V K - - - - E I T L E R - - - GN SG LG F S I AGG T DN P H I - - - GDD P S I F I T K I I P G - - G A A AQDG R L R VND S I L F V - - N E VD V R E V - T H S A A V E A L K E AG S - - I V R L Y VM - - - - T V T LH R A - - P G F G F G I A I SGG RDN P H F - - - - Q SG E T S I V I SD V L KG - - G P A E GQ - - LQ E ND R V AMV - - NG V SMDN V - E H A F A VQQ L R K SG K - - N A K I T I R - - - - T I T I Q K - - - G P QG LG F N I VGG E DG - - - QG I Y V S F I L AG - - G P AD LG S E L K RGDQ L L S V - - NN VN L T H A - T H E E A AQ A L K T SGG - - V V T L L AQ - - - - R I V I H R - - - G S T G LG F N I VGG E DG - - - E G I F I S F I L AG - - G P AD L SG E L R KGDQ I L S V - - NG VD L RN A - SH E Q A A I A L KN AGQ - - T V T I I AQ - -

β1 β2 β3 α1 β4 α2 β5

Figure 3.3 – Alignement des quatre séquences PDZ sélectionnées avec des sé- quences de l’alignement Pfam seed. Les quatre premières séquences sont les séquences

testées. Les 30 autres sont issues de l’alignement Pfam seed. Les 14 positions du cœur hydro- phobe sont indiquées par les étoiles rouges.

régions enfouies et exposées. Pour déterminer le caractère enfoui ou exposé d’un résidu, nous nous sommes basés sur leur surface relative exposée au solvant (RASA pour Relative accessible

surface area). Les résidus ayant moins de 20% de leur surface exposée sont considérés comme

enfouis. Ce seuil a été choisi de telle sorte qu’environ la moitié des positions des deux domaines PDZ sont considérées comme enfouies. Cette séparation des résidus en deux groupes, enfouis et exposés, prend en compte implicitement l’existence de structures résiduelles dans l’état déplié. Cela suppose que les résidus conservent une partie de leur propriété enfouie/exposée dans cet état. De plus, cette approche permet de rendre le modèle moins sensible aux variations de la longueur des boucles exposées et à la différence entre les proportions enfouie/exposée qui peuvent grandement varier entre homologues. Cela pourrait rendre le modèle plus facilement transférable à d’autres domaines PDZ.

Pour chaque protéine nous obtenons deux jeux de fréquences notées {fb

t(H),fte(H)}, où t

correspond au type d’acide aminé et les exposants b et e correspondent respectivement aux résidus enfouis (buried) et exposés (exposed). Une fois les fréquences calculées séparément pour

les deux protéines, les valeurs obtenues sont moyennées comme suit, fb

t = (ftb(HT)+ftb(HC))/2,

La séparation des résidus en deux partitions double la taille du jeu d’énergies de référence à optimiser. Pour réduire le nombre de paramètres ajustables nous avons classé les acides aminés en groupes, basés sur leurs propriétés physico-chimiques. La composition initiale des groupes a été déterminée à partir de l’étude de Launay et al. [2007] par une approche de classification hiérarchique basée sur les scores de similarité Blosum50. Dans un second temps, certains groupes ont été scindés pour des raisons que nous préciserons plus loin.