• Aucun résultat trouvé

Comparaison des séquences générées avec l’alignement Pfam

3.3 Validation des paramètres

3.3.3 Caractérisation des séquences de Tiam1 et Cask

3.3.3.2 Comparaison des séquences générées avec l’alignement Pfam

Les séquences produites ont également été comparées aux séquences natives et homologues, dont celles de la base de données Pfam (Sonnhammer et al. [1997]). Cette base de données rassemble des alignements de séquences des différentes familles de protéines. Pour ce faire, un petit jeu de séquences appelé seed (44 séquences dans le cas des domaines PDZ) est aligné manuellement. Puis toutes les séquences de la famille sont alignées automatiquement à l’aide de modèles de Markov cachés issus de l’alignement seed. L’alignement PDZ complet compte actuellement 38522 séquences.

Nous avons fait le choix de travailler avec le sous-ensemble RP55 contenant 12255 séquences pour réduire la taille du jeu de données. Le seuil de 55% permet de diminuer la redondance tout en conservant une bonne diversité (Chen et al. [2011]). Le score de similarité moyen de chaque séquence par rapport aux séquences Pfam est calculé en utilisant la matrice de score Blosum40 et une pénalité de gap de -6. Cette matrice permet de caractériser des homologues distants. Pour comparaison, le score de chaque séquence Pfam est également calculé par rapport à l’alignement Pfam. Pour ne pas biaiser les résultats, l’alignement d’une séquence Pfam contre elle-même n’est pas pris en compte.

Les scores de similarité sont calculés sur la protéine entière mais également sur 14 positions du cœur hydrophobe et 16 positions de surface déterminées par leur surface exposée au solvant. Les numéros et la position de ces résidus sont indiqués en figure 3.5. Ces deux ensembles sont également représentés sous forme de logos où chaque type est indiqué par son code à une lettre dont la taille est proportionnelle à sa fréquence (figures 3.6 et 3.7).

Les deux modèles Proteus P = 4 et P = 8 ont des performances comparables (figures 3.8

et 3.9). Les scores de similarité obtenus avec Proteus chevauchent la partie inférieure du pic des séquences Pfam. Les scores obtenus restent néanmoins inférieurs aux scores des séquences natives. Les résultats Rosetta sont très similaires à ceux de Proteus avec des performances légèrement meilleures dans le cas de Tiam1.

Les scores des positions de cœur sont meilleurs dans le cas de Proteus et se rapprochent du pic des séquences Pfam. Pour Cask, le score de similarité de certaines séquences égalise,

Pos. cœur Pos. surface Tiam1 Cask Tiam1 Cask

Y858 M501 A855 D498 F860 I503 E866 E509 L862 L505 R871 N511 V875 V515 N876 A516 A884 I524 S877 R517 L889 L530 K879 M519 I895 I536 E880 H520 I898 I539 K886 R526 A903 V544 K887 Q527 L911 L552 K890 H531 L915 L556 D904 A545 L920 I563 A905 N546 L922 F565 S909 E550 V924 I567 K912 Q553 D913 K554 S916 R557 A-Positions des résidus de cœur et de surface sur les

structures de Tiam1 et Cask. B-Numéros des résidus decœur et de surface.

Figure 3.5 – Positions et numéros des résidus du cœur hydrophobe et de la sur- face des protéines Tiam1 et Cask. Les positions enfouies et exposées sont respectivement

représentées en rouge et bleu.

voire dépasse, le score de la séquence native. Ces positions sont extrêmement contraintes géométriquement, ce qui limite les types possibles. Les logos (figure 3.6) montrent que les positions enfouies présentent la plupart du temps le type natif ou un type très présent dans l’alignement Pfam. Les deux principales différences se situent aux positions 898 et 903 de Tiam1. La présence d’une lysine dans le cœur à la position 898 peut paraître étonnante, mais en réalité la chaine aliphatique de la lysine traverse le cœur de la protéine pour exposer sa tête

polaire au solvant entre le brin β2 et l’hélice α2. De même, la position 903 est proche de la

surface de la protéine, ce qui permet à la sérine ou à l’asparagine d’exposer leur groupement polaire. Rosetta a, par ailleurs, tendance à introduire des résidus polaires aux positions 858, 862, 911 et 915 de Tiam1 ce qui pourrait expliquer ses moins bonnes performances pour les positions du cœur.

Les positions de surface présentent des scores négatifs à la fois pour les séquences Proteus et les séquences Rosetta mais restent proches des valeurs obtenues pour les séquences natives. La nature des résidus de surface est contrainte par les interactions de la protéine avec ses partenaires. Ces interactions n’étant pas prises en compte ici, les programmes de CPD ont tendance à y positionner des résidus polaires de manière aléatoire. Cela explique les faibles

3.3. Validation des paramètres

Figure 3.6 – Logos des positions de cœur des séquences de Tiam1 et Cask.

scores observés pour ces positions, qui sont par ailleurs très peu conservées dans l’alignement Pfam (figure 3.7).

Bien que les scores de similarité des séquences Proteus et Rosetta soient comparables, les scores d’identité par rapport à la séquence native sont plus élevés pour les séquences Rosetta

(tableau 3.5). Ainsi, les séquences du modèle P = 8, en excluant (respectivement incluant) les

Gly et Pro, sont de 20% (28%) pour Proteus contre 26% (34%) pour Rosetta, ce qui représente une différence d’environ 5 mutations pour Tiam1 et Cask.

Figure 3.7 – Logos des positions de surface des séquences de Tiam1 et Cask. 3.3.3.3 Entropie de séquence

Afin de comparer la diversité des séquences produites aux séquences naturelles, l’entropie des séquences par position est calculée de la manière suivante (Durbin et al. [2002]) :

Si = −

6

X

j=1

fj(i) ln fj(i) (3.2)

où fj(i) est la fréquence du résidu j à la position i. Au lieu de calculer l’entropie pour les 20

3.3. Validation des paramètres

Figure 3.8 – Histogrammes des scores de similarités des séquences PDZ de Proteus (modèle P = 8) et Rosetta. Les scores ont été calculés par rapport à l’alignement Pfam

RP55 en utilisant la matrice de score BLOSUM40. Les scores ont été calculés sur toute la protéine (haut), sur 14 résidus du cœur (milieu) et sur 16 positions de la surface (bas) pour les protéines Tiam1 (gauche) et Cask (droite). Le score de la séquence native est indiqué par une flèche verticale.

EDNQ et KRH. Ces groupes ont été définis à partir de la matrice Blosum50 et des énergies de contact entre résidus au sein des protéines (Murphy et al. [2000] ; Launay et al. [2007]). En prenant l’exponentielle de l’entropie, le nombre de type d’acides aminés qui apparaissent à chaque position peut être estimé. Ainsi, une valeur de deux pour une position donnée signifie que des acides aminés appartenant à deux des six groupes sont présents à cette position dans les séquences étudiées. Les valeurs obtenues sont ensuite moyennées sur les positions d’intérêt, c’est-à-dire la protéine complète, les positions de cœur ou de surface.

Figure 3.9 – Histogrammes des scores de similarités des séquences PDZ de Proteus (modèle P = 4) et Rosetta. Les scores ont été calculés par rapport à l’alignement Pfam

RP55 en utilisant la matrice de score BLOSUM40. Les scores ont été calculés sur toute la protéine (haut), sur 14 résidus du cœur (milieu) et sur 16 positions de la surface (bas) pour les protéines Tiam1 (gauche) et Cask (droite). Le score de la séquence native est indiqué par une flèche verticale.

L’entropie moyenne des séquences Pfam est de 3,4 (tableau 3.6). Pris séparément, les squelettes de Tiam1 et Cask donnent des entropies plus basses, aussi bien avec Proteus qu’avec Rosetta. En regroupant les séquences de Tiam1 et Cask, l’entropie obtenue est de 2,2 pour Rosetta et comprise entre 1,8 et 1,9 pour Proteus. Cela montre que les squelettes de Tiam1 et Cask ne permettent pas d’explorer toute la diversité des séquences contenues dans l’alignement RP55. Les séquences issues de la réplique à température ambiante (kT = 0,592) possèdent une entropie plus élevée égale à 2,9.

3.3. Validation des paramètres Tableau 3.5 – Scores de similarité et pourcentages d’identité des séquences gé- nérées par Proteus et Rosetta. Les scores de similarité ont été calculés par rapport à

un sous-ensemble de l’alignement Pfam dans domaines PDZ (SP f am), aux séquences des ho-

mologues proches (Shom.) et de la séquence native (Snative) en utilisant une matrice de score

BLOSUM40. Le score d’identité par rapport à la séquence native en prenant en compte les

Gly et Pro a également été calculé (%IDnative).

Part. Modèle Prot. SP f am Shom. Snative %IDnative

Prot, complète

Proteus P = 4 Tiam1Cask 15,5 (4,2)35,2 (7,8) 138,3 (20,9)114,4 (9,6) 122,7 (110,0)143,5 (19,9) 27,3 (2,3)29,5 (2,8) Proteus P = 8 Tiam1Cask 12,3 (3,9) 101,5 (10,6)37,9 (9,4) 163,6 (19,3) 111,7 (10,9)173,8 (18,8) 25,4 (2,0)32,7 (2,7) Rosetta Tiam1Cask 33,8 (10,5) 147,3 (17,3)21,2 (9,0) 146,6 (15,6) 173,1 (16,3)172,1 (19,2) 35,6 (2,9)35,6 (3,1)

Cœur

Proteus P = 4 Tiam1Cask 29,4 (2,9)31,3 (2,9) 51,5 (6,7)53,3 (3,1) 51,3 (6,8)52,5 (3,3) 38,0 (6,7)56,4 (4,7) Proteus P = 8 Tiam1Cask 30,1 (3,9)26,6 (5,4) 47,8 (4,4)49,7 (5,5) 47,6 (4,5)48,6 (6,0) 40,0 (5,3)53,1 (8,5) Rosetta Tiam1Cask 25,4 (7,4)23,9 (8,7) 56,3 (12,5)39,4 (12,9) 56,8 (12,8) 59,7 (13,0)39,9 (12,9) 43,2 (12,0)

Surface

Proteus P = 4 Tiam1Cask -12,1 (0,9)-8,9 (3,7) -18,0 (2,7)11,8 (5,4) 11,9 (3,9)13,1 (5,4) 18,4 (4,3)9,7 (4,1) Proteus P = 8 Tiam1 -16,2 (2,9)Cask -12,9 (1,6) -19,3 (4,9)16,3 (6,2) 16,6 (7,4)13,9 (6,6) 19,8 (6,6)8,3 (5,6) Rosetta Tiam1 -16,5 (1,5)Cask -9,4 (3,5) -16,5 (5,9)23,8 (7,2) 11,2 (5,2)36,0 (8,8) 14,6 (4,2)32,7 (7,4)

Tableau 3.6 – Entropie des séquences expérimentales et produites par Proteus et Rosetta.

P Part. Pfam Rosetta Proteus Rosetta Proteus Rosetta ProteusCask Tiam1 Cask+Tiam1

4 ComplèteCœur 3.401.79 1.751.86 1.231.07 1.551.55 1.221.11 2.112.24 1.821.27 Surface 4.33 1.73 1.34 1.64 1.25 2.49 1.95 8 ComplèteCœur 3.401.79 1.751.86 1.191.20 1.551.55 1.521.13 2.112.24 1.931.42 Surface 4.33 1.73 1.23 1.64 1.99 2.49 2.23

Les positions de cœur des séquences Rosetta ont une entropie moyenne similaire au reste de la protéine et proche de Pfam. Ce n’est pas le cas des séquences Proteus qui présente des valeur d’entropie plus faible pour ces positions.