• Aucun résultat trouvé

3.8 Le nouvel alphabet structural SAFlex

3.8.2 Un encodage qui gère les chaînes multiples

Durant les dernières décennies, de nombreuses structures complexes de protéines ont été détermi- nées contenant de multiples chaînes : homomères ou hétéromères ou différents fichiers PDB corres- pondant à une même protéine résolue dans différentes conditions. Si les hétéromères sont encodés en différentes séquences structurales, les homomères peuvent être considérés comme des répliques de la même structure sous-jacente. SAFlex propose d’encoder les homomères soit en tant que structures in- dépendantes (une séquence structurale par chaîne) soit en une seule séquence consensus de telle façon qu’une seule séquence structurale cachée est partagée par toutes les chaînes monomères. L’encodage consensus résultant représente donc la variabilité des monomères à travers les chaînes, cette variabilité étant due à l’incertitude de mesure ou à la flexibilité intrinsèque.

À titre illustratif, la présente étude est basée sur les petites protéines de chocs thermiques (sHSPs), qui jouent un rôle essentiel dans la prise en charge des protéines abimées pour qu’elles ne forment pas d’agrégats. Ainsi, elles participent à la protection, au maintien et à la régulation des fonctions spécifiques de la protéine [138]. Le fichier PDB 1gme comprend HSP16.9, un membre des petites protéines de choc thermique (les sHSPs), qui s’assemble en un double disque dodecamère8. La structure 3D de ce fichier montrée par la figure 3.18.(a) contient uniquement un tétramère9 qui permet la reconstruction du dodecamère par des opérations de symétrie [178]. Les quatre monomères de 1gme ont une structure commune très globale, appelée alpha crystallin domain signature [138] avec des différences dans certaines régions.

8. Un dodecamère est une structure quaternaire composée de 12 sous-unités protéiques dans un complexe 9. Un tétramère est un complexe protéique constitué de quatre sous-unités

Chapitre 3. Les a v ancées métho dologiques 3.8 Le nouv el alphab et structural SAFlex

(a) La structure 1gme comportant 4 chaînes protéiques

A,B,C et D

(b) Alignement multiple de l’encodage structural (MAP) des 4 chaînes protéiques : A, B C et D avec l’encodage de la chaîne consensus.

Figure 3.18 – Les encodages structuraux associés aux quatre monomères pour le fichier PDB 1gme.

page

3.8 Le nouvel alphabet structural SAFlex Chapitre 3. Les avancées méthodologiques

Un monomère de ce tétramère est de longueur 151 ce qui correspond à 148 fragments structuraux chevauchants. Cependant, tous les monomères de 1gme ont moins de 151 résidus parce qu’il leur manque des résidus. En effet, les 42 résidus N-terminaux sont manquants dans les deux monomères B et D, tandis que les N-terminaux dans les monomères A et C sont entièrement résolus (sauf pour le premier résidu) et composés d’hélices liées à des boucles [178].

La figure 3.19 illustre les valeurs de NEFF pour les quatre chaînes et pour l’encodage de la chaîne consensus (encadrée en rouge). Les deux régions manquantes des chaînes B et D sont clairement mises en évidence (NEFF au environ de 27) et l’incertitude globale d’encodage le long des quatre chaînes est assez grande avec une valeur moyenne de NEFF ' 4.4 et de NEFF ' 1.3 en excluant les régions manquantes. Quand à l’encodage consensus, il a une incertitude beaucoup plus faible avec un NEFF ' 1.1. Ceci illustre l’intérêt de l’approche consensus qui permet non seulement de suggérer un encodage pour la protéine complète malgré les motifs manquants des chaînes B et D, mais aussi de profiter des réplications (redondance) pour affiner l’encodage structural.

La comparaison de l’encodage structural des conformations des quatre monomères du complexe, à travers l’alignement multiple du MAP, révèle une asymétrie dans le tétramère HSP16.9, pourtant il s’agit de la même séquence d’acides aminés pour les quatre monomères étudiés de la protéine. La figure 3.18.(b) montre l’alignement multiple du MAP pour les quatre chaînes et indique les régions manquantes dans les chaînes B et D. Celles-ci apparaissent clairement dans l’encodage MAP avec de longues séries de LS « A4 »; ce qui est normal en l’absence de toute information supplémentaire puisque cette LS a la plus forte probabilité de bouclage (voir la matrice de transition G.1 à la page 138).

Cependant, les chaînes A et C fournissent des MAP informatifs pour les positions manquantes correspondantes et le résultat est clairement conforme à la MAP du consensus. Pour la plupart des positions restantes (les fragments non manquants), nous observons un fort consensus entre tous les encodages. Ce qui refléte ainsi la faible variabilité des structures. Il est toutefois intéressant de noter que dans certaines régions, il existe beaucoup de variabilité dans leurs encodages MAP des quatre chaînes, indiquée par des LS différentes. En effet, la mesure du RMSD confirme cette variabilité entre les monomères (voir le tableau 3.2). D’après ce tableau, les RMSD calculés sont tous inférieurs à 1 Å, ils varient entre 0,39 et 0,81 Å. Les quatre monomères ont des structures globales similaires avec des différences dans certaines régions.

Chain A Chain B Chain C Chain D

Chain A 0.00 0.81 0.42 0.75

Chain B 0.81 0.00 0.77 0.39

Chain C 0.42 0.77 0.00 0.74

Chain D 0.75 0.39 0.74 0.00

Table 3.2 – Le RMSD (Root mean square deviations) entre les coordonnées des monomères de 1GME.

Chapitre 3. Les avancées méthodologiques 3.8 Le nouvel alphabet structural SAFlex

Figure 3.19 – Les valeurs (NEFF) associées aux quatre monomères avec la chaîne consensus générée par SAFlex pour le fichier PDB 1gme. La figure montre les valeurs de NEFF pour l’encodage

des quatre chaînes et la chaîne consensus. L’encodage de la chaîne consensus est encadré en rouge.

3.8 Le nouvel alphabet structural SAFlex Chapitre 3. Les avancées méthodologiques

Aussi pour identifier les différences dans ces structures, il est nécessaire de superposer l’alignement par paire en utilisant l’outil Pymol [157, 158]. La figure 3.20 montre les alignements de structures des quatre monomères du tétramère HSP16.9. Les différences conformationelles sont apparentes au niveau de plusieurs zones de ces monomères comme le montre la figure 3.20 ci-dessous. Il convient de noter d’abord que la structure des monomères A et C commence par un acide aminé Ser2 tandis que celle des monomères B et D commence respectivement par des acides aminés Asn 43 et Ala 42. Par conséquent, le premier acide aminé est manquant pour A et C et les acides aminés de 1 à 42 et de 1 à 41 sont manquants aussi pour B et D. Dans ce cas, des hélices liées aléatoirement à des boucles peuvent être perdues dans les chaînes B et D.

Arg 111

Glu 114 Lys 140

Lys 87

Asn 93

(a) Structural alignment of A chain and B chain with rmsd of 0.814.

(b) Structural alignment of A chain and D chain with rmsd of 0.753.

(c) Structural alignment of C chain and D chain with rmsd of 0.744.

(f) Structural alignment of A chain and C chain with rmsd of 0.418. (e) Structural alignment of B chain

and C chain with rmsd of 0.772.

Val 144

(d) Structural alignment of B chain and D chain with rmsd of 0.391.

Figure 3.20 – Comparaisons entre les quatre monomères du PDB 1gme. Les chaînes protéiques sont

en style cartoon, avec la chaîne A en vert, la chaîne B en rouge, la chaîne C en bleu et la chaîne D en cyan. les quatres conformations sont superposées

Les alignements de structures des quatre monomères montrent clairement que les conformations des chaînes A, B, C et D sont proches mais pas identiques. Ceci explique la grande ressemblance entre leurs encodages (encodage de A et C et celui de B et D). Par contre les boucles constituées par les résidus (Lys 87 - Asn 93, Arg 111 - Glu 114 and Lys 139 - Val 151) varient énormément géométriquement. Ceci suggère que certaines des positions de ces régions pourraient correspondre à des positions de chaînes flexibles intrinsèques ou à des incertitudes de résolution. En effet, cette variabilité entre les monomères se manifeste également par la fluctuation de la valeur du facteur de température (B factor )10 pour les atomes de Cα des quatre monomères, comme le montre la figure 3.21. Il convient surtout de noter que les courbes n’ont pas été tracées pour les parties manquantes des résidus de 1 à 42 pour tous les monomères. Les résidus des fragments des régions (Phe 57 -leu 61, Leu 79 - Val 81, Arg 98 -Glu 100, Phe 106 -Arg 109 et Gly 128 - Thr 133) ont les valeurs les plus faibles du facteur de température, ce qui suggère une légère différence conformationelle de ces régions. Ces régions ont des conformations rigides pour toutes les chaînes. Cela est évident car elles coïncident avec les brins bêta de HSP16.9. Par

Chapitre 3. Les avancées méthodologiques 3.8 Le nouvel alphabet structural SAFlex

contre, la plus grande partie des différences conformationelles apparait au niveau des résidus (Lys 87 - Asn93 , Arg111-Glu 114 et Lys 139 - Val 151), les deux premières régions coïncident avec des régions très flexibles tandis que les résidus de la dernière région sont flexibles parce qu’ils correspondent à l’extension N-terminal de tous les monomères. Dans ce contexte, l’encodage consensus tente de trouver la lettre structurale commune la plus adéquate pour refléter cette variabilité et sélectionne la lettre structurale C15 (ancien F dans HMM-SA27) qui correspond à l’état de boucle flou de l’alphabet [144]. Dans ce cas, les encodages indépendants de la chaîne peuvent être explorés avec soin pour détecter les positions variables et les changements potentiellement de LS et ce en raison de la flexilibité intrinsèque, de la liaison avec un partenaire ou des effets de mutation [143].

A: C3 C7 C12 C3 C2 B: C6 C17 C12 C9 C11 C: C14 B3 B5 C3 A2 D: C4 C4 C3 C15 C11 Chain Chain Chain Chain A: C10 C17 C4 B2 B3 B: C4 C4 B4 B1 B3 C: C9 C17 C4 B2 B2 D: C4 C9 C7 B1 B2 Chain Chain Chain Chain

Structural Encoding of the peak region (Lys 140 – Val 144)

A: B5 B5 B5 B2 B5 B: B5 B5 B5 B2 B5 C: B5 B5 B5 B2 B5 D: B5 B5 B5 B2 B5 Chain Chain Chain Chain

Structural Encoding of the flap region (Phe 106 – Arg 109) Structural Encoding of the

peak region (Lys 87 – Asn 93)

Figure 3.21 – Correspondance entre le B-facteur et les variations de l’encodage structural pour les quatre monomères de HSP. Les valeurs du facteur de température (B facteur) des Cα (Å2) pour les quatre monomères HSP du fichier PDB 1GME. La chaîne A en vert, la chaîne B en rouge, la chaîne C en bleu et la chaîne D en cyan.

Par ailleurs, la prédiction de la séquence protéique HSP16.9 par l’outil PsiPred [22, 91] indique que les régions manquantes sont des régions désordonnées et prédites en tant que boucles (voir Figure 3.22.a). Ceci est évident parce que ces régions n’ont pas pu être résolues d’un point de vue structural. Celles-ci sont représentées par SAFlex, comme des régions fortement ambigües en terme de lettres structurales associées à une distribution marginale a posteriori très élevée (valeur proche de 1). Donc il y a une sorte de connexion entre toutes ces informations qui convergent toutes dans le même sens. Il est important de noter que, Psipred utilise les informations de séquences en se basant sur les acides aminés pour prédire les conformations associées à une structure. Cependant SAFlex n’utilise pas l’information de séquence pour prédire les conformations des fragments structuraux et pourtant nous arrivons à des résultats cohérents avec les chaînes résolues entièrement.

En conclusion, un NEFF associé à la chaîne consensus aurait plusieurs interprétations. Un NEFF plus élevé peut être expliqué par plusieurs facteurs :

– la possibilité d’être dans une région dite désordonnée,