• Aucun résultat trouvé

Caliseq, vers une extension multi bloc de SmartConsAlign

Nouvelles méthodesNouvelles méthodes

3 Modélisation comparative adaptée pour les superfamilles

3.3 Positionnement des CSBs sur la séquence cible

3.3.2 Caliseq, vers une extension multi bloc de SmartConsAlign

En réponse aux problèmes d’ambiguïté du positionnement des blocs, il fallait mettre en place un nouveau logiciel permettant le traitement simultané de tous les blocs, d’une part qui tienne compte de l’ordre logique des blocs structuraux, d’autre art qui empêche le chevauchement des blocs. L’idée était de reprendre le principe de « matrice consensus » pour représenter chaque bloc, de les traiter en un seul passage et surtout de permettre à ces blocs de « glisser » librement sur la séquence cible jusqu’à leur positionnement définitif. La prise en compte de tous les blocs en un passage ainsi que ce glissement de blocs sur la séquence cible permettrait d’éviter le chevauchement des blocs entre eux et surtout prendrait en compte l’ordre des blocs tels qu’ils ont été identifiés sur les structures de références. Selon ces critères, j’ai donc été amené à développer une nouvelle extension pour le logiciel SmartConsAlign, un module qui a été baptisé Caliseq pour Consensus Alignement of Sequences. Les caractéristiques de cet outil seront détaillées dans le chapitre 4.

3.3.3 Du positionnement des blocs vers l’obtention de l’alignement final

En sortie de Caliseq, on obtient un alignement du jeu de blocs sur une séquence (ou sur un alignement de séquence). Cette forme actuelle d’alignement n’est pas immédiatement exploitable par les logiciels de reconstruction 3D par homologie : il faut supprimer les séquences alignées avec la séquence de P450 à reconstruire lorsqu’elles sont présentes, et surtout compléter les parties entre les blocs par les séquences respectives. En effet, les logiciels de reconstruction requièrent la séquence complète des structures de référence. Selon la méthode utilisée pour la reconstruction du modèle, le « remplissage » de ces parties « inter-blocs » a plus ou moins son importance.

3.3.3.1 Les différentes stratégies utilisées

Dans la méthodologie initiale utilisée au laboratoire, il faut construire un jeu de contraintes de distances et d’angles de type RMN dans chaque bloc, représentant une « moyenne » des informations structurales. Ainsi, pour chaque région structuralement conservée, les données structurales de tous les templates sont intégrées simultanément, tandis que les parties variables (inter-blocs) sont reconstruites sans contraintes en même temps que les parties structuralement conservées. De ce fait, l’alignement des parties hors blocs des séquences des templates sur la séquence cible est sans importance. L’utilisateur pouvait aligner ces régions à sa guise sachant que l’information des résidus au niveau inter-blocs ne serait pas prise en compte lors de la reconstruction.

Il n’en est pas de même lorsqu’on opte pour une autre stratégie utilisant des outils bioinformatiques automatiques de reconstruction par homologie. En effet, la précédente stratégie est très efficace mais nécessite des manipulations manuelles pour un bon nombre d’étapes. Dans un souci de simplification, d’automatisation et de production à grande échelle de modèles, il a été convenu de changer de stratégie, à savoir utiliser des logiciels disponibles de reconstruction par homologie. Cette stratégie devait néanmoins incorporer la « philosophie » des reconstructions par blocs avec priorité absolue des calculs de contraintes dans les blocs. Le logiciel Modeller pouvait répondre au cahier des charges : un fichier d’alignement ainsi qu’un fichier de directives étaient pris en entrée et la construction d’un (ou de plusieurs) modèle pouvait être effectué en tenant compte des contraintes spatiales déterminées par l’alignement.

Avec Modeller, deux approches ont pu être exploitées ici : soit en respectant l’esprit de la première stratégie, utiliser seulement l’automatisation et la rapidité de reconstruction de Modeller, soit en tirant profit des avantages de Modeller pour reconstruire les régions inter-blocs grâce à l’utilisation de sa banque de repliement pour imposer des contraintes spatiales dans les zones inter-blocs. Dans le premier cas, il suffit de ne mettre aucune séquence de templates en correspondance avec les régions inter-blocs tel que cela est montré en Figure 3-4. La seule contrainte dans le second cas est la nécessité de fournir un alignement aussi précis que possible des régions inter-blocs.

Figure 3-4 Méthodes pour neutraliser le calcul de contraintes dans les régions inter-blocs sous Modeller : les régions hors blocs du template ne sont pas alignées avec la séquence. Dans l’exemple, aucune contrainte spatiale dérivée de la séquence template ne sera utilisée pour construire la région ‘eeeee’ de la cible, et la région ‘bbbbbbbb’ du template n’est pas prise en compte dans le calcul.

3.3.3.2 L’alignement inter-bloc, mesure de sécurité et nouvelle difficulté ?

Durant ma thèse, j’ai donc opté pour l’utilisation de Modeller pour la reconstruction à grande échelle des modèles. Les deux approches ont été utilisées. Dans le cas de la seconde approche (utilisation de la banque de repliement de Modeller pour les régions inter-blocs), il était important de bien aligner les parties entre les blocs. La majeure difficulté de cette opération venait du fait que ces régions étaient par nature structuralement variables (non sélectionnées par GOK) et aussi, souvent de tailles très différentes. Par exemple, les P450s microsomaux possèdent de nombreuses boucles non présentes chez leurs homologues bactériens. Il y a donc deux difficultés : aligner des zones de

template aaaaaaaaaaaaaaaaaaaaaaaa---bbbbbbbbcccccccccccccccccccccccccccccc target ddddddddddddddddddddddddeeeee---ffffffffffffffffffffffffffffff

longueur très hétérogènes entre les templates, puis aligner ces régions sur la séquence cible. Plusieurs stratégies ont été essayées pour réaliser cet alignement inter-bloc.

Alignement visuel. La première stratégie est celle de l’approche manuelle. Dans un premier temps, j’ai effectué manuellement tous les alignements inter-blocs des séquences des P450s de référence (cf. Figure 5-5 page 194). Pour cela, j’ai essayé de maximiser les correspondances d’acides aminés en fonction de leur identité ou de leurs propriétés (polarité, hydrophobicité). Cette stratégie est manipulateur-dépendant.

Utilisation de l’information des SSE. Il est possible d’améliorer les résultats d’un alignement en séquence en tenant compte des structures secondaires des templates. Dans l’alignement des régions inter-blocs, j’ai utilisé à la fois les informations de SSE décrites dans les fichiers PDB de chaque structure de référence, mais j’ai également eu recours à des logiciels comme le serveur MATRAS (cf. section 2.4.3.3) pour l’alignement des structures secondaires entre elles. La principale difficulté rencontrée ici vient de fait que les régions inter-blocs correspondent la plupart du temps à des régions non structurées. Or et les alignements de structures secondaires proposés sont en désaccord avec les alignements de GOK : n’étant déjà pas en accord sur les régions considérés comme structuralement conservée par GOK, l’alignement inter-bloc est difficilement réalisable.

Utilisation de Clustalw adapté. Finalement, une dernière stratégie a été expérimentée en ayant recours à Clustalw dans un mode de fonctionnement un peu détourné. En effet, il est possible de fournir à Clustalw sa propre matrice de similarité afin d’adapter l’alignement produit en fonction des correspondances indiquées dans la matrice. Pour forcer le calage des blocs (et donc des débuts et fin de zones inter-blocs), j’ai introduit un nouveau caractère dans la matrice (cf. Figure 3-5) pénalisé fortement lorsqu’il se retrouve aligné face à un autre résidu et favorisé fortement lorsqu’il est aligné face à lui-même.

Figure 3-5 Matrice BLOSUM 62 modifiée : le caractère X est fortement pénalisé (-9) lorsqu’il se retrouve en face d’un autre résidu et fortement favorisé (+999) lorsqu’il se retrouve en face de lui-même.

En utilisant ce caractère pour remplacer les résidus à l’intérieur des blocs, le résultat escompté est un alignement où Clustalw force les blocs à s’aligner entre eux, et traite normalement les résidus inter-blocs. Cette méthode n’est pas toujours adaptée : certains blocs ne pourront pas être utilisés dans Clustalw, principalement ceux qui ne sont pas trouvés dans toutes les structures. En effet, n’ayant pas de correspondance dans les autres séquences des templates, ils viendraient à fausser le résultat par un décalage des blocs. Par exemple, dans l’alignement de la Figure 5-5 page 194, le premier bloc (CSB0) n’est présent que sur 5 des 11 structures. En remplaçant tous les résidus des blocs par le symbole X, certaines séquences du CSB0 sont venus s’aligner sur les séquences du CSB1* provoquant ainsi quelques décalages dans l’alignement comme le montre la Figure 3-6. Par ailleurs, même en supprimant des jeux les blocs non trouvés dans toutes les structures, Clustalw n’a pas été en mesure d’aligner correctement les blocs entre eux à l’aide de ce caractère : des décalages sont toujours observés, et dans certains cas, les décalages se prolongent dans tout l’alignement.

# Matrix made by matblas from blosum62.iij # X matches with itself with a high score # * column uses minimum score

# BLOSUM Clustered Scoring Matrix in 1/2 Bit Units # Blocks Database = /data/blocks_5.0/blocks.dat # Cluster Percentage: >= 62 # Entropy = 0.6979, Expected = -0.5209 A R N D C Q E G H I L K M F P S T W Y V B Z X * 4 -1 -2 -2 0 -1 -1 0 -2 -1 -1 -1 -1 -2 -1 1 0 -3 -2 0 -2 -1 -9 -4 -1 5 0 -2 -3 1 0 -2 0 -3 -2 2 -1 -3 -2 -1 -1 -3 -2 -3 -1 0 -9 -4 -2 0 6 1 -3 0 0 0 1 -3 -3 0 -2 -3 -2 1 0 -4 -2 -3 3 0 -9 -4 -2 -2 1 6 -3 0 2 -1 -1 -3 -4 -1 -3 -3 -1 0 -1 -4 -3 -3 4 1 -9 -4 0 -3 -3 -3 9 -3 -4 -3 -3 -1 -1 -3 -1 -2 -3 -1 -1 -2 -2 -1 -3 -3 -9 -4 -1 1 0 0 -3 5 2 -2 0 -3 -2 1 0 -3 -1 0 -1 -2 -1 -2 0 3 -9 -4 -1 0 0 2 -4 2 5 -2 0 -3 -3 1 -2 -3 -1 0 -1 -3 -2 -2 1 4 -9 -4 0 -2 0 -1 -3 -2 -2 6 -2 -4 -4 -2 -3 -3 -2 0 -2 -2 -3 -3 -1 -2 -9 -4 -2 0 1 -1 -3 0 0 -2 8 -3 -3 -1 -2 -1 -2 -1 -2 -2 2 -3 0 0 -9 -4 -1 -3 -3 -3 -1 -3 -3 -4 -3 4 2 -3 1 0 -3 -2 -1 -3 -1 3 -3 -3 -9 -4 -1 -2 -3 -4 -1 -2 -3 -4 -3 2 4 -2 2 0 -3 -2 -1 -2 -1 1 -4 -3 -9 -4 -1 2 0 -1 -3 1 1 -2 -1 -3 -2 5 -1 -3 -1 0 -1 -3 -2 -2 0 1 -9 -4 -1 -1 -2 -3 -1 0 -2 -3 -2 1 2 -1 5 0 -2 -1 -1 -1 -1 1 -3 -1 -9 -4 -2 -3 -3 -3 -2 -3 -3 -3 -1 0 0 -3 0 6 -4 -2 -2 1 3 -1 -3 -3 -9 -4 -1 -2 -2 -1 -3 -1 -1 -2 -2 -3 -3 -1 -2 -4 7 -1 -1 -4 -3 -2 -2 -1 -9 -4 1 -1 1 0 -1 0 0 0 -1 -2 -2 0 -1 -2 -1 4 1 -3 -2 -2 0 0 -9 -4 0 -1 0 -1 -1 -1 -1 -2 -2 -1 -1 -1 -1 -2 -1 1 5 -2 -2 0 -1 -1 -9 -4 -3 -3 -4 -4 -2 -2 -3 -2 -2 -3 -2 -3 -1 1 -4 -3 -2 11 2 -3 -4 -3 -9 -4 -2 -2 -2 -3 -2 -1 -2 -3 2 -1 -1 -2 -1 3 -3 -2 -2 2 7 -1 -3 -2 -9 -4 0 -3 -3 -3 -1 -2 -2 -3 -3 3 1 -2 1 -1 -2 -2 0 -3 -1 4 -3 -2 -9 -4 -2 -1 3 4 -3 0 1 -1 0 -3 -4 0 -3 -3 -2 0 -1 -4 -3 -3 4 1 -9 -4 -1 0 0 1 -3 3 4 -2 0 -3 -3 1 -1 -3 -1 0 -1 -3 -2 -2 1 4 -9 -4 -9 -9 -9 -9 -9 -9 -9 -9 -9 -9 -9 -9 -9 -9 -9 -9 -9 -9 -9 -9 -9 -9 999 -9 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -9 1

Figure 3-6 Problème lié aux blocs non présents sur tous les templates: lorsque les résidus à l’intérieur de ces blocs sont remplacés par le symbole X, Clustal a du mal à les aligner correctement. Un code de couleur a été utilisé pour représenter les résidus de chaque bloc. Dans les templates où le bloc 0 est absent, des résidus X du bloc suivant (CSB 1*) se sont détachés pour s’aligner sur CSB0 des autres templates.

La stratégie initiale par calcul de jeu de contraintes uniquement dans les blocs de type RMN n’accordait pas de valeur à l’alignement inter-bloc : les régions variables inter-blocs étaient censées ne contenir aucune information structurale et donc être reconstruite sans information a priori. En reproduisant cette stratégie par la première approche de Modeller, les régions inter-blocs sont généralement mal reconstruites, Modeller étant incapable de construire ces régions de façon ab initio. C’est pourquoi, c’est finalement la seconde approche (par utilisation de la banque de repliements de Modeller) qui a été utilisée pour produire les modèles de P450s. Dans cette approche, on pouvait se contenter de produire un alignement grossier inter-bloc pour satisfaire Modeller, et optimiser les régions inter-blocs une fois le modèle obtenu. Il était cependant préférable de produire le meilleur alignement inter-bloc possible : aucune stratégie hormis l’alignement manuel n’a pu donner de résultats convaincants. Il a été vu en effet que ni l’utilisation d’autres informations (SSE par exemple) ni l’alignement Clustalw « adapté » pour les zones inter-blocs n’ont pu être exploitables. Au final, pour construire les modèles de P450s obtenus sous Modeller, l’alignement des zones inter-blocs a été réalisé manuellement.

1oxa 1 --ATVPDLES DSFH--- --- ---VDWYSTY AELRETA--P VTPVRF-LGQ DAWLVTGYDE AKAALSDLRL 56 2hpd 1 --- -TIKEMPQPK TFGELKNLPL LNTDKPVQAL MKIADELG-E IFKFEA-PGR VTRYLSSQRL IKEACDESRF 67 1pq2 1 --- ---KLPPGPT PLPIIGNMLQ IDVKDICKSF TNFSKVYG-P VFTVYF-GMN PIVVFHGYEA VKEALIDNGE 65 1og5 1 --- ---PPGPT PLPVIGNILQ IGIKDISKSL TNLSKVYG-P VFTLYF-GLK PIVVLHGYEA VKEALIDLGE 63 1nr6 1 --- --GKLPPGPT PFPIIGNILQ IDAKDISKSL TKFSECYG-P VFTVYL-GMK PTVVLHGYEA VKEALVDLGE 66 1gwi 1 --ARIPLD-- --- PFV--- ---TDLDGES ARLRAAG--P LAAVELPGGV PVWAVTHHAE AKALLTDPRL 54 1e9x 1 MSAVALPRVS GGHDEHGHLE EFR--- ---TDPIGLM QRVRDECG-D VGTFQL-AGK QVVLLSGSHA NEFFFRAGDD 68 1dt6 1 --- ---PPGPT PFPIIGNILQ IDAKDISKSL TKFSECYG-P VFTVYL-GMK PTVVLHGYEA VKEALVDLGE 63 1rom 1 --APSFPFSR ASGPEPP--- --- ---AEFAK LRATN----P VSQVKLFDGS LAWLVTKHKD VCFVATSEKL 56 1cpt 1 MDARATIPEH IARTVILPQG YADDE--- ---V-IYPAF KWLRDEQ--P LAMAHIEGYD PMWIATKHAD VMQIGKQPGL 69 3cpp 1 --NLAPLPPH VPEHLVFDFD MYNPSNLSAG ---VQEAW AVLQESNVPD LVWTRCNG-- GHWIATRGQL IREAYEDYRH 71 CSB0 CSB1* CSB1** CSB1

1oxa 1 --- ----ATVPDL ESDSFHVDXX XXX--- X---XXXX-- TAXXXXXXX- LGQXXXXXXX XXXXXXXXSD 53 2hpd 1 --- ---TIKEX XXXXXXXXXX XXXXLNTDKX XXXXXXXXXE LGXXXXXXX- PGRXXXXXXX XXXXXXXXDE 65 1pq2 1 --- ---KLX XXXXXXXXXX XXXXIDVKDX XXXXXXXXXV YGXXXXXXX- GMNXXXXXXX XXXXXXXXID 62 1og5 1 --- ---X XXXXXXXXXX XXXXIGIKDX XXXXXXXXXV YGXXXXXXX- GLKXXXXXXX XXXXXXXXID 60 1nr6 1 --- ---GKLX XXXXXXXXXX XXXXIDAKDX XXXXXXXXXC YGXXXXXXX- GMKXXXXXXX XXXXXXXXVD 63 1gwi 1 --- ---ARI PLDPFVTDXX XXX--- X---XXXX-- AGXXXXXXXP GGVXXXXXXX XXXXXXXXTD 51 1e9x 1 ---MSAVALP RVSGGHDEHG HLEEFRTDXX XXX--- X---XXXX-E CGXXXXXXX- AGKXXXXXXX XXXXXXXXRA 65 1dt6 1 --- ---X XXXXXXXXXX XXXXIDAKDX XXXXXXXXXC YGXXXXXXX- GMKXXXXXXX XXXXXXXXVD 60 1rom 1 --- ---APSFPFS RASGPEPPXX XXX--- X---XXXX-- --XXXXXXXF DGSXXXXXXX XXXXXXXXTS 53 1cpt 1 --MDARATIP EHIARTVILP QGYADDEVXX XXX--- X---XXXX-- EQXXXXXXXE GYDXXXXXXX XXXXXXXXKQ 66 3cpp 1 NLAPLPPHVP EHLVFDFDMY NPSNLSAGXX XXX--- X---XXXXSN VPXXXXXXX- -NGXXXXXXX XXXXXXXXED 68

Alignement par clustalw après remplacement des résidus intra bloc par le symbole X