• Aucun résultat trouvé

Vers un jeu de blocs général…

Nouvelles méthodesNouvelles méthodes

3 Modélisation comparative adaptée pour les superfamilles

3.2 Recherche des éléments structuraux conservés

3.2.3 Vers un jeu de blocs général…

Avec trois ensembles différents de structures cristallines –comprenant toutefois des structures communes– nous sommes parvenus par trois fois à obtenir à peu près le même jeu de blocs. Chaque jeu de blocs a été aligné indépendamment sur les mêmes P450s cibles en vue de reconstruire leurs modèles. La plupart du temps (comme il sera montré dans la partie résultats) les modèles obtenus sont différents. Cette différence pouvant provenir de l’alignement des blocs sur la séquence cible, je me suis intéressé de près aux positionnements des blocs pour les trois jeux de blocs. Il s’est alors avéré que selon le jeu de blocs utilisés, le positionnement de certains blocs ne concordait pas d’un jeu à l’autre. Comme nous n’avions pas utilisé les mêmes structures pour chacun des jeux, l’idée m’est venue de faire un jeu de blocs général qui comprendrait les onze différentes structures utilisées au travers des trois jeux de templates. GOK recherche des trajectoires 3D communes et fournit les résultats de blocs sous forme de courts sous-alignements (cf. Figure 3-2) comme le font la plupart des logiciels d’alignement structural. Pour élaborer un jeu global de blocs à partir des trois jeux disponibles, il suffisait donc a priori de fusionner entre eux les sous-alignements de chaque bloc. Cette tâche qui semblait aisée au premier abord s’est révélée moins évidente que prévue : certains sous- alignements de blocs ne concordaient pas avec leurs homologues provenant d’un set de templates différent. Par exemple, deux séquences d’un même bloc pour un jeu de templates donné n’étaient pas trouvées alignées de la même façon dans un autre jeu, pour ce même bloc.

La plupart des désaccords trouvent leur origine dans un décalage en séquence en début ou fin de bloc. Ces décalages de quelques résidus (d’1 résidu à 6) sont observés chaque fois au niveau d’un bloc comprenant une partie d’hélice α. Ce décalage des sous-alignements est explicable : lors d’une identification de bloc par le logiciel GOK, l’utilisateur doit choisir un sous-alignement structural qui représente une trajectoire commune à tous les templates, parmi plusieurs sous-alignements possibles. Cette sélection s’effectue graphiquement via l’interfaçage du logiciel de visualisation Midas (UCSF, Université de Californie), couplé à GOK. Les nombreux sous-alignements structuraux proposés sont souvent chevauchant entre eux, et se distinguent alors les uns par rapports aux autres par un décalage au niveau de l’initiation (et par conséquent de la terminaison) du sous-alignement, d’une structure ou plus, parmi toutes les structures présentes dans le jeu. La Figure 3-2 présente justement un exemple de ce cas de figure où un décalage d’1 résidu et un décalage de 6 résidus sont observés pour le bloc 4 (voir numérotation des blocs, chapitre 5.2). Dans cet exemple, les structures des P450cam (pdb 1oxa),

P450BM3 (pdb 2hpd) et CYP 2C5 (pdb 1dt6) sont présentes dans les 3 jeux de templates. Visuellement,

Figure 3-2), les sous-alignements structuraux de chaque région correspondent bien à une trajectoire similaire sous GOK : il s’agit ici d’un morceau d’hélice G. En revanche, en s’intéressant de plus près aux séquences des sous-alignements de ce bloc, un décalage est observé entre les deux jeux de blocs (entre A et B) de 6 résidus pour la séquence du P450BM3 et de 1 résidu pour la séquence du CYP 2C5

par rapport à la séquence du P450eryF. Pour trancher entre ces deux résultats, il a donc fallu comparer

ce bloc avec celui de mon jeu de blocs, en prenant également en considération les autres structures de ce même bloc non montrées ici : dans les trois jeux, lorsque les sous-alignements d’un même bloc sont en accord dans au moins deux jeux, c’est ce sous-alignement qui est choisi. Dans certains cas, l’utilisation d’un autre logiciel d’alignement structural a été nécessaire (Matras).

Figure 3-2 Décalage observée pour le bloc 4 entre le jeu de N. Loiseau (A) et celui de M. Cottevieille (B). L’hélice G correspondant au bloc 4 dans les structures 1oxa (en vert) 2hpd (en rouge) et 1dt6 (en bleu) est représenté en trace sous VMD. Dans (B), la représentation est volontairement calée sur le même alignement structural que dans (A) pour mettre en évidence le décalage de sous-alignement. En pratique, sous Midas (couplé à GOK), les 3 fragments d’hélices seraient bien sûr superposés pour former un bloc. L’alignement en séquence correspondant est montré. Dans cet exemple, un décalage de 6 résidus est observé sur 2hpd et un décalage de 1 résidu sur 1dt6. Comme une hélice a une même trajectoire dans l’espace, un décalage de 1 résidu ou de 3 n’est pas observable sous Midas. À noter que le bloc trouvé par M. Cottevieille est plus court que celui trouvé par NL.

Ce décalage de 1 à 6 résidus au niveau des blocs n’est pas surprenant en soi, c’est une limite de principe de la détection par les angles α : la trajectoire d’une hélice est décalable d’un ½ tour (1 à 2 résidus décalés dans les sous-alignements), ou même d’un tour (3 à 4 résidus). Sachant qu’il faut 3,6 résidus pour faire un tour d’hélice, un décalage de 3 à 4 résidus en alignement séquetiel est compréhensible pour un décalage d’un pas d’hélice. Dans certains cas, lors de la recherche, GOK propose comme sous-alignement une région d’une hélice pour cinq structures, et une région d’une

autre hélice pour la sixième structure. Comme les trajectoires des hélices se ressemblent dans l’espace, GOK a pu considérer des morceaux d’hélices différents comme une même trajectoire commune.

Au final, l’évaluation de la « bonne » trajectoire commune n’est pas facilitée par la lisibilité du programme de visualisation et il n’est pas rare, notamment au niveau des hélices α d’observer des décalages d’un résidu ou plusieurs résidus. En prenant connaissance de cette analyse, j’ai pu finalement constituer un jeu de blocs communs aux trois jeux de templates (cf. Figure 5-4 et Figure 5-5 dans la partie des résultats) qui couvre plus de 60% de la séquence des P450s alignés. À noter que les deux structures du CYP 2C5 (1nr6 et 1dt6) ont été conservées dans le jeu de bloc général car les séquences sont légèrement différentes en raison de mutations introduites pour la cristallisation.

3.2.4 Et pourquoi pas un jeu de blocs universel des 29 templates de P450s ?

3.2.4.1 Les limites de GOK

Le logiciel GOK a été développé courant 1997, prévu pour fonctionner sur des Silicon Graphics (SGI) et couplé à Midas, un logiciel de visualisation de structures qui avait l’avantage de pouvoir intégrer des modules « maison ». Du fait de son ancienneté et du support sur lequel il tourne, il s’est montré (et demeure) limité dans son fonctionnement. Ainsi, déterminer 24 CSBs sur un jeu de 6 templates nécessitait plus de deux semaines de travail et de calcul sur une SGI Octane R10000. Ce programme a été ensuite exporté et recompilé sur Linux, mais n’offrait plus la possibilité de visualisation. Sans l’outil de visualisation, les problèmes liés au décalage sont difficilement repérables. C’est une des raisons pour lesquelles je n’ai pas refait de nouveau jeu de blocs sous GOK avec un jeu de templates enrichi et à jour de la PDB. En effet, le rythme de publications de nouvelles structures de P450s dans la PDB s’est intensifié durant mes trois années de thèse. Par ailleurs, du fait que les structures récentes balayent un spectre plus large de P450s, les incorporer dans notre jeu de templates rend la reconstruction d’un P450 inconnu plus aisée : en augmentant le nombre de templates avec de nouvelles structures, on augmente également la chance d’avoir dans le jeu un template proche du P450 inconnu à reconstruire. Dans l’optique de valider ma méthodologie de reconstruction de P450s à faible taux d’identité, il était préférable de ne conserver que les 11 templates dont je disposais à l’époque où j’ai commencé ce travail.

3.2.4.2 GAKUSA : un remplaçant pour GOK ?

L’information des blocs que fourniraient les 29 différentes formes de P450s cristallisées (29 structures non redondantes à la date du 12 avril 2007) n’est pourtant pas négligeable : le passage à 29 templates permettait de vérifier la solidité du jeu de blocs inital à 11 templates. De façon intuitive, on

peut penser que sur un ensemble plus grand de structures de référence, des blocs en nombre et de longueur moins importante seraient identifiés. Comme l’alignement sous GOK des 29 templates n’était pas envisageable (lié à la limitation de calcul des machines), il fallait trouver un autre logiciel au fonctionnement similaire à celui de GOK. GAKUSA est un autre logiciel développé à l’ABI (Atelier de Bioinformatique, Institue Curie) basé sur une approche comparable à GOK dans sa représentation des structures. En revanche, (voir section 2.4.5.2), son algorithme est totalement différent. Contrairement à GOK, GAKUSA ne dispose pas d’interface graphique, mais est compensé par son automatisation : il identifie en un temps rapide tous les CSBs des structures. L’utilisateur peut de plus imposer une longueur minimale de recherche de blocs : GAKUSA détermine alors itérativement chaque position de CSBs trouvés avec un score associé. À chaque itération, les positions trouvées sont cachées pour l’itération suivante, forçant le logiciel à identifier de nouveaux blocs (comme dans GOK). Lors des premiers essais sur un jeu de structures restreintes de P450s, GAKUSA paraissait non seulement beaucoup plus rapide que GOK, mais permettait également de traiter un plus grand nombre de structures simultanément. J’ai donc utilisé ce logiciel afin de comparer les blocs obtenus sur l’ensemble des 29 templates de P450 par rapport aux jeux de blocs dont je disposais déjà.

Pour constituer le jeu des 29 templates (cf. Tableau 3.2), seules les structures les mieux résolues ont été retenues en cas de redondance (substrats, mutants, etc.). Dans le Tableau 3.2, on peut remarquer que les structures bactériennes sont plus représentées, mais le jeu dispose quand même de 10 templates de P450s microsomaux de plus en plus diversifés alors qu’ils étaient dominés par des structure de P450s de la famille 2C en 2004.