• Aucun résultat trouvé

Chapitre II : Etude à moyen débit des polysaccharidases de Rhodopirellula baltica

I. A.3 - Modules et limites

La structure modulaire des enzymes a été analysée par une recherche de type BLAST contre la base de données UniProtKB/trEMBL-nr et UniProtKB/Swiss-Prot afin de déterminer si ces enzymes présentaient plusieurs sites d’alignement. Il s’est assez vite avéré qu’un grand nombre d’entre elles possédaient plusieurs modules (jusqu’à huit), de différentes natures (catalytiques ou non, agissant sur les sucres ou non). Ceci est illustré par la Figure II-8 (images extraites du BLAST hébergé sur www.expasy.org). Dans cet exemple, la protéine RB8895 présente un long domaine aligné sur la quasi-totalité de sa séquence, signe qu’elle est très probablement non modulaire. A l’inverse, la protéine RB11055 présente quant à elle clairement deux zones alignables. Typiquement, dans cette situation, un second jeu de recherche est lancé avec BLAST contre UniProtKB/trEMBL-nr et UniProtKB/Swiss-Prot pour chacune des différentes zones alignables détectées.

Résultat de BLAST pour la séquence de la protéine RB11055. Deux hits d’alignement sont ici visibles, signant la présence probable de deux modules.

Résultat de BLAST pour la pour la séquence de la protéine protéine RB8895. Cette protéine ne semble pas modulaire.

Figure II-8 : Exemples de résultats de BLAST.

Présentation de deux résultats de BLAST illustrant le caractère modulaire ou non de certaines polysaccharidases

La mise en évidence de l’existence de modules a constitué une première étape. La délimitation fine des bornes des modules a été réalisée en procédant par analyse HCA (Hydrophobic Cluster Analysis) (Gaboriaud et al., 1987; Callebaut et al., 1997) dont un exemple est présenté en Figure II-9.

Le but de ce type d’analyse est de prédire la présence des éléments de structure secondaire à partir de la séquence primaire de la protéine. Dans son principe, la séquence primaire de la protéine étudiée est enroulée comme s’il s’agissait d’une hélice α continue le long de la séquence (avec un tour tous les 3,6 acides aminés).

Figure II-9 : Présentation en diagramme HCA.

Présentation d’une limite typique entre deux modules. La flèche indique le sens de lecture du graphe.

Cette hélice α est ensuite coupée longitudinalement, étalée et dupliquée pour une meilleure visibilité. Le diagramme se lit donc de gauche à droite, « en diagonale » et en suivant l’ordre de la séquence primaire. Dans le formalisme HCA, les acides aminés sont représentés par leur code à une lettre, sauf certains d’entres eux qui sont représentés par des symboles (dans le but de les repérer facilement dans la séquence). Les glycines et les prolines, représentants les changements de direction dans la continuité de la séquence, sont ainsi respectivement symbolisées par un losange noir (♦) et une étoile (). Les thréonines et les sérines, qui peuvent présenter une certaine amphipathie, sont elles respectivement représentées par un carré blanc (…) et un carré blanc avec un point noir (Š). Les acides aminés acides ou polaires (DENQ) sont de plus représentés en rouge, les basiques (KRH) en bleu et les acides aminés hydrophobes (WFYLIMV) sont représentés en vert et entourés d’un liseré noir. Lorsque deux acides aminés hydrophobes (ou plus) se retrouvent côte à côte, leurs liserés fusionnent et forment des blocs appelés amas hydrophobes. Deux acides aminés hydrophobes appartiennent à deux amas différents lorsqu’ils sont séparés par au moins quatre résidus polaires ou par une proline.

Module 2

Le diagramme HCA ainsi présenté met en évidence la périodicité de ces amas dont la disposition permet une prédiction souvent fiable d’un élément de structure secondaire. Les amas verticaux ont de fortes chances de représenter des brins β, tandis que les amas horizontaux ont de fortes chances de représenter des hélices α. Sur la Figure II-9, la séquence qui relie les deux modules est caractéristique d’une zone non repliée qui ne sert que de liaison entre les modules : il n’y a pas d’élément de structure secondaire visible (i.e. pas d’amas) et elle est essentiellement composée de petits acides aminés (S, T, G, P, A) et d’acides aminés chargés.

A l’issue de cette analyse de chaque séquence, 165 modules différents ont été identifiés. Dans leur majorité, ces modules, bien qu’étant au sein d’une protéine ayant sans ambiguïté une action liée au métabolisme des polysaccharides, se sont révélés soit conservés mais de fonction inconnue, soit orphelins. La grande divergence de séquence des protéines de R. baltica (Glöckner et al., 2003), par rapport aux orthologues présents dans l’ensemble des génomes bactériens séquencés au début de ma thèse, a été un handicap à cette étape. Pour la même raison, la réannotation de ces différentes enzymes (voir chapitre IV) s’est avérée difficile, du fait de l’absence de comparaison possible avec d’éventuels homologues. Ceci a été en partie remédié par la publication de deux génomes de planctomycètes au cours de ma thèse : ceux de Blastopirellula marina et de Planctomyces

maris (Woebken et al., 2007) qui m’ont beaucoup apporté par leur potentiel de comparaison

à R. baltica. Ainsi, des modules initialement orphelins se sont retrouvés conservés chez ces deux planctomycètes, suggérant des fonctions uniques à ce phylum bactérien. La délimitation par bioinformatique de ces modules a également pu être affinée, bien que la méthode HCA aie souvent permis des prédictions correctes.

A titre d’exemple, la protéine RB3006 (annotée en tant que « sialidase ») est trimodulaire. Elle présente un module catalytique de la famille GH33 (responsable de son annotation) et deux modules de taille comparable mais de fonctions inconnues, dont l’un d’entre eux était orphelin lors de mes analyses. Ce dernier module a néanmoins été sélectionné et a montré une très bonne expression sous forme soluble en système hétérologue, confirmant la prédiction de ses bornes. Une comparaison avec les génomes de

B. marina et P. maris a permis de constater que non seulement des homologues existaient

dans ces deux génomes, confirmant le caractère indépendant de ce module, mais qu’en plus, l’un de ces homologues était une protéine à part entière chez B. marina, ajoutant encore à l’intérêt que nous lui portions. L’ensemble des analyses précédentes (BLAST et

HCA) m’a ainsi permis de donner une prédiction fiable de l’existence de ce module ainsi que de ses bornes confirmant ainsi la validité de cette approche.