• Aucun résultat trouvé

G. Sujet de recherche

G.3.1.7. Tex19 code pour une protéine orpheline

G.3.2.11.3. Perspectives

Sur le plan clinique, le GR est une cible thérapeutique majeure pour le traitement de l’inflammation. Cette activité repose sur un dialogue moléculaire (« cross-talk ») entre GR et les facteurs de transcription AP-1 et NFB qui est à la base de la transrépression opérée par le récepteur. Selon un modèle appelé « ancrage », le GR intéragit de façon directe avec AP-1 ou NFB ce qui empêche les 2 récepteurs d’activer des gènes de l’inflammation dont ils régulent l’expression. Ce mécanisme ne requière pas la dimérisation du récepteur [Ratman D. et al, 2013] au contraire de l’activation des gènes sous le contrôle direct du GR.

122

Dossier de demande de Validation des Acquis de l’Expérience - Université de Strasbourg BIANCHETTI Laurent

Chez les patients, les traitements de longue durée aux glucocorticoïdes sont responsables d’effets secondaires graves, comme diabète ou ostéoporose, et seraient dû à l’activation des gènes cibles du récepteur. Empêcher la dimérisation du récepteur de façon ciblée pourrait donc permettre de favoriser l’activité anti-inflammatoire du GR. Certains ligands du GR appelés « dissociés » ont été développés dans ce sens [Robertson S. et al, 2010]. Par conséquent, l’élucidation de l’interface correcte de dimérisation revêt toute son importance. Signalons enfin que la structure des complexes entre GR et AP-1 ou NFB n’est pas connue ce qui fait barrière à la compréhension du mécanisme de transrépression.

Au niveau structural, notre étude a montré l’existence d’une interface de contact impliquant la H9 du LBD et présentant les caractéristiques d’une intéraction biologique dans l’assemblage en homodimère. Certains contacts que nous avons écartés mériteraient peut-être un réexamen, comme le complexe « H1 » qui avait obtenu une bonne énergie libre de liaison sur structure cristallographique avec l’outil PISA. En effet, des publications récentes indiquent que le récepteur serait capable de tétramérisation en se fixant à l’ADN et que celle-ci dépendrait de la présence du LBD [Presman D.M. et al, 2016 ; Presman D.M. & Hager G.L., 2017]. En l’absence de structure 3D pour le tétramère, des tentatives de modélisation peuvent être effectuées. Cette découverte ajoute un niveau de complexité supplémentaire à l’oligomérisation du récepteur et pose la question de son rôle physiologique.

G.4. Conclusion

L’étude de la relation séquence, structure, fonction des protéines est une clé de voûte de la biologie. En m'aidant de l'éclairage apporté par l'évolution, j’ai soutenu ma thèse en décrivant 2 projets qui ont contribué à l’étude de cette relation pour 4 protéines, i.e. TEX19, SECTM1, ER, et GR. Dans les prochaines années, l’étude de TEX19 et SECTM1 pourraient gagner de l’importance pour déchiffrer l’interface de communication entre les processus biologiques de la reproduction et de l’immunité chez les euthériens. Quant à ER et GR se sont des cibles thérapeutiques de première importance pour le traitement de pathologies humaines (cancer du sein, inflammation, ostéoporose, ...), la dimérisation du GR et l’activation transcriptionelle de ses gènes cibles étant la cause des effets secondaires des glucocorticoïdes utilisés en clinique.

Dans le premier projet, une coévolution entre 2 gènes non-homologues, Tex19 et

Sectm1, a été mise en évidence. Sans la construction des alignements multiples, nous n'aurions

123

Dossier de demande de Validation des Acquis de l’Expérience - Université de Strasbourg BIANCHETTI Laurent

eux une relation de fonction. Nous avons suggéré que la protéine TEX19 pourrait bloquer une réponse immunitaire dirigée par SECTM1 contre des types cellulaires dans lesquels existe une activité des transposons. Dans le 2ième projet, la structure 3D de l’homodimère de LBD du

GRa été revisitée. Nous avons établi que l’architecture actuellement acceptée [Bledsoe R.K.

et al, 2002] serait vraisemblablement un artefact de contact cristallin alors qu’un homodimère

de structure alternative amenant à l’interface des 2 monomères l’hélice 9 du LBD aurait plus de chance d’être biologique. Pour parvenir à cette conclusion, nous avons mis en œuvre des calculs d’énergie libre de liaison et un test statistique de sur-représentation de résidus conservés à l’interface d’assemblage. L’identification des résidus conservés a nécessité la construction d’un alignement multiple de séquences. L’éclairage évolutif contribué par l’alignement apporte un argument de poids pour distinguer les interfaces biologiques des artefacts de contacts cristallins. Certains outils comme EPPIC ont d’ailleurs été développés pour automatiser cette procédure [Duarte J.M. et al, 2012]. Si l’architecture alternative apH9 de l’homodimère de GR était confirmée expérimentalement, la biologie structurale du récepteur, voire celle des oxo-stéroidiens, devrait être reconsidérée.

Connaître la séquence, la structure et la fonction du protéome humain sera un défi du XXIème siècle. Selon les dernières estimations, le génome humain coderait pour 20.000 polypeptides [Southan C., 2017 ; Kim M.-S. et al, 2014]. Cependant, ce nombre fluctue encore en raison de la détection des petits cadres ouverts de lecture qui codent pour des polypeptides de longueur inférieure à 100 résidus [Southan C., 2017]. Pour chaque protéine codée par les 20.000 gènes du génome humain, la séquence, la structure, et la fonction sont cruciales à obtenir. Cependant, ces 3 informations s’obtiennent avec des degrés de difficulté et des pas différents. Premièrement, la mise à disposition des séquences chez des organismes non-modèles a longtemps été un facteur limitant des études phylogénétiques. Or, grâce à la rapidité de séquençage des génomes, cette disponibilité a connu une accélération fulgurante. Bien qu’il y ait maintenant pléthore de séquences et d’espèces dans les banques de données, le phylogénéticien veut toujours plus d’espèces pour comprendre comment s’opère la sélection des séquences polypeptidiques pour la conquête des milieux naturels, e.g. les hémoglobines à forte affinité pour l’oxygène chez les espèces qui vivent à très haute altitude [Natarajan C. et

al, 2018]. De plus, la construction d’un alignement multiple de qualité et l’obtention d’un profil

de conservation des résidus, c’est-à-dire exploitables pour la recherche, constitue toujours un travail laborieux et semé de pièges (hétérogénéité des banques de séquences, redondance des séquences, erreurs de prédictions de séquences –indel-, extensions N- et C-terminales, erreurs

124

Dossier de demande de Validation des Acquis de l’Expérience - Université de Strasbourg BIANCHETTI Laurent

d’annotation, complexité taxonomique, synonymes d'espèces et de noms de gènes, paralogies, isoformes, variants d'épissage, etc …). Deuxièmement, si les méthodes de résolution structurale (RMN, cristallographie, cryo-EM) peuvent déterminer le repliement de nombreuses protéines ou domaines, elles se heurtent encore à l’écueil des régions intrinsèquement désordonnées. Par exemple, le GR possède une région N-terminale de 420 résidus dont la résolution structurale est réfractaire. Cette région est cependant nécessaire pour l’activité de contrôle d’expression des gènes cibles du récepteur. Signalons qu’il n’y a à priori pas d’obstacle à étudier la conservation des régions intrinsèquement désordonnées par l’alignement multiple de séquences homologues à condition que celles-ci soient de bonne qualité [Bianchetti L. et al, 2005]. L’abondance de séquences provenant d’espèces proches pourrait aider cette analyse quand bien même ces régions montreraient une variabilité entre grands groupes taxonomiques. Cette approche apporterait une information dont on aurait tort de se priver. De plus, certaines études en cryo-EM menées sur des macro-complexes transcriptionnels impliquant ER montrent que la forme globale des régions intrinsèquement désordonnées est visible à faible résolution, i.e. ~25 Å [Yi P. et al, 2015]. Enfin, certaines molécules pharmaceutiques ciblent les régions désordonnées N-terminales des RNs pour produire un effet physiologique [Banuelos C.A. et al, 2016] ce qui prouve toute leur importance. Troisièmement, dans la littérature, il est difficile d’obtenir une estimation globale sur le pourcentage des 20.000 gènes humains dont la fonction est connue tant la notion de fonction est déclinable à différents niveaux (rôle moléculaire, processus biologique, localisation cellulaire, intéraction avec un partenaire, oligomérisation, …). De plus, de nombreux gènes humains ne sont connus que par leur sur-expression en cancer mais leur fonction est en fait inconnue. Fin 2018, la banque SwissProt répertoriait 20.413 enregistrements de séquences protéiques humaines (voir https://www.uniprot.org). C’est sur cette information que s’appuie l’estimation du nombre de gènes chez l’humain [Southan C., 2017]. Si l’élucidation de la fonction de chaque protéine prendra encore de nombreuses décennies, la génomique aura permis de tendre vers la connaissance complète des séquences primaires polypeptidiques au bémol près de certaines erreurs classiques (localisation du début de traduction incorrecte, petits polypeptides indétectables, etc …). Signalons que des approches protéomiques par spectrométrie de masse et séquençage direct de polypeptides ont été menées pour affiner l’annotation du génome humain sur une échelle globale, tissu par tissu et pour une résolution de polypeptides allant jusqu’à 6 acides-aminés [Kim M.-S. et al, 2014]. De plus, les variants d’épissage apportent un niveau supplémentaire de complexité au protéome et reposent à chaque isoforme la question séquence, structure, fonction, e.g. le variant GR dont les hélices

125

Dossier de demande de Validation des Acquis de l’Expérience - Université de Strasbourg BIANCHETTI Laurent

11, 12 du LBD et le domaine F sont remplacés par une séquence alternative de 15 résidus inhibe la transcription des gènes cibles du GR selon un mécanisme inconnu [Min J. et al, 2018]. Pour connaître les variants d’épissage, un instrument de séquençage à haut-débit produisant de longues lectures a longtemps fait défaut. Quand bien même des approches comme le séquençage d’EST (Etiquettes de transcrit) et HTC (cDNA à haut-débit) [Kawai J. et al, 2001] ont apporté une information massive de séquences transcrites dans Genbank, celles-ci étaient soit parcellaires et de mauvaise qualité (rétention d’intron, taux d’erreur élevés de base) soit au coût de séquençage très élevé (Séquenceur Roche 454) [Hampton M.H. et al, 2011]. Prochainement, la mise sur le marché d’un séquenceur PacBio dédié au séquençage d’ARNm en haut-débit est attendue pour résoudre le problème de longueur, qualité des reads et coût de séquençage.

Nous l’avons vu, l’étude de l’évolution apporte des informations cruciales pour comprendre la relation séquence, structure, fonction des protéines. Cependant, comme toute science, elle possède ses difficultés méthodologiques et ses limites. Premièrement, elle utilise des données de séquences protéiques de qualité trés hétérogènes (prédictions par homologie, prédictions ab initio, traduction de cDNA clonés) obtenues par traduction bioinformatique de séquences nucléotidiques elles-mêmes de qualités trés hétérogènes (ébauches de génomes –

drafts -, séquences génomiques terminées, cDNA clonés, cDNA haut-débits). Deuxièmement,

le transfert de fonction d’une protéine connue à un homologue tel qu’il est pratiqué par des outils automatiques demande beaucoup de vérifications pour transformer une prédiction en connaissance. Au niveau séquence, cette attribution de fonction est d’autant plus difficile à réaliser s’il y a homologie distante. La disponibilité de la structure est alors un atout majeur. Troisièmement, tandis que l’homologie indique une origine commune et des caractéristiques moléculaires partagées, des substitutions de résidus peuvent modifier significativement les fonctions de 2 protéines homologues. Dans notre étude de l’évolution des gènes Tex19, Sectm1, ER et GR, nous avons été confrontés aux difficultés et aux limites de l’analyse d’évolution de séquence. Ces 4 protéines sont codées par des génomes de métazoaires. Or, chez les eucaryotes, les régions intergéniques longues et les introns sont à l’origine de toutes sortes d’erreurs bioinformatiques de prédiction de polypeptides (fusion ou troncature de séquences, traduction de régions non-codantes, extensions ou délétions en extrémités N- et C-terminales etc …) [Mathé C. et al, 2002; Bianchetti L. et al, 2005]. Pour pallier à ces problèmes, la méthode d’annotation de génome la plus largement utilisée repose sur la comparaison de séquence et l’homologie. Une banque de polypeptides de référence, si possible des cDNA clonés au

126

Dossier de demande de Validation des Acquis de l’Expérience - Université de Strasbourg BIANCHETTI Laurent

laboratoire, servent à déterminer la localisation des gènes sur les génomes et prédire correctement les séquences protéiques homologues par comparaison de séquences. Il faut bien voir que la disponibilité d’un cDNA constitue un avantage majeur pour la recherche d’homologues et la qualité des séquences prédites qui serviront à construire les alignements multiples. Pour étudier l’évolution des protéines codées par les gènes Tex19, Sectm1, ER et GR, une recherche exhaustive des séquences polypeptidiques homologues prédites sur les génomes a été mise en oeuvre. Tracer au mieux l’histoire évolutive d’une protéine et connaître au mieux l’articulation de ses régions conservées et variables requièrent une collecte complète des homologues dans les banques dont les enregistrements augmentent rapidement (voir Ressources et Méthodes). L’étendue taxonomique et la complexité de la famille de protéine à étudier (paralogies) sont corrélées à la difficulté de rassembler les homologues disponibles dans les banques et maintenir cet ensemble à jour. Pour la collecte des protéines TEX19 et SECTM1, notre étude phylogénétique a été facilitée par la spécificité aux mammifères placentaires de ces 2 gènes ce qui a réduit l’étendue taxonomique de la recherche d’homologues. Cependant, elle a été compliquée par le fait que les prédictions de séquences protéiques n’étaient pas encore disponibles dans les banques. En effet, nos recherches de similarité de séquences TEX19 et SECTM1 ont été menées avant même que les génomes des euthériens n’aient été annotés par les outils bioinformatiques du NCBI et de l’EBI. Nous avons profité du fait que les ébauches de séquences génomiques étaient disponibles dans les banques nucléotidiques pour chercher les cadres de lecture ouverts des 2 gènes. Pour Tex19, la recherche de similarité de séquence sur les génomes a été facilitée d’une part par la disponibilité de cDNA humain et souris [Wang P.J.

et al, 2001; Kuntz S. et al, 2008] et d’autre part par le fait que toute la séquence codante était

portée par 1 seul exon. Pour Sectm1, la disponibilité d’un cDNA humain [Slentz-Kesler K.A.

et al, 1998] et la conservation de la protéine (domaine Ig) a aidé la prédiction de la séquence

des orthologues en dépit d’un morcèlement de la séquence codante sur 4 exons. De plus, les outils bioinformatiques du NCBI avaient rendu disponibles certaines prédictions de polypeptides mais avec des problèmes d’extensions en N- et C-terminus comme il apparaît sur le schéma de l’alignement de SECTM1 (voir Figure 16d). Pour ER et GR, ces 2 gènes existent des poissons à l’homme [Menuet A. et al, 2002; Baker M.E. et al, 2013] ce qui a rendu la collecte d’homologues plus laborieuse car taxonomiquement plus étendue que celle de TEX19 et SECTM1. Les produits polypeptidiques ER et GR issus de l’annotation bioinformatique des génomes avait été rendus disponibles pour environ 100 espèces (poissons, oiseaux, reptiles, mammifères). En utilisant les séquences protéiques traduites des cDNA

127

Dossier de demande de Validation des Acquis de l’Expérience - Université de Strasbourg BIANCHETTI Laurent

d’ER et GR humains et souris comme références, nous avons constaté que les LBDs prédits à partir des génomes d’organismes non-modèles étaient de bonne qualité. Au premier abord, cette qualité de séquence prédite peut surprendre car la structure des gènes qui codent les RNs est morcelée sur des centaines de kb et pose un problème majeur pour la prédiction bioinformatique de polypeptide dès qu’il s’agit d’un organisme pour lequel des cDNA ne sont pas disponibles. Signalons que la structure du gène GR humain se compose de 10 exons qui s’étendent sur 110 kb et que la séquence codant le LBD de la forme alpha est portée par 4 exons [Zhou J. et Cidlowski J.A., 2005]. Chez la souris, la structure du gène ER s’étend sur plus de 200 kb et le LBD est codé par 5 exons espacés entre eux de 4 à 57kb [Swope D.L. et al, 2002]. Etant donné la complexité génomique d’ER et GR et la qualité des séquences de LBDs que nous avons manipulées, il ne fait aucun doute que ces polypeptides aient été prédits par des outils basés sur l’homologie de séquence. La qualité de séquence prédite des LBDs au travers des 100 espèces analysées est également au crédit de la conservation du LBD. Il en aurait été autrement si l’objet de notre étude avait été le domaine N-terminal (variabilité de séquence, morcèlement des exons, longueur de 180 et 420 acides-aminés chez ER et GR respectivement). En conclusion, la simplicité du gène Tex19 et la disponibilité de cDNA pour les 4 protéines TEX19, SECTM1, ER et GR ont constitué des atouts majeurs pour la qualité de nos études d’évolution de séquences.

Un champ fondamental de l’étude de l’évolution est de comprendre comment apparaissent de nouvelles séquences, de nouvelles structures et de nouvelles fonctions. Nous l’avons vu, les méthodes classiques de recherche de similarité de séquences et de reconstruction phylogénétique de famille de protéines sont toutes basées sur la comparaison de séquences homologues qui dérivent d’un ancêtre commun. Par conséquent, ces méthodes ne peuvent détecter que ce qui est déjà connu. Il est largement admis que l’expansion de familles de gènes codants des protéines homologues est le résultat d’évènements de duplication. Les mécanismes de duplication sont de 2 types et mettent en jeu soit l’ADN génomique soit un ARN comme intermédiaire [Patthy L., 2008]. Dans le premier cas, la duplication de segments chromosomiques peut concerner une région mineure comme un exon ou un gène, ou bien une région majeure comme une bande ou un bras de chromosome. De plus, des duplications de génomes entiers ont été rapportées comme chez les poissons téléostéens [Glasauer S.M. et Neuhauss S.C., 2014]. Ces évènements sont attribués à des partages ou “crossing-over” inégaux du matériel génétique pendant la méiose et ont donc lieu dans les organes reproducteurs, testicule et ovaire chez les animaux. Dans le deuxième cas, appelé rétroposition ou

128

Dossier de demande de Validation des Acquis de l’Expérience - Université de Strasbourg BIANCHETTI Laurent

rétroduplication, un ARN produit par la transcription d’un gène parent est rétro-transcrit – ce qui nécessite la présence d’une transcriptase inverse – et le produit de rétro-transcription s’intègre dans le génome. Pour que cette duplication produise un gène fonctionnel, une région régulatrice de transcription en 5’ du rétro-transcrit est requise [Kaessmann H., 2010]. Notons que les expériences de cistromique (ChIP-seq) ont montré que les sites de fixation de facteurs de transcription sur le génome se comptent en dizaines de milliers alors que les sites physiologiques seraient une minorité. Cette abondance de sites de fixation pourrait servir la transcription de gènes rétroposés si le hasard jouait un rôle dans la mise en proximité des 2 éléments génétiques. Enfin, il est considéré que l’apparition de novo de gènes codants des protéines fonctionnelles à partir d’un ADN de séquence aléatoire par association de triplets de nucléotides codants est extrêmement faible [Patthy L, 2008]. Néanmoins, le séquençage et l’annotation des génomes ont montré que 10 à 30% des gènes ne présentent de similarité de séquence à aucun autre connu si bien que les protéines codées pourraient effectivement être apparues de novo [Bornberg-Bauer E. et al, 2015]. Au cours de cette thèse, la question de la création génétique de novo s’est posée pour la protéine TEX19. En effet, il n’a pas été possible d’assigner une fonction à TEX19 par comparaison de séquence. Que ce soit par BLAST, PSI-BLAST (10 itérations) ou d’autres méthodes de recherche d’homologie distantes, aucune similarité de séquence n’a pu être détectée. De plus, des recherches de similarité plus poussées en utilisant les produits de traduction du brin réverse du cDNA codant la protéine TEX19 sont demeurées sans résultat. Tex19 est un gène orphelin [Tautz D. et Domazet-Loso T., 2011]. D’une part se pose l’intriguante question de son origine, d’autre part se pose naturellement la question de sa fonction. Chez l’adulte humain mâle, l’expression de Tex19 est spécifique au testicule ce qui n’est pas sans rappeler que cette caractéristique est partagée avec des gènes formés dans cet organe et dont les protéines codées sont antigéniques en raison de leur nouveauté [Kaessmann H., 2010]. Se pourrait il que Tex19 soit un gène apparu de novo d’une séquence aléatoire d’ADN chez l’ancêtre des euthériens ? Il faut remarquer que la séquence de son domaine protéique le plus conservé est courte, à peine 50 résidus ce qui peut plaider en faveur de cette hypothèse. Une hypothèse alternative serait que Tex19 ait été créé par duplication d’un gène ancestral suivie d’une divergence de séquence si grande qu’il aurait perdu toute ressemblance avec le gène parent. Puisque rien du gène parent ne subsiste, ce scénario

Documents relatifs