• Aucun résultat trouvé

1.2 Les outils bioinformatiques pour l’annotation et l’analyse des NRP/NRPS

1.2.4 Les bases de connaissance de NRP

Les bases de NRP sont très rares en comparaison des bases de NRPS. Quasiment toutes les bases de NRPS que nous avons précédemment présentées comportent également les struc- tures de NRP prédits. Cependant, comme nous l’avons déjà dit plusieurs fois, ces données ne sont pas toutes fiables. Beaucoup des structures sont inexactes, voir incomplètes, car elles sont issues de prédictions.

Norine, la base de référence des NRP Norine [12,27] est la base de données de référence pour les peptides non ribosomiques annotés. Cette base de données a été dévelop- pée et est entretenue par l’équipe Bonsai de l’université de Lille 1, équipe au sein de laquelle j’effectue ma thèse, en collaboration avec l’équipe ProBioGem de l’institut Charles Violette. Contrairement aux autres bases, c’est une base entièrement dédiée aux NRP. Tous sont ex- traits de publications présentant les molécules et déterminant leur caractère NRP. Chaque molécule entrée dans la base est accompagnée de sa structure monomérique (et parfois de sa structure atomique). Depuis 2015, la base de données est entièrement ouverte aux con- tributions extérieures. En quelques clics et en appuyant sa soumission par des articles de preuve de la voie de synthèse, toute personne peut soumettre de nouvelles entrées. La base contient 1184 annotations de NRP. Les structures présentes dans cette base sont fiables, ce qui est un avantage comparé aux prédictions présentées jusqu’à présent. Cependant, le pro- cessus d’ajout d’informations, strict pour préserver la qualité, ne permet pas d’ajouter de nouvelles entrées par centaines. Soulignons tout de même le travail effectué par les auteurs initiaux qui ont entré plus de 1100 annotations à la main.

MIBiG Revenons sur la base MIBiG, base que nous avions présentée parmi les bases NRPS. MIBiG est la seule base, hors Norine, encore active et contenant des anno- tations vérifiées de NRP. Comme nous l’avions déjà évoqué, MIBiG est une base surtout dédiée à l’annotation de NRPS. Cependant, les annotations de NRPS sont souvent accom-

pagnées d’informations sur les peptides produits. Ces informations peuvent être de deux types. Dans un premier cas, la structure du NRP produit est connue (par exemple via des analyses de spectres). Dans ce cas, l’annotation NRPS a pu être validée par l’expérience et nous pouvons lui faire confiance. Dans le second cas, le NRP provient uniquement d’une reconstruction du NRP à partir des prédictions NRPS. Il se peut alors que le NRP ne soit que partiel et il est probable qu’il soit incorrect.

Chapter 2

Smiles2Monomers : Des atomes vers

les monomères

2.1 Introduction

Pour comprendre un système biologique, il est nécessaire d’étudier les interactions chim- iques qui s’y déroulent. Au delà du simple catalogage qui peut en être fait, comprendre les actions moléculaires permet d’utiliser ou même d’inventer de nouvelles substances pour l’industrie. Afin d’explorer ces activités, un postulat simple a été posé : deux molécules proches ont deux activités proches. Ce postulat simple parait raisonnable puisqu’il s’appuie sur le fait que l’activité d’une molécule est portée par la configuration spatiale des différents éléments qui la composent. On sait aujourd’hui que ce postulat est en partie faux car on connaît quelques contre-exemples [65]. Cependant, dans la majorité des cas, cette approx- imation fonctionne bien et tout un domaine de chemoinformatique s’est développé dans ce sens. Toutes les techniques cherchant à rapprocher les structures des activités moléculaires sont regroupées derrière l’acronyme QSAR (Quantitative structure-activity relationship). Les techniques QSAR sont nombreuses et de types variés [35,48,65]. Certaines s’attardent sur les ressemblances de structures atomiques 2D ou 3D, certaines sur les propriétés mag- nétiques, d’autres sur les contraintes de repliement etc. Beaucoup ne se cantonnent pas à une seule des ressemblances citées ci-dessus mais essaient de les combiner pour prédire au mieux l’activité. Cependant, ces techniques ont deux limites. Premièrement, pour déter- miner l’activité d’une molécule, il est nécessaire de connaître les activités de molécules “proches”, qu’il faut donc avoir annotées auparavant. Deuxièmement, les temps de calcul nécessaires augmentent rapidement avec le nombre de critères à comparer et la complexité d’analyse de chacun de ces critères. Le but de ces méthodes est donc d’inclure d’abord les

critères les plus sélectifs afin de déterminer des activités connues en un temps raisonnable. Beaucoup de NRP possèdent des activités très intéressantes (antibiotiques, anti-tumeurs, antidouleurs, …). À ce titre, nous cherchons en permanence à caractériser les activités de chaque nouvelle molécule découverte. Lorsque ces activités ne sont pas déterminées expéri- mentalement, les logiciels exploitant des techniques de type QSAR permettent d’effectuer une prédiction. En 2012 puis 2014, Abdo et al. publient de nouvelles méthodes de pré- diction d’activité NRP, se basant sur les spécificités des NRP [4, 5]. Dans les deux cas, les prédictions sont effectuées à partir des compositions monomériques et non pas atom- iques. Dans le premier article [4], la prédiction est effectuée en créant pour chaque peptide connu un fingerprint et en ajoutant un fingerprint pour le peptide dont on cherche l’activité. Pour prédire l’activité, les auteurs utilisent plusieurs classifieurs présents dans la librairie WEKA [34]. Dans le second article [5], c’est un classifieur par réseau Bayésien qui est en- traîné sur les compositions en monomères. Une fois les réseaux entraînés, il suffit de fournir une composition en entrée pour avoir les probabilités de chaque activité en sortie. Dans les deux cas, il est important de constater que l’abstraction monomérique est suffisante pour une prédiction de qualité. De plus, les structures des molécules ne sont pas utilisées, ce qui laisse encore beaucoup de possibilités d’améliorations.

Ce que nous venons de montrer par cet exemple de prédiction d’activité, c’est l’im- portance de la détermination des structures plus proches de la réalité biologique comme les structures monomériques. Connaître ce type de structure est un enjeu fort pour la déter- mination de caractéristiques moléculaires haut niveau (activité ou conformation 3D par exemple). Comme nous l’avons fait remarqué précédemment, il n’existe que peu d’out- ils permettant des annotations fiables de NRP. Les caractérisations fiables de NRP sont en très grande majorité effectuées manuellement par des biologistes et chimistes. Beaucoup de structures atomiques sont également connues sans annotations monomériques malgré leur présence dans de grandes bases de données. Il nous a donc paru nécessaire de créer un outil qui infère la structure monomérique à partir d’une structure atomique et c’est cet outil d’annotation que nous allons décrire durant ce chapitre.