• Aucun résultat trouvé

En introduction de ce manuscrit, différentes bases de données décrivant les réseaux moléculaires ont été évoquées, il est donc normal de se demander ce que notre nouvelle base de données pourrait apporter de plus.

Dans un premier temps, il existe des banques de données spécialisées dans les RCPG :

• GPCRDB (http://www.gpcr.org/7tm/, mise à jour le 26 mars 2012) : référence les RCPG par espèce, les mutations existantes et les structures cristallines tridimensionnelles,

• gpDB (http://biophysics.biol.uoa.gr/gpDB/, mise à jour le 20 mars 2008) : référence les RCPG par espèce et les types de protéines G avec lesquelles ils se couplent,

• GLIDA (http://pharminfo.pharm.kyoto-u.ac.jp/services/glida/, mise à jour le 10 octobre 2010) : référence les ligands,

• GPCR NaVa (http://nava.liacs.nl/, mise à jour le 16 novembre 2009) : référence les variants (mutants) naturels des RCPG,

• Sevens database (http://sevens.cbrc.jp/, mise à jour le 27 avril 2010) : référence la position des gènes codant pour les RCPG sur les chromosomes par espèce,

• IUPHAR (

http://www.iuphar-db.org/DATABASE/ReceptorFamiliesForward?type=GPCR, mise à jour en juillet 2012) : référence un grand nombre d’informations y compris la ou les protéines G pouvant se coupler aux RCPG.

Parmi ces six bases de données, seules les banques de données GPCRDB et IUPHAR sont encore mises à jour et aucune d’entre elles ne contient d’informations sur les réseaux de signalisation.

Nous établirons des liens avec ces différentes bases de données, permettant notamment d’aller chercher les caractéristiques du récepteur étudié.

Il existe également un grand nombre de bases de données généralistes, non commerciales, spécialisées dans le stockage des réseaux moléculaires : KEGG, REACTOME, STRING, IntAct. La Figure 55 représente les résultats que l’on obtient dans ces banques de données en effectuant une recherche sur le FSHR humain.

La banque de données KEGG11 fournit uniquement la complexation de la FSH avec son récepteur. En matière de réseaux de signalisation, KEGG ne contient à ce jour que le réseau lié à la protéine p53. Cependant, il est probable que ce répertoire s’agrandisse dans les années à venir.

11

Figure 55 : Résultats obtenus dans différentes banques de données en effectuant une recherche sur le FSHR humain

REACTOME12 contient également cette complexation puis un lien est proposé à l’utilisateur pour visualiser les voies G liées à ce type de récepteur. On signalera cependant l’absence de toutes les autres voies déclenchées par ce récepteur, ainsi que par un grand nombre d’autres RCPG, notamment les voies dépendantes des β-arrestines. Ici encore, on peut supposer que ce répertoire ira en s’élargissant, et il sera important pour nous de créer un lien avec cette base. IntAct13 et STRING14 permettent d’obtenir une liste de molécules interagissant directement avec le récepteur FSHR. NetPath dispose d’un réseau FSH plus complet (statistiques du réseau disponibles sur la Figure 56, la représentation graphique est disponible dans la publication de Telikicherla et al [126]). 12 http://www.reactome.org/ 13 http://www.ebi.ac.uk/intact/ 14 http://string-db.org/

Figure 56 : Statistiques du réseau FSH disponibles dans NetPath15

Ces banques généralistes contiennent encore peu de données sur la signalisation, mais cela ira en augmentant. Ainsi il serait intéressant que nous soyons à l’avenir capables de récupérer ces données pour les présenter à l’utilisateur. Nous prendrons bien soin cependant de ne pas intégrer ces données avec le même statut que celles entrées directement dans la base. En effet, ces données ne sont pas accompagnées des données expérimentales qui ont permis de les établir. De plus, elles sont souvent issues de prédictions, ou d’un transfert de connaissances d’un réseau à un autre, et ne sont par conséquent pas toujours fiables. Cela peut cependant apporter une aide précieuse à l’utilisateur, en lui donnant des pistes. Il est possible par exemple, lorsqu’une relation intéressante existe dans l’une de ces bases de données, de chercher dans la littérature des justifications expérimentales, puis de les ajouter à notre base. Les informations stockées dans notre système seront ainsi moins nombreuses que dans une banque de données généraliste, mais plus complètes, et surtout reposant sur des données expérimentales fiables et identifiables. Etant donné que nous disposerons du traitement automatique des données à haut débit, notre banque de données pourra être remplie plus facilement et de façon plus complète qu’une banque de données telle que NetPath où les informations sont toutes ajoutées manuellement. Enfin, comme cela a été mentionné plus haut, le choix de visualisation en langage CellDesigner permettra la mise à disposition des fichiers de représentation des réseaux.

15

III- Application aux réseaux de signalisation de la FSH

et de l’EGF

Notre méthode nécessite d’être validée et comme nous l’avons dit précédemment, nous avons choisi de le faire sur deux réseaux de signalisation déclenchés au travers de deux types de récepteurs différents : le FSHR (récepteur type RCPG) et l’EGFR (récepteur type RTK). Lors de la recherche bibliographique, les expériences rencontrées dans la littérature sur le réseau FSH ont servi de guide pour créer les premières règles. De cette même littérature nous avons extrait des faits expérimentaux. Avec cet ensemble de règles et de faits nous avons pu reconstruire le modèle du réseau de signalisation de la FSH. Ensuite, nous avons réutilisé les mêmes 111 règles (disponibles en Annexe 4) pour inférer le réseau induit par l’EGF pour lequel les faits initiaux ont été extraits de la liste de publications fournie par la banque de données Pathway Interaction Database.

Le procédé qui a été utilisé a ainsi consisté à écrire des règles permettant d’interpréter de manière automatique les différentes expériences rencontrées dans les articles portant sur le réseau de signalisation de la FSH, puis des règles permettant de combiner les conclusions de ces premières règles élémentaires, et cela jusqu’à disposer de toutes les règles nécessaires pour reconstruire un réseau comparable à celui qu’on peut construire manuellement à partir des mêmes données. Il est bien évidemment très difficile de ne rien oublier dans ce processus, et les premiers essais d’inférence automatique nous ont amenés à ajouter des règles et des faits initiaux. Ce processus itératif a conduit à un premier ensemble de règles qui était suffisant pour reconstruire entièrement le réseau de signalisation lié à l’hormone FSH.

Nous avons dans un deuxième temps pu constater que cet ensemble de règles est également suffisant pour reconstruire le réseau de signalisation de l’EGF.

Par souci de lisibilité et de compréhension, les réseaux obtenus sont découpés en modules. Nous n’allons décrire ici que quelques-uns de ces modules, les autres modules sont disponibles dans l’Annexe 6. Dans une première partie, nous décrirons les résultats obtenus par l’inférence automatique, par rapport au réseau de référence (celui construit par les experts

du domaine). Dans une deuxième partie, nous discuterons certains points, notamment les cas où les faits déduits peuvent sembler a priori contradictoires.

Les molécules correspondent à la représentation SBGN décrite dans la partie Matériel et Méthodes. La FSH et l’EGF sont les seules molécules représentées par un symbole non décrit précédemment, la symbolique ‘DRUG’ a été utilisée dans ce cas afin de les différencier du reste du réseau. Les relations sont représentées telles qu’elles ont été introduites dans la partie Matériel et Méthodes.