• Aucun résultat trouvé

5.2 Une approche pour le diagnostic d’un réseau

5.2.5 Schéma d’utilisation et validation

Les concepts informatiques étant posés, nous pouvons proposer un schéma d’uti-lisation pour l’étude d’un réseau.

Schéma général Le processus que nous mettons en place pour analyser un réseau

– Construire un graphe d’influence à partir des connaissances disponibles, in-cluant avant tout les régulations transcriptionnelles avec une règle booléenne. – Appliquer un test de cohérence.

– Si le test est positif, rechercher les prédictions du système, les valider via une étude bibliographique ou les valider expérimentalement.

– Si le test de cohérence est négatif, localiser l’emplacement des incompatibi-lités. Corriger le modèle dans les zones incompatibles, éventuellement en in-troduisant des régulations post-transcriptionnelles modélisées avec des règles spécifiques. Retourner alors à l’étape 2.

Fig.5.3 – Illustration du processus de vérification de cohérence pour un système : on alterne des phases de construction (“manuelles”) de modèles avec des phases automatiques de localisation de zones sur lesquelles une incompatibité existe ou une prédiction est possible.

Réseau de régulation transcriptionnel de E. coli De manière à valider nos

méthodes sur un réseau réel, nous avons considéré le réseau transcriptionnel de la bactérie modèle E. coli. Pour cette seule bactérie, un travail a été entrepris, qui rassemble toutes les interactions entre protéines au sein de cette cellule. Cette infor-mation est publiquement accessible via la base de donnée RegulonDB [SGCPG+06]. À partir de cette information, C. Guziolowski, pendant son master puis sa thèse, a obtenu un réseau contenant 1763 produits et 4491 interactions.

Après réduction à l’image inverse des cycles du système (voir Sec. 5.2.4), on obtient un graphe de 68 produits et 198 influences (voir Fig. 5.4). Par construction, ce graphe réduit, aussi appelé cœur du réseau, est l’ensemble des gènes qui régulent le reste du réseau, sans a priori sur les observations.

À ce réseau nous avons adjoint des données correspondant à un stress nutrition-nel. Là encore, la base RegulonDB classe les variations des ARN pour différents stress environnementaux, avec une référence précise pour chaque variation. Nous avons ainsi collecté 45 variations concernant des produits du réseau.

Fig.5.4 – Le graphe d’influence pour les interactions transcriptionnelles de la bac-térie E. coli et son graphe réduit

Application du schéma Nous avons appliqué le schéma proposé ci-dessus au

réseau transcriptionnel de E. coli et le jeu de 45 observations. La boucle diagnostic-correction a dû être utilisée 3 fois avant d’obtenir un réseau cohérent.

– Dans le réseau, certains protéines ne font pas directement partie de la ma-chinerie de transcription, il s’agit des facteurs-sigma. Nous avons montré que sans ces facteurs sigma, le réseau transcriptionnel n’est pas cohérent avec les variations connues au sujet du stress nutritionnel. La phase de diagnostic a mis en évidence que seules trois équations posaient un problème. C. Guziolowski a alors étudié la bibliographie et introduit les facteurs-sigma dans le réseau, ainsi qu’un complexe IHF associé à une règle booléenne spécifique (voir Fig. 5.5). Ces résultats sont explicités dans (JPBC, 2006) et discutés dans (CIBB, 2008).

– Après cette première correction, une nouvelle incohérence est apparue, qui a été localisée autour de la molécule appY . Là encore, une étude poussée de la littérature a montré que cette molécule reçoit un signal post-transcriptionnel pendant le stress, qui n’avait pas été inclus initialement dans le réseau. Les détails sont donnés dans la publication (CIBB, 2008).

Nous avons ensuite produit un ensemble de prédictions pour ce graphe compa-tible. À partir des 45 observations initiales, nous avons prédit la variation de 526 autres éléments du réseau. Pour valider ces prédictions, nous avons considéré des

−→

−→

Fig.5.5 – Les deux sous-modules du réseau transcriptionnel de E. coli auxquels il a fallut adjoindre des interactions spécifiques pour obtenir une compatibilité. données de transcriptome [FHT+07]. Le consensus entre les observations de trans-criptome et nos prédictions est de 80% (CIBB, 2008). A posteriori, ce taux élevé de consensus est surprenant dans la mesure où le modèle que nous considérons n’in-tègre que peu de phénomènes post-transcriptionnels ; ainsi, les modules de réception des signaux extérieurs sont peu pris en compte. Il faut aussi avoir à l’esprit que le réseau est à priori incomplet puisqu’il est construit seulement à partir des connais-sances [GW02]. Malgré tout, cela est suffisant pour contraindre une grande partie du système.

Notons enfin que le niveau de consensus est équivalent à celui obtenu avec les autres approches du domaine [CKR+04, CP02, EP00], si ce n’est que nous tra-vaillons avec des réseaux de bien plus grande taille et avec beaucoup moins de jeux de données.

Réseau de grande taille : restriction des données à leur partie cohérente

Nous avons ainsi illustré que le schéma de diagnostic et prédictions est efficace sur des réseaux de grande taille, à partir d’un jeu de données de petite taille. Par contre, à partir d’un jeu de données de grande taille (typiquement des données de trans-criptome), si le réseau n’est pas assez détaillé, le nombre d’incohérences augmente. Pour illustrer ce point, nous avons testé systématiquement la cohérence entre le ré-seau transcriptionnel de E. coli et différents jeux de données concernant des stress publiés dans [FHT+07], plus précisément 226 jeux de données correspondant à 61 conditions expérimentales différentes. Seuls 31 conditions expérimentales se sont

avérés cohérentes avec le réseau transcriptionnel (BMC bioinfo, 2008).

Dans ces cas là, corriger le modèle devient un travail de très longue haleine. Pour avoir une première estimation du travail à faire, nous avons considéré chaque jeu de données indépendemment et procédé itérativement à des diagnostics : pour chaque nœud du réseau sur lequel une incompatibilité est détectée, les contraintes impliquant la variable sur ce nœud dans le réseau ont été enlevées du réseau. Cela revient à ne pas prendre en compte l’ensemble des informations (régulation et ob-servation) qui portent sur le nœud problématique. À la fin du processus, on a isolé un sous-ensemble du réseau qui porte les incohérences, et on se concentre sur la partie (restante) qui est compatible avec les données observées. Cette opération de nettoyage des données sera appelée restriction cohérente des données.

Nous avons alors observé que, après cette restriction des jeux de données, les observations du système portaient en moyenne sur 12,62% du réseau (BMC bioinfo, 2008), ce qui restreignait très fortement les jeux de données initiaux.

Étude préalable pour un jeu de grande taille : mesure de la robustesse

Pour estimer la nécessité de procéder à la correction du modèle, nous proposons une phase préalable, qui consiste à utiliser les jeux de données restreints pour vérifier que le réseau est globalement cohérent. Nous proposons ainsi un protocole pour tester la compatibilité d’un graphe d’influence et d’un jeu de données de transcriptome (voir (CIBB, 2008)).

– On considère un réseau formalisé sous la forme d’un graphe d’influence. D’un jeu de données transcriptome, on extrait la liste des ARN qui varient signifi-cativement de manière positive et de manière négative.

– On fixe un taux de données x (de 5 à 20%) et on procède à une sélection aléatoire de x% des variables ayant une variation significative. Ces variables sélectionnées sont considérées comme des observations pour le système. – On restreint le jeu d’observations ainsi obtenu à sa partie cohérente, selon la

procédure décrite ci-dessus.

– On compare les prédictions des observations restantes avec les données trans-criptome qui n’avaient pas été sélectionné comme observation, pour calculer un taux de consensus entre les prédictions et les observations.

– On itère ce processus avec d’autres tirages aléatoires de x% parmi les nœuds qui varient significativement, on en déduit un taux de consensus moyen pour le ratio x.

– Tout le processus est itéré avec de nouvelles valeurs de x.

Cette analyse permet d’estimer si les observations sont globalement cohérentes avec le réseau analysé. Comme nous le montrons sur le réseau transcriptionnel de E. coli dans (CIBB, 2008), le taux de consensus ne varie pas significativement pour les différentes valeurs de x. Il est de 90% pour les données concernant un stress nutritionnel. Notre conclusion est que, malgré les erreurs et son aspect incomplet, le réseau transcriptionnel de E. coli donné par RegulonDB est une bonne description pour un stress nutritionnel (90% de consensus en moyenne). Par contre, les stress anaérobie et de température sont moins bien décrits, puisque le taux de consensus est de 80% en moyenne. Les détails se trouvent dans (CIBB, 2008).

5.2.6 Etude (en cours) du rôle de la molécule EWS/FLI1