L’apprentissage des RRB à partir des données expérimentales

du problème d’explosion d’états, car la taille du BDD dépend à la fois des fonctions de régulation et du nombre de nœuds dans les RRB.

L’autre technique consiste à représenter la détection des attracteurs dans des BNs comme un problème de satisfiabilité (SAT) tel que dans (Dubrova & Teslenko, 2011). L’idée principale s’inspire de la vérification de modèle délimitée basée sur SAT : la relation de transition du RRB se déroule en un nombre limité d’étapes afin de construire une formule propositionnelle qui code pour les attracteurs et qui est ensuite résolue par un solveur SAT. Dans chaque étape, une nouvelle variable est nécessaire pour représenter l’état d’un nœud dans le RRB. Il est clair que l’efficacité de ces algorithmes dépend en grande partie du nombre d’étapes de déploiement et du nombre de nœuds dans le RRB (i.e., nombre de composants).

Dans (Mushthofa, Torres, Van de Peer, Marchal & De Cock, 2014), les auteurs séparent la description du réseau (noeuds et leurs interactions : activation ou inhibition) avec les règles de simulation du système (un gène sera activé dans l’état suivant si tous ses activateurs sont actifs ou lorsqu’au moins un de ses activateurs est actif dans l’état actuel). Ils choisissent également le paradigme déclaratif l’Answer Set Programming (ASP) (Baral, 2003) pour avoir une simulation plus flexible, en termes de règles d’évolution d’expression, des modèles de réseau booléen. Ils illustrent que la spécification de grands réseaux avec des comportements plutôt compliqués devient encombrante et est susceptible d’être poussée dans des paradigmes comme SAT, alors que cela est beaucoup moins important dans une démarche déclarative comme la leur.

Un des objectifs de cette thèse est de développer des méthodes exhaustives pour analyser un RRB modélisé avec le formalisme des réseaux d’automates. Nous abordons dans le chapitre 5, deux types de problèmes : trouver tous les points fixes dans un RRB et énumérer tous les attracteurs de taille n ∈ N∗.

Nous nous concentrons sur deux sémantiques répandues de la dynamique non déter-ministes (synchrone et asynchrone) et nous utilisons ASP pour résoudre ce problème d’identification des attracteurs. En effet, l’utilisation d’ASP est considérée comme inno-vante dans le domaine de l’analyse des propriétés dynamiques et notre objectif dans le chapitre 6, est d’évaluer son potentiel de calcul.

2.4 L’apprentissage des RRB à partir des données

expé-rimentales

Le but de la construction des modèles est tout d’abord d’avoir la possibilité d’analyser, de simuler et de comprendre les systèmes (comme il est mentionné dans les sections précédentes de ce chapitre). Nous présentons donc dans cette section un tour d’horizon des travaux qui prennent en compte, dans le processus de modélisation, les données expérimentales décrivant l’évolution d’expression des composants du système biologique. C’est notamment l’objectif du chapitre 4 de cette thèse.

Dans cette démarche, les modèles sont inférés (ou appris) en utilisant une approche d’inférence qui répond au mieux aux questions qui sont posées. Nous présenterons dans la section 2.4.1 quelques techniques d’inférence des modèles à partir des données expérimen-tales (trouvées par les observations de l’évolution du système à modéliser). Ces données

Chapitre 2 — Préliminaires 39 sont non seulement utilisées pour inférer les modèles, mais aussi pour les réviser et les valider (section 2.4.2).

2.4.1 L’inférence des RRB

Avec la propagation d’outils numériques dans chaque partie de la vie quotidienne et le développement de méthodes NGS (Next Generation Sequencing methods) comme les microarrays d’ADN en biologie, une très grande quantité de données de séries temporelles est maintenant produite quotidiennement. Cela signifie que les données produites par les expériences sur les systèmes biologiques augmentent considérablement. Les données nouvellement produites, à condition que le bruit associé ne soulève pas de problème par rapport à la précision et la pertinence de l’information correspondante, peuvent nous donner de nouvelles idées sur le comportement d’un système. Cela justifie la motivation de concevoir des méthodes efficaces pour l’inférence des RRB.

En effet, durant ces dernières années, plusieurs recherches ont été menées dans ce domaine d’apprentissage et plus précisément dans les méthodes dites de « l’ingénierie inverse »(reverse engineering).

Pour la définition du modèle, divers formalismes de modélisation ont été proposés (section 2.2 en page 25). Ils se différencient par les niveaux de simplifications et les hypothèses émises pour la caractérisation des mécanismes moléculaires entre les composants. Plus généralement, les nœuds du réseaux représentent les composants biologiques du système (les gènes, les protéines, les complexes, etc.). Les interactions entre ces composants dépendent de la méthode d’abstraction des influences. Par conséquent, une caractéristique importante des différentes méthodes d’inférence est le formalisme choisi pour modéliser. Par exemple, dans le cas des BN de (Kauffman, 1969; Thomas, 1973), ils utilisent des variables discrètes xi ∈ {0, 1} (comme nous l’avons présenté à la section 2.2.2 en page 27) qui définissent l’état du composant (gène, protéine). Ainsi, pour apprendre un tel modèle, pour chaque composant, sa courbe d’expression doit être discrétisée. Plusieurs méthodes sont possibles pour la discrétisation des niveaux d’expression, par exemple, les méthodes de classification (clustering) et les méthodes selon les seuils de concentration (présentés dans la suite à la section 4.2.1 du chapitre 4).

Cependant, les approches discrètes qui simplifient le problème d’inférence, par des abstractions doivent déterminer les seuils pertinents de chaque gène pour différencier entre son état actif et son état inactif. Diverses approches ont été conçues pour s’attaquer au problème de la discrétisation. On peut citer par exemple (Zhang, Horimoto & Liu, 2008), dans lequel les auteurs ont défini une méthodologie alternative qui ne considère pas un niveau de concentration (un seuil), mais la façon dont la concentration change (en d’autres termes : la dérivée de la fonction donnant la concentration en fonction du temps) en présence ou absence d’un régulateur. D’autre part, le problème majeur de la modélisation réside dans la qualité des données d’expression fournies. En effet, les données bruitées peuvent être l’origine principale des erreurs dans le processus d’inférence. Ainsi, le pré-traitement des données biologiques est crucial pour la pertinence des relations présumées entre les composants.

Dans les BN, les interactions entre les composants sont représentées par des fonctions booléennes. Le défi de l’apprentissage de ce type de modèles, est alors de déterminer ces fonctions booléennes telles qu’elles réussissent à reproduire la dynamique du système illustrée par les observations des données d’expression des gènes. De nombreux algorithmes ont été

40 2.4 — L’apprentissage des RRB à partir des données expérimentales proposés dans ce sens comme dans (Liang, Fuhrman & Somogyi, 1998). On cite aussi l’outil CASPO (Guziolowski, Videla, Eduati, Thiele, Cokelaer, Siegel & Saez-Rodriguez, 2013) qui est développé pour générer les modèles logiques (booléens) des signaux de transductions. Cette génération prend en compte les boucles de rétro contrôle.

En revanche, ces méthodes ont de plus le désavantage d’être statiques, c’est-à-dire qu’elles ne permettent pas de modéliser l’évolution du système en fonction du temps. Ainsi, d’autres chercheurs se concentrent plutôt sur l’intégration des aspects temporels dans les algorithmes d’inférence. La pertinence de ces différents algorithmes a récemment été évaluée dans (Koh, Wu, Selvaraj & Kusalik, 2009).

En outre, les auteurs de (Liu, Sung & Mittal, 2004) ont abordé le problème d’inférence de RRB temporisés par le biais de réseaux bayésiens, et dans (Silvescu & Honavar, 2001), les auteurs infèrent un réseau booléen temporel. Puisqu’il s’agit d’un problème complexe, dans (Zhang et al., 2008), les auteurs proposent une technique d’extension de ce qu’ils appellent la fenêtre temporelle (time-window-extension) basée sur la segmentation des séries temporelles en différentes phases successives.

Les avantages de ces méthodes sont leur simplicité et leur faible coût de calcul. De plus, comme elles ne nécessitent pas un gros volume de données (Hecker, Lambeck, Toepfer, Van Someren & Guthke, 2009), elles sont adéquates pour inférer les grands RRB. En revanche, elles ne prennent pas en compte une régulation à laquelle plusieurs composants participent comme c’est le cas de la méthode d’inférence présentée dans cette thèse dans le chapitre 4 (tout en gardant l’aspect temporel dans le processus de l’apprentissage).

La révision des modèles existants a fait aussi l’objet de nombreux travaux récents. Quand on parle de révision, on fait référence à l’amélioration du modèle par des nouvelles données fournies : si le modèle n’est pas cohérent avec ces nouvelles données, la révision est faite par la correction (i.e., l’addition ou la suppression) de ses interactions.

Par exemple, dans (Akutsu, Tamura & Horimoto, 2009), les auteurs ont ciblé la révision des BN stationnaires. Cette méthode a été affinée au cours des années. Les travaux récents de (Nakajima & Akutsu, 2013) se concentrent sur la révision des réseaux génétiques variables dans le temps (Time Varying Genetic Networks). Ce sont des réseaux dont la topologie ne change pas avec le temps, mais la nature des interactions (activation, inhibition ou absence d’interaction) entre les composants peut changer à certains points temporels (instants finis). L’approche de révision (qui, dans les documents de ces auteurs, est appelée complétion, et se réfère à la fois à l’addition et à la suppression des interactions) a été appliquée avec succès à des études de cas biologiques ; par exemple sur le DREAM4 Challenge (Nakajima & Akutsu, 2014b) et sa mise en œuvre a été améliorée par des heuristiques (Nakajima & Akutsu, 2014a). Cependant, la méthode est limitée aux réseaux acycliques : c’est-à-dire l’inférence n’est plus possible dans le cas ou il y a des cycles dans le réseau.

Les approches logiques peuvent également être bénéfiques pour la révision des modèles. En effet, elles ont été appliquées avec succès aux réseaux de corrélations (causal networks) (Inoue, Doncescu & Nabeshima, 2013) et aux réseaux moléculaires représentés avec le langage SBGN-AF (Yamamoto, Rougny, Nabeshima, Inoue, Moriya, Froidevaux & Iwanuma, 2014).

Notre objectif dans le chapitre 4 de cette thèse, est de fournir une approche logique (son implémentation en ASP est présentée dans le chapitre 6) pour inférer les RRB à partir

Chapitre 2 — Préliminaires 41 des données de séries temporelles. Nous proposons une nouvelle méthodologie pour les modèles représentés par une extension temporelle des réseaux d’automates (un formalisme bien adapté à la modélisation des systèmes biologiques) appelées réseaux d’automates avec le temps (Timed Automata Networks, T-AN). Le but principal est alors de réussir à avoir un T-AN résultant aussi cohérent que possible avec les ensembles des données observées.

2.4.2 Validation des RRB appris

Pour les systèmes biologiques, certains modèles prennent plus ou moins bien en compte des propriétés dynamiques des systèmes étudiés. Pour d’autres modèles, par contre, il est nécessaire de les confronter aux données et/ou les enrichir à partir des données pour qu’ils soient plus raffinés voire améliorés. Habituellement, en biologie des systèmes, le traitement consiste à partir d’une base de connaissance de proposer de nouvelles hypothèses de travail. Ces hypothèses vont induire le passage vers les expérimentations. Les résultats des expérimentations sont dans la plupart des cas des informations qui sont traitées afin d’identifier de façon fiable les éléments significatifs et les structures pour le phénomène biologique considéré.

En effet, après l’apprentissage des modèles, il est nécessaire de passer à la validation de ces modèles par d’autres moyens. Ce processus de validation consiste à déterminer si le modèle appris est conforme aux propriétés attendues du système modélisé et aussi aux données expérimentales disponibles sur les observations de l’évolution dynamique du système.

En général, la qualité d’un modèle est déterminée en répondant aux questions suivantes : – est-ce que le modèle est capable de reproduire la dynamique qu’il avait apprise, et – est-ce qu’il est capable de prédire correctement les comportements du système qu’il

n’a pas appris ?

En tant que modélisateur, il est plus facile de répondre à la première question. En effet, si le modèle appris n’arrive déjà pas à reproduire ce qu’il a appris sur le système qu’il représente il ne pourrait pas prédire ce qu’il n’a pas appris. Par contre, réussir à trouver une réponse à la deuxième question est moins évident. En fait, ceci suppose que le modèle présente idéalement le système réel et donc il peut l’imiter parfaitement. Ce qui n’est pas toujours le cas ; en général les informations disponibles sur le système réel sont incomplètes, bruitées et pas toujours fiables. Une façon de contourner cette difficulté est d’utiliser les données synthétiques avec la conséquence que les performances de la méthode d’inférence du modèle sera fortement liée au modèle utilisé pour calculer ces données. Une autre façon possible est de pré-traiter ces données avant de les utiliser pour apprendre le modèle.

Parmi les approches utilisées, il est à noter celle dans (Klamt, Saez-Rodriguez & Gilles, 2007), où les auteurs proposent des analyses de dépendances entre les composants afin de valider la cohérence d’un graphe des interactions avec des interactions des données expérimentales.

Pour le raffinement d’un modèle qui représente un système biologique, d’autres approches consistent à supprimer les incohérences et/ou à prédire l’information manquante dans les modèles biologiques par la comparaison des attracteurs calculés dans le modèle avec ceux observés. Par exemple, le modèle du développement cellulaire de Drosophila melanogaster

42 2.5 — RRB via les frappes de processus

Dans le document Étude de la dynamique des réseaux biologiques : apprentissage des modèles, intégration des données temporelles et analyse formelle des propriétés dynamiques (Page 39-43)