Analyse formelle des propriétés dynamiques des RRB

La majorité des systèmes biologiques ont une caractéristique qui les différencie des autres champs d’application de l’informatique. Cette caractéristique consiste au regroupement des entités, ayant un comportement simple, et la production d’un comportement complexe de par leurs interactions. Ceci est alors à l’origine de l’explosion combinatoire des comportements à analyser par les méthodes « classiques ». Afin de contourner cette explosion combinatoire,

34 2.3 — Analyse formelle des propriétés dynamiques des RRB plusieurs recherches ont été menées durant la dernière décennie. Par exemple, l’analyse dite statique qui réussit à conclure sur des propriétés de la dynamique du modèle étudié sans avoir besoin de l’analyser de façon exhaustive. En effet, les approches d’analyses statiques reposent plutôt sur une analyse des structures du modèle tout en ayant parfois un recours à des méthodes d’abstraction afin d’en simplifier le comportement, comme dans (Feret, Henzinger, Koeppl & Petrov, 2012; Paulevé, Chancellor, Folschette, Magnin & Roux, 2014; Folschette et al., 2015).

Dans cette thèse, les propriétés dynamiques étudiées sont : la vérification de l’atteignabilité et l’identification des attracteurs. Ainsi, nous présentons dans cette section un état de l’art sur quelques travaux développés pour l’analyse et la vérification de ces deux propriétés.

2.3.1 Atteignabilité

Quand nous vérifions la propriété de l’atteignabilité dans un RRB, c’est-à-dire que nous vérifions l’existence d’un chemin qui permet d’atteindre l’objectif fixé à partir d’un état initial du réseau. Nous présentons dans la suite quelques méthodes existantes pour l’analyse formelle de cette propriété.

Analyse avec abstraction du modèle

Le but principal de la vérification des modèles par abstraction est de produire des analyses efficaces du système sans l’exécuter (Cousot & Cousot, 1977). Plusieurs travaux sont faits en se basant sur une telle approche, dans le domaine de la biologie des systèmes ou autres. Par exemple, dans (Klaudel, Koutny, Pelz & Pommereau, 2010), les auteurs proposent une technique d’abstraction pour générer des représentations d’espaces d’états réduites pour les systèmes multi-thread. Dans le domaine de la biologie, on trouve le modèle kappa (Danos, Feret, Fontana & Krivine, 2008) ainsi que les travaux de thèse de Loïc Paulevé (2011).

Les travaux de Loïc Paulevé (Paulevé, 2011) qui ont été par la suite enrichis par Maxime Folschette (Folschette, 2014), fournissent une approche très spécifique qui repose sur une interprétation abstraite des comportements concurrents des réseaux d’automates (Folschette, Paulevé, Magnin & Roux, 2013). Ils déterminent des représentations abstraites, appelées Graphes de Causalité Locale (GCL), de l’ensemble des comportements nécessaires pour la propriété d’atteignabilité recherchée. Les abstractions calculées ne prennent pas en compte une partie de l’information sur l’ordre ou l’arité des transitions locales. Il en résulte ainsi des approximations supérieures et inférieures des comportements du modèle concret. Une analyse du GCL permet d’identifier les propriétés qui sont soit nécessaires, soit suffisantes à l’atteignalibilité étudiée.

Cette méthode a l’avantage d’avoir une complexité bien inférieure aux méthodes de vérification formelle exacte. En effet, les approches exactes sont de complexité exponentielle selon le nombre d’états dans un seul automate et polynomiale selon le nombre d’automates dans le réseau d’automates asynchrones. Cependant, il existe un risque d’obtenir une réponse non concluante pour le modèle concret, nécessitant alors un raffinement de l’analyse de la dynamique. Une partie de cette analyse statique a par la suite été utilisée dans le but d’approximer efficacement des ensembles de coupes (cut-sets), c’est-à-dire des ensembles d’états locaux nécessaires à une certaine accessibilité (Paulevé, Andrieux & Koeppl, 2013). Son utilisation dans ce cadre s’est avérée efficace sur des modèles de plusieurs milliers de composants.

Chapitre 2 — Préliminaires 35 Louis Fippo-Fitime s’est aussi servi par la suite dans (Fippo-Fitime, 2016), des résultats de cette analyse statique pour le développement de nouvelles méthodes d’analyse statique des propriétés quantitatives et pour l’identification des bifurcations (Fippo-Fitime, Roux, Guziolowski & Paulevé, 2017) dans les réseaux d’automates.

Analyses dynamiques du modèle

Les analyses dynamiques se basent plutôt sur des approches exhaustives et permettent habituellement de vérifier la concordance entre un comportement observé du système et une propriété exprimée, par exemple, en logique temporelle (comme CTL (Clarke & Emerson, 2008)), stochastique (comme CSL (Bryans, Bowman & Derrick, 2003)) ou temporisée (comme TCTL (Alur, Courcoubetis & Dill, 1990)).

Parmi les avantages de ces analyses figure le fait qu’elles permettent d’exprimer de nombreux types de comportements ; elles ont potentiellement un grand champ d’application. En plus, les algorithmes de vérification peuvent être génériques : il suffit de savoir générer les transitions possibles à partir d’un état du modèle.

En revanche, l’utilisation de ces méthodes d’analyse est intrinsèquement coûteuse en temps d’exécution ainsi qu’en mémoire surtout quand le nombre d’états est grand (Schnoebelen, 2002). Ainsi, plusieurs travaux ont été menés afin de compresser la mémoire requise pour de telles analyses par l’utilisation des représentations symboliques de l’espace d’états. Ceci est fait par exemple via les diagrammes de décision (notamment, les BDD, Binary Decision Diagrams (Bryant, 1986)) qui peuvent être utilisés hiérarchiquement (Couvreur & Thierry-Mieg, 2005; Hamez, Thierry-Mieg & Kordon, 2009).

Dans la pratique, ces techniques permettent d’avoir un gain considérable sur le temps d’exécution des vérifications des modèles ayant un très grand nombre d’états mais leur performance peut dépendre, d’une part, de paramètres liés à leur représentation symbolique (dans le cas des BDD par exemple, l’ordre des composants de l’état impacte fortement leur efficacité), et, d’autre part, de leur complexité théorique.

Analyse des propriétés quantitatives

L’intégration d’une composante temporelle dans les modèles représentant les RRB a ouvert des nouvelles pistes de recherche pour développer des analyses quantitatives dans les RRB. Parmi ces analyses, des travaux proposent des techniques de vérification qui se veulent quantitatives (calculer une probabilité, un délai).

Des travaux ont été initiés pour faire du model checking quantitatif sur des systèmes abstraits sous forme de chaînes de Markov, comme dans (Hansson & Jonsson, 1994; Courcoubetis & Yannakakis, 1988) qui se sont focalisés sur des systèmes à temps discret. Nous citons aussi les travaux de (Bertrand, Bouyer, Brihaye & Markey, 2008) où les auteurs proposent de faire du model checking quantitatif sur les automates temporisés. Ainsi, il est possible de calculer la probabilité d’une propriété régulière ω en corrigeant une abstraction par chaîne de Markov précédemment introduite dans (Baier, Bertrand, Bouyer, Brihaye & Grosser, 2008).

Le formalisme CSL (Continuous Stochastic Logic) a été introduit dans (Zhang, Jansen, Nielson & Hermanns, 2011), afin d’exprimer les propriétés des systèmes abstraits comme des chaînes de Markov à temps continu. Ils ont prouvé que le problème de vérification des propriétés quantitatives est décidable. Il est à noter que CSL est une logique inspirée par la

36 2.3 — Analyse formelle des propriétés dynamiques des RRB logique temporelle CTL (Emerson, 1990) et ses extensions pour les systèmes stochastiques à temps discret (Hansson & Jonsson, 1994) et les systèmes non stochastiques à temps continu (Alur et al., 1990).

Finalement, une réduction exacte des modèles stochastiques à base de règles a été proposée dans (Feret, Koeppl & Petrov, 2013) par une abstraction qui permet de réduire l’espace d’états pour les réseaux des interactions protéine-protéine. Cette réduction est basée sur la construction des classes d’équivalence du réseau qui conservent la propriété markovienne. Ces résultats ont été étendus dans (Feret et al., 2012) pour une construction des classes d’équivalence qui conserve la propriété markovienne forte ; c’est-à-dire il existe une forme d’indépendance (une indépendance conditionnelle ) entre les états passés et les états futurs.

2.3.2 Les attracteurs

Compte tenu du paradigme utilisé, le comportement à long terme de la dynamique des RRB est d’un intérêt particulier (Wuensche, 1998). En effet, à tout moment, un système peut tomber dans un domaine piège, qui fait partie de sa dynamique et il ne peut plus s’en échapper. Lors de l’évolution, le réseau peut éventuellement tomber dans un nouveau et plus petit domaine piège, réduisant ainsi ses comportements futurs possibles (par exemple les états précédents deviennent inaccessibles). Nous appelons alors les domaines pièges minimaux des attracteurs. Ces derniers peuvent être singleton (i.e., des points fixes) ou non singletons et illustrant une dynamique cyclique (c’est-à-dire que le réseau oscille ou cycle indéfiniment dans cet ensemble d’états).

Ce phénomène peut évoquer des perturbations biologiques ou d’autres phénomènes complexes. Ainsi, pour toute condition initiale et à long terme, tout réseau finira par atteindre un état final (ou un ensemble d’états finaux) dans lequel les comportements futurs possibles sont plus restreints. Le réseau atteint alors un domaine piège minimal. De tels comportements ont été interprétés comme étant des réponses distinctes et spécifiques de l’organisme, telles que : la différenciation en types cellulaires distincts dans les organismes multicellulaires (Huang, Eichler, Bar-Yam & Ingber, 2005) et la distinction du développement floral normal de la plante Arabidopsis thaliana (Demongeot, Goles, Morvan, Noual & Sené, 2010).

Les conjectures de René Thomas

Les conjectures de René Thomas (Thomas, 1981) sont un exemple d’analyse statique très efficace du graphe des interactions dont le résultat peut se lire directement sur le graphe. En effet, elles tracent un lien entre la présence de circuits dans le graphe d’états et celles d’oscillations ou d’états stables. Nous notons qu’il existe deux types de circuits : (a) des circuits positifs qui contiennent un nombre pair de régulations négatives, (b) et des circuits négatifs qui contiennent un nombre impair de régulations négatives. Ces conjectures sont énumérées ci-dessous :

1. l’existence de plusieurs états stables (ou points fixes) requiert la présence d’un circuit positif dans le graphe des interactions ;

2. l’existence d’oscillations soutenues requiert la présence d’un circuit négatif dans le graphe des interactions.

Chapitre 2 — Préliminaires 37 La première conjecture a notamment été démontrée dans le cadre de la modélisation booléenne (c’est-à-dire ∀a ∈ N, la = 1avec (N ; E) est un graphe des interactions) dans (Remy, Ruet & Thieffry, 2008; Richard, 2006), puis pour la modélisation multivaluée (c’est-à-dire ∃a ∈ N, la >1) dans (Richard & Comet, 2007).

La seconde conjecture a également été démontrée dans le cas asynchrone dans le cadre booléen (Remy et al., 2008) et multivalué (Richard, 2010) : la présence d’oscillations soutenues implique la présence d’un circuit négatif dans le graphe des interactions. Un corollaire de cette propriété est que l’absence de circuit négatif implique la présence d’au moins un point fixe dans la dynamique.

L’identification des attracteurs

Le problème du calcul de tous les attracteurs dans un RRB est difficile. Même le problème le plus simple, celui de décider si le système a un point fixe (qui peut être considéré comme le plus petit attracteur) est NP-complet (Zhang, Hayashida, Akutsu, Ching & Ng, 2007). En se basant sur ce résultat, d’autres études ont prouvé que la recherche des attracteurs cycliques (i.e., non singletons) est aussi NP-complet (Klemm & Bornholdt, 2005; Akutsu, Kosub, Melkman & Tamura, 2012).

Bien que certaines méthodes existent avec une complexité inférieure, consistant par exemple à choisir de manière aléatoire un état initial et à suivre une trajectoire suffisamment longue, dans l’espoir de trouver éventuellement un attracteur, elles ne sont pas exhaustives et peuvent manquer des attracteurs (difficiles à atteindre). Nous présentons ainsi, dans la suite quelques travaux développés pour résoudre ce problème d’identification des attracteurs dans les RRB.

Le moyen le plus simple de trouver les attracteurs est d’énumérer tous les états possibles et d’exécuter la simulation de chacun jusqu’à ce qu’un attracteur soit atteint (Somogyi & Greller, 2001). Cette méthode garantit que tous les attracteurs soient détectés mais présente une complexité temporelle exponentielle et, par conséquent, son applicabilité est fortement limitée par la taille du réseau c’est-à-dire son nombre de nœuds).

Dans le cadre des réseaux booléens (Boolean Networks, BN), les algorithmes de détection des attracteurs ont été largement étudiés dans la littérature. Nous citons les travaux de (Irons, 2006), qui propose d’analyser les états partiels afin d’identifier plus efficacement les attracteurs potentiels. Cette méthode améliore l’efficacité du calcul en passant du temps exponentiel à un temps polynomial pour un sous-ensemble de modèles biologiques fortement dépendants de la topologie (les composants prédécesseurs, successeurs et les fonctions de mise à jour) du réseau. Une autre méthode, appelée GenYsis (Garg, Mendoza, Xenarios & DeMicheli, 2007), dont l’algorithme commence à partir d’un état initial (choisi de manière aléatoire) et détecte les attracteurs en calculant ses successeurs et ses prédécesseurs. Cela fonctionne bien pour les petits BN, mais devient inefficace pour les BN de grande taille.

En général, l’efficacité et la capacité du passage à l’échelle des approches d’identification des attracteurs sont encore améliorées grâce à l’intégration de deux techniques. La première est basée sur les diagrammes de décision binaires (Binary Decision Diagrams, BDD), une structure de données compacte pour représenter les fonctions booléennes (la même approche pour la vérification d’atteignabilité). Dans un travail récent (Zhao, Liu, Wang & Qian, 2014), les algorithmes sont basés sur la structure de données BDD réduite (ROBDD), ce qui accélère le temps de calcul de la détection des attracteurs. Ces solutions basées

38 2.4 — L’apprentissage des RRB à partir des données expérimentales

Dans le document Étude de la dynamique des réseaux biologiques : apprentissage des modèles, intégration des données temporelles et analyse formelle des propriétés dynamiques (Page 34-39)