• Aucun résultat trouvé

5. Formalismes pour la modélisation simultanée

5.4. Modèles à base de contraintes

6.1.4. Échantillonnage de l’espace des solutions :

L’échantillonnage de l’espace des solutions consiste à choisir au hasard un ensemble de points de l’espace des solutions. Le sous-ensemble — l’échan- tillon — de solutions ainsi obtenu permet ensuite d’analyser différentes caractéristiques du système [Palsson 2006, Schellenberger 2009]. Cette ap- proche permet d’étudier un mbc de manière non biaisée, puisqu’aucune hypothèse sur le fonctionnement du réseau n’est nécessaire.

Les algorithmes les plus utilisés afin de réaliser l’échantillonnage d’un espace des solutions sont ceux basés sur la méthode de Monte-Carlo par chaînes de Markov (Monte Carlo markov chain ; mcmc). De manière générale, l’exé- cution de l’algorithme consiste à déterminer un point initial solution du système, puis à déplacer itérativement ce point au sein de l’espace des solu- tions. À chaque itération, la direction et la distance parcourue par le point sont déterminées selon des règles probabilistes.

Dans l’algorithme « mirror », développé par Van den Meersche et coll. [Van den Meersche 2009], à chaque itération, la distance parcourue sur chaque axe de l’espace des solutions est tirée au sein d’une loi normale de moyenne 0 et d’écart-type fixé. Si le mouvement du point amène celui-ci en dehors de l’espace des solutions, autrement dit si le mouvement du point implique d’enfreindre l’une des contraintes d’inégalité, alors la contrainte est utilisée comme un plan de réflexion (à la façon d’un « miroir ») : le mouvement du point est réfléchi par le plan, et le trajet est poursuivi à l’intérieur de l’espace des solutions (figure 6.7). De cette manière, chaque point généré est une solution valable du mbc.

Le fait de disposer d’une population de cartes de flux « solutions » donne accès à de nombreuses analyses. On peut notamment s’intéresser à la dis- tribution statistique des valeurs de flux. Contrairement à la méthode fva où seules les valeurs minimales et maximales de chaque flux sont connues, l’échantillonnage de l’espace des solutions fournit une population de va- leurs. Cela permet alors d’estimer la fonction de densité de probabilité pour chaque flux du système (figure 6.8). Les fonctions de densité de probabi- lité ont ainsi été utilisées pour estimer la taille et la forme de l’espace des solutions [Wiback 2004] ou pour étudier l’impact de différentes contraintes génétiques sur les capacités du système [Price 2004b].

6.1. Gestion de la multitude de solutions

Figure 6.7. – Principe de l’algorithme « mirror » pour l’échantillonnage de l’espace des solutions. Les points de couleur rouge représentent les solutions échantillonnées, les flèches indiquent le mouvement appliqué entre chaque point.

Figure 6.8. – Fonctions de densité des probabilités estimées à partir de l’échantillon- nage de l’espace des solutions. Dans le graphique central, les points de couleur rouge représentent les solutions échantillonnées. Cette population permet d’estimer la ré- partition des valeurs de chaque flux. Le graphique de gauche présente la distribution des valeurs pour le flux v2 sous la forme d’un histogramme (en noir) et d’une fonc-

tion de densité de probabilités (en rouge). Le graphique du bas présente les mêmes informations pour le flux v1.

6. Gestion de la multitude de solutions et de la dynamique dans les MBC

On peut aussi exploiter les fonctions de densité de probabilité afin de choisir, pour chaque flux, une valeur qui sera considérée comme représentative de l’état du système.

Rappelons ici que, pour un flux donné vi, la fonction de densité de proba-

bilité est estimée à partir de la distribution des solutions le long de l’axe vi

de l’espace des solutions. Sous l’hypothèse que l’échantillonnage est homo- gène, la probabilité associée à vi = a reflète alors la proportion de l’espace

des solutions qui est située aux coordonnées a sur l’axe vi de l’espace des

solutions. Par exemple, dans la figure6.8, la valeur v2 = 5 est plus probable

que v2 = 10 parce que le « sous-espace » des solutions est plus grand quand

v2 = 5 (toutes les valeurs de v1 comprise entre 0 et 5 sont solutions) que

quand v2 = 10 (la seule valeur solution de v1 est 0). D’un point de vue

biologique, l’espace des solutions représente l’ensemble des comportements possibles du réseau. Si ces comportements sont tous équiprobables (en ré- férence à l’échantillonnage supposé homogène), alors la probabilité associée à une valeur de flux représente la chance que l’on aurait d’observer cette vitesse par hasard.

Le mode, la médiane et la moyenne sont trois descripteurs qui peuvent être utilisés comme valeur représentative d’un flux. Le mode d’une distribution de valeur vi représentera la valeur du flux la plus probable. Dans [Thiele

2005], les modes des distributions sont comparés à des mesures in vivo, et ils semblent être de bons estimateurs pour certaines conditions expérimen- tales. Cependant, le mode d’une distribution est relativement sensible aux fluctuations des valeurs. Plus robuste, la médiane d’un flux représentera la valeur qui coupera l’espace des solutions, selon l’axe vi, en deux parts

égales. Notons ici qu’une carte de flux « reconstruite » à partir des modes ou des médianes ne respecte pas nécessairement l’hypothèse d’état station- naire. Pour cette raison, dans [D’Huys 2012], le mode des distributions est utilisé uniquement comme critère pour choisir une fonction objectif, puis les auteurs étudient le fonctionnement du réseau à partir de la solution fba. van Oevelen et coll. préfèrent utiliser la valeur moyenne comme estimateur : du fait de ses propriétés algébriques, une carte de flux reconstruite à partir des valeurs moyennes garantit l’état stationnaire du système [van Oevelen 2010]. Cependant, des trois estimateurs abordés, la moyenne est celui le plus sensible aux fluctuations des données. Ajoutons que le fait de disposer de distributions de valeurs permet aisément de calculer des intervalles de confiance autour de la valeur « représentative » choisie.

6.1. Gestion de la multitude de solutions

Une autre manière d’exploiter une population de solutions est de calculer la corrélation entre les valeurs de chaque paire de flux [Price 2004b] afin d’identifier des ensembles de réactions corrélées (correleted reaction sets ; « Co-Sets »). Le calcul des Co-Sets permet, par exemple, de déterminer des « modules métaboliques fonctionnels » [Thiele 2005]. Les Co-Sets par- faitement corrélés (R2 = 1) peuvent être identifiés par une analyse de la

topologie du réseau, tandis l’échantillonnage permet en plus d’identifier des Co-Sets partiellement corrélés [Xi 2011].

Finissons en abordant quelques limites de l’échantillonnage de l’espace des solutions. Tout d’abord, il est nécessaire d’échantillonner un grand nombre de points afin d’obtenir un échantillon représentatif. En conséquence, le temps de calcul nécessaire à l’échantillonnage peut être très important pour un réseau métabolique de grande taille, notamment pour les modèles « cel- lules complètes ». Une manière d’évaluer la qualité de l’échantillonnage est de comparer l’intervalle des valeurs de chaque flux avec les valeurs calculées avec la méthode fva [D’Huys 2012]. Une autre approche consiste à réali- ser plusieurs échantillonnages indépendants, puis de comparer la similitude entre les fonctions de densité de probabilité estimées [Thiele 2005].

6. Gestion de la multitude de solutions et de la dynamique dans les MBC

6.1.5. Analyse d’un système surdéterminé : méthode