• Aucun résultat trouvé

8. Approfondissements

8.1.4. Comparaison sur la base du temps d’exécution

Pour cette seconde comparaison, le même protocole de test est utilisé, mais le nombre d’itérations est choisi de façon à ce que le temps d’exécution de chaque méthode soit similaire :

— 5 000 itérations pour la méthode mirror (160 secondes) ;

— 1 500 000 itérations pour les méthodes rda et cda (environ 162 se- condes).

La figure 8.3 montre que, à temps d’exécution égal, les différences entre la méthode mirror et les deux autres méthodes sont moins marquées en termes de plages de valeurs échantillonnées. Cependant, les plages de va- leurs explorées par les méthodes rda et cda restent toujours moins impor- tantes en comparaison de celles explorées par la méthode mirror.

Un point important visible sur cette figure est le fait que la médiane estimée pour chaque flux est différente selon la méthode considérée. La figure 8.4

montre que cette différence de médiane est due au fait que les chaînes de Markov générées par les méthodes rda et cda n’ont pas convergé après les 1 500 000 itérations. Cela indique que le nombre d’itérations pour ces deux méthodes n’est pas suffisant pour estimer les distributions des valeurs de flux.

8.1. Choix de la méthode d’échantillonnage

Figure 8.3. – Comparaison des distributions de valeurs obtenues à partir des différentes méthodes d’échantillonnage lorsque le temps d’exécution est d’environ 160 secondes. Les distributions des valeurs sont calculées à partir de 5 000 points pour la méthode mirror, et de 1 500 000 pour les méthodes rda et cda. La valeur des flux est exprimée en mmol/g biom./h. Pour chaque flux, les droites horizontales en pointillé, en haut et en bas de chaque graphique, correspondent respectivement aux valeurs maximales et minimales atteignables. La droite horizontale en tiret, dans chaque graphique, représente la valeur issue de la solution centrale.

Figure 8.4. – Évolution des quantiles de la distribution du flux cs en fonction du nombre d’itérations, selon la méthode. La valeur du flux est exprimée en mmol/g biom./h. Le trait plein représente l’évolution de la médiane en fonction du nombre n d’itérations prises en compte (à compter de la première itération). Les traits pointillés inférieur et supérieur représentent respectivement la valeur des quantiles à 5% et 95%.

8. Approfondissements

Dans l’analyse précédente (comparaison à nombre d’itérations égal), les valeurs élevées du paramètre jmp de la méthode mirror représentaient potentiellement un désavantage, puisque la méthode nécessite un temps de calcul beaucoup plus long que les deux autres pour générer les 5 000 points. Dans les faits, le parcours d’une grande distance entre chaque point permet à la méthode mirror d’échantillonner des valeurs (chaque point représente une solution, chaque solution représente une valeur pour chaque flux) qui sont peu corrélées d’une itération à la suivante. Autrement dit, la position dans l’espace des solutions du point échantillonné à une itération i n’a que peu d’influence sur la position du point échantillonné à l’itération i + 1. La dépendance entre les itérations peut être estimée en calculant l’autocorré- lation des valeurs de chaque variable (c’est-à-dire de chaque flux), selon la formule ck = Pn−k i=1(xi− ¯x)(xi+k− ¯x) Pn i=1(xi− ¯x)2 où

— xi et xi+ k représentent respectivement les valeurs de la variable aux

itérations i et i + k ;

— n est la longueur totale de la série de valeur ;

— et ck donne la corrélation entre les valeurs distantes de k itérations.

La figure8.5 montre l’autocorrélation du flux cs, calculée avec k variant de

1 à 1 000, pour la chaîne générée par chaque méthode. On peut facilement voir que la corrélation entre les itérations devient rapidement proche de 0 pour la méthode mirror, tandis que les méthodes rda et cda présentent toujours une très forte corrélation entre les valeurs échantillonnées à 1 000 itérations de distance. Cette forte corrélation explique la lente convergence de ces deux méthodes : la chaîne de Markov visite lentement (en terme d’ité- rations) l’espace des solutions. Ce phénomène est illustré par des « traces » qui fluctuent peu en comparaison de celles générées par la méthode mirror (figure 8.6).

La taille effective d’un échantillon (effective size sample) est une autre me- sure de la qualité de l’échantillonnage. De manière simplifiée, cette mesure est obtenue en relativisant le nombre de valeurs échantillonnées par rap- port à leur variabilité. Elle exprime le nombre de points échantillonnés que l’on peut considérer comme indépendants, et elle est donc liée au niveau de corrélation entre les itérations.

8.1. Choix de la méthode d’échantillonnage

Figure 8.5. – Autocorrélation des valeurs échantillonnées pour le flux cs, selon la méthode d’échantillonnage. La corrélation est donnée en ordonnée, le décalage k est donné en abscisse.

Figure 8.6. – Trace des valeurs échantillonnées pour le flux cs au fil des itérations et selon la méthode d’échantillonnage. L’axe des ordonnées indique la valeur du flux (en mmol/g biom./h), l’axe des abscisses indique le numéro de l’itération dans la chaîne de Markov. Les droites horizontales en pointillé en haut et en bas de chaque graphique correspondent respectivement aux valeurs maximales et minimales atteignables.

8. Approfondissements

La taille effective obtenue pour le flux cs est drastiquement différente entre la méthode mirror (2 152 valeurs indépendantes) et les méthodes rda et cda (27 et 12, respectivement). Les tailles effectives ont été calculées avec le package R "coda" [Plummer 2006].

Si l’on revient à la figure 8.4 (p. 169), la chaîne de Markov générée par la méthode mirror semble avoir convergé. Ceci a été confirmé en générant 5 couples de chaînes de Markov avec la méthode mirror, puis en testant deux à deux la similarité des distributions des valeurs échantillonnées de chaque flux avec un test de Kolmogorov et Smirnov (test non paramétrique). La grande majorité des flux ne présente pas de différence significative (p-value > 0.05). Les seuls flux qui présentent une différence très significative (p- value < 0.01) sont les couples de flux pfka - fbp, qui forment une boucle interne au niveau de la glycolyse, et les flux ppc - ppck, qui forment une boucle interne au niveau des voies « plérotiques »1. Comme ces flux forment

des boucles internes — le produit de l’un des flux est le substrat de l’autre et vice-versa — ils ne sont pas bornés par les contraintes variables exercées sur les flux e/s. De fait, ces flux sont peu informatifs pour caractériser la dynamique du métabolisme. L’augmentation du nombre d’itérations n’a pas d’impact sur les paramètres de distribution des autres flux : cela permet « uniquement » d’obtenir une résolution plus précise des distributions. Finissons en remarquant que, en dehors du fait que les méthodes rda et cda soient peu performantes en comparaison de la méthode mirror, le nombre important de points générés représente un frein potentiel quant à leurs utili- sations. En effet, les solutions générées par ces deux méthodes représentent chacune une matrice de 1 500 000 lignes (nombre d’itérations) et de 60 colonnes (nombre de variables), ce qui nécessite pour chaque matrice une allocation mémoire de 687 méga-octets dans le logiciel R.