6.2 Limitations de la solution proposée

Une première limitation qui nous est apparue pendant ce projet de recherche est la difficulté de trouver des applications distribuées prêtes à être instrumentées. Il fallait notamment trou- ver une application suffisamment complexe pour que l’analyse proposée présente un intérêt. Parmi les potentiels candidats, comme Apache Spark ou encore Elasticsearch, la plupart n’uti- lisent pas de librairies standardisées et en source ouverte pour la communication entre services ou encore la gestion des tâches asynchrones. Cela enlève tout l’intérêt des contributions de la communauté OpenTracing, parmi lesquelles on trouve par exemple une instrumentation de la librairie gRPC d’appel de procédure à distance. Il faut cependant s’attendre à ce qu’avec l’adoption croissante de telles librairies, il soit plus simple d’instrumenter une application distribuée avec OpenTracing et ainsi de pouvoir utiliser notre solution.

Une seconde limitation réside dans la difficulté à appliquer notre solution pour cibler des applications s’exécutant dans des conteneurs Linux. C’est un cas de plus en plus fréquent pour des applications distribuées, mais le traceur LTTng ne permet pas aisément de collecter en même temps, et de manière utilisable pour les analyses, une trace noyau sur la machine, et une trace dans l’espace utilisateur pour un conteneur. LTTng est cependant en constant développement, et le support des conteneurs devrait être meilleur dans la prochaine version du traceur.

Enfin, les résultats présentés dans l’article montrent un surcoût assez important de notre solution, lorsqu’il s’agit de collecter les traces pour une application traitant un débit élevé de requêtes. La seule solution efficace pour diminuer le surcoût est de diminuer fortement le pour- centage de requêtes tracées par Jaeger ; c’est d’ailleurs une situation tout à fait acceptable pour une application en production, qui va malgré l’échantillonnage générer suffisamment de traces intéressantes. En revanche, notre analyse nécessite d’avoir accès non seulement aux

événements de la requête ciblée, mais aussi à ceux correspondant à toutes les requêtes concur- rentes. Le cas d’utilisation analysé dans l’article a donc nécessité de collecter les événements correspondant à toutes les requêtes. Afin de concilier nos analyses avec un échantillonnage plus faible des requêtes – et donc un surcoût limité –, il faudrait développer des politiques d’échantillonnage capables de tracer un ensemble de requêtes concurrentes, plutôt que des requêtes prises individuellement.

6.3 Améliorations futures

Ce projet de recherche ouvre des perspectives d’amélioration et des pistes de recherche inté- ressantes.

Une première piste à explorer est la meilleure intégration de notre solution avec l’écosystème des outils souvent utilisés pour déboguer des applications réparties : les traceurs distribués, les outils de déploiement et les logiciels de monitorage. L’intérêt est de proposer une archi- tecture permettant aux outils de fonctionner en synergie, avec par exemple un support accru par notre solution des politiques d’échantillonnage du traceur distribué, ou encore le déclen- chement automatique de prise et d’analyse de traces noyau lorsqu’une anomalie est détectée. Il serait intéressant d’implémenter l’automatisation du déclenchement de la prise de trace et la réception des résultats d’analyse dans des interfaces de monitorage populaires comme Kibana.

La seconde piste à explorer concerne plus directement la qualité des événements collectés ainsi que leur analyse. Nous avons par exemple souligné le manque d’événements associés à la gestion des tâches asynchrones. Il est important, pour assurer la fiabilité des analyses proposées, d’instrumenter des événements tels que l’activation, la mise en file d’attente, le traitement ou la migration entre fils d’exécution d’une requête.


