Estimation de la diversité du répertoire (Prague)

Le laboratoire d’hématologie de Prague (Univerzita Karlova), dans une étude rétrospective sur 210 échantillons de 76 patients atteints de leucémie aiguë (LAL), a utilisé Vidjil pour quantifier la diversité du répertoire [18]. Lors d’un diagnostic, le répertoire est très peu divers, même en dehors du clone principal. Même en cas de réussite des traitements, la reconstruction du répertoire prend du temps, au minimum plusieurs semaines.

En collaboration avec Michaela Kotrova, nous avons ainsi quantifié la diversité par la valeur ⇢c/r, le rapport entre le nombre de clones rendus par Vidjil et le nombre de reads analysées. Dans une situation sans erreurs de PCR ou de séquençage, cette valeur vaut entre 1 (chaque read provient d’un clone diﬀérent) et quasiment 0 (1/n, un seul clone rassemblant toutes les reads). Les erreurs de PCR ou de séquençage font baisser artificiellement cette valeur, et, dans ce cas, la taille de la fenêtre a aussi une influence. On peut supposer ces erreurs constantes pour un protocole donné avec un séquenceur donné. Notons que ⇢c/r permet de diﬀérencier des situations très diverses à même taux de MRD. Par exemple, le clone majoritaire peut être à 1%, mais un ⇢c/r faible signifiera que les 99% restants sont tout de même concentrés sur quelques clones, alors qu’un ⇢c/r élevé, idéalement proche de 1, indiquera qu’un répertoire diversifié s’est reconstruit derrière le clone à 1%.

Le but est de stratifier les patients le mieux possible, afin de leur proposer un traitement adapté à leur situation (voir section2.2). La valeur ⇢c/rau jour 35 après le diagnostic apparaît ainsi comme un très bon moyen de stratification (Fig. 5.3) [18]. Ces résultats demandent à être confirmés, mais témoignent déjà d’un changement radical de pensée : de telles mesures sur l’ensemble de la population étaient complètement impossibles avec les techniques habituelles. Le Rep-Seq ne permet donc pas seulement de mieux mesurer certaines valeurs connues, mais aussi de proposer de nouvelles métriques. Trouver des métriques encore plus pertinentes pour décrire, de manière agrégée, la population de lymphocytes est une piste de recherche intéressante (voir section6.1).

Figure 5.3 – Stratification de patients atteints de LAL en fonction de la diversité au jour 35 après le diagnostic évaluée par ⇢c/r [18]. Les patients ayant un ⇢c/r supérieur à 0.18 ont un répertoire immunologique mieux reconstitué et une meilleure évolution de leur maladie (88 ± 5 % de survie à 5 ans sans rechute).

6

Perspectives

Vidjil est un logiciel en constante évolution. Avec Mikaël Salson et Tatiana Rocher, je continue le travail algorithmique. Nous avons toujours des défis théoriques à résoudre qui amélioreraient l’efficacité et la sensibilité de notre programme (section 6.1). Nous désirons aussi répondre de mieux en mieux aux besoins de nos utilisateurs. Nous souhaitons faire fructifier les compétences en hématologie et immunologie acquises depuis 4 ans et développer notre communauté d’utilisateurs et nos collaborations. Cela passe par la poursuite de nos efforts de développement et de diffusion, en particulier par le travail de Ryan Herbert, Marc Duez et Florian Thonier (section6.2).

6.1 Algorithmique des recombinaisons V(D)J

Comparaison des méthodes et des logiciels. De nombreuses méthodes et logiciels pour les études Rep-Seq ont été publiés en 2014 et 2015 (voir section 3.2). Pour l’instant, nous nous sommes d’abord comparés aux outils d’IMGT, vus comme la référence. Nous comptons réaliser une évaluation plus complète de ces méthodes et logiciels, en essayant de distinguer les principes algorithmiques et les implémentations, que cela soit sur la qualité des résultats ou sur les temps d’exécution.

Analyse haut-débit plus complète. Nous souhaitons pouvoir analyser plus finement certains aspects des recombinaisons. C’est d’abord le cas des CDR3. Si nous ne prétendons pas faire une analyse aussi complète que les outils d’IMGT (auquel nous nous lions, voir ci-dessous), quelques informations clés (longueur et fonctionnalité) pourraient tout de même être analysées par Vid- jil/C++. Nous souhaitons aussi proposer des statistiques plus détaillées sur le répertoire, et proposer de nouvelles mesures de diversité, au delà du ⇢c/r déjà utilisé par Prague (section5.4). Nous avons déjà implémenté le calcul d’indices de diversité (Shannon, Simpson) utilisés dans d’autres logiciels de Rep-Seq. Nous cherchons à définir et calculer d’autres métriques globales décrivant la richesse du répertoire immunologique, par exemple concernant des statistiques sur les nucléo- tides insérés ou supprimés ou le taux de mutations hypersomatiques, utile au suivi des leucémies chroniques (LLC).

Certaines de ces informations plus fines peuvent être calculées dans la phase 2, sur chaque clone. Cependant, nous aimerions aussi pouvoir remonter certaines de ces analyses dans la phase 1, pour avoir l’information au niveau de toutes les reads – et pas seulement pour les 100 ou 1000 premiers clones analysés. En particulier, les nouvelles mesures de diversité telles que ⇢c/r devraient pouvoir s’appuyer sur une analyse aussi complète que possible des « petits » clones. Notre défi est donc d’étendre les analyses sur chaque read, tout en conservant l’eﬃcacité de Vidjil, c’est-à-dire en maintenant un traitement globalement linéaire sur chaque séquence.

Analyse optimisée de données multi-locus. Mikaël Salson et moi travaillons sur deux points liés au cœur de l’heuristique :

40 6. Perspectives

— Analyse simultanée de plusieurs locus. Le traitement de p locus se fait en temps O(pkn), en itérant l’extraction de fenêtre pour chaque locus. Cependant, dans les O(kn) opérations de l’heuristique, la première étape pour obtenir l’aﬀection des k-mots est un goulot d’étran- glement car elle demande O(kn) opérations et surtout O(n) accès mémoire a priori non contigus (Fig. 4.1). Nous sommes en train de transformer cette étape pour la rendre en temps O(n) pour tous les locus par l’utilisation d’un automate dérivé de l’automate d’Aho- Corasick [40]. À cette occasion, nous souhaitons pouvoir intégrer des k-mots avec diﬀérentes valeurs de k dans le même index, pour reconnaître au mieux les zones V et J, ce qui permettra une meilleure sensibilité sur certains locus.

— Optimisation semi-automatique des paramètres de graines. Les k-mots sont extraits suivant des graines espacées [111]. Nous avions fait « manuellement » le choix de k et des graines pour les locus TR et IgH dans notre première étude [12]. Maintenant que nous traitons de nombreuses recombinaisons (14 locus ou pseudo-locus dans la version 2016.02), nous souhaitons mettre en place une méthode semi-automatique pour optimiser ces paramètres, en prenant en compte la distance entre gènes de référence et éventuellement en spécifiant certains k-mots interdits car trop ambigus.

Indexation, compression et mesure de populations avec des recombinaisons V(D)J. Vidjil se contente d’un traitement globalement linéaire sur chaque read. Peut-on aller encore plus loin et considérer directement l’ensemble des reads, et faire des requêtes en temps presque constant sur une structure qui rassemblerait toutes les reads ?

Tatiana Rocher, dans sa thèse débutée fin 2014 que je co-encadre avec Mikaël Salson et Jean- Stéphane Varré, essaie de proposer une structure d’indexation spécifique aux recombinaisons V(D)J. Serait-il possible d’indexer les reads, ou au moins les séquences consensus des clones, pour per- mettre de répondre rapidement à des requêtes statistiques (comme les gènes V, D, J utilisés, ou les métriques globales telles que ⇢c/r) ou de comparaisons (entre plusieurs échantillons d’un même pa- tient voire entre patients diﬀérents) ? Une telle indexation permettrait de répondre à des questions hématologiques et immunologiques, en particulier sur la comparaison et l’évolution de répertoires. Tatiana Rocher s’inspire de structures et méthodes existantes : LZ-77 et LZ-78 [44,45], arbres et tables de suﬃxes, transformée de Burrows-Wheeler [109]. Ses travaux intéressent aussi le consor- tium EuroClonality-NGS (voir ci-dessous) qui souhaite disposer d’une base de données des clones : comment stocker l’ensemble, ou au moins, les 1000 clones les plus abondants de tous les patients traités dans un grand nombre de centres, et pouvoir faire des requêtes statistiques ou comparatives ? Plus généralement, Mikaël Salson, dans son projet de recherche, s’intéresse au lien entre compression et indexation. Comment compresser au mieux des données de séquençage tout en les indexant ? Mikaël est en contact avec les équipes Genome-Scale algorithmics (université de Hel- sinki) et Reinert lab (université libre de Berlin). Il souhaite visiter début 2017 ces équipes pour collaborer sur la détection de recombinaisons inconnues et sur celle de familles de clones. À terme, nous souhaiterions pouvoir retracer l’évolution des populations lymphocytaires au cours du temps, et proposer des algorithmes comme des métriques globales permettant d’estimer cette évolution.

Dans le document Compter les globules blancs, analyser les partitions (Page 39-41)