• Aucun résultat trouvé

Statistiques descriptives et distributions des clonotypes

MODELISATION DE LA DIVERSITE DU REPERTOIRE TR

1) Statistiques descriptives et distributions des clonotypes

Afin d’assurer la pertinence des résultats de comparaison, certaines précautions doivent être prises notamment quant à la taille des jeux de données comparés ou la représentativité de la profondeur de séquençage.

Pour répondre à ces préoccupations, une première étape consiste à comparer les statistiques descriptives de tous les échantillons d’intérêt en plus de la comparaison des distributions d’occurrence.

La première étape consiste à comparer les nombres de séquences. À titre d’exemple, on peut voir que sur le jeu de données TRiPoD_06 (Figure 25), le nombre moyen de séquences TR est de l’ordre 106 pour chaque groupe de jeux de données. Dans un second temps, il est également important de s’assurer que les nombres observés de clonotypes, gènes TRBV et

gènes TRBJ sont homogènes au travers d’échantillons de même nature, garantissant l’absence

de biais technique. Dans le jeu TRiPoD_06, ces quatre paramètres sont plus variables que le nombre de TR, ce qui peut s’expliquer par la nature différente des échantillons.

Figure 25 : Statistiques descriptives des 28 jeux de données TriPoD_06 – Les nombres de séquences

TR (violet), clonotypes (rose), gènes TRBV (bleu), gènes TRBJ (jaune) et combinaisons TRBVBJ (vert) sont comptés au sein de chaque jeu de données. Les moyennes et écart-types de ces cinq paramètres sont calculés à travers les quatre jeux de données (populations lymphocytaires) par organe : rate (SPL), ganglions brachiaux (BLN), inguinaux (ILN), para-aortiques (PALN), pancréatiques (PLN), rénaux(RLN) et mésentériques (MLN).

Les compositions des jeux de données peuvent être comparées globalement sur la base des métriques : la clonalité (Clonality), le D50, l’indice de Piélou, l’indice quadratique de Simpson et l’indice de Hill (Figure 26). Alors que les deux premières sont sensibles à la taille des jeux de données, les trois autres permettent une évaluation non biaisée de la diversité globale. L’application de ces indices sur l’ensemble des jeux de données permet d’évaluer la variabilité entre les répertoires comparés. À titre d’exemple, sur le jeu de donnée TRiPoD_06 caractérisé par une diversité d’organes et de populations cellulaires, la clonalité (Clonality) est peu élevée et variable au sein des deux séries d’échantillons Tregs suggérant une homogénéité des jeux de données alors que les échantillons Teff montrent une grande variabilité notamment à cause de l’échantillon ILN-Teff. La proportion de clonotypes nécessaire pour constituer 50% du répertoire total (D50) est plus grande pour les répertoires Teff et CD8 ce qui nous indique une plus grande diversité de ces répertoires qui sont équivalemment représentés comme signalé par l’indice de Piélou proche de 1 et peu variable pour ces populations. A contrario, cet indice est très variable entre les organes pour les populations Tregs notamment à cause de valeurs beaucoup plus faibles que les autres pour les échantillons BLN-amTregs et MLN-nTregs, ce qui reflète un biais de distribution de ces répertoires qui semblent dominés par des clonotypes particulièrement abondants. De plus, alors que l’indice de Simpson est homogène entre les organes et de valeurs similaires entre les populations, l’indice de Hill nous indique que la diversité globale des répertoires amTregs, nTregs et CD8 est homogène entre les

organes bien que de valeurs soient différentes. En revanche, l’échantillon SPL-Teff fait baisser la valeur médiane de l’indice de Hill des répertoires Teff. Ces métriques permettent donc de résumer la composition de ces 28 répertoires et de mettre en évidence d’éventuelles disparités. Dans le cas de cet exemple, l’absence de répétitions des observations ne nous permet pas de conclure sur le sens biologique des variabilités observées. Cependant, dans le cas de comparaisons de plusieurs groupes biologiques, chacun composé de plusieurs échantillons, ces métriques permettent d’évaluer l’homogénéité intra-groupe et d’identifier des disparités inter-groupes.

Figure 26 : Distributions des métriques descriptives à travers les 28 jeux de données TriPoD_06 –

Cinq métriques descriptives sont calculées pour chacun des 28 échantillons : Clonality, D50, l’indice de Piélou, l’indice quadratique de Simpson et l’indice de Hill. Ces indices varient de 0 à 1. La distribution de leur valeur est représentée par population cellulaire (vert : Teff, orange : CD8, cyan : nTregs et bleu : amTregs) à travers les organes.

Pour caractériser les variabilités observées, les clonotypes sont ordonnés de manière décroissante au sein de chaque jeu de données en fonction de leur abondance afin de comparer la distribution clonotypique de chaque répertoire (Figure 27). Les fréquences des clonotypes Teff et CD8 (respectivement en vert et orange), à l’exception de celle de SPL-Teff dont l’indice de Hill était déjà différent de celui des autres, sont équivalentes et faibles traduisant des répertoires TRB très divers (polyclonaux). Les répertoires Tregs sont, de manière générale, caractérisés par la présence d’un nombre variable de clonotypes prédominants alors que BLN-amTregs et MLN-nTregs (pour lesquels l’indice de Piélou était particulièrement faible) se détachent des autres échantillons du fait de la présence de

clonotypes fortement prédominants au sein de leurs répertoires (plus de 20 000 séquences TR pour leurs clonotypes majoritaires respectifs contre quelques centaines pour un répertoire polyclonal de type Teff).

Figure 27 : Distributions des clonotypes par jeu de données – Les clonotypes de chaque répertoire

sont ordonnés de manière décroissante en fonction de leur fréquence d’observation. Les courbes sont colorées en fonction de la population cellulaire : Teff en vert, CD8 en orange, nTregs en cyan et amTregs en bleu.

L’usage de courbes de raréfaction, courant en Écologie, s’applique parfaitement aux données de répertoire pour évaluer l’effet de l’échantillonnage (ici la profondeur de séquençage) sur l’évaluation de la diversité. Ce type d’analyse permet d’identifier les structures des populations étudiées mais aussi, le cas échéant, d’identifier à quelle profondeur sous-échantillonner les jeux de données pour une comparaison homogène de leur diversité.

Figure 28 : Courbes de raréfaction des 28 échantillons TriPoD_06 – Chaque courbe est construite

par une série de sous-échantillonnages (avec remise) de taille croissante (pas de 10 000 séquences TR) d’un même jeu de données. À chaque itération, le nombre de clonotypes observés est reporté sur la courbe. Les courbes sont colorées en fonction de la population cellulaire correspondante : Teff en vert, CD8 en orange, nTregs en cyan et amTregs en bleu.

Les courbes de raréfaction présentées en Figure 28 se caractérisent par deux voire trois phases : une première phase de croissance exponentielle plus ou moins forte et/ou étendue, indiquant l’apparition de nouvelles espèces à chaque nouvelle séquence ; une phase de ralentissement de l’enrichissement en nouvelles espèces ; et parfois un plateau évoquant une saturation.

On distingue ici trois groupes de courbes : les courbes caractérisées par une faible croissance et un aplanissement rapide, suggérant une population peu diverse dont la totalité des clonotypes en présence est observée, en l’occurrence ici les répertoires Tregs ; les courbes à croissance très forte et absence de plateau suggérant des répertoires très divers et peut-être sous-échantillonnés lors du séquençage ; enfin les courbes intermédiaires augmentant plus ou moins rapidement lors de leur phase exponentielle et atteignant un plateau.

Chaque échantillon étant de nature biologique différente, il est difficile de juger de la « normalité » de ces profils. Cependant, ces résultats sont cohérents avec la nature des populations étudiées.