III.3 D EVELOPPEMENT METHODOLOGIQUE
III.3.1 Méthode de regroupement par co-abondance
Ici nous proposons deux méthodes de regroupement par co-abondance du signal des gènes parmi une
cohorte de plus d’une centaine individus. Pour cela, notre hypothèse initiale considère que les gènes
provenant d’un même génome devraient avoir une abondance proche dans chacun des échantillons
étudiés.
Ces méthodes utilisent une matrice de comptage des gènes, correspondant au nombre de courtes
séquences alignées sur chacun des gènes du catalogue pour chaque échantillon métagénomique. Les
signaux de ces matrices sont normalisés, par une méthode proche de la méthode RPKM (Read per
Kilobase per Million mapped reads) [Dillies et al, 2012], pour que le signal soit comparable entre les
gènes et entre les différents individus. La figure 16 illustre l’allure de la matrice avant et après
normalisation :
Figure 16: Exemple de matrice de comptage du catalogue de gènes MetaHIT.
Les 10 premiers gènes des 3.9 millions du catalogue MetaHIT sur les 4 premiers individus sont
présentés, avant et après normalisation.
La normalisation est effectuée en deux étapes : La première étape consiste à compenser la relation
entre la longueur du gène et le nombre de séquence y étant assigné. Le nombre de séquence attribué à
un gène est ainsi divisé par la taille du gène, car la probabilité d’assignation d’une courte séquence
vers un gène est inversement proportionnelle à la taille du gène visé. La deuxième consiste à
compenser la relation entre le nombre de courte séquence alignée sur les gènes d’un individu et le
nombre de courte séquence généré par le séquenceur, aussi appelé profondeur de séquençage. Plus la
profondeur de séquençage est élevée, plus la probabilité de détecter des gènes rares augmente. Nous
divisons donc la normalisation précédente par le nombre de courte séquence alignée sur tous les gènes
d’un individu. Nous générons ainsi une matrice de fréquence des gènes, où la somme de chaque
fréquence d’un échantillon est égale à 1.
Nous présentons ici deux méthodes de regroupement, une dite de regroupement hiérarchique, et une
autre dérivée des méthodes de regroupement Canopy [McCallumet al, 2000].
Thèse Mathieu Almeida - Caractérisation de flores microbiennes… 2013
60
III.3.1.1 Première méthode de regroupement : Regroupement hierarchique, metaprof et
post_metaprof
Pour effectuer le regroupement de la totalité de la matrice d’abondance des 3,9 millions de gènes au
sein de 396 échantillons, il faut une méthode rapide, exhaustive, non supervisée par des références
connues et sans à priori du nombre de clusters initial.
Une première méthode de regroupement hiérarchique a été implémentée selon ces critères. Pour cela
nous avons créé une chaîne de traitement de regroupement en deux grandes étapes, dont la première
consiste à calculer les distances entre tous les gènes, puis de créer des clusters de gènes, comme
illustré dans la figure 17 :
Figure 17 : Chaîne de traitement de regroupement des 3,9 millions de gènes du catalogue MetaHIT
par la méthode de regroupement hiérachique.
Metaprof permet dans un premier temps d’extraire les gènes corrélés. Post_metaprof regroupe
ensuite les gènes en clusters, visualisés à droites par heatmap des gènes (en lignes) dans les différents
échantillons (en colonne). Les gènes sont colorés par un gradient de couleur étalonné du plus faible
(blanc) au plus fort signal (jaune).
La première étape est gérée par le software metaprof
1. Il prend en entrée une matrice d’abondances
comme présentée précédemment. Il faut ensuite spécifier le type d’algorithme de distance à utiliser :
l’indice de corrélation Pearson ou Spearman. Ensuite, pour ne sauvegarder que les corrélations les
plus informatives et réduire la taille du fichier généré, nous avons également ajouté un seuil de
distance à choisir en entrée (par défaut Spearman rho=0.5). Le résultat est alors sauvegardé dans un
fichier binaire avec la structure : « identifiant gène n, identifiant gène m, force de corrélation
calculé ».
Nous avons décidé d’utiliser l’algorithme de corrélation Spearman, car cet algorithme est adapté aux
données non paramétriques comme notre matrice d’abondance. Nous avons également décidé de ne
garder que les corrélations supérieures ou égales à 0,5. Ce seuil est volontairement bas pour augmenter
la sensibilité dans nos clusters. Le fichier de corrélation résultant est ensuite traité par un programme
de regroupement, appelé post_metaprof, développé au cours de cette thèse.
1
Le programme (metaprof v7.2) a été créé au sein du projet openGPU en collaboration avec Fouad
Boumezbeur, doctorant bioinformaticien de notre équipe et la société privée AS+. Il est codé en langage C et
utilise des bibliothèques CUDA et MPI pour paralléliser le calcul sur plusieurs cartes graphiques nVidia.
Thèse Mathieu Almeida - Caractérisation de flores microbiennes… 2013
61
Le programme post_metaprof a été codé en Delphi6 et utilise un algorithme de regroupement,
structuré en deux parties. La première partie utilise un algorithme hiérarchique de type single
linkage : chaque gène ayant au moins une corrélation supérieure ou égale au seuil sont placés dans le
même cluster. De plus deux clusters connectés par au moins un gène seront fusionnés. En démarrant à
un seuil de corrélation faible, la majorité des gènes vont s’agglomérer en un seul cluster, mais
quelques clusters de petites tailles seront créés. Tous les clusters de moins de 10000 gènes sont
extraits. Enfin, les gènes inclus dans des clusters de moins de 3 gènes sont éliminés. Ensuite, des
itérations sont effectuées pour découper progressivement les clusters restant, en augmentant le seuil de
corrélation par pas croissant de rho=0,001, jusqu’à ce que tous les clusters soient extraits ou que l’on
atteigne le seuil de corrélation maximal rho=1, illustré dans la partie supérieure de la figure 18 :
Figure 18: Schéma des étapes de regroupement dans l’outil post_metaprof.
La première étape consiste à effectuer un regroupement hiérarchique par augmentation croissante du
seuil de regroupement. La seconde étape consiste en une découpe des clusters par méthode DAPC,
permettant de générer des sous-unités appelées unités métagénomiques ou MGU.
Enfin, les clusters extraits ayant un signal de présence dans au moins deux individus et ayant au moins
1000 gènes vont être soumis à l’algorithme de DAPC [Jombart et al, 2010], qui permet d’effectuer une
découpe paramétrique plus fine que dans la première étape (illustré dans la partie basse de la figure
18). Cette méthode utilise une première séparation des gènes en clusters par utilisation d’une Analyse
en Composante Principale (ou ACP), en sélectionnant les échantillons les plus discriminants dans la
séparation des gènes, puis utilise une analyse discriminante (ou DA) pour maximiser les distances
entre les groupes. Comme le nombre de cluster n’est pas connu, nous utilisons la fonction de calcul du
nombre de cluster optimal par partitionnement autour de gènes centraux (ou PAM).
On obtient ainsi des clusters et des sous-clusters que nous appelons unités métagénomiques (ou
MGU), avec une hiérarchie conservée permettant de connaitre les relations entre chaque cluster et
sous-cluster. Le pas d’itération de seuil est volontairement faible dans notre cas pour minimiser les
pertes de gènes (car seuls les clusters de plus de 3 gènes sont conservés). Cependant il est possible de
connaitre à quel pas d’itération de corrélation un gène sera extrait.
Ce regroupement en deux étapes permet d’effectuer dans un premier temps une découpe non
paramétrique, avec un minimum de perte, puis une découpe plus fine par méthode DAPC, plus longue
en temps de traitement mais adaptée à des petits jeux de données de moins de 10000 gènes, pour tester
Thèse Mathieu Almeida - Caractérisation de flores microbiennes… 2013
62
de multiples séparations et choisir celle qui minimise les distance intra-groupe et maximise les
distances inter-groupes.
III.3.1.2 Regroupement par méthode de Canopy
Une deuxième méthode a été conçue par nos partenaires du DTU, dérivée des méthodes de type
Canopy. Cet algorithme permet de regrouper des gènes autour d’un gène graine, en utilisant une
matrice d’abondance telle que celle utilisée dans la première méthode.
Pour résumer, un premier filtre est appliqué pour retirer tous les gènes présents dans moins de 4
individus (soit 1.7M de gènes). Ensuite, une étape de regroupement est effectuée, avec un algorithme
de type single linkage. Cet algorithme sélectionne aléatoirement un gène graine et réunit tous les
gènes ayant une corrélation Pearson supérieure à 0,9 et une corrélation Spearman supérieure à 0,6
avec cette graine dans un même cluster.
Tous les clusters de moins de 3 gènes sont supprimés, et un vecteur médian de signal d’abondance est
généré pour chaque cluster restant. Les vecteurs médians sont comparés entre eux par corrélation
Pearson. Si des vecteurs médians possèdent entre eux une corrélation supérieure à 0,97, les gènes du
cluster les représentants sont alors fusionnés. Ces étapes sont répétées jusqu’à ce que tous les gènes
non clustérisés aient été traités au moins une fois.
L’algorithme a été implémenté en R, et est parallélisé pour disperser le travail sur plusieurs CPU et
effectuer la regroupement de la matrice de 3,9 millions de gènes en moins de 4 heures.
Dans le document
Caractérisation de flores microbiennes intestinale humaine et fromagère par méthode de métagénomique quantative
(Page 57-60)