• Aucun résultat trouvé

III.3 D EVELOPPEMENT METHODOLOGIQUE

III.3.1 Méthode de regroupement par co-abondance

Ici nous proposons deux méthodes de regroupement par co-abondance du signal des gènes parmi une

cohorte de plus d’une centaine individus. Pour cela, notre hypothèse initiale considère que les gènes

provenant d’un même génome devraient avoir une abondance proche dans chacun des échantillons

étudiés.

Ces méthodes utilisent une matrice de comptage des gènes, correspondant au nombre de courtes

séquences alignées sur chacun des gènes du catalogue pour chaque échantillon métagénomique. Les

signaux de ces matrices sont normalisés, par une méthode proche de la méthode RPKM (Read per

Kilobase per Million mapped reads) [Dillies et al, 2012], pour que le signal soit comparable entre les

gènes et entre les différents individus. La figure 16 illustre l’allure de la matrice avant et après

normalisation :

Figure 16: Exemple de matrice de comptage du catalogue de gènes MetaHIT.

Les 10 premiers gènes des 3.9 millions du catalogue MetaHIT sur les 4 premiers individus sont

présentés, avant et après normalisation.

La normalisation est effectuée en deux étapes : La première étape consiste à compenser la relation

entre la longueur du gène et le nombre de séquence y étant assigné. Le nombre de séquence attribué à

un gène est ainsi divisé par la taille du gène, car la probabilité d’assignation d’une courte séquence

vers un gène est inversement proportionnelle à la taille du gène visé. La deuxième consiste à

compenser la relation entre le nombre de courte séquence alignée sur les gènes d’un individu et le

nombre de courte séquence généré par le séquenceur, aussi appelé profondeur de séquençage. Plus la

profondeur de séquençage est élevée, plus la probabilité de détecter des gènes rares augmente. Nous

divisons donc la normalisation précédente par le nombre de courte séquence alignée sur tous les gènes

d’un individu. Nous générons ainsi une matrice de fréquence des gènes, où la somme de chaque

fréquence d’un échantillon est égale à 1.

Nous présentons ici deux méthodes de regroupement, une dite de regroupement hiérarchique, et une

autre dérivée des méthodes de regroupement Canopy [McCallumet al, 2000].

Thèse Mathieu Almeida - Caractérisation de flores microbiennes… 2013

60

III.3.1.1 Première méthode de regroupement : Regroupement hierarchique, metaprof et

post_metaprof

Pour effectuer le regroupement de la totalité de la matrice d’abondance des 3,9 millions de gènes au

sein de 396 échantillons, il faut une méthode rapide, exhaustive, non supervisée par des références

connues et sans à priori du nombre de clusters initial.

Une première méthode de regroupement hiérarchique a été implémentée selon ces critères. Pour cela

nous avons créé une chaîne de traitement de regroupement en deux grandes étapes, dont la première

consiste à calculer les distances entre tous les gènes, puis de créer des clusters de gènes, comme

illustré dans la figure 17 :

Figure 17 : Chaîne de traitement de regroupement des 3,9 millions de gènes du catalogue MetaHIT

par la méthode de regroupement hiérachique.

Metaprof permet dans un premier temps d’extraire les gènes corrélés. Post_metaprof regroupe

ensuite les gènes en clusters, visualisés à droites par heatmap des gènes (en lignes) dans les différents

échantillons (en colonne). Les gènes sont colorés par un gradient de couleur étalonné du plus faible

(blanc) au plus fort signal (jaune).

La première étape est gérée par le software metaprof

1

. Il prend en entrée une matrice d’abondances

comme présentée précédemment. Il faut ensuite spécifier le type d’algorithme de distance à utiliser :

l’indice de corrélation Pearson ou Spearman. Ensuite, pour ne sauvegarder que les corrélations les

plus informatives et réduire la taille du fichier généré, nous avons également ajouté un seuil de

distance à choisir en entrée (par défaut Spearman rho=0.5). Le résultat est alors sauvegardé dans un

fichier binaire avec la structure : « identifiant gène n, identifiant gène m, force de corrélation

calculé ».

Nous avons décidé d’utiliser l’algorithme de corrélation Spearman, car cet algorithme est adapté aux

données non paramétriques comme notre matrice d’abondance. Nous avons également décidé de ne

garder que les corrélations supérieures ou égales à 0,5. Ce seuil est volontairement bas pour augmenter

la sensibilité dans nos clusters. Le fichier de corrélation résultant est ensuite traité par un programme

de regroupement, appelé post_metaprof, développé au cours de cette thèse.

1

Le programme (metaprof v7.2) a été créé au sein du projet openGPU en collaboration avec Fouad

Boumezbeur, doctorant bioinformaticien de notre équipe et la société privée AS+. Il est codé en langage C et

utilise des bibliothèques CUDA et MPI pour paralléliser le calcul sur plusieurs cartes graphiques nVidia.

Thèse Mathieu Almeida - Caractérisation de flores microbiennes… 2013

61

Le programme post_metaprof a été codé en Delphi6 et utilise un algorithme de regroupement,

structuré en deux parties. La première partie utilise un algorithme hiérarchique de type single

linkage : chaque gène ayant au moins une corrélation supérieure ou égale au seuil sont placés dans le

même cluster. De plus deux clusters connectés par au moins un gène seront fusionnés. En démarrant à

un seuil de corrélation faible, la majorité des gènes vont s’agglomérer en un seul cluster, mais

quelques clusters de petites tailles seront créés. Tous les clusters de moins de 10000 gènes sont

extraits. Enfin, les gènes inclus dans des clusters de moins de 3 gènes sont éliminés. Ensuite, des

itérations sont effectuées pour découper progressivement les clusters restant, en augmentant le seuil de

corrélation par pas croissant de rho=0,001, jusqu’à ce que tous les clusters soient extraits ou que l’on

atteigne le seuil de corrélation maximal rho=1, illustré dans la partie supérieure de la figure 18 :

Figure 18: Schéma des étapes de regroupement dans l’outil post_metaprof.

La première étape consiste à effectuer un regroupement hiérarchique par augmentation croissante du

seuil de regroupement. La seconde étape consiste en une découpe des clusters par méthode DAPC,

permettant de générer des sous-unités appelées unités métagénomiques ou MGU.

Enfin, les clusters extraits ayant un signal de présence dans au moins deux individus et ayant au moins

1000 gènes vont être soumis à l’algorithme de DAPC [Jombart et al, 2010], qui permet d’effectuer une

découpe paramétrique plus fine que dans la première étape (illustré dans la partie basse de la figure

18). Cette méthode utilise une première séparation des gènes en clusters par utilisation d’une Analyse

en Composante Principale (ou ACP), en sélectionnant les échantillons les plus discriminants dans la

séparation des gènes, puis utilise une analyse discriminante (ou DA) pour maximiser les distances

entre les groupes. Comme le nombre de cluster n’est pas connu, nous utilisons la fonction de calcul du

nombre de cluster optimal par partitionnement autour de gènes centraux (ou PAM).

On obtient ainsi des clusters et des sous-clusters que nous appelons unités métagénomiques (ou

MGU), avec une hiérarchie conservée permettant de connaitre les relations entre chaque cluster et

sous-cluster. Le pas d’itération de seuil est volontairement faible dans notre cas pour minimiser les

pertes de gènes (car seuls les clusters de plus de 3 gènes sont conservés). Cependant il est possible de

connaitre à quel pas d’itération de corrélation un gène sera extrait.

Ce regroupement en deux étapes permet d’effectuer dans un premier temps une découpe non

paramétrique, avec un minimum de perte, puis une découpe plus fine par méthode DAPC, plus longue

en temps de traitement mais adaptée à des petits jeux de données de moins de 10000 gènes, pour tester

Thèse Mathieu Almeida - Caractérisation de flores microbiennes… 2013

62

de multiples séparations et choisir celle qui minimise les distance intra-groupe et maximise les

distances inter-groupes.

III.3.1.2 Regroupement par méthode de Canopy

Une deuxième méthode a été conçue par nos partenaires du DTU, dérivée des méthodes de type

Canopy. Cet algorithme permet de regrouper des gènes autour d’un gène graine, en utilisant une

matrice d’abondance telle que celle utilisée dans la première méthode.

Pour résumer, un premier filtre est appliqué pour retirer tous les gènes présents dans moins de 4

individus (soit 1.7M de gènes). Ensuite, une étape de regroupement est effectuée, avec un algorithme

de type single linkage. Cet algorithme sélectionne aléatoirement un gène graine et réunit tous les

gènes ayant une corrélation Pearson supérieure à 0,9 et une corrélation Spearman supérieure à 0,6

avec cette graine dans un même cluster.

Tous les clusters de moins de 3 gènes sont supprimés, et un vecteur médian de signal d’abondance est

généré pour chaque cluster restant. Les vecteurs médians sont comparés entre eux par corrélation

Pearson. Si des vecteurs médians possèdent entre eux une corrélation supérieure à 0,97, les gènes du

cluster les représentants sont alors fusionnés. Ces étapes sont répétées jusqu’à ce que tous les gènes

non clustérisés aient été traités au moins une fois.

L’algorithme a été implémenté en R, et est parallélisé pour disperser le travail sur plusieurs CPU et

effectuer la regroupement de la matrice de 3,9 millions de gènes en moins de 4 heures.

Documents relatifs