• Aucun résultat trouvé

1.5 Outils d’analyse bioinformatique

1.5.3 Analyse de données

A. Analyse de variants

Lors de l’analyse de génomes, la recherche de variants est une étape importante. Le logiciel freebayes [120] permet, à partir du fichier d’alignement d’obtenir tous les variants existants entre la souche alignée et la référence. Une probabilité est disponible pour chaque variant (SNP ou indel) ainsi que le nombre de reads qui couvrent la position. Ce logiciel permet également de comparer un grand nombre de génomes. En fournissant plusieurs alignements au programme, il est possible de voir les allèles de chacune des souches pour chaque position mutée.

B. Comptage de reads, recherche de gènes

La mesure de la couverture peut être un moyen efficace de déterminer la présence de gènes dans un génome aligné. Si elle est suffisante sur toute la longueur du gène, alors on peut considérer que le gène est présent. A noter que puisqu’il s’agit d’alignement, un gène absent de la référence ne peut être recherché.

Le logiciel featureCounts [121] sert à compter le nombre de reads qui couvrent une séquence donnée. Pour cela, les paramètres utilisés sont le fichier contenant l’alignement des reads sur la référence et un fichier de type BED, qui correspond à un tableau avec les positions des différents gènes à rechercher. featureCounts produit un fichier précisant le nombre de reads couvrant chaque gène.

C. Core genome et phylogénie

L’ensemble des séquences présentes dans tous les génomes que l’on souhaite étudier corres- pond au core genome. Celui-ci peut être utilisé pour la construction d’arbres phylogénétiques servant à estimer la distance génétique entre les souches étudiées représenté par le nombre et la longueur des branches. En effet, leur longueur est proportionnelle au nombre de SNPs différenciant deux souches. L’arbre final (aussi appelé arbre consensus) est généré à partir de ces données et des paramètres utilisés par le logiciel de phylogénie.

Création du core genome. Celui-ci peut être défini de plusieurs manières (cf. figure 1.29). Pre- mièrement, par extraction de séquences communes à tous les génomes. Pour cela, un logiciel de comparaison (pour les génomes assemblés) ou d’alignement (pour les génomes non assem-

blés) est utilisé. Les séquences communes (gènes ou régions intergéniques) sont extraites pour chaque génome puis concaténées et alignées. Un exemple d’alignement multiple est visible sur la figure 1.34.

Figure 1.34 – Visualisation d’un alignement multiple avec le logiciel seaview [122]

La deuxième stratégie de définition du core genome repose sur l’extraction des gènes. Cha- cun des gènes annotés d’un des génomes du panel va être recherché dans tous les autres. L’existence des ces gènes (avec des pourcentages de couverture et d’identité suffisants par rapport à la référence) dans chacun des génomes indique leur appartenance au core genome. Ces gènes sont donc extraits, concaténés et alignés. L’alignement multiple généré (comme précédemment) est utilisé pour la création de l’arbre phylogénétique.

Quelle que soit la méthode utilisée, les gaps dans la séquence (souvent liés à des indels) peuvent poser des problèmes lors de la création de l’arbre phylogénétique puisqu’ils peuvent être assimilés à une séquence manquante par le logiciel de phylogénie.

L’arbre phylogénétique peut être calculé directement à partir des SNPs. Pour cela, seuls les SNPs présents dans chacun des génomes sont extraits et concaténés. La séquence finale qui est comparée est plus petite que celle obtenue par les deux méthodes précédentes.

Les avantages et inconvénients de ces trois méthodes sont listés dans le tableau 1.7.

Phylogénie. Il existe un certain nombre de logiciels de phylogénie à l’heure actuelle. La plu- part d’entre eux sont accessibles librement et gratuitement. C’est le cas de PhyML [123] et RaxML [124] utilisant des méthodes de maximum de vraisemblance, mais aussi de Mr- Bayes [125] et BEAST [126] qui utilisent une méthode bayesienne pour le calcul des arbres. Ce sont deux méthodes probabilistes basées sur un concept de vraisemblance. La première méthode est la recherche de l’arbre ayant la meilleure probabilité de conduire aux données ob- servées tandis que l’autre méthode consiste à fixer des probabilités a priori aux arbres, avant

Séquences com- munes

Gènes SNPs

Avantages Facile à définir Très informatif Rapide et simple à obtenir

Inconvénients Peu informatif Nécessite la liste

des gènes

Ne contient pas les sé- quences conservées (calcul du GC impossible)

Tableau 1.7 – Comparaison des stratégies de définition du core genome

de les inférer et de calculer les hypothèses a posteriori. La méthode du maximum de vrai- semblance est plus rapide que la méthode bayesienne tandis que celle-ci possède une mesure de confiance intégrée et permet de prendre en compte un plus grand nombre de paramètres. Un exemple d’arbre généré par MrBayes est visible sur la figure 1.35.

Figure 1.35 – Arbre phylogénétique de génomes de P. aeruginosa généré à partir de Mr- Bayes [125]

Most Recent Common Ancestor (MRCA). Les logiciels de phylogénie peuvent également dater un potentiel ancêtre commun. Il peut être calculé de deux façons différentes. Soit en utilisant les dates des feuilles (par exemple date de prélèvement des souches) soit en fixant un point de calibration connu (existence d’un ancêtre commun connu à une date précise ou connaissance d’une date de divergence entre deux taxons). Ainsi, il est possible d’estimer la date d’existence d’un ancêtre d’une épidémie par exemple pour comprendre quand l’hôpital, la ville ou le pays a été contaminé. Un exemple est présenté sur la figure 1.36.

Figure 1.36 – Arbre phylogénétique de génomes de Salmonella enterica avec données tempo- relles [127] générées à partir de MrBayes [125]. L’ancêtre commun à ces quatre souches a existé il y a 90 ans environ.

Documents relatifs