• Aucun résultat trouvé

Phylogénie et structure des population.

Afin d’étudier la relations entre les différents individus de chaque espèce, nous avons construit un arbre en nous basant sur une méthode de calcul des distances de type neighbor-joining (BioNJ) proposée par le programme Splitstree17. Cette distribution phylogénétique est inférée

à partir de l'ensemble des sites polymorphiques retrouvés pour chaque isolat et permet l’obtention d’un arbre, où la longueur des branches est proportionnelle au nombre de sites polymorphiques qui différencie chaque nœud. Pour chaque espèce, un alignement a été créé où pour chaque isolat les SNP ont été inférés dans la séquence de référence. Pour C. albicans et

D. bruxellensis, les SNP hétérozygotes ont été encodés grâce au code IUPAC et le mode

« MatchState » a été sélectionné dans le calcul des distances.

Dans un second temps, l'analyse de la division des espèces étudiées en sous-populations a été réalisée grâce à un algorithme de clustering implémenté dans le programme Structure18. Cette méthode se base sur la définition d’un nombre précis de sous-populations. Pour chaque individu analysé, le programme donne alors un pourcentage d'appartenance de cet individu à chaque sous-population définie sur la base des fréquences alléliques observées. Plusieurs profils caractéristiques peuvent être mis en évidence : les individus peuvent présenter une appartenance spécifique et entière à une sous-population, révélant une homogénéité génétique. A contrario, un individu peut être attribué à plusieurs sous-populations avec un pourcentage d’appartenance variable, on parle alors d’individus présentant des génomes mosaïques. Pour chaque espèce, nous avons demandé à obtenir une estimation de la structure sur la base de 2 à 5 populations.

Divergence nucléotidique

Dans le chapitre 1, la divergence nucléotidique entre chaque pair d’isolats d’une même espèce a été déterminée au sein des différentes populations. Pour les souches haploïdes, l’ensemble des positions polymorphiques divergentes entre chaque pair a été décompté et la valeur a été divisée par la taille totale de la séquence de référence. Pour les souches diploïdes, une somme des SNP divergents divisées par l’ensemble des possibilités a été calculée. Par exemple, dans le cas de deux souches diploïdes : AT/AA amène à 0,5 ((0 + 0 + 1 + 1) / 4). Cette valeur a par la suite été divisée par la taille totale du génome.

Estimation de la variabilité nucléotidique

Des estimateurs de la diversité nucléotidique pour chaque espèce ont été calculés grâce au logiciel VariScan19. Ce programme permet de déterminer deux valeurs représentatives de la diversité nucléotidique au sein d'un échantillon : θ et π. La valeur θ est déterminée sur la base du nombre de sites polymorphiques présents dans l'ensemble de l’échantillon étudié. Par contre, la valeur π est calculée sur la base du nombre mais aussi de la fréquence des SNP pour chaque

site polymorphique. π correspond ainsi au nombre moyen de différences nucléotidiques par site entre paires de séquences dans la même espèce.

La comparaison des valeurs de π et θ permet de déterminer la valeur D de Tajima20. Cette valeur permet de voir si une région précise ou encore une population a évolué de manière neutre, c’est-à-dire que le polymorphisme génétique observé s’explique par un équilibre entre mutation et dérive. Dans ce cas, les paramètres π et θ sont égaux et la valeur D de Tajima est nulle. Par contre, un excès de variants peu divergents va conduire à une valeur négative. Cet excès peut être dû à une sélection négative au niveau d’un locus ou à une expansion démographique récente de la population. Finalement, un excès de variants intermédiaires entraîne une valeur D de Tajima positive, signe d’une sélection positive au niveau d’un locus ou à une diminution démographique de la population.

Afin d’explorer la variabilité génétique du génome complet, les SNP ont été inférés dans la séquence de référence pour chaque isolat et les séquences relatives à chaque isolat ont été concaténé dans un même alignement pour chaque contig. Ces alignements ont par la suite été utilisés par VariScan et les options « runmode = 12, usemuts =1, widthSW = 10000 et JumpSW = 10000 » ont été spécifiées afin de calculer les différents estimateurs sur des fenêtres glissantes non chevauchantes de 10kb le long du génome. Afin d’obtenir ces estimateurs pour le génome complet, les alignements relatifs à chaque contig ont été concaténés et le logiciel a été relancé avec l’option « SlidingWindow = 0 ». Une approche similaire a été utilisée afin de déterminer la variabilité nucléotidique de chaque séquence codante.

dN/dS

Afin d’obtenir une estimation de la pression de sélection pour chaque séquence codante, le ratio entre le polymorphisme non-synonyme (dN) et synonyme (dS). Pour chaque CDS, un alignement des séquences nucléiques correspondant à la version allélique de chaque isolat a été produit. Cet alignement a par la suite été soumis au programme yn00 du package PAML21. Les arguments par défaut ont été utilisés à l’exception de C. albicans pour lequel le code génétique alternatif a été indiqué. La médiane des valeurs obtenues pour chaque gène a par la suite été calculée. Une valeur de dN/dS supérieure à 1 reflète un excès de mutation non-synonyme et est ainsi indicateur d’une sélection positive de la protéine. A l’inverse, un ratio inférieur à 1 indique une conservation de la séquence protéique résultant d’une sélection négative sur celle-ci.

Détermination in silico de la ploïdie des souches

Dans le chapitre 3, la ploïdie des souches a été déterminée dans un premier temps par l’analyse de la fréquence allélique des SNP hétérozygotes. Dans ce cadre, la distribution de la fréquence allélique a été analysée manuellement pour chacune des souches de la population. Alors qu’une distribution centrée sur une valeur de 0,5 indique la présence d’une souche diploïde, une distribution bimodale centrée autour d’une valeur de 0,33 et 0,66 indique la présence d’une

souche triploïde. Cette analyse a été confirmée par l’étude manuelle des aneuploïdies des souches.

Absence d’hétérozygotie

Afin d’identifier la présence de région ayant subi une perte d’hétérozygotie, le génome de chaque souche a été examiné à travers des fenêtre glissante de 50 kb avec un pas de 25 kb. Au sein de chaque fenêtre, le nombre de SNP hétérozygote a été déterminé et une région a été annotées comme ayant subi un LOH si moins de 10 SNP hétérozygotes ont été retrouvés dans la fenêtre. Par la suite, l’ensemble des fenêtres chevauchantes ont été fusionnées et les fenêtres ayant une taille inférieure à 25 kb, présentes en fin de contigs, ont été ignorées.