1. GENETIQUE et MALADIES
1.1 Bases de données bioinformatiques
La première GWAS générant des associations significatives a été publiée en 2005 (328).
Depuis, le nombre de GWAS publiées chaque année n’a cessé d’augmenter et on recense plus
de 1 900 études publiées (35). Cette croissance rapide s’explique notamment par l’émergence
de plusieurs bases de données utilisées pour réaliser des GWAS.
1.1.1 dbSNP
La base de données « SNP database », connue sous le nom de dbSNP, est une base de données
publique qui a pour but de répertorier les variations génétiques recensées chez plusieurs espèces
animales dont l’être humain (5). Les SNPs ne sont pas les seuls polymorphismes à être
renseignés dans cette base, les indels ou les microsatellites y sont également inclus. Au total,
plus de 60 millions de polymorphismes sont actuellement décrits dans cette banque. Cette base
de données représente une source d’information majeure pour la communauté scientifique
puisque le but de ce catalogue est d’annoter de façon précise les polymorphismes découverts
dans le génome. Ainsi, lorsqu’un SNP est répertorié dans la base de données, des informations
concernant sa localisation, ses conséquences fonctionnelles possibles ou encore les fréquences
alléliques sont disponibles. De plus, lorsque des publications relatives à un SNP existent, la
fiche dbSNP de ce site les recense et propose de liens vers celles-ci. Par conséquent, cette base
de données constitue un outil majeur dans les études génomiques en permettant de connaître
rapidement et facilement les caractéristiques d’un polymorphisme.
1.1.2 Le projet HapMap
Les haplotypes constituent une information essentielle dans les études génétiques. Ainsi, en
2002, un consortium international a entrepris une cartographie des haplotypes dans plusieurs
populations : le projet HapMap (12, 329). Ce projet s’est déroulé en trois phases.
-Phase I du projet, environ 1 million de SNPs génotypés chez 270 individus originaires de 4
populations différentes :
84
90 résidents des Etats-Unis originaires d’Europe du Nord et d’Europe de l’Ouest
formant 30 trios,
45 japonais non apparentés de la région de Tokyo,
45 chinois non apparentés de la région de Pékin
-Phase II du projet, augmentation du nombre de SNPs génotypés : environ 3,1 millions de
SNPs chez les mêmes individus (330).
-Phase III du projet, augmentation de la densité de SNPs génotypés et du nombre d’individus,
dont certains issus de populations non étudiées dans les phases précédentes (331) :
Pour les populations originelles du projet, 90 nouveaux individus africains, 90 nouveaux
individus d’origine européenne et 45 individus pour chacune des deux populations
asiatiques ont été rajoutés au projet. Environ 5 millions de polymorphismes, dont des
CNVs, ont été génotypés pour ces individus.
Sept nouvelles populations (des afro-américains, des chinois résidant aux Etats-Unis,
des mexicains résidant aux Etats-Unis, des toscans, des kenyans de la tribu Luhya, des
kenyans masaïs et des indiens Gujarati vivant aux Etats-Unis) ont été ajoutées au projet.
Environ 1,4 millions de SNPs ont été génotypés pour ces individus.
L’intérêt du projet HapMap est multiple. Tout d’abord, les données obtenues par le projet, et en
particulier les génotypes, ont été mises gratuitement à la disposition de la communauté
scientifique constituant une source d’information importante. De plus, il a permis d’identifier
et de caractériser une grande partie des SNPs fréquents (dont la fréquence de l’allèle mineur est
supérieure à 5%) dans plusieurs populations. Ainsi, le projet permet de connaître la fréquence
de ces SNPs au sein des différentes populations génotypées. Enfin, l’inclusion de trios dans
certaines populations a permis une cartographie des haplotypes. Etant donné l’existence de
blocs haplotypiques au sein du génome (voir Introduction section 1.4.3), beaucoup des SNPs
génotypés dans ce projet sont corrélés entre eux. La cartographie des haplotypes a alors permis
la caractérisation des déséquilibres de liaison pour les paires de SNPs d’une même région. Cela
a conduit à l’identification d’un nombre plus restreint de SNPs représentant la même
information génétique qu’avec l’ensemble des polymorphismes. De tels SNPs sont appelés
tagSNP (Figure 29). On estime ainsi que seulement 600 000 SNPs permettraient de capturer la
85
diversité des 10 millions de SNPs fréquents du génome. Cette découverte a largement été
utilisée pour la conception des puces de génotypage.
Figure 29. Notion de "tagSNP" (12). (a) Identification de 3 SNPs (en couleur) dans une portion
chromosomique. (b) Reconstruction des haplotypes constitués de 20 SNPs dont les trois
identifiés précédemment. (c) Détermination de 3 tagSNPs dont la connaissance suffit pour
identifier les 4 haplotypes de la population. Par exemple, un profil G-T-C pour ces 3 tagSNPs
correspond toujours à l’haplotype 3.
1.1.3 Le projet 1000 Genomes
Plus récemment, le projet 1000 Genomes, dont l’objectif est de séquencer le génome de 2 500
individus issus de 28 populations différentes, a vu le jour (4). Le séquençage intégral de ces
génomes vise principalement à identifier l’ensemble des polymorphismes et en particulier les
SNPs de faible fréquence qui ne sont pas inclus dans le projet HapMap. A l’instar de ce dernier,
le projet 1000 Genomes s’est déroulé en plusieurs phases se différenciant principalement par le
nombre de polymorphismes inclus dans l’étude. Actuellement, 2 577 individus ont été
séquencés et environ 80 millions de polymorphismes ont été identifiés. Cependant, certaines
précautions doivent être prises concernant les données mises à disposition. En effet, en plus des
nombreuses difficultés inhérentes au séquençage, la couverture moyenne est de 4x (un locus est
« lu » 4 fois en moyenne), ce qui entraîne une certaine incertitude quant aux polymorphismes
repérés. Pour la même raison, les génotypes ne sont donnés que sous la forme de probabilité.
Enfin, la faible fréquence de certains polymorphismes peut être à l’origine d’incertitude
86
concernant leur qualité. En conséquence, les données mises à disposition sont régulièrement
corrigées ou mises à jour et il est alors préférable d’utiliser des versions moins complètes mais
plus fiables du projet.
Cependant, ce projet ouvre de larges perspectives concernant l’implication de polymorphismes
peu fréquents dans les maladies multifactorielles. En effet, le rôle de ces mutations est
aujourd’hui largement soutenu (332). Enfin, les données de 1000 Genomes servent également
de panel de référence pour de nombreuses problématiques telles que le phasage ou l’imputation.
Dans le document
Analyse génomique de la coinfection par le virus VIH et VHC
(Page 88-91)