Bases de données bioinformatiques - GENETIQUE et MALADIES

1. GENETIQUE et MALADIES

1.1 Bases de données bioinformatiques

La première GWAS générant des associations significatives a été publiée en 2005 (328).

Depuis, le nombre de GWAS publiées chaque année n’a cessé d’augmenter et on recense plus

de 1 900 études publiées (35). Cette croissance rapide s’explique notamment par l’émergence

de plusieurs bases de données utilisées pour réaliser des GWAS.

1.1.1 dbSNP

La base de données « SNP database », connue sous le nom de dbSNP, est une base de données

publique qui a pour but de répertorier les variations génétiques recensées chez plusieurs espèces

animales dont l’être humain (5). Les SNPs ne sont pas les seuls polymorphismes à être

renseignés dans cette base, les indels ou les microsatellites y sont également inclus. Au total,

plus de 60 millions de polymorphismes sont actuellement décrits dans cette banque. Cette base

de données représente une source d’information majeure pour la communauté scientifique

puisque le but de ce catalogue est d’annoter de façon précise les polymorphismes découverts

dans le génome. Ainsi, lorsqu’un SNP est répertorié dans la base de données, des informations

concernant sa localisation, ses conséquences fonctionnelles possibles ou encore les fréquences

alléliques sont disponibles. De plus, lorsque des publications relatives à un SNP existent, la

fiche dbSNP de ce site les recense et propose de liens vers celles-ci. Par conséquent, cette base

de données constitue un outil majeur dans les études génomiques en permettant de connaître

rapidement et facilement les caractéristiques d’un polymorphisme.

1.1.2 Le projet HapMap

Les haplotypes constituent une information essentielle dans les études génétiques. Ainsi, en

2002, un consortium international a entrepris une cartographie des haplotypes dans plusieurs

populations : le projet HapMap (12, 329). Ce projet s’est déroulé en trois phases.

-Phase I du projet, environ 1 million de SNPs génotypés chez 270 individus originaires de 4

populations différentes :

84  90 résidents des Etats-Unis originaires d’Europe du Nord et d’Europe de l’Ouest

formant 30 trios,

 45 japonais non apparentés de la région de Tokyo,

 45 chinois non apparentés de la région de Pékin

-Phase II du projet, augmentation du nombre de SNPs génotypés : environ 3,1 millions de

SNPs chez les mêmes individus (330).

-Phase III du projet, augmentation de la densité de SNPs génotypés et du nombre d’individus,

dont certains issus de populations non étudiées dans les phases précédentes (331) :

 Pour les populations originelles du projet, 90 nouveaux individus africains, 90 nouveaux

individus d’origine européenne et 45 individus pour chacune des deux populations

asiatiques ont été rajoutés au projet. Environ 5 millions de polymorphismes, dont des

CNVs, ont été génotypés pour ces individus.

 Sept nouvelles populations (des afro-américains, des chinois résidant aux Etats-Unis,

des mexicains résidant aux Etats-Unis, des toscans, des kenyans de la tribu Luhya, des

kenyans masaïs et des indiens Gujarati vivant aux Etats-Unis) ont été ajoutées au projet.

Environ 1,4 millions de SNPs ont été génotypés pour ces individus.

L’intérêt du projet HapMap est multiple. Tout d’abord, les données obtenues par le projet, et en

particulier les génotypes, ont été mises gratuitement à la disposition de la communauté

scientifique constituant une source d’information importante. De plus, il a permis d’identifier

et de caractériser une grande partie des SNPs fréquents (dont la fréquence de l’allèle mineur est

supérieure à 5%) dans plusieurs populations. Ainsi, le projet permet de connaître la fréquence

de ces SNPs au sein des différentes populations génotypées. Enfin, l’inclusion de trios dans

certaines populations a permis une cartographie des haplotypes. Etant donné l’existence de

blocs haplotypiques au sein du génome (voir Introduction section 1.4.3), beaucoup des SNPs

génotypés dans ce projet sont corrélés entre eux. La cartographie des haplotypes a alors permis

la caractérisation des déséquilibres de liaison pour les paires de SNPs d’une même région. Cela

a conduit à l’identification d’un nombre plus restreint de SNPs représentant la même

information génétique qu’avec l’ensemble des polymorphismes. De tels SNPs sont appelés

tagSNP (Figure 29). On estime ainsi que seulement 600 000 SNPs permettraient de capturer la

85 diversité des 10 millions de SNPs fréquents du génome. Cette découverte a largement été

utilisée pour la conception des puces de génotypage.

Figure 29. Notion de "tagSNP" (12). (a) Identification de 3 SNPs (en couleur) dans une portion

chromosomique. (b) Reconstruction des haplotypes constitués de 20 SNPs dont les trois

identifiés précédemment. (c) Détermination de 3 tagSNPs dont la connaissance suffit pour

identifier les 4 haplotypes de la population. Par exemple, un profil G-T-C pour ces 3 tagSNPs

correspond toujours à l’haplotype 3.

1.1.3 Le projet 1000 Genomes

Plus récemment, le projet 1000 Genomes, dont l’objectif est de séquencer le génome de 2 500

individus issus de 28 populations différentes, a vu le jour (4). Le séquençage intégral de ces

génomes vise principalement à identifier l’ensemble des polymorphismes et en particulier les

SNPs de faible fréquence qui ne sont pas inclus dans le projet HapMap. A l’instar de ce dernier,

le projet 1000 Genomes s’est déroulé en plusieurs phases se différenciant principalement par le

nombre de polymorphismes inclus dans l’étude. Actuellement, 2 577 individus ont été

séquencés et environ 80 millions de polymorphismes ont été identifiés. Cependant, certaines

précautions doivent être prises concernant les données mises à disposition. En effet, en plus des

nombreuses difficultés inhérentes au séquençage, la couverture moyenne est de 4x (un locus est

« lu » 4 fois en moyenne), ce qui entraîne une certaine incertitude quant aux polymorphismes

repérés. Pour la même raison, les génotypes ne sont donnés que sous la forme de probabilité.

Enfin, la faible fréquence de certains polymorphismes peut être à l’origine d’incertitude

86 concernant leur qualité. En conséquence, les données mises à disposition sont régulièrement

corrigées ou mises à jour et il est alors préférable d’utiliser des versions moins complètes mais

plus fiables du projet.

Cependant, ce projet ouvre de larges perspectives concernant l’implication de polymorphismes

peu fréquents dans les maladies multifactorielles. En effet, le rôle de ces mutations est

aujourd’hui largement soutenu (332). Enfin, les données de 1000 Genomes servent également

de panel de référence pour de nombreuses problématiques telles que le phasage ou l’imputation.

Dans le document Analyse génomique de la coinfection par le virus VIH et VHC (Page 88-91)