Partie II : Contribution des facteurs génétiques à l’étiologie de l’autisme
Article 1 Convergence of genes and cellular pathways dysregulated in autism spectrum disorders
3. Stratégies pour interpréter les variants génétiques
Les avancées technologiques dans le domaine de la génétique humaine ont été fulgurantes ces dernières
années. Ces progrès ont permis la découverte d’une multitude de facteurs étiologiques et l’accumulation
d’une masse de données génomiques. Rapidement, le problème n’a plus été de l’ordre de la détection des
variants mais de leur interprétation et de la compréhension de leur contribution au phénotype, en
particulier pour les variants de signification inconnue. L’hétérogénéité génétique des TSA étant extrême,
ceci implique que certaines des mutations trouvées seront uniques à un patient. Or, la récurrence reste
aujourd’hui la preuve la plus fiable de l’implication d’un gène dans une pathologie. D’ailleurs, l’implication
de certains gènes liés à l’X mis en cause dans la déficience intellectuelle et les TSA par la description de
mutations dans une seule famille a été récemment remise en question (Piton et coll., 2013). Il est
hasardeux d’utiliser une évidence basée sur une famille unique (même de grande taille, avec beaucoup
d’individus atteints) pour impliquer un gène dans une pathologie, ce qui pose un problème évident pour
la recherche de facteurs impliqués dans les TSA. Pour essayer de pallier la difficulté d’observer une
récurrence, une combinaison d’approches complémentaires peuvent être utilisées pour apporter des
évidences additionnelles. De plus, l’identification de variants rares chez plusieurs patients nécessite des
efforts collaboratifs comme dans le cas du consortium international de l’Autism Genome Project, afin
d’augmenter la puissance des études en réunissant des cohortes de très grande taille.
3.1 Bases de données de patients et de témoins
L’existence de bases de données de patients facilite grandement l’interprétation des variants détectés.
Des milliers de remaniements trouvés chez des individus atteints de troubles neurodéveloppementaux et
de diverses manifestations cliniques ont été réunis dans les bases de données publiques DECIPHER
(DatabasE of Genomic variants and Phenotype in Humans Using Ensembl Resources) (Firth et coll., 2009),
ISCA (International Standards for Cytogenomic Arrays) (Kaminsky et coll., 2011) et ECARUCA (European
Cytogeneticists Association Register of Unbalanced Chromosome Aberrations) (Feenstra et coll., 2006). La
récurrence étant l’un des points clefs de l’analyse des CNVs, c’est en comparant un variant trouvé chez un
patient avec des remaniements détectés chez d’autres individus atteints et présentant des phénotypes
similaires qu’il sera parfois possible de déterminer sa pathogénicité. Puisqu’il existence un fort
chevauchement étiologique entre les TSA et la déficience intellectuelle, mais aussi l’épilepsie, les données
obtenues dans des cohortes de patients atteints de ces deux troubles neurodéveloppementaux sont
particulièrement informatives pour l’analyse des CNVs dans les TSA. Cette stratégie peut être étendue à
d’autres conditions neuropsychiatriques telles que la schizophrénie qui présente un chevauchement des
facteurs étiologiques avec les TSA beaucoup plus modeste mais qui reste informatif, en particulier dans le
cas de certains CNVs pathogènes à expressivité variable.
D’autres bases de données rapportent les CNVs détectés chez des individus apparemment sains. C’est
par exemple le cas de la base de données des variants génomiques DGV (Database of Genomic Variants)
qui contient à l’heure actuelle près de 4 millions de variants détectés chez des individus témoins de 37
études différentes. L’utilisation de ces données permet de concentrer nos analyses sur les variants rares,
peu ou pas trouvés chez les témoins. Cependant, la qualité des données disponibles dans cette base est
directement liée aux techniques de détection utilisées et en particulier au type de puce. Les premières
études utilisaient principalement des sondes BACs qui offrent une faible résolution et surestiment
souvent la taille des CNVs détectés. Plus tard, les puces à oligonucléotides ont permis d’augmenter la
résolution mais également le nombre de faux-positifs, en particulier parmi les petits CNVs. La plupart des
variants rapportés dans DGV n’ont pas été confirmés par une méthode indépendante et peuvent donc
correspondre à de faux positifs (de Leeuw et coll., 2012). En effet, il n’est pas rare d’observer de multiples
variants dans un gène ou à un locus donné, dans une seule étude de DGV, indiquant un biais de détection
étude-spécifique. Idéalement, pour pouvoir comparer les CNVs entre les patients et les témoins, les
données devraient être générées de la même manière ce qui implique un génotypage sur les mêmes
plateformes avec le même type de puces et les mêmes méthodes analytiques (mêmes contrôles de
qualité et mêmes algorithmes de détection).
3.2 Listes de gènes et revue de la littérature
Bien que de nombreux critères permettent de prioriser les différents variants détectés, il est souvent
difficile d’interpréter un CNV trouvé chez un patient. Dans l’analyse des données AGP, nous avons
recherché des CNVs pouvant expliquer la pathologie chez les patients porteurs. Pour cela, les listes de
gènes développées par notre équipe se sont avérées être un outil essentiel, répertoriant :
Les gènes et loci impliqués dans les TSA. Cette liste comprend à ce jour 148 gènes et 59 loci et a été
créée par une revue approfondie des évidences impliquant ces gènes dans la base de données OMIM,
les cas rapportés dans la littérature que ce soit dans des études de grandes cohortes ou dans la
description d’un patient unique. Tous les gènes et loci de cette liste ont aussi été impliqués dans la
déficience intellectuelle. La liste se veut la plus exhaustive possible et toutes les évidences sont
strictement évaluées, contrairement à d’autres listes qui regroupent tous les gènes rapportés sans
hiérarchiser les évidences qui leur sont associées. Par exemple la liste de gènes de l’autisme créée par
SFARI (Simons Foundation Autism Research Initiative) est une liste dite ‘inclusive’ qui répertorie tous
les gènes pour lesquels une analyse a suggéré qu’ils pouvaient jouer un rôle dans l’étiologie des TSA
même si ces évidences ne sont pas convaincantes (études d’association non répliquées, évidences
fonctionnelles isolées ou cas uniques).
Les gènes et loci impliqués dans la déficience intellectuelle. Considérant le fort chevauchement
étiologique existant entre les TSA et la déficience intellectuelle, les gènes impliqués dans la déficience
intellectuelle mais pas encore dans les TSA sont potentiellement des causes d’autisme.
Les gènes et loci candidats pour ces deux troubles neurodéveloppementaux. Cette liste contient des
gènes touchés par des anomalies génétiques rares telles que des points de cassure, des délétions et
des variants rapportés dans les études d’exomes et pour lesquels les évidences ne sont pas encore
suffisantes pour les impliquer.
La liste des gènes impliqués dans les TSA créée par notre équipe a été publiée en 2011 (Betancur,
2011) et a été utilisée par de nombreux chercheurs dans les TSA et la schizophrénie pour identifier des
variants pathogènes dans les analyses de CNVs et les études d'exome, ainsi que pour effectuer des
analyses de réseaux afin d'identifier les voies biologiques impliquées dans l'autisme et de nouveaux gènes
candidats (Kou et coll., 2012 ; Neale et coll., 2012b ; O'Roak et coll., 2012a ; O'Roak et coll., 2012b ; Noh et
coll., 2013 ; Purcell et coll., 2014 ; Samocha et coll., 2014 ; Uddin et coll., 2014).
Parfois, la recherche bibliographique réalisée sur un gène en particulier permet de l’impliquer dans
l’étiologie des TSA. C’est par exemple le cas du gène SETD5 (SET domain containing 5), impliqué pour la
première fois dans les TSA grâce à la découverte d’une délétion de novo qui n’implique que ce gène chez
un patient de la cohorte AGP, mise en relation avec des évidences additionnelles de la littérature (Pinto et
coll., 2014). En regroupant tous les cas décrits présentant des délétions de cette région, nous avons pu
identifier 9 autres patients avec déficience intellectuelle et/ou TSA présentant des délétions 3p25.3 toutes
de novo et définissant une région critique contenant uniquement SETD5 (Figure 34). De plus, plusieurs
mutations de novo de ce gène avaient été rapportées dans des études d’exome dans la déficience
intellectuelle et les TSA. Ce gène code pour une méthyltransférase et d’autres gènes codant des
méthyltransférases ont été précédemment impliqués dans les TSA (notamment NSD1, syndrome de Sotos
et EHMT1, syndrome de Kleefstra).
Figure 34. Implication du gène SETD5 dans les TSA
Les délétions rapportées dans la région 3p25.3 sont représentées par les lignes rouges, les mutations de novo du gène SETD5 sont représentées par des traits verticaux verts (faux-sens) ou rouges (non-sens). Les gènes présents dans la région sont indiqués en haut, sous la représentation schématique du chromosome 3. La région minimale de chevauchement entre les différentes délétions est montrée par la bande bleue et ne contient que le gène SETD5 (figure adaptée de Pinto et coll., 2014). DI, déficience intellectuelle ; dn, de novo ; EPI, épilepsie ; mat, maternel.
Pendant la publication de notre manuscrit, une étude de séquençage ciblé de gènes candidats réalisée
dans une cohorte de 996 patients atteints de déficience intellectuelle a confirmé l’implication du gène
SETD5 (Grozeva et coll., 2014). Sept mutations de novo perte de fonction ont été trouvées dans ce gène et
cinq individus porteurs de ces mutations présentent des traits autistiques ou un TSA.
3.3 Outils bioinformatiques
Les études in vitro et in vivo étant très coûteuses, une analyse préliminaire in silico des variants détectés
peut permettre de prioriser les données afin de sélectionner les variants pour lesquels l’impact délétère
est le plus probable. L’annotation des gènes dans des bases de données répertoriant leur structure, leur
fonction et leur profil d’expression facilite la sélection de candidats. En particulier, les scores
d’haploinsuffisance des gènes peuvent apporter un argument en faveur de l’implication d’un gène
présent dans une délétion chez un patient. Cependant, nos connaissances des gènes haploinsuffisants
sont encore limitées pour le moment puisqu’environ 12 000 ont été évalués (Huang et coll., 2010) soit
seulement la moitié du génome humain. La base publique UCSC (University of California, Santa Cruz)
centralise une multitude de données concernant les gènes et a récemment intégré de nouveaux outils qui
permettent de visualiser dans une région donnée la présence d’éléments régulateurs, de régions
promotrices et même des données de transcriptome. En effet, de nombreux gènes présentent des
isoformes tissu-spécifiques et il est essentiel de savoir lesquelles sont exprimées dans le cerveau afin
d’interpréter la signification des CNVs et SNVs (Uddin et coll., 2014).
Même si les analyses de voies biologiques ne peuvent pas être utilisées pour impliquer un gène dans
une pathologie, le fait qu’un gène appartienne à un réseau fonctionnel déjà mis en évidence augmente la
probabilité qu’il soit lui-même impliqué. Récemment, des analyses de voies biologiques dans les TSA ont
intégré les profils d’expression des isoformes de chacun des gènes pour construire des réseaux
fonctionnels tissus-spécifiques (Corominas et coll., 2014). Pour une pathologie neurodéveloppementale
comme les TSA, étudier les interactions des transcrits exprimés dans le cerveau va permettre de créer des
réseaux fonctionnels plus pertinents et plus précis. De plus, la construction de réseaux de co-expression
situant les interactions entres les différents gènes dans un contexte spatio-temporel dans le cortex
cérébral permet également de mieux comprendre les effets de l’altération des gènes dans les TSA
(Parikshak et coll., 2013 ; Willsey et coll., 2013).
3.4 Etudes d’expression
Aujourd’hui, la PCR quantitative après transcription inverse (RT-qPCR) est la méthode de choix pour
tester l’impact d’un variant particulier sur l’expression d’un gène donné. Cette technique permet
d’identifier les gènes touchés par une délétion dont l’expression est altérée, de révéler des effets à
distance d’une délétion ou d’une duplication sur les gènes du voisinage génomique non touchés, les
conséquences d’une duplication partielle d’un gène ou encore les variations d’expression liées à des CNVs
touchant les régions régulatrices des gènes. Etant donné que l’accès à des échantillons cérébraux est très
limité, on peut tester l’expression dans le sang des patients. En effet, bien que seuls 60 % des gènes qui
sont exprimés dans le cerveau le soient aussi dans les lymphocytes (Cookson et coll., 2009), dans certains
cas, l’expression d’un gène dans les lignées lymphoblastoïdes peut refléter celles des lignées neuronales.
Par ailleurs, des études d’expression pangénomiques peuvent être utilisées pour mettre en évidence des
voies biologiques dérégulées dans les TSA ou dans des sous-groupes de patients définis génétiquement
(Luo et coll., 2012).
3.5 Analyses fonctionnelles
Des études fonctionnelles in vitro et/ou in vivo de ces variants peuvent permettre de mieux appréhender
leur potentiel caractère pathogène.
Il existe de multiples modèles in vitro permettant d’étudier l’impact de mutations trouvées chez des
patients. Le modèle doit être choisi selon la fonction du gène et peut inclure de la mutagénèse dirigée
dans des cellules de mammifères ou des analyses électrophysiologiques ou immunohistochimiques par
exemple. Parmi les modèles in vitro les plus prometteurs, on trouve les cellules souches pluripotentes
induites (induced pluripotent stem cells, iPS). Il s’agit d’obtenir des cellules neuronales en culture,
spécifiques d’une maladie, qui peuvent être utilisées pour étudier les bases cellulaires et moléculaires
impliquées dans l’étiologie de la pathologie (Figure 35). Ce modèle a déjà été utilisé dans différentes
maladies neurologiques incluant les TSA (Kim et coll., 2014 ; Pasca et coll., 2014).
Figure 35. Génération de cellules souches pluripotentes induites pour étudier la physiopathologie des TSA
Des cellules d’un patient sont prélevées (la plupart du temps, des lymphoblastes ou des fibroblastes), reprogrammées en cellules souches pluripotentes et dérivées dans un type cellulaire particulier en l’occurrence des neurones dans le cas des TSA. Les cellules ainsi obtenues permettent de définir les phénotypes associés et de tester un grand nombre de composés pharmacologiques dans l’espoir de trouver une thérapie applicable aux patients (figure tirée de Ghosh et coll., 2013).