• Aucun résultat trouvé

Etude de l’expression génique 3. MATERIEL ET METHODES

N/A
N/A
Protected

Academic year: 2021

Partager "Etude de l’expression génique 3. MATERIEL ET METHODES"

Copied!
11
0
0

Texte intégral

(1)

3. MATERIEL ET METHODES  

Seules  les  méthodes  qui  ne  sont  pas  décrites  dans  les  articles  auxquels  ont  abouti  ces  travaux de thèse sont reprises ici : 

3.1.

Etude de l’expression génique 

Les  microarrays  permettent  l’analyse  simultanée  de  l’expression  de  plusieurs  milliers  de  gènes dans différentes cellules et dans différentes conditions physiologiques, pathologiques  ou  toxicologiques.  Le  terme  de  «cible »  (ou  target)  désigne  l’ARNm  que  l’on  cherche  à  identifier  ou  à  quantifier,  tandis  que  le  terme  de  « sonde »  (ou  probe)  correspond  à  une  séquence nucléotidique connue et est soit greffée sur le support, soit synthétisée in situ. Le  terme  spot  désigne  l’ensemble  des  sondes  identiques  localisées  à  un  endroit  précis  de  la  lame de microarrays. La cible marquée d’un fluorophore s’hybride sur la sonde et le signal en  résultant est proportionnel à la quantité d’ARNm présent dans la cellule dont il provient.  Deux  technologies  sont  principalement  utilisées  pour  analyser  les  ARNm :  les  microarrays  simple canal et les microarrays double canaux.  

3.1.1. Principe général 

Deux  technologies  sont  principalement  utilisées  pour  analyser  les  ARNm :  les  microarrays  simple canal et les microarrays double canaux.  

3.1.2. Microarrays simple canaux: les lames Affymetrix 

(2)

PM (perfect match) MM (missmatch) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 1 probeset = 14 paires de sondes correspondant à 1 gène ADNc : GATCGGGATTCGACATGACATTTGACCATCATGGTCAGCATCGAGGA GACATTTGACCAACATGGTCAGCAT GATCGGGATTCAACATGACATTTGA

Une puce est faite de quelques milliers à plusieurs centaine de milliers de carrés de 50µm x 50µm, 24µm x 24µm, 20µm x 20µm, 18µm x 18µm, 11µm x 11µm (suivant les modèles).

Chaque carré contient des millions de copies d'un oligonucléotide donné. La mesure de l’expression utilise 11 à 20 paires de carrés (1 probeset). Les différents oligonucléotides (sondes) d’un probeset ne sont pas dans des carrés contigus mais sont dispersés sur la puce.

1,28 cm

Figure 23 : Les puces Affymetrix 

 

3.1.3. Microarrays double canaux 

(3)

ARNm dans les lignées cellulaires (article 2). Les lames utilisées ont été confectionnées par  Frédéric  Libert  (IRIBHM).  Elles  contiennent  23.232  spots  dont  7.541  ADNc  différents  identifiés. 

 

  Figure 24 : principe des microarrays ADNc double canaux 

3.1.4. Analyse des données microarrays 

Trois considérations doivent être prises en compte en vue d’analyser les données: 

1) Comment  détecter  un  signal  exploitable  pour  chaque  gène?  Voir  paragraphe  3.1.4.1 et 3.1.4.2  

2) Comment  utiliser  ce  signal  pour  trouver  les  gènes  différentiellement  exprimés?  On attribue aux échantillons une classe, les techniques d’analyses basées sur ce  principe de départ étant appelées supervisées.   Voir paragraphe 3.1.4.3 

3) Comment  regrouper  des  gènes  ou  des  échantillons  ayant  un  profil  d’expression  génique  similaire?  on  analyse  les  échantillons  de  façon  non  supervisée,  c’est  à  dire sans leur attribuer d’appartenance à un groupe ou une classe, et analyse leur  regroupement  potentiel  à  partir  des  similarités  des  profils  d’expression  Voir  paragraphe 3.1.4.4. 

(4)

3.1.4.1. Correction du bruit de fond 

Les  spots  sont  préalablement  localisés  grâce  au  placement  d’une  grille.  Une  étape  préliminaire  à  la  normalisation  consiste  à  soustraire  l’intensité  du  bruit  de  fond  à  celle  du  signal.  Les  spots  dont  le  rapport  d’intensité  signal  sur  bruit  n’est  pas  assez  élevé («   Signal  Noise Ratio » ou SNR<2, critère arbitraire) sont alors supprimés (filtrage).  

 

3.1.4.2. La normalisation 

La  normalisation  permet  de  corriger  les  différences  systématiques  entre  les  puces  qui  ne  représentent pas des variations biologiques entre les échantillons. Elle réduit ainsi les effets  systématiques,  et  rend  possible  la  comparaison  entre  plusieurs  microarrays.  Ces  biais  peuvent, entre autres, être dus à des différences de puissance de lasers du scanner, à des  différences d’incorporation de fluorophores, ou à une différence de leur efficacité, etc…  Au niveau du concept, la normalisiation est une étape similaire à l’ajustement des niveaux  d’expression mesurés par qRT‐PCR, relativement à l’expression d’un ou pplusieurs gènes de  référence dont les niveaux d’expression sont supposés constants entre les échantillons.  La représentations habituelle et la plus adaptées pour visualiser les biais systématiques et les  effets  de  la  normalisation  est  la  représentation  graphique  « M‐A  plot ».  Ce  graphique  représente la variation en ordonnée (Y= log ratio) et l’intensité du signal en abscisse (Figure 

25 A et B). Le nuage tend à s’incurver aux faibles intensités de signal au lieu de rester centré 

autour  de  la  droite  d’équation  Ri/Gi=1.  La  technique  de  normalisation  utilisée  est  Loess  (Local regrESSion). Cette méthode permet d’ajuster une courbe de normalisation à la forme  du  nuage  par  une  régression  quadratique  locale  (Figure  25  C  et  D),  ce  qui  permet  de  normaliser chaque microarray de manière individuelle. Une normalisation inter‐microarrays  est également réalisée.  

Remarque: Pour compenser les biais techniques  qui peuvent apparaître lors du marquage  ou de l’hybridation, une technique  courante est de réaliser deux fois la même expérience en  intervertissant  les  fluorophores  cy3  et  cy5  (dye‐swap).  La  valeur  d’intensité  de  chaque  élément est la moyenne arithmétique du log2 des rapports . 

(5)

 

 

Figure  25 : M/A  plot :  A.  formule  mathématique  du  calcul  des  axes  de  la  représentation  « M‐A ».  B.  Représentation schématique de la signification du M‐A plot. C. Exemple de graphique de données microarrays  non  normalisées.  D.  Exemple  de  graphique  représentant  es  données  après  normalisation  par  l’algorithme  Loess. 

   

Ce  types  de  normalisation  décrits  ci‐dessus  concernent  la  normalisation  des  microarrays  double canaux. Pour la normalisation des microarrays simple canal (Affymetrix), l’algorithme  GCRMA  est  le  plus  souvent  utilisé  car  il  présente  le  meilleur  compromis  entre  la  précision  (qui fait référence à la capacité de séparer les gènes régulés des non‐régulés) et l’exactitude  (qui  reflète  la  différence  entre  les  valeurs  d’expression  réelles  et  estimées)  (Irizarry  et  al.,  2006). 

 

3.1.4.3. La mesure de l’expression différentielle : SAM . 

Cette  analyse  dite  supervisée  suppose  de  constituer  des  classes  d’échantillons  que  l’on  va  ensuite comparer entre elles. 

Un  gène  est  considéré  comme  significativement  surexprimé  dans  l’échantillon  par  rapport  au contrôle si Ri/Gi ≥ 2 (soit log2(Ri/Gi) = 1), et inversement, significativement sous‐exprimé 

(6)

régulé  (soit  log2 (Ri/Gi)  =  0.58496  pour  les  gènes  surexprimés  soit  ‐0.58496  pour  les  sous‐

exprimés). 

SAM (Significance Analysis of Microarrays) (Tusher et al., 2001) est un algorithme qui permet  d’identifier  les  gènes  significativement  régulés  dans  un  ensemble  d’échantillons..  Plusieurs  variantes  de  cet  algorithme  existent dont  SAM  une  classe  et  SAM  deux  classes.  SAM  une  classe identifie, les gènes qui sont exprimés de manière significativement semblable dans un  groupe  d’échantillons  donnés.  SAM  deux  classes  permet  d’identifier  les  gènes  dont  l’expression  est  significativement  différente  entre  2  groupes  d’échantillons  donnés.  Cette  méthode  utilise  une  variante  du  test  t,  en  vue  d’obtenir  une  mesure  statistique  de  la  signification  de  la  différence  d’expression,  indépendant  de  la  valeur  d’expression,  et  ceci  pour  chaque  gène:  soit  d  qui  est  un  score,  soit  le  FDR  ou  « False  Discovery  Rate »  ou  « q  value » méthode statistique utilisée dans les tests d'hypothèses multiples pour corriger les  comparaisons multiples et qui, pratiquement, est le taux de faux positifs, soit la « q value ».    3.1.4.4. Visualisation des données ; analyses non supervisées.  Le clustering hiérarchique  Le clustering consiste à regrouper des gènes présentant des profils d’expressions similaires  dans  les  expériences  considérées  ou  de  regrouper  des  échantillons  ayant  des  profils  d’expressions  géniques  ressemblants.  Ceci  permet  d’établir  des  groupes  de  gènes  régulés  dans les conditions étudiées sans préjuger de leur fonction. Des hypothèses sur la fonction  de gènes non caractérisés peuvent donc être émises en se référant aux fonctions  connues  des autres gènes co‐régulés, en se basant sur l’hypothèse que des gènes impliqués dans une  même fonction cellulaire sont susceptibles d’être exprimés de manière coordonnée. D’autre  part,  regrouper  des  échantillons  de  profils  d’expressions  similaires  permet  de  définir  des  groupes et sous‐groupes d’échantillons de phénotype d’expression comparable. 

(7)

proche  pour  la  «single  linkage»).  Figure  26. Le  noeud  est  ensuite  lui‐même  comparé  à  un  autre  gène  ou  à  un  autre  échantillon  et  ainsi,  de  proche  en  proche,  les  gènes  ou  les  échantillons  sont  ordonnés  de  manière  hiérarchique  dans  un  dendrogramme.  La  longueur  des  branches  de  l’arbre  représente  la  dissemblance  entre  chaque  nœud.  Elle  est  inversement proportionnelle à la ressemblance de profil d’expression entre les gènes ou les  échantillons.     Figure 26 : Les méthodes de clustering hiérarchique    Le  PCA (Analyse en Composantes Principales) 

(8)

  3.1.4.5. Analyse de la signature moléculaire identifiée  Les groupes d’échantillons ayant un profil d’expression similaire étant regroupés en classes,  on peut réaliser des études supervisées.  Au moyen de bases de données bioinformatiques telle que « David Database »(Dennis, Jr. et  al., 2003) on peut, à partir de la liste de gènes constituant la signature ‐c'est‐à‐dire les gènes 

différentiellement  exprimés  entre  les  classes  qui  ont  été  identifiés  par  l’algorithme  SAM‐  ,  distinguer si certaines voies de signalisation sont sur‐représentées ou si les gènes de cette  signature  sont  plus  particulièrement  regroupés  dans  certaines  ontologies  (catégories  par  fonction,  par  processus  biologique  ou  par  compartiment  cellulaire).  L’emploi  de  l’outil  « David Database », et d’autres outils bioinformatiques de ce type  permet donc extraire, à  partir  d’un  grand  nombre  de  données  –soit  le  nombre  parfois  important  de  gènes  différentiellement exprimés‐ une information biologique. 

Mais  on  peut  également  employer  la  totalité  des  données  d’expression  pour  explorer  la  présence d’un enrichissement particulier de certaines fonctions ou certains « sets » de gènes  au  sein  d’une  des  classes  prédéfinies ;  divers  outils  sont  disponibles  pour  cela:  la  base  de  donnée MSIGdB (« Molecular Signatures Database ») est employée par l’algorithme « Gene  Set Enrichment Analysis », soit GSEA (Subramanian et al., 2005). Le GSEA est une méthode  de  calcul  qui  détermine  si  un  groupe  de  gènes  défini  à  priori  présente  des  différences  statistiquement significatives entre deux classes d’échantillons.

 

GSEA peut utiliser la base de  données  des  signatures  moléculaires  (MSigDB)  qui  répertorie  des  sets  de  gènes  correspondant  aux  voies  de  signalisations  et  fonctions  biologiques,  des  sets  de  gènes  regroupés par localisation chromosomique ou dont l’expression dépend du même facteur de  transcription,  des  sets  de  gènes  issus  d’études  spécifiques  (par  exemple  des  gènes  sur  ou  sous  exprimés  dans  certaines  tumeurs)  et  on  peut  également  utiliser  des  set  de  gènes  « maison »,  ou  signatures.   L’analyse  GSEA  s’effectue  sur  des  expériences  comportant  les  profils  d'expression  complets  d’échantillons  appartenant  à  deux  classes    étiquetés  1  ou  2.  Les  gènes  sont  classés  en  fonction  de  la  corrélation  entre  leur  expression et la distinction de classe en utilisant une métrique adaptée. 

(9)

 

3.1.4.6. Classifieurs 

Différents algorithmes existent pour construire des classifieurs qui tentent  prédire à quelle  classe  appartient  un  échantillon  d’après  son  profil  d’expression.  Ces  algorithmes  reposent  sur  des  méthodes  d’apprentissage  automatique  supervisé  ou  « machine  learning »,  et  essayent  de  produire  automatiquement  des  règles  à  partir  d’une  base  de  données  d’apprentissage contenant des exemples ou des cas déjà connus et validés; on établit ainsi  un  modèle,  appelé  classifieur,  qui  est  construit  dans  notre  cas  à  partir  des  données  d’expression  d’un  ensemble  d’échantillon  dont  on  connaît  l’appartenance  à  telle  ou  telle  classe.  

La méthode des k‐plus proches voisins KNN 

Parmi  ces  algorithmes  la  méthode  des  k‐plus  proches  voisins  (« k‐Nearest‐Neighbor »  ou

KNN) classe un échantillon en lui attribuant la classe la plus souvent représentée parmi les k  échantillons les plus proches. Gene Pattern implémente KNN et teste ce classifieur obtenu  par validation croisée par la méthode du « leave one out »  (KNNXvalidation), où on laisse de  manière  itérative  un  échantillon  en  dehors,    et  on  forme  un  modèle  sur  les  données  restantes, qu’on teste ensuite sur l’échantillon laissé de côté. (Golub et al., 1999) .  

La méthode SVM  

(10)

lequel  il  est  probable  qu'il  existe  une  séparatrice  linéaire.  Ceci  est  réalisé  grâce  à  une  fonction noyau. 

Le  principe  d’un  SVM  ne  s’applique  que  pour  un  problème  à  2  classes.  La  généralisation  à  des  classes  multiples  implique  une  décomposition  du  problème  initial  en  un  ensemble  de  sous‐problèmes  binaires  opposant  une  classe  particulière  à  l’agrégation  de  l’ensemble  des  autres classes (« one versus all ») ou toutes les classes 2 à 2 (« one versus one »).  Un SVM binaire est créé pour chacun de ces sous‐problèmes binaires.   La résolution du problème initial s’effectue en combinant les prédictions de chacun de ces  classifieurs binaires .   Si la méthode choisie est le  « one  versus all »,  le classifieur est celui disposant de la plus  grande marge, si on a choisi le « one versus one »  la classe est celle qui est sélectionnée par  le plus grand nombre de classifieurs.  (Meyer, 2011)  La méthode « Random Forest » 

Les forêts d'arbres décisionnels, également appelées forêts aléatoires, de l'anglais «Random  decision  forest»,  font  partie  des  techniques  d'apprentissage  automatique.  Cet  algorithme 

combine  les  concepts  de  sous‐espaces  aléatoires  et  de  «bagging».  L'algorithme  des  forêts  d'arbres décisionnels effectue un apprentissage sur de multiples arbres de décision entraînés  sur des sous‐ensembles de données légèrement différents.(Liaw, 2011)  C’est la méthode qui est la moins sujette à l’  « overfitting »   

3.1.5. Confirmation des signatures moléculaires par qRT‐PCR 

 

La  PCR  en  temps  réel  ou  qRT‐PCR  permet  de  quantifier  les  ARN  messagers ;  on  l’emploie  habituellement pour confirmer et valider les résultats d’expression obtenus par microarrays,  en  comparant  par  exemple  le  nombre  de  molécules  d’ARN  présent  dans  une  tumeur  avec  celui détecté dans un tissus normal. 

(11)

on mesure et détecte l’accumulation du produit amplifié tout au long de la réaction, c'est‐à‐ dire  donc  en  temps  réel.  La  technique  de  mesure  de  l’abondance  d’un  transcrit  peut  être  relative  ou  absolue,  nous  avons  employé  la  méthode  dite  du  « SYBR‐Green »,  qui  est  relative.    Matériel :   Sybr‐Green MasterMix (Applied Biosystems)        Eau miliQ        7500 Fast Real Time PCR (Applied Biosystems)  Méthode:   Après traitement à la DNase (DNase I Amplification Grade, Invitrogen) visant à éliminer toute  trace  d’ADN  pouvant  interférer  avec  l’amplification,  l’ARN  total  est  rétrotranscrit  en  ADN  complémentaire  (ADNc)  à  l’aide  du  kit  Superscript  II  RNase  H  Reverse  Transcriptase  (Invitrogen), en présence de RNase Out. 

L’ADNc est ensuite amplifié à l’aide du mélange SyberGreen MasterMix (Applied Biosystems)  et d’amorces spécifiques pour chaque gène considéré. Le SybrGreen est un agent intercalant  de  l’ADN :  ayant  la  propriété  de  se  fixer  dans  tout  type  d’acide  nucléique  double  brin,  il  devient alors fluorescent, ce qu’il n’est pas à l’état libre. Cette propriété permet de suivre la  synthèse  d’ADN  double  brin  dans  le  mélange  réactionnel  de  la  PCR :  l’augmentation  de  la  fluorescence mesurée pendant la polymérisation est proportionnelle au nombre de produits  amplifiés  formés  (amplicons);  l’émission  fluorescente  décroit  complètement  durant  l’étape  de  dénaturation  du  cycle  suivant.  La  spécificité  de  la  réaction  repose  totalement  sur  les  amorces. 

Références

Documents relatifs

L’objectif de notre étude a été d’évaluer les connaissances attitudes et pratiques des mères dans le domaine de la prise en charge de leurs enfants en âge préscolaire depuis

En principe la fonction f est monotone sur l’intervalle et doit donc donner une image positive à l’une des bornes de celui-ci.. On peut ensuite passer à l’étude des variations

C’est en 1996, que l’équipe de Kmiec montra pour la première fois que des oligonucléotides chimères pouvaient corriger in vitro une mutation ponctuelle tout d’abord sur de

qu 'il n'existe pas de règle pour ces exceptions et l 'on peut suggérer que certaines de ces délétions en phase entraînent, par leur localisation , et non pas

Une öse d’un tube positif est inoculée dans un tube du milieu Schubert avec cloche, et une autre dans un tube d’eau peptonée.. Si après incubation à 44ºC pendant

1) Champ de forces et énergie potentielle 2) Energie potentielle et forces conservatives 3) Exemples de calcul d’énergie potentielle IV. Etude qualitative d’un point matériel

1) Champ de forces et énergie potentielle 2) Energie potentielle et forces conservatives 3) Exemples de calcul d’énergie potentielle IV. Etude qualitative d’un point matériel

Attention, le titre peut être écrit dans les trois écritures que tu connais... Relie ensuite entre eux les mots