Etude de l’expression génique 3. MATERIEL ET METHODES

(1)

3. MATERIEL ET METHODES

Seules les méthodes qui ne sont pas décrites dans les articles auxquels ont abouti ces travaux de thèse sont reprises ici :

3.1.

Etude de l’expression génique

Les microarrays permettent l’analyse simultanée de l’expression de plusieurs milliers de gènes dans différentes cellules et dans différentes conditions physiologiques, pathologiques ou toxicologiques. Le terme de «cible » (ou target) désigne l’ARNm que l’on cherche à identifier ou à quantifier, tandis que le terme de « sonde » (ou probe) correspond à une séquence nucléotidique connue et est soit greffée sur le support, soit synthétisée in situ. Le terme spot désigne l’ensemble des sondes identiques localisées à un endroit précis de la lame de microarrays. La cible marquée d’un fluorophore s’hybride sur la sonde et le signal en résultant est proportionnel à la quantité d’ARNm présent dans la cellule dont il provient. Deux technologies sont principalement utilisées pour analyser les ARNm : les microarrays simple canal et les microarrays double canaux.

3.1.1. Principe général

Deux technologies sont principalement utilisées pour analyser les ARNm : les microarrays simple canal et les microarrays double canaux.

3.1.2. Microarrays simple canaux: les lames Affymetrix

(2)

PM (perfect match) MM (missmatch) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 1 probeset = 14 paires de sondes correspondant à 1 gène ADNc : GATCGGGATTCGACATGACATTTGACCATCATGGTCAGCATCGAGGA GACATTTGACCAACATGGTCAGCAT GATCGGGATTCAACATGACATTTGA

Une puce est faite de quelques milliers à plusieurs centaine de milliers de carrés de 50µm x 50µm, 24µm x 24µm, 20µm x 20µm, 18µm x 18µm, 11µm x 11µm (suivant les modèles).

Chaque carré contient des millions de copies d'un oligonucléotide donné. La mesure de l’expression utilise 11 à 20 paires de carrés (1 probeset). Les différents oligonucléotides (sondes) d’un probeset ne sont pas dans des carrés contigus mais sont dispersés sur la puce.

1,28 cm

Figure 23 : Les puces Affymetrix

3.1.3. Microarrays double canaux

(3)

ARNm dans les lignées cellulaires (article 2). Les lames utilisées ont été confectionnées par Frédéric Libert (IRIBHM). Elles contiennent 23.232 spots dont 7.541 ADNc différents identifiés.

Figure 24 : principe des microarrays ADNc double canaux

3.1.4. Analyse des données microarrays

Trois considérations doivent être prises en compte en vue d’analyser les données:

1) Comment détecter un signal exploitable pour chaque gène? Voir paragraphe 3.1.4.1 et 3.1.4.2

2) Comment utiliser ce signal pour trouver les gènes différentiellement exprimés? On attribue aux échantillons une classe, les techniques d’analyses basées sur ce principe de départ étant appelées supervisées. Voir paragraphe 3.1.4.3

3) Comment regrouper des gènes ou des échantillons ayant un profil d’expression génique similaire? on analyse les échantillons de façon non supervisée, c’est à dire sans leur attribuer d’appartenance à un groupe ou une classe, et analyse leur regroupement potentiel à partir des similarités des profils d’expression Voir paragraphe 3.1.4.4.

(4)

3.1.4.1. Correction du bruit de fond

Les spots sont préalablement localisés grâce au placement d’une grille. Une étape préliminaire à la normalisation consiste à soustraire l’intensité du bruit de fond à celle du signal. Les spots dont le rapport d’intensité signal sur bruit n’est pas assez élevé (« Signal Noise Ratio » ou SNR<2, critère arbitraire) sont alors supprimés (filtrage).

3.1.4.2. La normalisation

La normalisation permet de corriger les différences systématiques entre les puces qui ne représentent pas des variations biologiques entre les échantillons. Elle réduit ainsi les effets systématiques, et rend possible la comparaison entre plusieurs microarrays. Ces biais peuvent, entre autres, être dus à des différences de puissance de lasers du scanner, à des différences d’incorporation de fluorophores, ou à une différence de leur efficacité, etc… Au niveau du concept, la normalisiation est une étape similaire à l’ajustement des niveaux d’expression mesurés par qRT‐PCR, relativement à l’expression d’un ou pplusieurs gènes de référence dont les niveaux d’expression sont supposés constants entre les échantillons. La représentations habituelle et la plus adaptées pour visualiser les biais systématiques et les effets de la normalisation est la représentation graphique « M‐A plot ». Ce graphique représente la variation en ordonnée (Y= log ratio) et l’intensité du signal en abscisse (Figure

25 A et B). Le nuage tend à s’incurver aux faibles intensités de signal au lieu de rester centré

autour de la droite d’équation Ri/Gi=1. La technique de normalisation utilisée est Loess (Local regrESSion). Cette méthode permet d’ajuster une courbe de normalisation à la forme du nuage par une régression quadratique locale (Figure 25 C et D), ce qui permet de normaliser chaque microarray de manière individuelle. Une normalisation inter‐microarrays est également réalisée.

Remarque: Pour compenser les biais techniques qui peuvent apparaître lors du marquage ou de l’hybridation, une technique courante est de réaliser deux fois la même expérience en intervertissant les fluorophores cy3 et cy5 (dye‐swap). La valeur d’intensité de chaque élément est la moyenne arithmétique du log2 des rapports .

(5)

Figure 25 : M/A plot : A. formule mathématique du calcul des axes de la représentation « M‐A ». B. Représentation schématique de la signification du M‐A plot. C. Exemple de graphique de données microarrays non normalisées. D. Exemple de graphique représentant es données après normalisation par l’algorithme Loess.

Ce types de normalisation décrits ci‐dessus concernent la normalisation des microarrays double canaux. Pour la normalisation des microarrays simple canal (Affymetrix), l’algorithme GCRMA est le plus souvent utilisé car il présente le meilleur compromis entre la précision (qui fait référence à la capacité de séparer les gènes régulés des non‐régulés) et l’exactitude (qui reflète la différence entre les valeurs d’expression réelles et estimées) (Irizarry et al., 2006).

3.1.4.3. La mesure de l’expression différentielle : SAM .

Cette analyse dite supervisée suppose de constituer des classes d’échantillons que l’on va ensuite comparer entre elles.

Un gène est considéré comme significativement surexprimé dans l’échantillon par rapport au contrôle si Ri/Gi ≥ 2 (soit log2(Ri/Gi) = 1), et inversement, significativement sous‐exprimé

(6)

régulé (soit log2 (Ri/Gi) = 0.58496 pour les gènes surexprimés soit ‐0.58496 pour les sous‐

exprimés).

SAM (Significance Analysis of Microarrays) (Tusher et al., 2001) est un algorithme qui permet d’identifier les gènes significativement régulés dans un ensemble d’échantillons.. Plusieurs variantes de cet algorithme existent dont SAM une classe et SAM deux classes. SAM une classe identifie, les gènes qui sont exprimés de manière significativement semblable dans un groupe d’échantillons donnés. SAM deux classes permet d’identifier les gènes dont l’expression est significativement différente entre 2 groupes d’échantillons donnés. Cette méthode utilise une variante du test t, en vue d’obtenir une mesure statistique de la signification de la différence d’expression, indépendant de la valeur d’expression, et ceci pour chaque gène: soit d qui est un score, soit le FDR ou « False Discovery Rate » ou « q value » méthode statistique utilisée dans les tests d'hypothèses multiples pour corriger les comparaisons multiples et qui, pratiquement, est le taux de faux positifs, soit la « q value ». 3.1.4.4. Visualisation des données ; analyses non supervisées. Le clustering hiérarchique Le clustering consiste à regrouper des gènes présentant des profils d’expressions similaires dans les expériences considérées ou de regrouper des échantillons ayant des profils d’expressions géniques ressemblants. Ceci permet d’établir des groupes de gènes régulés dans les conditions étudiées sans préjuger de leur fonction. Des hypothèses sur la fonction de gènes non caractérisés peuvent donc être émises en se référant aux fonctions connues des autres gènes co‐régulés, en se basant sur l’hypothèse que des gènes impliqués dans une même fonction cellulaire sont susceptibles d’être exprimés de manière coordonnée. D’autre part, regrouper des échantillons de profils d’expressions similaires permet de définir des groupes et sous‐groupes d’échantillons de phénotype d’expression comparable.

(7)

proche pour la «single linkage»). Figure 26. Le noeud est ensuite lui‐même comparé à un autre gène ou à un autre échantillon et ainsi, de proche en proche, les gènes ou les échantillons sont ordonnés de manière hiérarchique dans un dendrogramme. La longueur des branches de l’arbre représente la dissemblance entre chaque nœud. Elle est inversement proportionnelle à la ressemblance de profil d’expression entre les gènes ou les échantillons. Figure 26 : Les méthodes de clustering hiérarchique Le PCA (Analyse en Composantes Principales)

(8)

3.1.4.5. Analyse de la signature moléculaire identifiée Les groupes d’échantillons ayant un profil d’expression similaire étant regroupés en classes, on peut réaliser des études supervisées. Au moyen de bases de données bioinformatiques telle que « David Database »(Dennis, Jr. et al., 2003) on peut, à partir de la liste de gènes constituant la signature ‐c'est‐à‐dire les gènes

différentiellement exprimés entre les classes qui ont été identifiés par l’algorithme SAM‐ , distinguer si certaines voies de signalisation sont sur‐représentées ou si les gènes de cette signature sont plus particulièrement regroupés dans certaines ontologies (catégories par fonction, par processus biologique ou par compartiment cellulaire). L’emploi de l’outil « David Database », et d’autres outils bioinformatiques de ce type permet donc extraire, à partir d’un grand nombre de données –soit le nombre parfois important de gènes différentiellement exprimés‐ une information biologique.

Mais on peut également employer la totalité des données d’expression pour explorer la présence d’un enrichissement particulier de certaines fonctions ou certains « sets » de gènes au sein d’une des classes prédéfinies ; divers outils sont disponibles pour cela: la base de donnée MSIGdB (« Molecular Signatures Database ») est employée par l’algorithme « Gene Set Enrichment Analysis », soit GSEA (Subramanian et al., 2005). Le GSEA est une méthode de calcul qui détermine si un groupe de gènes défini à priori présente des différences statistiquement significatives entre deux classes d’échantillons.

GSEA peut utiliser la base de données des signatures moléculaires (MSigDB) qui répertorie des sets de gènes correspondant aux voies de signalisations et fonctions biologiques, des sets de gènes regroupés par localisation chromosomique ou dont l’expression dépend du même facteur de transcription, des sets de gènes issus d’études spécifiques (par exemple des gènes sur ou sous exprimés dans certaines tumeurs) et on peut également utiliser des set de gènes « maison », ou signatures. L’analyse GSEA s’effectue sur des expériences comportant les profils d'expression complets d’échantillons appartenant à deux classes étiquetés 1 ou 2. Les gènes sont classés en fonction de la corrélation entre leur expression et la distinction de classe en utilisant une métrique adaptée.

(9)

3.1.4.6. Classifieurs

Différents algorithmes existent pour construire des classifieurs qui tentent prédire à quelle classe appartient un échantillon d’après son profil d’expression. Ces algorithmes reposent sur des méthodes d’apprentissage automatique supervisé ou « machine learning », et essayent de produire automatiquement des règles à partir d’une base de données d’apprentissage contenant des exemples ou des cas déjà connus et validés; on établit ainsi un modèle, appelé classifieur, qui est construit dans notre cas à partir des données d’expression d’un ensemble d’échantillon dont on connaît l’appartenance à telle ou telle classe.

La méthode des k‐plus proches voisins KNN

Parmi ces algorithmes la méthode des k‐plus proches voisins (« k‐Nearest‐Neighbor » ou

KNN) classe un échantillon en lui attribuant la classe la plus souvent représentée parmi les k échantillons les plus proches. Gene Pattern implémente KNN et teste ce classifieur obtenu par validation croisée par la méthode du « leave one out » (KNNXvalidation), où on laisse de manière itérative un échantillon en dehors, et on forme un modèle sur les données restantes, qu’on teste ensuite sur l’échantillon laissé de côté. (Golub et al., 1999) .

La méthode SVM

(10)

lequel il est probable qu'il existe une séparatrice linéaire. Ceci est réalisé grâce à une fonction noyau.

Le principe d’un SVM ne s’applique que pour un problème à 2 classes. La généralisation à des classes multiples implique une décomposition du problème initial en un ensemble de sous‐problèmes binaires opposant une classe particulière à l’agrégation de l’ensemble des autres classes (« one versus all ») ou toutes les classes 2 à 2 (« one versus one »). Un SVM binaire est créé pour chacun de ces sous‐problèmes binaires. La résolution du problème initial s’effectue en combinant les prédictions de chacun de ces classifieurs binaires . Si la méthode choisie est le « one versus all », le classifieur est celui disposant de la plus grande marge, si on a choisi le « one versus one » la classe est celle qui est sélectionnée par le plus grand nombre de classifieurs. (Meyer, 2011) La méthode « Random Forest »

Les forêts d'arbres décisionnels, également appelées forêts aléatoires, de l'anglais «Random decision forest», font partie des techniques d'apprentissage automatique. Cet algorithme

combine les concepts de sous‐espaces aléatoires et de «bagging». L'algorithme des forêts d'arbres décisionnels effectue un apprentissage sur de multiples arbres de décision entraînés sur des sous‐ensembles de données légèrement différents.(Liaw, 2011) C’est la méthode qui est la moins sujette à l’ « overfitting »

3.1.5. Confirmation des signatures moléculaires par qRT‐PCR

La PCR en temps réel ou qRT‐PCR permet de quantifier les ARN messagers ; on l’emploie habituellement pour confirmer et valider les résultats d’expression obtenus par microarrays, en comparant par exemple le nombre de molécules d’ARN présent dans une tumeur avec celui détecté dans un tissus normal.

(11)

on mesure et détecte l’accumulation du produit amplifié tout au long de la réaction, c'est‐à‐ dire donc en temps réel. La technique de mesure de l’abondance d’un transcrit peut être relative ou absolue, nous avons employé la méthode dite du « SYBR‐Green », qui est relative. Matériel : Sybr‐Green MasterMix (Applied Biosystems) Eau miliQ 7500 Fast Real Time PCR (Applied Biosystems) Méthode: Après traitement à la DNase (DNase I Amplification Grade, Invitrogen) visant à éliminer toute trace d’ADN pouvant interférer avec l’amplification, l’ARN total est rétrotranscrit en ADN complémentaire (ADNc) à l’aide du kit Superscript II RNase H Reverse Transcriptase (Invitrogen), en présence de RNase Out.

L’ADNc est ensuite amplifié à l’aide du mélange SyberGreen MasterMix (Applied Biosystems) et d’amorces spécifiques pour chaque gène considéré. Le SybrGreen est un agent intercalant de l’ADN : ayant la propriété de se fixer dans tout type d’acide nucléique double brin, il devient alors fluorescent, ce qu’il n’est pas à l’état libre. Cette propriété permet de suivre la synthèse d’ADN double brin dans le mélange réactionnel de la PCR : l’augmentation de la fluorescence mesurée pendant la polymérisation est proportionnelle au nombre de produits amplifiés formés (amplicons); l’émission fluorescente décroit complètement durant l’étape de dénaturation du cycle suivant. La spécificité de la réaction repose totalement sur les amorces.