• Aucun résultat trouvé

Partie 2 : Génomique des lymphomes B-diffus à grandes cellules en rechute

3. LES PUCES A ADN

3.2. Etude du transcriptome

Une des principales applications de cette technologie est l’analyse du transcriptome, c’est-à-dire la mesure simultanée, à un instant t, de l’ensemble des ARN messagers présents dans un échantillon biologique. La détection et la quantification relative des acides nucléiques est possible grâce à leur marquage par un fluorochrome : le signal mesuré sur chaque sonde est proportionnel au nombre d’ARN messagers et donc à l’expression du gène.

Nous avons utilisé la puce Agilent Whole Human Genome Microarray 4x44K (Agilent technologies, Santa Clara, CA, États-Unis d’Amérique). Cette puce à ADN contient 4 emplacements de 44 000 sets de sondes destinées à mesurer le niveau d’expression de 43 370 gènes et transcrits humains.

Le scanner Agilent possède une résolution de l’ordre de 1 µm. Le laser excitateur frappe les fluorochromes et les photomultiplicateurs mesurent la fluorescence émise en retour. Les images traitées par un logiciel spécifique et les différentes intensités de fluorescence sont décomposées, mesurées et attribuées aux différents échantillons. Après soustraction du bruit de fond, vérification des contrôles internes et traitement logarithmique du signal, on obtient une matrice mettant en correspondance la liste de l’ensemble des transcrits mesurés et l’intensité de fluorescence correspondante. Les plus souvent, les gènes sont disposés verticalement et les échantillons horizontalement (Figure 30).

Figure 30. Obtention de la matrice d’expression des gènes. D’après Bogard et al.(156)

3.2.1. Normalisation des données

La normalisation des données est une étape indispensable pour pouvoir comparer les données issues de plusieurs arrays en supprimant toute influence non biologique ou biais expérimental : amplification inégale, hybridation inégale, marquage d’efficacité différente (taux d’incorporation des différents fluorochromes), quantité et qualité de l’ARN, intensité différente des fluorochromes (différence de comportement).

Ces méthodes reposent sur deux hypothèses principales: la majorité́ des gènes n'ont pas d'expression différentielle entre les deux conditions étudiées, et les effets systématiques observés ne sont pas des effets biologiques. La méthode que nous avons utilisé est la méthode du LOWESS (Locally weight scatterplot smoothing).(157) Il s’agit d’une méthode de régression pondérée locale permettant d'éliminer les biais non linéaires. Chaque échantillon va être normalisé par rapport à un profil de référence, comme par exemple le profil médian, à l'aide d'une fenêtre glissante. Une fonction de régression est calculée pour chaque fenêtre, ce qui va permettre de construire une courbe d'ajustement global pour normaliser les données (Figure 31).

La Log-transformation préalable des données ainsi que leur centrage sur la valeur médiane : log(mesure)-log(médiane) = log(mesure/médiane), permet de donner le même poids à toutes les valeurs, en particulier en diminuant le poids des valeurs extrêmes. Après cette transformation, la distribution des données se rapproche d’une Gaussienne.

Pour permettre une meilleure visualisation d’ensemble et une meilleure compréhension des données, les intensités de fluorescence composant la matrice sont converties en couleurs. Cette matrice de couleurs correspond à une représentation relative du niveau d’expression des gènes comparativement à l’échantillon médian, qui est construit en calculant pour chaque gène la médiane du niveau de fluorescence. Par convention, un transcrit surexprimé par rapport à l’échantillon médian apparaitra en rouge, l’intensité du rouge étant proportionnelle au degré de surexpression. De la même façon, un transcrit sous-exprimé par rapport à l’échantillon médian apparaitra en vert, l’intensité du vert étant proportionnelle au degré de sous-expression.

L’étape suivante est de regrouper les données (gènes et échantillons) par similitude pour regrouper des échantillons ou des gènes ayant un comportement identique. Nous utilisons la méthode des K-means et la classification hiérarchique,(158) qui sont des méthodes d’analyse non supervisées.

Figure 31. Normalisation. A. Lowess; B. Statistiques descriptives avant et après normalisation; C. Corrélation de chaque échantillon par rapport au profil médian avant et après normalisation.

3.2.2. Regroupement des données selon la méthode du K-means

Il s’agit d’une méthode itérative et dynamique qui suppose la définition d’un nombre x de classes parmi lesquelles les échantillons seront classés. Le nombre p de permutations et le nombre de classes sont définis initialement. Les données sont préalablement normalisées, log-transformées et log-centrées. La mesure de similarité utilisée est la corrélation de Pearson. Chaque classe est définie par la valeur médiane des échantillons qui la composent. Les x premières valeurs définissent les x premières classes, puis les valeurs suivantes sont incorporées

valeur médiane. Chaque incorporation d’un nouvel échantillon dans une classe modifie automatiquement sa valeur médiane.

Au final, les gènes sont classés au sein d’une matrice de x classes ou clusters. Les clusters d’intérêts sont ensuite étudiés. La classification choisie est celle qui est la plus souvent retrouvée au terme de p permutations (Figure 32).

Figure 32. Exemple d’utilisation de la méthode du K-means. D’après Chen et al.(159)MDD : Methyl Donor Deficient

3.2.3. Regroupement des données selon la méthode de la classification hiérarchique

La classification hiérarchique permet le regroupement des gènes en fonction de leur niveau d’expression et des échantillons selon leur profil d’expression. Le principe de cette méthode est de calculer une distance entre toutes les paires de gènes et d'échantillons possibles afin de regrouper de manière ascendante les gènes et les échantillons les plus similaires entre eux. L'objectif de ce regroupement est d'avoir des distances inter-groupes fortes, et des distances intra-groupes faibles (Figure 33).

Figure 33. Principe de la classification hiérarchique. D’après Bogard et al.(156)

Il a été démontré que chaque cluster identifié par le clustering hiérarchique contient des gènes co-régulés, dont l'expression est corrélée, qui participent à une fonction biologique. Cette méthode permet donc d’identifier des signatures d’expression spécifiques d'un type d'échantillon, offrant un intérêt physiopathologique (Figure 34).

Figure 34. Exemple de résultat obtenu grâce à la méthode de la classification hiérarchique. D’après Bogard et al.(156)

3.2.4. Annotation fonctionnelle des clusters

L’étape suivante est d’identifier les fonctions biologiques correspondant aux différents

clusters de gènes obtenus. Il s’agit de l’annotation fonctionnelle des gènes. Pour cela, il est

nécessaire d’utiliser un vocabulaire structuré et contrôlé pour qualifier la fonction des gènes. Le langage utilisé est le Gene Ontology (GO).(160) Son objectif est d’établir un vocabulaire structuré, contrôlé (ontologie) décrivant les gènes ou produits de gènes selon le processus biologique, la localisation cellulaire ou les fonctions moléculaires. Processus biologique, fonction moléculaire et composant cellulaire sont les trois catégories de GO. « Processus biologique » se réfère à un objet biologique auquel le produit du gène contribue, « fonction moléculaire » correspond à l'activité biochimique d'un produit du gène et « composant cellulaire » se réfère à la zone géographique de la cellule où le produit du gène est actif (Figure 35). Plusieurs outils d’annotation ont été développés à partir des termes GO pour identifier des fonctions biologiques dans un groupe de gènes. Le principe de ces outils est d’identifier des termes GO statistiquement sur- ou sous-représentés dans le groupe de gènes étudié́ par rapport à l’ensemble des gènes considérés dans l’étude.(161) A partir de la liste des gènes d’un groupe, et de la liste complète des gènes obtenus après normalisation sur la puce à ADN, cet outil fournit une liste d’annotations fonctionnelles, chacune associée à une p-valeur. En plus de cette p-valeur, nous effectuons un calcul d’enrichissement, afin de tenir compte du nombre de gènes ayant l’annotation considérée. En effet, selon la fonction, le nombre de gènes concernés peut être très variable et le calcul de l’enrichissement permet en plus de savoir si l’annotation fonctionnelle est sur- ou sous-représentée dans le cluster, ce que n’indique pas la p-valeur.

3.3. Etude des anomalies du nombre de copies géniques et des