• Aucun résultat trouvé

Statistique des microarrays

Dans le document Faculté de Médecine (Page 70-73)

hodes ire

4.4 Statistique des microarrays

4.4.1 Fold Change et logarithme du Fold Change

Si la condition expérimentale stimulée exprime 4 fois plus la sonde étudiée que la condition témoin, on dit que le gène est sur-exprimé par la stimulation. Le ratio nommé Fold Change (FC) est égal à = 4. Pour les gènes sur-exprimés le FC est supérieur à 1.

Si la condition expérimentale stimulée exprime 4 fois moins la sonde étudiée que la condition témoin, on dit que le gène est sous-exprimé par la stimulation. Le FC est égal à = 0,25. Pour les gènes sous-exprimés le FC se situe entre 0 et 1.

Pour obtenir une meilleure symétrie lors de la visualisation des résultats, les valeurs des FC sont transformées en valeurs logarithmiques (base 2). Une transformée logarithmique est symétrique à sa transformée inverse (log2 (X) = -log2 ( )). Lorsque l'on compare l'expression d'un gène entre sa condition A (stimulée) et B (témoin), la valeur obtenue a la même valeur absolue que l'on compare A vs B ou B vs A et le signe indique le sens de l'expression.

Exemple (échantillon stimulé par rapport au témoin) :

- gène sur-exprimé 4 fois : FC = = 4 log2 (FC) = log2 ( ) = log2 (4) - log2 (1) = 2 - gène sous-exprimé 4 fois : FC = = 0,25 log2 (FC) = log2 ( ) = log2 (1) - log2 (4) = -2

1http://frodo.wi.mit.edu

2http://www.ncbi.nlm.nih.gov/nuccore

3http://blast.ncbi.nlm.nih.gov Dernier accès le 07/09/ 2015

4.4.1.1

Relative Fold Change

Par convention, afin de mieux visualiser la variation de l'expression, il est admis qu'un FC < 1 (sous-exprimé) s'écrive avec sa valeur inverse ( ) précédée d'un signe négatif pour indiquer la sous-expression; c'est le "Relative FC" que nous écrirons FCR [Chen et al., 2003; Ingersoll et al., 2010; Liu et al., 2015]. Les calculs logarithmiques se font exclusivement à partir du FC original (compris entre 0 et 1 pour les gènes sous-exprimés).

Si FC > 1 alors FCR = FC et si FC < 1 alors FCR = - Exemple : si FC = 0,25, par convention, FCR = - , = -4

4.4.1.2

Fold Change et réplicas biologiques

Trois réplicas biologiques ont été analysés pour chacune des conditions expérimentales (J-3, J1, J4S, J4T, J7S, J7T, J12S ou J12T). Après normalisation, les taux d'expression sont exprimés sous forme logarithmique. Le FC entre la condition expérimentale A et B pour une sonde donnée peut être obtenu en calculant la différence entre la moyenne arithmétique de l'expression (log2) de la sonde dans les 3 puces microarrays (condition expérimentale A) et celle de la condition expérimentale B.

Calculer le log2 (FC) en réalisant la moyenne arithmétique des log2 (FC) obtenus pour chacun des réplicas donne le même résultat.

Si pour une raison quelconque le calcul du FC se fait à partir du taux d'expression réel (non transformé en log2) c'est la moyenne géométrique qui est alors utilisée.

4.4.2 Variation significative de l'expression des gènes

Dans le manuscrit, les FC sont écrits sous la forme FCR ousous la forme logarithmique avec l'indication log2 (FC).

En accord avec les valeurs classiquement admises dans la littérature, nous avons défini une sonde microarray comme présentant une variation significative de son expression si la valeur de p après un test t de Student est inférieure ou égale à 0,05 et si la valeur absolue du FCR est supérieure ou égale à 2 (IFCRI ≥ 2).

4.4.3 Normalisation et analyse statistique des données microarrays

La normalisation et l'analyse statistique des puces à ADN ont été effectuées en utilisant le programme ArrayAssist1 Expression (Agilent Technologies-Stratagene Products) pour l'analyse de la variance (ANOVA) et l'analyse des k-means. L'analyse de la variance a été menée sur les résultats des échantillons témoins (J1, J4T, J7T, J12T) et stimulés (J1, J4S, J7S, J12S).

Le partitionnement de données (data clustering) est une méthode statistique d'analyse qui divise un ensemble de données en différents "paquets" homogènes (ou clusters). Le partitionnement en k-moyennes (ou k-means) est une méthode de "regroupement des

discret (points épars, isolés les uns des autres) des sous-ensembles partageant des caractéristiques communes. Le nombre de clusters k est fixé et les points de données épars sont répartis en fonction de la valeur d'un point à la moyenne des points de son cluster.

4.4.4 Utilisation de LIMMA et analyse par triangulation

Le modèle d'analyse Linear Models for MicroArray (LIMMA) [Smyth, 2004] est une méthode statistique d'analyse de la variance pour les données obtenues à partir d'une analyse de l'expression des gènes par microarray. Il a l'avantage de donner des résultats robustes, même pour les expériences avec petit nombre de puces microarrays. Le modèle est prévu pour analyser la différence d'expression entre deux conditions expérimentales pour une même sonde.

LIMMA est particulièrement utile pour déterminer les changements lorsque de nombreuses variables sont présentes (différents génotypes ou différents temps de prélèvement). LIMMA procure une "statistique t modérée" pour les gènes modifiés de manière significative. Plutôt que de considérer chaque gène isolément, la statistique t modérée analyse l'information de variabilité d'autres gènes présents sur la puce et calcule la valeur de t. La méthode LIMMA permet d'améliorer la puissance du test t.

Nous avons effectué l'analyse de l'expression des gènes suivant le modèle LIMMA afin d'identifier les listes de gènes exprimés de manière différentielle entre différents groupes de gènes (fig. 14).

1. J4S vs J4T (J7S vs J7T) : avec cette analyse entre groupe stimulé et groupe témoin à un même jour d'échantillonnage, nous pouvons identifier les gènes susceptibles d'être des marqueurs de mécanismes cellulaires activés ou inhibés par stimulation ELF.

2. J7T vs J4T (J12T vs J4T; J12T vs J7T) : par l'analyse des groupes aux différents temps de prélèvements témoins, nous pouvons identifier les gènes présentant une modification naturelle de leur expression au court du temps. Ces gènes devraient être impliqués dans des mécanismes qui évoluent naturellement au cours du temps (prolifération ou différentiation cellulaire).

3. J4S vs J7T (J4S vs J12T; J7S vs J12T) : cette analyse entre un groupe stimulé prélevé à un temps précoce et un des groupes témoins prélevé à un temps plus tardif nous permet d'identifier les gènes qui n'ont pas de différence d'expression. Un gène avec p ≥ 0,05 aura la même expression dans le groupe stimulé et témoin.

Nous avons analysé par triangulation l'expression des gènes aux différents temps de prélèvement. L'échantillonnage au cours du temps permet de comparer à l'évolution naturelle du groupe de témoins l'effet de la stimulation à un temps T.

Dans une première étape, nous comparons les profils d'expression des gènes provenant des échantillons stimulés aux échantillons témoins prélevés au même temps (J4S vs J4T; J7S vs J7T) et avons sélectionné les gènes présentant une différence significative entre les deux groupes (p ≤ 0,05) (fig.14 : ).

Dans la seconde étape, nous comparons les profils d'expression des gènes entre les groupes d'échantillons témoins aux différents temps de prélèvement. Le temps le plus précoce est celui

sélectio gènes pr Dans la l'étape 2 vs J12T) groupes La dern d'isoler évolutio

4.5 A

4.5.1 P

L'analys caractér expressi proliféra 1985; H singular

4.5.2 P

Différen - K en sim vo Sti Tém nné à l'étap résentant un a troisième é 2 avec les é ). Nous con s. (fig.14 : nière étape les gènes on naturelle

Analyse d

Dans le document Faculté de Médecine (Page 70-73)