• Aucun résultat trouvé

Nous avons analysé séparément les données de transcrits et de gènes de chaque espèce. Pour chaque tableau de données, nous avons utilisé et comparé les résultats obtenus avec les packages DESeq et edgeR. Nous présentons dans une première partie l’analyse des données Porc ; puis celle des données Bovin et nous terminons par une comparaison des résultats entre espèces.

i. Analyses des données de Porc

Etant donné que les analyses des données de gènes et de transcrits de porc ont des résultats semblables, nous ne présentons ici que les analyses des données de gènes porc. Les analyses de données de transcrits sont présentées en annexe du rapport.

a. Analyses descriptives

Après avoir normalisé les données en utilisant la fonction log10(x+1), le Figure 6 présente les distributions de 8 échantillons de gènes de porc. Ce sont les échantillons des animaux 10 et 3 dans les deux conditions. Les distributions ne sont pas normales puisque les valeurs de comptages sont des entiers positifs et beaucoup de gènes ont des comptages à zéro. Tous les échantillons de gènes de porc ont des distributions semblables à celles présentées ici.

Figure 6 : Histogramme de quelques échantillons pour les gènes de porc

Animal 10

Les boîtes à moustaches des 40 échantillons de gènes de porc sont présentées sur la Figure 7. Pour chaque animal, nous disposons de 4 boîtes (2 dans la condition non-traitée et 2 dans la condition traitée). Les échantillons d’un même animal dans la même condition ont des médianes identiques et des boîtes à moustaches similaires, sauf pour les échantillons 4_pos_2_t et 4_pos_3_t qui ont une différence de médiane (ellipse en rouge, figure 7).

Figure 7: Boîtes à moustaches des 40 échantillons pour les gènes de porc

Les moyennes des 40 échantillons varient entre 0.912 à 1.045 et les variances varient entre 1.278 à 1.455. Les échantillons de la même condition d’un même animal ont des moyennes et variances très proches avec une différence de quelques millièmes. Nous effectuons les tests de comparaison de moyennes et de variances entre les échantillons de la même condition d’un même animal. Les p-valeurs de tous les tests de moyennes et de variances sont supérieures au seuil de 5%, on ne rejette pas l’hypothèse que les moyennes (variances) de deux échantillons d’un même animal dans la même condition sont égales. Il faut noter que les tests de student et de Fisher sont basés sur l’hypothèse de normalité des données. Nous avons vu que cette hypothèse n’est pas vérifiée sur nos données (cf Figure 6). Cependant nous pouvons admettre que les 2 réplicats d’un même animal dans la même condition sont identiques et peuvent donc être considérés comme de ‘‘vrai réplicats’’.

log1 0(c o mp tag es + 1) Echantillons Animal 10 11 12 1 2 3 4 5 7 8

La Figure 8 représente les corrélations entre les 40 échantillons pour les gènes de porc. Nous constatons que toutes les corrélations sont supérieures à 0.96. Les corrélations entre les échantillons de même condition d’un même animal sont supérieures à 0.98. Les échantillons de la même condition d’un même animal sont classés ensemble. On remarque également que les 20 échantillons relatifs à la condition traitée d’une part et les 20 échantillons non traitées se regroupent ensemble.

Figure 8 : Heatmap de corrélations entre 40 échantillons pour les gènes de porc

Comme les échantillons de même condition d’un même animal ont de fortes corrélations (>0.98) et des moyennes et variances identiques, nous supposons donc qu’il n’y a pas d’effet lanes. Nous décidons donc de sommer les échantillons des comptages bruts des gènes de même condition d’un même animal. Nous disposons alors d’un tableau de données de gènes pour 20 échantillons (10 animaux * 2 conditions). Nous allons rechercher les gènes différentiels entre les deux conditions en utilisant les deux packages DESeq et edgeR.

Les conclusions faites sur les gènes sont identiques pour les analyses descriptives des transcrits de porc. Elles sont donc transposables aux données des transcrits.

Echantillons traités Echantillons non traités

Ech an tillon s n o n t rait és Ech an tillon s t rait és

b. Analyse différentielle des gènes pour les échantillons Porc

Après avoir sommé les échantillons, nous avons donc 10 réplicats par condition. L’analyse différentielle se fait sur ces 20 échantillons de comptages bruts pour trouver les gènes qui sont différentiellement exprimés entre les deux conditions (T vs NT).

Analyse à partir du package DESeq :

Les « size factors » pour chaque échantillon sont estimés (Figure 9). Les échantillons non traités sont en rouges et les échantillons traités sont en bleus. Pour tous les animaux, les échantillons non traité ont des « size factors » plus grand que ceux des échantillons non traité, sauf pour l’animal 5. Etant donné que les gènes non différentillement exprimés ont des expressions similaires pour tous les échantillons, et qu’on suppose que la majorité des gènes sont non différentiellement exprimés, les « size factors » doivent être proche de 1. Ici les valeurs varient de 0.722 à 1.341.

Figure 9 : « Size factors » des 20 échantillons de gènes chez le porc

Après avoir testé si les gènes sont différentiellement exprimés, on trace l’histogramme des p-values ajustées pour les tests multiples (Figure 10). Comme nous avons supposé que la plupart de gènes ne sont pas différentiellement exprimés, nous les retrouvons pour les gènes qui ont des p-valeurs ajustées à 1. Les

Echantillons « Siz e fact o rs »

gènes ayant de petites p-valeurs ajustées (autour de 0) sont des gènes différentiellement exprimés. Ce sont des gènes qu’on cherche à étudier. Les gènes ayant des comptages nuls pour tous les échantillons (NA) sont exclus du test différentiel.

Figure 10 : Histogramme de p-valeurs ajustées de gènes chez le porc

En fixant le seuil à 0.01 (1%), on cherche les gènes qui ont des p-valeurs ajustées inférieures à ce seuil. On trouve 5899 gènes différentiellement exprimés dont 2898 avec des valeurs de log2FC positives et 3001 avec des valeurs de log2FC négatives. Si la valeur de log2FC est positive, le ratio entre la moyenne dans la condition traitée et celle dans la condition non traitée est supérieur à 1, donc les expressions de ces gènes sont plus fortes dans la condition traitée que dans la condition non traitée. C’est l’inverse pour les gènes qui ont des valeurs de log2FC négatives.

Ensuite, on trace le MA plot (Figure 11). Le MA plot trace pour chaque gène, la valeur de log2FC en fonction de la moyenne des comptages normalisés. Par contre, les gènes ayant des comptages nuls pour tous les échantillons (NA) ne sont pas présentés sur la figure. Les points en rouge sont des gènes qui sont différentiellement exprimés. Les gènes ayant des log2FC hors l’intervalle [-3, 3] sont représentés au bord du graphe (ellipses bleus). Les gènes de log2FC à ‘+Inf’ ou ‘-Inf’ sont aussi inclus dans les ellipses bleus. Ce sont des gènes qui ne sont exprimés que dans une des deux conditions.

Figure 11 : MA plot des gènes chez le porc avec DESeq

On représente le boxplot des comptages bruts dans les 2 conditions pour les 6 gènes ayant les plus petites p-valeurs avec DESeq (Figure 12). Ces boxplots ne sont pas sur la même échelle. Les variations de ces gènes ne sont pas les mêmes. Il y a des gènes pour lesquels les expressions sont plus grandes dans la condition non traitée que dans la condition traitée, et il y a des gènes qui varient en sens inverse.

Analyse à partir du package edgeR :

Nous avons réalisé la même analyse qu’avec DESeq mais en utilisant le package edgeR. Nous étudierons les différences observées entre ces deux procédures. On calcule les « normalisation factors » pour chaque échantillon donné (Figure 13). Comme les « size factors », les « normalisations factors » sont aussi estimées pour rendre comparables différents échantillons entre eux. Si on divise chaque échantillon par le « normalisation factors » associé, les comptages sont alors sur la même échelle, et sont comparables.

Les « normalisations factors » doivent être proche de 1 en raison du nombre important de gènes non différentillement exprimés et donc des expressions similaires attendues pour tous les échantillons. Ici les valeurs varient de 0.972 à 1.035.

Figure 13 : « Normalisation factors » des gènes chez le porc avec edgeR

Après avoir testé si les gènes sont différentiellement exprimés entre les deux conditions, on trace l’histogramme des p-valeurs ajustées des tests (Figure 14). Comme avec DESeq, nous trouvons des gènes qui ont de petites p-valeurs (autour de 0). Ce sont des gènes différentiellement exprimés. Nous trouvons plus de gènes ayant des p-valeurs ajustées à 1 avec edgeR qu’avec DESeq, puisque les gènes qui ont des comptages nuls pour tous les échantillons ne sont pas pris en compte avec DESeq. Pour edgeR, ces gènes ont des p-valeurs ajustées à 1 et des log2FC à 0.

Echantillons « N o rma lisa tion f ac to rs »

Figure 14 : Histogramme de p-valeurs ajustées de gènes chez le porc avec edgeR

Si on fixe le seuil à 0.01, on a 4250 gènes différentiellement exprimés, dont 1970 avec des valeurs de log2FC positives et 2280 avec des valeurs négatives. Comme avec DESeq, si la valeur de log2FC est positive, le ratio entre la moyenne dans la condition traitée et celle dans la condition non traitée est supérieur à 1, donc les expressions de ces gènes sont plus fortes dans la condition traitée que dans la condition non traitée. C’est l’inverse pour les gènes qui ont des valeurs de log2FC négatives.

On utilise la fonction plotSmear pour tracer le Figure 15. Elle trace pour chaque gène, la valeur de log2FC en fonction de la moyenne des log2 de comptages par million (CPM). Le CPM d’un gène dans un échantillon est calculé par le comptage de ce gène dans cet échantillon divisé par le comptage total de cet échantillon fois un million.

Les points en rouge sont des gènes qui sont différentiellement exprimés dans les deux conditions. Les gènes ayant des comptages nuls pour tous les échantillons sont représentés dans le cercle bleu. Ils ont des valeurs de log2FC à 0 et des moyennes des log2CPM négatives. Les gènes qui ne sont exprimés que dans une des deux conditions sont représentés dans les ellipses vertes. Ils ont des valeurs de log2FC grandes en valeur absolue, et des moyennes des log2CPM négatives.

Figure 15 : plot MA de gènes chez le porc avec edgeR

On représente le boxplot des comptages bruts des 2 conditions pour les 6 gènes ayant les plus petites p-valeurs avec edgeR (Figure 16). Ils ont des comptages différents entre les 2 conditions. Ces boxplots ne sont pas sur la même échelle. Les variations de ces gènes ne sont pas les mêmes. Il y a des gènes pour lesquels leurs expressions sont plus grandes dans la condition non traitée que dans la condition traitée, et il y en a pour lesquels les variations sont inverses. Pour ces gènes, les valeurs de log2FC sont toutes supérieures à 2 en valeur absolues.

c. Comparaison des résultats obtenus avec les packages DESeq et edgeR

En comparant les gènes différentiels obtenus avec DESeq et edgeR au seuil 0.01 (Tableau 1), on trouve 4021 gènes différentiellement exprimés en commun. Avec la méthode DESeq, les NAs sont des gènes ayant des comptages à zéro pour tous les échantillons. Ils sont éliminés de l’analyse. Alors dans edgeR, ces gènes sont comptabilisés dans les gènes non différentiellement exprimés.

Tableau 1 : Comparaison de gènes différentiels de porc entre deux méthodes

DEseq edgeR

Gènes Non différentiels

Gènes

Différentiels NA Nombre total Gènes Non différentiels 38140 1878 3952 43970

Gènes Différentiels 229 4021 0 4250 Nombre total 38369 5899 3952 48220 On compare les p-valeurs de ces 4021 gènes en commun avec les deux méthodes (Tableau 2 et Tableau 3). Pour chaque méthode, la 1ère colonne contient les intervalles de p-valeurs ajustées, la 2ème colonne contient le nombre de gènes différentiels (DE) obtenus avec la méthode considérée, la 3ème contient le nombre de gènes différentiels en commun avec l’autre méthode, et la 4ème colonne contient l’écart entre la 2ème et la 3ème colonne. Ce sont des gènes trouvés différentiels avec une méthode mais pas l’autre au seuil de 0.01.

Tableau 2: P-valeurs ajustées des gènes chez le porc avec DESeq

P-valeur ajustée Nb gènes DE avec DESeq Nb gènes DE en commun entre DESeq et edgeR Nb de gènes DE mais non en commun [10^(-3), 10^(-2) [ 1748 614 1134 [10^(-4), 10^(-3) [ 1144 726 418 [10^(-6), 10^(-4) [ 1298 1055 143 [10^(-10), 10^(-6) [ 957 886 71 ] -Inf, 10^(-10) [ 752 740 12 Total 5899 4021 1778

Tableau 3: P-valeurs ajustées de gènes de porc pour edgeR

P-valeur ajustée Nb gènes DE avec edgeR Nb gènes DE en commun entre DESeq et edgeR Nb de gènes DE mais non en commun [10^(-3), 10^(-2) [ 1421 1231 190 [10^(-4), 10^(-3) [ 746 727 19 [10^(-6), 10^(-4) [ 905 889 16 [10^(-10), 10^(-6) [ 665 661 4 ] -Inf, 10^(-10) [ 513 513 0 Total 4250 4021 229

On constate que pour les deux méthodes, les gènes qui ne sont pas en communs ont des p-valeurs proche de 0.01. Presque tous les gènes qui ont de p-valeurs ajustées petites (inférieur à 10^ (-6)) sont trouvés différentiellement exprimés avec les deux méthodes au seuil de 0.01.

On compare les valeurs des log2FoldChanges obtenues avec les deux méthodes (Figure 17). On trace un nuage de points (en noir) pour les log2FC de DESeq en fonction de logFC d’edgeR pour tous les gènes (48220 gènes). Vu que les points sont alignés sur la 1ère bissectrice, ils ont les mêmes logFC avec les deux méthodes. On colore les gènes différentiels. Les points en jaune représentent les gènes ayant des p-valeurs ajustées inférieures à 0.01 avec la méthode DESeq (5899 gènes). Les points en vert représentent les gènes ayant des p-valeurs ajustées inférieures à 0.01 avec la méthode edgeR (4250 gènes). Les points en rouge représentent les gènes ayant des p-valeurs ajustées supérieures à 0.01 avec DESeq et inférieures à 0.01 avec edgeR (229 gènes). Les points en bleu représentent les gènes ayant des p-valeurs ajustées inférieures à 0.01 avec DESeq et supérieures à 0.01 avec edgeR (1778 gènes). Avec edgeR, les gènes différentiellement exprimés au seuil 1% n’ont pas de log2FC proches à 0 (cercle rouge). Les gènes différentiellement exprimés au seuil 1% avec DESeq et non détectés avec edgeR ont des log2FC plus concentrés autour de 0.Une étude plus approfondie doit être réalisée pour détecter les différences entre les deux méthodes.

d. Lien entre les transcrits et les gènes de porc

Nous avons effectué les mêmes analyses pour les transcrits de porc (l’étude et les résultats sont présentés en annexe). Nous avons trouvé 12957 transcrits différentiels avec DESeq et 9684 transcrits différentiels avec edgeR. Les 12957 transcrits avec DESeq sont associés à 6626 gènes. Les 9684 transcrits avec edgeR sont associés à 4955 gènes.

On voudrait savoir (1) si tous les gènes associés aux transcrits différentiels sont aussi différentiellement exprimés, et (2) si tous les transcrits associés aux gènes différentiellement exprimés sont aussi différentiellement exprimés. Nous analysons ces 2 questions pour chacune des méthodes étudiés.

Analyse avec DESeq

En traçant le diagramme de Venn (Figure 18), on trouve que sur les 5899 gènes différentiellement exprimés au seuil 1%, 41 gènes différentiels n’ont aucun transcrit différentiel. On remarque également que 768 gènes sont trouvés non différentiels alors qu’au moins un de leur transcrit est détecté comme différentiellement exprimé. 5858 gènes différentiels ont au moins un transcrit différentiellement exprimé. Parmi les 5858 gènes différentiellement exprimés, il y a 4792 gènes pour lesquels tous les transcrits associés sont différentiellement exprimés et 1066 gènes qui ont des transcrits différentiels mais pas tous.

Figure 18 : Diagramme de Venn pour les gènes différentiels et les gènes associés aux transcrits différentiels chez le porc avec DESeq

Pour les 41 gènes (Figure 18), ils sont associés par 119 transcrits. Parmi ces 119 transcrits, 75 transcrits ont des p-valeurs ajustés comprises entre 0.01 et 0.05, 14 transcrits ont des p-valeurs ajustés comprises entre 0.05 et 0.1.

transcrits, 966 transcrits ont des p-valeurs ajustés inférieurs à 0.01, 564 transcrits ont des p-valeurs ajustées comprises entre 0.01 et 0.05, 188 transcrits ont des p-valeurs ajustées comprises entre 0.05 et 0.1.

Comme les variations de transcrits pour ces gènes ne sont pas tous dans le même sens, c'est-à-dire pour un gène il y a des transcrits qui sont exprimés plus fortement dans la condition non traitée et aussi des transcrits qui sont exprimés plus fortement dans la condition traitée, quand on fait la somme des comptages, ils se compromettent. Dece fait, ces gènes ne sont pas différentiels.

Analyse avec edgeR

A l’aide du diagramme de Venn (Figure 19), on trouve que 39 gènes différentiels n’ont aucun transcrit différentiel. On remarque également que 744 gènes sont trouvés non différentiels alors qu’au moins un de leur transcrit est détecté comme différentiellement exprimé. 4211 gènes différentiels ont au moins un transcrit différentiellement exprimé. Parmi les 4211 gènes différentiellement exprimés, il y a 3560 gènes pour lesquels tous les transcrits associés sont différentiellement exprimés et 751 gènes qui ont des transcrits différentiels mais pas tous.

Figure 19 : Diagramme de Venn pour les gènes différentiels et les gènes associés aux transcritps différentiels de porc par edgeR

Les 39 gènes (Figure 19) sont associés à 125 transcrits. Parmi ces 125 transcrits, 85 transcrits ont des p-valeurs ajustées comprises entre 0.01 et 0.05, 7 transcrits ont des p-valeurs ajustées comprises entre 0.05 et 0.1.

Les 744 gènes (Figure 19) sont associés aux 3255 transcrits. Parmi ces 3255 transcrits, 962 transcrits ont des p-valeurs ajustées inférieures à 0.01, 397 transcrits ont des p-valeurs ajustées comprises entre 0.01 et 0.05, 119 transcrits ont des p-valeurs ajustées comprises entre 0.05 et 0.1.

ii. Analyses des données de Bovin

En faisant la même étude que sur les données porc, nous analysons les données de bovins. Nous ne présentons ici que les analyses des données de gènes de bovin. Les analyses de données de transcrits sont présentées en annexe.

a. Analyses descriptives

Après avoir normalisé les données en utilisant la fonction log10(x+1), la Figure 20 présente les distributions de 8 échantillons de gènes de bovin. Ce sont les échantillons obtenus des animaux 11 et 2 dans deux conditions. Comme les distributions des échantillons de porc (Figure 6), les distributions ne sont pas normales puisque les valeurs de comptages sont des entiers positifs et beaucoup de gènes ont des comptages à zéro. Tous les échantillons de gènes de bovin ont des distributions semblables à celles présentées ci-dessous.

Figure 20 : Histogramme de quelques échantillons pour les gènes de bovin

Les boîtes à moustaches des 40 échantillons de gènes de bovin sont présentées sur la Figure 21. Comme pour le porc, nous disposons de 4 boîtes pour chaque animal. Les échantillons d’un même animal dans la même condition ont des médianes identiques sauf pour les échantillons 1-2_neg_7_b et 1-2_neg_8_b, 2_pos_7_b et 2_pos_8_b (ellipses en rouge, figure 21).

Echantillons non traités Echantillons traités Animal 11

Figure 21 : Boîtes à moustaches des 40 échantillons pour les gènes de bovin

Les moyennes des 40 échantillons varient entre 0.834 à 1.002, les variances varient entre 1.278 à 1.484. Les échantillons de la même condition d’un même animal ont des moyennes et variances proches (différence entre 0.02 et 0.04).

Nous effectuons les tests de comparaison de moyennes et de variances entre les échantillons de la même condition d’un même animal. Les p-valeurs de tous les tests sont inférieures au seuil de 5%, donc on rejette l’hypothèse que les moyennes et les variances de deux échantillons d’un même animal dans la même condition sont égales. Cependant les tests de student et de Fisher sont basés sur l’hypothèse de normalité de données. Nous avons vu que cette hypothèse n’est pas vérifié sur nos données (Figure 20).

La Figure 22 représente les corrélations entre les 40 échantillons pour les gènes de bovin. Pour les bovins, les échantillons de même condition d’un animal sont classés ensemble comme chez le porc. Les corrélations entre ces échantillons sont supérieures à 0.98. Par contre, les échantillons bovins ne se regroupent pas par condition. Ils sont regroupés par animal, c’est-à-dire les échantillons d’un animal sont classés ensemble, sauf pour l’animal 1-1 (ellipses en rouge).

log1 0(c o mp tag es + 1) Echantillons Animal 11 12 14 16 1 2 3 5 6 1 8

Nous pouvons supposer qu’il y a plus de variabilité individuelle chez le bovin que

Documents relatifs