Analyse de l’expression des gènes - : Proposition d’un pipeline d’analyse de données RNAseq pou

Chapitre 1 : Proposition d’un pipeline d’analyse de données RNAseq pour le

2. Discussion

2.2. Analyse de l’expression des gènes

La première chose à faire pour commencer une analyse différentielle d’expression des gènes est, à la suite de l’alignement des reads sur le génome annoté, de réaliser un comptage de ces reads pour chaque gène. Bien que cela semble simple, il existe de très nombreux paramètres de comptages, et de nombreux logiciels le réalisant. De nombreuses questions se posent. Par exemple, comment attribuer un read à un gène lorsque celui-ci est en bordure de la séquence codante ? Quel poids donner à un read lorsque celui-ci est aligné à plusieurs positions sur le génome en même temps ? Nous avons utilisé le logiciel featureCounts dans notre analyse (Liao et al., 2014), en donnant la même valeur, c’est-à-dire 1, à chaque alignement indépendamment du nombre de fois où le read correspondant a été aligné. La raison de ce choix est que le pipeline d’analyses statistiques utilisé par la suite n’accepte en entrée que des nombres entiers (pour des raisons mathématiques et non informatiques). Il serait intéressant de comparer si l’utilisation d’un poids proportionnel au nombre d’alignements d’un même read sur le génome permet une analyse plus fine malgré un arrondi vers l’entier le plus proche afin de permettre l’analyse statistique.

Une fois les tables de comptage obtenues, l’analyse statistique peut commencer. L’objectif de l’analyse de l’expression des gènes est de trouver des gènes DE entre le contrôle et, dans notre cas de figure, un mutant. Il existe 32735 ORF d’Arabidopsis répertoriés par l’AGI (Arabidopsis Genome Initiative), qui sont comparés entre deux conditions, avec 3 réplicats biologiques par condition. La comparaison étant réalisée gène par gène, il n’est pas nécessaire de réaliser une correction sur la taille du gène. On se retrouve donc dans des conditions de tests multiples trop lourds pour être réalisés par ANOVA ou test de Student. De plus, en se basant classiquement sur un risque acceptable d’erreur de type I (ou faux-positif) à 5%, à partir de 20 tests on obtient 64% de chances de trouver un résultat significatif par chance. Il est donc nécessaire de trouver une méthode statistique adaptée à la dimension des approches transcriptomiques tout en limitant de façon nette les erreurs de type I.

50

On pose donc l’hypothèse nulle H0 : « la différence d’expression entre les deux traitements est nulle » et l’hypothèse alternative H1 : « la différence d’expression entre les deux traitements est non nulle »

La suite de l’analyse consiste ensuite à filtrer les gènes peu ou pas exprimés et on calcule un facteur de normalisation afin de tenir compte des différentes tailles de banques de séquençage. Historiquement, ce facteur de normalisation (différent pour chaque échantillon) était calculé de façon très simple en divisant le nombre de reads pour un gène donné dans un échantillon donné par le nombre de reads total de cet échantillon. Le problème que posait cette méthode de calcul des facteurs de normalisation était qu’elle partait de l’hypothèse que la variance était la même pour tous les gènes, ce qui est faux. Imaginons que l’échantillon 2 a deux fois plus de reads que le 1. En appliquant cette méthode, on divise par deux les reads dans l’échantillon 2. Mais si cette différence est due à quelques gènes très exprimés dans l’échantillon 2 et non dans le 1 ? Alors la quantification de l’expression de tous les gènes dans l’échantillon 2 en pâtirait. La méthode utilisée dans notre publication est celle du TMM pour Trimmed Mean of M-values (Robinson et Oshlack, 2010). Les hypothèses sur lesquelles se base ce modèle sont que la majorité des gènes ne sont pas différentiellement exprimés et que le total de reads est extrêmement dépendant de quelques gènes très exprimés. Ce modèle élimine donc du calcul du facteur de normalisation (et non de l’analyse différentielle) les gènes ayant une expression et un Log2FoldChange trop extrêmes par rapport à la moyenne de tous les gènes. Afin d’appliquer des tests statistiques connus, l’étape suivante est de choisir la distribution ressemblant le plus à des données de RNAseq. La distribution utilisée pour des données de RNAseq est une loi binomiale négative. Elle permet de prendre en compte la surdispersion due aux réplicats biologiques en passant par un modèle linéaire généralisé : on parle alors de régression binomiale négative de type 2. Pour expliquer cela de façon plus simple, prenons l’exemple de Y, qui suit une loi binomiale négative de paramètres µ et ø :

𝑌 ~ 𝑁𝐵(µ, ø)

Avec 𝐸(𝑌) = µ et 𝑉(𝑌) = µ(1 + øµ)

Comme on peut le voir, l’espérance de Y ne permet pas d’observer tous les effets, comme l’effet génotype ou réplicat. L’idée est de décomposer la moyenne en passant par un modèle linéaire généralisé via une fonction de lien, appelons la λ :

𝐸(𝜆(𝑌)) = 𝑐𝑜𝑛𝑠𝑡𝑎𝑛𝑡𝑒 + 𝑒𝑓𝑓𝑒𝑡 𝑔é𝑛𝑜𝑡𝑦𝑝𝑒 + 𝑒𝑓𝑓𝑒𝑡 𝑟é𝑝𝑙𝑖𝑐𝑎𝑡

L’intérêt majeur du modèle linéaire généralisé dans notre cas de figure est de nous permettre d’évaluer directement l’effet génotype suite à la décomposition du signal en plusieurs facteurs, tout en tenant compte de l’effet réplicat (Rigaill et al., 2016).

EdgeR permet donc de calculer les différents facteurs de normalisation et d’effectuer l’analyse différentielle. On obtient pour chaque gène une p-value brute, c’est-à-dire la probabilité d’observer nos données si l’hypothèse nulle H0 est vraie. On parle ici de p-value brute, par opposition à la p-value ajustée correspondant à celle obtenue après correction des tests multiples. L’étude de la distribution de ces p-values brutes permet de s’assurer de la qualité de l’analyse statistique (Figure 14).

51

Figure 14 : Représentation schématique des principales étapes de l’analyse différentielle.

Le résultat attendu est une distribution uniforme de la fréquence des p-values, avec idéalement un enrichissement à 0, suggérant la présence hypothétique de gènes différentiellement exprimés. Si ce n’est pas le graphique observé, cela signifie qu’il y a probablement un problème dans l’analyse et que le modèle choisi ne correspond pas à nos données. Il est possible de modifier les paramètres de filtrage afin de rapprocher nos données du modèle utilisé, voire de réfléchir à un éventuel effet qui aurait été oublié. Si la distribution des p- values est homogène hors proximité de 0, on peut alors calculer les p-values ajustées afin de déterminer les gènes différentiellement exprimés et tenir compte des tests multiples, comme nous l’avons vu précédemment. Le principe des corrections de p-values est simple : après la définition d’un critère de sélection et d’un objectif, les valeurs de nos p-values sont modifiées pour répondre à notre critère de sélection. Différentes corrections permettent de calculer les p-values ajustées. La première est celle de Bonferroni. L’objectif derrière cette correction est de n’avoir aucun faux positif. Bien que très fiable, cette méthode est très stringente et risque de nous faire passer à côté d’un certain nombre de gènes DE. La seconde méthode est celle de Benjamini-Hochberg. L’objectif est de ne pas avoir plus de x% de faux positifs parmi les gènes proposés comme DE, avec x habituellement fixé à 5%, et appelé FDR (pour False Discovery Rate). Ici, le risque est tout autre : on passera à côté de beaucoup moins de gènes DE qu’après une correction de Bonferroni, mais x% de nos gènes DE risquent d’être des faux positifs. Cette seconde méthode de correction est celle choisie dans notre analyse différentielle d’expression des gènes.

52

Dans le document Caractérisation de protéines PPR impliquées dans le stress biotique chez A. thaliana. (Page 66-69)