• Aucun résultat trouvé

Analyse diff ´erentielle

Dans le document TH `ESE TH `ESE (Page 42-45)

Cadre statistique

2.1 Mod ´elisation statistique des donn ´ees de comptage

2.1.4 Analyse diff ´erentielle

.

Le facteur d’´echelle est alors d´efini par : si= s˜i

exp 1nPn

l=1log(˜sl) avecs˜i = 2TMM(i,i0).

[67] ont compar´e les diff´erentes m´ethodes de normalisation dans le cadre d’une analyse diff´erentielle. Ils mettent en ´evidence l’impact de la m´ethode de normalisation sur les r´esultats de l’analyse et formulent des recommandations pour le choix d’une m´ethode de normalisation appropri´ee en conseillant d’utiliser pr´ef´erentiellement RLE ou TMM.

2.1.4 Analyse diff ´erentielle

L’objectif de l’analyse diff´erentielle est de d´etecter les g`enes diff´erentiellement exprim´es entre diff´erentes conditions exp´erimentales.

La premi`ere ´etape consiste `a d´efinir les hypoth`eses `a tester. Pour chaque g`enej, l’analyse diff´erentielle d´etermine si une diff´erence d’expression est observ´ee entre deux (ou plusieurs) conditions exp´erimentales. Pour cela, des tests d’hypoth`eses sont utilis´es.

Soit xkij l’expression du g`enej pour l’´echantillon idans la conditionk. La taille de librairie pour l’´echantillonidans la conditionsk est not´eeski. Prenons un exemple avec deux conditions (k={1,2}). La question est de savoir si le g`enejest plus exprim´e dans une condition que dans l’autre. Le test d’hypoth`ese va donc chercher `a d´eterminer s’il existe une diff´erence entreλ1j, la moyenne d’expression du g`enej dans la condition1, etλ2j, la moyenne d’expression du g`enejdans la condition2:

H0j ={λ1j=λ2j} contre H1j={λ1j 6=λ2j}.

A partir des observations, une statistique de test est calcul´` ee pour chaque g`ene et est associ´ee

`

a une p-valeur. Si la p-valeur est inf´erieure au seuil fix´eα(g´en´eralement 5%), l’hypoth`ese H0est rejet´ee en faveur de l’hypoth`ese alternativeH1.

Diff´erentes approches existent pour r´ealiser ces tests, selon le nombre de conditions exp´erimentales et/ou la complexit´e du plan exp´erimental.

Mod`eles

La premi`ere id´ee naturelle est d’utiliser des tests de proportion standard ou le test de Fisher exact sur la table de contingence des donn´ees normalis´ees. Le test de Fisher n’estimant pas la variabilit´e des comptages, il a tendance `a d´etecter un nombre important de faux positifs parmi les g`enes fortement exprim´es. Il n’est donc pas conseill´e d’utiliser cette m´ethode pour l’analyse diff´erentielle de donn´ees RNA-Seq.

Une approche alternative consiste `a choisir une mod´elisation ad´equate des donn´ees de comptage. Afin de prendre en compte la surdispersion, la distribution binomiale n´egative, d´ecrite dans la section pr´ec´edente, est souvent utilis´ee :

xkijN B(Nikλkj, φj)

avecNik la taille de librairie (ou la taille de librairie corrig´ee) de l’´echantillonidans la conditionk, λkj la proportion de comptages pour le g`enej dans la condition k etφj la dispersion du g`enej. Cette derni`ere est suppos´ee identique pour tous les ´echantillons. Les param`etresλkj etφj sont alors estim´es par maximum de vraisemblance avant de d´eduire une p-valeur associ´ee aux donn´ees observ´ees.

Une premi`ere approche pour le calcul de la p-valeur est le test exact pour la loi binomiale n´egative [176]. Les donn´ees sont normalis´ees afin d’obtenir des tailles de librairies semblables N =siNi, ce qui implique que, pour chaque condition,k, la somme des comptages pour un g`enejsur tous les ´echantillons suit la loi :

xk1j+· · ·+xkn

kjN B(N λkj, φj/nk).

Les param`etresλkj et φj sont estim´es et le test effectu´e ensuite est similaire au test de Fisher.

Pour l’estimation de φj, diverses approches, prenant en compte la faible taille d’´echantillon, sont disponibles. Deux m´ethodes sont couramment utilis´ees pour le calcul des dispersions : celle propos´ee par [175], disponible dans le package edgeR et celle de [139] disponible dans le packageDESeq2. Le packageDESeq2mod´elise la tendance moyenne-variance afin d’estimer le param`etre de dispersion. Le packageedgeRutilise un compromis entre une dispersion commune `a tous les g`enes et une dispersion sp´ecifique `a chaque g`ene.

Lorsque le nombre de conditions exp´erimentales est sup´erieur `a deux ou lorsque le plan exp´erimental est plus complexe, une approche bas´ee sur des mod`eles lin´eaires g´en´eralis´es (GLM) est employ´ee pour rechercher les g`enes diff´erentiellement exprim´es. Des covariables,

d´ecrivant le plan exp´erimental, sont utilis´ees. Les donn´ees de comptage sont alors mod´elis´ees par un mod`ele GLM :

xijN B(µij, φj) avec log(µij) = log(λij) + log(Ni).

log(λij)est estim´e par :

log(λij) =λ0+yiTβj

o`uyest le vecteur des covariables utilis´ees pour d´ecrire le plan exp´erimental. Les mod`eles GLM permettent de d´ecomposer les effets au moyen de diff´erents facteurs mais aussi de leurs interactions. Ces approches sont impl´ement´ees dans les packagesedgeRetDESeq2.

Une derni`ere approche consiste `a transformer les donn´ees avec la transformation voom [128] et `a appliquer des m´ethodes d’analyse diff´erentielle d´evelopp´ees pour les donn´ees continues (par exemple les puces `a ADN), c’est-`a-dire, `a utiliser des mod`eles lin´eaires gaussiens. Cette approche est disponible dans le packagelimma[171].

2.1 Mod ´elisation statistique des donn ´ees de comptage 43

[103, 57] ont ´ecrit de courtes revues r´esumant les diff´erentes approches pour l’analyse diff´erentielle des donn´ees d’expression mesur´ees par RNA-Seq et les packages permettant d’appliquer ces m´ethodes.

Correction pour tests multiples

Lors de l’analyse diff´erentielle, de nombreux tests sont r´ealis´es simultan´ement (un pour chaque g`ene). Cependant, le fait de multiplier les tests augmente le nombre de faux positifs, c’est-`a-dire le nombre de cas dans lesquels l’hypoth`eseH0est rejet´ee alors qu’elle est vraie.

Par exemple, si 20 hypoth`eses ind´ependantes, toutes vraies, sont test´ees avec un risque de 5%, la probabilit´e de rejeter (`a tord) au moins une de ces hypoth`eses est :

P{H0l,l=1,...,20}(∃l∈ {1, . . . ,20}:H0lest rejet´ee) = 1−(1−α)20≈0.64.

Il est donc n´ecessaire de contrˆoler le risque de faux positifs (erreur de type I). Cette mesure est d´efinie g´en´eralement soit parV le nombre de faux positifs, soit parQla proportion de fausses d´ecouvertes d´efinie par :

Q=

( V /RsiR >0 0sinon

o`uRcorrespond au nombre total d’hypoth`eses rejet´ees.Qcorrespond donc `a la proportion de faux positifs parmi les hypoth`eses rejet´ees. Le tableau 2.3 r´esume le nombre des diff´erentes erreurs possibles lors de la proc´edure de tests multiples.

Hypoth`ese vraie Hypoth`ese fausse Total

Hypoth`ese rejet´ee V U R

Hypoth`ese non rejet´ee m0V m1V mR

Total m0 m1 m

Tableau 2.3 Table de contingence pour les tests d’hypoth`ese multiples. m correspond aux nombres d’hypoth`eses,m0le nombre d’hypoth`eses vraies,Rle nombre d’hypoth`eses rejet´ees etV correspond au nombre d’erreur de type I (nombre de faux positifs).

Deux grandes familles de m´ethodes existent pour cela : le contrˆole du FWER5 et le contrˆole du FDR6.

La premi`ere m´ethode (FWER) consiste `a calculer la probabilit´e d’avoir au moins un faux positif sur l’ensemble des comparaisons :

FWER=P(V >0).

Ce type de m´ethode permet de majorer le risque de premi`ere esp`ece. Plus le nombre de g`enes `a tester est important, moins il y a de g`enes d´eclar´es diff´erentiellement exprim´es.

Parmi cette famille de m´ethodes, la correction de Bonferroni [101] est la plus couramment utilis´ee.

Le second type de m´ethode cherche `a contrˆoler la proportion attendue de faux positifs parmi les diff´erences d´eclar´ees comme significatives :

FDR=E(Q).

5. Family-Wise type I Error Rate 6. False Discovery Rate

La m´ethode classiquement utilis´ee est celle propos´ee par [24]. Ces m´ethodes sont moins stringentes que celles de la famille FWER.

Dans le document TH `ESE TH `ESE (Page 42-45)