• Aucun résultat trouvé

Vraisemblance pro fi lée par ajustement de Cox-Reid . 42

3.3 La dispersion dans les modèles de di ff érence de moyenne d’ex-

3.3.4 Vraisemblance pro fi lée par ajustement de Cox-Reid . 42

Les fonctions de vraisemblance profilée s’appliquent dans les cas où la fonction

de vraisemblance dépend de plusieurs paramètres et que l’intérêt se porte

principale-ment sur l’un d’entre eux. Les autres paramètres, dits de nuisance, sont exprimés en

fonction du paramètre d’intérêt et remplacés dans la fonction de vraisemblance. Ici,

le paramètre d’intérêt est la dispersionφ

i

et la moyenneµ

i

est considérée comme un

paramètre de nuisance. L’ajustement de Cox-Reid (CoxetReid, 1987) vise à

corri-ger le biais introduit par l’estimateur du maximum de vraisemblance en pénalisant

la log-vraisemblance relative à la dispersion par un terme contenant l’information

observée pour la moyenne et est défini par :

l

CR

(φ) =l(µˆ

i

,φi)−1

2log|I

µiµi

(φ,µˆ

i

)|, (2.13)

où :

µˆ

i

est l’estimateur du maximum de vraisemblance de la moyenne ;

— I

µiµi

(φ,µˆ

i

)est l’information observée de Fisher pour la moyenne.

3. Modèles basés sur la distribution binomiale négative 43

La vraisemblance conditionnelle définie dans la formule 2.10 suit une approche

si-milaire dans la mesure où considérer la somme des nombres de reads comme une

statistique pour la moyenne permet d’écrire une fonction de vraisemblance pour la

dispersion qui ne dépend pas de la moyenne. L’avantage de la vraisemblance profilée

par ajustement Cox-Reid est qu’elle peut être appliquée dans le cadre d’un GLM, au

contraire de la vraisemblance conditionnelle qui ne peut s’appliquer qu’à la

compa-raison d’échantillons selon un unique facteur. Dans le cadre d’un GLM, la moyenne

est exprimée dans la fonction de vraisemblance par la matrice d’information de

Fi-sher. L’estimation de la dispersion φi pour chaque gène revient alors à maximiser la

vraisemblance profilée ajustée :

AP L

i

(φ

i

) =l(φ

i

;y

i

,βˆ

i

)1

2 log|I

i

|, (2.14)

où :

y

i

est le vecteur de nombres dereads du gène i;

βˆ

i

est le vecteur de paramètres de régression estimés dans le cadre du GLM

défini dans la formule 2.8en l’absence defold-change de moyenne à appliquer

au gène i;

l est la fonction de log-vraisemblance relative à la dispersion calculée à partir

de la fonction de masse de la distribution binomiale négative définie dans la

formule2.7 et la valeur estimée µˆ

0i

de la moyenne à partir de βˆ

i

:

l(φ

i

;y

i

,µˆ

0i

) =

j

logf(y

ij

;µˆ

0ij

,φ

i

);

— log|I

i

|est le déterminant de la matrice d’information de Fisher, obtenu par la

décomposition de Cholesky (Stewart, 1973).

Comme dans la section précédente, la dispersion φ

i

n’est pas estimée pour chaque

gèneide manière indépendante mais à partir d’un ensemble de gènes. Elle est obtenue

grâce à un compromis entre l’estimation d’une dispersion commune à un ensemble

de gènes incluant le gène i et une estimation indépendante pour chaque gène i. La

manière la plus simple et la plus fiable est de considérer l’ensemble des gènes du jeu

de données et d’estimer une dispersion commune φˆ à l’ensemble des gènes. Elle est

obtenue en maximisant la fonction de vraisemblance partagée :

AP L

S

(φ) = 1

G

Gi=1

AP L

i

(φ), (2.15)

où :

AP L

i

est la vraisemblance profilée ajustée du gène i définie dans la formule

2.14;

G est le nombre total de gènes.

Cette maximisation peut être obtenue numériquement de différentes manières. Les

auteurs d’edgeR ont opté pour la méthode de Newton-Raphson (Brent,1973).

Une approche plus fine consiste à considérer un ensemble plus restreint de gènes et

à exprimer la dispersion comme une fonction de la moyenne d’expression. Des

sous-ensembles de gènes sont ainsi constitués selon l’expression moyenne des gènes et une

dispersion commune est estimée pour chaque sous-ensemble. Une courbe de

régres-sion est ensuite obtenue à travers les estimations de la disperrégres-sion par régresrégres-sion locale

(loess ou spline). La dispersionφ

i

est alors estimée par la moyenne pondérée desAP L

44 Chapitre 2. Méthodes

du gèneiet de gènes dont les nombres dereadsmoyens sont proches de celui du gènei.

Enfin, une dernière approche consiste à estimer la dispersion φ

i

de chaque gène i

à l’aide d’un compromis entre l’estimation de la dispersion commune à un ensemble

de gènes incluant le gène i et une estimation indépendante pour chaque gène i en

maximisant la vraisemblance partagée :

AP L

i

(φi) +G

0

AP L

Si

(φi), (2.16)

où :

AP L

Si

(φi) est la log-vraisemblance locale partagée d’un ensemble de gènes

S

i

;

G

0

est le poids donné à la log-vraisemblance locale partagée.

De manière similaire à la vraisemblance pondérée définie dans la formule 2.12, cette

approche peut être vue comme une approche bayésienne où la vraisemblance

parta-géeAP L

Si

(φ

i

)est la distributiona priorideφ

i

, la vraisemblance pondérée comme la

distributiona posteriori etG

0

est le poids donné à la distributiona priori.

McCar-thy,Chen etSmyth, 2012recommendent de prendre une valeur G

0

petite lorsque

l’on suspecte que la dispersion varie beaucoup au sein du jeu de données. Ils

recom-mendent G

0

=

20df

df est le nombre de degrés de liberté résiduels pour estimer

la dispersion (i.e.le nombre d’échantillons moins le nombre de populations

d’échan-tillons). Une caractéristique de cette modélisation est le fait que l’estimation de φ

i

tend d’autant plus vers l’estimation partagée que l’estimation indépendante de φ

i

à

partir des seuls comptesy

i

est incertaine. Par exemple, les gènes faiblement exprimés

verront leur estimateur de la dispersion tendre fortement vers l’estimateur partagé.

Les différentes approches basées sur la vraisemblance profilée ajustée sont

implé-mentées dans le package R edgeR (Robinson,McCarthy etSmyth,2010) par les

fonctions suivantes :

estimateGLMCommonDisp() : estime une valeur commune de dispersion φˆ

pour l’ensemble des gènes à l’aide de la vraisemblance profilée ajustée partagée

définie dans la formule2.15;

estimateGLMTagwiseDisp() : estime une valeur de dispersion φˆ

i

pour chaque

gène à l’aide de la vraisemblance profilée ajustée pondérée définie dans la

formule2.16;

estimateGLMTrendedDisp() : estime une valeur de dispersion φˆ

i

pour chaque

gène à partir de la tendance observée entre la dispersion déterminée à l’aide

de la vraisemblance profilée ajustée partagée par sous-ensembles de gènes et

la moyenne d’expression.

3.3.5 DESeq2

Dans la première version de leur méthode, DESeq,AndersetHuber,2010

n’es-timent pas un paramètre de dispersion pour quantifier la variance des données. Pour

représenter les comptesreads, ils utilisent une paramétrisation de la distribution

bino-miale négative différente de celle définie dans la formule2.6 et estiment directement

la variance.

Pour la deuxième version de leur méthode, DESeq2, (Love, Huber et Anders,

2014) s’inscrivent dans le cadre d’un GLM tel que défini dans la formule 2.8 et

es-timent le paramètre de dispersion. Leur approche suppose que les gènes qui ont des

3. Modèles basés sur la distribution binomiale négative 45

moyennes d’expression très proches ont aussi des valeurs de dispersion similaires et

est très proche de l’approche d’estimation de la dispersion d’edgeR par maximisation

de la vraisemblance profilée ajustée pondérée (voir section 3.3.4). Elle procède en 3

étapes :

1. estimation de la dispersion φ

i

pour chaque gène i de manière indépendante

par maximum de vraisemblance profilée par ajustement de Cox-Reid définie

dans la formule 2.14;

2. une courbe de tendance entre la dispersion et la moyenne est obtenue par

régression des φ

i

sur la moyenne des nombres de reads normalisés ;

3. l’estimateur final de la dispersion est déterminée par une approche bayésienne

empirique dont la distributiona priori est une distribution log-normale centrée

sur la courbe de régression.

L’approche d’estimation de la dispersion développée par DESeq2 est illustrée par la

figure 2.3.

Etant donnée la dépendance décroissante de la dispersion à la moyenne

communé-ment observée dans les données RNA-seq, Love, Huberet Anders,2014 ont opté

pour la paramétrisation suivante de la courbe de tendance :

φ

tr

(µ¯

i

) = a

1

¯

µ +α

0

, (2.17)

où :

µ¯ est la moyenne des nombres dereads observée ;

a

1

et α

0

sont deux hyperparamètres à estimer.

La distribution des estimateurs pouvant être asymétrique autour de la vraie valeurφ

i

,

une régression par GLM de la famille gamma est appliquée plutôt qu’une régression

classique par les moindres carrés. Les hyperparamètres a

1

et α

0

sont obtenus lors

de l’ajustement itératif du GLM de la famille gamma. La courbe de tendance est

ensuite utilisée dans le cadre d’une approche bayésienne empirique pour paramétrer

la distribution a priori telle que :

log φ

i

∼N(log φ

tr

(µ¯

i

),σ

2d

),

σ

d2

représente la largeur de la distributiona priori et décrit à quel point les vraies

dispersions φ

i

sont éparpillées autour de la courbe de tendance.

A l’inverse d’edgeR, l’hyperparamètre de variance σ

2d

est estimé à partir des

don-nées. Il dépend du nombre de degrés de liberté du modèle qui est égal à la différence

entre le nombre d’échantillons et le nombre de coefficients du GLM. Plus le nombre

d’échantillons est grand, plus l’estimateur final tend vers l’estimateur du maximum

de vraisemblance profilée du gène i.

Un seuil minimal est utilisé pour éviter que l’estimateurfinal de la dispersionφˆ

i

tende

totalement vers la valeur estimée par la courbe de tendance. A l’inverse, les gènes dont

l’estimateur de la dispersion par maximum de vraisemblance profilée est très éloigné

de la courbe de tendance ne voient pas leur estimateur final de la dispersion affecté

par la courbe de tendance.

Le maximum de la distribution a posteriori (MAP) construite à partir de la

vraisem-blance profilée par ajustement de Cox-Reid et de la distribution a priori est utilisé

comme estimateur final de la dispersion :

ˆ

φ

M APi

=argmax

φ

l

CR

(φ

i

) +−(logφ−logφ

tr

(µ¯

i

))

2

2σ

2d

, (2.18)

46 Chapitre 2. Méthodes

où :

l

CR

(φi) est la vraisemblance profilée par ajustement de Cox-Reid ;

φest une constante additive.

La propension de l’estimateur final à tendre vers la courbe de tendance dépend de la

proximité de la vraie valeur de la dispersion avec la courbe (figure 2.3).

Figure 2.3 –Illustration de l’approche d’estimation de la dispersion déve-loppée dans lepackageDESeq2 (Love,HuberetAnders,2014). Les points représentent les estimateurs du maximum de vraisemblance de la dispersion

obtenus à l’aide des nombres de reads de chaque gène respectivement. La

courbe rouge est la courbe d’ajustement des estimateurs pour capturer la tendance entre la moyenne et la dispersion. Elle est utilisée commea priori

d’une seconde estimation de la dispersion consistant à ajuster les estima-teurs de la dispersion propres à chaque gène à la tendance globale. Cet ajustement est représenté par lesflèches bleues. Certains estimateurs sont considérés comme des valeurs aberrantes et ne sont pas modifiés par la

ten-dance globale (cercles bleus).

3.3.6 Impact de l’estimation de la dispersion sur la détection de gènes