Vraisemblance pro ﬁ lée par ajustement de Cox-Reid . 42

3.3 La dispersion dans les modèles de di ﬀ érence de moyenne d’ex-

3.3.4 Vraisemblance pro ﬁ lée par ajustement de Cox-Reid . 42

Les fonctions de vraisemblance proﬁlée s’appliquent dans les cas où la fonction

de vraisemblance dépend de plusieurs paramètres et que l’intérêt se porte

principale-ment sur l’un d’entre eux. Les autres paramètres, dits de nuisance, sont exprimés en

fonction du paramètre d’intérêt et remplacés dans la fonction de vraisemblance. Ici,

le paramètre d’intérêt est la dispersionφ

et la moyenneµ

est considérée comme un

paramètre de nuisance. L’ajustement de Cox-Reid (CoxetReid, 1987) vise à

corri-ger le biais introduit par l’estimateur du maximum de vraisemblance en pénalisant

la log-vraisemblance relative à la dispersion par un terme contenant l’information

observée pour la moyenne et est déﬁni par :

l

_CR

(φ) =l(µˆ

,φi)−1

2^log^|I

µ_iµ_i

(φ,µˆ

)|, (2.13)

où :

— µˆ

est l’estimateur du maximum de vraisemblance de la moyenne ;

— I

µ_iµ_i

(φ,µˆ

)est l’information observée de Fisher pour la moyenne.

3. Modèles basés sur la distribution binomiale négative 43

La vraisemblance conditionnelle déﬁnie dans la formule 2.10 suit une approche

si-milaire dans la mesure où considérer la somme des nombres de reads comme une

statistique pour la moyenne permet d’écrire une fonction de vraisemblance pour la

dispersion qui ne dépend pas de la moyenne. L’avantage de la vraisemblance proﬁlée

par ajustement Cox-Reid est qu’elle peut être appliquée dans le cadre d’un GLM, au

contraire de la vraisemblance conditionnelle qui ne peut s’appliquer qu’à la

compa-raison d’échantillons selon un unique facteur. Dans le cadre d’un GLM, la moyenne

est exprimée dans la fonction de vraisemblance par la matrice d’information de

Fi-sher. L’estimation de la dispersion φi pour chaque gène revient alors à maximiser la

vraisemblance proﬁlée ajustée :

AP L

(φ

) =l(φ

;y

,_βˆ

₎₋1

2 ^log^|I

|, (2.14)

où :

— y

est le vecteur de nombres dereads du gène i;

— _βˆ

est le vecteur de paramètres de régression estimés dans le cadre du GLM

déﬁni dans la formule 2.8en l’absence defold-change de moyenne à appliquer

au gène i;

— l est la fonction de log-vraisemblance relative à la dispersion calculée à partir

de la fonction de masse de la distribution binomiale négative déﬁnie dans la

formule2.7 et la valeur estimée µˆ

⁰_i

de la moyenne à partir de _βˆ

:

l(φ

;y

,µˆ

⁰_i

) =

^�

logf(y

_ij

;µˆ

⁰_ij

,φ

);

— log|I

|est le déterminant de la matrice d’information de Fisher, obtenu par la

décomposition de Cholesky (Stewart, 1973).

Comme dans la section précédente, la dispersion φ

n’est pas estimée pour chaque

gèneide manière indépendante mais à partir d’un ensemble de gènes. Elle est obtenue

grâce à un compromis entre l’estimation d’une dispersion commune à un ensemble

de gènes incluant le gène i et une estimation indépendante pour chaque gène i. La

manière la plus simple et la plus ﬁable est de considérer l’ensemble des gènes du jeu

de données et d’estimer une dispersion commune _φˆ à l’ensemble des gènes. Elle est

obtenue en maximisant la fonction de vraisemblance partagée :

AP L

(φ) = 1

G

G � i=1

AP L

(φ), (2.15)

où :

— AP L

est la vraisemblance proﬁlée ajustée du gène i déﬁnie dans la formule

2.14;

— G est le nombre total de gènes.

Cette maximisation peut être obtenue numériquement de diﬀérentes manières. Les

auteurs d’edgeR ont opté pour la méthode de Newton-Raphson (Brent,1973).

Une approche plus ﬁne consiste à considérer un ensemble plus restreint de gènes et

à exprimer la dispersion comme une fonction de la moyenne d’expression. Des

sous-ensembles de gènes sont ainsi constitués selon l’expression moyenne des gènes et une

dispersion commune est estimée pour chaque sous-ensemble. Une courbe de

régres-sion est ensuite obtenue à travers les estimations de la disperrégres-sion par régresrégres-sion locale

(loess ou spline). La dispersionφ

est alors estimée par la moyenne pondérée desAP L

44 Chapitre 2. Méthodes

du gèneiet de gènes dont les nombres dereadsmoyens sont proches de celui du gènei.

Enﬁn, une dernière approche consiste à estimer la dispersion φ

de chaque gène i

à l’aide d’un compromis entre l’estimation de la dispersion commune à un ensemble

de gènes incluant le gène i et une estimation indépendante pour chaque gène i en

maximisant la vraisemblance partagée :

AP L

(φi) +G

₀

AP L

(φi), (2.16)

où :

— AP L

(φi) est la log-vraisemblance locale partagée d’un ensemble de gènes

S

;

— G

₀

est le poids donné à la log-vraisemblance locale partagée.

De manière similaire à la vraisemblance pondérée déﬁnie dans la formule 2.12, cette

approche peut être vue comme une approche bayésienne où la vraisemblance

parta-géeAP L

_Si

(φ

)est la distributiona priorideφ

, la vraisemblance pondérée comme la

distributiona posteriori etG

₀

est le poids donné à la distributiona priori.

McCar-thy,Chen etSmyth, 2012recommendent de prendre une valeur G

₀

petite lorsque

l’on suspecte que la dispersion varie beaucoup au sein du jeu de données. Ils

recom-mendent G

₀

=

²⁰_df

où df est le nombre de degrés de liberté résiduels pour estimer

la dispersion (i.e.le nombre d’échantillons moins le nombre de populations

d’échan-tillons). Une caractéristique de cette modélisation est le fait que l’estimation de φ

tend d’autant plus vers l’estimation partagée que l’estimation indépendante de φ

à

partir des seuls comptesy

est incertaine. Par exemple, les gènes faiblement exprimés

verront leur estimateur de la dispersion tendre fortement vers l’estimateur partagé.

Les diﬀérentes approches basées sur la vraisemblance proﬁlée ajustée sont

implé-mentées dans le package R edgeR (Robinson,McCarthy etSmyth,2010) par les

fonctions suivantes :

— estimateGLMCommonDisp() : estime une valeur commune de dispersion _φˆ

pour l’ensemble des gènes à l’aide de la vraisemblance proﬁlée ajustée partagée

déﬁnie dans la formule2.15;

— estimateGLMTagwiseDisp() : estime une valeur de dispersion _φˆ

pour chaque

gène à l’aide de la vraisemblance proﬁlée ajustée pondérée déﬁnie dans la

formule2.16;

— estimateGLMTrendedDisp() : estime une valeur de dispersion _φˆ

pour chaque

gène à partir de la tendance observée entre la dispersion déterminée à l’aide

de la vraisemblance proﬁlée ajustée partagée par sous-ensembles de gènes et

la moyenne d’expression.

3.3.5 DESeq2

Dans la première version de leur méthode, DESeq,AndersetHuber,2010

n’es-timent pas un paramètre de dispersion pour quantiﬁer la variance des données. Pour

représenter les comptesreads, ils utilisent une paramétrisation de la distribution

bino-miale négative diﬀérente de celle déﬁnie dans la formule2.6 et estiment directement

la variance.

Pour la deuxième version de leur méthode, DESeq2, (Love, Huber et Anders,

2014) s’inscrivent dans le cadre d’un GLM tel que déﬁni dans la formule 2.8 et

es-timent le paramètre de dispersion. Leur approche suppose que les gènes qui ont des

3. Modèles basés sur la distribution binomiale négative 45

moyennes d’expression très proches ont aussi des valeurs de dispersion similaires et

est très proche de l’approche d’estimation de la dispersion d’edgeR par maximisation

de la vraisemblance proﬁlée ajustée pondérée (voir section 3.3.4). Elle procède en 3

étapes :

1. estimation de la dispersion φ

pour chaque gène i de manière indépendante

par maximum de vraisemblance proﬁlée par ajustement de Cox-Reid déﬁnie

dans la formule 2.14;

2. une courbe de tendance entre la dispersion et la moyenne est obtenue par

régression des φ

sur la moyenne des nombres de reads normalisés ;

3. l’estimateur ﬁnal de la dispersion est déterminée par une approche bayésienne

empirique dont la distributiona priori est une distribution log-normale centrée

sur la courbe de régression.

L’approche d’estimation de la dispersion développée par DESeq2 est illustrée par la

ﬁgure 2.3.

Etant donnée la dépendance décroissante de la dispersion à la moyenne

communé-ment observée dans les données RNA-seq, Love, Huberet Anders,2014 ont opté

pour la paramétrisation suivante de la courbe de tendance :

φ

_tr

(µ¯

) = ^a

¯

µ +α

₀

, (2.17)

où :

— µ¯ est la moyenne des nombres dereads observée ;

— a

₁

et α

₀

sont deux hyperparamètres à estimer.

La distribution des estimateurs pouvant être asymétrique autour de la vraie valeurφ

,

une régression par GLM de la famille gamma est appliquée plutôt qu’une régression

classique par les moindres carrés. Les hyperparamètres a

₁

et α

₀

sont obtenus lors

de l’ajustement itératif du GLM de la famille gamma. La courbe de tendance est

ensuite utilisée dans le cadre d’une approche bayésienne empirique pour paramétrer

la distribution a priori telle que :

log φ

∼N(log φ

_tr

(µ¯

),σ

²_d

),

où σ

_d²

représente la largeur de la distributiona priori et décrit à quel point les vraies

dispersions φ

sont éparpillées autour de la courbe de tendance.

A l’inverse d’edgeR, l’hyperparamètre de variance σ

²_d

est estimé à partir des

don-nées. Il dépend du nombre de degrés de liberté du modèle qui est égal à la diﬀérence

entre le nombre d’échantillons et le nombre de coeﬃcients du GLM. Plus le nombre

d’échantillons est grand, plus l’estimateur ﬁnal tend vers l’estimateur du maximum

de vraisemblance proﬁlée du gène i.

Un seuil minimal est utilisé pour éviter que l’estimateurﬁnal de la dispersion_φˆ

tende

totalement vers la valeur estimée par la courbe de tendance. A l’inverse, les gènes dont

l’estimateur de la dispersion par maximum de vraisemblance proﬁlée est très éloigné

de la courbe de tendance ne voient pas leur estimateur ﬁnal de la dispersion aﬀecté

par la courbe de tendance.

Le maximum de la distribution a posteriori (MAP) construite à partir de la

vraisem-blance proﬁlée par ajustement de Cox-Reid et de la distribution a priori est utilisé

comme estimateur ﬁnal de la dispersion :

ˆ

φ

^{M AP}_i

=argmax

_φ �

l

_CR

(φ

) +−(logφ−logφ

_tr

(µ¯

))

2σ

²_d �

, (2.18)

46 Chapitre 2. Méthodes

où :

— l

(φi) est la vraisemblance proﬁlée par ajustement de Cox-Reid ;

— φest une constante additive.

La propension de l’estimateur ﬁnal à tendre vers la courbe de tendance dépend de la

proximité de la vraie valeur de la dispersion avec la courbe (ﬁgure 2.3).

Figure 2.3 –Illustration de l’approche d’estimation de la dispersion déve-loppée dans lepackageDESeq2 (Love,HuberetAnders,2014). Les points représentent les estimateurs du maximum de vraisemblance de la dispersion

obtenus à l’aide des nombres de reads de chaque gène respectivement. La

courbe rouge est la courbe d’ajustement des estimateurs pour capturer la tendance entre la moyenne et la dispersion. Elle est utilisée commea priori

d’une seconde estimation de la dispersion consistant à ajuster les estima-teurs de la dispersion propres à chaque gène à la tendance globale. Cet ajustement est représenté par lesﬂèches bleues. Certains estimateurs sont considérés comme des valeurs aberrantes et ne sont pas modiﬁés par la

ten-dance globale (cercles bleus).

3.3.6 Impact de l’estimation de la dispersion sur la détection de gènes

Dans le document Variance de l'expression des microARN et des ARN messagers dans le cancer (Page 63-67)

Vraisemblance pro ﬁ lée par ajustement de Cox-Reid . 42

3.3 La dispersion dans les modèles de di ﬀ érence de moyenne d’ex-

3.3.4 Vraisemblance pro ﬁ lée par ajustement de Cox-Reid . 42

Les fonctions de vraisemblance proﬁlée s’appliquent dans les cas où la fonction

de vraisemblance dépend de plusieurs paramètres et que l’intérêt se porte

principale-ment sur l’un d’entre eux. Les autres paramètres, dits de nuisance, sont exprimés en

fonction du paramètre d’intérêt et remplacés dans la fonction de vraisemblance. Ici,

le paramètre d’intérêt est la dispersionφ

et la moyenneµ

est considérée comme un

paramètre de nuisance. L’ajustement de Cox-Reid (CoxetReid, 1987) vise à

corri-ger le biais introduit par l’estimateur du maximum de vraisemblance en pénalisant

la log-vraisemblance relative à la dispersion par un terme contenant l’information

observée pour la moyenne et est déﬁni par :

l

(φ) =l(µˆ

,φi)−1

2log|I

(φ,µˆ

)|, (2.13)

où :

— µˆ

est l’estimateur du maximum de vraisemblance de la moyenne ;

— I

(φ,µˆ

)est l’information observée de Fisher pour la moyenne.

3. Modèles basés sur la distribution binomiale négative 43

La vraisemblance conditionnelle déﬁnie dans la formule 2.10 suit une approche

si-milaire dans la mesure où considérer la somme des nombres de reads comme une

statistique pour la moyenne permet d’écrire une fonction de vraisemblance pour la

dispersion qui ne dépend pas de la moyenne. L’avantage de la vraisemblance proﬁlée

par ajustement Cox-Reid est qu’elle peut être appliquée dans le cadre d’un GLM, au

contraire de la vraisemblance conditionnelle qui ne peut s’appliquer qu’à la

compa-raison d’échantillons selon un unique facteur. Dans le cadre d’un GLM, la moyenne

est exprimée dans la fonction de vraisemblance par la matrice d’information de

Fi-sher. L’estimation de la dispersion φi pour chaque gène revient alors à maximiser la

vraisemblance proﬁlée ajustée :

AP L

(φ

) =l(φ

;y

,βˆ

)−1

2 log|I

|, (2.14)

où :

— y

est le vecteur de nombres dereads du gène i;

— βˆ

est le vecteur de paramètres de régression estimés dans le cadre du GLM

déﬁni dans la formule 2.8en l’absence defold-change de moyenne à appliquer

au gène i;

— l est la fonction de log-vraisemblance relative à la dispersion calculée à partir

de la fonction de masse de la distribution binomiale négative déﬁnie dans la

formule2.7 et la valeur estimée µˆ

de la moyenne à partir de βˆ

:

l(φ

;y

,µˆ

) =

logf(y

;µˆ

,φ

);

— log|I

|est le déterminant de la matrice d’information de Fisher, obtenu par la

décomposition de Cholesky (Stewart, 1973).

Comme dans la section précédente, la dispersion φ

n’est pas estimée pour chaque

gèneide manière indépendante mais à partir d’un ensemble de gènes. Elle est obtenue

grâce à un compromis entre l’estimation d’une dispersion commune à un ensemble

de gènes incluant le gène i et une estimation indépendante pour chaque gène i. La

manière la plus simple et la plus ﬁable est de considérer l’ensemble des gènes du jeu

de données et d’estimer une dispersion commune φˆ à l’ensemble des gènes. Elle est

obtenue en maximisant la fonction de vraisemblance partagée :

AP L

(φ) = 1

G

AP L

2^log^|I

,_βˆ

₎₋1

2 ^log^|I

— _βˆ

de la moyenne à partir de _βˆ

de données et d’estimer une dispersion commune _φˆ à l’ensemble des gènes. Elle est

— estimateGLMCommonDisp() : estime une valeur commune de dispersion _φˆ

— estimateGLMTagwiseDisp() : estime une valeur de dispersion _φˆ

— estimateGLMTrendedDisp() : estime une valeur de dispersion _φˆ