3.3 La dispersion dans les modèles de di ff érence de moyenne d’ex-
3.3.4 Vraisemblance pro fi lée par ajustement de Cox-Reid . 42
Les fonctions de vraisemblance profilée s’appliquent dans les cas où la fonction
de vraisemblance dépend de plusieurs paramètres et que l’intérêt se porte
principale-ment sur l’un d’entre eux. Les autres paramètres, dits de nuisance, sont exprimés en
fonction du paramètre d’intérêt et remplacés dans la fonction de vraisemblance. Ici,
le paramètre d’intérêt est la dispersionφ
iet la moyenneµ
iest considérée comme un
paramètre de nuisance. L’ajustement de Cox-Reid (CoxetReid, 1987) vise à
corri-ger le biais introduit par l’estimateur du maximum de vraisemblance en pénalisant
la log-vraisemblance relative à la dispersion par un terme contenant l’information
observée pour la moyenne et est défini par :
l
CR(φ) =l(µˆ
i,φi)−1
2log|I
µiµi(φ,µˆ
i)|, (2.13)
où :
— µˆ
iest l’estimateur du maximum de vraisemblance de la moyenne ;
— I
µiµi(φ,µˆ
i)est l’information observée de Fisher pour la moyenne.
3. Modèles basés sur la distribution binomiale négative 43
La vraisemblance conditionnelle définie dans la formule 2.10 suit une approche
si-milaire dans la mesure où considérer la somme des nombres de reads comme une
statistique pour la moyenne permet d’écrire une fonction de vraisemblance pour la
dispersion qui ne dépend pas de la moyenne. L’avantage de la vraisemblance profilée
par ajustement Cox-Reid est qu’elle peut être appliquée dans le cadre d’un GLM, au
contraire de la vraisemblance conditionnelle qui ne peut s’appliquer qu’à la
compa-raison d’échantillons selon un unique facteur. Dans le cadre d’un GLM, la moyenne
est exprimée dans la fonction de vraisemblance par la matrice d’information de
Fi-sher. L’estimation de la dispersion φi pour chaque gène revient alors à maximiser la
vraisemblance profilée ajustée :
AP L
i(φ
i) =l(φ
i;y
i,βˆ
i)−1
2 log|I
i|, (2.14)
où :
— y
iest le vecteur de nombres dereads du gène i;
— βˆ
iest le vecteur de paramètres de régression estimés dans le cadre du GLM
défini dans la formule 2.8en l’absence defold-change de moyenne à appliquer
au gène i;
— l est la fonction de log-vraisemblance relative à la dispersion calculée à partir
de la fonction de masse de la distribution binomiale négative définie dans la
formule2.7 et la valeur estimée µˆ
0ide la moyenne à partir de βˆ
i:
l(φ
i;y
i,µˆ
0i) =
�j
logf(y
ij;µˆ
0ij,φ
i);
— log|I
i|est le déterminant de la matrice d’information de Fisher, obtenu par la
décomposition de Cholesky (Stewart, 1973).
Comme dans la section précédente, la dispersion φ
in’est pas estimée pour chaque
gèneide manière indépendante mais à partir d’un ensemble de gènes. Elle est obtenue
grâce à un compromis entre l’estimation d’une dispersion commune à un ensemble
de gènes incluant le gène i et une estimation indépendante pour chaque gène i. La
manière la plus simple et la plus fiable est de considérer l’ensemble des gènes du jeu
de données et d’estimer une dispersion commune φˆ à l’ensemble des gènes. Elle est
obtenue en maximisant la fonction de vraisemblance partagée :
AP L
S(φ) = 1
G
G � i=1AP L
i(φ), (2.15)
où :
— AP L
iest la vraisemblance profilée ajustée du gène i définie dans la formule
2.14;
— G est le nombre total de gènes.
Cette maximisation peut être obtenue numériquement de différentes manières. Les
auteurs d’edgeR ont opté pour la méthode de Newton-Raphson (Brent,1973).
Une approche plus fine consiste à considérer un ensemble plus restreint de gènes et
à exprimer la dispersion comme une fonction de la moyenne d’expression. Des
sous-ensembles de gènes sont ainsi constitués selon l’expression moyenne des gènes et une
dispersion commune est estimée pour chaque sous-ensemble. Une courbe de
régres-sion est ensuite obtenue à travers les estimations de la disperrégres-sion par régresrégres-sion locale
(loess ou spline). La dispersionφ
iest alors estimée par la moyenne pondérée desAP L
44 Chapitre 2. Méthodes
du gèneiet de gènes dont les nombres dereadsmoyens sont proches de celui du gènei.
Enfin, une dernière approche consiste à estimer la dispersion φ
ide chaque gène i
à l’aide d’un compromis entre l’estimation de la dispersion commune à un ensemble
de gènes incluant le gène i et une estimation indépendante pour chaque gène i en
maximisant la vraisemblance partagée :
AP L
i(φi) +G
0AP L
Si(φi), (2.16)
où :
— AP L
Si(φi) est la log-vraisemblance locale partagée d’un ensemble de gènes
S
i;
— G
0est le poids donné à la log-vraisemblance locale partagée.
De manière similaire à la vraisemblance pondérée définie dans la formule 2.12, cette
approche peut être vue comme une approche bayésienne où la vraisemblance
parta-géeAP L
Si(φ
i)est la distributiona priorideφ
i, la vraisemblance pondérée comme la
distributiona posteriori etG
0est le poids donné à la distributiona priori.
McCar-thy,Chen etSmyth, 2012recommendent de prendre une valeur G
0petite lorsque
l’on suspecte que la dispersion varie beaucoup au sein du jeu de données. Ils
recom-mendent G
0=
20dfoù df est le nombre de degrés de liberté résiduels pour estimer
la dispersion (i.e.le nombre d’échantillons moins le nombre de populations
d’échan-tillons). Une caractéristique de cette modélisation est le fait que l’estimation de φ
itend d’autant plus vers l’estimation partagée que l’estimation indépendante de φ
ià
partir des seuls comptesy
iest incertaine. Par exemple, les gènes faiblement exprimés
verront leur estimateur de la dispersion tendre fortement vers l’estimateur partagé.
Les différentes approches basées sur la vraisemblance profilée ajustée sont
implé-mentées dans le package R edgeR (Robinson,McCarthy etSmyth,2010) par les
fonctions suivantes :
— estimateGLMCommonDisp() : estime une valeur commune de dispersion φˆ
pour l’ensemble des gènes à l’aide de la vraisemblance profilée ajustée partagée
définie dans la formule2.15;
— estimateGLMTagwiseDisp() : estime une valeur de dispersion φˆ
ipour chaque
gène à l’aide de la vraisemblance profilée ajustée pondérée définie dans la
formule2.16;
— estimateGLMTrendedDisp() : estime une valeur de dispersion φˆ
ipour chaque
gène à partir de la tendance observée entre la dispersion déterminée à l’aide
de la vraisemblance profilée ajustée partagée par sous-ensembles de gènes et
la moyenne d’expression.
3.3.5 DESeq2
Dans la première version de leur méthode, DESeq,AndersetHuber,2010
n’es-timent pas un paramètre de dispersion pour quantifier la variance des données. Pour
représenter les comptesreads, ils utilisent une paramétrisation de la distribution
bino-miale négative différente de celle définie dans la formule2.6 et estiment directement
la variance.
Pour la deuxième version de leur méthode, DESeq2, (Love, Huber et Anders,
2014) s’inscrivent dans le cadre d’un GLM tel que défini dans la formule 2.8 et
es-timent le paramètre de dispersion. Leur approche suppose que les gènes qui ont des
3. Modèles basés sur la distribution binomiale négative 45
moyennes d’expression très proches ont aussi des valeurs de dispersion similaires et
est très proche de l’approche d’estimation de la dispersion d’edgeR par maximisation
de la vraisemblance profilée ajustée pondérée (voir section 3.3.4). Elle procède en 3
étapes :
1. estimation de la dispersion φ
ipour chaque gène i de manière indépendante
par maximum de vraisemblance profilée par ajustement de Cox-Reid définie
dans la formule 2.14;
2. une courbe de tendance entre la dispersion et la moyenne est obtenue par
régression des φ
isur la moyenne des nombres de reads normalisés ;
3. l’estimateur final de la dispersion est déterminée par une approche bayésienne
empirique dont la distributiona priori est une distribution log-normale centrée
sur la courbe de régression.
L’approche d’estimation de la dispersion développée par DESeq2 est illustrée par la
figure 2.3.
Etant donnée la dépendance décroissante de la dispersion à la moyenne
communé-ment observée dans les données RNA-seq, Love, Huberet Anders,2014 ont opté
pour la paramétrisation suivante de la courbe de tendance :
φ
tr(µ¯
i) = a
1¯
µ +α
0, (2.17)
où :
— µ¯ est la moyenne des nombres dereads observée ;
— a
1et α
0sont deux hyperparamètres à estimer.
La distribution des estimateurs pouvant être asymétrique autour de la vraie valeurφ
i,
une régression par GLM de la famille gamma est appliquée plutôt qu’une régression
classique par les moindres carrés. Les hyperparamètres a
1et α
0sont obtenus lors
de l’ajustement itératif du GLM de la famille gamma. La courbe de tendance est
ensuite utilisée dans le cadre d’une approche bayésienne empirique pour paramétrer
la distribution a priori telle que :
log φ
i∼N(log φ
tr(µ¯
i),σ
2d),
où σ
d2représente la largeur de la distributiona priori et décrit à quel point les vraies
dispersions φ
isont éparpillées autour de la courbe de tendance.
A l’inverse d’edgeR, l’hyperparamètre de variance σ
2dest estimé à partir des
don-nées. Il dépend du nombre de degrés de liberté du modèle qui est égal à la différence
entre le nombre d’échantillons et le nombre de coefficients du GLM. Plus le nombre
d’échantillons est grand, plus l’estimateur final tend vers l’estimateur du maximum
de vraisemblance profilée du gène i.
Un seuil minimal est utilisé pour éviter que l’estimateurfinal de la dispersionφˆ
itende
totalement vers la valeur estimée par la courbe de tendance. A l’inverse, les gènes dont
l’estimateur de la dispersion par maximum de vraisemblance profilée est très éloigné
de la courbe de tendance ne voient pas leur estimateur final de la dispersion affecté
par la courbe de tendance.
Le maximum de la distribution a posteriori (MAP) construite à partir de la
vraisem-blance profilée par ajustement de Cox-Reid et de la distribution a priori est utilisé
comme estimateur final de la dispersion :
ˆ
φ
M APi=argmax
φ �l
CR(φ
i) +−(logφ−logφ
tr(µ¯
i))
22σ
2d �, (2.18)
46 Chapitre 2. Méthodes
où :
— l
CR(φi) est la vraisemblance profilée par ajustement de Cox-Reid ;
— φest une constante additive.
La propension de l’estimateur final à tendre vers la courbe de tendance dépend de la
proximité de la vraie valeur de la dispersion avec la courbe (figure 2.3).
Figure 2.3 –Illustration de l’approche d’estimation de la dispersion déve-loppée dans lepackageDESeq2 (Love,HuberetAnders,2014). Les points représentent les estimateurs du maximum de vraisemblance de la dispersion
obtenus à l’aide des nombres de reads de chaque gène respectivement. La
courbe rouge est la courbe d’ajustement des estimateurs pour capturer la tendance entre la moyenne et la dispersion. Elle est utilisée commea priori
d’une seconde estimation de la dispersion consistant à ajuster les estima-teurs de la dispersion propres à chaque gène à la tendance globale. Cet ajustement est représenté par lesflèches bleues. Certains estimateurs sont considérés comme des valeurs aberrantes et ne sont pas modifiés par la
ten-dance globale (cercles bleus).