Les nombres dereadsbruts sont des entiers positifs (voir section 2.1.3du chapitre
1), les lois de probabilités discrètes apparaissent ainsi comme des modélisations de
choix pour représenter ce type de données. Une particularité des données RNA-seq
est la présence de valeurs nulles en grand nombre.
La distribution binomiale négative Dans cette section, on note Y
ijla variable
aléatoire quantitative décrivant le nombre dereadsassociés au gèneiparmi le total de
m
jreads issus de l’échantillon j. Les réalisations y
1j,y
2j,. . .,y
Gjde cette variable
aléatoire sont les nombres de reads associés aux gènes 1 à G dans l’échantillon j.
Chaque read peut être interprété comme la réalisation d’une variable aléatoire de
BernoulliX
rde paramètrep
ij, oùp
ijest la probabilité que leread r soit issu du gène
i:
X
r∼Bernouilli(p
ij).
On note alors que Y
ijest la somme de m
jvariables aléatoires de Bernoulli
indé-pendantes et identiquement distribuées. Cette variable aléatoire suit une distribution
binomiale de paramètres m
jetp
ij:
Y
ij=
mj � r=1X
r∼B(m
j,p
ij).
La probabilité que Y
ijprenne la valeurk est :
P(Y
ij=k) =
�m
jk
�p
kij(1−p
ij)
mj−k.
Comme le nombre total de reads m
jest très grand et la probabilité p
ijqu’un read
30 Chapitre 2. Méthodes
être approximée par une distribution de Poissson de paramètre λ
ij. On note :
Y
ij∼P(λ
ij).
La probabilité que Y
ijprenne la valeurk est alors :
P(Y
ij=k) = λ
k ij
k!e
−λij.
Pour un ensemble d’échantillons, l’espérance et la variance de Y
ijsont alors égales à
λ
ij:
E(Y
ij) =Var(Y
ij) =λij.
Dans le cas de réplicats techniques, i.e. les échantillons sont les séquençages répétés
d’un même échantillon biologique, cette modélisation capture bien la relation entre
la moyenne et la variance des nombres de reads observés (Marioni et al., 2008).
En revanche, en présence de réplicats biologiques,i.e.les échantillons séquencés sont
issus d’échantillons biologiques différents, la variance des nombres de reads est plus
importante et la distribution de Poisson ne parvient plus à bien la modéliser, en
particulier pour les gènes fortement exprimés (figure2.2). Les nombres de reads sont
dits « sur-dispersés ». La distribution binomiale négative apparaît alors comme une
Figure 2.2 – Moyennes et variances de nombres dereads et ajustements d’une distribution de Poisson et d’une distribution binomiale négative.
distribution plus adaptée pour modéliser ce type de données. La variable Y
ijdécrit
alors le nombre de succès d’expériences de Bernoulli de probabilité de succèsp
ijavant
d’observer un nombre d’échecs r
ij. Dans le cas de données RNA-seq, un succès est
l’observation d’unread issu du gèneiet un échec est l’observation d’unread non issu
du gène i. On note :
Y
ij∼N B(r
ij,p
ij), (2.4)
où :
3. Modèles basés sur la distribution binomiale négative 31
— p
ijest la probabilité de succès de chaque expérience de Bernoulli.
La fonction de masse, l’espérance et la variance sont alors :
P(Y
ij=k) = (
k+rij−1 k)p
kij(1−p
ij)
rij,
E(Y
ij) =
pijrij 1−pij,
Var(Y
ij) =
pijrij (1−pij)2. (2.5)
La distribution binomiale négative est en fait une distribution de Poisson de
para-mètreλ
ijΘ
ij, oùΘ
ijsuit une distribution Gamma de paramètres de forme et d’échelle
prenant la même valeurα
ij(de sorte que E(Θ
ij) =1 et doncE(Y
ij) =λ
ij),
permet-tant la modélisation de la sur-dispersion des données. On note :
Y
ij|Θ
ij∼P(λ
ijΘ
ij) avec Θ
ij∼Gamma(α
ij,α
ij).
La probabilité que Y
ijprenne la valeurk s’écrit alors :
P(Y
ij=k) =
� +∞ 0λ
ke
−kk!
α
αij ijΓ(αij)λ
αij−1e
−αijλdλ
= Γ(α
ij+k)
k!Γ(αij)
�1
1+αij
�k�α
ij1+αij
�αij,
où Γ(·) est la fonction gamma.
En identifiant αij =r
ijetp
ij=
1+1αij
, on a :
P(Y
ij=k) = Γ(r
ij+k)
k!Γ(r
ij) p
k
ij
(1−p
ij)
rij.
On retrouve la fonction de masse définie dans la formule 2.5 étendue aux cas où le
paramètrer
ijprend des valeurs réelles. En effet, quandr
ijprend des valeurs entières,
�
k+r
ij−1
k
�= Γ(r
ij+k)
k!Γ(r
ij) .
Il s’agit ainsi de la distribution binomiale négative, ou distribution de Pólya, de
pa-ramèresr
ijetp
ij. L’espérance et la variance s’écrivent alors :
E(Y
ij) = p
ijr
ij1−p
ij=λij et
Var(Y
ij) = p
ijr
ij(1−p
ij)
2=λ
ij+φ
ijλ
2 ij,
où φ
ijest le paramètre de dispersion,φ
ij=
α1ij
.
C’est la dispersionφ
ijqui permet de prendre en compte le surplus de variance observée
dans les données RNA-seq issues de réplicats biologiques (figure2.2) et lorsqueφ
itend
vers 0, alors la distribution binomiale négative revient à la distribution de Poisson
(CameronetTrivedi,1998). Ainsi, cette loi est plus appropriée pour modéliser les
nombres dereads issus de réplicats biologiques et s’est imposée comme la distribution
la plus utilisée par les méthodes analysant des données RNA-seq.
Notation en fonction de la moyenne et de la dispersion Dans les modèles de
régression, la distribution binomiale négative est communément présentée en fonction
de sa moyenne et de sa variance plutôt qu’en fonction des paramètres r
ijetp
ijtelle
32 Chapitre 2. Méthodes
qu’indiquée dans la notation 2.4. En effet, comme la distribution binomiale négative
est issue d’un mélange des distributions de Poisson et Gamma où le paramètre λij
de la loi de Poisson, qui est aussi la moyenne, est distribué selon une loi Gamma de
paramètres (α
ij,α
ij), on peut écrire :
Y
ij∼N B(λ
ij,φ
ij),
E(Y
ij) =λ
ij,
Var(Y
ij) =λij+φijλ
2ij. (2.6)
où φ
ij=
α1ij.
La fonction de masse s’écrit alors :
f(k;λ
ij,φ
ij) =P(Y
ij=k) = Γ(k+φ
−1ij)
Γ(φ
−1ij)Γ(k+1)
�1
1+λ
ijφ
ij �φ−1 ij �λ
ijφ
−1ij+λ
ij �k.
(2.7)
Les paramètres classiquesr
ijetp
ijd’une distribution binomiale négative se retrouvent
à l’aide des formules :
r
ij= 1
φ
ijetp
ij= 1
1+λ
ijφ
ij.
Dans le document
Variance de l'expression des microARN et des ARN messagers dans le cancer
(Page 50-53)