Loi de probabilité

Les nombres dereadsbruts sont des entiers positifs (voir section 2.1.3du chapitre

1), les lois de probabilités discrètes apparaissent ainsi comme des modélisations de

choix pour représenter ce type de données. Une particularité des données RNA-seq

est la présence de valeurs nulles en grand nombre.

La distribution binomiale négative Dans cette section, on note Y

_ij

la variable

aléatoire quantitative décrivant le nombre dereadsassociés au gèneiparmi le total de

m

reads issus de l’échantillon j. Les réalisations y

_1j

,y

_2j

,. . .,y

_Gj

de cette variable

aléatoire sont les nombres de reads associés aux gènes 1 à G dans l’échantillon j.

Chaque read peut être interprété comme la réalisation d’une variable aléatoire de

BernoulliX

de paramètrep

_ij

, oùp

_ij

est la probabilité que leread r soit issu du gène

i:

X

∼Bernouilli(p

_ij

).

On note alors que Y

_ij

est la somme de m

variables aléatoires de Bernoulli

indé-pendantes et identiquement distribuées. Cette variable aléatoire suit une distribution

binomiale de paramètres m

etp

:

Y

_ij

=

mj � r=1

X

∼B(m

,p

_ij

).

La probabilité que Y

_ij

prenne la valeurk est :

P(Y

_ij

=k) =

�

m

k

�

p

^k_ij

(1₋p

_ij

)

^mj−k

.

Comme le nombre total de reads m

est très grand et la probabilité p

qu’un read

30 Chapitre 2. Méthodes

être approximée par une distribution de Poissson de paramètre λ

_ij

. On note :

Y

_ij

∼P(λ

_ij

).

La probabilité que Y

_ij

prenne la valeurk est alors :

P(Y

=k) = ^λ

k ij

k!^e

⁻^λ^ij

.

Pour un ensemble d’échantillons, l’espérance et la variance de Y

_ij

sont alors égales à

λ

_ij

:

E(Y

) =Var(Y

) =λij.

Dans le cas de réplicats techniques, i.e. les échantillons sont les séquençages répétés

d’un même échantillon biologique, cette modélisation capture bien la relation entre

la moyenne et la variance des nombres de reads observés (Marioni et al., 2008).

En revanche, en présence de réplicats biologiques,i.e.les échantillons séquencés sont

issus d’échantillons biologiques diﬀérents, la variance des nombres de reads est plus

importante et la distribution de Poisson ne parvient plus à bien la modéliser, en

particulier pour les gènes fortement exprimés (ﬁgure2.2). Les nombres de reads sont

dits « sur-dispersés ». La distribution binomiale négative apparaît alors comme une

Figure 2.2 – Moyennes et variances de nombres dereads et ajustements d’une distribution de Poisson et d’une distribution binomiale négative.

distribution plus adaptée pour modéliser ce type de données. La variable Y

_ij

décrit

alors le nombre de succès d’expériences de Bernoulli de probabilité de succèsp

avant

d’observer un nombre d’échecs r

_ij

. Dans le cas de données RNA-seq, un succès est

l’observation d’unread issu du gèneiet un échec est l’observation d’unread non issu

du gène i. On note :

Y

∼N B(r

,p

), (2.4)

où :

3. Modèles basés sur la distribution binomiale négative 31

— p

_ij

est la probabilité de succès de chaque expérience de Bernoulli.

La fonction de masse, l’espérance et la variance sont alors :

P(Y

=k) = (

^k⁺^rij−1 k

)p

^k_ij

(1−p

)

rij

,

E(Y

) =

^pijrij 1−p_ij

,

Var(Y

_ij

) =

^pijrij (1−pij)²

. ^(2.5)

La distribution binomiale négative est en fait une distribution de Poisson de

para-mètreλ

_ij

Θ

, oùΘ

suit une distribution Gamma de paramètres de forme et d’échelle

prenant la même valeurα

_ij

(de sorte que E(Θ

) =1 et doncE(Y

_ij

) =λ

_ij

),

permet-tant la modélisation de la sur-dispersion des données. On note :

Y

_ij

|Θ

∼P(λ

_ij

Θ

) avec Θ

∼Gamma(α

_ij

,α

_ij

).

La probabilité que Y

_ij

prenne la valeurk s’écrit alors :

P(Y

_ij

=k) =

� ₊_∞ 0

λ

e

^−k

k!

α

^αij ij

Γ(αij)^λ

αij−1

_e

₋αijλ

dλ

= Γ(α

_ij

+k)

k!Γ(αij)

�

1 1+αij

�_k�

α

_ij

1+αij

�_α_ij

,

où Γ(·) est la fonction gamma.

En identiﬁant αij =r

etp

=

₁₊¹_α

, on a :

P(Y

=k) = Γ(r

+k)

k!Γ(r

_ij

) ^p

(1−p

)

^rij

.

On retrouve la fonction de masse déﬁnie dans la formule 2.5 étendue aux cas où le

paramètrer

_ij

prend des valeurs réelles. En eﬀet, quandr

_ij

prend des valeurs entières,

�

k+r

_ij

−1

k

�

= Γ(r

_ij

+k)

k!Γ(r

_ij

) .

Il s’agit ainsi de la distribution binomiale négative, ou distribution de Pólya, de

pa-ramèresr

_ij

etp

_ij

. L’espérance et la variance s’écrivent alors :

E(Y

) = ^p

^ij

^r

^ij

1₋p

_ij

=λij et

Var(Y

_ij

) = ^p

^ij

^r

^ij

(1₋p

_ij

)

⁼^λ

^ij

⁺^φ

^ij

^λ

2 ij

,

où φ

_ij

est le paramètre de dispersion,φ

_ij

=

_α¹

.

C’est la dispersionφ

_ij

qui permet de prendre en compte le surplus de variance observée

dans les données RNA-seq issues de réplicats biologiques (ﬁgure2.2) et lorsqueφ

tend

vers 0, alors la distribution binomiale négative revient à la distribution de Poisson

(CameronetTrivedi,1998). Ainsi, cette loi est plus appropriée pour modéliser les

nombres dereads issus de réplicats biologiques et s’est imposée comme la distribution

la plus utilisée par les méthodes analysant des données RNA-seq.

Notation en fonction de la moyenne et de la dispersion Dans les modèles de

régression, la distribution binomiale négative est communément présentée en fonction

de sa moyenne et de sa variance plutôt qu’en fonction des paramètres r

_ij

etp

_ij

telle

32 Chapitre 2. Méthodes

qu’indiquée dans la notation 2.4. En eﬀet, comme la distribution binomiale négative

est issue d’un mélange des distributions de Poisson et Gamma où le paramètre λij

de la loi de Poisson, qui est aussi la moyenne, est distribué selon une loi Gamma de

paramètres (α

_ij

,α

_ij

), on peut écrire :

Y

_ij

∼N B(λ

_ij

,φ

_ij

),

E(Y

_ij

) =λ

_ij

,

Var(Y

) =λij+φijλ

²_ij

. ^(2.6)

où φ

_ij

=

_α¹_ij

.

La fonction de masse s’écrit alors :

f(k;λ

_ij

,φ

_ij

) =P(Y

_ij

=k) = Γ(k+φ

⁻¹_ij

)

Γ(φ

⁻¹_ij

)Γ(k+1)

�

1 1+λ

_ij

φ

_ij �_φ−1 ij �

λ

_ij

φ

⁻¹_ij

+λ

_ij �_k

.

(2.7)

Les paramètres classiquesr

_ij

etp

_ij

d’une distribution binomiale négative se retrouvent

à l’aide des formules :

r

_ij

= 1

φ

_ij

etp

_ij

= 1

1+λ

_ij

φ

_ij

.

Dans le document Variance de l'expression des microARN et des ARN messagers dans le cancer (Page 50-53)

Les nombres dereadsbruts sont des entiers positifs (voir section 2.1.3du chapitre

1), les lois de probabilités discrètes apparaissent ainsi comme des modélisations de

choix pour représenter ce type de données. Une particularité des données RNA-seq

est la présence de valeurs nulles en grand nombre.

La distribution binomiale négative Dans cette section, on note Y

la variable

aléatoire quantitative décrivant le nombre dereadsassociés au gèneiparmi le total de

m

reads issus de l’échantillon j. Les réalisations y

,y

,. . .,y

de cette variable

aléatoire sont les nombres de reads associés aux gènes 1 à G dans l’échantillon j.

Chaque read peut être interprété comme la réalisation d’une variable aléatoire de

BernoulliX

de paramètrep

, oùp

est la probabilité que leread r soit issu du gène

i:

X

∼Bernouilli(p

).

On note alors que Y

est la somme de m

variables aléatoires de Bernoulli

indé-pendantes et identiquement distribuées. Cette variable aléatoire suit une distribution

binomiale de paramètres m

etp

:

Y

=

X

∼B(m

,p

).

La probabilité que Y

prenne la valeurk est :

P(Y

=k) =

m

k

p

(1−p

)

.

Comme le nombre total de reads m

est très grand et la probabilité p

qu’un read

30 Chapitre 2. Méthodes

être approximée par une distribution de Poissson de paramètre λ

. On note :

Y

∼P(λ

).

La probabilité que Y

prenne la valeurk est alors :

P(Y

=k) = λ

k!e

.

Pour un ensemble d’échantillons, l’espérance et la variance de Y

sont alors égales à

λ

:

E(Y

) =Var(Y

) =λij.

Dans le cas de réplicats techniques, i.e. les échantillons sont les séquençages répétés

d’un même échantillon biologique, cette modélisation capture bien la relation entre

la moyenne et la variance des nombres de reads observés (Marioni et al., 2008).

En revanche, en présence de réplicats biologiques,i.e.les échantillons séquencés sont

issus d’échantillons biologiques diﬀérents, la variance des nombres de reads est plus

importante et la distribution de Poisson ne parvient plus à bien la modéliser, en

particulier pour les gènes fortement exprimés (ﬁgure2.2). Les nombres de reads sont

dits « sur-dispersés ». La distribution binomiale négative apparaît alors comme une

distribution plus adaptée pour modéliser ce type de données. La variable Y

décrit

alors le nombre de succès d’expériences de Bernoulli de probabilité de succèsp

avant

(1₋p

=k) = ^λ

k!^e

. ^(2.5)

Γ(αij)^λ

_e