• Aucun résultat trouvé

Les nombres dereadsbruts sont des entiers positifs (voir section 2.1.3du chapitre

1), les lois de probabilités discrètes apparaissent ainsi comme des modélisations de

choix pour représenter ce type de données. Une particularité des données RNA-seq

est la présence de valeurs nulles en grand nombre.

La distribution binomiale négative Dans cette section, on note Y

ij

la variable

aléatoire quantitative décrivant le nombre dereadsassociés au gèneiparmi le total de

m

j

reads issus de l’échantillon j. Les réalisations y

1j

,y

2j

,. . .,y

Gj

de cette variable

aléatoire sont les nombres de reads associés aux gènes 1 à G dans l’échantillon j.

Chaque read peut être interprété comme la réalisation d’une variable aléatoire de

BernoulliX

r

de paramètrep

ij

, oùp

ij

est la probabilité que leread r soit issu du gène

i:

X

r

∼Bernouilli(p

ij

).

On note alors que Y

ij

est la somme de m

j

variables aléatoires de Bernoulli

indé-pendantes et identiquement distribuées. Cette variable aléatoire suit une distribution

binomiale de paramètres m

j

etp

ij

:

Y

ij

=

mjr=1

X

r

∼B(m

j

,p

ij

).

La probabilité que Y

ij

prenne la valeurk est :

P(Y

ij

=k) =

m

j

k

p

kij

(1p

ij

)

mj−k

.

Comme le nombre total de reads m

j

est très grand et la probabilité p

ij

qu’un read

30 Chapitre 2. Méthodes

être approximée par une distribution de Poissson de paramètre λ

ij

. On note :

Y

ij

∼P(λ

ij

).

La probabilité que Y

ij

prenne la valeurk est alors :

P(Y

ij

=k) = λ

k ij

k!e

λij

.

Pour un ensemble d’échantillons, l’espérance et la variance de Y

ij

sont alors égales à

λ

ij

:

E(Y

ij

) =Var(Y

ij

) =λij.

Dans le cas de réplicats techniques, i.e. les échantillons sont les séquençages répétés

d’un même échantillon biologique, cette modélisation capture bien la relation entre

la moyenne et la variance des nombres de reads observés (Marioni et al., 2008).

En revanche, en présence de réplicats biologiques,i.e.les échantillons séquencés sont

issus d’échantillons biologiques différents, la variance des nombres de reads est plus

importante et la distribution de Poisson ne parvient plus à bien la modéliser, en

particulier pour les gènes fortement exprimés (figure2.2). Les nombres de reads sont

dits « sur-dispersés ». La distribution binomiale négative apparaît alors comme une

Figure 2.2 – Moyennes et variances de nombres dereads et ajustements d’une distribution de Poisson et d’une distribution binomiale négative.

distribution plus adaptée pour modéliser ce type de données. La variable Y

ij

décrit

alors le nombre de succès d’expériences de Bernoulli de probabilité de succèsp

ij

avant

d’observer un nombre d’échecs r

ij

. Dans le cas de données RNA-seq, un succès est

l’observation d’unread issu du gèneiet un échec est l’observation d’unread non issu

du gène i. On note :

Y

ij

∼N B(r

ij

,p

ij

), (2.4)

où :

3. Modèles basés sur la distribution binomiale négative 31

p

ij

est la probabilité de succès de chaque expérience de Bernoulli.

La fonction de masse, l’espérance et la variance sont alors :

P(Y

ij

=k) = (

k+rij−1 k

)p

kij

(1−p

ij

)

rij

,

E(Y

ij

) =

pijrij 1−pij

,

Var(Y

ij

) =

pijrij (1−pij)2

. (2.5)

La distribution binomiale négative est en fait une distribution de Poisson de

para-mètreλ

ij

Θ

ij

, oùΘ

ij

suit une distribution Gamma de paramètres de forme et d’échelle

prenant la même valeurα

ij

(de sorte que E

ij

) =1 et doncE(Y

ij

) =λ

ij

),

permet-tant la modélisation de la sur-dispersion des données. On note :

Y

ij

ij

∼P(λ

ij

Θ

ij

) avec Θ

ij

∼Gamma(α

ij

,α

ij

).

La probabilité que Y

ij

prenne la valeurk s’écrit alors :

P(Y

ij

=k) =

+ 0

λ

k

e

−k

k!

α

αij ij

Γ(αij)λ

αij−1

e

αijλ

dλ

= Γ(α

ij

+k)

k!Γ(αij)

1

1+αij

k

α

ij

1+αij

αij

,

où Γ(·) est la fonction gamma.

En identifiant αij =r

ij

etp

ij

=

1+1α

ij

, on a :

P(Y

ij

=k) = Γ(r

ij

+k)

k!Γ(r

ij

) p

k

ij

(1−p

ij

)

rij

.

On retrouve la fonction de masse définie dans la formule 2.5 étendue aux cas où le

paramètrer

ij

prend des valeurs réelles. En effet, quandr

ij

prend des valeurs entières,

k+r

ij

−1

k

= Γ(r

ij

+k)

k!Γ(r

ij

) .

Il s’agit ainsi de la distribution binomiale négative, ou distribution de Pólya, de

pa-ramèresr

ij

etp

ij

. L’espérance et la variance s’écrivent alors :

E(Y

ij

) = p

ij

r

ij

1p

ij

=λij et

Var(Y

ij

) = p

ij

r

ij

(1p

ij

)

2

=λ

ij

+φ

ij

λ

2 ij

,

φ

ij

est le paramètre de dispersion,φ

ij

=

α1

ij

.

C’est la dispersionφ

ij

qui permet de prendre en compte le surplus de variance observée

dans les données RNA-seq issues de réplicats biologiques (figure2.2) et lorsqueφ

i

tend

vers 0, alors la distribution binomiale négative revient à la distribution de Poisson

(CameronetTrivedi,1998). Ainsi, cette loi est plus appropriée pour modéliser les

nombres dereads issus de réplicats biologiques et s’est imposée comme la distribution

la plus utilisée par les méthodes analysant des données RNA-seq.

Notation en fonction de la moyenne et de la dispersion Dans les modèles de

régression, la distribution binomiale négative est communément présentée en fonction

de sa moyenne et de sa variance plutôt qu’en fonction des paramètres r

ij

etp

ij

telle

32 Chapitre 2. Méthodes

qu’indiquée dans la notation 2.4. En effet, comme la distribution binomiale négative

est issue d’un mélange des distributions de Poisson et Gamma où le paramètre λij

de la loi de Poisson, qui est aussi la moyenne, est distribué selon une loi Gamma de

paramètres (α

ij

,α

ij

), on peut écrire :

Y

ij

∼N B(λ

ij

,φ

ij

),

E(Y

ij

) =λ

ij

,

Var(Y

ij

) =λij+φijλ

2ij

. (2.6)

φ

ij

=

α1ij

.

La fonction de masse s’écrit alors :

f(k;λ

ij

,φ

ij

) =P(Y

ij

=k) = Γ(k+φ

−1ij

)

Γ(φ

−1ij

)Γ(k+1)

1

1+λ

ij

φ

ijφ−1 ij

λ

ij

φ

−1ij

+λ

ijk

.

(2.7)

Les paramètres classiquesr

ij

etp

ij

d’une distribution binomiale négative se retrouvent

à l’aide des formules :

r

ij

= 1

φ

ij

etp

ij

= 1

1+λ

ij

φ

ij

.