Séquençage à haut débit - Analyse statistique de données biologiques à haut débit

4.7 Appendix

1.4.2 Séquençage à haut débit

Les premières techniques de séquençage de l’ADN datent des années 1970s et ont

évo-lué très rapidement. Toutes consistent à définir l’ordre d’enchaînement des nucléotides

pour un fragment d’ADN donné. La nature des données produites et donc la façon dont

elles vont être analysées dépend de la technologie utilisée. Nous renvoyons le lecteur vers

Goodwin et al.[2016] pour une revue récente des technologies de séquençage. Les

tech-nologies de séquençage à haut débit sont apparues dans les années 2000 et consistent à

produire en unrunde séquençage des milliers de séquences à moindre coût. Alors que le

premier séquençage du génome humain terminé en 2003 a duré près de 15 ans et coûté

2 milliards d’euros, en 2007 le génome d’un seul individu (James Watson) était séquencé

en 2 mois pour 1,5 million de dollars et en 2013 la société Illumina proposait de

séquen-cer pour 1 000 dollars n’importe quel génome humain en quelques heures. Aujourd’hui, il

est possible de caractériser les milliers d’espèces présentes dans un échantillon

environ-nemental particulier. Les données en sortie de séquenceurs correspondent à des lectures

(oureads). Une lecture correspond à un ensemble de bases adjacentes séquençées à partir

d’une extrémité ou des deux extrémités d’un fragment d’ADN. Lors d’un séquençage de

génome ou métagénome, on cherche ensuite à retrouver la ou les séquences originelles

dont sont issues ces lectures, soit en alignant ces lectures sur un génome de référence

(oumapping) soit en reconstruisant directement ce génome (assemblagede novo). Avec

ces technologies, il est aussi possible de séquencer des fragments d’ARN transcrits : c’est

ce qu’on nomme ’RNA-seq’ [Wang et al.,2009]. L’expression des gènes est quantifiée par

le nombre de transcrits produits par ces derniers. En séquençant les fragments d’ARN

transcrits, et en alignant les lectures issues de ce séquençage sur le génome, on obtient

un nombre de lectures alignées sur chacun des gènes, représentant le niveau

d’expres-sion de ces derniers. Les données obtenues par ces technologies sont de nature discrète.

CHAPITRE 1. CONTEXTE BIOLOGIQUE

Les méthodes d’analyse développées pour les techniques par hybridation ne sont donc

plus applicables et de nouvelles méthodes sont nécessaires.

F

IGURE

1.3 – Une expérience de séquençage d’ARN du point de vue du statisticien, figure tirée de

Li et al.[2012]. Les ARNm sont fragmentés de façon aléatoire. Ces fragments sont rétro-transcrits

dans une banque d’ADN complémentaire, elle-même ensuite amplifiée par PCR et séquencée,

produisant ainsi une liste de lectures. Ces lectures sont alignées sur un transcriptome connu qui

consiste enmgènes. Le nombre de lectures alignées sur chaque gène donne une mesure de

l’ex-pression de ce gène. En résumé, le séquençage d’un échantillon aboutit à un vecteur de comptages

de longueur m.

La figure1.3décrit le processus de production de données issues du séquençage de

l’ARN d’un échantillon biologique. Les coûts diminuant, le nombre de séquences

obte-nues pour un seul échantillon peut être bien plus grand que nécessaire. Dans ce cas, il

peut être intéressant de séquencer plusieurs échantillons biologiques en même temps

afin de réduire le coût de l’expérience. Ce processus de multiplexage décrit dans la

fi-gure1.4est possible techniquement grâce à l’utilisation debarcodes. Un barcode est une

courte séquence d’ADN ajoutée aux lectures d’un échantillon donné pendant

l’amplifica-tion (étapes A et B). Les séquences ont alors besoin d’être ’démultiplexées’, réattribuées à

leur échantillon d’origine au cours de traitements ultérieurs (étape C) afin d’être alignées

sur la séquence de référence (étape D).

CHAPITRE 1. CONTEXTE BIOLOGIQUE

F

IGURE

1.4 – Représentation conceptuelle du multiplexage, figure tirée de http://www.

illumina.com/technology/next-generation-sequencing/

1.5 Références

H. Chassé. Régulations traductionnelles de l’embryon précoce d’oursin. PhD thesis, Ecole

Doctorale 515 - Complexité du Vivant, 2015. iii,5

H. Chassé, S. Boulben, V. Costache, P. Cormier, and J. Morales. Analysis of translation

using polysome profiling.Nucleic Acid Research, 2016. 6

S. Creer, K. Deiner, S. Frey, D. Porazinska, P. Taberlet, W. K. Thomas, C. Potter, and H. M.

Bik. The ecologist’s field guide to sequence-based identification of biodiversity.

Me-thods in Ecology and Evolution, 7(9) :1008–1018, 2016. doi : 10.1111/2041-210X.12574.

4 D. Duggan, M. Bittner, Y. Chen, P. Meltzer, and J. Trent. Expression profiling using cdna

microarrays.Nature Genetics, 21 :10–14, 1999. iii,2,6

S. Goodwin, J. McPherson, and R. McCombie. Coming of age : ten years of next-generation

sequencing technologies.Nature Reviews Genetics, 17 :333–351, 2016.7

J. Li, D. Witten, I. Johnstone, and R. Tibshirani. Normalization, testing, and false discovery

rate estimation for rna-sequencing data. Biostatistics, 13(3) :523–538, 2012. iii,8

P. McMurdie and S. Holmes. Waste not, want not : Why rarefying microbiome data is

in-admissible. PLoS Computational Biology, 10(4) :e1003531, 2014. doi : 10.1371/journal.

pcbi.1003531.4

Z. Wang, M. Gerstein, and M. Snyder. Rna-seq : a revolutionary tool for transcriptomics.

CHAPITRE 1. CONTEXTE BIOLOGIQUE

J. Watson, T. Baker, S. Bell, A. Gann, M. Levine, and R. Losick.Biologie moléculaire du gène.

Chapitre 2

Préambule statistique

Sommaire

2.1 Modèle à variables latentes . . . 12

2.1.1 Variables latentes indépendantes : modèle de mélange. . . 12

2.1.2 Variables latentes dépendantes : exemple des chaînes de Markov

cachées . . . 15

2.1.3 Structure de dépendance plus complexe : approche variationnelle. 17

2.2 Sélection de modèle . . . 19

2.2.1 Le critère BIC . . . 20

2.2.2 Le critère ICL . . . 21

2.3 Données de comptage . . . 21

2.3.1 Introduction . . . 21

2.3.2 Rappel sur les lois. . . 22

2.3.3 Interprétation de la paramétrisation NB2 dans le cadre des

don-nées de séquençage . . . 27

2.4 Tests multiples . . . 28

2.4.1 Introduction . . . 28

2.4.2 Formalisation du problème de tests multiples . . . 28

2.4.3 Le taux d’erreur par famille ou Family Wise Error Rate (FWER) . . . 29

2.4.4 Le taux de fausses découvertes ou False Discovery Rate (FDR) . . . 30

2.5 La régression locale ou ’lowess’ . . . 30

2.6 Références . . . 32

CHAPITRE 2. PRÉAMBULE STATISTIQUE

Ce chapitre introduit les concepts statistiques principaux qui seront utiles dans les

chapitres suivants. Les sections de ce chapitre sont indépendantes les unes des autres. La

première section présente le cadre des modèles de mélange, qui constitue le cadre

théo-rique des méthodes proposées dans le chapitre3. La deuxième aborde la question de la

sélection de modèles. Nous présentons ensuite une vue générale de l’analyse de données

de comptage utile pour les chapitres3à6. Ce chapitre se termine par une présentation de

la problématique des tests multiples, suivie dans la dernière section d’une présentation

de la régression locale mentionnée dans le chapitre6.

Notations et conventions Ci-dessous quelques notations que nous utiliserons dans la

suite du manuscrit :

Y : variables observées

Z : variables non observées (cachées, latentes)

θ: vecteur des paramètres

p

_θ

(.) ou f(.;θ) : fonction de densité de probabilité de paramètresθ

E

: moments sousp

_θ

. Parfois_E

_θ

sera remplacé par_E

ou_E

P

=P

_n i=1

etc.

P

i,j,k,g

=P

_n i=1

P

_m j=1

P

_K k=1

P

_G g=1

Pour les distributions classiques, nous adoptons les notations suivantes :

U

_[_a_,_b_]

: distribution uniforme sur l’intervalle [a,b]

M(n,π) : distribution multinomiale issue de n tirages de vecteur de probabilités π =

(π

₁

,_···,π

) avecP

k=1

π

=1

P(γ) : distribution de Poisson de paramètreγ

G(a,b) : distribution Gamma de paramètre d’échelleaet de paramètre d’intensitéb

N B(µ,φ) : distribution binomiale négative de moyenneµet de variance (µ+φµ

).

2.1 Modèle à variables latentes

Pour une présentation plus complète des modèles à variables latentes avec des

appli-cations en génomique, nous renvoyons le lecteur vers les notes de cours de Stéphane

Ro-bin (https://www6.inra.fr/mia-paris/Media/Fichier/PagePerso/StephaneRobin/

hiddenstruct-genome-14a).

2.1.1 Variables latentes indépendantes : modèle de mélange

Les modèles de mélange supposent que les observations se répartissent en K classes

latentes (ou cachées) telles que la distribution des variables observées Y

dépend de la

CHAPITRE 2. PRÉAMBULE STATISTIQUE

valeur de la variable latente non observée Z

.

Modèle

Le modèle le plus simple est le suivant :

1. les variables latentes (Z

) sont indépendantes et identiquement distribuées avec

P(Z

₌k)₌π

,

2. les variables observées (Y

) sont indépendantes conditionnellement aux variables

latentes (Z

),

3. Y

sachant Z

=ksuit une distribution paramétrique F(γ

), appelée loi d’émission,

de densité de probabilité f(.;γ

).

La fonction de densité d’une observation est parfois notée

f(y;θ)₌

X

k=1

π

f

(y;γ

),

oùπ=(π

)

sont les proportions du mélange avec_∀k,π

∈[01] etP

k=1

π

=1, f

est la

densité de probabilité de la composantekparamétrée parγ

etθ:₌(π,γ)₌((π

),(γ

)) est

le vecteur des paramètres du modèle.

L’objectif de l’inférence de ce type de modèle est de fournir un estimateur des

para-mètresθ.

Ce modèle revient à écrire :

p

_θ

(Z)₌

Y

i=1 K

Y

k=1

(π

)

^Zi k

,

p

_θ

(Y|Z)₌

Y

i=1 K

Y

k=1

f(Y

;γ

)

^Zi k

avec Z

_{i k}

₌₁{Z

=k}.

Z

Y

F

IGURE

2.1 – Représentation graphique du modèle de mélange correspondant. Légende : les

va-riables observées (cercles sans remplissage), les vava-riables latentes (cercles grisés).

CHAPITRE 2. PRÉAMBULE STATISTIQUE

Inférence

La méthode la plus classiquement utilisée pour l’inférence de ce type de modèle

re-pose sur une approche de maximum de vraisemblance. La maximisation directe par

rap-port àθde la log-vraisemblance observée logp

(Y) est difficile et souvent sans solution

analytique.

L’algorithmeExpectation Maximizationou algorithme EM [Dempster et al.,1977;

McLa-chlan and Peel,2000] permet de maximiser la log-vraisemblance des données logp

_θ

(Y),

sans jamais avoir à la calculer et est basé sur une décomposition de la vraisemblance des

données dites incomplètes :

logp

_θ

(Y) ₌ E

£

logp

_θ

(Y,Z)_|Y¤

−E

£

logp

_θ

(Z|Y)_|Y¤

. (2.1)

Les données observées (Y

)

sont considérées comme incomplètes tant que les variables

latentes (Z

)

ne sont pas observées.

Cette décomposition permet de relier la log-vraisemblance incomplète souvent

diffi-cilement calculable à la log-vraisemblance complète plus sympathique.

La log-vraisemblance de notre modèle s’écrit

logp

_θ

(Y) ₌

X

i=1

log

"

X

k=1

π

f(Y

;γ

)

#

(2.2)

et la log-vraisemblance complète

logp

_θ

(Y,Z)₌

X

i=1 K

X

k=1

Z

i k

£

logπ

+logf(Y

;γ

)¤

.

L’algorithme EM consiste à itérer jusqu’à convergence une étape E d’estimation des

moments de la distribution conditionnelle des variables cachées sachant les observations

E

£

logp

_θ

(Z|Y)_|Y¤

à une étape M de maximisation de l’espérance conditionnelle de la

log-vraisemblance complète argmax

P

p

_θ

(Z_|Y)logp

_θ

(Y,Z).

La convergence du modèle se vérifie à l’aide d’un critère d’arrêt portant soit sur les

valeurs des paramètres soit sur la log-vraisemblance.

On peut montrer que la vraisemblance observée augmente à chaque étape mais il n’y

a aucune garantie sur la convergence systématique de l’algorithme vers l’estimateur du

maximum de vraisemblance deθ.

Classification

La classification des observations dans des groupes est souvent d’un intérêt majeur

lors de l’utilisation des modèles de mélange. L’algorithme EM ne fournit pas à

propre-CHAPITRE 2. PRÉAMBULE STATISTIQUE

ment parlé de classification formelle des observations dans des groupes. Cependant les

τ

_{i k}

=P(Z

₌k|Y) fournissent une mesure de la confiance avec laquelle on peut classer

une observation dans un groupe. L’incertitude de classification d’un individu est donnée

par l’entropie conditionnelle de Z

:

H £

p

(Z

|Y)¤

=H £

p

(Z

|Y

)¤

= −

X

k=1

τ

_{i k}

logτ

_{i k}

.

La règle du Maximum A Posteriori (MAP) peut être utilisée quand il est nécessaire

qu’une observation soit affectée à un groupe. Elle consiste à affecter l’observation dans

le groupe pour lequel sa probabilité a posteriori est la plus grande.

ˆZ₌argmax

p

_θ

(Z₌z|^Y).

Dans le cas du modèle de mélange, ˆZ₌(ˆZ

)

avec ˆZ

₌argmax

τ

_{i k}

.

2.1.2 Variables latentes dépendantes : exemple des chaînes de Markov

cachées

Un modèle de chaîne de Markov cachée est un modèle de chaîne de Markov MC dont

la séquence des états n’est pas directement observée. Chaque état émet des ’observations’

qui, elles, sont par définition observables. Il est défini par un état initial de loiν, des états

possibles et des probabilitésπde passer d’un état à un autre appeléestransitions. L’état

initial définit les probabilités de commencer dans chacun des états. Les transitions

s’opé-rent entre chaque unité de temps. L’état caché au tempsi est donc dépendant de l’état

caché au tempsi−^1.

Z

_i₋1

Z

Y

_i₋1

Y

F

IGURE

2.2 – Représentation graphique du modèle de Markov caché. Légende : les variables

ob-servées (cercles sans remplissage), les variables latentes (cercles grisés)

Une représentation graphique de ce modèle est visible sur la figure2.2.

Modèle

Un modèle de chaîne de Markov cachée peut s’écrire de la façon suivante :

— (Z

)

∼MC(ν,π),

CHAPITRE 2. PRÉAMBULE STATISTIQUE

— Y

_|(Z

₌k)_∼F

₌F(γ

).

La chaîne de Markov MC(ν,π) est définie sur l’espace d’états [1,K] avec K le nombre

d’états cachés. Les paramètres du modèle sont :θ=¡

ν,π,γ¢

.

Inférence par maximum de vraisemblance

La décomposition de la vraisemblance (2.1) tient toujours. Dans le cas des chaînes de

Markov cachées, la log-vraisemblance complète s’écrit :

logp

_θ

(Y,Z) ₌ log[p

_θ

(Z)p

_θ

(Y_|Z)]

= X

Z

logν

+X

i,k

Z

_{i k}

logf(Y

;γ

)₊X

i≥2

X

k,ℓ

Z

_i₋1,k

Z

_iℓ

logπ

_kℓ

.

Remarquons que seul le dernier terme de la log-vraisemblance complète diffère par

rap-port au modèle de mélange présenté dans la section précédente.

Dans l’étape E de l’algorithme EM, nous avons besoin de calculerE(Z

_{i k}

_|Y).

Contraire-ment au cas du modèle de mélange précédent, du fait de la structure de dépendance, la

distribution conditionnelle n’est plus factorisable :E[Z

i k

|Y]₌p(Z

=k|Y)₆₌p(Z

=k|Y

).

Cependant la structure de dépendance conditionnelle reste simple. Et les termes τ

_{i k}

=

E[Z

i k

|Y] etE[Z

i−1,k

Z

iℓ

|Y] peuvent se calculer en itérant des étapes dites Forward et

Back-ward [Baum et al.,1970;Devijver,1985]. Lesτ

_{i k}

traduisent l’indépendance conditionnelle

entre le passé et le futur du processus à chaque temps i. On note Y

=^{Y

,_···,Y

}, avec

a≤b.

τ

_{i k}

=p(Z

₌k|^Y) = ^p^(Z

ⁱ

⁼^k^,Y

n 1

)

p(Y

n 1

)

= ^p^(Y

n i+1

|Z

=k)p(Z

=k,Y

i 1

)

p(Y

i 1

)p(Y

n i+1

|Y

i 1

)

= ^p^(Y

n i+1

|Z

=k)

p(Y

n i+1

|Y

i 1

) ^×^p^(Z

ⁱ

⁼^k^|^Y

i 1

).

Le premier terme est celui calculé dans l’étape Backward et le second dans l’étape

For-ward.

— Forward :

Pouri=1,

F

1ℓ

=p(Z

=ℓ|Y

)₌P^ν

^ℓ

^f

^ℓ

^(Y

^;^γ

^ℓ

⁾

ℓ

ν

_ℓ

f

_ℓ

(Y

;γ

_ℓ

)^,

et_∀i 6=1,

F

iℓ

∝X

π

_kℓ

F

i−1,k

f

_ℓ

(Y

;γ

_ℓ

).

— Backward :

CHAPITRE 2. PRÉAMBULE STATISTIQUE

Pouri =n,

τ

_nk

=F

_nk

₌p(Z

₌k|Y

n 1

)

et_∀i6=n,

τ

_{i k}

=F

_{i k}

X

ℓ

π

_kℓ

τ

_i₊1,ℓ

G

_n₊1,ℓ

,

avec G

i+1,ℓ

=p(Z

i+1,ℓ

|Y

i 1

)₌P

π

_kℓ

F

i k

.

Les formules de l’étape Forward montre quep(Z

=k|Y

) dépend seulement de Y

et

de F

_i₋_1,_k

ce qui signifie que conditionnellement à Y

et Z

_i₋₁

, Z

est indépendant de Z

i−2 1

.

La distribution conditionnelle des états cachés Z conditionnellement aux observations Y

est alors encore une chaîne de Markov.

L’étape M de maximisation des paramètres est similaire aux modèles de mélange.

Classification : algorithme de Viterbi

Les variables latentes sont souvent très intéressantes en pratique du fait de leur

si-gnification. Dans le cas des chaînes de Markov cachées, il est intéressant de déterminer

la suite des états cachés la plus probable. Lorsque les variables latentes ne sont pas

in-dépendantes, le MAP (Maximum A Posteriori) joint ne correspond pas au MAP marginal.

Et la suite peut être trouvée grâce à l’algorithme de Viterbi [Viterbi,1967] qui alterne les

deux étapes ci-dessous :

— Forward : V

=ν

f

(Y

) et pour touti≥2 :

V

_iℓ

₌max

V

_i₋1,k

π

_kℓ

f

_ℓ

(Y

),

S

i−1

(ℓ)₌argmax

V

i−1,k

π

_kℓ

f

(Y

),

— Backward : ˆZ

=argmax

V

et pour touti>n:

ˆZ₌S

(ˆZ

i+1

)

.

2.1.3 Structure de dépendance plus complexe : approche variationnelle

L’interprétation variationnelle de l’algorithme EM est présentée dansNeal and Hinton

[1999] etBishop[2006].Ormerod and Wand[2010] proposent une présentation des

mé-thodes variationnelles pour les statisticiens. Et une présentation plus complète est

dispo-nible dansGhahramani and Beal[2000]. Les approches variationnelles peuvent être utiles

à la fois en inférence bayésienne et en inférence fréquentiste, quand la spécification de

la vraisemblance nécessite le conditionnement par rapport à un vecteur de variables

la-CHAPITRE 2. PRÉAMBULE STATISTIQUE

tentes.

Interprétation variationnelle de l’algorithme EM

Calcul variationnel Le terme de variationnel vient du calcul des variations (ou calcul

variationnel) qui regroupe un ensemble de méthodes permettant de minimiser une

fonc-tionnelle. Une fonctionnelle peut être définie comme un opérateurF[q] qui prend en

entrée une fonctionq et renvoit un nombre. Le calcul variationnel consiste à trouver la

valeur deqqui maximise ou minimiseF[q]. La fonctionq qui minimise la fonctionnelle

F[q]₌R

L(x,q(x))d x satisfait l’équation différentielle d’Euler-Lagrange

∂

∂q(x)

L(x,q(x))₌

0. Définition d’une borne inférieure de la log-vraisemblance En utilisant l’inégalité de

Jensen, on peut introduire dans l’expression de la log-vraisemblance (2.2) une fonction

des variables cachéesq(Z) et décomposer la log-vraisemblance de la façon suivante :

logp

_θ

(Y)₌logX

p

_θ

(Y,Z)

=logX

µ

p

_θ

(Y,Z)

q(Z)

¶

q(Z)

≥X

q(Z)log^p

^θ

^(Y,Z)

q(Z)

=X

q(Z)logp

_θ

(Y,Z)₋X

q(Z)logq(Z)

=J(q,θ).

(2.3)

J(q,θ) est une fonctionnelle qui constitue une borne inférieure de la log-vraisemblance

des données. Cette fonctionnelle est parfois appeléeénergie libre. Le terme₋P

q(Z)logq(Z)

que l’on note aussiH(q(Z))correspond à l’entropie de Shannon de la fonctionq.

L’algorithme EM peut alors être vu comme un algorithme itérant deux étapes de

maxi-misation de J(q,θ) la première par rapport à la fonction q, la deuxième par rapport

aux vecteurs des paramètresθ. A noter que l’entropie deq(Z) ne dépend pas deθet que

l’étape M consiste juste à maximiser l’espérance conditionnelle de la log-vraisemblance

complète.

Divergence de Kullback-Leibler

La divergence de Kullback-Leibler ou entropie relative est une mesure de dissimilarité

entre deux distributions de probabilitépetq. Elle se définit par

D

_KL

(p(θ)_||q(θ)₌

Z

log

µ

p(θ)

q(θ)

¶

p(θ)dθ.

CHAPITRE 2. PRÉAMBULE STATISTIQUE

D

(p(θ)_||q(θ) peut aussi s’écrire commeE

p(θ)

h

log³

_p₍_θ₎

q(θ)

´i

. En cas de distributionspetq

discrètes, l’intégrale se simplifie en somme. Elle a comme propriété d’être toujours

posi-tive. Elle s’annule si et seulement sip=q.

La différence entre la borne inférieureJ(q,θ) (2.3) et la log-vraisemblance logp

_θ

(Y) s’écrit :

logp

_θ

(Y)₋J(q,θ)₌logX

p

_θ

(Y,Z)₋J(q,θ)

=logX

p

_θ

(Y,Z)₋X

q(Z)log ^q^(Z)

p

_θ

(Y,Z)

(2.4)

Le premier terme correspond à log-vraisemblance jointe des données et le deuxième à la

divergence de Kullback-Leibler entre la fonctionq(Z) et la fonctionp

_θ

(Y,Z). Elle s’annule

pourq(Z)₌p

_θ

(Y,Z) ce qui correspond exactement à l’étape E de l’algorithme EM.

Inférence approchée

Quand l’inférence exacte n’est pas faisable du fait d’une dépendance introduite par

des variables latentes par exemple, ou par des distributions compliquées, des techniques

approchées d’inférence peuvent être utilisées. Les approches variationnelles utilisent

l’in-terprétation variationnelle de l’algorithme EM et contraignentq à avoir une forme

per-mettant les calculs, c’est-à-dire à être factorisable. Il suffit alors de maximiser la borne

inférieureJ(q,θ) (2.3) sous cette contrainte.

Restriction à la classe des fonctions produits Cette restriction donne des solutions

ex-plicites pour chaque composante du produit en fonction des autres, ce qui permet une

résolution du problème d’optimisation à l’aide d’un algorithme itératif. Cette classe de

fonction donne naissance aux approximations de type ’champs moyen’.

Algorithme VEM (Variational EM) L’algorithme VEM consiste à itérer une étape E

va-riationnelle et une étape M dont les objectifs sont précisés ci-dessous :

— Etape VE : Maximiser J(q,θ) par rapport à q avecθ fixé sous la contrainte de

factorisation deq. Cela revient à minimiser KL(q||p

).

— Etape M :MaximiserJ(q,θ) par rapport à θavecq fixé.

La borne inférieure augmente à chaque itération et l’algorithme aboutit à un

maxi-mum (souvent local).

2.2 Sélection de modèle

Dans le cadre des modèles de mélange, une des questions difficiles est le choix du

nombre de composantes. Ce nombre de classes K peut être dicté par la question posée.

Cependant il est le plus généralement inconnu et choisir le nombre de classes fait partie

CHAPITRE 2. PRÉAMBULE STATISTIQUE

de la question. Les critères les plus usuels sont des critères de vraisemblance pénalisée de

la forme

logp

_θˆ_K

(Y)₋βpen(K),

oùβest une constante positive et pen(K) est une fonction de pénalité. L’objectif d’un

cri-tère de sélection de modèle est de permettre de choisir un modèle assurant une bonne

adéquation aux données (contrôlée par le terme de log-vraisemblance) tout en étant

par-cimonieux (rôle de la pénalité dépendant de la dimension du modèle). Sélectionner un

modèle dans une collection de modèles (M

)

revient à sélectionner le nombre de classes

ou composantes à partir des données via la minimisation d’un critère pénalisé.Lebarbier

and Mary-Huard[2006] présentent de façon détaillée les fondements et interprétation du

critère BIC, un des critères les plus couramment utilisés.

2.2.1 Le critère BIC

Le critère BIC (Bayesian Information Criterion) [Schwarz,1978] est une

approxima-tion du calcul de la vraisemblance des données condiapproxima-tionnellement au modèle fixé. Il

s’agit d’une approche bayésienne de sélection de modèle, c’est-à-dire que les paramètres

et les modèles sont considérés comme des variables aléatoires munies d’une distribution

a priori. Le choix se fait en fonction de la probabilité a posteriori d’un modèle donné M

.

Le critère BIC sélectionne le modèle qui maximise cette probabilité :

M

BIC

=argmax

M_i

P(M

|Y).

Le critère est basé sur une distribution a priori pour le nombre de classes, une

distri-bution conditionnelle des paramètres sachant le nombre de classes et de la distridistri-bution

conditionnelle des observations sachant les paramètres.

Par la formule de Bayes, on a M

: P(M

|Y)_∝P(M

)P(Y_|M

). Supposons que l’a priori

sur les modèles soit uniforme, il reste à calculer P(Y_|M

). Le calcul exact est rarement

pos-sible. P(Y_|M

) peut être approché via l’utilisation d’une approximation de Laplace (voir

Lebarbier and Mary-Huard[2006] pour une démonstration détaillée).

Proposition 2.2.1 Approximation de Laplace

Soit une fonction L :R

→R telle que L est deux fois différentiable sur R

et atteint un

unique maximum surR

en u

^∗

, alors

Z

e

ⁿ^L(^u⁾

=e

ⁿ^L(^u^∗⁾

µ₂

π

n

¶

d 2

| −^L

^′′

⁽u

^∗

)_|

−¹2

+O

ⁿ⁻¹

Il en découle la proposition suivante :

CHAPITRE 2. PRÉAMBULE STATISTIQUE

Proposition 2.2.2 Sous des conditions de régularité,

logp(Y_|K)₌logp

_θˆ_K

(Y)₋^d

2 ^logⁿ⁺^O⁽¹⁾

où d

correspond au nombre de paramètres indépendants du modèle àKcomposantes.

Le critère BIC sélectionne le modèle à ˆK

BIC

composantes tel que :

ˆ

K

BIC

=argmax

logp

_θ_ˆ K

(Y)₋^d

2 ^logⁿ^.

2.2.2 Le critère ICL

Le critère ICL proposé parBiernacki et al.[2000] permet de tenir compte de l’objectif

de classification. Ce critère pénalise non plus la log-vraisemblance des données

obser-vées, mais la log-vraisemblance des données complétée par les variables latentes. Il se

définit comme :

ICL(m,K)₌logp

_θˆ_K

(Y,Z)]₋^d

2 ^logⁿ^.

Z étant inconnu, les auteurs proposent de remplacer Z par ˆZ₌MAP(ˆθ). Z peut aussi être

remplacée par son espérance conditionnelle.

Le critère ICL peut également s’écrire comme le critère BIC pénalisé par un terme

d’entro-pie tenant compte de l’incertitude de classification. Ce terme d’entrod’entro-pie₋E[logp(Z_|Y)] est

petit quand l’observation est classée avec une grande confiance. Le modèle sélectionné

est finalement le modèle à ˆK

ICL

composantes tel que :

ˆ

K

ICL

=argmax

µ

E

_θˆ_K

[logp

_θ_ˆ K

(Y,Z)_|Y]₋^d

2 ^logⁿ

¶

.

2.3 Données de comptage

2.3.1 Introduction

Une partie de cette section s’inspire du livre deCameron and Trivedi[2013] auquel le

lecteur intéressé par plus de détails peut se référer.

Le bruit observé dans les données issues de séquençage à haut débit (chapitre1

sec-tion1.4) peuvent provenir de trois sources différentes : le bruit inévitable, inhérent au

pro-cessus de comptage (dominant pour les gènes faiblement exprimés), le bruit technique,

Dans le document Analyse statistique de données biologiques à haut débit (Page 24-200)