4.7 Appendix
1.4.2 Séquençage à haut débit
Les premières techniques de séquençage de l’ADN datent des années 1970s et ont
évo-lué très rapidement. Toutes consistent à définir l’ordre d’enchaînement des nucléotides
pour un fragment d’ADN donné. La nature des données produites et donc la façon dont
elles vont être analysées dépend de la technologie utilisée. Nous renvoyons le lecteur vers
Goodwin et al.[2016] pour une revue récente des technologies de séquençage. Les
tech-nologies de séquençage à haut débit sont apparues dans les années 2000 et consistent à
produire en unrunde séquençage des milliers de séquences à moindre coût. Alors que le
premier séquençage du génome humain terminé en 2003 a duré près de 15 ans et coûté
2 milliards d’euros, en 2007 le génome d’un seul individu (James Watson) était séquencé
en 2 mois pour 1,5 million de dollars et en 2013 la société Illumina proposait de
séquen-cer pour 1 000 dollars n’importe quel génome humain en quelques heures. Aujourd’hui, il
est possible de caractériser les milliers d’espèces présentes dans un échantillon
environ-nemental particulier. Les données en sortie de séquenceurs correspondent à des lectures
(oureads). Une lecture correspond à un ensemble de bases adjacentes séquençées à partir
d’une extrémité ou des deux extrémités d’un fragment d’ADN. Lors d’un séquençage de
génome ou métagénome, on cherche ensuite à retrouver la ou les séquences originelles
dont sont issues ces lectures, soit en alignant ces lectures sur un génome de référence
(oumapping) soit en reconstruisant directement ce génome (assemblagede novo). Avec
ces technologies, il est aussi possible de séquencer des fragments d’ARN transcrits : c’est
ce qu’on nomme ’RNA-seq’ [Wang et al.,2009]. L’expression des gènes est quantifiée par
le nombre de transcrits produits par ces derniers. En séquençant les fragments d’ARN
transcrits, et en alignant les lectures issues de ce séquençage sur le génome, on obtient
un nombre de lectures alignées sur chacun des gènes, représentant le niveau
d’expres-sion de ces derniers. Les données obtenues par ces technologies sont de nature discrète.
CHAPITRE 1. CONTEXTE BIOLOGIQUE
Les méthodes d’analyse développées pour les techniques par hybridation ne sont donc
plus applicables et de nouvelles méthodes sont nécessaires.
F
IGURE1.3 – Une expérience de séquençage d’ARN du point de vue du statisticien, figure tirée de
Li et al.[2012]. Les ARNm sont fragmentés de façon aléatoire. Ces fragments sont rétro-transcrits
dans une banque d’ADN complémentaire, elle-même ensuite amplifiée par PCR et séquencée,
produisant ainsi une liste de lectures. Ces lectures sont alignées sur un transcriptome connu qui
consiste enmgènes. Le nombre de lectures alignées sur chaque gène donne une mesure de
l’ex-pression de ce gène. En résumé, le séquençage d’un échantillon aboutit à un vecteur de comptages
de longueur m.
La figure1.3décrit le processus de production de données issues du séquençage de
l’ARN d’un échantillon biologique. Les coûts diminuant, le nombre de séquences
obte-nues pour un seul échantillon peut être bien plus grand que nécessaire. Dans ce cas, il
peut être intéressant de séquencer plusieurs échantillons biologiques en même temps
afin de réduire le coût de l’expérience. Ce processus de multiplexage décrit dans la
fi-gure1.4est possible techniquement grâce à l’utilisation debarcodes. Un barcode est une
courte séquence d’ADN ajoutée aux lectures d’un échantillon donné pendant
l’amplifica-tion (étapes A et B). Les séquences ont alors besoin d’être ’démultiplexées’, réattribuées à
leur échantillon d’origine au cours de traitements ultérieurs (étape C) afin d’être alignées
sur la séquence de référence (étape D).
CHAPITRE 1. CONTEXTE BIOLOGIQUE
F
IGURE1.4 – Représentation conceptuelle du multiplexage, figure tirée de http://www.
illumina.com/technology/next-generation-sequencing/
1.5 Références
H. Chassé. Régulations traductionnelles de l’embryon précoce d’oursin. PhD thesis, Ecole
Doctorale 515 - Complexité du Vivant, 2015. iii,5
H. Chassé, S. Boulben, V. Costache, P. Cormier, and J. Morales. Analysis of translation
using polysome profiling.Nucleic Acid Research, 2016. 6
S. Creer, K. Deiner, S. Frey, D. Porazinska, P. Taberlet, W. K. Thomas, C. Potter, and H. M.
Bik. The ecologist’s field guide to sequence-based identification of biodiversity.
Me-thods in Ecology and Evolution, 7(9) :1008–1018, 2016. doi : 10.1111/2041-210X.12574.
4
D. Duggan, M. Bittner, Y. Chen, P. Meltzer, and J. Trent. Expression profiling using cdna
microarrays.Nature Genetics, 21 :10–14, 1999. iii,2,6
S. Goodwin, J. McPherson, and R. McCombie. Coming of age : ten years of next-generation
sequencing technologies.Nature Reviews Genetics, 17 :333–351, 2016.7
J. Li, D. Witten, I. Johnstone, and R. Tibshirani. Normalization, testing, and false discovery
rate estimation for rna-sequencing data. Biostatistics, 13(3) :523–538, 2012. iii,8
P. McMurdie and S. Holmes. Waste not, want not : Why rarefying microbiome data is
in-admissible. PLoS Computational Biology, 10(4) :e1003531, 2014. doi : 10.1371/journal.
pcbi.1003531.4
Z. Wang, M. Gerstein, and M. Snyder. Rna-seq : a revolutionary tool for transcriptomics.
CHAPITRE 1. CONTEXTE BIOLOGIQUE
J. Watson, T. Baker, S. Bell, A. Gann, M. Levine, and R. Losick.Biologie moléculaire du gène.
Chapitre 2
Préambule statistique
Sommaire
2.1 Modèle à variables latentes . . . 12
2.1.1 Variables latentes indépendantes : modèle de mélange. . . 12
2.1.2 Variables latentes dépendantes : exemple des chaînes de Markov
cachées . . . 15
2.1.3 Structure de dépendance plus complexe : approche variationnelle. 17
2.2 Sélection de modèle . . . 19
2.2.1 Le critère BIC . . . 20
2.2.2 Le critère ICL . . . 21
2.3 Données de comptage . . . 21
2.3.1 Introduction . . . 21
2.3.2 Rappel sur les lois. . . 22
2.3.3 Interprétation de la paramétrisation NB2 dans le cadre des
don-nées de séquençage . . . 27
2.4 Tests multiples . . . 28
2.4.1 Introduction . . . 28
2.4.2 Formalisation du problème de tests multiples . . . 28
2.4.3 Le taux d’erreur par famille ou Family Wise Error Rate (FWER) . . . 29
2.4.4 Le taux de fausses découvertes ou False Discovery Rate (FDR) . . . 30
2.5 La régression locale ou ’lowess’ . . . 30
2.6 Références . . . 32
CHAPITRE 2. PRÉAMBULE STATISTIQUE
Ce chapitre introduit les concepts statistiques principaux qui seront utiles dans les
chapitres suivants. Les sections de ce chapitre sont indépendantes les unes des autres. La
première section présente le cadre des modèles de mélange, qui constitue le cadre
théo-rique des méthodes proposées dans le chapitre3. La deuxième aborde la question de la
sélection de modèles. Nous présentons ensuite une vue générale de l’analyse de données
de comptage utile pour les chapitres3à6. Ce chapitre se termine par une présentation de
la problématique des tests multiples, suivie dans la dernière section d’une présentation
de la régression locale mentionnée dans le chapitre6.
Notations et conventions Ci-dessous quelques notations que nous utiliserons dans la
suite du manuscrit :
Y : variables observées
Z : variables non observées (cachées, latentes)
θ: vecteur des paramètres
p
θ(.) ou f(.;θ) : fonction de densité de probabilité de paramètresθ
E
θ: moments sousp
θ. ParfoisE
θsera remplacé parE
pouE
P
i=P
n i=1etc.
P
i,j,k,g=P
n i=1P
m j=1P
K k=1P
G g=1Pour les distributions classiques, nous adoptons les notations suivantes :
U
[a,b]: distribution uniforme sur l’intervalle [a,b]
M(n,π) : distribution multinomiale issue de n tirages de vecteur de probabilités π =
(π
1,···,π
K) avecP
Kk=1
π
k=1
P(γ) : distribution de Poisson de paramètreγ
G(a,b) : distribution Gamma de paramètre d’échelleaet de paramètre d’intensitéb
N B(µ,φ) : distribution binomiale négative de moyenneµet de variance (µ+φµ
2).
2.1 Modèle à variables latentes
Pour une présentation plus complète des modèles à variables latentes avec des
appli-cations en génomique, nous renvoyons le lecteur vers les notes de cours de Stéphane
Ro-bin (https://www6.inra.fr/mia-paris/Media/Fichier/PagePerso/StephaneRobin/
hiddenstruct-genome-14a).
2.1.1 Variables latentes indépendantes : modèle de mélange
Les modèles de mélange supposent que les observations se répartissent en K classes
latentes (ou cachées) telles que la distribution des variables observées Y
idépend de la
CHAPITRE 2. PRÉAMBULE STATISTIQUE
valeur de la variable latente non observée Z
i.
Modèle
Le modèle le plus simple est le suivant :
1. les variables latentes (Z
i) sont indépendantes et identiquement distribuées avec
P(Z
i=k)=π
k,
2. les variables observées (Y
i) sont indépendantes conditionnellement aux variables
latentes (Z
i),
3. Y
isachant Z
i=ksuit une distribution paramétrique F(γ
k), appelée loi d’émission,
de densité de probabilité f(.;γ
k).
La fonction de densité d’une observation est parfois notée
f(y;θ)=
K
X
k=1
π
kf
k(y;γ
k),
oùπ=(π
k)
ksont les proportions du mélange avec∀k,π
k∈[01] etP
Kk=1
π
k=1, f
kest la
densité de probabilité de la composantekparamétrée parγ
ketθ:=(π,γ)=((π
k),(γ
k)) est
le vecteur des paramètres du modèle.
L’objectif de l’inférence de ce type de modèle est de fournir un estimateur des
para-mètresθ.
Ce modèle revient à écrire :
p
θ(Z)=
nY
i=1 KY
k=1(π
k)
Zi k,
p
θ(Y|Z)=
nY
i=1 KY
k=1f(Y
i;γ
k)
Zi kavec Z
i k=1{Z
i=k}.
Z
1Z
iZ
nY
1Y
iY
nF
IGURE2.1 – Représentation graphique du modèle de mélange correspondant. Légende : les
va-riables observées (cercles sans remplissage), les vava-riables latentes (cercles grisés).
CHAPITRE 2. PRÉAMBULE STATISTIQUE
Inférence
La méthode la plus classiquement utilisée pour l’inférence de ce type de modèle
re-pose sur une approche de maximum de vraisemblance. La maximisation directe par
rap-port àθde la log-vraisemblance observée logp
θ(Y) est difficile et souvent sans solution
analytique.
L’algorithmeExpectation Maximizationou algorithme EM [Dempster et al.,1977;
McLa-chlan and Peel,2000] permet de maximiser la log-vraisemblance des données logp
θ(Y),
sans jamais avoir à la calculer et est basé sur une décomposition de la vraisemblance des
données dites incomplètes :
logp
θ(Y) = E
θ£
logp
θ(Y,Z)|Y¤
−E
θ£
logp
θ(Z|Y)|Y¤
. (2.1)
Les données observées (Y
i)
isont considérées comme incomplètes tant que les variables
latentes (Z
i)
ine sont pas observées.
Cette décomposition permet de relier la log-vraisemblance incomplète souvent
diffi-cilement calculable à la log-vraisemblance complète plus sympathique.
La log-vraisemblance de notre modèle s’écrit
logp
θ(Y) =
nX
i=1log
"
KX
k=1π
kf(Y
i;γ
k)
#
(2.2)
et la log-vraisemblance complète
logp
θ(Y,Z)=
nX
i=1 KX
k=1Z
i k£
logπ
k+logf(Y
i;γ
k)¤
.
L’algorithme EM consiste à itérer jusqu’à convergence une étape E d’estimation des
moments de la distribution conditionnelle des variables cachées sachant les observations
E
θ£
logp
θ(Z|Y)|Y¤
à une étape M de maximisation de l’espérance conditionnelle de la
log-vraisemblance complète argmax
θ
P
Z
p
θ(Z|Y)logp
θ(Y,Z).
La convergence du modèle se vérifie à l’aide d’un critère d’arrêt portant soit sur les
valeurs des paramètres soit sur la log-vraisemblance.
On peut montrer que la vraisemblance observée augmente à chaque étape mais il n’y
a aucune garantie sur la convergence systématique de l’algorithme vers l’estimateur du
maximum de vraisemblance deθ.
Classification
La classification des observations dans des groupes est souvent d’un intérêt majeur
lors de l’utilisation des modèles de mélange. L’algorithme EM ne fournit pas à
propre-CHAPITRE 2. PRÉAMBULE STATISTIQUE
ment parlé de classification formelle des observations dans des groupes. Cependant les
τ
i k=P(Z
i=k|Y) fournissent une mesure de la confiance avec laquelle on peut classer
une observation dans un groupe. L’incertitude de classification d’un individu est donnée
par l’entropie conditionnelle de Z
i:
H £
p
θ(Z
i|Y)¤
=H £
p
θ(Z
i|Y
i)¤
= −
KX
k=1τ
i klogτ
i k.
La règle du Maximum A Posteriori (MAP) peut être utilisée quand il est nécessaire
qu’une observation soit affectée à un groupe. Elle consiste à affecter l’observation dans
le groupe pour lequel sa probabilité a posteriori est la plus grande.
ˆZ=argmax
z
p
θ(Z=z|Y).
Dans le cas du modèle de mélange, ˆZ=(ˆZ
i)
iavec ˆZ
i=argmax
k
τ
i k.
2.1.2 Variables latentes dépendantes : exemple des chaînes de Markov
cachées
Un modèle de chaîne de Markov cachée est un modèle de chaîne de Markov MC dont
la séquence des états n’est pas directement observée. Chaque état émet des ’observations’
qui, elles, sont par définition observables. Il est défini par un état initial de loiν, des états
possibles et des probabilitésπde passer d’un état à un autre appeléestransitions. L’état
initial définit les probabilités de commencer dans chacun des états. Les transitions
s’opé-rent entre chaque unité de temps. L’état caché au tempsi est donc dépendant de l’état
caché au tempsi−1.
Z
1Z
2Z
i−1Z
iZ
nY
1Y
2Y
i−1Y
iY
nF
IGURE2.2 – Représentation graphique du modèle de Markov caché. Légende : les variables
ob-servées (cercles sans remplissage), les variables latentes (cercles grisés)
Une représentation graphique de ce modèle est visible sur la figure2.2.
Modèle
Un modèle de chaîne de Markov cachée peut s’écrire de la façon suivante :
— (Z
i)
i∼MC(ν,π),
CHAPITRE 2. PRÉAMBULE STATISTIQUE
— Y
i|(Z
i=k)∼F
k=F(γ
k).
La chaîne de Markov MC(ν,π) est définie sur l’espace d’états [1,K] avec K le nombre
d’états cachés. Les paramètres du modèle sont :θ=¡
ν,π,γ¢
.
Inférence par maximum de vraisemblance
La décomposition de la vraisemblance (2.1) tient toujours. Dans le cas des chaînes de
Markov cachées, la log-vraisemblance complète s’écrit :
logp
θ(Y,Z) = log[p
θ(Z)p
θ(Y|Z)]
= X
kZ
1klogν
k+X
i,kZ
i klogf(Y
i;γ
k)+X
i≥2X
k,ℓZ
i−1,kZ
iℓlogπ
kℓ.
Remarquons que seul le dernier terme de la log-vraisemblance complète diffère par
rap-port au modèle de mélange présenté dans la section précédente.
Dans l’étape E de l’algorithme EM, nous avons besoin de calculerE(Z
i k|Y).
Contraire-ment au cas du modèle de mélange précédent, du fait de la structure de dépendance, la
distribution conditionnelle n’est plus factorisable :E[Z
i k|Y]=p(Z
i=k|Y)6=p(Z
i=k|Y
i).
Cependant la structure de dépendance conditionnelle reste simple. Et les termes τ
i k=
E[Z
i k|Y] etE[Z
i−1,kZ
iℓ|Y] peuvent se calculer en itérant des étapes dites Forward et
Back-ward [Baum et al.,1970;Devijver,1985]. Lesτ
i ktraduisent l’indépendance conditionnelle
entre le passé et le futur du processus à chaque temps i. On note Y
na
={Y
a,···,Y
b}, avec
a≤b.
τ
i k=p(Z
i=k|Y) = p(Z
i=k,Y
n 1)
p(Y
n 1)
= p(Y
n i+1|Z
i=k)p(Z
i=k,Y
i 1)
p(Y
i 1)p(Y
n i+1|Y
i 1)
= p(Y
n i+1|Z
i=k)
p(Y
n i+1|Y
i 1) ×p(Z
i=k|Y
i 1).
Le premier terme est celui calculé dans l’étape Backward et le second dans l’étape
For-ward.
— Forward :
Pouri=1,
F
1ℓ=p(Z
i=ℓ|Y
1)=Pν
ℓf
ℓ(Y
1;γ
ℓ)
ℓν
ℓf
ℓ(Y
1;γ
ℓ),
et∀i 6=1,
F
iℓ∝X
kπ
kℓF
i−1,kf
ℓ(Y
i;γ
ℓ).
— Backward :
CHAPITRE 2. PRÉAMBULE STATISTIQUE
Pouri =n,
τ
nk=F
nk=p(Z
n=k|Y
n 1)
et∀i6=n,
τ
i k=F
i kX
ℓπ
kℓτ
i+1,ℓG
n+1,ℓ,
avec G
i+1,ℓ=p(Z
i+1,ℓ|Y
i 1)=P
kπ
kℓF
i k.
Les formules de l’étape Forward montre quep(Z
i=k|Y
i1
) dépend seulement de Y
iet
de F
i−1,kce qui signifie que conditionnellement à Y
i1
et Z
i−1, Z
iest indépendant de Z
i−2 1.
La distribution conditionnelle des états cachés Z conditionnellement aux observations Y
est alors encore une chaîne de Markov.
L’étape M de maximisation des paramètres est similaire aux modèles de mélange.
Classification : algorithme de Viterbi
Les variables latentes sont souvent très intéressantes en pratique du fait de leur
si-gnification. Dans le cas des chaînes de Markov cachées, il est intéressant de déterminer
la suite des états cachés la plus probable. Lorsque les variables latentes ne sont pas
in-dépendantes, le MAP (Maximum A Posteriori) joint ne correspond pas au MAP marginal.
Et la suite peut être trouvée grâce à l’algorithme de Viterbi [Viterbi,1967] qui alterne les
deux étapes ci-dessous :
— Forward : V
1k=ν
kf
k(Y
1) et pour touti≥2 :
V
iℓ=max
kV
i−1,kπ
kℓf
ℓ(Y
1i),
S
i−1(ℓ)=argmax
kV
i−1,kπ
kℓf
l(Y
1i),
— Backward : ˆZ
n=argmax
kV
nket pour touti>n:
ˆZ=S
i(ˆZ
i+1)
.
2.1.3 Structure de dépendance plus complexe : approche variationnelle
L’interprétation variationnelle de l’algorithme EM est présentée dansNeal and Hinton
[1999] etBishop[2006].Ormerod and Wand[2010] proposent une présentation des
mé-thodes variationnelles pour les statisticiens. Et une présentation plus complète est
dispo-nible dansGhahramani and Beal[2000]. Les approches variationnelles peuvent être utiles
à la fois en inférence bayésienne et en inférence fréquentiste, quand la spécification de
la vraisemblance nécessite le conditionnement par rapport à un vecteur de variables
la-CHAPITRE 2. PRÉAMBULE STATISTIQUE
tentes.
Interprétation variationnelle de l’algorithme EM
Calcul variationnel Le terme de variationnel vient du calcul des variations (ou calcul
variationnel) qui regroupe un ensemble de méthodes permettant de minimiser une
fonc-tionnelle. Une fonctionnelle peut être définie comme un opérateurF[q] qui prend en
entrée une fonctionq et renvoit un nombre. Le calcul variationnel consiste à trouver la
valeur deqqui maximise ou minimiseF[q]. La fonctionq qui minimise la fonctionnelle
F[q]=R
L(x,q(x))d x satisfait l’équation différentielle d’Euler-Lagrange
∂∂q(x)
L(x,q(x))=
0.
Définition d’une borne inférieure de la log-vraisemblance En utilisant l’inégalité de
Jensen, on peut introduire dans l’expression de la log-vraisemblance (2.2) une fonction
des variables cachéesq(Z) et décomposer la log-vraisemblance de la façon suivante :
logp
θ(Y)=logX
Z
p
θ(Y,Z)
=logX
Zµ
p
θ(Y,Z)
q(Z)
¶
q(Z)
≥X
Zq(Z)logp
θ(Y,Z)
q(Z)
=X
Zq(Z)logp
θ(Y,Z)−X
Zq(Z)logq(Z)
=J(q,θ).
(2.3)
J(q,θ) est une fonctionnelle qui constitue une borne inférieure de la log-vraisemblance
des données. Cette fonctionnelle est parfois appeléeénergie libre. Le terme−P
Z
q(Z)logq(Z)
que l’on note aussiH(q(Z))correspond à l’entropie de Shannon de la fonctionq.
L’algorithme EM peut alors être vu comme un algorithme itérant deux étapes de
maxi-misation de J(q,θ) la première par rapport à la fonction q, la deuxième par rapport
aux vecteurs des paramètresθ. A noter que l’entropie deq(Z) ne dépend pas deθet que
l’étape M consiste juste à maximiser l’espérance conditionnelle de la log-vraisemblance
complète.
Divergence de Kullback-Leibler
La divergence de Kullback-Leibler ou entropie relative est une mesure de dissimilarité
entre deux distributions de probabilitépetq. Elle se définit par
D
KL(p(θ)||q(θ)=
Z
Θlog
µ
p(θ)
q(θ)
¶
p(θ)dθ.
CHAPITRE 2. PRÉAMBULE STATISTIQUE
D
KL(p(θ)||q(θ) peut aussi s’écrire commeE
p(θ)h
log³
p(θ)q(θ)
´i
. En cas de distributionspetq
discrètes, l’intégrale se simplifie en somme. Elle a comme propriété d’être toujours
posi-tive. Elle s’annule si et seulement sip=q.
La différence entre la borne inférieureJ(q,θ) (2.3) et la log-vraisemblance logp
θ(Y) s’écrit :
logp
θ(Y)−J(q,θ)=logX
Z
p
θ(Y,Z)−J(q,θ)
=logX
Zp
θ(Y,Z)−X
Zq(Z)log q(Z)
p
θ(Y,Z)
(2.4)
Le premier terme correspond à log-vraisemblance jointe des données et le deuxième à la
divergence de Kullback-Leibler entre la fonctionq(Z) et la fonctionp
θ(Y,Z). Elle s’annule
pourq(Z)=p
θ(Y,Z) ce qui correspond exactement à l’étape E de l’algorithme EM.
Inférence approchée
Quand l’inférence exacte n’est pas faisable du fait d’une dépendance introduite par
des variables latentes par exemple, ou par des distributions compliquées, des techniques
approchées d’inférence peuvent être utilisées. Les approches variationnelles utilisent
l’in-terprétation variationnelle de l’algorithme EM et contraignentq à avoir une forme
per-mettant les calculs, c’est-à-dire à être factorisable. Il suffit alors de maximiser la borne
inférieureJ(q,θ) (2.3) sous cette contrainte.
Restriction à la classe des fonctions produits Cette restriction donne des solutions
ex-plicites pour chaque composante du produit en fonction des autres, ce qui permet une
résolution du problème d’optimisation à l’aide d’un algorithme itératif. Cette classe de
fonction donne naissance aux approximations de type ’champs moyen’.
Algorithme VEM (Variational EM) L’algorithme VEM consiste à itérer une étape E
va-riationnelle et une étape M dont les objectifs sont précisés ci-dessous :
— Etape VE : Maximiser J(q,θ) par rapport à q avecθ fixé sous la contrainte de
factorisation deq. Cela revient à minimiser KL(q||p
θ).
— Etape M :MaximiserJ(q,θ) par rapport à θavecq fixé.
La borne inférieure augmente à chaque itération et l’algorithme aboutit à un
maxi-mum (souvent local).
2.2 Sélection de modèle
Dans le cadre des modèles de mélange, une des questions difficiles est le choix du
nombre de composantes. Ce nombre de classes K peut être dicté par la question posée.
Cependant il est le plus généralement inconnu et choisir le nombre de classes fait partie
CHAPITRE 2. PRÉAMBULE STATISTIQUE
de la question. Les critères les plus usuels sont des critères de vraisemblance pénalisée de
la forme
logp
θˆK(Y)−βpen(K),
oùβest une constante positive et pen(K) est une fonction de pénalité. L’objectif d’un
cri-tère de sélection de modèle est de permettre de choisir un modèle assurant une bonne
adéquation aux données (contrôlée par le terme de log-vraisemblance) tout en étant
par-cimonieux (rôle de la pénalité dépendant de la dimension du modèle). Sélectionner un
modèle dans une collection de modèles (M
i)
irevient à sélectionner le nombre de classes
ou composantes à partir des données via la minimisation d’un critère pénalisé.Lebarbier
and Mary-Huard[2006] présentent de façon détaillée les fondements et interprétation du
critère BIC, un des critères les plus couramment utilisés.
2.2.1 Le critère BIC
Le critère BIC (Bayesian Information Criterion) [Schwarz,1978] est une
approxima-tion du calcul de la vraisemblance des données condiapproxima-tionnellement au modèle fixé. Il
s’agit d’une approche bayésienne de sélection de modèle, c’est-à-dire que les paramètres
et les modèles sont considérés comme des variables aléatoires munies d’une distribution
a priori. Le choix se fait en fonction de la probabilité a posteriori d’un modèle donné M
i.
Le critère BIC sélectionne le modèle qui maximise cette probabilité :
M
BIC=argmax
Mi
P(M
i|Y).
Le critère est basé sur une distribution a priori pour le nombre de classes, une
distri-bution conditionnelle des paramètres sachant le nombre de classes et de la distridistri-bution
conditionnelle des observations sachant les paramètres.
Par la formule de Bayes, on a M
i: P(M
i|Y)∝P(M
i)P(Y|M
i). Supposons que l’a priori
sur les modèles soit uniforme, il reste à calculer P(Y|M
i). Le calcul exact est rarement
pos-sible. P(Y|M
i) peut être approché via l’utilisation d’une approximation de Laplace (voir
Lebarbier and Mary-Huard[2006] pour une démonstration détaillée).
Proposition 2.2.1 Approximation de Laplace
Soit une fonction L :R
d→R telle que L est deux fois différentiable sur R
det atteint un
unique maximum surR
den u
∗, alors
Z
Rde
nL(u)=e
nL(u∗)µ2
π
n
¶
d 2| −L
′′(u
∗)|
−12+O
n−1Il en découle la proposition suivante :
CHAPITRE 2. PRÉAMBULE STATISTIQUE
Proposition 2.2.2 Sous des conditions de régularité,
logp(Y|K)=logp
θˆK(Y)−d
K2 logn+O(1)
où d
Kcorrespond au nombre de paramètres indépendants du modèle àKcomposantes.
Le critère BIC sélectionne le modèle à ˆK
BICcomposantes tel que :
ˆ
K
BIC=argmax
Klogp
θˆ K(Y)−d
K2 logn.
2.2.2 Le critère ICL
Le critère ICL proposé parBiernacki et al.[2000] permet de tenir compte de l’objectif
de classification. Ce critère pénalise non plus la log-vraisemblance des données
obser-vées, mais la log-vraisemblance des données complétée par les variables latentes. Il se
définit comme :
ICL(m,K)=logp
θˆK(Y,Z)]−d
K2 logn.
Z étant inconnu, les auteurs proposent de remplacer Z par ˆZ=MAP(ˆθ). Z peut aussi être
remplacée par son espérance conditionnelle.
Le critère ICL peut également s’écrire comme le critère BIC pénalisé par un terme
d’entro-pie tenant compte de l’incertitude de classification. Ce terme d’entrod’entro-pie−E[logp(Z|Y)] est
petit quand l’observation est classée avec une grande confiance. Le modèle sélectionné
est finalement le modèle à ˆK
ICLcomposantes tel que :
ˆ
K
ICL=argmax
Kµ
E
θˆK[logp
θˆ K(Y,Z)|Y]−d
K2 logn
¶
.
2.3 Données de comptage
2.3.1 Introduction
Une partie de cette section s’inspire du livre deCameron and Trivedi[2013] auquel le
lecteur intéressé par plus de détails peut se référer.
Le bruit observé dans les données issues de séquençage à haut débit (chapitre1
sec-tion1.4) peuvent provenir de trois sources différentes : le bruit inévitable, inhérent au
pro-cessus de comptage (dominant pour les gènes faiblement exprimés), le bruit technique,
Dans le document
Analyse statistique de données biologiques à haut débit
(Page 24-200)