Mélanges gaussiens bidimensionnels pour la comparaison de deux échantillons de chromatine immunoprécipitée

(1)

HAL Id: hal-01197565

https://hal.archives-ouvertes.fr/hal-01197565

Submitted on 30 May 2020

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Mélanges gaussiens bidimensionnels pour la comparaison de deux échantillons de chromatine immunoprécipitée

Caroline Berard, Marie-Laure Martin-Magniette, Alexandra To, François Roudier, Vincent Colot, Stephane Robin

To cite this version:

Caroline Berard, Marie-Laure Martin-Magniette, Alexandra To, François Roudier, Vincent Colot, et

al.. Mélanges gaussiens bidimensionnels pour la comparaison de deux échantillons de chromatine

immunoprécipitée. La revue MODULAD, Modulad, 2009, pp.53-68. �hal-01197565�

(2)

M´ elanges gaussiens bidimensionnels pour la comparaison de deux ´ echantillons de

chromatine immunopr´ ecipit´ ee

Caroline B´ erard

¹

, Marie-Laure Martin-Magniette

^1,2

, Alexandra To

³

, Fran¸cois Roudier

³

, Vincent Colot

³

et St´ ephane Robin

¹

.

1

UMR AgroParisTech/INRA MIA 518, 16 rue Claude Bernard, PARIS Cedex 05.

2

UMR INRA 1165 - CNRS 8114 - UEVE URGV, 2 rue Gaston Cr´ emieux, EVRY.

3

UMR CNRS 8186, D´ epartement de Biologie, 46 rue d’Ulm, PARIS Cedex 05.

caroline.berard@agroparistech.fr , marie laure.martin@agroparistech.fr to@biologie.ens.fr , roudier@biologie.ens.fr

colot@biologie.ens.fr , stephane.robin@agroparistech.fr

R´ esum´ e L’immunopr´ ecipitation de la chromatine (ChIP) permet d’´ etudier les in- teractions entre les prot´ eines et l’ADN ainsi que diff´ erents ´ etats chromatiniens. Le ChIP-chip est une technique combinant l’immunopr´ ecipitation de la chromatine avec le principe des puces ` a ADN, ce qui permet une ´ etude ` a l’´ echelle du g´ enome. Nous nous int´ eressons ici ` a l’analyse des diff´ erences entre deux ´ echantillons d’ADN im- munopr´ ecipit´ e. Biologiquement, on s’attend ` a distinguer quatre groupes diff´ erents : un groupe d’ADN non-immunopr´ ecipit´ e, un groupe d’ADN immunopr´ ecipit´ e identi- quement dans les deux ´ echantillons et deux groupes dans lesquels l’ADN est immu- nopr´ ecipit´ e en quantit´ es diff´ erentes. Nous mod´ elisons ces donn´ ees par un m´ elange de gaussiennes bidimensionnelles ` a quatre composants. Les matrices de variance sont contraintes afin d’int´ egrer des connaissances biologiques. Les param` etres sont estim´ es par l’algorithme EM. Nous appliquons cette m´ ethode pour ´ etudier la diff´ erence de m´ ethylation d’une histone entre l’´ ecotype sauvage de la plante mod` ele Arabidopsis thaliana et un mutant.

Mots-cl´ es : M´ elange gaussien, d´ ecomposition spectrale, algorithme EM, ChIP-chip.

R´ esum´ e Chromatin immunoprecipitation (ChIP) enables to investigate interac- tions between proteins and DNA and also various chromatin states. ChIP-chip is a well-established procedure combining chromatin immunoprecipitation with DNA microarrays, which allows a study of the whole genome. We are interested in the analyze of the differences between two immunoprecipitated DNA samples. From a biological point of view, we expect to distinguish four different groups : a group of non-immunoprecipited DNA, a group of immunoprecipited DNA in both samples, and then two groups in which DNA is differently immunoprecipited. We propose to model these data with a mixture of two-dimensional Gaussians with four compo- nents. Biological knowledges are included as constraints on the variance matrices.

The parameters are estimated by the EM algorithm. This method is applied to Nim- bleGen data in order to study the histone methylation difference between the wild ecotype of the model plant Arabidopsis thaliana and a mutant.

Keywords : Gaussian mixture, eigenvalue decomposition, EM algorithm,

ChIP-chip.

(3)

1 Introduction

La connaissance des m´ ecanismes de r´ egulation des g` enes est essentielle pour com- prendre certains concepts biologiques importants. On sait par exemple que le d´ eveloppement d’un organisme d´ epend grandement de l’harmonisation de l’expression de ses g` enes. Apr` es le s´ equen¸cage entier des g´ enomes ` a grande ´ echelle, le d´ efi consiste donc aujourd’hui ` a com- prendre le fonctionnement des g` enes, c’est-` a-dire ` a d´ eterminer leur fonction et leur patron d’expression.

Dans le noyau des cellules eucaryotes, l’ADN est fractionn´ e en chromosomes et il est condens´ e sous forme de chromatine. La chromatine est un complexe ADN-prot´ eines qui joue un rˆ ole essentiel dans le contrˆ ole de l’activit´ e des g` enes. Les prot´ eines pr´ esentes sont principalement des histones. La condensation de l’ADN en chromatine s’organise de mani` ere s´ equentielle et ordonn´ ee. En premier lieu, 147 paires de bases d’ADN s’en- roulent autour d’un octam` ere d’histones pour former un nucl´ eosome. Dans un second niveau d’organisation, les nucl´ eosomes se compactent et forment une h´ elice. Cette h´ elice est finalement condens´ ee en euchromatine (condensation l´ eg` ere) ou en h´ et´ erochromatine (condensation plus prononc´ ee) constituant un troisi` eme niveau d’organisation. Les g` enes localis´ es dans l’euchromatine peuvent ˆ etre plus facilement transcrits car la condensation est l´ eg` ere. Cette structure d’organisation du g´ enome dans le noyau constitue en elle-mˆ eme un m´ ecanisme de r´ epression ou d’activation de la transcription des g` enes. En effet, pour activer la transcription d’un g` ene donn´ e dans une cellule, la chromatine comprise dans la r´ egion de contrˆ ole du g` ene doit ˆ etre modifi´ ee ou alt´ er´ ee de fa¸con ` a ˆ etre permissive ` a la transcription. Les modifications post-traductionnelles d’histone (comme la m´ ethylation, l’ac´ etylation, l’ubiquitination ou la phosphorilation) sont des m´ ecanismes impliqu´ es dans la r´ egulation de l’expression des g` enes (Turck et al. [18]).

L’immunopr´ ecipitation de la chromatine (ChIP) permet d’´ etudier les interactions entre les prot´ eines et l’ADN ainsi que diff´ erents ´ etats chromatiniens associ´ es ` a des ´ etats d’acti- vit´ e distincts du g´ enome. Le ChIP-chip est une technique combinant l’immunopr´ ecipitation de la chromatine avec le principe des puces ` a ADN (Amaratunga et Cabrera [1]), ce qui permet une ´ etude ` a l’´ echelle du g´ enome. Habituellement dans une exp´ erience de ChIP- chip, les deux ´ echantillons co-hybrid´ es sont les fragments d’ADN associ´ es ` a la prot´ eine d’int´ erˆ et ou ` a une marque chromatinienne (IP) et l’ADN g´ enomique total (INPUT). Le but est ensuite de d´ etecter les sondes de la puce pour lesquelles il y a un signal IP afin d’identifier les r´ egions g´ enomiques o` u la prot´ eine d’int´ erˆ et se fixe.

Buck et Lieb [7] ont montr´ e la n´ ecessit´ e de d´ evelopper de nouvelles m´ ethodes statis-

tiques pour d´ etecter les sondes enrichies dans les exp´ eriences de ChIP-chip. R´ ecemment,

deux strat´ egies ont ´ et´ e largement appliqu´ ees : la premi` ere tient compte de la structure

spatiale des donn´ ees (Cawley et al. [9], Keles [14]) et la seconde consid` ere que la totalit´ e

des sondes peut ˆ etre divis´ ee en deux populations : les sondes enrichies et les non-enrichies

(Buck et Lieb [7], Turck et al. [18], Martin-Magniette et al. [15]). Diff´ erentes m´ ethodes

statistiques ont ´ et´ e propos´ ees pour distinguer ces deux populations : toutes sont fond´ ees

sur la distribution du log-ratio log(IP/IN P U T ) (Buck et Lieb [7], Turck et al. [18]),

except´ ee la m´ ethode propos´ ee par Martin-Magniette et al. [15] qui utilise un m´ elange de

r´ egressions pour mod´ eliser la loi de l’IP conditionnellement ` a l’INPUT.

(4)

La technique du ChIP-chip permet ´ egalement d’´ etudier directement la diff´ erence entre deux ´ echantillons d’ADN immunopr´ ecipit´ es, sans hybrider sur la puce l’ADN g´ enomique total (INPUT). ` A notre connaissance il n’existe pas de m´ ethode pour analyser ce type de donn´ ees (IP/IP) dans la litt´ erature. Les m´ ethodes de segmentation initialement d´ evelopp´ ees pour l’analyse des donn´ ees CGH (Hup´ e et al. [13], Olshen et al. [16], Picard et al. [17]) pourraient ˆ etre utilis´ ees, mais les r´ egions g´ enomiques non immunopr´ ecipit´ ees et les r´ egions immunopr´ ecipit´ ees identiquement dans les deux ´ echantillons seraient indistinguables. De plus ces m´ ethodes sont assez coˆ uteuses en temps de calcul pour des puces tiling-array qui ont un grand nombre de sondes.

L’objectif de notre travail est de proposer une mod´ elisation conjointe des signaux IP obtenus par un mod` ele de m´ elange de gaussiennes bi-dimensionnelles. La description des donn´ ees est d´ etaill´ ee section 2. Les m´ elanges gaussiens bidimensionnels mod´ elis´ es ` a l’aide d’une d´ ecomposition de la matrice de variance sont ´ etudi´ es section 3. Les connaissances biologiques sont prises en compte sous forme de contraintes sur les param` etres du mod` ele et sur le nombre de composants. Cette mod´ elisation est d´ etaill´ ee dans la section 4. Une ap- plication de la m´ ethode sur des donn´ ees issues de la technologie NimbleGen est pr´ esent´ ee dans la section 5.

2 Description des donn´ ees

Les donn´ ees analys´ ees concernent la plante mod` ele Arabidopsis thaliana. Les deux

´

echantillons co-hybrid´ es sur la puce visent ` a ´ etudier le comportement de l’histone H3 dim´ ethyl´ ee au niveau de la lysine 9 (H3K9me2). On compare un ´ echantillon sauvage et un ´ echantillon mutant (mutant nrpdlalb).

L’exp´ erience est faite en dye-swap (Boulicaut et Gandrillon [6]) : le principe est de faire une r´ ep´ etition technique en inversant les marquages. Chaque traitement est ainsi marqu´ e par les deux fluorochromes, ce qui permet de contrˆ oler le biais dˆ u au marquage (biais technique). Les intensit´ es des signaux sont ensuite moyenn´ ees sur le dye-swap.

La puce ` a ADN utilis´ ee est une puce tiling-array ` a oligos courts issue de la technolo- gie NimbleGen. Cette puce permet d’´ etudier le g´ enome nucl´ eaire d’Arabidopsis thaliana, compos´ e de cinq chromosomes et des g´ enomes mitochondrial et chloroplastique. La puce est constitu´ ee d’environ 700 000 sondes.

Lorsque l’on ´ etudie des donn´ ees de ChIP-chip IP/IP, on s’attend ` a distinguer quatre groupes (cf Figure 1) :

– Un groupe d’intensit´ e faible qui correspond aux s´ equences d’ADN qui ne sont pas immunopr´ ecipit´ ees (bruit).

– Un groupe o` u les s´ equences d’ADN sont immunopr´ ecipit´ ees en mˆ eme quantit´ e chez le sauvage et chez le mutant. Cela correspond aux endroits sur le g´ enome o` u l’histone est m´ ethyl´ ee identiquement dans les deux ´ echantillons. Ce groupe sera d´ efini dans la suite comme groupe normal.

– Deux groupes o` u les s´ equences d’ADN sont immunopr´ ecipit´ ees en quantit´ es diff´ erentes

(5)

chez le sauvage et chez le mutant. Le taux de m´ ethylation de l’histone H3K9me2 peut ˆ etre plus faible chez le mutant (groupe appauvri), ou bien au contraire, plus

´ elev´ e (groupe enrichi).

Fig. 1 – Comparaison de deux ´ echantillons de chromatine immunopr´ ecipit´ ee (sauvage vs mutant) : Identification sch´ ematique des diff´ erents groupes.

3 Mod` ele de m´ elanges gaussiens bidimensionnels

Dans cette section, nous rappelons bri` evement l’approche de classification par les m´ elanges gaussiens et reprenons la mod´ elisation des mod` eles de m´ elanges gaussiens ` a l’aide d’une d´ ecomposition des matrices de variance, puis nous appliquons certains mod` eles d´ efinis dans Biernacki et al. [4] ` a nos donn´ ees.

3.1 Approche par classification

Si le but de l’analyse est la classification, le label de chaque donn´ ee est manquant

au regard de l’´ echantillon observ´ e. Notons Z

_ik

, ce label pour l’individu i, qui est une

variable al´ eatoire ´ egale ` a 1 si le point x

_i

appartient ` a la population k et 0 sinon. Les va-

riables {Z

₁

, ...Z

_n

} (avec Z

_i

= {Z

_i1

, ..., Z

_iK

}) sont suppos´ ees ind´ ependantes et suivent une

loi multinomiale de probabilit´ es π

₁

, ..., π

_K

, qui sont les proportions des K classes dans le

m´ elange. Si nous notons Y le vecteur des donn´ ees compl` etes (X, Z) o` u seul X est observ´ e,

alors cette reformulation montre clairement que les mod` eles de m´ elange peuvent ˆ etre vus

comme un cas particulier des mod` eles ` a structure cach´ ee comme par exemple les mod` eles

de Markov cach´ es (Capp´ e et al. [8], Ephraim et Merhav [12]), la diff´ erence ´ etant que les

variables {Z

₁

, ...Z

_n

} sont suppos´ ees ici ind´ ependantes.

(6)

Dans notre travail, la variable observ´ ee X

_i

= (X

_1i

, X

_2i

) est le signal log-IP de chaque

´

echantillon pour la sonde i et nous supposons que les observations proviennent d’un m´ elange de densit´ es gaussiennes. La densit´ e du couple s’´ ecrit :

f (X

_i

, ψ) =

K

X

k=1

π

_k

φ(X

_i

|µ

_k

, Σ

_k

),

o` u π

_k

est la proportion du k -i` eme composant du m´ elange (0 < π

_k

< 1 ∀k = 1, ..., K et P

K

k=1

π

k

= 1), ψ = (π

1

, ..., π

K−1

, µ

1

, ..., µ

K

, Σ

1

, ..., Σ

K

) est le vecteur des param` etres du m´ elange et φ(.|µ

_k

, Σ

_k

) est la densit´ e d’une distribution gaussienne bidimensionnelle de moyenne µ

_k

et de variance Σ

_k

d´ efinis au point x

_i

par :

φ(x

_i

|µ

_k

, Σ

_k

) = 1

2π [det(Σ

_k

)]

^−1/2

exp

− 1

2 (x

_i

− µ

_k

)

⁰

Σ

⁻¹_k

(x

_i

− µ

_k

)

,

o` u M’ repr´ esente la transpos´ ee de M.

Nous calculons les probabilit´ es conditionnelles que la sonde i appartienne ` a chacun des groupes sachant l’ensemble des observations. Nous rappelons que par d´ efinition, la probabilit´ e conditionnelle que la sonde i appartienne au groupe k sachant l’ensemble des observations est d´ efinie par :

τ

_ik

= π ˆ

_k

φ(X

_i

| µ ˆ

_k

, Σ ˆ

_k

) P

K

l=1

π ˆ

_l

φ(X

_i

| µ ˆ

_l

, Σ ˆ

_l

) .

Nous pouvons ensuite classer la sonde i en l’attribuant au groupe pour lequel la probabilit´ e conditionnelle est la plus grande (r` egle du Maximum A Posteriori).

3.2 Param´ etrisation spectrale des matrices de variance

La densit´ e gaussienne mod´ elise une distribution ellipso¨ıdale de centre µ

_k

dont les ca-

ract´ eristiques g´ eom´ etriques (volume, forme, orientation) sont d´ efinies ` a l’aide d’une d´ ecomposition spectrale de la matrice de variance Σ

k

. Pour cela, nous reprenons une param´ etrisation

propos´ ee par Banfield et Raftery [2] qui permet de proposer de nombreux mod` eles de classification. Cette param´ etrisation consid` ere la d´ ecomposition spectrale des matrices de variance :

Σ

_k

= λ

_k

D

_k

A

_k

D

⁰_k

, (1)

o` u λ

k

repr´ esente le volume (λ

k

= det(Σ

k

)

^1/2

), D

k

repr´ esente l’orientation et A

k

repr´ esente

la forme de l’ellipse. La matrice D

_k

est la matrice des vecteurs propres de Σ

_k

et A

_k

est une matrice diagonale telle que det(A

_k

) = 1 avec les valeurs propres normalis´ ees de

Σ

k

sur la diagonale dans l’ordre d´ ecroissant. En permettant aux param` etres volumes,

formes et orientations de varier ou d’ˆ etre ´ egaux entre les classes, on obtient 14 mod` eles de

m´ elanges gaussiens diff´ erents et facilement interpr´ etables. Les 14 mod` eles sont d´ etaill´ es

dans Celeux et Govaert [10] : il y a 8 mod` eles g´ en´ eraux, 4 mod` eles avec des matrices de

variance diagonales et 2 mod` eles avec des formes sph´ eriques (A

_k

= I).

(7)

3.3 Application de 4 mod` eles de classification aux donn´ ees

Les 14 mod` eles de classification (Celeux et Govaert [10]) sont impl´ ement´ es dans le logiciel MIXMOD [4]. ` A la vue des donn´ ees IP/IP (cf Figure 1), nous consid´ erons unique- ment les mod` eles ` a quatre composants d’orientations diff´ erentes, c’est-` a-dire les mod` eles λD

_k

AD

_k⁰

, λ

_k

D

_k

AD

_k⁰

, λD

_k

A

_k

D

_k⁰

et λ

_k

D

_k

A

_k

D

_k⁰

. En reprenant les conventions de Celeux et Govaert [10], nous notons λ (respectivement D, A) lorsque le volume (respectivement l’orientation, la forme) est ´ egal pour tous les composants, et λ

_k

(respectivement D

_k

, A

_k

) lorsque le volume (respectivement l’orientation, la forme) est diff´ erent pour tous les com- posants.

On peut choisir le meilleur mod` ele ` a l’aide du crit` ere BIC ou du crit` ere ICL. Le crit` ere BIC (Bayesian Information Criterion, Schwarz (1978)) est tr` es utilis´ e pour les mod` eles ` a struc- ture cach´ ee, en particulier les mod` eles de m´ elange. Soit x = (x

₁

, ..., x

_n

) un n -´ echantillon o` u x

_i

= (x

_i1

, x

_i2

) est le signal log-IP observ´ e pour un individu i, le crit` ere BIC du mod` ele m vaut :

BIC

_m

= −2 log n

f(x| ψ ˆ

_m

) o

+ ν

_m

log(n),

o` u ˆ ψ

_m

est l’estimateur des param` etres pour le mod` ele m et ν

_m

est le nombre de param` etres du mod` ele m. Le crit` ere ICL (Integrated Complete-data Likelihood, Biernacki et al. [5]) prend en compte la capacit´ e d’un mod` ele de m´ elange ` a r´ ev´ eler une structure en classes dans les donn´ ees. Il correspond au crit` ere BIC p´ enalis´ e par un terme d’entropie qui mesure le degr´ e d’imbrication des composants :

ICL

_m

= BIC

_m

+ H

_m

, o` u H

_m

correpond ` a l’entropie du mod` ele m, avec :

H

m

= −2

n

X

i=1 K

X

k=1

z

ik

log(τ

ik

).

Les deux crit` eres s´ electionnent le mod` ele λ

_k

D

_k

A

_k

D

_k⁰

. Ce mod` ele est celui qui a le plus de param` etres ` a estimer (23 param` etres pour un m´ elange de 4 gaussiennes bidimension- nelles), ce qui n’est pas un probl` eme ´ etant donn´ e le tr` es grand nombre de donn´ ees (environ 150 000 observations par jeu de donn´ ees).

Les r´ esultats obtenus avec le mod` ele λ

_k

D

_k

A

_k

D

_k⁰

ne nous satisfont pas (cf Figure 2). En effet, un seul composant couvre les groupes enrichi et appauvri et trois composants sont presque concentriques autour du groupe d’ADN non immunopr´ ecipit´ e (bruit). Ceci est dˆ u au fait que la densit´ e de points est beaucoup plus importante au niveau du groupe d’ADN non immunopr´ ecipit´ e qui regroupe environ 50% des donn´ ees.

Les mod` eles non choisis par les crit` eres BIC et ICL et qui consid` erent un volume,

λ, constant pour les quatres composants sont un peu meilleurs du point de vue de l’in-

terpr´ etation, mais deux composants sont tr` es chevauchants et on ne retrouve pas le groupe

d’ADN non immunopr´ ecipit´ e. Beaucoup de sondes sont alors class´ ees dans le groupe ap-

pauvri ` a tort (cf Figure 3).

(8)

Fig. 2 – Droite : Isodensit´ e des 4 gaussiennes pour le mod` ele λ

_k

D

_k

A

_k

D

⁰_k

, Gauche : Clas- sement des sondes en 4 groupes avec la r` egle du MAP

Fig. 3 – Droite : Isodensit´ e des 4 gaussiennes pour le mod` ele λD

_k

A

_k

D

_k⁰

, Gauche : Clas- sement des sondes en 4 groupes avec la r` egle du MAP

4 Mod´ elisation des donn´ ees avec prise en compte des connaissances biologiques

4.1 Mod´ elisation

Afin de mod´ eliser au mieux les donn´ ees, nous ajoutons des contraintes aux mod` eles

d´ etaill´ es section 3.3. Les contraintes suppl´ ementaires sont d´ eduites de connaissances bio-

logiques que nous avons sur les donn´ ees. En effet, nous avons vu dans la section 2 que

l’on s’attend ` a identifier 4 groupes diff´ erents lorsqu’on analyse des donn´ ees de ChIP-chip

IP/IP. Le nombre de composants du mod` ele de m´ elange est donc fix´ e ` a K=4. De plus,

nous avons certaines connaissances sur les 4 groupes que l’on souhaite identifier : le groupe

d’ADN non immunopr´ ecipit´ e et le groupe normal ont la mˆ eme orientation proche de la

premi` ere bissectrice. D’autre part, on suppose que le bruit est ´ egal dans chaque groupe,

ce qui revient ` a fixer la deuxi` eme valeur propre de Σ

_k

. En effet, la premi` ere valeur propre

est associ´ ee au grand axe de l’ellipse et la deuxi` eme est associ´ ee au petit axe de l’ellipse.

(9)

Cette derni` ere hypoth` ese est utile pour contraindre la mod´ elisation car des variances h´ et´ erosc´ edastiques donnent souvent des r´ esultats tr` es instables et ne permettent pas de retrouver les 4 groupes de la Figure 1.

Nous reprenons la param´ etrisation d´ efinie section 3.2 : Σ

_k

= λ

_k

D

_k

A

_k

D

⁰_k

.

Afin d’avoir le mˆ eme bruit dans chaque groupe, on contraint la seconde valeur propre de Σ

_k

` a ˆ etre constante dans les 4 groupes. Les deux groupes qui ont la mˆ eme orientation auront la mˆ eme matrice D. En utilisant la d´ ecomposition des matrices de variance et sous nos contraintes, on obtient donc :



 



 



Σ

_k

= λ

_k

D

_k

A

_k

D

⁰_k

= D

_k

Λ

_k

D

⁰_k

, pour k = 1, .., 4, avec Λ

_k

= λ

_k

A

_k

D

₁

= D

₂

= D

Λ

_k

=

u

_1k

0 0 u

₂

, avec u

_1k

> u

₂

, pour k = 1, .., 4.

De mani` ere plus g´ en´ erale, on peut ´ ecrire :

Σ

_k

= D

_k⁰

Λ

_k

D

_k

si k ≥ 2 Σ

_k

= D

⁰

Λ

_k

D si k < 2,

o` u les groupes 1 et 2 correspondent aux groupes de mˆ eme orientation (groupe normal et groupe d’ADN non immunopr´ ecipit´ e) et la matrice Λ

_k

est une matrice diagonale qui contient les valeurs propres de Σ

_k

.

L’originalit´ e de ce mod` ele est de proposer la possibilit´ e d’avoir certains composants avec une orientation fixe et d’autres composants avec une orientation libre. De plus il est possible de fixer seulement l’une des deux valeurs propres dans le choix du volume et de la forme pour un mˆ eme composant du mod` ele. Dans le logiciel MIXMOD [4], le choix de fixer ou pas le volume, l’orientation ou la forme est obligatoirement le mˆ eme pour tous les composants du mod` ele.

4.2 Estimation des param` etres par l’algorithme EM

Si le label de chaque donn´ ee ´ etait observ´ e, l’estimation des param` etres du m´ elange serait ´ evidente puisque les param` etres de chaque composant φ(x

_i

; µ

_k

, Σ

_k

) seraient estim´ es avec les individus de la population k. Mais les labels sont inconnus et l’estimation ne peut ˆ

etre fond´ ee que sur les donn´ ees observ´ ees x

1

, ..., x

n

. Il n’existe pas de formules explicites pour les estimateurs des param` etres d’un m´ elange, on a besoin de proc´ edures d’estimation it´ eratives. Le vecteur de param` etres Ψ = (π

₁

, ..., π

₃

, µ

₁

, ..., µ

₄

, Σ

₁

, ..., Σ

₄

) est estim´ e ` a l’aide de l’algorithme EM.

Pour trouver l’estimateur des matrices de variance Σ

_k

, il faut maximiser l’esp´ erance de la log-vraisemblance des donn´ ees compl´ et´ ees en Σ

_k

, ce qui revient ` a minimiser F en D, D

_k

et Λ

k

, o` u F est d´ efinie par :

F =

2

X

k=1

tr(D

⁰

W

_k

DΛ

⁻¹_k

) +

4

X

k=3

tr(D

_k⁰

W

_k

D

_k

Λ

⁻¹_k

) +

4

X

k=1

n

_k

log {det(Λ

_k

)} ,

(10)

o` u W

_k

= P

n

i=1

τ

_ik

(x

_i

− x ¯

_k

)(x

_i

− x ¯

_k

)

⁰

.

On remarque que seul Λ

_k

est pr´ esent dans les 3 termes de F. Pour D et D

_k

, minimiser F revient simplement ` a minimiser le terme o` u ils apparaissent. L’estimateur de D

_k

pour k = 3, 4 est le mˆ eme que celui propos´ e par Celeux et Govaert [10] pour des composants d’orientations diff´ erentes, c’est-` a-dire ˆ D

_k

est la matrice des vecteurs propres de W

_k

. Proposition 1 Soit W

_k

= P

n

i=1

τ

_ik

(x

_i

−¯ x

_k

)(x

_i

−¯ x

_k

)

⁰

est une matrice de la forme

w

_1k

w

_2k

w

_2k

w

_4k

. L’estimateur du maximum de vraisemblance de la matrice d’orientation D identique pour les deux premiers composants est de la forme

p d ˆ − p 1 − d ˆ p 1 − d ˆ p

d ˆ

!

, o` u d ˆ est un r´ eel positif d´ efini par :

d ˆ =



 

 

1 2

+

P2

k=1(w1k−w_4k) 2

n

√

(P2

k=1(w1k−w_4k))²+4(P2

k=1(w2k))²

o

si P

2

k=1

(w

_1k

− w

_4k

) > 0

1 2

−

P2

k=1(w_1k−w_4k) 2n

√

(P2

k=1(w_1k−w_4k))²+4(P2

k=1(w_2k))²o

sinon. (2)

Id´ ee de la preuve 1 Minimiser F en D revient ` a minimiser f(D) = P

2

k=1

tr(DΛ

⁻¹_k

D

⁰

W

_k

).

On peut r´ e´ ecrire f (D) sous la forme suivante : f (D) =

2

X

k=1

d

⁰₁

W

k

d

1

u

_1k

+ d

⁰₂

W

k

d

2

u

₂

,

o` u d

⁰₁

est le premier vecteur de la matrice D et d

⁰₂

le second.

Puisque D est une matrice orthogonale et norm´ ee, elle est de la forme √

d − √ 1 − d

√ 1 − d √ d

. En d´ eveloppant f (D) et en d´ erivant par rapport ` a d, on obtient un pˆ olynome de degr´ e 4 en d qui se r´ esout facilement. On remarque alors que D ne d´ epend plus de Λ. Ce r´ esultat analytique n’est valable qu’en dimension 2.

Proposition 2 Soit B

_k

la matrice d´ efinie par B

_k

= D

_k⁰

W

_k

D

_k

de la forme

b

_1k

b

_3k

b

_4k

b

_2k

. L’estimateur du maximum de vraisemblance de Λ

k

est de la forme

u ˆ

1k

0 0 u ˆ

₂

, o` u u ˆ

_1k

= b

_1k

/n

_k

ˆ

u

₂

= P

4

k=1

b

_2k

/n (3)

Id´ ee de la preuve 2 En d´ eveloppant la trace et le d´ eterminant, on peut r´ e´ ecrire F sous la forme :

F =

4

X

k=1

(b

_1k

u

⁻¹_1k

+ b

_2k

u

⁻¹₂

) +

4

X

k=1

n

_k

{log(u

_1k

) + log(u

₂

)} ,

et minimiser F en Λ

_k

revient ` a minimiser F en u

_1k

et u

₂

.

(11)

L’estimateur de Σ

_k

est donc : Σ ˆ

_k

=

( D ˆ

_k⁰

Λ ˆ

_k

D ˆ

_k

si k ≥ 2 D ˆ

⁰

Λ ˆ

_k

D ˆ si k < 2,

avec ˆ D d´ efini par (2), ˆ D

_k

est la matrice des vecteurs propres de W

_k

et ˆ Λ

_k

d´ efini par (3).

5 Application sur un jeu de donn´ ees r´ eel

Nous appliquons cette m´ ethode sur les donn´ ees de m´ ethylation d’histone pr´ esent´ ees section 2. Les donn´ ees analys´ ees concernent le chromosome 4 d’Arabidopsis thaliana qui est couvert par 111 699 sondes.

5.1 Initialisation de l’algorithme EM

Les r´ esultats fournis par l’algorithme EM sont d´ ependants de l’initialisation. Il est im- portant de choisir une bonne initialisation afin de ne pas tomber sur un maximum local.

En pratique, on peut initialiser l’algorithme avec les r´ esultats fournis par les diff´ erents mod` eles de MIXMOD [4] ou bien d´ efinir une classification initiale bien choisie. Il est sou- vent plus facile de d´ efinir des probabilit´ es conditionnelles pour chaque sonde (on peut par exemple s’appuyer sur la Figure 1) que de proposer une matrice initiale Σ

_k

pertinente.

Le crit` ere d’arrˆ et choisi pour l’algorithme EM est un crit` ere de convergence sur les pa- ram` etres avec ε = 10

⁻⁶

.

Nous avons test´ e 11 initialisations diff´ erentes et les r´ esultats obtenus diff` erent selon l’ini- tialisation. Huit des 11 initialisations nous donnent le mod` ele auquel on s’attend biologi- quement repr´ esent´ e sch´ ematiquement Figure 1. Mais il reste des diff´ erences : les sondes difficiles ` a classer qui sont au centre des 4 composants sont, selon les mod` eles, class´ ees soit normales, soit appauvries, soit la moiti´ e est class´ ee appauvrie et l’autre moiti´ e enrichie.

Les param` etres estim´ es des composants ne sont alors pas les mˆ emes.

5.2 Crit` eres BIC et ICL

La s´ election de mod` eles permet de choisir le mod` ele minimisant le crit` ere BIC ou le crit` ere ICL donn´ es section 3.3. Le mod` ele minimisant ` a la fois le crit` ere BIC et le crit` ere ICL est le mod` ele λ

_k

D

_k

A

_k

D

⁰_k

pr´ esent´ e Figure 2 (cf Table 1). Ce n’est pas le mod` ele que l’on voudrait s´ electionner biologiquement. Ceci est surement dˆ u au fait que les classes ne sont pas des gaussiennes en r´ ealit´ e.

5.3 Estimation des param` etres

Nous pr´ esentons les r´ esultats du mod` ele initialis´ e avec des probabilit´ es conditionnelles.

Les param` etres du m´ elange estim´ es par l’algorithme EM sont donn´ es dans la Table 2. Les proportions de chacun des groupes correspondent ` a celles attendues par les biologistes. En effet, on sait que la m´ ethylation de cette histone n’est pr´ esente qu’en faible proportion dans le g´ enome. Or nous trouvons environ 39% des sondes dans le groupe non immunopr´ ecipit´ e.

Nous savons aussi que la diff´ erence de m´ ethylation est majoritairement appauvrie chez

(12)

Mod` ele λ

_k

D

_k

A

_k

D

⁰_k

Mod` ele λD

_k

A

_k

D

⁰_k

Mod` ele 1 Mod` ele 2

nb de param` etres 23 20 18 18

BIC 578 171 637 770 606 643 613 470

ICL 607 488 690 126 639 101 640 582

Tab. 1 – Crit` eres BIC et ICL selon les mod` eles. Mod` ele 1 correspond ` a notre mod` ele ini- tialis´ e avec des probabilit´ es conditionnelles, Mod` ele 2 correspond ` a notre mod` ele initialis´ e avec des param` etres bien choisis

le mutant et tr` es rarement enrichie. Le groupe appauvri regroupe 22% des sondes et le groupe enrichi en regroupe seulement 13%.

D’autre part, la matrice d’orientation D estim´ ee pour les groupes 1 et 2 est tr` es proche de la matrice d’orientation attendue pour une direction sur la premi` ere bissectrice.

Groupe 1 Groupe 2 Groupe 3 Groupe 4

ˆ

π 0.39 0.26 0.13 0.22

ˆ

µ [7.56 ;7.54] [12.19 ;12.04] [8.07 ;9.17] [9.10 ;7.95]

D ˆ

0.71 −0.70 0.70 0.71

0.32 −0.94 0.94 0.32

−0.96 0.26

−0.26 −0.96

Λ ˆ

0.11 0 0 0.14

9.42 0 0 0.14

1.41 0 0 0.14

1.29 0 0 0.14

Σ ˆ

0.12 −0.01

−0.01 0.12

4.8 4.64 4.64 4.75

0.27 0.39 0.39 1.28

1.21 0.29 0.29 0.22

Tab. 2 – Estimation des param` etres. Les groupes 1 et 2 correspondent aux groupes normaux (le groupe 1 est le groupe non-immunopr´ ecipit´ e), le groupe 3 correspond au groupe enrichi et le groupe 4 correspond au groupe appauvri.

On obtient quatre groupes en classant chaque sonde dans le groupe pour laquelle la probabilit´ e conditionnelle est la plus grande (cf Figure 4).

D’un point de vue biologique, le plus important est dans un premier temps de distinguer

les sondes enrichies ou appauvries (c’est-` a-dire l` a o` u le taux de m´ ethylation est diff´ erent

entre le sauvage et le mutant). On peut donc consid´ erer les groupes de mˆ eme orientation

(groupes 1 et 2) comme un seul groupe qui correspond ` a un taux de m´ ethylation iden-

tique dans les deux ´ echantillons (groupe normal). On veut donc classer les sondes en trois

groupes : normal, appauvri ou enrichi. Pour cela, on somme les probabilit´ es conditionnelles

des groupes 1 et 2. Une autre possibilit´ e est de classer en deux groupes seulement, un

groupe qui correspond ` a une m´ ethylation identique dans les deux ´ echantillons, et l’autre

qui correspond ` a un taux de m´ ethylation diff´ erent entre les deux ´ echantillons. Pour cela,

(13)

on somme les probabilit´ es conditionnelles des groupes 1 et 2 et celles des groupes 3 et 4.

Lorsque l’on classe en 4 groupes, on trouve bien les 4 groupes comme attendus sur la figure 1, mais il est probable que les sondes aux fronti` eres de deux classes aient des probabilit´ es conditionnelles tr` es proches pour les deux classes et soient donc mal class´ ees. Comme nous pr´ ef´ erons ne pas avoir d’information sur une sonde plutˆ ot que d’avoir une informa- tion fausse, nous fixons un seuil de classification ` a 0.7, ce qui d´ elimite une marge de non classement autour de chacun des groupes (cf Figure 5). Avec un seuil ` a 0.7, seulement 12.5% des sondes ne sont pas class´ ees. On peut bien sˆ ur faire de mˆ eme avec les classements en 2 ou 3 groupes, le nombre de sondes non class´ ees est alors plus faible (11.9% pour un classement en 3 groupes et 9.3% pour un classement en 2 groupes).

Fig. 4 – Classement des sondes en 4 groupes (gauche), 3 groupes (centre), 2 groupes (droite).

Fig. 5 – Classement des sondes en 4 groupes (gauche) avec un seuil de classification ` a 0.7

(zone en gris), 3 groupes (centre), 2 groupes (droite).

(14)

5.4 Interpr´ etations biologiques

Nous avons ensuite compar´ e les r´ esultats ` a l’annotation connue d’Arabidopsis tha- liana ` a l’aide du logiciel SignalM ap

^{T M}

fourni par NimbleGen (cf Figure 6). Bien que notre mod` ele ne prenne pas en compte la structure spatiale des sondes le long du chro- mosome, les sondes d´ eclar´ ees normales, enrichies ou appauvries chez le mutant sont re- group´ ees sous forme de plage. On s’attend ´ evidemment ` a ce que des sondes contig¨ ues aient le mˆ eme comportement. D’autre part, la marque H3K9me2 ´ etudi´ ee est une marque h´ et´ erochromatinienne pr´ esente sur environ 15% du g´ enome. La plupart des r´ egions cou- vertes par H3K9me2 sont contig¨ ues et couvrent plusieurs m´ egabases dans les r´ egions p´ ericentrom´ eriques ou dans l’h´ et´ erochromatine interstitielle comme le knob du chromo- some 4, mais il existe aussi des r´ egions plus petites (ilˆ ots d’h´ et´ erochromatine) situ´ ees dans l’euchromatine et qui couvrent majoritairement des ´ el´ ements transposables (Berna- tavichute et al. [3]). Nous savons aussi qu’il y a peu de diff´ erences entre le sauvage et le mutant pour le taux de m´ ethylation d’H3K9me2. Nos r´ esultats corroborent parfaitement ces connaissances. En effet, on observe une majorit´ e de sondes d´ eclar´ ees non m´ ethyl´ ees le long du chromosome 4, mais dans la r´ egion p´ ericentrom´ erique (entre les positions 2 800 000 et 5 000 000) et autour du knob (entre les positions 1 600 000 et 2 300 000), on remarque une majorit´ e de sondes du groupe normal et des larges plages de sondes du groupe appau- vri ou enrichi. On d´ etecte aussi des plages de sondes, plus petites, appartenant au groupe enrichi ou appauvri situ´ ees dans l’euchromatine et qui couvrent des ´ el´ ements transposables (cf Figure 6). Environ 10% des sondes du g´ enome couvrent des ´ el´ ements transposables, et on trouve 26% des sondes du groupe normal couvrant un ´ el´ ement transposable. Un test du χ

²

montre une diff´ erence significative. Il y a clairement un biais et on peut donc dire que la marque H3K9me2 est majoritairement pr´ esente sur les ´ el´ ements transposables.

Fig. 6 – Comparaison ` a l’annotation. En bleu les g` enes (1` ere ligne), en violet les ´ el´ ements

transposables (2` eme ligne). En rouge, les sondes o` u la m´ ethylation est identique entre le

sauvage et le mutant. En noir les sondes d´ eclar´ ees enrichies, en bleu les appauvries, en

jaunes les non-m´ ethyl´ ees (3` eme ligne).

(15)

6 Conclusion

Nous proposons une m´ ethode fond´ ee sur un m´ elange de gaussiennes bidimension- nelles contraintes pour l’analyse de donn´ ees de ChIP-chip IP/IP. La connaissance biolo- gique des donn´ ees est prise en compte. Les param` etres sont estim´ es par l’algorithme EM.

Cette m´ ethode donne des r´ esultats convaincants pour l’analyse d’un jeu de donn´ ees r´ eel concernant la m´ ethylation d’une histone. Nous souhaitons aussi analyser d’autres types de donn´ ees o` u il n’y aurait que 3 groupes ` a d´ efinir (pas d’appauvri, pas d’enrichi ou pas de non-immunopr´ ecipit´ e). Bien que notre mod` ele ne prenne pas en compte la structure spatiale des sondes le long du chromosome, les sondes d´ eclar´ ees normales, enrichies ou appauvries sont regroup´ ees sous forme de plage. Une am´ elioration naturelle consiste ` a prendre en compte la structure spatiale des sondes en utilisant un mod` ele de type HMM.

D’autre part, on peut aussi rajouter des contraintes de sym´ etrie entre les groupes appau- vri et enrichi.

R´ ef´ erences

[1] Amaratunga, D. and Cabrera, J. : Exploration and Analysis of DNA Microarray and Protein Array Data. Wiley Series in Probability and Statistics (2004).

[2] Banfield, J.D. and Raftery, A.E. : Model-based Gaussian and non-Gaussian cluste- ring. Biometrics 49 (1993) 803-821.

[3] Bernatavichute, Y.V., Zhang, X., Cokus, S., Pellegrini, M. and Jacobsen, S.E. : Genome-Wide Association of Histone H3 Lysine Nine Methylation with CHG DNA Methylation in Arabidopsis thaliana. PLoS ONE 3(9) :e3156 (2008).

[4] Biernacki, C., Celeux, G., Echenim, A., Govaert, G. and Langrognet, F. : Le logiciel MIXMOD d’analyse de m´ elange pour la classification et l’analyse discriminante. La Revue de Modulad 35 (2007) 25-44.

[5] Biernacki, C., Celeux, G. and Govaert, G. : Assessing a mixture model for clustering with the integrated completed likelihood. Pattern Analysis and Machine Intelligence 22(7) (2000) 719-725.

[6] Boulicaut, J.F. and Gandrillon O. : Informatique pour l’analyse du transcriptome.

Lavoisier (2004).

[7] Buck, M.J. and Lieb, J.D. : Chip-chip : considerations for the design, analysis, and application of genome-wide chromatin immunoprecipitation experiments. Genomics 83 (2004) 349-360.

[8] Capp´ e, O., Moulines, E. and Ryd´ en, T. : Inference in hidden Markov models. Springer Series in Statistics, NY : Springer (2005).

[9] Cawley, S. et al. : Unbiased mapping of transcription factor binding sites along human chromosomes 21 and 22 points to widespread regulation of noncoding RNAs. Cell 116 (2004) 499-509.

[10] Celeux, G. and Govaert, G. : Gaussian Parsimonious Clustering Models. Pattern

Recognition 28 (1995) 781-793.

(16)

[11] Dempster, A.P., Laird, N.M. and Rubin, D.B. : Maximum likelihood from incomplete data via the EM algorihtm (with discussion). J. R. Statis. Soc. B 39 (1977) 1-38.

[12] Ephraim, Y. and Merhav, N. : Hidden Markov processes. IEEE Transactions on Information Theory 48(6) (2002) 1518-1569.

[13] Hup´ e, P., Stransky, N., Thiery, JP., Radvanyi, F. and Barillot, E. : Analysis of array CGH data : from signal ratio to gain and loss of DNA regions. Bioinformatics 20(18) (2004) 3413-22.

[14] Keles, S. : Mixture modeling for genome-wide localization of transcription factors.

Biometrics 63 (2007) 10-21.

[15] Martin-Magniette, M-L, Mary-Huard, T., Berard, C. and Robin S. : ChIPmix : mix- ture model of regressions for two-color ChIP-chip analysis. Bioinformatics 24 :i181- i186 (2008).

[16] Olshen, AB., Venkatraman, ES., Lucito, R. and Wigler, M. : Circular binary seg- mentation for the analysis of array-based DNA copy number data. Biostatistics 5(4) (2004) 557-72.

[17] Picard, F., Robin, S., Lavielle, M., Vaisse, C. and Daudin, JJ. : A statistical approach for array CGH data analysis. BMC Bioinformatics 6 :27 (2005).

[18] Turck, F., Roudier, F., Farrona, S., Martin-Magniette, M-L. et al. : Arabidopsis

TFL2/LHP1 Specifically Associates with Genes Marked by Trimethylation of Histone

H3 Lysine 27. PLoS Genet.v 3 :6 (2007).

(17)