HAL Id: hal-01197565
https://hal.archives-ouvertes.fr/hal-01197565
Submitted on 30 May 2020
HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.
Mélanges gaussiens bidimensionnels pour la comparaison de deux échantillons de chromatine immunoprécipitée
Caroline Berard, Marie-Laure Martin-Magniette, Alexandra To, François Roudier, Vincent Colot, Stephane Robin
To cite this version:
Caroline Berard, Marie-Laure Martin-Magniette, Alexandra To, François Roudier, Vincent Colot, et
al.. Mélanges gaussiens bidimensionnels pour la comparaison de deux échantillons de chromatine
immunoprécipitée. La revue MODULAD, Modulad, 2009, pp.53-68. �hal-01197565�
M´ elanges gaussiens bidimensionnels pour la comparaison de deux ´ echantillons de
chromatine immunopr´ ecipit´ ee
Caroline B´ erard
1, Marie-Laure Martin-Magniette
1,2, Alexandra To
3, Fran¸cois Roudier
3, Vincent Colot
3et St´ ephane Robin
1.
1
UMR AgroParisTech/INRA MIA 518, 16 rue Claude Bernard, PARIS Cedex 05.
2
UMR INRA 1165 - CNRS 8114 - UEVE URGV, 2 rue Gaston Cr´ emieux, EVRY.
3
UMR CNRS 8186, D´ epartement de Biologie, 46 rue d’Ulm, PARIS Cedex 05.
caroline.berard@agroparistech.fr , marie laure.martin@agroparistech.fr to@biologie.ens.fr , roudier@biologie.ens.fr
colot@biologie.ens.fr , stephane.robin@agroparistech.fr
R´ esum´ e L’immunopr´ ecipitation de la chromatine (ChIP) permet d’´ etudier les in- teractions entre les prot´ eines et l’ADN ainsi que diff´ erents ´ etats chromatiniens. Le ChIP-chip est une technique combinant l’immunopr´ ecipitation de la chromatine avec le principe des puces ` a ADN, ce qui permet une ´ etude ` a l’´ echelle du g´ enome. Nous nous int´ eressons ici ` a l’analyse des diff´ erences entre deux ´ echantillons d’ADN im- munopr´ ecipit´ e. Biologiquement, on s’attend ` a distinguer quatre groupes diff´ erents : un groupe d’ADN non-immunopr´ ecipit´ e, un groupe d’ADN immunopr´ ecipit´ e identi- quement dans les deux ´ echantillons et deux groupes dans lesquels l’ADN est immu- nopr´ ecipit´ e en quantit´ es diff´ erentes. Nous mod´ elisons ces donn´ ees par un m´ elange de gaussiennes bidimensionnelles ` a quatre composants. Les matrices de variance sont contraintes afin d’int´ egrer des connaissances biologiques. Les param` etres sont estim´ es par l’algorithme EM. Nous appliquons cette m´ ethode pour ´ etudier la diff´ erence de m´ ethylation d’une histone entre l’´ ecotype sauvage de la plante mod` ele Arabidopsis thaliana et un mutant.
Mots-cl´ es : M´ elange gaussien, d´ ecomposition spectrale, algorithme EM, ChIP-chip.
R´ esum´ e Chromatin immunoprecipitation (ChIP) enables to investigate interac- tions between proteins and DNA and also various chromatin states. ChIP-chip is a well-established procedure combining chromatin immunoprecipitation with DNA microarrays, which allows a study of the whole genome. We are interested in the analyze of the differences between two immunoprecipitated DNA samples. From a biological point of view, we expect to distinguish four different groups : a group of non-immunoprecipited DNA, a group of immunoprecipited DNA in both samples, and then two groups in which DNA is differently immunoprecipited. We propose to model these data with a mixture of two-dimensional Gaussians with four compo- nents. Biological knowledges are included as constraints on the variance matrices.
The parameters are estimated by the EM algorithm. This method is applied to Nim- bleGen data in order to study the histone methylation difference between the wild ecotype of the model plant Arabidopsis thaliana and a mutant.
Keywords : Gaussian mixture, eigenvalue decomposition, EM algorithm,
ChIP-chip.
1 Introduction
La connaissance des m´ ecanismes de r´ egulation des g` enes est essentielle pour com- prendre certains concepts biologiques importants. On sait par exemple que le d´ eveloppement d’un organisme d´ epend grandement de l’harmonisation de l’expression de ses g` enes. Apr` es le s´ equen¸cage entier des g´ enomes ` a grande ´ echelle, le d´ efi consiste donc aujourd’hui ` a com- prendre le fonctionnement des g` enes, c’est-` a-dire ` a d´ eterminer leur fonction et leur patron d’expression.
Dans le noyau des cellules eucaryotes, l’ADN est fractionn´ e en chromosomes et il est condens´ e sous forme de chromatine. La chromatine est un complexe ADN-prot´ eines qui joue un rˆ ole essentiel dans le contrˆ ole de l’activit´ e des g` enes. Les prot´ eines pr´ esentes sont principalement des histones. La condensation de l’ADN en chromatine s’organise de mani` ere s´ equentielle et ordonn´ ee. En premier lieu, 147 paires de bases d’ADN s’en- roulent autour d’un octam` ere d’histones pour former un nucl´ eosome. Dans un second niveau d’organisation, les nucl´ eosomes se compactent et forment une h´ elice. Cette h´ elice est finalement condens´ ee en euchromatine (condensation l´ eg` ere) ou en h´ et´ erochromatine (condensation plus prononc´ ee) constituant un troisi` eme niveau d’organisation. Les g` enes localis´ es dans l’euchromatine peuvent ˆ etre plus facilement transcrits car la condensation est l´ eg` ere. Cette structure d’organisation du g´ enome dans le noyau constitue en elle-mˆ eme un m´ ecanisme de r´ epression ou d’activation de la transcription des g` enes. En effet, pour activer la transcription d’un g` ene donn´ e dans une cellule, la chromatine comprise dans la r´ egion de contrˆ ole du g` ene doit ˆ etre modifi´ ee ou alt´ er´ ee de fa¸con ` a ˆ etre permissive ` a la transcription. Les modifications post-traductionnelles d’histone (comme la m´ ethylation, l’ac´ etylation, l’ubiquitination ou la phosphorilation) sont des m´ ecanismes impliqu´ es dans la r´ egulation de l’expression des g` enes (Turck et al. [18]).
L’immunopr´ ecipitation de la chromatine (ChIP) permet d’´ etudier les interactions entre les prot´ eines et l’ADN ainsi que diff´ erents ´ etats chromatiniens associ´ es ` a des ´ etats d’acti- vit´ e distincts du g´ enome. Le ChIP-chip est une technique combinant l’immunopr´ ecipitation de la chromatine avec le principe des puces ` a ADN (Amaratunga et Cabrera [1]), ce qui permet une ´ etude ` a l’´ echelle du g´ enome. Habituellement dans une exp´ erience de ChIP- chip, les deux ´ echantillons co-hybrid´ es sont les fragments d’ADN associ´ es ` a la prot´ eine d’int´ erˆ et ou ` a une marque chromatinienne (IP) et l’ADN g´ enomique total (INPUT). Le but est ensuite de d´ etecter les sondes de la puce pour lesquelles il y a un signal IP afin d’identifier les r´ egions g´ enomiques o` u la prot´ eine d’int´ erˆ et se fixe.
Buck et Lieb [7] ont montr´ e la n´ ecessit´ e de d´ evelopper de nouvelles m´ ethodes statis-
tiques pour d´ etecter les sondes enrichies dans les exp´ eriences de ChIP-chip. R´ ecemment,
deux strat´ egies ont ´ et´ e largement appliqu´ ees : la premi` ere tient compte de la structure
spatiale des donn´ ees (Cawley et al. [9], Keles [14]) et la seconde consid` ere que la totalit´ e
des sondes peut ˆ etre divis´ ee en deux populations : les sondes enrichies et les non-enrichies
(Buck et Lieb [7], Turck et al. [18], Martin-Magniette et al. [15]). Diff´ erentes m´ ethodes
statistiques ont ´ et´ e propos´ ees pour distinguer ces deux populations : toutes sont fond´ ees
sur la distribution du log-ratio log(IP/IN P U T ) (Buck et Lieb [7], Turck et al. [18]),
except´ ee la m´ ethode propos´ ee par Martin-Magniette et al. [15] qui utilise un m´ elange de
r´ egressions pour mod´ eliser la loi de l’IP conditionnellement ` a l’INPUT.
La technique du ChIP-chip permet ´ egalement d’´ etudier directement la diff´ erence entre deux ´ echantillons d’ADN immunopr´ ecipit´ es, sans hybrider sur la puce l’ADN g´ enomique total (INPUT). ` A notre connaissance il n’existe pas de m´ ethode pour analyser ce type de donn´ ees (IP/IP) dans la litt´ erature. Les m´ ethodes de segmentation initialement d´ evelopp´ ees pour l’analyse des donn´ ees CGH (Hup´ e et al. [13], Olshen et al. [16], Picard et al. [17]) pourraient ˆ etre utilis´ ees, mais les r´ egions g´ enomiques non immunopr´ ecipit´ ees et les r´ egions immunopr´ ecipit´ ees identiquement dans les deux ´ echantillons seraient indistinguables. De plus ces m´ ethodes sont assez coˆ uteuses en temps de calcul pour des puces tiling-array qui ont un grand nombre de sondes.
L’objectif de notre travail est de proposer une mod´ elisation conjointe des signaux IP obtenus par un mod` ele de m´ elange de gaussiennes bi-dimensionnelles. La description des donn´ ees est d´ etaill´ ee section 2. Les m´ elanges gaussiens bidimensionnels mod´ elis´ es ` a l’aide d’une d´ ecomposition de la matrice de variance sont ´ etudi´ es section 3. Les connaissances biologiques sont prises en compte sous forme de contraintes sur les param` etres du mod` ele et sur le nombre de composants. Cette mod´ elisation est d´ etaill´ ee dans la section 4. Une ap- plication de la m´ ethode sur des donn´ ees issues de la technologie NimbleGen est pr´ esent´ ee dans la section 5.
2 Description des donn´ ees
Les donn´ ees analys´ ees concernent la plante mod` ele Arabidopsis thaliana. Les deux
´
echantillons co-hybrid´ es sur la puce visent ` a ´ etudier le comportement de l’histone H3 dim´ ethyl´ ee au niveau de la lysine 9 (H3K9me2). On compare un ´ echantillon sauvage et un ´ echantillon mutant (mutant nrpdlalb).
L’exp´ erience est faite en dye-swap (Boulicaut et Gandrillon [6]) : le principe est de faire une r´ ep´ etition technique en inversant les marquages. Chaque traitement est ainsi marqu´ e par les deux fluorochromes, ce qui permet de contrˆ oler le biais dˆ u au marquage (biais technique). Les intensit´ es des signaux sont ensuite moyenn´ ees sur le dye-swap.
La puce ` a ADN utilis´ ee est une puce tiling-array ` a oligos courts issue de la technolo- gie NimbleGen. Cette puce permet d’´ etudier le g´ enome nucl´ eaire d’Arabidopsis thaliana, compos´ e de cinq chromosomes et des g´ enomes mitochondrial et chloroplastique. La puce est constitu´ ee d’environ 700 000 sondes.
Lorsque l’on ´ etudie des donn´ ees de ChIP-chip IP/IP, on s’attend ` a distinguer quatre groupes (cf Figure 1) :
– Un groupe d’intensit´ e faible qui correspond aux s´ equences d’ADN qui ne sont pas immunopr´ ecipit´ ees (bruit).
– Un groupe o` u les s´ equences d’ADN sont immunopr´ ecipit´ ees en mˆ eme quantit´ e chez le sauvage et chez le mutant. Cela correspond aux endroits sur le g´ enome o` u l’histone est m´ ethyl´ ee identiquement dans les deux ´ echantillons. Ce groupe sera d´ efini dans la suite comme groupe normal.
– Deux groupes o` u les s´ equences d’ADN sont immunopr´ ecipit´ ees en quantit´ es diff´ erentes
chez le sauvage et chez le mutant. Le taux de m´ ethylation de l’histone H3K9me2 peut ˆ etre plus faible chez le mutant (groupe appauvri), ou bien au contraire, plus
´ elev´ e (groupe enrichi).
Fig. 1 – Comparaison de deux ´ echantillons de chromatine immunopr´ ecipit´ ee (sauvage vs mutant) : Identification sch´ ematique des diff´ erents groupes.
3 Mod` ele de m´ elanges gaussiens bidimensionnels
Dans cette section, nous rappelons bri` evement l’approche de classification par les m´ elanges gaussiens et reprenons la mod´ elisation des mod` eles de m´ elanges gaussiens ` a l’aide d’une d´ ecomposition des matrices de variance, puis nous appliquons certains mod` eles d´ efinis dans Biernacki et al. [4] ` a nos donn´ ees.
3.1 Approche par classification
Si le but de l’analyse est la classification, le label de chaque donn´ ee est manquant
au regard de l’´ echantillon observ´ e. Notons Z
ik, ce label pour l’individu i, qui est une
variable al´ eatoire ´ egale ` a 1 si le point x
iappartient ` a la population k et 0 sinon. Les va-
riables {Z
1, ...Z
n} (avec Z
i= {Z
i1, ..., Z
iK}) sont suppos´ ees ind´ ependantes et suivent une
loi multinomiale de probabilit´ es π
1, ..., π
K, qui sont les proportions des K classes dans le
m´ elange. Si nous notons Y le vecteur des donn´ ees compl` etes (X, Z) o` u seul X est observ´ e,
alors cette reformulation montre clairement que les mod` eles de m´ elange peuvent ˆ etre vus
comme un cas particulier des mod` eles ` a structure cach´ ee comme par exemple les mod` eles
de Markov cach´ es (Capp´ e et al. [8], Ephraim et Merhav [12]), la diff´ erence ´ etant que les
variables {Z
1, ...Z
n} sont suppos´ ees ici ind´ ependantes.
Dans notre travail, la variable observ´ ee X
i= (X
1i, X
2i) est le signal log-IP de chaque
´
echantillon pour la sonde i et nous supposons que les observations proviennent d’un m´ elange de densit´ es gaussiennes. La densit´ e du couple s’´ ecrit :
f (X
i, ψ) =
K
X
k=1
π
kφ(X
i|µ
k, Σ
k),
o` u π
kest la proportion du k -i` eme composant du m´ elange (0 < π
k< 1 ∀k = 1, ..., K et P
Kk=1
π
k= 1), ψ = (π
1, ..., π
K−1, µ
1, ..., µ
K, Σ
1, ..., Σ
K) est le vecteur des param` etres du m´ elange et φ(.|µ
k, Σ
k) est la densit´ e d’une distribution gaussienne bidimensionnelle de moyenne µ
ket de variance Σ
kd´ efinis au point x
ipar :
φ(x
i|µ
k, Σ
k) = 1
2π [det(Σ
k)]
−1/2exp
− 1
2 (x
i− µ
k)
0Σ
−1k(x
i− µ
k)
,
o` u M’ repr´ esente la transpos´ ee de M.
Nous calculons les probabilit´ es conditionnelles que la sonde i appartienne ` a chacun des groupes sachant l’ensemble des observations. Nous rappelons que par d´ efinition, la probabilit´ e conditionnelle que la sonde i appartienne au groupe k sachant l’ensemble des observations est d´ efinie par :
τ
ik= π ˆ
kφ(X
i| µ ˆ
k, Σ ˆ
k) P
Kl=1
π ˆ
lφ(X
i| µ ˆ
l, Σ ˆ
l) .
Nous pouvons ensuite classer la sonde i en l’attribuant au groupe pour lequel la probabilit´ e conditionnelle est la plus grande (r` egle du Maximum A Posteriori).
3.2 Param´ etrisation spectrale des matrices de variance
La densit´ e gaussienne mod´ elise une distribution ellipso¨ıdale de centre µ
kdont les ca-
ract´ eristiques g´ eom´ etriques (volume, forme, orientation) sont d´ efinies ` a l’aide d’une d´ ecomposition spectrale de la matrice de variance Σ
k. Pour cela, nous reprenons une param´ etrisation
propos´ ee par Banfield et Raftery [2] qui permet de proposer de nombreux mod` eles de classification. Cette param´ etrisation consid` ere la d´ ecomposition spectrale des matrices de variance :
Σ
k= λ
kD
kA
kD
0k, (1)
o` u λ
krepr´ esente le volume (λ
k= det(Σ
k)
1/2), D
krepr´ esente l’orientation et A
krepr´ esente
la forme de l’ellipse. La matrice D
kest la matrice des vecteurs propres de Σ
ket A
kest une matrice diagonale telle que det(A
k) = 1 avec les valeurs propres normalis´ ees de
Σ
ksur la diagonale dans l’ordre d´ ecroissant. En permettant aux param` etres volumes,
formes et orientations de varier ou d’ˆ etre ´ egaux entre les classes, on obtient 14 mod` eles de
m´ elanges gaussiens diff´ erents et facilement interpr´ etables. Les 14 mod` eles sont d´ etaill´ es
dans Celeux et Govaert [10] : il y a 8 mod` eles g´ en´ eraux, 4 mod` eles avec des matrices de
variance diagonales et 2 mod` eles avec des formes sph´ eriques (A
k= I).
3.3 Application de 4 mod` eles de classification aux donn´ ees
Les 14 mod` eles de classification (Celeux et Govaert [10]) sont impl´ ement´ es dans le logiciel MIXMOD [4]. ` A la vue des donn´ ees IP/IP (cf Figure 1), nous consid´ erons unique- ment les mod` eles ` a quatre composants d’orientations diff´ erentes, c’est-` a-dire les mod` eles λD
kAD
k0, λ
kD
kAD
k0, λD
kA
kD
k0et λ
kD
kA
kD
k0. En reprenant les conventions de Celeux et Govaert [10], nous notons λ (respectivement D, A) lorsque le volume (respectivement l’orientation, la forme) est ´ egal pour tous les composants, et λ
k(respectivement D
k, A
k) lorsque le volume (respectivement l’orientation, la forme) est diff´ erent pour tous les com- posants.
On peut choisir le meilleur mod` ele ` a l’aide du crit` ere BIC ou du crit` ere ICL. Le crit` ere BIC (Bayesian Information Criterion, Schwarz (1978)) est tr` es utilis´ e pour les mod` eles ` a struc- ture cach´ ee, en particulier les mod` eles de m´ elange. Soit x = (x
1, ..., x
n) un n -´ echantillon o` u x
i= (x
i1, x
i2) est le signal log-IP observ´ e pour un individu i, le crit` ere BIC du mod` ele m vaut :
BIC
m= −2 log n
f(x| ψ ˆ
m) o
+ ν
mlog(n),
o` u ˆ ψ
mest l’estimateur des param` etres pour le mod` ele m et ν
mest le nombre de param` etres du mod` ele m. Le crit` ere ICL (Integrated Complete-data Likelihood, Biernacki et al. [5]) prend en compte la capacit´ e d’un mod` ele de m´ elange ` a r´ ev´ eler une structure en classes dans les donn´ ees. Il correspond au crit` ere BIC p´ enalis´ e par un terme d’entropie qui mesure le degr´ e d’imbrication des composants :
ICL
m= BIC
m+ H
m, o` u H
mcorrepond ` a l’entropie du mod` ele m, avec :
H
m= −2
n
X
i=1 K
X
k=1
z
iklog(τ
ik).
Les deux crit` eres s´ electionnent le mod` ele λ
kD
kA
kD
k0. Ce mod` ele est celui qui a le plus de param` etres ` a estimer (23 param` etres pour un m´ elange de 4 gaussiennes bidimension- nelles), ce qui n’est pas un probl` eme ´ etant donn´ e le tr` es grand nombre de donn´ ees (environ 150 000 observations par jeu de donn´ ees).
Les r´ esultats obtenus avec le mod` ele λ
kD
kA
kD
k0ne nous satisfont pas (cf Figure 2). En effet, un seul composant couvre les groupes enrichi et appauvri et trois composants sont presque concentriques autour du groupe d’ADN non immunopr´ ecipit´ e (bruit). Ceci est dˆ u au fait que la densit´ e de points est beaucoup plus importante au niveau du groupe d’ADN non immunopr´ ecipit´ e qui regroupe environ 50% des donn´ ees.
Les mod` eles non choisis par les crit` eres BIC et ICL et qui consid` erent un volume,
λ, constant pour les quatres composants sont un peu meilleurs du point de vue de l’in-
terpr´ etation, mais deux composants sont tr` es chevauchants et on ne retrouve pas le groupe
d’ADN non immunopr´ ecipit´ e. Beaucoup de sondes sont alors class´ ees dans le groupe ap-
pauvri ` a tort (cf Figure 3).
Fig. 2 – Droite : Isodensit´ e des 4 gaussiennes pour le mod` ele λ
kD
kA
kD
0k, Gauche : Clas- sement des sondes en 4 groupes avec la r` egle du MAP
Fig. 3 – Droite : Isodensit´ e des 4 gaussiennes pour le mod` ele λD
kA
kD
k0, Gauche : Clas- sement des sondes en 4 groupes avec la r` egle du MAP
4 Mod´ elisation des donn´ ees avec prise en compte des connaissances biologiques
4.1 Mod´ elisation
Afin de mod´ eliser au mieux les donn´ ees, nous ajoutons des contraintes aux mod` eles
d´ etaill´ es section 3.3. Les contraintes suppl´ ementaires sont d´ eduites de connaissances bio-
logiques que nous avons sur les donn´ ees. En effet, nous avons vu dans la section 2 que
l’on s’attend ` a identifier 4 groupes diff´ erents lorsqu’on analyse des donn´ ees de ChIP-chip
IP/IP. Le nombre de composants du mod` ele de m´ elange est donc fix´ e ` a K=4. De plus,
nous avons certaines connaissances sur les 4 groupes que l’on souhaite identifier : le groupe
d’ADN non immunopr´ ecipit´ e et le groupe normal ont la mˆ eme orientation proche de la
premi` ere bissectrice. D’autre part, on suppose que le bruit est ´ egal dans chaque groupe,
ce qui revient ` a fixer la deuxi` eme valeur propre de Σ
k. En effet, la premi` ere valeur propre
est associ´ ee au grand axe de l’ellipse et la deuxi` eme est associ´ ee au petit axe de l’ellipse.
Cette derni` ere hypoth` ese est utile pour contraindre la mod´ elisation car des variances h´ et´ erosc´ edastiques donnent souvent des r´ esultats tr` es instables et ne permettent pas de retrouver les 4 groupes de la Figure 1.
Nous reprenons la param´ etrisation d´ efinie section 3.2 : Σ
k= λ
kD
kA
kD
0k.
Afin d’avoir le mˆ eme bruit dans chaque groupe, on contraint la seconde valeur propre de Σ
k` a ˆ etre constante dans les 4 groupes. Les deux groupes qui ont la mˆ eme orientation auront la mˆ eme matrice D. En utilisant la d´ ecomposition des matrices de variance et sous nos contraintes, on obtient donc :
Σ
k= λ
kD
kA
kD
0k= D
kΛ
kD
0k, pour k = 1, .., 4, avec Λ
k= λ
kA
kD
1= D
2= D
Λ
k=
u
1k0 0 u
2, avec u
1k> u
2, pour k = 1, .., 4.
De mani` ere plus g´ en´ erale, on peut ´ ecrire :
Σ
k= D
k0Λ
kD
ksi k ≥ 2 Σ
k= D
0Λ
kD si k < 2,
o` u les groupes 1 et 2 correspondent aux groupes de mˆ eme orientation (groupe normal et groupe d’ADN non immunopr´ ecipit´ e) et la matrice Λ
kest une matrice diagonale qui contient les valeurs propres de Σ
k.
L’originalit´ e de ce mod` ele est de proposer la possibilit´ e d’avoir certains composants avec une orientation fixe et d’autres composants avec une orientation libre. De plus il est possible de fixer seulement l’une des deux valeurs propres dans le choix du volume et de la forme pour un mˆ eme composant du mod` ele. Dans le logiciel MIXMOD [4], le choix de fixer ou pas le volume, l’orientation ou la forme est obligatoirement le mˆ eme pour tous les composants du mod` ele.
4.2 Estimation des param` etres par l’algorithme EM
Si le label de chaque donn´ ee ´ etait observ´ e, l’estimation des param` etres du m´ elange serait ´ evidente puisque les param` etres de chaque composant φ(x
i; µ
k, Σ
k) seraient estim´ es avec les individus de la population k. Mais les labels sont inconnus et l’estimation ne peut ˆ
etre fond´ ee que sur les donn´ ees observ´ ees x
1, ..., x
n. Il n’existe pas de formules explicites pour les estimateurs des param` etres d’un m´ elange, on a besoin de proc´ edures d’estimation it´ eratives. Le vecteur de param` etres Ψ = (π
1, ..., π
3, µ
1, ..., µ
4, Σ
1, ..., Σ
4) est estim´ e ` a l’aide de l’algorithme EM.
Pour trouver l’estimateur des matrices de variance Σ
k, il faut maximiser l’esp´ erance de la log-vraisemblance des donn´ ees compl´ et´ ees en Σ
k, ce qui revient ` a minimiser F en D, D
ket Λ
k, o` u F est d´ efinie par :
F =
2
X
k=1
tr(D
0W
kDΛ
−1k) +
4
X
k=3
tr(D
k0W
kD
kΛ
−1k) +
4
X
k=1
n
klog {det(Λ
k)} ,
o` u W
k= P
ni=1
τ
ik(x
i− x ¯
k)(x
i− x ¯
k)
0.
On remarque que seul Λ
kest pr´ esent dans les 3 termes de F. Pour D et D
k, minimiser F revient simplement ` a minimiser le terme o` u ils apparaissent. L’estimateur de D
kpour k = 3, 4 est le mˆ eme que celui propos´ e par Celeux et Govaert [10] pour des composants d’orientations diff´ erentes, c’est-` a-dire ˆ D
kest la matrice des vecteurs propres de W
k. Proposition 1 Soit W
k= P
ni=1
τ
ik(x
i−¯ x
k)(x
i−¯ x
k)
0est une matrice de la forme
w
1kw
2kw
2kw
4k. L’estimateur du maximum de vraisemblance de la matrice d’orientation D identique pour les deux premiers composants est de la forme
p d ˆ − p 1 − d ˆ p 1 − d ˆ p
d ˆ
!
, o` u d ˆ est un r´ eel positif d´ efini par :
d ˆ =
1 2
+
P2
k=1(w1k−w4k) 2
n
√
(P2
k=1(w1k−w4k))2+4(P2
k=1(w2k))2
o
si P
2k=1
(w
1k− w
4k) > 0
1 2
−
P2
k=1(w1k−w4k) 2n
√
(P2
k=1(w1k−w4k))2+4(P2
k=1(w2k))2o
sinon. (2)
Id´ ee de la preuve 1 Minimiser F en D revient ` a minimiser f(D) = P
2k=1
tr(DΛ
−1kD
0W
k).
On peut r´ e´ ecrire f (D) sous la forme suivante : f (D) =
2
X
k=1
d
01W
kd
1u
1k+ d
02W
kd
2u
2,
o` u d
01est le premier vecteur de la matrice D et d
02le second.
Puisque D est une matrice orthogonale et norm´ ee, elle est de la forme √
d − √ 1 − d
√ 1 − d √ d
. En d´ eveloppant f (D) et en d´ erivant par rapport ` a d, on obtient un pˆ olynome de degr´ e 4 en d qui se r´ esout facilement. On remarque alors que D ne d´ epend plus de Λ. Ce r´ esultat analytique n’est valable qu’en dimension 2.
Proposition 2 Soit B
kla matrice d´ efinie par B
k= D
k0W
kD
kde la forme
b
1kb
3kb
4kb
2k. L’estimateur du maximum de vraisemblance de Λ
kest de la forme
u ˆ
1k0 0 u ˆ
2, o` u u ˆ
1k= b
1k/n
kˆ
u
2= P
4k=1
b
2k/n (3)
Id´ ee de la preuve 2 En d´ eveloppant la trace et le d´ eterminant, on peut r´ e´ ecrire F sous la forme :
F =
4
X
k=1
(b
1ku
−11k+ b
2ku
−12) +
4
X
k=1