• Aucun résultat trouvé

Sélection de variables pour la classification par mélanges gaussiens pour prédire la fonction des gènes orphelins

N/A
N/A
Protected

Academic year: 2021

Partager "Sélection de variables pour la classification par mélanges gaussiens pour prédire la fonction des gènes orphelins"

Copied!
13
0
0

Texte intégral

(1)

HAL Id: hal-01197529

https://hal.archives-ouvertes.fr/hal-01197529

Submitted on 31 May 2020

HAL

is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire

HAL, est

destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Sélection de variables pour la classification par mélanges gaussiens pour prédire la fonction des gènes orphelins

Cathy Maugis, Marie-Laure Martin-Magniette, Jean-Philippe Tamby, Jean-Pierre Renou, Alain Lecharny, Sebastien Aubourg, Gilles Celeux

To cite this version:

Cathy Maugis, Marie-Laure Martin-Magniette, Jean-Philippe Tamby, Jean-Pierre Renou, Alain

Lecharny, et al.. Sélection de variables pour la classification par mélanges gaussiens pour prédire

la fonction des gènes orphelins. La revue MODULAD, Modulad, 2009, pp.69-80. �hal-01197529�

(2)

S´ election de variables pour la classification par m´ elanges gaussiens pour pr´ edire la

fonction des g` enes orphelins

Cathy Maugis

1

, Marie-Laure Martin-Magniette

2,3

, Jean-Philippe Tamby

3

, Jean-Pierre Renou

3

, Alain Lecharny

3

, S´ ebastien Aubourg

3

, Gilles Celeux

4

1

D´ epartement de Math´ ematiques, Universit´ e Paris-Sud 11, Orsay, France E-mail: cathy.maugis@math.u-psud.fr

2

UMR AgroParisTech/INRA MIA 518, Paris, France E-mail: marie laure.martin@agroparistech.fr

3

URGV UMR INRA 1165, CNRS 8114, UEVE, Evry, France E-mail: aubourg@evry.inra.fr; lecharny@evry.inra.fr; renou@evry.inra.fr;

tamby@versailles.inra.fr

4

INRIA Saclay ˆIle-de-France, France E-mail: gilles.celeux@inria.fr

Abstract

Biologists are interested in predicting the gene functions of sequenced genome organisms according to microarray transcriptome data. The microarray technology development allows one to study the whole genome in different experi- mental conditions. The information abundance may seem to be an advantage for the gene clustering. However, the structure of interest can often be contained in a sub- set of the available variables. The currently available variable selection procedures in model-based clustering assume that the irrelevant clustering variables are all in- dependent or are all linked with the relevant clustering variables. A more versatile variable selection model is proposed, taking into account three possible roles for each variable: The relevant clustering variables, the redundant variables and the inde- pendent variables. A model selection criterion and a variable selection algorithm are derived for this new variable role modelling. The interest of this new modelling for discovering the function of orphan genes is highlighted on a transcriptome dataset for the

Arabidopsis thaliana

plant.

Keywords:

Variable selection, model-based clustering, transcriptome data, orphan genes.

R´esum´e

Les biologistes s’attachent actuellement ` a pr´ edire la fonction des g` enes d’organismes de g´ enome s´ equenc´ e ` a partir de donn´ ees transcriptomes, issues de l’uti- lisation des puces ` a ADN. Le d´ eveloppement de cette technologie permet de tester l’expression de l’ensemble du g´ enome dans de nombreuses conditions exp´ erimentales.

Cette quantit´ e d’information peut alors sembler ˆ etre un atout pour la classification

des g` enes. Pourtant il est courant que seul un sous-ensemble contienne l’informa-

tion pertinente pour la classification. Les proc´ edures de s´ election des variables en

classification non supervis´ ee par m´ elanges gaussiens supposent g´ en´ eralement que les

variables non informatives pour la classification sont soit toutes ind´ ependantes, soit

li´ ees ` a des variables informatives. Nous proposons une nouvelle mod´ elisation du rˆ ole

des variables plus polyvalente : les variables sont soit informatives pour la classifica-

tion, soit redondantes, soit totalement ind´ ependantes. Nous proposons un crit` ere de

s´ election des variables et un algorithme pour cette nouvelle mod´ elisation. L’int´ erˆ et

(3)

de cette nouvelle mod´ elisation pour la pr´ ediction de la fonction des g` enes orphelins est illustr´ ee sur un ensemble de donn´ ees transcriptomes obtenues chez

Arabidopsis thaliana.

Mots cl´es

: S´ election de variables, m´ elanges gaussiens, donn´ ees transcriptomes, g` enes orphelins.

1 Introduction

Malgr´ e l’augmentation du nombre de g´ enomes compl` etement s´ equenc´ es et les progr` es techniques dans les exp´ eriences de g´ enomique, l’annotation fonctionnelle qui consiste ` a d´ eterminer la fonction des g` enes reste difficile pour 15 ` a 40% des g` enes (Gollery et al., 2006). Jusqu’` a pr´ esent, cette limite est vraie pour tous les g´ enomes, des bact´ eries aux mammif` eres. Parmi les six plantes dont le g´ enome est publi´ e (Arabidopsis thaliana, le riz, la mousse Physcomitrella patens, le peuplier, l’algue Ostreococcus tauri et la vigne), l’an- notation du g´ enome d’Arabidopsis a l’avantage de b´ en´ eficier d’efforts importants depuis sa premi` ere version il y a huit ans (AGI, 2000). N´ eanmoins, apr` es sept versions officielles de l’annotation, environ 4000 g` enes d’Arabidopsis sont toujours consid´ er´ es orphelins, c’est-

`

a-dire sans fonction biologique connue ou pr´ edite.

Depuis une dizaine d’ann´ ees, la technologie des puces ` a ADN permet de g´ en´ erer un nombre consid´ erable de donn´ ees sur les transcrits d’un organisme. Le principe est d’avoir sur un support miniaturis´ e tous les g` enes d’un organisme et d’hybrider sur ce support deux

´

echantillons biologiques (les ARN messagers) obtenus dans des conditions exp´ erimentales diff´ erentes. L’analyse diff´ erentielle de ces donn´ ees permet d’identifier les g` enes qui s’ex- priment de mani` ere diff´ erente entre les deux conditions. Avec la vaste utilisation de cette technologie, les donn´ ees du transcriptome constituent la principale source d’information et il est d´ esormais possible de concevoir une approche globale pour d´ eterminer la fonction de ces g` enes orphelins. L’hypoth` ese, propos´ ee pour la premi` ere fois par Eisen et al. (1998), que des g` enes partageant un mˆ eme profil d’expression sont tr` es certainement impliqu´ es dans un mˆ eme processus biologique est g´ en´ eralement admise. Le principe consiste alors ` a utiliser des m´ ethodes de classification non supervis´ ee sur un ensemble de g` enes, compos´ e des g` enes orphelins et de g` enes connus pour ˆ etre impliqu´ es dans un processus d’int´ erˆ et, afin de constituer des groupes de g` enes ayant le mˆ eme profil d’expression sur un ensemble d’exp´ eriences transcriptomes. Ainsi la mise en ´ evidence de groupes de g` enes co-exprim´ es permet d’aider les biologistes et les bioinformaticiens ` a identifier des g` enes co-r´ egul´ es et

`

a proposer une fonction biologique aux g` enes orphelins, en caract´ erisant biologiquement les classes identifi´ ees par la classification non supervis´ ee.

Pour d´ eterminer des classes d’observations d´ ecrites par des variables quantitatives,

nous consid´ erons la classification par m´ elanges gaussiens. On constate un regain de po-

pularit´ e ` a l’´ egard de cette m´ ethode de classification, la flexibilit´ e des m´ elanges gaussiens

permettant de mod´ eliser une large vari´ et´ e de ph´ enom` enes al´ eatoires. Cette attention est

due au fait que ces m´ elanges refl` etent l’id´ ee intuitive que l’ensemble des observations est

compos´ ee de plusieurs sous-populations, chacune mod´ elis´ ee par une densit´ e gaussienne

multidimensionnelle. L’avantage de cette m´ ethode est de fournir un cadre statistique ri-

goureux pour d´ eterminer le nombre de composants du m´ elange et d´ ecrire le rˆ ole des

variables dans le processus de classification. Mais cette m´ ethode peut ˆ etre mise en diffi-

cult´ e lors de l’´ etude de donn´ ees de grande dimension. En effet, il est g´ en´ eralement admis

que plus le nombre de variables pour d´ ecrire les observations est important, plus il est

(4)

ais´ e de faire de la classification non supervis´ ee. Or quand le nombre de variables est tr` es important, la structure d’int´ erˆ et pour la classification peut ˆ etre contenue que dans un sous- ensemble de variables, les autres variables ´ etant inutiles, redondantes voire n´ efastes pour d´ etecter une classification convenable des donn´ ees. Il est donc important de d´ eterminer le rˆ ole des variables vis-` a-vis de la classification et de d´ etecter en particulier les variables informatives. Ce probl` eme de s´ election de variables en classification non supervis´ ee est un sujet r´ ecent motiv´ e par l’utilisation de plus en plus intensive de m´ ethodes de classifica- tion pour l’´ etude de donn´ ees de grande dimension telles que les donn´ ees transcriptomes.

Une revue des trois types d’approches existantes est propos´ ee dans l’article de Maugis et al. (2009a). Dans le cadre de l’´ etude de la fonction des g` enes orphelins, le nombre de donn´ ees transcriptomes augmentant sans cesse, la s´ election des exp´ eriences informatives pour la classification est souhaitable pour regrouper les g` enes qui collaborent dans un mˆ eme processus biologique.

Dans les diff´ erents articles abordant la s´ election de variables dans le cadre de la classi- fication non supervis´ ee par m´ elanges gaussiens, le probl` eme est reformul´ e en un probl` eme de s´ election de mod` eles. Parmi les proc´ edures d´ ej` a propos´ ees, celle de Law et al. (2004) est fond´ ee sur l’hypoth` ese que les variables non informatives pour la classification sont tota- lement ind´ ependantes des variables significatives. Pour rem´ edier cette hypoth` ese restric- tive, Raftery et Dean (2006) proposent une mod´ elisation o` u les variables non informatives sont suppos´ ees li´ ees ` a toutes les variables informatives selon une r´ egression lin´ eaire. Une g´ en´ eralisation de la mod´ elisation de Raftery et Dean est propos´ ee par Maugis et al. (2009a) en permettant que les variables non informatives soient expliqu´ ees par un sous-ensemble des variables informatives selon une r´ egression lin´ eaire. Cette nouvelle mod´ elisation en- globe les cas particuliers envisag´ es par Raftery et Dean (2006) et Law et al. (2004).

Cependant cette mod´ elisation du rˆ ole des variables n’est pas compl` etement g´ en´ erale puis- qu’elle ne permet pas d’avoir simultan´ ement des variables non informatives ind´ ependantes et d’autres d´ ependantes de variables significatives. Nous avons ainsi propos´ e dans Mau- gis et al. (2009b) d’affiner la mod´ elisation pour permettre ` a chaque variable d’ˆ etre soit informative pour la classification, soit redondante ou soit ind´ ependante. Cette nouvelle mod´ elisation permet d’am´ eliorer la classification des donn´ ees et de fournir simultan´ ement une analyse du rˆ ole des variables (voir Maugis et al., 2009b). Dans cet article, nous re- prenons cette mod´ elisation et pr´ esentons son application ` a la pr´ ediction de la fonction de g` enes orphelins.

2 Mod´ elisation du rˆ ole des variables

Nous consid´ erons un n-´ echantillon de loi inconnue y = (y

1

, . . . , y

n

) d´ ecrit par Q variables quantitatives. Notre objectif consiste ` a combiner une proc´ edure de s´ election de variables au processus de classification par m´ elanges gaussiens afin de d´ eterminer des classes d’observations et faciliter leur interpr´ etation. Ce probl` eme est abord´ e comme un probl` eme de s´ election de mod` eles, la mod´ elisation ´ etant ax´ ee sur le rˆ ole des variables vis-

`

a-vis de la classification. Nous commen¸cons par noter S l’ensemble non vide des variables

informatives pour la classification et S

c

son compl´ ementaire, contenant les variables non

informatives. Ce dernier est partitionn´ e en deux sous-ensembles U et W . Les variables

appartenant ` a U , dites redondantes, sont expliqu´ ees par un sous-ensemble R de S ` a

l’aide d’une r´ egression lin´ eaire tandis que les variables dans W , dites ind´ ependantes, sont

(5)

suppos´ ees ind´ ependantes de toutes les variables informatives pour la classification.

Pour une partition de variables (S, R, U, W ), la densit´ e inconnue de l’´ echantillon est alors mod´ elis´ ee par une densit´ e d´ efinie comme le produit des trois termes suivants :

• sur l’ensemble S des variables informatives pour la classification, nous consid´ erons un m´ elange gaussien caract´ eris´ e par son nombre de composants K et sa forme m prin- cipalement fond´ ee sur des contraintes impos´ ees sur les termes de la d´ ecomposition spectrale des matrices de variance (Banfield and Raftery, 1993; Celeux and Govaert, 1995).

• Les variables de l’ensemble U sont expliqu´ ees par les variables de l’ensemble R

`

a l’aide d’une r´ egression lin´ eaire multidimensionnelle. La forme de la matrice de variance de cette derni` ere, not´ ee r, est soit sph´ erique, soit diagonale, soit g´ en´ erale.

• La distribution marginale des donn´ ees d´ ecrites par les variables ind´ ependantes du sous-ensemble W est suppos´ ee gaussienne. La forme de la matrice de variance de la densit´ e gaussienne, not´ ee l, est soit sph´ erique, soit diagonale.

La collection de mod` eles consid´ er´ ee est donc compos´ ee de mod` eles d´ ecrits par le u- plet (K, m, r, l, S, R, U, W ). Cette mod´ elisation, d´ esign´ ee SRUW, permet de consid´ erer une collection plus riche en information que la mod´ elisation SR propos´ ee par Maugis et al.

(2009a). En effet, tout mod` ele de la mod´ elisation SR peut ˆ etre vu comme un mod` ele de SRUW avec U = S

c

et W = ∅. L’identifiabilit´ e de cette nouvelle collection de mod` eles est ´ etablie et ´ enonc´ ee dans Maugis et al. (2009b). Les conditions requises sont simi- laires ` a celles utilis´ ees par Maugis et al. (2009a) pour l’identifiabilit´ e des mod` eles de la mod´ elisation SR.

3 Crit` ere de s´ election de mod` eles

La collection de mod` eles SRUW permet de concevoir le probl` eme de s´ election de variables pour la classification par m´ elanges gaussiens en un probl` eme de s´ election de mod` eles. Id´ ealement les mod` eles en comp´ etition sont compar´ es ` a l’aide de leur log- vraisemblance int´ egr´ ee. En pratique, ces log-vraisemblances int´ egr´ ees ´ etant difficilement calculables elles sont approch´ ees par le crit` ere BIC (Bayesian Information Criterion, Schwarz, 1978) et le meilleur mod` ele de la collection est celui qui maximise le crit` ere BIC

2 × maximum de log-vraisemblance − [degr´ es de libert´ e × ln(n)] .

Ce crit` ere de s´ election de mod` ele BIC peut ˆ etre d´ ecompos´ e comme la somme de trois crit` eres BIC associ´ es respectivement au m´ elange gaussien, ` a la r´ egression lin´ eaire et ` a la distribution gaussienne des donn´ ees d´ ecrites par les variables ind´ ependantes. Les d´ etails sur l’expression de ce crit` ere et l’estimation des param` etres sont d´ ecrits dans Maugis et al.

(2009b). La consistance de ce crit` ere de s´ election de variables est ´ egalement ´ etablie dans Maugis et al. (2008) sous des conditions classiques de r´ egularit´ e.

4 La proc´ edure de s´ election de variables

La taille de la collection de mod` eles consid´ er´ ee est telle qu’une recherche exhaustive

du meilleur mod` ele est impossible. Nous avons donc propos´ e un algorithme, appel´ e Sel-

(6)

varClustIndep (disponible sur http://www.math.u-psud.fr/

maugis), fond´ e sur deux algorithmes backward-stepwise emboˆıt´ es pour d´ eterminer la meilleure partition des va- riables. Lors d’une ´ etape de l’algorithme de s´ election des variables, trois situations peuvent ˆ

etre envisag´ ees pour une variable susceptible d’ˆ etre incluse ou exclue de l’ensemble des variables informatives pour la classification. L’astuce consiste ` a ramener la comparai- son des trois situations en une comparaison de deux situations pour la mod´ elisation SR (voir Maugis et al., 2009b). Ainsi pour chaque mod` ele de m´ elange d´ efini par le couple (K, m), la premi` ere ´ etape de l’algorithme consiste ` a s´ eparer les variables informatives pour la classification des variables non informatives ` a l’aide de l’algorithme SelvarClust associ´ e ` a la mod´ elisation SR (disponible sur http://www.math.u-psud.fr/

maugis).

On obtient ainsi les ensembles S(K, m) et S

c

(K, m). Dans la seconde ´ etape, les va- riables non informatives sont r´ eparties dans les ensembles U (K, m) et W (K, m) : pour chaque variable de S

c

(K, m), le sous-ensemble des variables significatives n´ ecessaires pour l’expliquer est d´ etermin´ e par un algorithme backward stepwise de r´ egression et la va- riable test´ ee est d´ eclar´ ee redondante si le sous-ensemble est non vide et ind´ ependante sinon. Ensuite, l’ensemble des variables informatives R(K, m, r) pour la r´ egression mul- tidimensionnelle des variables redondantes et les formes des matrices de variance du mod` ele de r´ egression et de la gaussienne mod´ elisant les donn´ ees d´ ecrites par les va- riables ind´ ependantes sont d´ etermin´ es. La derni` ere ´ etape consiste alors ` a s´ electionner le mod` ele (K, m, r, l) maximisant notre crit` ere avec la partition de variables associ´ ee (S(K, m), R(K, m, l), U(K, m), W (K, m)).

Il convient de noter que la complexit´ e de l’algorithme SelvarClustIndep est du mˆ eme ordre que celle de l’algorithme associ´ e ` a la mod´ elisation SR, malgr´ e les trois rˆ oles de variables. L’utilisation de cet algorithme dans Maugis et al. (2009b) pour l’´ etude d’un jeu de donn´ ees simul´ ees avec diff´ erents sc´ enarios pour les variables non informatives et les donn´ ees waveforms (Breiman et al., 1984) a permis d’illustrer le comportement de la mod´ elisation SRUW et de la comparer ` a la m´ ethode de s´ election SR. Nous avons pu montrer que la mod´ elisation SRUW permet de construire des classes d’individus plus homog` enes et que la partition des variables en variables informatives, redondantes et ind´ ependantes apportent des informations utiles pour l’interpr´ etation des r´ esultats.

5 Analyse d’un jeu de donn´ ees transcriptomes

L’objectif de cette section est d’illustrer l’utilisation de la mod´ elisation SRUW dans

le cadre de l’´ etude de donn´ ees transcriptomes. Dans cet article, nous consid´ erons des

donn´ ees transcriptomes pour la plante mod` ele Arabidopsis thaliana extraites de la base de

donn´ ees CATdb d´ evelopp´ ee par Gagnot et al. (2008) ` a l’Unit´ e de Recherche en G´ enomique

V´ eg´ etale (URGV). L’avantage de ces donn´ ees est qu’elles sont toutes produites avec la

puce ` a ADN CATMA (Crowe et al., 2003) sur la mˆ eme plateforme transcriptome et avec

le mˆ eme protocole. De plus les analyses statistiques int´ egr´ ees dans CATdb sont men´ ees de

fa¸con identiques pour chaque exp´ erience. Elles consistent ` a ´ eliminer les biais techniques

(normalisation) et ` a d´ eterminer les g` enes significativement diff´ erentiellement exprim´ es

(analyse diff´ erentielle) entre deux conditions. Le lecteur int´ eress´ e peut se r´ ef´ erer ` a l’article

de Gagnot et al. (2008) pour une description d´ etaill´ ee de ces analyses statistiques. Ainsi

d’un point de vue statistique, la variabilit´ e due aux effets techniques est contrˆ ol´ ee et peut

donc ˆ etre consid´ er´ ee comme homog` ene pour toutes les exp´ eriences.

(7)

Le jeu de donn´ ees ´ etudi´ e consiste en 4616 g` enes d’Arabidopsis thaliana, dont 1430 g` enes orphelins (de fonction inconnue), d´ ecrits par Q = 33 exp´ eriences de stress biotiques re- group´ ees en neuf projets. Chaque projet est compos´ e d’un ensemble d’exp´ eriences d´ edi´ ees

`

a une question biologique sp´ ecifique. Chaque g` ene est d´ ecrit par un vecteur y

i

∈ R

Q

dont la ji` eme composante correspond ` a la valeur de la statistique de test du g` ene i dans l’exp´ erience j lors de l’analyse diff´ erentielle. Cette statistique de test est d´ efinie comme une diff´ erence d’expression normalis´ ee. Nous avons men´ e l’´ etude avec un nombre K de com- posants pour le m´ elange variant de 10 ` a 30 et les formes de m´ elange [p

k

LC] (proportions diff´ erentes et matrices variance g´ en´ erales identiques) et [p

k

L

k

C] (proportions diff´ erentes et pour les matrice variance, volumes diff´ erents, orientations et formes identiques). Ce choix restreint seulement ` a deux formes est motiv´ e par des ´ etudes ant´ erieures sur des donn´ ees transcriptomes dont celle propos´ ee dans Maugis et al. (2009a). Il faut noter que l’estimation des param` etres du m´ elange gaussien se fait ` a plusieurs reprises dans chaque

´

etape de l’algorithme. Aussi, il arrive parfois que la proc´ edure n’aboutisse pas pour une forme particuli` ere. Par exemple, la proc´ edure de s´ election de variables a ici parfois ´ echou´ e pour des valeurs de K sous la forme [p

k

L

k

C] bien que les meilleures r´ esultats sont obtenus sous cette forme d’apr` es les valeurs du crit` ere de s´ election pour l’´ etude du jeu de donn´ ees transcriptomes consid´ er´ e. Notre algorithme SelvarClustIndep a finalement s´ electionn´ e un m´ elange gaussien de forme m = [p

k

L

k

C] avec ˆ K = 26 classes, certaines ´ etant communes

`

a la classification en 23 classes obtenue sans s´ election de variables. Les exp´ eriences 22, 23 et 26 sont d´ eclar´ ees redondantes et toutes les autres significatives pour la classification.

Parmi les 26 classes de tailles diff´ erentes (voir Tab. 2), certains sous-groupes de g` enes co- exprim´ es sont mis en ´ evidence. Par exemple, les profils d’expression des g` enes de la classe 19, repr´ esent´ es sur la figure Fig. 1, sont tr` es homog` enes. Cette coh´ erence d’expression des g` enes est particuli` erement visible sur la repr´ esentation des log-ratios en vert, rouge et noire utilis´ ee par les biologistes (voir Fig. 1 ` a droite). Ainsi on peut par exemple voir que ces g` enes, qui ont des statistiques de test fortement positives dans l’exp´ erience 27, sont d´ eclar´ es avoir une diff´ erence d’expression positive (rouge) dans le tableau des log-ratios.

Grˆ ace ` a la classification par m´ elanges gaussiens, on peut mesurer l’ad´ equation d’ap- partenance du g` ene i ` a une classe G

k

par les probabilit´ es conditionnelles d’appartenance P (i ∈ G

k

|y). Le tableau Tab. 1 repr´ esente la r´ epartition des g` enes selon la valeur de

pmax(i) := max

1≤k≤K

P (i ∈ G

k

|y).

On peut alors choisir un seuil c pour distinguer les g` enes dits « sˆ urs » (pmax(i) ≥ c) des g` enes dits «mitig´ es » (pmax(i) < c). Cette quantification par les probabilit´ es condi- tionnelles d’appartenance permet ainsi aux biologistes de mesurer l’homog´ en´ eit´ e et la pertinence d’une classe. Dans le tableau Tab. 2, la distinction des g` enes en « sˆ urs » et

« mitig´ es» pour chaque classe est donn´ ee pour le seuil c = 0.8.

pmax [0.2,0.3[ [0.3,0.4[ [0.4,0.5[ [0.5,0.6[ [0.6,0.7[ [0.7,0.8[ [0.8,0.9[ [0.9,1]

Nombre de g`enes 1 67 189 321 358 453 638 2589

Tab. 1 – R´ epartition des g` enes selon la valeur de pmax.

(8)

Num ´ero de class e 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 2 3 24 25 26 T otal Nom b re d e g `enes 133 113 277 87 78 303 67 221 151 79 329 255 602 214 80 127 45 60 129 165 333 123 15 6 109 264 116 4616 Nom b re d e g `enes

«

sˆurs

»

112 79 221 60 60 20 0 50 140 103 57 219 187 313 158 72 105 37 42 108 120 238 88 98 97 178 85 3227 Nom b re d e g `enes

«

mitig ´es

»

21 34 56 27 18 103 17 81 48 22 110 68 289 56 8 22 8 18 21 45 95 3 5 58 12 86 31 1389 Nom b re d e g `enes orp helin s 34 35 78 24 26 94 14 68 41 25 129 103 192 60 27 35 14 16 8 50 124 26 5 6 36 76 39 1430 T ab. 2 – R ´epa rtitio n des g `enes selon le s 26 cla sses. Fig. 1 – ` A gauc he, repr ´ese n tatio n des profils d’e x pres sio n des g `ene s de la classe 1 9 (les v aria bles redonda n tes so n t repr ´es en t´e es sur fond g ris).

` A

dro ite, la repr ´ese n tatio n des lo g-ratio s utilis ´e e cour ammen t pa r le s biol ogistes : ch aque ligne corr esp ond `a un g `ene et chaq ue colo nne `a une exp ´er ie nce. L a ca se es t ro uge si le g `ene a un log-ra tio p ositif da ns l’exp ´erience concern ´ee (diff ´e re nce d’e x pres sio n p ositiv e, « Up » ), v erte si le log -ra tio est n ´eg atif (diff ´erenc e d’expression n ´e g ativ e, « Do wn » ) et no ire sino n.

(9)

Concernant la s´ election de variables, on peut remarquer que les trois exp´ eriences 22, 23 et 26 d´ eclar´ ees redondantes sont issues d’un mˆ eme projet biologique. Ces exp´ eriences sont r´ egress´ ees selon les variables ˆ R = {1, 5, 8, 13, 24, 25, 27, 28−31, 33}. D’apr` es les param` etres estim´ es de la r´ egression lin´ eaire (voir Tab. 3), ces trois exp´ eriences sont tr` es corr´ el´ ees et sont principalement expliqu´ ees par les exp´ eriences 24, 25 et 27 qui font partie du mˆ eme projet biologique.

Exp 22 Exp 23 Exp 26 constante -0.050997 -0.066629 -0.187973

Exp 1 0.001552 -0.01585 -0.018604 Exp 5 0.040455 0.015224 0.046560 Exp 8 -0.051241 -0.029414 -0.073089 Exp 13 -0.005727 -0.019719 -0.031408 Exp 24 0.916864 0.007923 1.006624 Exp 25 -0.028760 0.806759 0.836472 Exp 27 1.006091 1.000483 0.998316 Exp 28 -0.022752 -0.030231 -0.057648 Exp 29 0.028125 0.047300 0.056751 Exp 30 0.056352 0.070486 0.094796 Exp 31 0.025773 -0.034398 -0.006417 Exp 33 0.044237 -0.010248 -0.016750

Exp 22 Exp 23 Exp 26 Exp 22 1.245884 0.458902 0.960841 Exp 23 0.458902 1.209113 0.978319 Exp 26 0.960841 0.978319 2.060182

Exp 22 Exp 23 Exp 26 Exp 22 1.0000 0.4173 0.6694 Exp 23 0.4173 1.0000 0.6816 Exp 26 0.6694 0.6816 1.000

Tab. 3 – Param` etres estim´ es de la r´ egression : ` a gauche, la matrice des coefficients de r´ egression et ` a droite, la matrice de covariance (en haut) et la matrice de corr´ elation (en bas).

Pour la validation biologique de ces r´ esultats, nous avons recours ` a des donn´ ees issues de la base de donn´ ees FLAGdb

++

(Samson et al., 2004). L’annotation fonctionnelle des prot´ eines cod´ ees par les g` enes d’une mˆ eme classe est un premier ´ el´ ement pour juger de la pertinence de la classification. Cependant, cette annotation fonctionnelle est d´ ependante de la pr´ esence de prot´ eines homologues de fonction connue, elle concerne essentiellement la fonction biochimique des prot´ eines et rarement la fonction physiologique, plus ´ etroitement reli´ ee ` a la transcription des g` enes. Pour ´ evaluer la coh´ erence biologique des classes, nous avons donc ´ etudi´ e la localisation subcellulaire pr´ edite des prot´ eines cod´ ees par les g` enes de chaque classe. En effet, des prot´ eines qui collaborent fonctionnellement auront ten- dance ` a interagir au sein d’un mˆ eme compartiment cellulaire. S’appuyant sur la d´ etection bioinformatique des signaux d’adressage dont la structure et la composition sont bien connues, la figure Fig. 2 pr´ esente la distribution des prot´ eines dans le noyau, le r´ eticulum endoplasmique, les plastes et les mitochondries. De nombreuses classes se diff´ erencient de la tendance g´ en´ erale («R´ ef´ erence» sur le graphique) et affichent des biais de localisation tr` es marqu´ es dans les quatre compartiments : plastes (classes 12, 20 et 23), r´ eticulum en- doplasmique (classes 7 et 16), noyau (classe 19) et mitochondries (classe 3). Ces r´ esultats constituent un bon indicateur de la robustesse biologique des classes obtenues.

Si on s’int´ eresse plus particuli` erement aux g` enes de la classe 19, on remarque que 101

de ces g` enes ont une fonction li´ ee au ph´ enom` ene de traduction et 8 sont des g` enes orphelins

d’apr` es l’annotation fonctionnelle. D’apr` es la figure Fig. 2, une grande partie des prot´ eines

cod´ ees par ces g` enes ont un adressage nucl´ eaire. Ceci permet aux constituants prot´ eiques

des ribosomes d’acc´ eder au nucl´ eole (sous-compartiment du noyau) dans lequel ils vont

s’associer aux ARN ribosomiques. Les ribonucl´ eoprot´ eines obtenues ressortent ensuite

du noyau pour s’assembler et former les ribosomes qui permettent la traduction. Ces

(10)

premiers r´ esultats permettent alors aux biologistes d’´ emettre de nouvelles hypoth` eses sur la fonction des 8 g` enes orphelins qui devront par la suite ˆ etre valid´ ees exp´ erimentalement.

Fig. 2 – R´ epartition dans le r´ eticulum endoplasmique, les mitochondries, les plastes et le noyau des prot´ eines cod´ ees par les g` enes de chaque classe. La colonne « R´ ef´ erence » repr´ esente la r´ epartition de toutes les prot´ eines d’Arabidopsis thaliana.

Parmi les 26 classes obtenues pour la classification des 4616 g` enes, certaines restent inexploitables par les biologistes car elles rassemblent un nombre ´ elev´ e de g` enes dont les profils d’expression sont moins homog` enes. On peut alors envisager d’´ etudier ces classes s´ epar´ ement avec notre proc´ edure de s´ election de variables afin d’en extraire de l’informa- tion. Nous nous sommes ici int´ eress´ es ` a l’´ etude de la classe 11 compos´ ee de 329 g` enes.

L’algorithme SelvarClustIndep a ´ et´ e appliqu´ e avec K variant de 2 ` a 10 et les formes [p

k

LC]

et [p

k

L

k

C]. Les 329 g` enes ont ´ et´ e r´ epartis en 5 classes et la forme s´ electionn´ ee pour le m´ elange gaussien est [p

k

LC]. Les exp´ eriences 1, 5 et 20 sont d´ eclar´ ees significatives pour la classification, les exp´ eriences 9 et 18 sont ind´ ependantes et les autres sont redondantes, r´ egress´ ees selon l’exp´ erience 1. Cette classification permet de mettre en ´ evidence de petites classes, dites sous-classes 1, 2, 4 et 5 compos´ ees de 36, 24, 11 et 10 g` enes respectivement.

On peut tout d’abord noter que puisque les g` enes de la classe initiale 11 ont un compor-

tement caract´ eristique pour les exp´ eriences 25 ` a 33 (voir Fig. 4), ces exp´ eriences ne sont

pas d´ eclar´ ees significatives car elles ne permettent plus de distinguer ces 329 g` enes. On

peut ´ egalement remarquer que les g` enes ont ´ et´ e class´ es selon leur diff´ erence d’expression

dans l’exp´ erience 1 : les g` enes ont une diff´ erence d’expression positive dans les sous-classes

2, 3 et 5 et n´ egatives dans les sous-classes 1 et 4 (voir Fig. 3). On observe aussi que les

g` enes des sous-classes 2 et 4 ont des profils caract´ eristiques int´ eressants dans l’exp´ erience

20. Enfin, les exp´ eriences 9 et 18 d´ eclar´ ees ind´ ependantes sont les exp´ eriences qui sont

les moins corr´ el´ ees aux exp´ eriences significatives. Le nombre de variables ind´ ependantes

reste faible, soulignant ainsi les relations complexes entre les donn´ ees transcriptomes.

(11)

Fig. 3 – R epr ´e sen ta tio n des profils d’expression des g `e nes de la classe 11 dans la so us- cla sse 1 (en haut , `a g auc he), la sous-c la ss e 2 (en haut, `a dro ite), la so us -classe 4 (en bas, `a ga uc he ) et la sous-c la ss e 5 (en ba s, `a dr oite).

(12)

Fig. 4 – Repr´ esentation des profils d’expression des 329 g` enes de la classe 11.

6 Discussion

La m´ ethode de s´ election de variables pour la classification que nous avons illustr´ e sur des donn´ ees g´ enomiques tire un parti optimal du mod` ele de m´ elange gaussien. Elle propose ainsi une typologie du rˆ ole des variables qui permet souvent d’am´ eliorer la pertinence de la classification et vient enrichir syst´ ematiquement son interpr´ etation. Elle renforce ainsi l’int´ erˆ et de ce mod` ele de m´ elange pour la classification qui permettait d´ ej` a de s´ electionner avec des crit` eres objectifs un nombre de classes et une forme de classification bien fond´ es (voir par exemple l’article de Biernacki dans ce num´ ero de la Revue Modulad).

L’application d´ ecrite ici montre que cette m´ ethode de s´ election de variables en classi- fication constitue un outil int´ eressant pour ´ emettre des hypoth` eses pr´ ecises sur le rˆ ole des g` enes et leurs relations.

Le logiciel SelvarClustIndep programm´ e en C

++

est disponible sur la page web de Cathy Maugis (http://www.math.u-psud.fr/

maugis). Il a ´ et´ e adapt´ e ` a l’URGV pour la prise en compte des donn´ ees g´ enomiques et permettre les descriptions apparaissant par exemple dans la figure Fig. 1. Il sera ` a terme disponible dans le logiciel mixmod pr´ esent´ e par F. Langrognet dans ce num´ ero de la Revue Modulad.

R´ ef´ erences

AGI : Arabidopsis Genome Initiative (2000). Analysis of the genome sequence of the flowering plant Arabidopsis thaliana. Nature, 408 :796–815.

Banfield, J. D. and Raftery, A. E. (1993). Model-based Gaussian and non-Gaussian clustering. Biometrics, 49(3) :803–821.

Breiman, L., Friedman, J. H., Olshen, R. A., and Stone, C. J. (1984). Classification and

Regression Trees. Wadsworth International, Belmont, California.

(13)

Celeux, G. and Govaert, G. (1995). Gaussian parsimonious clustering models. Pattern Recognition, 28(5) :781–793.

Crowe, M. L., Serizet, C., Thareau, V., Aubourg, S., Rouze, P., Hilson, P., Beynon, J., Weisbeek, P., van Hummelen, P., Reymond, P., Paz-Ares, J., Nietfeld, W., and Trick, M. (2003). CATMA : a Complete Arabidopsis GST database. Nucleic Acids Research, 31(1) :156–158.

Eisen, M. B., Spellman, P. T., Brown, P. O., and Botstein, D. (1998). Cluster analysis and display of genome-wide expression patterns. PNAS, 95(25) :14863–14868.

Gagnot, S., Tamby, J.-P., Martin-Magniette, M.-L., Bitton, F., Taconnat, L., Balzergue, S., Aubourg, S., Renou, J.-P., Lecharny, A., and Brunaud, V. (2008). CATdb : a public access to Arabidopsis transcriptome data from the URGV-CATMA platform. Nucleic Acids Research, 36(Database Issues) :986–990.

Gollery, M., Harper, J., Cushman, J., Mittler, T., Girke, T., Zhu, J., Bailey-Serres, J., and Mittler, R. (2006). What makes species unique ? the contribution of proteins with obscure features. Genome Biology, 7 :757.

Law, M. H., Figueiredo, M. A. T., and Jain, A. K. (2004). Simultaneous feature selection and clustering using mixture models. IEEE Transactions on Pattern Analysis and Machine Intelligence, 26(9) :1154–1166.

Maugis, C., Celeux, G., and Martin-Magniette, M.-L. (2008). Variable selection in model- based clustering : A general variable role modelling. Technical Report RR-6744, INRIA.

Maugis, C., Celeux, G., and Martin-Magniette, M.-L. (2009a). Variable Selection for Clustering with Gaussian Mixture Models. Biometrics. To appear.

Maugis, C., Celeux, G., and Martin-Magniette, M.-L. (2009b). Variable selection in model- based clustering : A general variable role modeling. Computational Statistics and Data Analysis. To appear.

Raftery, A. E. and Dean, N. (2006). Variable Selection for Model-Based Clustering.

Journal of the American Statistical Association, 101(473) :168–178.

Samson, F., Brunaud, V., Duchene, S., De Oliveira, Y., Caboche, M., Lecharny, A., and Aubourg, S. (2004). FLAGdb++ : a database for the functional analysis of the Arabi- dopsis genome. Nucleic Acids Research, 32 :347–350.

Schwarz, G. (1978). Estimating the dimension of a model. The Annals of Statistics,

6(2) :461–464.

Références

Documents relatifs

[r]

Membre, entre autres, de l'Union rationaliste, de I APIS, de La Libre pensée des Brights, Guillaume Lecomtre « le citoyen, pas le savant » - est en premiere ligne face au «

Le projet de « protocoles pour la rédaction des certificats dans le cadre des soins sans consentement » a été inscrit au programme pluriannuel de la HAS

Dans le cadre de l’´ etude de la fonction des g` enes orphelins, le nombre de donn´ ees transcriptomes augmentant sans cesse, la s´ election des exp´ eriences informatives pour

•  en rendant compte, dans le rapport annuel de la Fonction publique, des différentes actions entreprises dans le cadre de la présente charte en matière de

Etudier la dérivabilité de f à droite en et interpréter graphiquement le résultat obtenu.. Etudier les variations

Ce travail porte sur l’´etude statistique de l’activit´e li´ee `a la fonction de s´elec- tion dans l’algorithme d’approximation de polynˆomes connu sous le nom de

Dans les années 90, la visite de domaines qui pratiquent le désherbage mécanique sous le rang interpellent le père et l’oncle de Thomas.. Ils s’interrogent sur l’impact de