Classification de profils d'expression de gènes: application à l'étude de la régulation du cycle cellulaire chez les eucaryotes.

(1)

HAL Id: tel-00516398

https://tel.archives-ouvertes.fr/tel-00516398v2

Submitted on 13 Sep 2010

HAL is a multi-disciplinary open access

archive for the deposit and dissemination of

sci-entific research documents, whether they are

pub-lished or not. The documents may come from

teaching and research institutions in France or

abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est

destinée au dépôt et à la diffusion de documents

scientifiques de niveau recherche, publiés ou non,

émanant des établissements d’enseignement et de

recherche français ou étrangers, des laboratoires

publics ou privés.

Classification de profils d’expression de gènes:

application à l’étude de la régulation du cycle cellulaire

chez les eucaryotes.

Alpha Diallo

To cite this version:

Alpha Diallo. Classification de profils d’expression de gènes: application à l’étude de la régulation

du cycle cellulaire chez les eucaryotes.. Sciences du Vivant [q-bio]. Université de Grenoble, 2010.

Français. �tel-00516398v2�

(2)

Ecole Doctorale Ing´

enierie pour la Sant´

e, la Cognition et l’Environnement (EDISCE)

Classification de profils d’expression de g`

enes :

application `

a l’´

etude de la r´

egulation du cycle cellulaire chez les eucaryotes.

TH`

ESE

pr´esent´ee et soutenue publiquement le 03 Juin 2010

pour l’obtention du

Doctorat de l’Universit´

e de Grenoble

Sp´

ecialit´

e mod`

eles, m´

ethodes et algorithmes en biologie, sant´

e et environnement

par

Alpha DIALLO

Directeur de th`ese : Fran¸coise GIROUD

Co-directeur de th`ese : Ahlame DOUZAL-CHOUAKRIA

Composition du jury

Jean-Francois BOULICAUT

Pr´esident

G´erard GOVAERT

Rapporteur

Mohamed NADIF

Rapporteur

Fran¸coise GIROUD

Examinateur

Ahlame DOUZAL-CHOUAKRIA

Examinateur

(3)

(4)

L'ensemble des travaux présentés dans e rapport de thèse a été ee tué au

LaboratoireTIMC-IMAG,auseindeséquipesTIMB(Traitementde

l'Informa-tion et Modélisationen Bio-méde ine) etRFMQ (Re onnaissan e des Formes

et de Mi ros opie Quantitative).

Je tiens tout parti ulièrement àremer ier mes deux dire tri es de thèse,

Mes-dame Ahlame DOUZAL et Françoise GIROUD pour leur gentillesse et leur

disponibilité. Elles n'ont ménagé au un eort pour la réussite de ette thèse.

Je n'auraisjamaispu me lan ersans elles dans l'aventure qu'a onstitué ette

thèse.

J'exprime ma profonde gratitude à Madame Ahlame DOUZAL, en sa

qua-lalité de dire tri e de thèse, qui m'a guidé vers une plus grande maturité et

une meilleure vision de la re her he, pour sa patien e et son en ouragement

onstant. Son investissement aété sans limite. Elleatoujours été làmême les

jours de plus grand doute.

Je tiens à fairepart également de magrande re onnaissan e à l'égardde

Ma-dame Françoise GIROUD qui m'a guidé dans le monde de la biologie. Ses

analyses, ses remarques pertinentes etses nombreuses rele turesm'ontpermis

d'améliorer e rapport.

J'adresse mes sin ères remer iements à Monsieur Gerard GOVAERT,

Pro-fesseur à l'Université de Te hnologie de Compiègne et à Monsieur Mohamed

NADIF,Professeuràl'UniversitéParisDes artes,pour l'intêretqu'ilsontbien

voulu porter à e travailen a eptant d'en être lesrapporteurs.

Je remer ie également Monsieur Jean-François BOULICAUT, Professeur à

l'INSA Lyond'avoira epté de parti iper aujury de thèse.

Je remer ie aussi tous les membres des équipes RFMQ et TIMB ainsi que

du laboratoire TIMC-IMAG pour m'avoir aussi bien a ueilli. Je tiens aussi

à remer ier mon ollègue Cédri FRAMBOURG pour les dis ussions

s ienti-ques quim'ont é lairésur ertainsaspe ts.

J'exprime ma re onnaissan e à mes parents, mes frères et s÷urs pour leur

(5)

(6)

à ma mère.

(7)

(8)

Introdu tion générale ix

Table des gures xiii

Liste des tableaux xvii

Chapitre 1 Eléments de biologie et

pu es à ADN 1

1.1 La ellule . . . 1

1.2 Le y le ellulaire . . . 3

1.3 Le trans riptome . . . 5

1.4 Les pu esà ADN pour l'étude du trans riptome . . . 6

1.4.1 Les sondes . . . 7

1.4.2 Les ibles etl'hybridation . . . 7

1.4.3 A quisitiondes données . . . 7

1.4.4 Normalisationdes données etpré-traitement . . . 8

1.5 Analyse des données du trans riptome . . . 12

Chapitre 2 Classi ation des prols temporels d'expression de gènes : état de l'art 15 2.1 Prols temporelsd'expression de gènes . . . 16

2.2 Te hniques de lassi ationnon-paramétrique . . . 18

2.2.1 Classi ation hiérar hique . . . 18

2.2.2 Partitionnement par K-means . . . 19

2.2.3 Classi ation par lesréseaux de Kohonen(SOM) . . . . 20

2.2.4 Classi ation selon lathéorie des graphes . . . 21

(9)

2.3 Te hniques de lassi ationparamétrique . . . 25

2.3.1 Classi ation par mélangede modèlesgaussiens . . . 25

2.3.2 Classi ation par modélisationdes prols temporels . . . 26

2.4 Con lusion . . . 29

Chapitre 3 Mesures de proximité entre des séries temporelles 31 3.1 Cara téristiques et prétraitements des séries temporelles . . . . 32

3.1.1 Régularitédes séries temporelles. . . 32

3.1.2 Séries temporellesde longueurs diérentes . . . 32

3.1.3 Dé alage temporel . . . 33

3.2 Mesures de proximités entre des séries temporelles . . . 33

3.2.1 Notations pour une formalisationuniée . . . 34

3.2.2 Mesures de proximité fondées sur lesvaleurs . . . 34

3.2.3 Mesures de proximité fondées sur laforme . . . 37

3.2.4 Proximitéentre formes : appro hes on urrentes . . . 40

3.2.5 Mesures de proximité alliant formeetvaleurs. . . 44

3.3 Cara téristiques des prols d'expression de gènes au ours du y le ellulaire . . . 46

3.4 Mesures de proximitéentre des prols d'expression de gènes . . 47

3.5 Con lusion . . . 49

Chapitre 4 Analyse des gènes au ours du y le ellulaire 51 4.1 Intêret de l'étudedu y le ellulaire . . . 51

4.2 Appro he onventionnelle . . . 54

4.2.1 Classement des gènes y liques . . . 54

4.2.2 Re her he de prols types . . . 55

4.3 Appro he adaptative . . . 55

4.4 Appli ations etanalyses omparatives . . . 56

4.4.1 Modèle aléatoirepour la omparaisonde métriques . . . 57

4.4.2 Gènes périodiquement exprimés dans les ellules bro-blastiques humainesHeLa [106℄ . . . 65

4.4.3 Gènespériodiquementexprimésdansles ellulesdu an- er du sein MCF-7 [63℄ . . . 77

(10)

Bibliographie 87

(11)

(12)

Ave le développement rapide de la te hnologie des pu es à ADN depuis

quelques années, il est aujourd'hui possible d'étudier simultanément

l'expres-siondeplusieursmilliersdegènes.Lesdonnéesd'expressionprovenantde ette

nouvellete hnologiesontobservées sous diérentes onditionsexpérimentales.

Nous distinguons prin ipalementdeux typesde données d'expression. Le

pre-mier type de données porte sur l'expression d'un ensemble de gènes observés

au travers d'un ensemble de onditions expérimentales. Ces onditions

pou-vant, par exemple, dénir diérents types de ellules, diérents tissus (sains

vs an éreux). Le se ondtype de données on erne l'évolution de l'expression

des gènes au ours de pro essus biologiques, e sont des données temporelles

d'expression de gènes. Ces données sont généralement analysées pour des

di-re tions diérentes. Certaines données d'expression de gènes sont spé iques

au an er. Elles peuvent être utilisées pour inférer les gènes liés au an er,

an d'identier diérents types de an ers sur la base de es gènes (Liu[61℄).

D'autres données d'expression sont utilisées pour prédire les gènes impliqués

dans ertaines voies de signalisation ellulaire (Novak et Jain [72℄). D'autres

en ore sont des données d'expression de gènes du y le ellulaire, elles sont

utiliséespour déte ter lesgènesimpliquésdans lespro essus de régulationdes

diérentes étapes du y le ellulaire(Cho et al.[16℄, Spellman etal.[94℄).

La grande quantité de gènes observés, ombinée à la omplexité des réseaux

biologiques posent un vrai hallenge pour la ompréhension et

l'interpréta-tion des masses de résultats obtenus. Une étape préalable à l'exploitationdes

données produitespar uneexpérien edepu esàADNest l'utilisationde

te h-niques de lassi ation.Ellespermettent notammentde prédire lafon tionde

ertains gènes oud'extrairedes prols types d'expression de gènes.

Des données d'expression de gènes, obtenues à partir de onditions

physio-logiques réalisées indépendamment, ont été étudiées par Hughes et al. [43℄.

Ces auteurs ont analysé des prols d'expression du génome de la levure

Sa - haromy es ereviseadans

300

onditionsdiérentes.Leurstravauxontpermis

de regrouper les gènes de la levure en lasses fon tionnelles et en parti ulier

d'identierdenouvellesprotéinesjouantun rledanslamito hondrie.Lorsque

les onditions expérimentales ne sont plus indépendantes dans le sens oùelles

(13)

division ellulaire),onadesdonnéesdeprolstemporelsd'expressiondegènes.

Parhypothèse,lesgènesde prolstemporelssimilairessontimpliquésdansles

mêmes pro essus biologiques.Ainsi,la lassi ationnon supervisée des prols

d'expression de gènes pourrait permettre, entre autres, d'identier la

fon -tion de nouveaux gènes sur labasedes fon tions déjàidentiées pour d'autres

gènes. Les mesures de proximité lassiques, telles que la distan e eu lidienne,

la distan e de Manhattan ou elle fondée sur le oe ient de orrélation de

Pearson, souvent utilisées dans le ontexte des prols temporels d'expression

de gènes,ne semblentpas appropriées puisque leur utilisationsuppose que les

données observées pour haque gènesont indépendantes entre elles.Le

prin i-pal hallenge pour l'évaluationde laproximitéentre prols temporels de gène

est alors l'intégration de l'informationde dépendan e temporelle. Ande

pal-lier e problèmenousnousintéresseronsdon audéveloppementde mesuresde

proximitéentre prols temporels d'expression de gènes etdémontrons leur

ef- a itéparrapportauxméthodesplus onventionnelles.Ce travailsera réalisé

dans le adre de l'analyse, la lassi ation et l'interprétation de prols

d'ex-pressions de gènesdurantle pro essus de division ellulaire,etsera développé

en

4

grandes parties.

Dans le hapitre

1

, nous saisissons quelques notions et vo abulaires utiles,

sur labiologiemolé ulaire,ande mieuxaborderlasuitedenotreétude.Nous

présentonslesdiérentesétapespermettantd'obtenirdesdonnéesd'expression

de gènespar lesexpérien es des pu es àADN. Ces données sont toujourstrès

bruitées, et pas assez ables en raison de nombreux fa teurs qui ae tent les

expérien es. Unenormalisation des données est don né essaire.Nous

présen-tons les méthodes de normalisationles plus ré entes et les plus utilisées dans

e domaine.

Le hapitre

2

dresse un état de l'art des te hniques de lassi ation les plus

utilisées pour l'analyse des données du trans riptome. L'apprentissage non

supervisé est la méthode la plus populaire a tuellement utilisée dans la

pre-mière étape d'analyse des expressions de gènes. De nombreuses te hniques de

lassi ation non supervisée sont utilisées. D'une part, nous distinguons les

te hniques de lassi ation non-paramétriques, basées essentiellement sur des

mesures de proximité entre paires de gènes. Les algorithmes de lassi ation

hiérar hique, de partitionnement et eux portant sur la théorie des graphes

sont employés. D'autres part, au ours de es dernières années, nous assistons

à l'utilisationde plus en plus fréquente des te hniques de lassi ation

para-métriques, modélisant lesprols temporels d'expression de gènes (Bar-Joseph

etal.[5℄, Wuetal.[108℄, Gar ias-Frias[116℄).L'undes prin ipauxmoteursde

ette appro he est l'hypothèse que lesprols temporels d'expression de gènes

sont générés par des modèles dependant du temps. Ces méthodes tentent de

quantier ette hypothèse.

(14)

utable : soit elles ne mesurent pas la proximité en formes entre deux prols

d'expression de gènes donnés (distan e eu lidienne), soit elles peuvent mal

évaluer la proximité en forme ( oe ient de orrélation de Pearson). Tenant

ompte de la stru ture temporelle des données d'expression, nous avons

étu-dié dans le troisième hapitre trois famillesde mesures de proximité. La

pre-mière famille dénit des mesures limitées à la omparaison des valeurs des

expressions en ignorant la ontrainte de dépendan e temporelle des données.

La se onde famillese limite à la omparaisondes formes des prols de gènes.

Bien que l'analyse des données d'expression de gènes s'intéresse

prin ipale-ment à la forme des prols de gènes, il nous semble intéressant de onsidérer

simultanément les informations portant sur les é arts en valeurs et en forme

des prols. Dans e ontexte, nous proposons et développons une troisième

famille de mesures ouvrant simultanément les aspe ts formes et valeurs des

prols temporels d'expression de gènes. Ces mesures dépendent d'un fa teur

dénissant les ontributions relatives des omposantes valeurs et forme. Une

formalisationuniée de es mesures est proposée.

L'identi ation et la ara térisation des gènes impliqués dans les phases du

y le ellulaire sont souvent ee tuées par des appro hes lassiques. Ces

ap-pro hes, souvent supervisées, onsidèrent un ensemble de gènes de référen e

onnusquisontsupposés ara téristiquesdesphasesoutransitionsdephasedu

y le ellulaire onsidérées,etutilisentdesmesuresde proximiténonjustiées.

Au hapitre

4

,nousdévelopponsune appro he de lassi ationnon-supervisée

adaptativedont le but est d'apprendre la mesure de proximitéà utiliser pour

lesprols temporels d'expression de gènes,et de proposerun nouvel ensemble

degènesderéféren e validébiologiquement.Nous ompareronsnotreappro he

adaptativeave d'autres appro hes lassiques sur un jeu de données simulées

(15)

(16)

1.1 Congurations plane etspatiale de la stru ture de l'ADN. . . . 3

1.2 Pro essus de la division ellulaire . . . 4

1.3 Dogme entral de la biologie molé ulaire (Sour e site ISIMA,

auteur Vin ent Barra). . . 6

1.4 Les étapes de fabri ationd'une pu e à ADN (Sour e site ENS,

auteur Philippe Mar ). . . 8

1.5 Unepu e onstituée de

16

blo s (

4 × 4

) illustrantl'image de la

totalitédu trans riptomede lalevure (

6300

gènes)(Soularue et

Gidrol [92℄). . . 9

1.6 Nuage de points pour une pu e àADN avant etaprès

transfor-mationlog.Sur ettegure,onpeut voir,àgau hesans au une

transformation, que les ee tifs sont plus importants vers les

faibles intensités tandis qu'à droite ave un passage au

loga-rithme àbase

2

, lesintensités sont distribuées de façon uniforme. 10

1.7 Nuage M vs A pour une pu e àADN. . . 11

1.8 Normalisation par

Lowess

. À gau he, le nuage M vs A avant

normalisation.Enrouge est représentée la ourbede régression

Lowess

épousant l'allure du nuage. À droite, le nuage M vs A

après normalisation,la ourbe de régression est une droite. . . . 12

2.1 Exemple de prol temporel d'expression de gène. Chaque pu e

orrespondàuninstantd'é hantillonnage.Lesniveaux

d'expres-sion mesurés sur ha une des pu es sont ins rits sur lamatri e

d'expression de telle sorte que haque olonne représente une

pu e. . . 17

2.2 Classi ation par la méthode hiérar hique as endante de

don-nées temporelles (d'après Eisen et al. [26℄). Chaque gène est

représentéparune seule olonnede ouleurset haque instant

t

paruneseuleligne.Cinq lassesdistin tes,biologiquement

inté-ressantes, sont indiquées par les inq barres olorées (A,B,C,D

et E) et par la oloration de la région orrespondante du

(17)

2.3 Prin ipe des artes auto-organisatri es. Laposition initialedes

n÷uds (en bleu) est sur une grillere tangulaire

3 × 2

et est

in-diquée parleslignes ontinues ra ordant es n÷uds.Leslignes

pointillées et les è hes représentent les traje toires

hypothé-tiques des n÷uds lorsde leur ajustement par itérations

su es-sives del'algorithmeSOM. Lerésultatnalest omposé des six

n÷uds (en rouge) entourés par les pointsnoirs représentant les

prols d'expression de gènes (Tamayoet al.[97℄). . . 21

3.1 Dé alage temporel des séries

S

1

et

S

2

. . . 33

3.2 Exemple de deux séries temporelles

S

1

et

S

2

(en haut). La

re- her hedu heminoptimalentre lesdeuxsériesparlate hnique

delaDTW(aumilieu).Elle aptureledé alagetemporellelong

de l'axe des temps (en bas). . . 35

3.3 La proximité dénie par une distan e eu lidienne dépend

uni-quement de l'é artentre lesobservations prisesaux mêmes

ins-tants.. . . 36

3.4 Exemples de séries temporelles pro hes en valeurs et de formes

opposées (

S

1

et

S

2

), vs. distantes en valeurs et de formes

simi-laires (

S

1

et

S

3

).. . . 37

3.5 Illustration des limites du oe ient de orrélation de Pearson

fa eauxeets detendan e (a)etfa eauxvaleursextrêmes(b).

Les valeurs enregistrées des oe ients sont signi ativement

élevées

0.74

et

0.73

respe tivement. Alors que les séries sont

quasiment opposées. . . 38

3.6 Deuxséries

S

1

et

S

2

deformesopposées,ave

D

q

(S

1 , S

2 ) = 0.33

,

illutrant lalimite de la distan e de Todorovski.. . . 41

3.7 Àgau he,représentationdetroisséries

S

1

,

S

2

et

S

3

ave

d

ST S

(S

1 , S

3 ) =

6.4

et

d

ST S

(S

1 , S

2 ) = 5.3

. À droite, le passageà une

standardi-sationdesdonnéesdonne

d

ST S

(S

1 , S

2 ) = 8.7

et

d

ST S

(S

1 , S

3 ) = 1.8

. 42

3.8 L'eet du réglageen fon tionde

k

. . . 45

4.1 Prol d'expression du gène y lique CCNE1 ( y line E1)

ob-servésurune périodede

46

heuresaprèssyn hronisation

orres-pondant à trois y les ellulaires. Ce gène s'exprime fortement

pendant la transition

G

1 /S

de l'interphase du y le ellulaire.

Chaque phase de y le est délimitée par les traits verti aux et

annotée par

G

1

,

S

,

G

2

ou

M

. . . 53

4.2 Progressionde l'expression des gènesdurantles

5

phases

G

1 /S

,

(18)

4.3 Prols des gènes de la phase

G

1 /S

suivant les quatre

expé-rien es. Dans la première expérien e (Experiment

1

), les gènes

sontdiéren iésparleuramplitudeinitiale.Cesamplitudes

s'at-ténuent dans la longueur du temps,pour lase onde expérien e

(Experiment

2

). La présen e de tendan e est observée pour les

prolsde latroisièmeexpérien e(Experiment

3

),sans

atténua-tion d'amplitude et ave atténuation d'amplitude pour la

qua-trième expérien e(Experiment 3). . . 59

4.4 Pour haque expérien eetpour haquemesure(

δ

E

,Cor,Cort

et

D

k∗

),laprogressiondesvaleurs

asw

suivantles

10

é hantillons

est représentée. . . 61

δ

E

,Cor,Cort

et

D

k∗

),laprogressiondesvaleurs

wbr

suivantles

10

é hantillons

δ

E

,Cor,Cort

et

D

k∗

),laprogressiondes valeurs

RI

suivantles

10

é hantillons

4.7 Evaluation des mesures pour la lassi ation des prols

d'ex-pression simulés. La progression des valeurs moyennes des

ri-tères

asw

(gau he),

wbr

(droite)et

RI

(en bas) est illustrée. . . 62

δ

E

,Cor,Cort

et

D

k∗

), la progression des taux d'erreur suivant les

10

é han-tillons est représentée. . . 63

4.9 Evaluation des mesures pour le lassement des prols de gènes

suivantlesquatreexpérien es.Laprogressiondesvaleursmoyennes

des taux d'erreur est représentée. . . 64

4.10 La distributiondes valeurs de

k∗

dans la lassement adaptatif . 64

4.11 Prolsdes

20

gènesde référen e (tableau4.4) observéspendant

trois y les ellulaires, haque gène s'exprimantfortement

pen-dantl'unedes périodes du y le ellulaire.La duréede ha une

des quatre phases du y le ellulaire(

G

1

,

S

,

G

2

et

M

) est

déli-mitée par leslignes verti ales. . . 67

4.12 Progression des valeurs du ritère

asw

(gau he) et du ritère

wbr

(droite) des partitions

P

N,k

, N (Number of lusters) varie

de

4

à

10

et

k

varie de

0

à

6

. . . 68

4.13 Progression des ratio

asw

/

wbr

(gau he) en fon tion du nombre

de lasses(variantde

4

à

10

),legraphede lasilhouette asso iée

à lapartition

P

N

∗

=4,k

∗

=5.7

(droite). . . 69

4.14 Les prols d'expression des gènes noyaux au ours des

3

y les

ellulaires: lasse

1

(

S

), lasse

2

(

G

1 /S

), lasse

3

(

G

2 /M

)et lasse

4

(

G

1

). . . 69

4.15 La distributiondes valeurs

sw

des prols simulés, lassiéspar

l'appro he adaptative(gau he) etl'appro he baséesur la

(19)

4.16 La progression des valeurs du ritère

asw

(gau he) et elle du

ritère

wbr

(droite) despartitions

P

N,k

,N(Numberof lusters)

varie de

2

à

15

et

k

varie de

0

à

6

. . . 78

4.17 Le graphede lasilhouette asso iée à lapartion

P

N

∗

=8,k

∗

=6

. . . . 79

4.18 Lesprolsd'expression des gènesnoyauxdes

8

lasses issuesde

notre lassi ation adaptative. Les

10

gènes noyau de haque

lasse sont très similaires en forme entre eux et diérents en

(20)

2.1 Cinqexpérien es diérentespourl'étudedu y le ellulaire hez

la levure.. . . 17

3.1 Quatre séries temporelles illustrantles limites du oe ient de

orrélationdePearsonfa eauxeetsdetendan eetauxvaleurs

extrêmes. . . 38

3.2 Dénitiondelafon tion

Dif f

.Pourdeuxséries

S

1

et

S

2

,l'é art

entreuna roissementetunedé roissan eestégalà

1

,alorsque

l'é art entre un a roissement (ou une dé roissan e) et un état

stable est égal à

0.5

. . . 40

3.3 La des riptionde deux sériesopposées illustrantla limite de la

distan e de Todorovski à mesurer la proximité entre la forme

des séries temporelles. . . 41

3.4 Troisséries temporelles montrant lalimite de la distan e

d

ST S

. . 43

3.5 Contribution de la proximitéen valeurs et en forme à

D

k

,pour

|

Cort

| =1. . . 46

3.6 Les prin ipales mesures de proximité entre des séries

tempo-relles, dans un adre unié.. . . 47

4.1 Exemples d'études ee tuées sur la levure et l'espè e humaine

pour l'identi ationde gènes y liques. . . 53

4.2 Spé i ation des paramètres du modèle. . . 60

4.3 Evaluation de l'e a ité des mesures pour la lassi ation :

haque ouple de valeurs représente la moyenne et la varian e

des dix valeurs de

k∗

trouvées pour les

10

partitions

P

1j

D

k∗

,...,

P

D

10j

k∗

.Evaluationde l'e a itédes mesurespourle lassement:

haque ouple de valeurs représente la moyenne et la varian e

des dixvaleursde

k∗

trouvéespourles

10

lassements

C

1j

D

k

,...,

C

10j

D

k

60

4.4 Les

20

gènes de référen e de Whiteld etal. [106℄. . . 66

4.5 Les ensembles noyaux de lapartition

P

N

∗

=4,k

∗

=5.7

. . . 71

4.6 Ae tationnaledesgènesfrontaliers(

sw ∈

[

−0.05, 0.05

℄)selon

(21)

4.7 Listedes

39

gènes ompilésdepuislalittératureparWhiteldet

al.[106℄.Comparaison des phases publiées(

P ubli − Assi

) ave

elles issues de l'appro he onventionnelle (

W hit − Assi

) etde

la lassi ationadaptative (

Ada − Assi

). . . 73

4.8 Les statistiques d'ae tation des

700

prols simulés basés sur

les lassesnoyaux(sous-tableaugau he) etles lassesréféren es

(sous-tableau droit). Les nombres en gras orrespondent aux

nombres de prols de gènes simulés mal lassiés. . . 76

4.9 La stru ture de voisinagedes

8

lasses de lapartition

P

N

∗

=8,k

∗

=6

. 79

4.10 Classi ation des

50

gènes identiés par Peddada et al.[78℄

se-lon notre appro he adaptative. Cha un de es

50

gènes est

dé- rit par son numéro d'identi ation(

ID

, dans la base de

don-nées UniGeneen datedu

11

février

2002

),son numérode lasse

(

Num − Class

), lenuméro de sa lasse voisine (

Num − V ois

),

sasilhouette width(

sw

)obtenue par laméthode adaptative,et

son ae tation par rapport l'appro he de Peddada et al. [78℄

(22)

Eléments de biologie et pu es à ADN Sommaire 1.1 La ellule . . . 1 1.2 Le y le ellulaire . . . 3 1.3 Le trans riptome . . . 5

1.4 Les pu es à ADN pour l'étude du trans riptome. 6

1.4.1 Lessondes . . . 7

1.4.2 Les ibles et l'hybridation . . . 7

1.4.3 A quisition desdonnées . . . 7

1.4.4 Normalisationdes donnéeset pré-traitement . . . 8

1.5 Analyse des données du trans riptome. . . 12

Les méthodes d'analyse du trans riptome les plus utilisées reposent sur la

te hnologiedespu esàADN.Ce hapitrenouspermetd'appréhenderquelques

notions sur la biologie molé ulaire et de dégager les prin ipes de fabri ation

d'une pu e à ADN. L'idée n'est pas de faireun ours sur lesdeux sujets mais

simplement de fournir les éléments de base pour une bonne ompréhension

de ette te hnologie. Nous allons, dans une première étape, donner quelques

notions de la biologie molé ulaire utiles dans e domaine. Ensuite dans un

se ond temps nous abordons les diérentes étapes permettant d'obtenir des

données d'expression de gènes par les expérien es des pu es àADN .

1.1 La ellule

Laplus petite unité stru turaleetfon tionnelle de tous lesêtresvivantsest la

(23)

taille, leur forme, leur fon tion, leur omportement, et leur asso iation. Chez

lesorganismes lesplus simplesquesontlespro aryotes (uni ellulaires),le

ma-térielgénétiquen'estpas ompartimentédansunnoyauvraimaisestlibredans

le ytoplasme, 'est le as des ba téries. Par ontre, pour les organismes plus

omplexes, leseu aryotes (uni ou pluri ellulaires),l'informationgénétique est

lo aliséedansun noyau. À ladiéren edes pro aryotes généralement pauvres

en organites, les eu aryotes omprennent diérents ompartiments

fon tion-nels, membraneux (organites) ou dépourvus de membrane. L'Homme, les

in-se tes, lesplantes sont des organismes eu aryotes. On trouve environ

6 × 10

23

ellulesdansunhumain,de

320

typesdiérents(épidermique,mus ulaire,

ner-veuse...). La plupart de es ellules sont apables de grossir et de se diviser.

Ellesont un métabolisme, 'est à dire qu'ellesimportentdes nutriments etles

onvertissentenmolé ulesutilesetenénergie.Ellespeuventaussiréagiràleur

environnement.

Il existe deux types fondementalement diérents de molé ules dans la

el-lule : de petites molé ules et des ma romolé ules, qui tiennent des rles

essentiellementdiérents.Lespetitesmolé ules,parexemplelesa idesaminés

etlesnu léotides,servent surtoutde substrats pour onstruire les

ma romolé- ules, et la ellule veille às'approvisionner en toutesles espè es requises pour

les synthèses des ma romolé ules. On regroupe les ma romolé ules en quatre

grandes familles: leslipides,les glu ides,lesprotéines et lesa idesnu léiques

(ADN et ARN). Les prin ipales ara téristiques et fon tions des protéines et

des a idesnu léiquessont dé rites i-dessous.

L'a ide désoxyribonu léique ouADN est une molé uleprésente dans lenoyau

de la ellule. Il joue un rle entral dans la vie ellulaire. En eet, il est à la

foisdétenteur del'informationgénétiquequipermetà la ellule desynthétiser

ontinuellement ses protéines (par l'en haînement séquentieldes pro essus de

trans ription,synthèse des ARN, etde tradu tion, synthèse des protéines), et

il assure latransmission du message génétiqueau ours des générations

ellu-laires(parlepro essusdelarépli ation).Cettema romolé uleaunestru ture

doublehéli e(WatsonetCri k) onstituéededeux brinsanti-parallèles(gure

1.1).Unbrinsimpledel'ADN(aussiappelépolynu léotide)estunpolymère

li-néaire omposédequatrenu léotides.Unnu léotide omprendl'unedesquatre

bases : adénosine (

A

), ytosine (

C

), guanine(

G

) ou thymine (

T

), un

désoxy-ribose et un groupementphosphate. Les ouples

A − T

et

G − C

sontappelés

paires de bases omplémentaires,de e fait lesdeux brins anti-parallèles vont

s'asso ierpar omplémentaritédesbases.Cette omplémentaritédes basesest

respe tée lors de la répli ation, haque brin de lamolé ule d'ADN servant de

matri epour lasynthèse dubrin omplémentaireaprès ouverturede ladouble

héli e. Ellepermet également la réparation d'erreurs, don laprote tion

d'in-formation liéeà une lésion de l'ADN;et àdeux brins de se retrouver etde se

(24)

Fig. 1.1 Congurations plane etspatiale de la stru ture de l'ADN.

Lesa idesribonu léiquesouARNsontdes opiesd'unerégiondel'undesbrins

de l'ADN. Le su re de l'ADN (désoxyribose) est rempla é par un autre su re

(ribose)dansl'ARNetlathymine(T)del'ADNest rempla éeparl'ura ile(U)

dans l'ARN. L'ARN a de multiples fon tions ellulaires, les ARN ribosomaux

(ARNr), de transfert (ARNt), messagers (ARNm) et de petits ARN tels les

small nu lear ribosomes (snARN).

Lesproteines, prin ipalesma romolé ulesde la ellule,sont omposéespar un

ouplusieurs a idesaminés.Ellessontex lusivementsynthétisées dans le

yto-plasmepar l'intermédiairedel'ARNmquipermetletransfertde l'information

génétiquedunoyauvers le ytoplasme,lorsqu'ungènes'exprime.Lesprotéines

sontdon lerésultatnalde l'expression d'ungène (

c.f.

1.3).Certaines sont

des atalyseurs de réa tions himiques : elles permettent à des réa tions

hi-miques de se dérouler rapidement dans les onditions de température et de

pression onformesà lavie.

1.2 Le y le ellulaire

Nous nous intéressons dans ette thèse à l'analyse de l'expression dynamique

des gènesau oursdu y le ellulaire.Lesdonnées quenousallonsétudiersont

alors observées à des moments spé iques durant le pro essus de la division

ellulaire.

Chaque ellule eu aryote est née d'un pro essus de division nommé mitose.

Ellepeut êtredé rite selonlasu ession des étapes(ou phases):

G

1

,

S

,

G

2

et

(25)

Fig. 1.2 Pro essus de la division ellulaire

ellulaire (gure1.2). Durant lesphases

G

1

,

S

et

G

2

(regroupées sous lenom

de "interphase"), les hromosomes sontdé ondensés et distribuésdans tout le

noyau, la ellule grossit progressivement. La plupart d'entre elles doublent de

tailleentre le début de la phase

G

1

etlaphase

G

2

. La phase

G

1

orrespond à

l'intervalle entre lan de la phase

M

et le début de la répli ation de l'

ADN

(phase

S

).Au oursde ettephasela elluleee tuesonmétabolismehabituel

et grossit régulièrement, elle intègre les signaux mitogènes ou anti-mitogènes

etse prépare pour ee tuer orre tement laphase

S

. Par ontre, l'

ADN

n'est

synthétisé que pendant une partie de l'interphase appelée phase

S

durant

la-quelle l'

ADN

hromosomique est répliqué. La phase

G

2

est l'intervalle entre

la n de la répli ation de l'

ADN

et la phase

M

. Durant et intervallela

el-lule ontinue de grossir etde synthétiser des protéines en vuede la phase

M

.

Le début de la phase

M

est ara térisé par la désorganisation de l'enveloppe

nu léaire (par phosphorylation des lamines),la ompa tion des hromosomes

(par phosphorylationdes ondensinesetdeshistones), l'organisationdes

hro-mosomesàlamétaphase,laséparationdes hromatidess÷urs(pardégradation

de ohésines) à l'anaphase, etenn la ytodiérèse. Laplupart des ellules des

organismes pluri ellulaires sont diéren iées an d'exer er des fon tions

spé- ialiséesetne sedivisentplus. Ces ellulessont onsidérées ommeétantdans

(26)

1.3 Le trans riptome

Le gène, unité de base du sto kage de l'information génétique, est une

pe-tite séquen e d'ADN. Il y a environ

6000

gènes hez la levure et

30000

hez

l'homme.L'ensemble du matérielgénétiqued'un individuoud'une espè e

en- odé dans son ADN est alors appelé génome. Aujourd'hui le séquençage du

génome de diverses espè es (levure, souris, homme...) a été réalisé. Il s'agit

de lades ription des séquen es, ougènes, onstituantlesmolé ules d'ADN au

sein du noyau de haque ellule.

Enfon tionde leursbesoins,les ellulesutilisentàuninstantdonnéunepartie

des gènes pour réaliserla synthèse des protéines né essairesaux grandes

fon -tions ellulaires. Le passage du gène à la proteine s'ee tue en deux grandes

étapesde trans riptionet de tradu tion,àl'aide d'un intermédiaireessentiel :

l'ARN messager (gure1.3). Le gèneest trans rit(synthèse de l'ARNm, 'est

latrans ription),l'ARNmest véhi uléhors du noyaudans le ytoplasme ouil

vaservir de matri epour lasynthèse des protéines ( 'est latradu tion). Pour

réaliser la tradu tion, il y a besoin de ribosomes ( ontenant les ARNr, aussi

synthétisés dans le noyau). Les sous-unités ribosomales sont des protéines

ri-bosomalesquis'asso ientauxARNrdanslenoyauavantd'êtrevéhi uléeshors

dunoyau.Deuxsous-unités(lapetiteetlagrande)viennentformerleribosome

sur l'extémité de l'ARNm. L'ARNt vient s'atta her au site du ribosome et la

tradu tion en proteines peut ommen er. À haque odon (triplet de

nu léo-tides) de l'ARNm va orrespondre l'anti odon d'un ARNt. Cet anti odon est

asso ié à un a ide aminé qui est transité au niveau ribosome par l'ARNt. Le

ribosomesedépla esur l'ARNmetlaren ontre d'un odon quine orrespond

à au un anti odon met n à latradu tion.

Sa hantqueplusieurs opiesde diérents ARNmpeuventêtre produitesàdes

niveaux diérents en fon tion de l'a tivité de la ellule, le trans riptome

re-étera don le niveau d'expression de tous les gènes à un temps

t

pour une

ondition physiologique donnée. Il est le reet instantané de l'a tivité

ellu-laire, et peut don varier d'un type ellulaire à l'autre (neurone, ellule de

la peau...),au ours du temps oudes diérentes phasesdu y le ellulaire,en

fon tionde onditionsenvironnementalesimposéesaux ellules,ouen fon tion

de l'étatsain oupathologiquede es dernières.Letrans riptome, représentant

l'ensemble des ARNmtrans rits, parti ipe lairementàla déterminationde la

fon tiondesgènesauseind'une ellule.Demanièregénérale,pouvoir omparer

le trans riptomede diérents types ellulaires, dans diérentes onditions, ou

pouvoiranalyser l'ensemble du trans riptome d'une ellule à divers stades de

son y le ellulaireou dans diverses onditions pathologiques, doit permettre

d'une part de mieux omprendrele fon tionnement ellulairesur le plan

fon-damental,etd'autrepartd'orir beau oupd'intérêtsen termesd'appli ations

(27)

Fig.1.3Dogme entraldelabiologiemolé ulaire(Sour esiteISIMA, auteur

Vin ent Barra).

1.4 Les pu es à ADN pour l'étude du

trans rip-tome

Leprin ipedes pu esàADNreposesurleste hniques d'hybridationdel'ADN

simple brin àson brin omplémentaire (Southtern blot [93℄), ensuiteadaptées

pourl'étudedesARN(Northernblot)auniveaud'unseulgène.Ceste hniques

ont surtout posé le problème de l'étude au niveau du génome des pro essus

biologiques omplexes. Aujourd'hui, les pu esà ADN orent auxlaboratoires

la possibilité d'étudier des phénomènes à l'é helle du génome. Elles

appar-tiennent àun ensemble de nouvelles te hnologies développées depuis quelques

années à l'interfa e de nombreuses spé ialités omme la biologie molé ulaire,

la himie, l'informatique,l'éle tronique etla robotique.

Les pu es à ADN onnaissent depuis quelques années un essor onsidérable,

ar ellespermettentl'analyseàhautdébitde milieuxbiologiques,par exemple

pour la déte tion de mutations asso iées à ertaines maladies. Con rètement,

elles permettent de visualiser simultanément le niveau d'expression de

plu-sieurs milliers de gènes dans un type ellulaire et un ontexte physiologique

et/ou pathologique parti ulier. Elles ont d'abord été onçues sur de grandes

membranes poreuses en nylon ou ma roarrays (Gress et al. [35℄, Nguyen et

al. [71℄, Pietu et al. [77℄). La miniaturisation,rendue possible par les progrès

de la robotique, a ensuite permis le développement des mi roarrays. Comme

leur noml'indique, es pu essontde petitessurfa es tellesune lamede

(28)

présentent l'avantage de pouvoir être de très haute densité et par onséquent

sus eptibles de re ouvrirl'intégralitédu génomehumain. Lafabri ationd'une

pu e à ADN peut se dé omposer en trois étapes : la produ tion des sondes

(fragments ourts d'ADN de séquen es onnues) et leur dépotsur lesupport,

la produ tion et le marquage des ibles (fragments ourts d'ADN que l'on

her he àidentier), ennl'hybridationdes sondes ave les ibles.

1.4.1 Les sondes

Pour l'étude du trans riptome, les sondes sont les séquen es d'ADN double

brin. Elles sont ampliées par la te hnique PCR (polymerase hain rea tion)

etsont ensuitedéposées sur lalame par un robotmuni d'aiguillessur laquelle

elles sont xées par un pro édé himique adéquat. La zone de dêpot du gène

est appelée spot. L'ADN des sondes est dénaturé en simple brin, juste avant

l'hybridation,pour permettre par lasuiteune hybridationave les ibles

mar-quées.

1.4.2 Les ibles et l'hybridation

La préparation des ibles onsiste à extraire des ARNm de deux expérien es

de ultures ellulaires de même type dont on veut omparer l'expression des

gènes(parexemple ellulessainesversus ellules an éreuses, ellulessauvages

versus ellules mutées ou ellules témoins versus ellules traitées). Les ibles

orrespondant aux deux ultures sont marquées par deux uoro hromes, par

exempleCy5(rouge)pourune ultureetCy3(vert)pourl'autre,and'évaluer

et de quantier de manière omparativeentre lesdeux ultures l'appariement

sonde/ ible. Ce marquagese fait lors d'unetrans ription inverse, où l'ARNm

est retransformé en ADN omplémentaire marqué ou ADN . Les deux

é han-tillons d'ADN sont alors mélangés et hybridés sur la pu e. Un brin d'ADN

uores ent( ible)quiren ontre son omplémentaireADNsimplebrin (sonde)

s'apparie ave luipour redonnerde l'ADN doublebrin.Cette hybridation,qui

dure quelques heures en milieu liquide, est suivie d'un lavage du substrat qui

permet d'éliminer les ibles non xées, ou xées non spé iquement. Lapu e

est alors sé hée avant de passer aus anner pour déte ter les hybridations.

1.4.3 A quisition des données

L'a quisition des images se fait au moyen d'un s anner. Dans le as du

mar-quageave deuxuoro hromes,uneimagenumériqueesta quisepour

l'é han-tillon marqué ave leCy3 etune en Cy5. Un spotde ouleur verte indique un

gène dont leniveau d'expression est plus élevé dans l'é hantillon marqué ave

le Cy3 que elui marqué ave le Cy5, et inversement pour un spotde ouleur

rouge.Lespotapparaitjaunelorsquelegèneestexpriméde manièreidentique

dans les deux é hantillons omparés et le noir symbolise l'absen e de signal.

(29)

Fig. 1.4 Les étapes de fabri ation d'une pu e à ADN (Sour e site ENS,

auteur PhilippeMar ).

qui permet de déterminer leurs oordonnées sur la pu e, la segmentation qui

lasse, pour haque spot,lespixels"signal"des pixels"bruit de fond"etenn

l'extra tion des données onsistant à dénir les intensités des signaux Cy3 et

Cy5. Pour haque spot, on retient une valeur de l'intensité du signal rouge

(notée

R

faisant référen e au uoro hrome Cy5) et du signal vert (notée

V

pour leCy3) ainsi que les valeurs du bruit de fond orrespondant. L'intensité

du signal est proportionnelle à l'intensité d'hybridation, don à l'expression

du gène iblé. À l'issue de l'analyse d'image, les valeurs brutes des intensités

obtenues sont ensuiteltrées etnormalisées pour obtenir des valeurs relatives

ou ratio d'expression pour ha un des gènesprésent sur lapu e.

1.4.4 Normalisation des données et pré-traitement

Avantde omparer defaçon pré iselesdeuxé hantillons,ilestné essaire

d'ef-fe tuer une normalisation relative des deux intensités de uores en e (Smyth

and Speed [90℄); an de s'assurer que les diéren es observées dans les

in-tensités sont dues à des diéren es réelles d'expression et non à des artefa ts

expérimentaux. En eet le rapport des intensités brutes

R/V

est biaisé pour

plusieurs raisons bien onnues. Lors de la fabri ation de pu es à ADN, les

sour esde variabilitésont nombreuses. Nouspouvons iter,entre autres,

l'am-pli ationdessondesparlate hnique

P CR

etleurpositionnementsurlapu e,

(30)

Fig. 1.5 Une pu e onstituée de

16

blo s (

4 × 4

) illustrant l'image de la

totalité du trans riptomede lalevure (

6300

gènes)(Soularue et Gidrol[92℄).

des sour es prin ipales de variation intervient au moment de l'in orporation

des uoro hromes Cy3 et Cy5. Le but de la normalisation est d'identier les

biais te hniques, de les quantier etde lessoustraire du signal avant

d'analy-ser l'expression des gènes. L'analyse biostatistique en aval re ommande

d'ef-fe tuer des repli atsbiologiques et te hniques pour augmenter la abilité des

résultats. Cependant les diérentes expérien es ne donnent jamais les mêmes

résultats. Ces sour es de variabilité et l'a umulation des erreurs

expérimen-talesae tentde manièrenonnégligeablelesvaleursdesintensitésdessignaux

et ont tendan e à bruiter lesdonnées d'expression de gènes. Bien souvent, on

peut hoisirde orrigerl'intensitédu signalmesuré par lebruitde fond

(Koo-perberg etal.[54℄).Dans e as, haque gène sera ainsi asso iéà un ouplede

valeurs orrigées (

R

c

,

V

c

).

Appro hes de normalisation

Des transformations préliminaires permettent de diminuer un peu la

variabi-lité des mesures. En parti ulier, le rempla ement des données brutes par leur

logarithmeàbase

2

permetderéduirel'inuen edesvaleursaberrantes (gure

1.6).

Le prin ipe de la normalisation repose sur l'hypothèse fondamentale que la

plupartdes gènes ont lemêmeniveau d'expression dansles deux é hantillons,

e qui signieque peu de gènes sont diérentiellementexprimés. Par la suite,

on s'intéresseà la omparaisondes expressions dans les deux uores en es en

(31)

Fig.1.6Nuagedepointspourunepu eàADNavantetaprèstransformation

log. Sur ette gure, on peut voir, à gau he sans au une transformation, que

les ee tifs sont plus importants vers les faibles intensités tandis qu'à droite

ave un passageaulogarithmeàbase

2

,lesintensitéssontdistribuéesde façon

uniforme.

notés

M

en fon tion de la

log

2

-intensité globale moyenne sur le spot notée

A

. Ce nuage de points devrait alors se situer autour de l'axe des abs isses

de façon symétrique. Or, nous observons une déformationde e nuage que la

normalisation vatenter de orriger(gure 1.7). Par dénition :

A = log

2 p(R × V ) =

[log

2 (R) + log

2 (V )]

2 ,

(1.1)

M = log

2 (R) − log

2 (V ) = log

2 (R/V ).

(1.2)

Il existe plusieurs typesde normalisationdes données (Park etal. [75℄, Wu et

al. [109℄, Fujita et al. [29℄). Les méthodes qui ont été utilisées sont de type

global. Exemple, lanormalisation par la moyenne ou la médiane: elle repose

sur l'hypothèsequelerapport d'intensité entre

R

et

V

ne dépend pas dugène

et reste onstant. Ce qui équivaut à

M

i

= K

(

K

représente lamoyenne ou la

médiane des valeurs

log

2

-ratios), où

i = 1, ..., S

et

S

le nombre de spots de

la pu e. On normaliseen retran hant ette valeurà l'ensemble des

log

2

-ratios

pour entrerl'ensemble desmesures sur un

log

2

-ratioàzéro.D'autrepart,une

normalisation par regression linéaire suppose que

M

et

A

sont liés par une

fon tionlinéairedetype

M = a + b(A)

.Cependant es méthodessontlimitées,

ar nous remarquons souvent que la nature des relations entre les intensités

sont non linéaires.Une fon tionqui prendrait laformede l'alluredu nuageM

(32)

Fig. 1.7 Nuage M vs A pour une pu e àADN.

te hnique trésutiliséeetbasée surune méthode de régressionlo alepondérée,

appelée

Lowess

(Lo allyWeightedS atterplotSmoothing)(gure1.8).Ils'agit

don d'une orre tion non-linéaire qui permet de prendre en ompte la

non-linéarité de la relationqui existe entre les intensités

R

et

V

et qui est dénie

par :

M

i

= Lowess(A

i

)

(1.3)

La orre tionlowesspeutaussiêtrefaiteparblo pour orrigerprin ipalement

l'intera tion gène

×

blo

×

uoro hrome 'est à dire le biais spatial.

L'ajustement d'é helle

Il est né essaire de pro éder à un ajustement d'é helle. Ce i pour garantir la

mêmedispersiondes

log

2

-ratiosauseinde haque blo .I i,onfaitl'hypothèse

que les

log

2

-ratios suivent une distribution normale de moyenne nulle et de

varian e

α

2 j

σ

2

, où

σ

2

est la varian e des vrais

log

2

-ratios,

α

2 j

est un fa teur

d'é helle pour le

j

ème blo . Ce fa teur est estimé par :

ˆ

α

j

=

MAD

j

(

Q

J

j=1

MAD

j

)

1 J

(1.4)

où MAD est l'é artabsolu médian(median absolute deviation) déni par :

MAD

j

= median

i

{|M

ij

− median

i

(M

ij

)|}

(1.5)

M

ij

est le

i

ème

log

2

-ratio du

j

ème blo ,

i = 1, ..., I

;

I

est le nombre de gènes

(33)

Fig. 1.8 Normalisationpar

Lowess

. À gau he, le nuage M vs A avant

nor-malisation.Enrouge est représentée la ourbede régression

Lowess

épousant

l'alluredu nuage.À droite,lenuage Mvs A aprèsnormalisation,la ourbede

régression est une droite.

estimées, onpeut faire l'ajustementd'é helle :

M

′

ij

=

M

ij

ˆ

α

j

(1.6)

Lanormalisation

Lowess

par blo ave un ajustementd'é helleentre lesblo s

est une appro he de normalisation senséedans le adre des pu es à ADN.

1.5 Analyse des données du trans riptome

Lagrande quantité de gènesobservés(environ

6000

hez lalevure,

30000

hez

l'Homme) ombinée à la omplexité des réseaux biologiques posent un vrai

hallenge pour la ompréhension et l'interprétation des masses de résultats

obtenus. Une étape préalable à l'exploitationdes données produites par ette

nouvelle te hnologieest l'utilisationde te hniques de lassi ation. Elles

per-mettent de réduireentre autresla dimensionnalitédes données, d'extrairedes

prolstypesd'expression de gènes,oude prédirelafon tionde ertainsgènes.

Nousdistinguonsprin ipalementdeux typesd'étudedes donnéesd'expression.

Lapremièreportesurl'expression d'unensemblede gènes(individus)observés

au travers d'un ensemble de onditions expérimentales (les dimensions). Ces

onditions pouvant, parexemple, dénirdiérents types de ellules,diérents

(34)

se ond type d'analyse s'intéresse à l'étude de l'évolution de l'expression des

gènes au ours de pro essus biologiques. Les gènes de prols temporels

simi-laires, dits o-exprimés, sont onsidérés omme o-régulés, à savoir asso iés

auxmêmesfon tions biologiquesetimpliquésdanslesmêmespro essus

biolo-giques. Ainsi la lassi ation non supervisée des prols d'expression de gènes,

permetentre autres d'identier la fon tion de nouveaux gènes sur la base des

fon tions déjàidentiées des gènes o-régulés (Eisen et al.[26℄, Iyer etal.[44℄,

Gas h etal.[31℄, Storey etal. [95℄, Leng etMüller. [57℄).

Ce travail de thèse s'ins rit dans e dernier adre d'analyse. Nous nous

in-téressons àl'analysedesprolstemporelsd'expression d'unensemble de gènes

au ours du pro essus de division ellulaire. La division ellulaireest le

prin- ipal pro essus de prolifération des ellules,devenant aberrant dans le as de

ellules an éreuses (Golub et al. [34℄). L'enjeu prin ipal de nos travaux se

fo alise sur des données de gènes exprimés au ours du y le ellulaire. Dans

toute la suite de e rapport, nous utilisons "prols temporels d'expression de

gènes"pourparlerde lanaturetemporellede es données. Le hapitresuivant

dresse un rapide état de l'art des prin ipales te hniques de lassi ation non

supervisée utilisées pour l'analyse de prols temporels d'expression de gènes.

Nous utilisons simplement le terme lassi ation à la pla e de lassi ation

(35)

(36)

Classi ation des prols temporels

d'expression de gènes :

état de l'art

Sommaire

2.1 Prols temporels d'expression de gènes . . . 16

2.2 Te hniques de lassi ation non-paramétrique . . 18

2.2.1 Classi ation hiérar hique . . . 18

2.2.2 Partitionnement par K-means . . . 19

2.2.3 Classi ation par lesréseaux deKohonen (SOM) . . 20

2.2.4 Classi ation selonlathéorie desgraphes . . . 21

2.2.5 Critères devalidation dunombre de lasses . . . 22

2.3 Te hniques de lassi ation paramétrique . . . 25

2.3.1 Classi ation par mélangede modèles gaussiens . . . 25

2.3.2 Classi ation par modélisationdesprols temporels 26

2.4 Con lusion. . . 29

L'identi ationdes gènes oexprimésest un desproblèmes lassiquesde

l'ana-lyse du trans riptome. Ces dernières années, on assiste à l'émergen e d'une

littérature abondante portant sur l'utilisationdes te hniques de lassi ation

etd'analyse de données pour l'analysede données d'expression de gènes (e.g.,

Yeungetal.[114℄,Jiangetal.[46℄,DeHoonetal.[21℄,Bréhélin[9℄,

Chaiboon- hoe et al. [12℄, et ...). On note en parti ulier les nombreux travaux dédiés à

l'analysedeprolstemporelsd'expressiondegènes(

e.g.

,Jiangetal.[47℄,Ernst

at al. [27℄, Ma et al. [64℄, Kim et al. [52℄, Das et al. [20℄, et ...). Dans e

ha-pitre, nous dressons un rapideétat de l'art des te hniques de lassi ation les

(37)

se tion, nous donnons une des ription sommaire sur la génération de prols

temporels d'expression de gènes. La se tion suivante rappelle les te hniques

non paramétriques qui, généralement, se fondent sur la dénition d'une

me-sure de proximité. Nous aborderons leproblème de déterminationdu nombre

de lasses à onsidérer etdégagerons ertains ritèresquilesvalident.Dans la

dernièrese tion,nousprésentonslesté hniquesde lassi ationparamétriques

qui onsidèrent le problème sous un aspe t statistique avant de dédager une

on lusion.

2.1 Prols temporels d'expression de gènes

Les expérien es des pu es à ADN permettent de mesurer la quantité

trans- rite par un gène à un instant donné. En suivant l'évolution de l'expression

d'un gène sur plusieurs instants su essifs pour une durée déterminée, on

ob-tient son prol temporel d'expression. Par exemple, pour une expérien e sur

n

gènes que l'on souhaite observer sur

p

instants (

t

1 , t

2 , ..., t

p

), on dispose de

p

pu es orrespondant à

p

é hantillons. Sur haque pu e, on pla e le même

gène

i

(

i = 1, 2, ..., n

)en unemêmeposition.On dispose ensuited'unematri e

n × p

dont haque ligne représente un gène

i

et haque olonne orrespond à

un instant

t

k

(

k = 1, 2, ..., p

).À haque instant

t

k

,laquantitéd'expression

x

i,t

k

du gène

i

est prélevée et ins rite sur la ligne

i

et la olonne

k

de la matri e.

À la n de l'expérien e, on obtient lamatri e d'expression des gènes.Chaque

ligne de lamatri ereprésenteun ve teurd'expression ouprol temporel

d'ex-pression du gène, que nous notons

g

i

= (x

i,t

1 , x

i,t

2 , ..., x

i,t

p

)

et haque olonne

de lamatri eest un é hantillon prélévé àl'instant

t

k

(gure2.1).

Les prols temporels d'expression dé rivent, par exemple, le niveau

d'a tiva-tion d'ungèneau oursd'un pro essusbiologiquetelqueladivision ellulaire,

le degré de réponse d'un gène à un traitement,ou plus généralement à la

ré-ponseaux onditions environnementales(Iyer etal.[44℄,Gas hetal.[31℄).Le

tableau2.1présente

5

expérien esdiérentesréaliséespourétudierle y le

el-lulaire hez lalevure etproduisantdes prolstemporelsd'expressionde gènes.

Nousnotons quelesinstantsd'é hantillonnagene sontpas toujours uniformes

etvariententrelesdiérentesexpérien es. Enplus,laduréedu y le ellulaire

varie en fon tion du type ellulaire, et pourrait varier aussi en fon tion des

onditions expérimentalespourun mêmetype(Choetal.[15℄,Spellmanetal.

[94℄,Zhu etal. [117℄, Pramilaet al.[80℄).

Souvent, la phase suivante pour l'analyse de la matri e d'expression est la

lassi ation des gènes qui présentent des prols temporels similaires.

Plu-sieurs travaux ont été réalisésen utilisant des méthodes de lassi ation

(38)

Fig. 2.1 Exemple de prol temporel d'expression de gène. Chaque pu e

orrespond à un instant d'é hantillonnage. Les niveaux d'expression mesurés

sur ha une des pu es sont ins rits sur la matri e d'expression de telle sorte

que haque olonne représenteune pu e.

Nom Début(min) Fin(min) Durée(min)du E hantillonnage

é hantillonnage é hantillonnage yle ellulaire

Spellmanetal.[94℄ 0 119 64 toutesles7min.

Spellmanetal.[94℄ 10 290 112 toutesles20minde0à

70,toutesles10minde

70à250,toutesles20

minde250à290.

Choetal.[15℄ 0 160 85 toutesles10min.

Zhuetal.[117 ℄ 0 210 105 toutesles15minde0à

165,puis45minde165

à210.

Pramilaetal.[80℄) 0 120 60 toutesles10min.

Tab.2.1 Cinqexpérien es diérentes pourl'étudedu y le ellulaire hez la

levure.

Tavazoie etal.[100℄,Ben-Dor etal.[7℄). D'autres, omme Peddadaetal.[78℄,

Bar-Joseph et al. [5℄, Ramoni et al. [82℄, S hliep et al. [86℄ se rapportent à

des méthodes paramétriques.Nous présentons brièvement es travauxdans la

(39)

2.2 Te hniques de lassi ation non-paramétrique

Leste hniques de lassi ationnon-paramétriques sont baséesessentiellement

sur des mesures de proximité entre paires d'objets. Les algorithmes de

lassi- ation hiérar hique, de partitionnement (k-means et SOM) et eux portant

sur la théorie des graphes sont employés dans le adre de l'analyse de prols

temporels d'expression de gènes. Les résultats issus des es te hniques sont

rigoureusement validés par des statistiques etdes onnaissan es biologiques.

2.2.1 Classi ation hiérar hique

Les méthodes hiérar hiques sont les premières appro hes utilisées pour

l'ana-lyse des données de prols temporels d'expression (Eisen etal. [26℄, Spellman

etal.[94℄,Wenetal.[105℄).Eisenetal.[26℄ontpopulariséleurutilisationpour

lasser des prols temporels d'expression de gènes. Ils ont étudié l'évolution

desniveauxd'expressionde

2467

gènesdelalevureau oursdu y le ellulaire.

Unedistan e fondée sur le oe ientde orrélationest utiliséepour omparer

lesgènes.Lelienmoyen, onnusouslenomde UPGMA(UnweightPairGroup

MethodwithArithmeti mean)est onsidéré ommedistan e entre lasses.Par

la suite,

10

groupes représentatifs sont extraits, ontenant des gènes qui ont

des prolstemporels d'expression semblables.Les auteurs ontmontré que es

groupes de gènes oexprimés partageaient une même fon tion biologique. À

partir de ette étude, ils ont montré que les gènes présentant un prol

d'ex-pressionsimilaire(gènesde même lasse)sonttrèssouventimpliquésdansune

même fon tion biologique.

Ces auteurs ont développé un outil d'analyse graphique intera tive et de

vi-sualisationdes résultats(

T reeview

) permettantd'a her lesprolsdes gènes

sous forme d'une arte d'expression olorée. Chaque gène est représenté par

une seule olonnealternant les ouleurs rouge (forte expression), verte (faible

expression) et noire (expression nulle), et haque ligne représente un instant

t

. L'asso iation du dendrogramme ave la arte olorée (gure 2.2) permet

une visualisationglobalede lamassede données, meten éviden e des groupes

de gènes omposant les diérentes lasses et donne une nouvelle le ture de

es lasses en terme de niveau d'expression. La pro édure de l'algorithme

or-ganise les gènes de manière hiérar hique dans un dendogramme, néanmoins,

Gersteinet Jansen [32℄ notentqu'il n'ya au une raison de roirequ'ils y sont

naturellement organisés. D'autres part, es méthodes sont mal adaptées aux

grands ensembles de données ar trop oûteuses en ressour e mémoire et ne

remettentjamaisen auseles lassesobtenues :siune mauvaiseae tationest

faiteaudébutdu pro essus,ellenepeutpasêtre orrigéeetpeutdon ae ter

(40)

Fig. 2.2 Classi ation par la méthode hiérar hique as endante de données

temporelles (d'après Eisen et al. [26℄). Chaque gène est représenté par une

seule olonne de ouleurs et haque instant

t

par une seule ligne. Cinq lasses

distin tes, biologiquementintéressantes, sont indiquées par les inqbarres

o-lorées (A,B,C,D et E) et par la oloration de la région orrespondante du

dendrogramme.

2.2.2 Partitionnement par K-means

Uneautrefamilledeméthodesde lassi ationest elledesalgorithmesde

par-titionnement. Ces méthodes né essitent de spé ier préalablement le nombre

de lasses. L'une des plus utilisées est l'algorithme des K-means proposé par

Ma Queen [67℄. Sa grande popularité vient de sa simpli ité on eptuelle, sa

rapidité d'exé ution et ses faiblesexigen es en taillemémoire.Il ore aussi la

possibilitéde partitionnerunensemblevolumineuxdedonnéesàmoindre oût.

Les auteurs Tavazoie et al. [100℄ ont analysé

3000

prols de gènes de la

le-vure (Sa haromy es erevisiae),mesurés sur

15

instantsd'é hantillonnageet

observésau ours de deux y les ellulaires.Ils appliquentl'algorithmedes

K-meanspour partitionner es donnéessu essivement en

10

,

30

et

60

lasses.La

similaritéentre lesgènes est mesurée par ladistan e eu lidienne et lerésultat

en

30

lasses est retenu. Ces travaux ont permis de montrer la présen e, au

seindesrégionspromotri esdes gènesd'unemême lasse,d'uneséquen e

om-mune orrespondant au site de xation d'un fa teur de trans ription, haque

lasse étant ainsi asso iée à une séquen e spé ique. Ces données suggèrent

que l'expression des gènes d'une lasse est o-régulée par un même fa teur de

trans ription pour exer er une fon tion biologique ommune.

Cet algorithme est sensible aux valeurs extrêmes. Pour surmonter e point,

Kaufman et Rousseeuw [50℄ proposent d'utiliser l'algorithme PAM

(Partitio-ning Around Medoids) où la médoïde, l'objet représentatif d'une lasse, est

(41)

non stru turée : il produit un ensemble de lasses non organisées (en terme

de voisinage)dans lequellesrelationsentre lasses sontdi ilesàinterpréter.

Dans e ontexte, on her he souvent à utiliser des méthodes qui ont une

a-ra téristique parti ulière permettant d'imposer une stru ture partielle sur les

lasses.

2.2.3 Classi ation par les réseaux de Kohonen (SOM)

LesréseauxdeKohonen,appelésaussi artesauto-organisatri es(Self

Organi-sationMap-SOM), ontétédéveloppésparKohonen[53℄. C'estun algorithme

qui permet à la fois un apprentissage non-supervisé rapide des gènes et leur

représentation. Il utilisele réseaude neurone arti ielet respe te la topologie

de l'espa e des gènes en intégrant une notionde voisinage entre lasses.Ainsi,

deux gènes voisins dans l'espa e d'entrée appartiennent à la même lasse ou

à des lasses voisines à la sortie. Cette topologie est dénie par des n÷uds

onne tés entre eux, et le nombre de n÷uds détermine le nombre de lasses

qui sont disposées sur une grille re tangulaire, par exemple (gure 2.3). Les

n÷udssont ara térisésàlafoisparleurpositionsurlagrilleetparunve teur

ode représentant de haque lasse.La dénitionpréalable de la onguration

géométrique des lasses,orantunevisualisationaiséedes données,faitla

dis-tin tion prin ipalemententre SOM etles K-means.

Tamayo et al.[97℄ ont appliqué l'algorithme SOM, ave

30

n÷uds dénissant

30

lassesdisposés sur une grille

6 × 5

, pour l'analyse du y le ellulaire de la

levure Sa haromy es erevisiae en lassant l'expression de

828

gènes.Les

ni-veaux d'expressionpour haque gènesontre ueillisàintervallesde

10

minutes

surdeux y les ellulaires(

160

minutes).Lesn÷udssontrappro hésauxgènes

étudiéspar l'utilisationde ladistan e eu lidienne.Unpro essus itératif(entre

20000

et

50000

itérations)dépla elesn÷udsvers lesgroupesde gèneslesplus

pro hes.

Les points les plus remarquables de et algorithme sont qu'il permet de

ré-duire l'espa e multidimensionneldes données en un espa e

1

D,

2

D (qui sont

les plus utilisés)ou

3

D, etde fa iliter leur visualisationet leur interprétation.

Toutefois, il peut être di ile d'identier les lasses ave les outils de

visuali-sation habituels de l'algorithme SOM. De plus, tout omme l'algorithme des

K-means, la pro édure de l'appro he SOM exige un nombre de lasses non

onnuapriori. Dans e ontexte, Fernandez etBalzarini [28℄proposentla

mé-thodeRP-Q,appliquéeàl'analysedesprolsd'expressiondegènes,quisemble

intéressante pour donnerune meilleurevisualisationet estimation du nombre

de lasses dans SOM. Ghouila et al. [33℄ proposent l'algorithme de

lassi a-tion Multi-SOM, basé sur la méthode SOM ave plusieurs niveaux de grilles,

an de surmonter le problème de l'estimation du nombre de lasses.

(42)

sup-Fig. 2.3 Prin ipe des artes auto-organisatri es. La position initiale des

n÷uds (en bleu) est sur une grille re tangulaire

3 × 2

et est indiquée par

les lignes ontinues ra ordant es n÷uds. Les lignes pointillées et les è hes

représentent les traje toires hypothétiques des n÷uds lors de leur ajustement

par itérations su essives de l'algorithme SOM. Le résultat nal est omposé

des six n÷uds (en rouge) entourés par les points noirs représentant les prols

d'expression de gènes (Tamayo etal. [97℄).

poser que ertaines vraies stru tures de lasses n'existent que sous forme de

graphes qui représentent la orrélation entre les diérents gènes (Ben-Dor et

al. [7℄). Des appro hes de lassi ation utilisent ainsi les graphes ou plus

pré- isément la théorie des graphes pour partitionner un ensemble de gènes sans

la né essité de prédénir lenombre de lasses.

2.2.4 Classi ation selon la théorie des graphes

Des te hniques de lassi ation fondées sur lathéorie des graphes sont

appli-quées aux données d'expression de gènes et sont expli itement présentées en

termesdegraphe(Ben-Doretal.[7℄, ShamiretSharan[88℄,HartuvetShamir.

[37℄, Das et al. [20℄). Formellement, on représente l'ensemble des gènes sous

formed'ungrapheappelégraphedeproximité

G

où haquesommet orrespond

à ungène. Chaquepaire de gènesest reliéepar une arêtequi peut être

pondé-rée en fon tion de lavaleur de leurproximité(ShamiretSharan[88℄), ouen