HAL Id: tel-00516398
https://tel.archives-ouvertes.fr/tel-00516398v2
Submitted on 13 Sep 2010
HAL is a multi-disciplinary open access
archive for the deposit and dissemination of
sci-entific research documents, whether they are
pub-lished or not. The documents may come from
teaching and research institutions in France or
abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est
destinée au dépôt et à la diffusion de documents
scientifiques de niveau recherche, publiés ou non,
émanant des établissements d’enseignement et de
recherche français ou étrangers, des laboratoires
publics ou privés.
Classification de profils d’expression de gènes:
application à l’étude de la régulation du cycle cellulaire
chez les eucaryotes.
Alpha Diallo
To cite this version:
Alpha Diallo. Classification de profils d’expression de gènes: application à l’étude de la régulation
du cycle cellulaire chez les eucaryotes.. Sciences du Vivant [q-bio]. Université de Grenoble, 2010.
Français. �tel-00516398v2�
Ecole Doctorale Ing´
enierie pour la Sant´
e, la Cognition et l’Environnement (EDISCE)
Classification de profils d’expression de g`
enes :
application `
a l’´
etude de la r´
egulation du cycle cellulaire chez les eucaryotes.
TH`
ESE
pr´esent´ee et soutenue publiquement le 03 Juin 2010
pour l’obtention du
Doctorat de l’Universit´
e de Grenoble
Sp´
ecialit´
e mod`
eles, m´
ethodes et algorithmes en biologie, sant´
e et environnement
par
Alpha DIALLO
Directeur de th`ese : Fran¸coise GIROUD
Co-directeur de th`ese : Ahlame DOUZAL-CHOUAKRIA
Composition du jury
Jean-Francois BOULICAUT
Pr´esident
G´erard GOVAERT
Rapporteur
Mohamed NADIF
Rapporteur
Fran¸coise GIROUD
Examinateur
Ahlame DOUZAL-CHOUAKRIA
Examinateur
L'ensemble des travaux présentés dans e rapport de thèse a été ee tué au
LaboratoireTIMC-IMAG,auseindeséquipesTIMB(Traitementde
l'Informa-tion et Modélisationen Bio-méde ine) etRFMQ (Re onnaissan e des Formes
et de Mi ros opie Quantitative).
Je tiens tout parti ulièrement àremer ier mes deux dire tri es de thèse,
Mes-dame Ahlame DOUZAL et Françoise GIROUD pour leur gentillesse et leur
disponibilité. Elles n'ont ménagé au un eort pour la réussite de ette thèse.
Je n'auraisjamaispu me lan ersans elles dans l'aventure qu'a onstitué ette
thèse.
J'exprime ma profonde gratitude à Madame Ahlame DOUZAL, en sa
qua-lalité de dire tri e de thèse, qui m'a guidé vers une plus grande maturité et
une meilleure vision de la re her he, pour sa patien e et son en ouragement
onstant. Son investissement aété sans limite. Elleatoujours été làmême les
jours de plus grand doute.
Je tiens à fairepart également de magrande re onnaissan e à l'égardde
Ma-dame Françoise GIROUD qui m'a guidé dans le monde de la biologie. Ses
analyses, ses remarques pertinentes etses nombreuses rele turesm'ontpermis
d'améliorer e rapport.
J'adresse mes sin ères remer iements à Monsieur Gerard GOVAERT,
Pro-fesseur à l'Université de Te hnologie de Compiègne et à Monsieur Mohamed
NADIF,Professeuràl'UniversitéParisDes artes,pour l'intêretqu'ilsontbien
voulu porter à e travailen a eptant d'en être lesrapporteurs.
Je remer ie également Monsieur Jean-François BOULICAUT, Professeur à
l'INSA Lyond'avoira epté de parti iper aujury de thèse.
Je remer ie aussi tous les membres des équipes RFMQ et TIMB ainsi que
du laboratoire TIMC-IMAG pour m'avoir aussi bien a ueilli. Je tiens aussi
à remer ier mon ollègue Cédri FRAMBOURG pour les dis ussions
s ienti-ques quim'ont é lairésur ertainsaspe ts.
J'exprime ma re onnaissan e à mes parents, mes frères et s÷urs pour leur
à ma mère.
Introdu tion générale ix
Table des gures xiii
Liste des tableaux xvii
Chapitre 1 Eléments de biologie et
pu es à ADN 1
1.1 La ellule . . . 1
1.2 Le y le ellulaire . . . 3
1.3 Le trans riptome . . . 5
1.4 Les pu esà ADN pour l'étude du trans riptome . . . 6
1.4.1 Les sondes . . . 7
1.4.2 Les ibles etl'hybridation . . . 7
1.4.3 A quisitiondes données . . . 7
1.4.4 Normalisationdes données etpré-traitement . . . 8
1.5 Analyse des données du trans riptome . . . 12
Chapitre 2 Classi ation des prols temporels d'expression de gènes : état de l'art 15 2.1 Prols temporelsd'expression de gènes . . . 16
2.2 Te hniques de lassi ationnon-paramétrique . . . 18
2.2.1 Classi ation hiérar hique . . . 18
2.2.2 Partitionnement par K-means . . . 19
2.2.3 Classi ation par lesréseaux de Kohonen(SOM) . . . . 20
2.2.4 Classi ation selon lathéorie des graphes . . . 21
2.3 Te hniques de lassi ationparamétrique . . . 25
2.3.1 Classi ation par mélangede modèlesgaussiens . . . 25
2.3.2 Classi ation par modélisationdes prols temporels . . . 26
2.4 Con lusion . . . 29
Chapitre 3 Mesures de proximité entre des séries temporelles 31 3.1 Cara téristiques et prétraitements des séries temporelles . . . . 32
3.1.1 Régularitédes séries temporelles. . . 32
3.1.2 Séries temporellesde longueurs diérentes . . . 32
3.1.3 Dé alage temporel . . . 33
3.2 Mesures de proximités entre des séries temporelles . . . 33
3.2.1 Notations pour une formalisationuniée . . . 34
3.2.2 Mesures de proximité fondées sur lesvaleurs . . . 34
3.2.3 Mesures de proximité fondées sur laforme . . . 37
3.2.4 Proximitéentre formes : appro hes on urrentes . . . 40
3.2.5 Mesures de proximité alliant formeetvaleurs. . . 44
3.3 Cara téristiques des prols d'expression de gènes au ours du y le ellulaire . . . 46
3.4 Mesures de proximitéentre des prols d'expression de gènes . . 47
3.5 Con lusion . . . 49
Chapitre 4 Analyse des gènes au ours du y le ellulaire 51 4.1 Intêret de l'étudedu y le ellulaire . . . 51
4.2 Appro he onventionnelle . . . 54
4.2.1 Classement des gènes y liques . . . 54
4.2.2 Re her he de prols types . . . 55
4.3 Appro he adaptative . . . 55
4.4 Appli ations etanalyses omparatives . . . 56
4.4.1 Modèle aléatoirepour la omparaisonde métriques . . . 57
4.4.2 Gènes périodiquement exprimés dans les ellules bro-blastiques humainesHeLa [106℄ . . . 65
4.4.3 Gènespériodiquementexprimésdansles ellulesdu an- er du sein MCF-7 [63℄ . . . 77
Bibliographie 87
Ave le développement rapide de la te hnologie des pu es à ADN depuis
quelques années, il est aujourd'hui possible d'étudier simultanément
l'expres-siondeplusieursmilliersdegènes.Lesdonnéesd'expressionprovenantde ette
nouvellete hnologiesontobservées sous diérentes onditionsexpérimentales.
Nous distinguons prin ipalementdeux typesde données d'expression. Le
pre-mier type de données porte sur l'expression d'un ensemble de gènes observés
au travers d'un ensemble de onditions expérimentales. Ces onditions
pou-vant, par exemple, dénir diérents types de ellules, diérents tissus (sains
vs an éreux). Le se ondtype de données on erne l'évolution de l'expression
des gènes au ours de pro essus biologiques, e sont des données temporelles
d'expression de gènes. Ces données sont généralement analysées pour des
di-re tions diérentes. Certaines données d'expression de gènes sont spé iques
au an er. Elles peuvent être utilisées pour inférer les gènes liés au an er,
an d'identier diérents types de an ers sur la base de es gènes (Liu[61℄).
D'autres données d'expression sont utilisées pour prédire les gènes impliqués
dans ertaines voies de signalisation ellulaire (Novak et Jain [72℄). D'autres
en ore sont des données d'expression de gènes du y le ellulaire, elles sont
utiliséespour déte ter lesgènesimpliquésdans lespro essus de régulationdes
diérentes étapes du y le ellulaire(Cho et al.[16℄, Spellman etal.[94℄).
La grande quantité de gènes observés, ombinée à la omplexité des réseaux
biologiques posent un vrai hallenge pour la ompréhension et
l'interpréta-tion des masses de résultats obtenus. Une étape préalable à l'exploitationdes
données produitespar uneexpérien edepu esàADNest l'utilisationde
te h-niques de lassi ation.Ellespermettent notammentde prédire lafon tionde
ertains gènes oud'extrairedes prols types d'expression de gènes.
Des données d'expression de gènes, obtenues à partir de onditions
physio-logiques réalisées indépendamment, ont été étudiées par Hughes et al. [43℄.
Ces auteurs ont analysé des prols d'expression du génome de la levure
Sa - haromy es ereviseadans
300
onditionsdiérentes.Leurstravauxontpermisde regrouper les gènes de la levure en lasses fon tionnelles et en parti ulier
d'identierdenouvellesprotéinesjouantun rledanslamito hondrie.Lorsque
les onditions expérimentales ne sont plus indépendantes dans le sens oùelles
division ellulaire),onadesdonnéesdeprolstemporelsd'expressiondegènes.
Parhypothèse,lesgènesde prolstemporelssimilairessontimpliquésdansles
mêmes pro essus biologiques.Ainsi,la lassi ationnon supervisée des prols
d'expression de gènes pourrait permettre, entre autres, d'identier la
fon -tion de nouveaux gènes sur labasedes fon tions déjàidentiées pour d'autres
gènes. Les mesures de proximité lassiques, telles que la distan e eu lidienne,
la distan e de Manhattan ou elle fondée sur le oe ient de orrélation de
Pearson, souvent utilisées dans le ontexte des prols temporels d'expression
de gènes,ne semblentpas appropriées puisque leur utilisationsuppose que les
données observées pour haque gènesont indépendantes entre elles.Le
prin i-pal hallenge pour l'évaluationde laproximitéentre prols temporels de gène
est alors l'intégration de l'informationde dépendan e temporelle. Ande
pal-lier e problèmenousnousintéresseronsdon audéveloppementde mesuresde
proximitéentre prols temporels d'expression de gènes etdémontrons leur
ef- a itéparrapportauxméthodesplus onventionnelles.Ce travailsera réalisé
dans le adre de l'analyse, la lassi ation et l'interprétation de prols
d'ex-pressions de gènesdurantle pro essus de division ellulaire,etsera développé
en
4
grandes parties.Dans le hapitre
1
, nous saisissons quelques notions et vo abulaires utiles,sur labiologiemolé ulaire,ande mieuxaborderlasuitedenotreétude.Nous
présentonslesdiérentesétapespermettantd'obtenirdesdonnéesd'expression
de gènespar lesexpérien es des pu es àADN. Ces données sont toujourstrès
bruitées, et pas assez ables en raison de nombreux fa teurs qui ae tent les
expérien es. Unenormalisation des données est don né essaire.Nous
présen-tons les méthodes de normalisationles plus ré entes et les plus utilisées dans
e domaine.
Le hapitre
2
dresse un état de l'art des te hniques de lassi ation les plusutilisées pour l'analyse des données du trans riptome. L'apprentissage non
supervisé est la méthode la plus populaire a tuellement utilisée dans la
pre-mière étape d'analyse des expressions de gènes. De nombreuses te hniques de
lassi ation non supervisée sont utilisées. D'une part, nous distinguons les
te hniques de lassi ation non-paramétriques, basées essentiellement sur des
mesures de proximité entre paires de gènes. Les algorithmes de lassi ation
hiérar hique, de partitionnement et eux portant sur la théorie des graphes
sont employés. D'autres part, au ours de es dernières années, nous assistons
à l'utilisationde plus en plus fréquente des te hniques de lassi ation
para-métriques, modélisant lesprols temporels d'expression de gènes (Bar-Joseph
etal.[5℄, Wuetal.[108℄, Gar ias-Frias[116℄).L'undes prin ipauxmoteursde
ette appro he est l'hypothèse que lesprols temporels d'expression de gènes
sont générés par des modèles dependant du temps. Ces méthodes tentent de
quantier ette hypothèse.
utable : soit elles ne mesurent pas la proximité en formes entre deux prols
d'expression de gènes donnés (distan e eu lidienne), soit elles peuvent mal
évaluer la proximité en forme ( oe ient de orrélation de Pearson). Tenant
ompte de la stru ture temporelle des données d'expression, nous avons
étu-dié dans le troisième hapitre trois famillesde mesures de proximité. La
pre-mière famille dénit des mesures limitées à la omparaison des valeurs des
expressions en ignorant la ontrainte de dépendan e temporelle des données.
La se onde famillese limite à la omparaisondes formes des prols de gènes.
Bien que l'analyse des données d'expression de gènes s'intéresse
prin ipale-ment à la forme des prols de gènes, il nous semble intéressant de onsidérer
simultanément les informations portant sur les é arts en valeurs et en forme
des prols. Dans e ontexte, nous proposons et développons une troisième
famille de mesures ouvrant simultanément les aspe ts formes et valeurs des
prols temporels d'expression de gènes. Ces mesures dépendent d'un fa teur
dénissant les ontributions relatives des omposantes valeurs et forme. Une
formalisationuniée de es mesures est proposée.
L'identi ation et la ara térisation des gènes impliqués dans les phases du
y le ellulaire sont souvent ee tuées par des appro hes lassiques. Ces
ap-pro hes, souvent supervisées, onsidèrent un ensemble de gènes de référen e
onnusquisontsupposés ara téristiquesdesphasesoutransitionsdephasedu
y le ellulaire onsidérées,etutilisentdesmesuresde proximiténonjustiées.
Au hapitre
4
,nousdévelopponsune appro he de lassi ationnon-superviséeadaptativedont le but est d'apprendre la mesure de proximitéà utiliser pour
lesprols temporels d'expression de gènes,et de proposerun nouvel ensemble
degènesderéféren e validébiologiquement.Nous ompareronsnotreappro he
adaptativeave d'autres appro hes lassiques sur un jeu de données simulées
1.1 Congurations plane etspatiale de la stru ture de l'ADN. . . . 3
1.2 Pro essus de la division ellulaire . . . 4
1.3 Dogme entral de la biologie molé ulaire (Sour e site ISIMA,
auteur Vin ent Barra). . . 6
1.4 Les étapes de fabri ationd'une pu e à ADN (Sour e site ENS,
auteur Philippe Mar ). . . 8
1.5 Unepu e onstituée de
16
blo s (4 × 4
) illustrantl'image de latotalitédu trans riptomede lalevure (
6300
gènes)(Soularue etGidrol [92℄). . . 9
1.6 Nuage de points pour une pu e àADN avant etaprès
transfor-mationlog.Sur ettegure,onpeut voir,àgau hesans au une
transformation, que les ee tifs sont plus importants vers les
faibles intensités tandis qu'à droite ave un passage au
loga-rithme àbase
2
, lesintensités sont distribuées de façon uniforme. 101.7 Nuage M vs A pour une pu e àADN. . . 11
1.8 Normalisation par
Lowess
. À gau he, le nuage M vs A avantnormalisation.Enrouge est représentée la ourbede régression
Lowess
épousant l'allure du nuage. À droite, le nuage M vs Aaprès normalisation,la ourbe de régression est une droite. . . . 12
2.1 Exemple de prol temporel d'expression de gène. Chaque pu e
orrespondàuninstantd'é hantillonnage.Lesniveaux
d'expres-sion mesurés sur ha une des pu es sont ins rits sur lamatri e
d'expression de telle sorte que haque olonne représente une
pu e. . . 17
2.2 Classi ation par la méthode hiérar hique as endante de
don-nées temporelles (d'après Eisen et al. [26℄). Chaque gène est
représentéparune seule olonnede ouleurset haque instant
t
paruneseuleligne.Cinq lassesdistin tes,biologiquement
inté-ressantes, sont indiquées par les inq barres olorées (A,B,C,D
et E) et par la oloration de la région orrespondante du
2.3 Prin ipe des artes auto-organisatri es. Laposition initialedes
n÷uds (en bleu) est sur une grillere tangulaire
3 × 2
et estin-diquée parleslignes ontinues ra ordant es n÷uds.Leslignes
pointillées et les è hes représentent les traje toires
hypothé-tiques des n÷uds lorsde leur ajustement par itérations
su es-sives del'algorithmeSOM. Lerésultatnalest omposé des six
n÷uds (en rouge) entourés par les pointsnoirs représentant les
prols d'expression de gènes (Tamayoet al.[97℄). . . 21
3.1 Dé alage temporel des séries
S
1
etS
2
. . . 333.2 Exemple de deux séries temporelles
S
1
etS
2
(en haut). Lare- her hedu heminoptimalentre lesdeuxsériesparlate hnique
delaDTW(aumilieu).Elle aptureledé alagetemporellelong
de l'axe des temps (en bas). . . 35
3.3 La proximité dénie par une distan e eu lidienne dépend
uni-quement de l'é artentre lesobservations prisesaux mêmes
ins-tants.. . . 36
3.4 Exemples de séries temporelles pro hes en valeurs et de formes
opposées (
S
1
etS
2
), vs. distantes en valeurs et de formessimi-laires (
S
1
etS
3
).. . . 373.5 Illustration des limites du oe ient de orrélation de Pearson
fa eauxeets detendan e (a)etfa eauxvaleursextrêmes(b).
Les valeurs enregistrées des oe ients sont signi ativement
élevées
0.74
et0.73
respe tivement. Alors que les séries sontquasiment opposées. . . 38
3.6 Deuxséries
S
1
etS
2
deformesopposées,aveD
q
(S
1
, S
2
) = 0.33
,illutrant lalimite de la distan e de Todorovski.. . . 41
3.7 Àgau he,représentationdetroisséries
S
1
,S
2
etS
3
aved
ST S
(S
1
, S
3
) =
6.4
etd
ST S
(S
1
, S
2
) = 5.3
. À droite, le passageà unestandardi-sationdesdonnéesdonne
d
ST S
(S
1
, S
2
) = 8.7
etd
ST S
(S
1
, S
3
) = 1.8
. 423.8 L'eet du réglageen fon tionde
k
. . . 454.1 Prol d'expression du gène y lique CCNE1 ( y line E1)
ob-servésurune périodede
46
heuresaprèssyn hronisationorres-pondant à trois y les ellulaires. Ce gène s'exprime fortement
pendant la transition
G
1
/S
de l'interphase du y le ellulaire.Chaque phase de y le est délimitée par les traits verti aux et
annotée par
G
1
,S
,G
2
ouM
. . . 534.2 Progressionde l'expression des gènesdurantles
5
phasesG
1
/S
,4.3 Prols des gènes de la phase
G
1
/S
suivant les quatreexpé-rien es. Dans la première expérien e (Experiment
1
), les gènessontdiéren iésparleuramplitudeinitiale.Cesamplitudes
s'at-ténuent dans la longueur du temps,pour lase onde expérien e
(Experiment
2
). La présen e de tendan e est observée pour lesprolsde latroisièmeexpérien e(Experiment
3
),sansatténua-tion d'amplitude et ave atténuation d'amplitude pour la
qua-trième expérien e(Experiment 3). . . 59
4.4 Pour haque expérien eetpour haquemesure(
δ
E
,Cor,Cortet
D
k∗
),laprogressiondesvaleursasw
suivantles10
é hantillonsest représentée. . . 61
4.5 Pour haque expérien eetpour haquemesure(
δ
E
,Cor,Cortet
D
k∗
),laprogressiondesvaleurswbr
suivantles10
é hantillonsest représentée. . . 61
4.6 Pour haque expérien eetpour haquemesure(
δ
E
,Cor,Cortet
D
k∗
),laprogressiondes valeursRI
suivantles10
é hantillonsest représentée. . . 62
4.7 Evaluation des mesures pour la lassi ation des prols
d'ex-pression simulés. La progression des valeurs moyennes des
ri-tères
asw
(gau he),wbr
(droite)etRI
(en bas) est illustrée. . . 624.8 Pour haque expérien eetpour haquemesure(
δ
E
,Cor,Cortet
D
k∗
), la progression des taux d'erreur suivant les10
é han-tillons est représentée. . . 63
4.9 Evaluation des mesures pour le lassement des prols de gènes
suivantlesquatreexpérien es.Laprogressiondesvaleursmoyennes
des taux d'erreur est représentée. . . 64
4.10 La distributiondes valeurs de
k∗
dans la lassement adaptatif . 644.11 Prolsdes
20
gènesde référen e (tableau4.4) observéspendanttrois y les ellulaires, haque gène s'exprimantfortement
pen-dantl'unedes périodes du y le ellulaire.La duréede ha une
des quatre phases du y le ellulaire(
G
1
,S
,G
2
etM
) estdéli-mitée par leslignes verti ales. . . 67
4.12 Progression des valeurs du ritère
asw
(gau he) et du ritèrewbr
(droite) des partitionsP
N,k
, N (Number of lusters) variede
4
à10
etk
varie de0
à6
. . . 684.13 Progression des ratio
asw
/wbr
(gau he) en fon tion du nombrede lasses(variantde
4
à10
),legraphede lasilhouette asso iéeà lapartition
P
N
∗
=4,k
∗
=5.7
(droite). . . 694.14 Les prols d'expression des gènes noyaux au ours des
3
y lesellulaires: lasse
1
(S
), lasse2
(G
1
/S
), lasse3
(G
2
/M
)et lasse4
(G
1
). . . 694.15 La distributiondes valeurs
sw
des prols simulés, lassiésparl'appro he adaptative(gau he) etl'appro he baséesur la
4.16 La progression des valeurs du ritère
asw
(gau he) et elle duritère
wbr
(droite) despartitionsP
N,k
,N(Numberof lusters)varie de
2
à15
etk
varie de0
à6
. . . 784.17 Le graphede lasilhouette asso iée à lapartion
P
N
∗
=8,k
∗
=6
. . . . 794.18 Lesprolsd'expression des gènesnoyauxdes
8
lasses issuesdenotre lassi ation adaptative. Les
10
gènes noyau de haquelasse sont très similaires en forme entre eux et diérents en
2.1 Cinqexpérien es diérentespourl'étudedu y le ellulaire hez
la levure.. . . 17
3.1 Quatre séries temporelles illustrantles limites du oe ient de
orrélationdePearsonfa eauxeetsdetendan eetauxvaleurs
extrêmes. . . 38
3.2 Dénitiondelafon tion
Dif f
.PourdeuxsériesS
1
etS
2
,l'é artentreuna roissementetunedé roissan eestégalà
1
,alorsquel'é art entre un a roissement (ou une dé roissan e) et un état
stable est égal à
0.5
. . . 403.3 La des riptionde deux sériesopposées illustrantla limite de la
distan e de Todorovski à mesurer la proximité entre la forme
des séries temporelles. . . 41
3.4 Troisséries temporelles montrant lalimite de la distan e
d
ST S
. . 433.5 Contribution de la proximitéen valeurs et en forme à
D
k
,pour|
Cort
| =1. . . 463.6 Les prin ipales mesures de proximité entre des séries
tempo-relles, dans un adre unié.. . . 47
4.1 Exemples d'études ee tuées sur la levure et l'espè e humaine
pour l'identi ationde gènes y liques. . . 53
4.2 Spé i ation des paramètres du modèle. . . 60
4.3 Evaluation de l'e a ité des mesures pour la lassi ation :
haque ouple de valeurs représente la moyenne et la varian e
des dix valeurs de
k∗
trouvées pour les10
partitionsP
1j
D
k∗
,...,P
D
10j
k∗
.Evaluationde l'e a itédes mesurespourle lassement:
haque ouple de valeurs représente la moyenne et la varian e
des dixvaleursde
k∗
trouvéespourles10
lassementsC
1j
D
k
,...,C
10j
D
k
604.4 Les
20
gènes de référen e de Whiteld etal. [106℄. . . 664.5 Les ensembles noyaux de lapartition
P
N
∗
=4,k
∗
=5.7
. . . 714.6 Ae tationnaledesgènesfrontaliers(
sw ∈
[−0.05, 0.05
℄)selon4.7 Listedes
39
gènes ompilésdepuislalittératureparWhiteldetal.[106℄.Comparaison des phases publiées(
P ubli − Assi
) aveelles issues de l'appro he onventionnelle (
W hit − Assi
) etdela lassi ationadaptative (
Ada − Assi
). . . 734.8 Les statistiques d'ae tation des
700
prols simulés basés surles lassesnoyaux(sous-tableaugau he) etles lassesréféren es
(sous-tableau droit). Les nombres en gras orrespondent aux
nombres de prols de gènes simulés mal lassiés. . . 76
4.9 La stru ture de voisinagedes
8
lasses de lapartitionP
N
∗
=8,k
∗
=6
. 794.10 Classi ation des
50
gènes identiés par Peddada et al.[78℄se-lon notre appro he adaptative. Cha un de es
50
gènes estdé- rit par son numéro d'identi ation(
ID
, dans la base dedon-nées UniGeneen datedu
11
février2002
),son numérode lasse(
Num − Class
), lenuméro de sa lasse voisine (Num − V ois
),sasilhouette width(
sw
)obtenue par laméthode adaptative,etson ae tation par rapport l'appro he de Peddada et al. [78℄
Eléments de biologie et pu es à ADN Sommaire 1.1 La ellule . . . 1 1.2 Le y le ellulaire . . . 3 1.3 Le trans riptome . . . 5
1.4 Les pu es à ADN pour l'étude du trans riptome. 6
1.4.1 Lessondes . . . 7
1.4.2 Les ibles et l'hybridation . . . 7
1.4.3 A quisition desdonnées . . . 7
1.4.4 Normalisationdes donnéeset pré-traitement . . . 8
1.5 Analyse des données du trans riptome. . . 12
Les méthodes d'analyse du trans riptome les plus utilisées reposent sur la
te hnologiedespu esàADN.Ce hapitrenouspermetd'appréhenderquelques
notions sur la biologie molé ulaire et de dégager les prin ipes de fabri ation
d'une pu e à ADN. L'idée n'est pas de faireun ours sur lesdeux sujets mais
simplement de fournir les éléments de base pour une bonne ompréhension
de ette te hnologie. Nous allons, dans une première étape, donner quelques
notions de la biologie molé ulaire utiles dans e domaine. Ensuite dans un
se ond temps nous abordons les diérentes étapes permettant d'obtenir des
données d'expression de gènes par les expérien es des pu es àADN .
1.1 La ellule
Laplus petite unité stru turaleetfon tionnelle de tous lesêtresvivantsest la
taille, leur forme, leur fon tion, leur omportement, et leur asso iation. Chez
lesorganismes lesplus simplesquesontlespro aryotes (uni ellulaires),le
ma-térielgénétiquen'estpas ompartimentédansunnoyauvraimaisestlibredans
le ytoplasme, 'est le as des ba téries. Par ontre, pour les organismes plus
omplexes, leseu aryotes (uni ou pluri ellulaires),l'informationgénétique est
lo aliséedansun noyau. À ladiéren edes pro aryotes généralement pauvres
en organites, les eu aryotes omprennent diérents ompartiments
fon tion-nels, membraneux (organites) ou dépourvus de membrane. L'Homme, les
in-se tes, lesplantes sont des organismes eu aryotes. On trouve environ
6 × 10
23
ellulesdansunhumain,de
320
typesdiérents(épidermique,mus ulaire,ner-veuse...). La plupart de es ellules sont apables de grossir et de se diviser.
Ellesont un métabolisme, 'est à dire qu'ellesimportentdes nutriments etles
onvertissentenmolé ulesutilesetenénergie.Ellespeuventaussiréagiràleur
environnement.
Il existe deux types fondementalement diérents de molé ules dans la
el-lule : de petites molé ules et des ma romolé ules, qui tiennent des rles
essentiellementdiérents.Lespetitesmolé ules,parexemplelesa idesaminés
etlesnu léotides,servent surtoutde substrats pour onstruire les
ma romolé- ules, et la ellule veille às'approvisionner en toutesles espè es requises pour
les synthèses des ma romolé ules. On regroupe les ma romolé ules en quatre
grandes familles: leslipides,les glu ides,lesprotéines et lesa idesnu léiques
(ADN et ARN). Les prin ipales ara téristiques et fon tions des protéines et
des a idesnu léiquessont dé rites i-dessous.
L'a ide désoxyribonu léique ouADN est une molé uleprésente dans lenoyau
de la ellule. Il joue un rle entral dans la vie ellulaire. En eet, il est à la
foisdétenteur del'informationgénétiquequipermetà la ellule desynthétiser
ontinuellement ses protéines (par l'en haînement séquentieldes pro essus de
trans ription,synthèse des ARN, etde tradu tion, synthèse des protéines), et
il assure latransmission du message génétiqueau ours des générations
ellu-laires(parlepro essusdelarépli ation).Cettema romolé uleaunestru ture
doublehéli e(WatsonetCri k) onstituéededeux brinsanti-parallèles(gure
1.1).Unbrinsimpledel'ADN(aussiappelépolynu léotide)estunpolymère
li-néaire omposédequatrenu léotides.Unnu léotide omprendl'unedesquatre
bases : adénosine (
A
), ytosine (C
), guanine(G
) ou thymine (T
), undésoxy-ribose et un groupementphosphate. Les ouples
A − T
etG − C
sontappeléspaires de bases omplémentaires,de e fait lesdeux brins anti-parallèles vont
s'asso ierpar omplémentaritédesbases.Cette omplémentaritédes basesest
respe tée lors de la répli ation, haque brin de lamolé ule d'ADN servant de
matri epour lasynthèse dubrin omplémentaireaprès ouverturede ladouble
héli e. Ellepermet également la réparation d'erreurs, don laprote tion
d'in-formation liéeà une lésion de l'ADN;et àdeux brins de se retrouver etde se
Fig. 1.1 Congurations plane etspatiale de la stru ture de l'ADN.
Lesa idesribonu léiquesouARNsontdes opiesd'unerégiondel'undesbrins
de l'ADN. Le su re de l'ADN (désoxyribose) est rempla é par un autre su re
(ribose)dansl'ARNetlathymine(T)del'ADNest rempla éeparl'ura ile(U)
dans l'ARN. L'ARN a de multiples fon tions ellulaires, les ARN ribosomaux
(ARNr), de transfert (ARNt), messagers (ARNm) et de petits ARN tels les
small nu lear ribosomes (snARN).
Lesproteines, prin ipalesma romolé ulesde la ellule,sont omposéespar un
ouplusieurs a idesaminés.Ellessontex lusivementsynthétisées dans le
yto-plasmepar l'intermédiairedel'ARNmquipermetletransfertde l'information
génétiquedunoyauvers le ytoplasme,lorsqu'ungènes'exprime.Lesprotéines
sontdon lerésultatnalde l'expression d'ungène (
c.f.
1.3).Certaines sontdes atalyseurs de réa tions himiques : elles permettent à des réa tions
hi-miques de se dérouler rapidement dans les onditions de température et de
pression onformesà lavie.
1.2 Le y le ellulaire
Nous nous intéressons dans ette thèse à l'analyse de l'expression dynamique
des gènesau oursdu y le ellulaire.Lesdonnées quenousallonsétudiersont
alors observées à des moments spé iques durant le pro essus de la division
ellulaire.
Chaque ellule eu aryote est née d'un pro essus de division nommé mitose.
Ellepeut êtredé rite selonlasu ession des étapes(ou phases):
G
1
,S
,G
2
etFig. 1.2 Pro essus de la division ellulaire
ellulaire (gure1.2). Durant lesphases
G
1
,S
etG
2
(regroupées sous lenomde "interphase"), les hromosomes sontdé ondensés et distribuésdans tout le
noyau, la ellule grossit progressivement. La plupart d'entre elles doublent de
tailleentre le début de la phase
G
1
etlaphaseG
2
. La phaseG
1
orrespond àl'intervalle entre lan de la phase
M
et le début de la répli ation de l'ADN
(phase
S
).Au oursde ettephasela elluleee tuesonmétabolismehabituelet grossit régulièrement, elle intègre les signaux mitogènes ou anti-mitogènes
etse prépare pour ee tuer orre tement laphase
S
. Par ontre, l'ADN
n'estsynthétisé que pendant une partie de l'interphase appelée phase
S
durantla-quelle l'
ADN
hromosomique est répliqué. La phaseG
2
est l'intervalle entrela n de la répli ation de l'
ADN
et la phaseM
. Durant et intervallelael-lule ontinue de grossir etde synthétiser des protéines en vuede la phase
M
.Le début de la phase
M
est ara térisé par la désorganisation de l'enveloppenu léaire (par phosphorylation des lamines),la ompa tion des hromosomes
(par phosphorylationdes ondensinesetdeshistones), l'organisationdes
hro-mosomesàlamétaphase,laséparationdes hromatidess÷urs(pardégradation
de ohésines) à l'anaphase, etenn la ytodiérèse. Laplupart des ellules des
organismes pluri ellulaires sont diéren iées an d'exer er des fon tions
spé- ialiséesetne sedivisentplus. Ces ellulessont onsidérées ommeétantdans
1.3 Le trans riptome
Le gène, unité de base du sto kage de l'information génétique, est une
pe-tite séquen e d'ADN. Il y a environ
6000
gènes hez la levure et30000
hezl'homme.L'ensemble du matérielgénétiqued'un individuoud'une espè e
en- odé dans son ADN est alors appelé génome. Aujourd'hui le séquençage du
génome de diverses espè es (levure, souris, homme...) a été réalisé. Il s'agit
de lades ription des séquen es, ougènes, onstituantlesmolé ules d'ADN au
sein du noyau de haque ellule.
Enfon tionde leursbesoins,les ellulesutilisentàuninstantdonnéunepartie
des gènes pour réaliserla synthèse des protéines né essairesaux grandes
fon -tions ellulaires. Le passage du gène à la proteine s'ee tue en deux grandes
étapesde trans riptionet de tradu tion,àl'aide d'un intermédiaireessentiel :
l'ARN messager (gure1.3). Le gèneest trans rit(synthèse de l'ARNm, 'est
latrans ription),l'ARNmest véhi uléhors du noyaudans le ytoplasme ouil
vaservir de matri epour lasynthèse des protéines ( 'est latradu tion). Pour
réaliser la tradu tion, il y a besoin de ribosomes ( ontenant les ARNr, aussi
synthétisés dans le noyau). Les sous-unités ribosomales sont des protéines
ri-bosomalesquis'asso ientauxARNrdanslenoyauavantd'êtrevéhi uléeshors
dunoyau.Deuxsous-unités(lapetiteetlagrande)viennentformerleribosome
sur l'extémité de l'ARNm. L'ARNt vient s'atta her au site du ribosome et la
tradu tion en proteines peut ommen er. À haque odon (triplet de
nu léo-tides) de l'ARNm va orrespondre l'anti odon d'un ARNt. Cet anti odon est
asso ié à un a ide aminé qui est transité au niveau ribosome par l'ARNt. Le
ribosomesedépla esur l'ARNmetlaren ontre d'un odon quine orrespond
à au un anti odon met n à latradu tion.
Sa hantqueplusieurs opiesde diérents ARNmpeuventêtre produitesàdes
niveaux diérents en fon tion de l'a tivité de la ellule, le trans riptome
re-étera don le niveau d'expression de tous les gènes à un temps
t
pour uneondition physiologique donnée. Il est le reet instantané de l'a tivité
ellu-laire, et peut don varier d'un type ellulaire à l'autre (neurone, ellule de
la peau...),au ours du temps oudes diérentes phasesdu y le ellulaire,en
fon tionde onditionsenvironnementalesimposéesaux ellules,ouen fon tion
de l'étatsain oupathologiquede es dernières.Letrans riptome, représentant
l'ensemble des ARNmtrans rits, parti ipe lairementàla déterminationde la
fon tiondesgènesauseind'une ellule.Demanièregénérale,pouvoir omparer
le trans riptomede diérents types ellulaires, dans diérentes onditions, ou
pouvoiranalyser l'ensemble du trans riptome d'une ellule à divers stades de
son y le ellulaireou dans diverses onditions pathologiques, doit permettre
d'une part de mieux omprendrele fon tionnement ellulairesur le plan
fon-damental,etd'autrepartd'orir beau oupd'intérêtsen termesd'appli ations
Fig.1.3Dogme entraldelabiologiemolé ulaire(Sour esiteISIMA, auteur
Vin ent Barra).
1.4 Les pu es à ADN pour l'étude du
trans rip-tome
Leprin ipedes pu esàADNreposesurleste hniques d'hybridationdel'ADN
simple brin àson brin omplémentaire (Southtern blot [93℄), ensuiteadaptées
pourl'étudedesARN(Northernblot)auniveaud'unseulgène.Ceste hniques
ont surtout posé le problème de l'étude au niveau du génome des pro essus
biologiques omplexes. Aujourd'hui, les pu esà ADN orent auxlaboratoires
la possibilité d'étudier des phénomènes à l'é helle du génome. Elles
appar-tiennent àun ensemble de nouvelles te hnologies développées depuis quelques
années à l'interfa e de nombreuses spé ialités omme la biologie molé ulaire,
la himie, l'informatique,l'éle tronique etla robotique.
Les pu es à ADN onnaissent depuis quelques années un essor onsidérable,
ar ellespermettentl'analyseàhautdébitde milieuxbiologiques,par exemple
pour la déte tion de mutations asso iées à ertaines maladies. Con rètement,
elles permettent de visualiser simultanément le niveau d'expression de
plu-sieurs milliers de gènes dans un type ellulaire et un ontexte physiologique
et/ou pathologique parti ulier. Elles ont d'abord été onçues sur de grandes
membranes poreuses en nylon ou ma roarrays (Gress et al. [35℄, Nguyen et
al. [71℄, Pietu et al. [77℄). La miniaturisation,rendue possible par les progrès
de la robotique, a ensuite permis le développement des mi roarrays. Comme
leur noml'indique, es pu essontde petitessurfa es tellesune lamede
présentent l'avantage de pouvoir être de très haute densité et par onséquent
sus eptibles de re ouvrirl'intégralitédu génomehumain. Lafabri ationd'une
pu e à ADN peut se dé omposer en trois étapes : la produ tion des sondes
(fragments ourts d'ADN de séquen es onnues) et leur dépotsur lesupport,
la produ tion et le marquage des ibles (fragments ourts d'ADN que l'on
her he àidentier), ennl'hybridationdes sondes ave les ibles.
1.4.1 Les sondes
Pour l'étude du trans riptome, les sondes sont les séquen es d'ADN double
brin. Elles sont ampliées par la te hnique PCR (polymerase hain rea tion)
etsont ensuitedéposées sur lalame par un robotmuni d'aiguillessur laquelle
elles sont xées par un pro édé himique adéquat. La zone de dêpot du gène
est appelée spot. L'ADN des sondes est dénaturé en simple brin, juste avant
l'hybridation,pour permettre par lasuiteune hybridationave les ibles
mar-quées.
1.4.2 Les ibles et l'hybridation
La préparation des ibles onsiste à extraire des ARNm de deux expérien es
de ultures ellulaires de même type dont on veut omparer l'expression des
gènes(parexemple ellulessainesversus ellules an éreuses, ellulessauvages
versus ellules mutées ou ellules témoins versus ellules traitées). Les ibles
orrespondant aux deux ultures sont marquées par deux uoro hromes, par
exempleCy5(rouge)pourune ultureetCy3(vert)pourl'autre,and'évaluer
et de quantier de manière omparativeentre lesdeux ultures l'appariement
sonde/ ible. Ce marquagese fait lors d'unetrans ription inverse, où l'ARNm
est retransformé en ADN omplémentaire marqué ou ADN . Les deux
é han-tillons d'ADN sont alors mélangés et hybridés sur la pu e. Un brin d'ADN
uores ent( ible)quiren ontre son omplémentaireADNsimplebrin (sonde)
s'apparie ave luipour redonnerde l'ADN doublebrin.Cette hybridation,qui
dure quelques heures en milieu liquide, est suivie d'un lavage du substrat qui
permet d'éliminer les ibles non xées, ou xées non spé iquement. Lapu e
est alors sé hée avant de passer aus anner pour déte ter les hybridations.
1.4.3 A quisition des données
L'a quisition des images se fait au moyen d'un s anner. Dans le as du
mar-quageave deuxuoro hromes,uneimagenumériqueesta quisepour
l'é han-tillon marqué ave leCy3 etune en Cy5. Un spotde ouleur verte indique un
gène dont leniveau d'expression est plus élevé dans l'é hantillon marqué ave
le Cy3 que elui marqué ave le Cy5, et inversement pour un spotde ouleur
rouge.Lespotapparaitjaunelorsquelegèneestexpriméde manièreidentique
dans les deux é hantillons omparés et le noir symbolise l'absen e de signal.
Fig. 1.4 Les étapes de fabri ation d'une pu e à ADN (Sour e site ENS,
auteur PhilippeMar ).
qui permet de déterminer leurs oordonnées sur la pu e, la segmentation qui
lasse, pour haque spot,lespixels"signal"des pixels"bruit de fond"etenn
l'extra tion des données onsistant à dénir les intensités des signaux Cy3 et
Cy5. Pour haque spot, on retient une valeur de l'intensité du signal rouge
(notée
R
faisant référen e au uoro hrome Cy5) et du signal vert (notéeV
pour leCy3) ainsi que les valeurs du bruit de fond orrespondant. L'intensité
du signal est proportionnelle à l'intensité d'hybridation, don à l'expression
du gène iblé. À l'issue de l'analyse d'image, les valeurs brutes des intensités
obtenues sont ensuiteltrées etnormalisées pour obtenir des valeurs relatives
ou ratio d'expression pour ha un des gènesprésent sur lapu e.
1.4.4 Normalisation des données et pré-traitement
Avantde omparer defaçon pré iselesdeuxé hantillons,ilestné essaire
d'ef-fe tuer une normalisation relative des deux intensités de uores en e (Smyth
and Speed [90℄); an de s'assurer que les diéren es observées dans les
in-tensités sont dues à des diéren es réelles d'expression et non à des artefa ts
expérimentaux. En eet le rapport des intensités brutes
R/V
est biaisé pourplusieurs raisons bien onnues. Lors de la fabri ation de pu es à ADN, les
sour esde variabilitésont nombreuses. Nouspouvons iter,entre autres,
l'am-pli ationdessondesparlate hnique
P CR
etleurpositionnementsurlapu e,Fig. 1.5 Une pu e onstituée de
16
blo s (4 × 4
) illustrant l'image de latotalité du trans riptomede lalevure (
6300
gènes)(Soularue et Gidrol[92℄).des sour es prin ipales de variation intervient au moment de l'in orporation
des uoro hromes Cy3 et Cy5. Le but de la normalisation est d'identier les
biais te hniques, de les quantier etde lessoustraire du signal avant
d'analy-ser l'expression des gènes. L'analyse biostatistique en aval re ommande
d'ef-fe tuer des repli atsbiologiques et te hniques pour augmenter la abilité des
résultats. Cependant les diérentes expérien es ne donnent jamais les mêmes
résultats. Ces sour es de variabilité et l'a umulation des erreurs
expérimen-talesae tentde manièrenonnégligeablelesvaleursdesintensitésdessignaux
et ont tendan e à bruiter lesdonnées d'expression de gènes. Bien souvent, on
peut hoisirde orrigerl'intensitédu signalmesuré par lebruitde fond
(Koo-perberg etal.[54℄).Dans e as, haque gène sera ainsi asso iéà un ouplede
valeurs orrigées (
R
c
,V
c
).Appro hes de normalisation
Des transformations préliminaires permettent de diminuer un peu la
variabi-lité des mesures. En parti ulier, le rempla ement des données brutes par leur
logarithmeàbase
2
permetderéduirel'inuen edesvaleursaberrantes (gure1.6).
Le prin ipe de la normalisation repose sur l'hypothèse fondamentale que la
plupartdes gènes ont lemêmeniveau d'expression dansles deux é hantillons,
e qui signieque peu de gènes sont diérentiellementexprimés. Par la suite,
on s'intéresseà la omparaisondes expressions dans les deux uores en es en
Fig.1.6Nuagedepointspourunepu eàADNavantetaprèstransformation
log. Sur ette gure, on peut voir, à gau he sans au une transformation, que
les ee tifs sont plus importants vers les faibles intensités tandis qu'à droite
ave un passageaulogarithmeàbase
2
,lesintensitéssontdistribuéesde façonuniforme.
notés
M
en fon tion de lalog
2
-intensité globale moyenne sur le spot notéeA
. Ce nuage de points devrait alors se situer autour de l'axe des abs issesde façon symétrique. Or, nous observons une déformationde e nuage que la
normalisation vatenter de orriger(gure 1.7). Par dénition :
A = log
2
p(R × V ) =
[log
2
(R) + log
2
(V )]
2
,
(1.1)M = log
2
(R) − log
2
(V ) = log
2
(R/V ).
(1.2)Il existe plusieurs typesde normalisationdes données (Park etal. [75℄, Wu et
al. [109℄, Fujita et al. [29℄). Les méthodes qui ont été utilisées sont de type
global. Exemple, lanormalisation par la moyenne ou la médiane: elle repose
sur l'hypothèsequelerapport d'intensité entre
R
etV
ne dépend pas dugèneet reste onstant. Ce qui équivaut à
M
i
= K
(K
représente lamoyenne ou lamédiane des valeurs
log
2
-ratios), oùi = 1, ..., S
etS
le nombre de spots dela pu e. On normaliseen retran hant ette valeurà l'ensemble des
log
2
-ratiospour entrerl'ensemble desmesures sur un
log
2
-ratioàzéro.D'autrepart,unenormalisation par regression linéaire suppose que
M
etA
sont liés par unefon tionlinéairedetype
M = a + b(A)
.Cependant es méthodessontlimitées,ar nous remarquons souvent que la nature des relations entre les intensités
sont non linéaires.Une fon tionqui prendrait laformede l'alluredu nuageM
Fig. 1.7 Nuage M vs A pour une pu e àADN.
te hnique trésutiliséeetbasée surune méthode de régressionlo alepondérée,
appelée
Lowess
(Lo allyWeightedS atterplotSmoothing)(gure1.8).Ils'agitdon d'une orre tion non-linéaire qui permet de prendre en ompte la
non-linéarité de la relationqui existe entre les intensités
R
etV
et qui est déniepar :
M
i
= Lowess(A
i
)
(1.3)La orre tionlowesspeutaussiêtrefaiteparblo pour orrigerprin ipalement
l'intera tion gène
×
blo×
uoro hrome 'est à dire le biais spatial.L'ajustement d'é helle
Il est né essaire de pro éder à un ajustement d'é helle. Ce i pour garantir la
mêmedispersiondes
log
2
-ratiosauseinde haque blo .I i,onfaitl'hypothèseque les
log
2
-ratios suivent une distribution normale de moyenne nulle et devarian e
α
2
j
σ
2
, oùσ
2
est la varian e des vrais
log
2
-ratios,α
2
j
est un fa teurd'é helle pour le
j
ème blo . Ce fa teur est estimé par :ˆ
α
j
=
MAD
j
(
Q
J
j=1
MAD
j
)
1
J
(1.4)où MAD est l'é artabsolu médian(median absolute deviation) déni par :
MAD
j
= median
i
{|M
ij
− median
i
(M
ij
)|}
(1.5)M
ij
est lei
èmelog
2
-ratio duj
ème blo ,i = 1, ..., I
;I
est le nombre de gènesFig. 1.8 Normalisationpar
Lowess
. À gau he, le nuage M vs A avantnor-malisation.Enrouge est représentée la ourbede régression
Lowess
épousantl'alluredu nuage.À droite,lenuage Mvs A aprèsnormalisation,la ourbede
régression est une droite.
estimées, onpeut faire l'ajustementd'é helle :
M
′
ij
=
M
ij
ˆ
α
j
(1.6)Lanormalisation
Lowess
par blo ave un ajustementd'é helleentre lesblo sest une appro he de normalisation senséedans le adre des pu es à ADN.
1.5 Analyse des données du trans riptome
Lagrande quantité de gènesobservés(environ
6000
hez lalevure,30000
hezl'Homme) ombinée à la omplexité des réseaux biologiques posent un vrai
hallenge pour la ompréhension et l'interprétation des masses de résultats
obtenus. Une étape préalable à l'exploitationdes données produites par ette
nouvelle te hnologieest l'utilisationde te hniques de lassi ation. Elles
per-mettent de réduireentre autresla dimensionnalitédes données, d'extrairedes
prolstypesd'expression de gènes,oude prédirelafon tionde ertainsgènes.
Nousdistinguonsprin ipalementdeux typesd'étudedes donnéesd'expression.
Lapremièreportesurl'expression d'unensemblede gènes(individus)observés
au travers d'un ensemble de onditions expérimentales (les dimensions). Ces
onditions pouvant, parexemple, dénirdiérents types de ellules,diérents
se ond type d'analyse s'intéresse à l'étude de l'évolution de l'expression des
gènes au ours de pro essus biologiques. Les gènes de prols temporels
simi-laires, dits o-exprimés, sont onsidérés omme o-régulés, à savoir asso iés
auxmêmesfon tions biologiquesetimpliquésdanslesmêmespro essus
biolo-giques. Ainsi la lassi ation non supervisée des prols d'expression de gènes,
permetentre autres d'identier la fon tion de nouveaux gènes sur la base des
fon tions déjàidentiées des gènes o-régulés (Eisen et al.[26℄, Iyer etal.[44℄,
Gas h etal.[31℄, Storey etal. [95℄, Leng etMüller. [57℄).
Ce travail de thèse s'ins rit dans e dernier adre d'analyse. Nous nous
in-téressons àl'analysedesprolstemporelsd'expression d'unensemble de gènes
au ours du pro essus de division ellulaire. La division ellulaireest le
prin- ipal pro essus de prolifération des ellules,devenant aberrant dans le as de
ellules an éreuses (Golub et al. [34℄). L'enjeu prin ipal de nos travaux se
fo alise sur des données de gènes exprimés au ours du y le ellulaire. Dans
toute la suite de e rapport, nous utilisons "prols temporels d'expression de
gènes"pourparlerde lanaturetemporellede es données. Le hapitresuivant
dresse un rapide état de l'art des prin ipales te hniques de lassi ation non
supervisée utilisées pour l'analyse de prols temporels d'expression de gènes.
Nous utilisons simplement le terme lassi ation à la pla e de lassi ation
Classi ation des prols temporels
d'expression de gènes :
état de l'art
Sommaire
2.1 Prols temporels d'expression de gènes . . . 16
2.2 Te hniques de lassi ation non-paramétrique . . 18
2.2.1 Classi ation hiérar hique . . . 18
2.2.2 Partitionnement par K-means . . . 19
2.2.3 Classi ation par lesréseaux deKohonen (SOM) . . 20
2.2.4 Classi ation selonlathéorie desgraphes . . . 21
2.2.5 Critères devalidation dunombre de lasses . . . 22
2.3 Te hniques de lassi ation paramétrique . . . 25
2.3.1 Classi ation par mélangede modèles gaussiens . . . 25
2.3.2 Classi ation par modélisationdesprols temporels 26
2.4 Con lusion. . . 29
L'identi ationdes gènes oexprimésest un desproblèmes lassiquesde
l'ana-lyse du trans riptome. Ces dernières années, on assiste à l'émergen e d'une
littérature abondante portant sur l'utilisationdes te hniques de lassi ation
etd'analyse de données pour l'analysede données d'expression de gènes (e.g.,
Yeungetal.[114℄,Jiangetal.[46℄,DeHoonetal.[21℄,Bréhélin[9℄,
Chaiboon- hoe et al. [12℄, et ...). On note en parti ulier les nombreux travaux dédiés à
l'analysedeprolstemporelsd'expressiondegènes(
e.g.
,Jiangetal.[47℄,Ernstat al. [27℄, Ma et al. [64℄, Kim et al. [52℄, Das et al. [20℄, et ...). Dans e
ha-pitre, nous dressons un rapideétat de l'art des te hniques de lassi ation les
se tion, nous donnons une des ription sommaire sur la génération de prols
temporels d'expression de gènes. La se tion suivante rappelle les te hniques
non paramétriques qui, généralement, se fondent sur la dénition d'une
me-sure de proximité. Nous aborderons leproblème de déterminationdu nombre
de lasses à onsidérer etdégagerons ertains ritèresquilesvalident.Dans la
dernièrese tion,nousprésentonslesté hniquesde lassi ationparamétriques
qui onsidèrent le problème sous un aspe t statistique avant de dédager une
on lusion.
2.1 Prols temporels d'expression de gènes
Les expérien es des pu es à ADN permettent de mesurer la quantité
trans- rite par un gène à un instant donné. En suivant l'évolution de l'expression
d'un gène sur plusieurs instants su essifs pour une durée déterminée, on
ob-tient son prol temporel d'expression. Par exemple, pour une expérien e sur
n
gènes que l'on souhaite observer surp
instants (t
1
, t
2
, ..., t
p
), on dispose dep
pu es orrespondant àp
é hantillons. Sur haque pu e, on pla e le mêmegène
i
(i = 1, 2, ..., n
)en unemêmeposition.On dispose ensuited'unematri en × p
dont haque ligne représente un gènei
et haque olonne orrespond àun instant
t
k
(k = 1, 2, ..., p
).À haque instantt
k
,laquantitéd'expressionx
i,t
k
du gène
i
est prélevée et ins rite sur la lignei
et la olonnek
de la matri e.À la n de l'expérien e, on obtient lamatri e d'expression des gènes.Chaque
ligne de lamatri ereprésenteun ve teurd'expression ouprol temporel
d'ex-pression du gène, que nous notons
g
i
= (x
i,t
1
, x
i,t
2
, ..., x
i,t
p
)
et haque olonnede lamatri eest un é hantillon prélévé àl'instant
t
k
(gure2.1).Les prols temporels d'expression dé rivent, par exemple, le niveau
d'a tiva-tion d'ungèneau oursd'un pro essusbiologiquetelqueladivision ellulaire,
le degré de réponse d'un gène à un traitement,ou plus généralement à la
ré-ponseaux onditions environnementales(Iyer etal.[44℄,Gas hetal.[31℄).Le
tableau2.1présente
5
expérien esdiérentesréaliséespourétudierle y leel-lulaire hez lalevure etproduisantdes prolstemporelsd'expressionde gènes.
Nousnotons quelesinstantsd'é hantillonnagene sontpas toujours uniformes
etvariententrelesdiérentesexpérien es. Enplus,laduréedu y le ellulaire
varie en fon tion du type ellulaire, et pourrait varier aussi en fon tion des
onditions expérimentalespourun mêmetype(Choetal.[15℄,Spellmanetal.
[94℄,Zhu etal. [117℄, Pramilaet al.[80℄).
Souvent, la phase suivante pour l'analyse de la matri e d'expression est la
lassi ation des gènes qui présentent des prols temporels similaires.
Plu-sieurs travaux ont été réalisésen utilisant des méthodes de lassi ation
Fig. 2.1 Exemple de prol temporel d'expression de gène. Chaque pu e
orrespond à un instant d'é hantillonnage. Les niveaux d'expression mesurés
sur ha une des pu es sont ins rits sur la matri e d'expression de telle sorte
que haque olonne représenteune pu e.
Nom Début(min) Fin(min) Durée(min)du E hantillonnage
é hantillonnage é hantillonnage yle ellulaire
Spellmanetal.[94℄ 0 119 64 toutesles7min.
Spellmanetal.[94℄ 10 290 112 toutesles20minde0à
70,toutesles10minde
70à250,toutesles20
minde250à290.
Choetal.[15℄ 0 160 85 toutesles10min.
Zhuetal.[117 ℄ 0 210 105 toutesles15minde0à
165,puis45minde165
à210.
Pramilaetal.[80℄) 0 120 60 toutesles10min.
Tab.2.1 Cinqexpérien es diérentes pourl'étudedu y le ellulaire hez la
levure.
Tavazoie etal.[100℄,Ben-Dor etal.[7℄). D'autres, omme Peddadaetal.[78℄,
Bar-Joseph et al. [5℄, Ramoni et al. [82℄, S hliep et al. [86℄ se rapportent à
des méthodes paramétriques.Nous présentons brièvement es travauxdans la
2.2 Te hniques de lassi ation non-paramétrique
Leste hniques de lassi ationnon-paramétriques sont baséesessentiellement
sur des mesures de proximité entre paires d'objets. Les algorithmes de
lassi- ation hiérar hique, de partitionnement (k-means et SOM) et eux portant
sur la théorie des graphes sont employés dans le adre de l'analyse de prols
temporels d'expression de gènes. Les résultats issus des es te hniques sont
rigoureusement validés par des statistiques etdes onnaissan es biologiques.
2.2.1 Classi ation hiérar hique
Les méthodes hiérar hiques sont les premières appro hes utilisées pour
l'ana-lyse des données de prols temporels d'expression (Eisen etal. [26℄, Spellman
etal.[94℄,Wenetal.[105℄).Eisenetal.[26℄ontpopulariséleurutilisationpour
lasser des prols temporels d'expression de gènes. Ils ont étudié l'évolution
desniveauxd'expressionde
2467
gènesdelalevureau oursdu y le ellulaire.Unedistan e fondée sur le oe ientde orrélationest utiliséepour omparer
lesgènes.Lelienmoyen, onnusouslenomde UPGMA(UnweightPairGroup
MethodwithArithmeti mean)est onsidéré ommedistan e entre lasses.Par
la suite,
10
groupes représentatifs sont extraits, ontenant des gènes qui ontdes prolstemporels d'expression semblables.Les auteurs ontmontré que es
groupes de gènes oexprimés partageaient une même fon tion biologique. À
partir de ette étude, ils ont montré que les gènes présentant un prol
d'ex-pressionsimilaire(gènesde même lasse)sonttrèssouventimpliquésdansune
même fon tion biologique.
Ces auteurs ont développé un outil d'analyse graphique intera tive et de
vi-sualisationdes résultats(
T reeview
) permettantd'a her lesprolsdes gènessous forme d'une arte d'expression olorée. Chaque gène est représenté par
une seule olonnealternant les ouleurs rouge (forte expression), verte (faible
expression) et noire (expression nulle), et haque ligne représente un instant
t
. L'asso iation du dendrogramme ave la arte olorée (gure 2.2) permetune visualisationglobalede lamassede données, meten éviden e des groupes
de gènes omposant les diérentes lasses et donne une nouvelle le ture de
es lasses en terme de niveau d'expression. La pro édure de l'algorithme
or-ganise les gènes de manière hiérar hique dans un dendogramme, néanmoins,
Gersteinet Jansen [32℄ notentqu'il n'ya au une raison de roirequ'ils y sont
naturellement organisés. D'autres part, es méthodes sont mal adaptées aux
grands ensembles de données ar trop oûteuses en ressour e mémoire et ne
remettentjamaisen auseles lassesobtenues :siune mauvaiseae tationest
faiteaudébutdu pro essus,ellenepeutpasêtre orrigéeetpeutdon ae ter
Fig. 2.2 Classi ation par la méthode hiérar hique as endante de données
temporelles (d'après Eisen et al. [26℄). Chaque gène est représenté par une
seule olonne de ouleurs et haque instant
t
par une seule ligne. Cinq lassesdistin tes, biologiquementintéressantes, sont indiquées par les inqbarres
o-lorées (A,B,C,D et E) et par la oloration de la région orrespondante du
dendrogramme.
2.2.2 Partitionnement par K-means
Uneautrefamilledeméthodesde lassi ationest elledesalgorithmesde
par-titionnement. Ces méthodes né essitent de spé ier préalablement le nombre
de lasses. L'une des plus utilisées est l'algorithme des K-means proposé par
Ma Queen [67℄. Sa grande popularité vient de sa simpli ité on eptuelle, sa
rapidité d'exé ution et ses faiblesexigen es en taillemémoire.Il ore aussi la
possibilitéde partitionnerunensemblevolumineuxdedonnéesàmoindre oût.
Les auteurs Tavazoie et al. [100℄ ont analysé
3000
prols de gènes de lale-vure (Sa haromy es erevisiae),mesurés sur
15
instantsd'é hantillonnageetobservésau ours de deux y les ellulaires.Ils appliquentl'algorithmedes
K-meanspour partitionner es donnéessu essivement en
10
,30
et60
lasses.Lasimilaritéentre lesgènes est mesurée par ladistan e eu lidienne et lerésultat
en
30
lasses est retenu. Ces travaux ont permis de montrer la présen e, auseindesrégionspromotri esdes gènesd'unemême lasse,d'uneséquen e
om-mune orrespondant au site de xation d'un fa teur de trans ription, haque
lasse étant ainsi asso iée à une séquen e spé ique. Ces données suggèrent
que l'expression des gènes d'une lasse est o-régulée par un même fa teur de
trans ription pour exer er une fon tion biologique ommune.
Cet algorithme est sensible aux valeurs extrêmes. Pour surmonter e point,
Kaufman et Rousseeuw [50℄ proposent d'utiliser l'algorithme PAM
(Partitio-ning Around Medoids) où la médoïde, l'objet représentatif d'une lasse, est
non stru turée : il produit un ensemble de lasses non organisées (en terme
de voisinage)dans lequellesrelationsentre lasses sontdi ilesàinterpréter.
Dans e ontexte, on her he souvent à utiliser des méthodes qui ont une
a-ra téristique parti ulière permettant d'imposer une stru ture partielle sur les
lasses.
2.2.3 Classi ation par les réseaux de Kohonen (SOM)
LesréseauxdeKohonen,appelésaussi artesauto-organisatri es(Self
Organi-sationMap-SOM), ontétédéveloppésparKohonen[53℄. C'estun algorithme
qui permet à la fois un apprentissage non-supervisé rapide des gènes et leur
représentation. Il utilisele réseaude neurone arti ielet respe te la topologie
de l'espa e des gènes en intégrant une notionde voisinage entre lasses.Ainsi,
deux gènes voisins dans l'espa e d'entrée appartiennent à la même lasse ou
à des lasses voisines à la sortie. Cette topologie est dénie par des n÷uds
onne tés entre eux, et le nombre de n÷uds détermine le nombre de lasses
qui sont disposées sur une grille re tangulaire, par exemple (gure 2.3). Les
n÷udssont ara térisésàlafoisparleurpositionsurlagrilleetparunve teur
ode représentant de haque lasse.La dénitionpréalable de la onguration
géométrique des lasses,orantunevisualisationaiséedes données,faitla
dis-tin tion prin ipalemententre SOM etles K-means.
Tamayo et al.[97℄ ont appliqué l'algorithme SOM, ave
30
n÷uds dénissant30
lassesdisposés sur une grille6 × 5
, pour l'analyse du y le ellulaire de lalevure Sa haromy es erevisiae en lassant l'expression de
828
gènes.Lesni-veaux d'expressionpour haque gènesontre ueillisàintervallesde
10
minutessurdeux y les ellulaires(
160
minutes).Lesn÷udssontrappro hésauxgènesétudiéspar l'utilisationde ladistan e eu lidienne.Unpro essus itératif(entre
20000
et50000
itérations)dépla elesn÷udsvers lesgroupesde gèneslespluspro hes.
Les points les plus remarquables de et algorithme sont qu'il permet de
ré-duire l'espa e multidimensionneldes données en un espa e
1
D,2
D (qui sontles plus utilisés)ou
3
D, etde fa iliter leur visualisationet leur interprétation.Toutefois, il peut être di ile d'identier les lasses ave les outils de
visuali-sation habituels de l'algorithme SOM. De plus, tout omme l'algorithme des
K-means, la pro édure de l'appro he SOM exige un nombre de lasses non
onnuapriori. Dans e ontexte, Fernandez etBalzarini [28℄proposentla
mé-thodeRP-Q,appliquéeàl'analysedesprolsd'expressiondegènes,quisemble
intéressante pour donnerune meilleurevisualisationet estimation du nombre
de lasses dans SOM. Ghouila et al. [33℄ proposent l'algorithme de
lassi a-tion Multi-SOM, basé sur la méthode SOM ave plusieurs niveaux de grilles,
an de surmonter le problème de l'estimation du nombre de lasses.
sup-Fig. 2.3 Prin ipe des artes auto-organisatri es. La position initiale des
n÷uds (en bleu) est sur une grille re tangulaire
3 × 2
et est indiquée parles lignes ontinues ra ordant es n÷uds. Les lignes pointillées et les è hes
représentent les traje toires hypothétiques des n÷uds lors de leur ajustement
par itérations su essives de l'algorithme SOM. Le résultat nal est omposé
des six n÷uds (en rouge) entourés par les points noirs représentant les prols
d'expression de gènes (Tamayo etal. [97℄).
poser que ertaines vraies stru tures de lasses n'existent que sous forme de
graphes qui représentent la orrélation entre les diérents gènes (Ben-Dor et
al. [7℄). Des appro hes de lassi ation utilisent ainsi les graphes ou plus
pré- isément la théorie des graphes pour partitionner un ensemble de gènes sans
la né essité de prédénir lenombre de lasses.
2.2.4 Classi ation selon la théorie des graphes
Des te hniques de lassi ation fondées sur lathéorie des graphes sont
appli-quées aux données d'expression de gènes et sont expli itement présentées en
termesdegraphe(Ben-Doretal.[7℄, ShamiretSharan[88℄,HartuvetShamir.
[37℄, Das et al. [20℄). Formellement, on représente l'ensemble des gènes sous
formed'ungrapheappelégraphedeproximité
G
où haquesommet orrespondà ungène. Chaquepaire de gènesest reliéepar une arêtequi peut être
pondé-rée en fon tion de lavaleur de leurproximité(ShamiretSharan[88℄), ouen