G`ene ↵ Esp`ece A G`ene Esp`ece A
(b) In-paralogieentre les g`enes ↵et de A.
G`ene ↵ ancestral(=Sp´eciation
G`ene ↵ Esp`ece A G`ene ↵ Esp`ece B(=Duplication
G`ene ↵ Esp`ece B G`ene Esp`ece B
(c) Out-paralogieentre le g`ene↵de A et le g`ene de B.
La duplication g´enique est souvent suivie d’une divergence fonctionnelle des g`enes
dupliqu´es. Un des g`enes conserve la fonction du g`ene ancestral et l’autre diverge
pour acqu´erir une nouvelle fonction [Fitch,1970,2000].
• X´enologie Deux g`enes sont x´enologues si leur homologie traduit une histoire ´evolutive
commune mais, pour l’une des esp`eces les h´ebergeant, n’est pas li´ee au g`ene pr´esent
dans l’ancˆetre direct dont ces derni`eres sont issues. Dans les g´enomes bact´eriens, la
pr´esence de s´equences x´enologues t´emoigne fr´equemment d’un transfert
horizon-tal de g`enes (THG) inter-r´eplicons et/ou inter-individus. L’´evolution des g´enomes
bact´eriens ´etant soumise `a un flux important de THG ([Bapteste et al., 2009;
Doolittle and Bapteste, 2007]), la d´etection d’orthologues au sein des di↵´erents
r´eplicons est souvent d´elicate et bruit´ee par les x´enologues.
3.3 Concept du g´enome-cœur
De nombreuses ´etudes mettent en avant la pr´esence d’une collection de g`enes homologues
chez l’ensemble des membres d’une esp`ece (par exemple, pourSalmonella enterica [Lan
et al.,2009] ou Helicobacter pylori). Cela a conduit `a la proposition de l’hypoth`ese du
g´enome-cœur ou Core Genome Hypothesis [Lan and Reeves,1996]. Cette th´eorie
dis-tingue la fraction du g´enome (le cœur) partag´ee par tous les membres de l’esp`ece, de
la fraction auxiliaire qui est seulement pr´esente dans une sous-population. Le
g´enome-cœur d´efinit ainsi les sp´ecificit´es d’une esp`ece bact´erienne. Les g`enes du g´enome-g´enome-cœur
codent principalement les fonctions m´etaboliques essentielles et les processus cellulaires
de transmission d’information [Riley and Lizotte-Waniewski,2009]. Ainsi,une part
im-portante des g`enes des STIG sont inclus dans le g´enome-coeur des bact´eries.
Les g´enes de la partie auxiliaire sont principalement les g`enes codant des fonctions
m´etaboliques suppl´ementaires, utiles dans le contexte de certaines ´ecologies, et sont
plus fr´equemment associ´es `a des plasmides ou des ´el´ements mobiles [Riley and
Lizotte-Waniewski,2009].
3.4 Fouille de donn´ees en g´enomique
3.4.1 M´ethodes analytiques
Avec l’explosion de la production de donn´ees g´enomiques, et en particulier l’av`enement
de nouvelles technologies de s´equen¸cage de l’ADN et des m´ethodes chip-seq, les
cher-cheurs sont confront´es `a un a✏ux massif de donn´ees g´enomiques, transcriptomiques,
prot´eomiques ou physiologiques. Cette avalanche de donn´ees est devenue un d´efit pour
les bio-analystes et requiert le d´eveloppement constant de m´ethodes analytiques
permet-tant de traiter de fa¸con pertinente (et de stocker) des quantit´es toujours plus imporpermet-tantes
d’information g´en´etique bruit´ee dans des temps raisonnables.
Les donn´ees `a analyser sont souvent multivari´ees,i.e., d´ecrites par une collection de
pa-ram`etres (taux d’expression g´enique, pr´esence/absence de g`enes, ´ecologie des organismes
...) g´en´eralement consid´er´es comme des variables al´eatoires. Parmi les m´ethodes
d’ana-lyse multivari´ee, on distingue les m´ethodes de statistiques classiques, impliquant des tests
d’hypoth`eses, des m´ethodes dites de fouille de donn´ees (data mining) g´en´eralement
employ´ees pour analyser des jeux de donn´ees massifs et multi-dimensionnels [Izenman,
2008]. Le termedata-mining fait r´ef´erence `a un concept un peu “fourre-tout” englobant
des approches de transformation et de pr´eparation des donn´ees, de visualisation,
d’ex-traction de connaissance et d’´evaluation. Parmi ces m´ethodes d’analyses, nous pouvons
distinguer lesm´ethodes descriptives, qui ont pour objectif d’explorer les donn´ees
(re-cherche d’observations aberrantes (outliers), de structures ou de tendances, s´election
de variables...), des m´ethodes pr´edictives o`u l’objectif est de construire un mod`ele
`
a partir des donn´ees. Les m´ethodes de data-mining ont souvent recourt `a des concepts
statistiques, mais une part importante de ces m´ethodes englobe les approches dites
d’apprentissage (Machine Learning). `A partir d’un jeu de donn´ees, les algorithmes
pr´edictifs de machine learning cherchent `a apprendre, `a reconnaˆıtre des tendances
com-plexes et sont capables de prendre des “d´ecisions”’ en fonction des donn´ees [Han et al.,
2012]. Une fa¸con de conceptualiser les probl`emes d’apprentissage est d’imaginer qu’est
recherch´e `a travers un espace de concepts descriptifs, un ensemble de r`egles d´ecrivant
au mieux un jeu de donn´ees [Witten et al., 2011]. Ainsi, un algorithme de machine
learning est d´efini par les di↵´erents concepts descriptifs utilis´es pour repr´esenter les
donn´ees, l’ordre dans lequel est parcouru l’espace des concepts et la fa¸con dont sont
trait´es les probl`emes de sur-apprentissage (ou overfitting) des jeux de donn´ees
d’en-traˆınement (training set) [Witten et al., 2011]. Enfin, nous pouvons distinguer les
m´ethodes d’apprentissage supervis´e(classification ou r´egression), o`u un ensemble de
variables d’entr´ee (input) dont l’´etat de sortie (output) est connu sert `a entraˆıner un
algorithme d’apprentissage afin de traiter des donn´ees dont l’´etat de sortie n’est pas
connu, des m´ethodes d’apprentissage non-supervis´e(clustering par exemple) o`u
au-cune information a priori n’est disponible sur l’´etat de sortie des donn´ees.
L’efficacit´e d’un algorithme peut ˆetre mesur´ee selon di↵´erents crit`eres. Dans l’analyse
de donn´ees biologiques, on peut souligner l’importance de :
• La complexit´e temporelle et spatiale, c’est-`a-dire la faisabilit´e temporelle et
mat´erielle d’un algorithme. Cela ce traduit concr`etement par le temps d’ex´ecution
d’un algorithmet, et la taille de la m´emoire n´ecessaire m. Formellement les
com-plexit´es temporelle et spatiale peuvent ˆetre repr´esent´ees par des fonctions O
t(Y)
et O
m(Y) indiquant que t et m vont ˆetre proportionnels `a Y, o`u Y s’exprime
g´en´eralement en fonction du nombre de donn´ees `a analysern, et de la dimension
des donn´eesd(Y =f(n, d)). Les probl`emes g´enomiques impliquant g´en´eralement
desnetdimportants, la complexit´e temporelle exponentielle (O(e
n.d)) d’un
algo-rithme le rend souvent inutilisable en pratique. Il est alors important de d´eterminer
si un probl`eme informatique est divisible en plusieurs sous-probl`emes autorisant
sa parall´elisation sur plusieurs processeurs.
• La performance. Les m´ethodes doivent fournir des r´esultats pertinents des points de
vue statistique et biologique. Di↵´erents crit`eres d’´evaluation peuvent ˆetre utilis´es,
tels que, par exemple, l’erreur de pr´ediction ou de g´en´eralisation [Izenman, 2008]
ou la stabilit´e ou l’insensibilit´e `a l’ordre des entr´ees [Andreopoulos et al., 2009].
Une propri´et´e importante des m´ethodes pr´edictives est leur capacit´e `a g´en´eraliser
le mod`ele construit `a partir du training set `a des jeux de donn´ees inconnus. La
robustessedes algorithmes est la capacit´e `a g´en´erer des r´esultats pertinents quand
les entr´ees sont des donn´ees “bruit´ees” dans les cas, par exemple, des valeurs
manquantes ou singuli`eres [Andreopoulos et al.,2009;Han et al.,2012, Chap. 8].
• Le nombre de param`etres `a d´efinir. Les param`etres que doit d´efinir l’utilisateur
d’un algorithme peuvent a↵ecter les r´esultats d’une mani`ere significative [
Andreo-poulos et al.,2009]. Afin de minimiser les erreurs dues aux choix de l’utilisateur,
il peut ˆetre pr´ef´erable qu’un algorithme utilise un nombre limit´e de param`etres `a
d´efinir.
• L’inclusion de variables multicat´egories. Il est souvent utile en g´enomique
com-parative de pouvoir prendre en compte des variables de di↵´erents types : par
exemple, des groupes de g`enes d’une part, et des crit`eres ´ecologiques ou
morpho-logiques d’autre part.
3.4.2 Notations
On noteE ={e
1, ..., e
n}, l’ensembleEdesn´el´ementse
iavec 1< i < nde taille|E|=n.
On peut alors ´ecrire : E={e
1, ..., e
|E|} lorsquenn’est pas connu.
On note v = (x
1, ..., x
n), le vecteur v de taille|v|=n avec x
i, les di↵´erentes valeurs de
v avec 1< i < netx
iappartenant `a Rou N.v appartient alors `a R
nouN
n.
On note de plus v[i] = x
i. Pour un ensemble V = {v
1, ..., v
|V|} de vecteurs v
ide
mˆeme taille n, on note M
Vsa matrice de dimension (|V|, n) telle que M
Vi,j
= v
i[j],
avec 1< i <|V|et 1< j < n.
Pour un ensemble de donn´ees, le terme observation d´esigne une donn´ee tir´ee de cet
ensemble. Les observations ´etant souvent repr´esent´ees par des vecteurs, le terme
attri-but d´esigne alors les variables descriptives de ces vecteurs. Pour un ensemble
d’ob-servations E = {e
1, ..., e
|E|} d´efinies par n attributs X = {X
1, ..., X
n}, l’ensemble
V
E= {v
e1, ..., v
e|E|} d´esigne l’ensemble des vecteurs d’observations o`u v
ei[j] est ´egal
`
Dans le document
Discrimination analytique des génomes bactériens
(Page 86-89)