• Aucun résultat trouvé

G`ene ↵ ancestral ( = Duplication

G`ene ↵ Esp`ece A G`ene Esp`ece A

(b) In-paralogieentre les g`enes ↵et de A.

G`ene ↵ ancestral(=Sp´eciation

G`ene ↵ Esp`ece A G`ene ↵ Esp`ece B(=Duplication

G`ene ↵ Esp`ece B G`ene Esp`ece B

(c) Out-paralogieentre le g`ene↵de A et le g`ene de B.

La duplication g´enique est souvent suivie d’une divergence fonctionnelle des g`enes

dupliqu´es. Un des g`enes conserve la fonction du g`ene ancestral et l’autre diverge

pour acqu´erir une nouvelle fonction [Fitch,1970,2000].

• X´enologie Deux g`enes sont x´enologues si leur homologie traduit une histoire ´evolutive

commune mais, pour l’une des esp`eces les h´ebergeant, n’est pas li´ee au g`ene pr´esent

dans l’ancˆetre direct dont ces derni`eres sont issues. Dans les g´enomes bact´eriens, la

pr´esence de s´equences x´enologues t´emoigne fr´equemment d’un transfert

horizon-tal de g`enes (THG) inter-r´eplicons et/ou inter-individus. L’´evolution des g´enomes

bact´eriens ´etant soumise `a un flux important de THG ([Bapteste et al., 2009;

Doolittle and Bapteste, 2007]), la d´etection d’orthologues au sein des di↵´erents

r´eplicons est souvent d´elicate et bruit´ee par les x´enologues.

3.3 Concept du g´enome-cœur

De nombreuses ´etudes mettent en avant la pr´esence d’une collection de g`enes homologues

chez l’ensemble des membres d’une esp`ece (par exemple, pourSalmonella enterica [Lan

et al.,2009] ou Helicobacter pylori). Cela a conduit `a la proposition de l’hypoth`ese du

g´enome-cœur ou Core Genome Hypothesis [Lan and Reeves,1996]. Cette th´eorie

dis-tingue la fraction du g´enome (le cœur) partag´ee par tous les membres de l’esp`ece, de

la fraction auxiliaire qui est seulement pr´esente dans une sous-population. Le

g´enome-cœur d´efinit ainsi les sp´ecificit´es d’une esp`ece bact´erienne. Les g`enes du g´enome-g´enome-cœur

codent principalement les fonctions m´etaboliques essentielles et les processus cellulaires

de transmission d’information [Riley and Lizotte-Waniewski,2009]. Ainsi,une part

im-portante des g`enes des STIG sont inclus dans le g´enome-coeur des bact´eries.

Les g´enes de la partie auxiliaire sont principalement les g`enes codant des fonctions

m´etaboliques suppl´ementaires, utiles dans le contexte de certaines ´ecologies, et sont

plus fr´equemment associ´es `a des plasmides ou des ´el´ements mobiles [Riley and

Lizotte-Waniewski,2009].

3.4 Fouille de donn´ees en g´enomique

3.4.1 M´ethodes analytiques

Avec l’explosion de la production de donn´ees g´enomiques, et en particulier l’av`enement

de nouvelles technologies de s´equen¸cage de l’ADN et des m´ethodes chip-seq, les

cher-cheurs sont confront´es `a un a✏ux massif de donn´ees g´enomiques, transcriptomiques,

prot´eomiques ou physiologiques. Cette avalanche de donn´ees est devenue un d´efit pour

les bio-analystes et requiert le d´eveloppement constant de m´ethodes analytiques

permet-tant de traiter de fa¸con pertinente (et de stocker) des quantit´es toujours plus imporpermet-tantes

d’information g´en´etique bruit´ee dans des temps raisonnables.

Les donn´ees `a analyser sont souvent multivari´ees,i.e., d´ecrites par une collection de

pa-ram`etres (taux d’expression g´enique, pr´esence/absence de g`enes, ´ecologie des organismes

...) g´en´eralement consid´er´es comme des variables al´eatoires. Parmi les m´ethodes

d’ana-lyse multivari´ee, on distingue les m´ethodes de statistiques classiques, impliquant des tests

d’hypoth`eses, des m´ethodes dites de fouille de donn´ees (data mining) g´en´eralement

employ´ees pour analyser des jeux de donn´ees massifs et multi-dimensionnels [Izenman,

2008]. Le termedata-mining fait r´ef´erence `a un concept un peu “fourre-tout” englobant

des approches de transformation et de pr´eparation des donn´ees, de visualisation,

d’ex-traction de connaissance et d’´evaluation. Parmi ces m´ethodes d’analyses, nous pouvons

distinguer lesm´ethodes descriptives, qui ont pour objectif d’explorer les donn´ees

(re-cherche d’observations aberrantes (outliers), de structures ou de tendances, s´election

de variables...), des m´ethodes pr´edictives o`u l’objectif est de construire un mod`ele

`

a partir des donn´ees. Les m´ethodes de data-mining ont souvent recourt `a des concepts

statistiques, mais une part importante de ces m´ethodes englobe les approches dites

d’apprentissage (Machine Learning). `A partir d’un jeu de donn´ees, les algorithmes

pr´edictifs de machine learning cherchent `a apprendre, `a reconnaˆıtre des tendances

com-plexes et sont capables de prendre des “d´ecisions”’ en fonction des donn´ees [Han et al.,

2012]. Une fa¸con de conceptualiser les probl`emes d’apprentissage est d’imaginer qu’est

recherch´e `a travers un espace de concepts descriptifs, un ensemble de r`egles d´ecrivant

au mieux un jeu de donn´ees [Witten et al., 2011]. Ainsi, un algorithme de machine

learning est d´efini par les di↵´erents concepts descriptifs utilis´es pour repr´esenter les

donn´ees, l’ordre dans lequel est parcouru l’espace des concepts et la fa¸con dont sont

trait´es les probl`emes de sur-apprentissage (ou overfitting) des jeux de donn´ees

d’en-traˆınement (training set) [Witten et al., 2011]. Enfin, nous pouvons distinguer les

m´ethodes d’apprentissage supervis´e(classification ou r´egression), o`u un ensemble de

variables d’entr´ee (input) dont l’´etat de sortie (output) est connu sert `a entraˆıner un

algorithme d’apprentissage afin de traiter des donn´ees dont l’´etat de sortie n’est pas

connu, des m´ethodes d’apprentissage non-supervis´e(clustering par exemple) o`u

au-cune information a priori n’est disponible sur l’´etat de sortie des donn´ees.

L’efficacit´e d’un algorithme peut ˆetre mesur´ee selon di↵´erents crit`eres. Dans l’analyse

de donn´ees biologiques, on peut souligner l’importance de :

• La complexit´e temporelle et spatiale, c’est-`a-dire la faisabilit´e temporelle et

mat´erielle d’un algorithme. Cela ce traduit concr`etement par le temps d’ex´ecution

d’un algorithmet, et la taille de la m´emoire n´ecessaire m. Formellement les

com-plexit´es temporelle et spatiale peuvent ˆetre repr´esent´ees par des fonctions O

t

(Y)

et O

m

(Y) indiquant que t et m vont ˆetre proportionnels `a Y, o`u Y s’exprime

g´en´eralement en fonction du nombre de donn´ees `a analysern, et de la dimension

des donn´eesd(Y =f(n, d)). Les probl`emes g´enomiques impliquant g´en´eralement

desnetdimportants, la complexit´e temporelle exponentielle (O(e

n.d

)) d’un

algo-rithme le rend souvent inutilisable en pratique. Il est alors important de d´eterminer

si un probl`eme informatique est divisible en plusieurs sous-probl`emes autorisant

sa parall´elisation sur plusieurs processeurs.

• La performance. Les m´ethodes doivent fournir des r´esultats pertinents des points de

vue statistique et biologique. Di↵´erents crit`eres d’´evaluation peuvent ˆetre utilis´es,

tels que, par exemple, l’erreur de pr´ediction ou de g´en´eralisation [Izenman, 2008]

ou la stabilit´e ou l’insensibilit´e `a l’ordre des entr´ees [Andreopoulos et al., 2009].

Une propri´et´e importante des m´ethodes pr´edictives est leur capacit´e `a g´en´eraliser

le mod`ele construit `a partir du training set `a des jeux de donn´ees inconnus. La

robustessedes algorithmes est la capacit´e `a g´en´erer des r´esultats pertinents quand

les entr´ees sont des donn´ees “bruit´ees” dans les cas, par exemple, des valeurs

manquantes ou singuli`eres [Andreopoulos et al.,2009;Han et al.,2012, Chap. 8].

• Le nombre de param`etres `a d´efinir. Les param`etres que doit d´efinir l’utilisateur

d’un algorithme peuvent a↵ecter les r´esultats d’une mani`ere significative [

Andreo-poulos et al.,2009]. Afin de minimiser les erreurs dues aux choix de l’utilisateur,

il peut ˆetre pr´ef´erable qu’un algorithme utilise un nombre limit´e de param`etres `a

d´efinir.

• L’inclusion de variables multicat´egories. Il est souvent utile en g´enomique

com-parative de pouvoir prendre en compte des variables de di↵´erents types : par

exemple, des groupes de g`enes d’une part, et des crit`eres ´ecologiques ou

morpho-logiques d’autre part.

3.4.2 Notations

On noteE ={e

1

, ..., e

n

}, l’ensembleEdesn´el´ementse

i

avec 1< i < nde taille|E|=n.

On peut alors ´ecrire : E={e

1

, ..., e

|E|

} lorsquenn’est pas connu.

On note v = (x

1

, ..., x

n

), le vecteur v de taille|v|=n avec x

i

, les di↵´erentes valeurs de

v avec 1< i < netx

i

appartenant `a Rou N.v appartient alors `a R

n

ouN

n

.

On note de plus v[i] = x

i

. Pour un ensemble V = {v

1

, ..., v

|V|

} de vecteurs v

i

de

mˆeme taille n, on note M

V

sa matrice de dimension (|V|, n) telle que M

V

i,j

= v

i

[j],

avec 1< i <|V|et 1< j < n.

Pour un ensemble de donn´ees, le terme observation d´esigne une donn´ee tir´ee de cet

ensemble. Les observations ´etant souvent repr´esent´ees par des vecteurs, le terme

attri-but d´esigne alors les variables descriptives de ces vecteurs. Pour un ensemble

d’ob-servations E = {e

1

, ..., e

|E|

} d´efinies par n attributs X = {X

1

, ..., X

n

}, l’ensemble

V

E

= {v

e1

, ..., v

e|E|

} d´esigne l’ensemble des vecteurs d’observations o`u v

ei

[j] est ´egal

`

Documents relatifs