Introduction `a la bio-informatique

(1)

Introduction ` a la bio-informatique

H´ el` ene Touzet

(2)

Le monde du vivant

I + 3,5 millions d’esp` eces d’ˆ etres vivants, des plus simples au plus complexes

I procaryotes: organismes unicellulaires, dont l’unique cellule n’a pas de noyau

arch´ ees, bact´ eries

I eucaryotes : la cellule contient un noyau.

Organismes unicellulaires ou pluricellulaires

levures, plantes, champignons, echinodermes, animaux, algues, . . .

(3)

Une grande diversit´ e, des principes universels

Une entit´ e vivante est capable de

I croissance

I m´ etabolisme

consommation, transformation et stockage d’´ energie ou de masse

I motricite

I reproduction

I r´ eponse ` a des stimulus

(4)

Une grande diversit´ e, des principes universels

I cellule: unit´ e constitutive de base du vivant

I structure et taille des cellules diff´ erentes pour les procaryotes et eucaryotes

I composition similaire

Macromolecules in Cells

30%

che micals

70%

H₂O

ions, sm all m olecules (4%) phospholipids (2%) D N A (1%) RN A (6%)

proteins (15%)

polysaccharides (2%)

MACROMOLECULES

bacterial cell

(5)

Une grande diversit´ e, des principes universels

I ADN: support de l’information g´ en´ etique [Avery, 1944]

I

g´ enome : ensemble de l’ADN (pr´ esent dans une cellule) Chaque cellule contient un exemplaire complet du g´ enome.

I

chromosome: le g´ enome est r´ eparti en macromol´ ecules d’ADN

I

g` ene: portion codante du g´ enome

I prot´ eines: macromol´ ecules actives, synth´ etis´ ees en fonction des besoins

transport: h´ emoglobine (oxyg` ene), albumine (corps gras), r´ egulation (insuline), r´ ecepteurs, anticorps, structure (collag` ene, k´ eratine), enzymes, . . .

I dogme central de la biologie mol´ eculaire : m´ ecanisme de production des prot´ eines ` a partir de l’ADN via l’ARN [Cricke, 1958]

I code g´ en´ etique: code de la traduction de l’ADN en prot´ eine

[Nirenberg et Matthaei, 1961]

(6)

Exemples de g´ enomes

I Homo sapiens - humain

I

23 paires de chromosomes

I

g´ enome : 3 milliards de bases

I

g` enes : de 30 000 ` a 35 000

I

l’ADN contenu dans les chromosomes d’une cellule mis bout ` a bout formerait un ruban d’1,50 m` etre

I Mus musculus - souris

I

21 paires de chromosomes

I

g´ enome : 3 milliards de bases

I

g` enes : de 30 000 ` a 35 000

I Arabidopsis thaliana - plante des bords de chemins

I

5 paires de chromosomes

I

g´ enome : 1,2 milliard de bases

I

g` enes : environ 20 000

(7)

Exemples de g´ enomes

I Saccharomyces cerevisiae - levure de bi` ere

I

16 paires de chromosomes

I

g´ enome : 130 millions de bases

I

g` enes : environ 6 000

I Escherichia coli -

bact´erie de l’intestin

I

1 paire de chromosomes

I

g´ enome : 46 millions de bases

I

g` enes : environ 4 000

(8)

Chaque diagramme représente une image grossit d’un facteur 10 de la précédente:

-Un doigt -La peau

-Les cellules de la peau -La structure de ces cellules -La structure d’une mitochondrie -- la structure d’un ribosome -La structure de deux protéines -Ces protéines sont constituées d’atomes

1-2 Les cellules sont constituées d’assemblage de molécules

×10

I doigt

I peau

I cellules de la peau

I structure d’une cellule

I mitochondrie

I ribosome

I une prot´ eine

I les atomes qui

constituent la

prot´ eine

(9)

L’ADN - Acide D´ esoxyribonucl´ eique

I Support mat´ eriel de l’h´ er´ edit´ e

I Compos´ e de quatre bases (ou nucl´ eotides)

A : ad´ enine C : cytosine G: guanine T: thymine

I Un brin d’ADN est orient´ e: 5’ → ATACCGTATGCTA → 3’

I Mol´ ecule form´ ee de deux brins anti-parall` eles A ↔ T C ↔ G

I Structure en double h´ elice

C

T A G G

→

^C

A G C G

T A

T C

G

→

(10)

[Watson-Cricke, 1953]

(11)

Les prot´ eines

I s´ equence d’acides amin´ es, de longueur 50 ` a 1000 en g´ en´ eral

I 20 acides amin´ es distincts : ACDEFGHIKLMNPQRSTVWY

I organisation spatiale caract´ eristique importante pour la fonction

h´ elices α, feuillets β

I 3000 ` a 4000 prot´ eines dans une cellule

MSKPQPIAAANWKCNGSQQSLSELIDL FNSTSINHDVQCVVASTFVHLAMTKER LSHPKFVIAAQNAIAKSGAFTGEVSLP ILKDFGVNWIVLGHSERRAYYGETNEI VADKVAAAVASGFMVIACIGETLQERE SGRTAVVVLTQIAAIAKKLKKADWAKV VIAYEPVWAIGTGKVATPQQAQEAHAL IRSWVSSKIGADVAGELRILYGGSVNG KNARTLYQQRDVNGFLVGGASLKPEFV DIIKATQ

(12)

Dogme central de la biologie mol´ eculaire

De l’ADN ` a la prot´ eine

A C G G T

T G C C

A ARN messager

A U C C U A G Transcription

prot´eine Traduction

ADN

1. transcription: ADN → ARN (A, C, G, U)

Un g` ene est transcrit dans le sens 5’ ` a 3’ en un ARN messager, avec la compl´ ementarit´ e A↔U, C↔G.

2. maturation de l’ARN

3. traduction : ARN → prot´ eine

Chaque triplet de nucl´ eotides de l’ARN correspond ` a un acide amin´ e, avec les code g´ en´ etique. 6 phases de lecture

UUU

| {z }

Phe

UAC

| {z }

Tyr

UGC

| {z }

Cys

GGC

| {z }

Gly

(13)

Dogme central de la biologie mol´ eculaire

De l’ADN ` a la prot´ eine

illustration dans une cellule eucaryote

(14)

Code g´ en´ etique

64 triplets 20 acides amin´ es M´ ethionine: signal de d´ ebut de traduction Stop: signal de fin de traduction

[Nirenberg et Matthaei,

1961]

(15)

Le s´ equen¸cage

(16)

Historique du s´ equen¸cage

I 1951 : premi` ere prot´ eine s´ equenc´ ee: insuline (Sanger)

I 1977 : invention du s´ equen¸cage d’ADN (Sanger)

I 1978 : s´ equence du phage phiX174 (premier g´ enome ` a ADN, 5386 bp)

I 1990 : programme international de s´ equen¸ cage du g´ enome humain

I 1995 : Haemophilus influenzae

I 1996 : Bacillus subtilis

I 1996 : Escherichia coli

I 1996 : g´ enome de la levure (premier eucaryote)

I 1998 : Caenorhabditis elegans ( pluri-cellulaire)

I 2000 : brouillon du g´ enome humain

(17)

Le s´ equen¸cage aujourd’hui

I 2007: s´ equen¸cage du g´ enome d’un individu

I 2008: projet 1000 genomes , s´ equen¸cage du g´ enome de 1000 personnes repr´ esentatives des variations g´ en´ etiques sur terre

I 2009: Tara Oceans, exp´ edition scientifique de 3 ans pour ´ etudier le plancton sur toutes les mers du globe

I 21 octobre 2009: 1,000 Complete Microbial Genome Projects

I 30 janvier 2010: 6484 projets, dont 1187 publi´ es, 5297 en cours

I http://www.genomesonline.org/

(18)

Le s´ equen¸cage aujourd’hui

(19)

Les bases de donn´ ees nucl´ eiques

I International Nucleotide Sequence Database Collaboration, cr´ e´ e en 1992

I partenariat entre trois banques de donn´ ees publiques

I

EMBL (Europe, 1974)

I

Genbank (Etats-Unis)

I

DDBJ (Japon)

I harmonisation des formats de description des entr´ ees

I ´ echanges des donn´ ees de mani` ere quotidiennes

I contributeurs: organismes de recherche, programmes de s´ equen¸ cage

I tous types de s´ equences nucl´ eiques (ADN, ARN, fragments)

I aoˆ ut 2005 : 100 000 000 000 nucl´ eotides

165 000 organismes

(20)

LOCUS SCU49845 5028 bp DNA PLN 21-JUN-1999 DEFINITION Saccharomyces cerevisiae TCP1-beta gene, partial cds, and Axl2p

(AXL2) and Rev7p (REV7) genes, complete cds.

ACCESSION U49845

VERSION U49845.1 GI:1293613 KEYWORDS .

SOURCE Saccharomyces cerevisiae (baker’s yeast) ORGANISM Saccharomyces cerevisiae

Eukaryota; Fungi; Ascomycota; Saccharomycotina; Saccharomycetes;

Saccharomycetales; Saccharomycetaceae; Saccharomyces.

REFERENCE 1 (bases 1 to 5028)

AUTHORS Torpey,L.E., Gibbs,P.E., Nelson,J. and Lawrence,C.W.

TITLE Cloning and sequence of REV7, a gene whose function is required for DNA damage-induced mutagenesis in Saccharomyces cerevisiae JOURNAL Yeast 10 (11), 1503-1509 (1994)

PUBMED 7871890

REFERENCE 2 (bases 1 to 5028)

AUTHORS Roemer,T., Madden,K., Chang,J. and Snyder,M.

TITLE Selection of axial growth sites in yeast requires Axl2p, a novel plasma membrane glycoprotein

JOURNAL Genes Dev. 10 (7), 777-793 (1996) PUBMED 8846915

REFERENCE 3 (bases 1 to 5028) AUTHORS Roemer,T.

TITLE Direct Submission

JOURNAL Submitted (22-FEB-1996) Terry Roemer, Biology, Yale University, New Haven, CT, USA

(21)

FEATURES Location/Qualifiers

source 1..5028

/organism="Saccharomyces cerevisiae"

/db_xref="taxon:4932"

/chromosome="IX"

/map="9"

CDS <1..206

/codon_start=3 /product="TCP1-beta"

/protein_id="AAA98665.1"

/db_xref="GI:1293614"

/translation="SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRAVVSSASEA AEVLLRVDNIIRARPRTANRQHM"

gene 687..3158

/gene="AXL2"

CDS 687..3158

/gene="AXL2"

/note="plasma membrane glycoprotein"

/codon_start=1

/function="required for axial budding pattern of S.

cerevisiae"

/product="Axl2p"

/db_xref="GI:1293615"

/translation="MTQLQISLLLTATISLLHLVVATPYEAYPIGKQYPPVARVNESF TFQISNDTYKSSVDKTAQITYNCFDLPSWLSFDSSSRTFSGEPSSDLLSDANTTLYFN VILEGTDSADSTSLNNTYQFVVTNRPSISLSSDFNLLALLKNYGYTNGKNALKLDPNE VFNVTFDRSMFTNEESIVSYYGRSQLYNAPLPNWLFFDSGELKFTGTAPVINSAIAPE TSYSFVIIATDIEGFSAVEVEFELVIGAHQLTTSIQNSLIINVTDTGNVSYDLPLNYV YLDDDPISSDKLGSINLLDAPDWVALDNATISGSVPDELLGKNSNPANFSVSIYDTYG DVIYFNFEVVSTTDLFAISSLPNINATRGEWFSYYFLPSQFTDYVNTNVSLEFTNSSQ DHDWVKFQSSNLTLAGEVPKNFDKLSLGLKANQGSQSQELYFNIIGMDSKITHSNHSA NATSTRSSHHSTSTSSYTSSTYTAKISSTSAAATSSAPAALPAANKTSSHNKKAVAIA CGVAIPLGVILVALICFLIFWRRRRENPDDENLPHAISGPDLNNPANKPNQENATPLN NPFDDDASSYDDTSIARRLAALNTLKLDNHSATESDISSVDEKRDSLSGMNTYNDQFQ SQSKEELLAKPPVQPPESPFFDPQNRSSSVYMDSEPAVNKSWRYTGNLSPVSDIVRDS YGSQKTVDTEKLFDLEAPEKEKRTSRDVTMSSLDPWNSNISPSPVRKSVTPSPYNVTK HRNRHLQNIQDSQSGKNGITPTTMSTSSSDDFVPVKDGENFCWVHSMEPDRRPSKKRL VDFSNKSNVNVGQVKDIHGRIPEML"

gene complement(3300..4037) /gene="REV7"

CDS complement(3300..4037) /gene="REV7"

/codon_start=1 /product="Rev7p"

/db_xref="GI:1293616"

/translation="MNRWVEKWLRVYLKCYINLILFYRNVYPPQSFDYTTYQSFNLPQ FVPINRHPALIDYIEELILDVLSKLTHVYRFSICIINKKNDLCIEKYVLDFSELQHVD KDDQIITETEVFDEFRSSLNSLIMHLEKLPKVNDDTITFEAVINAIELELGHKLDRNR RVDSLEEKAEIERDSNWVKCQEDENLPDNNGFQPPKIKLTSLVGSDVGPLIIHQFSEK LISGDDKILNGVYSQYEEGESIFGSLF"

(22)

ORIGIN

1 gatcctccat atacaacggt atctccacct caggtttaga tctcaacaac ggaaccattg 61 ccgacatgag acagttaggt atcgtcgaga gttacaagct aaaacgagca gtagtcagct 121 ctgcatctga agccgctgaa gttctactaa gggtggataa catcatccgt gcaagaccaa 181 gaaccgccaa tagacaacat atgtaacata tttaggatat acctcgaaaa taataaaccg 241 ccacactgtc attattataa ttagaaacag aacgcaaaaa ttatccacta tataattcaa 301 agacgcgaaa aaaaaagaac aacgcgtcat agaacttttg gcaattcgcg tcacaaataa 361 attttggcaa cttatgtttc ctcttcgagc agtactcgag ccctgtctca agaatgtaat 421 aatacccatc gtaggtatgg ttaaagatag catctccaca acctcaaagc tccttgccga 481 gagtcgccct cctttgtcga gtaattttca cttttcatat gagaacttat tttcttattc 541 tttactctca catcctgtag tgattgacac tgcaacagcc accatcacta gaagaacaga 601 acaattactt aatagaaaaa ttatatcttc ctcgaaacga tttcctgctt ccaacatcta 661 cgtatatcaa gaagcattca cttaccatga cacagcttca gatttcatta ttgctgacag 721 ctactatatc actactccat ctagtagtgg ccacgcccta tgaggcatat cctatcggaa 781 aacaataccc cccagtggca agagtcaatg aatcgtttac atttcaaatt tccaatgata 841 cctataaatc gtctgtagac aagacagctc aaataacata caattgcttc gacttaccga 901 gctggctttc gtttgactct agttctagaa cgttctcagg tgaaccttct tctgacttac 961 tatctgatgc gaacaccacg ttgtatttca atgtaatact cgagggtacg gactctgccg 1021 acagcacgtc tttgaacaat acataccaat ttgttgttac aaaccgtcca tccatctcgc 1081 tatcgtcaga tttcaatcta ttggcgttgt taaaaaacta tggttatact aacggcaaaa 1141 acgctctgaa actagatcct aatgaagtct tcaacgtgac ttttgaccgt tcaatgttca 1201 ctaacgaaga atccattgtg tcgtattacg gacgttctca gttgtataat gcgccgttac 1261 ccaattggct gttcttcgat tctggcgagt tgaagtttac tgggacggca ccggtgataa 1321 actcggcgat tgctccagaa acaagctaca gttttgtcat catcgctaca gacattgaag 1381 gattttctgc cgttgaggta gaattcgaat tagtcatcgg ggctcaccag ttaactacct 1441 ctattcaaaa tagtttgata atcaacgtta ctgacacagg taacgtttca tatgacttac 1501 ctctaaacta tgtttatctc gatgacgatc ctatttcttc tgataaattg ggttctataa 1561 acttattgga tgctccagac tgggtggcat tagataatgc taccatttcc gggtctgtcc 1621 cagatgaatt actcggtaag aactccaatc ctgccaattt ttctgtgtcc atttatgata 1681 cttatggtga tgtgatttat ttcaacttcg aagttgtctc cacaacggat ttgtttgcca 1741 ttagttctct tcccaatatt aacgctacaa ggggtgaatg gttctcctac tattttttgc 1801 cttctcagtt tacagactac gtgaatacaa acgtttcatt agagtttact aattcaagcc 1861 aagaccatga ctgggtgaaa ttccaatcat ctaatttaac attagctgga gaagtgccca 1921 agaatttcga caagctttca ttaggtttga aagcgaacca aggttcacaa tctcaagagc 1981 tatattttaa catcattggc atggattcaa agataactca ctcaaaccac agtgcgaatg 2041 caacgtccac aagaagttct caccactcca cctcaacaag ttcttacaca tcttctactt 2101 acactgcaaa aatttcttct acctccgctg ctgctacttc ttctgctcca gcagcgctgc 2161 cagcagccaa taaaacttca tctcacaata aaaaagcagt agcaattgcg tgcggtgttg 2221 ctatcccatt aggcgttatc ctagtagctc tcatttgctt cctaatattc tggagacgca 2281 gaagggaaaa tccagacgat gaaaacttac cgcatgctat tagtggacct gatttgaata 2341 atcctgcaaa taaaccaaat caagaaaacg ctacaccttt gaacaacccc tttgatgatg 2401 atgcttcctc gtacgatgat acttcaatag caagaagatt ggctgctttg aacactttga 2461 aattggataa ccactctgcc actgaatctg atatttccag cgtggatgaa aagagagatt 2521 ctctatcagg tatgaataca tacaatgatc agttccaatc ccaaagtaaa gaagaattat 2581 tagcaaaacc cccagtacag cctccagaga gcccgttctt tgacccacag aataggtctt 2641 cttctgtgta tatggatagt gaaccagcag taaataaatc ctggcgatat actggcaacc 2701 tgtcaccagt ctctgatatt gtcagagaca gttacggatc acaaaaaact gttgatacag 2761 aaaaactttt cgatttagaa gcaccagaga aggaaaaacg tacgtcaagg gatgtcacta 2821 tgtcttcact ggacccttgg aacagcaata ttagcccttc tcccgtaaga aaatcagtaa 2881 caccatcacc atataacgta acgaagcatc gtaaccgcca cttacaaaat attcaagact 2941 ctcaaagcgg taaaaacgga atcactccca caacaatgtc aacttcatct tctgacgatt 3001 ttgttccggt taaagatggt gaaaattttt gctgggtcca tagcatggaa ccagacagaa 3061 gaccaagtaa gaaaaggtta gtagattttt caaataagag taatgtcaat gttggtcaag 3121 ttaaggacat tcacggacgc atcccagaaa tgctgtgatt atacgcaacg atattttgct 3181 taattttatt ttcctgtttt attttttatt agtggtttac agatacccta tattttattt 3241 agtttttata cttagagaca tttaatttta attccattct tcaaatttca tttttgcact 3301 taaaacaaag atccaaaaat gctctcgccc tcttcatatt gagaatacac tccattcaaa 3361 attttgtcgt caccgctgat taatttttca ctaaactgat gaataatcaa aggccccacg 3421 tcagaaccga ctaaagaagt gagttttatt ttaggaggtt gaaaaccatt attgtctggt 3481 aaattttcat cttcttgaca tttaacccag tttgaatccc tttcaatttc tgctttttcc 3541 tccaaactat cgaccctcct gtttctgtcc aacttatgtc ctagttccaa ttcgatcgca 3601 ttaataactg cttcaaatgt tattgtgtca tcgttgactt taggtaattt ctccaaatgc 3661 ataatcaaac tatttaagga agatcggaat tcgtcgaaca cttcagtttc cgtaatgatc 3721 tgatcgtctt tatccacatg ttgtaattca ctaaaatcta aaacgtattt ttcaatgcat 3781 aaatcgttct ttttattaat aatgcagatg gaaaatctgt aaacgtgcgt taatttagaa 3841 agaacatcca gtataagttc ttctatatag tcaattaaag caggatgcct attaatggga 3901 acgaactgcg gcaagttgaa tgactggtaa gtagtgtagt cgaatgactg aggtgggtat 3961 acatttctat aaaataaaat caaattaatg tagcatttta agtataccct cagccacttc 4021 tctacccatc tattcataaa gctgacgcaa cgattactat tttttttttc ttcttggatc 4081 tcagtcgtcg caaaaacgta taccttcttt ttccgacctt ttttttagct ttctggaaaa 4141 gtttatatta gttaaacagg gtctagtctt agtgtgaaag ctagtggttt cgattgactg 4201 atattaagaa agtggaaatt aaattagtag tgtagacgta tatgcatatg tatttctcgc 4261 ctgtttatgt ttctacgtac ttttgattta tagcaagggg aaaagaaata catactattt 4321 tttggtaaag gtgaaagcat aatgtaaaag ctagaataaa atggacgaaa taaagagagg 4381 cttagttcat cttttttcca aaaagcaccc aatgataata actaaaatga aaaggatttg 4441 ccatctgtca gcaacatcag ttgtgtgagc aataataaaa tcatcacctc cgttgccttt 4501 agcgcgtttg tcgtttgtat cttccgtaat tttagtctta tcaatgggaa tcataaattt 4561 tccaatgaat tagcaatttc gtccaattct ttttgagctt cttcatattt gctttggaat 4621 tcttcgcact tcttttccca ttcatctctt tcttcttcca aagcaacgat ccttctaccc 4681 atttgctcag agttcaaatc ggcctctttc agtttatcca ttgcttcctt cagtttggct 4741 tcactgtctt ctagctgttg ttctagatcc tggtttttct tggtgtagtt ctcattatta 4801 gatctcaagt tattggagtc ttcagccaat tgctttgtat cagacaattg actctctaac 4861 ttctccactt cactgtcgag ttgctcgttt ttagcggaca aagatttaat ctcgttttct 4921 ttttcagtgt tagattgctc taattctttg agctgttctc tcagctcctc atatttttct 4981 tgccatgact cagattctaa ttttaagcta ttcaatttct ctttgatc

//

(23)

11 f´ evrier 2008 : 194 583 536 160 nucl´ eotides

(24)

D’autres technologies

A C G G T

T G C C

A ARN messager

A U C C U A G Transcription

prot´eine Traduction

ADN

I transcriptome: g` enes exprim´ es dans une poupulation de cellules (ARN)

I

par s´ equen¸ cage des ARN

I

par puces ` a ADN

I prot´ eome: prot´ eines pr´ esentes

I

s´ equen¸ cage

I

gels 2D

I

spectrom´ etrie de masses

(25)

Enjeux scientifiques, ´ economiques et soci´ etaux

I compr´ ehension du vivant

I sant´ e publique et m´ edecine: maladies g´ en´ etiques, parasites, . . .

I agro-alimentaire

I environnement

I bio´ energies

(26)

La bio-informatique

(27)

Bio+informatique

I discipline contemporaine au d´ eveloppement de la biologie mol´ eculaire (fin des ann´ ees 60)

I ensemble de techniques informatiques et statistiques pour le stockage et l’analyse des donn´ ees mol´ eculaires,

I

stockage : bases de donn´ ees

I

donn´ ees mol´ eculaires: s´ equences

(28)

Aider au s´ equen¸cage: assemblage

I produits de s´ equen¸ cage: fragments de longueur < 10 000 nucl´ eotides

I formalisation du probl` eme: plus courte super-chaˆıne commune

I

donn´ ees: une collection F de fragments

I

r´ esultat : la plus courte chaˆıne S telle que tout fragment f de F soit un facteur de S

T G C A T A T G C

G C C --- T G C A T G C C

I

probl` eme NP-complet. D´ emonstration ?

I Difficult´ es++: erreurs de lecture, existance de nombreuses r´ egions

r´ ep´ et´ ees, m´ elange des deux brins de l’ADN

(29)

Exemple de l’assemblage du g´ enome humain – 2000

I 27.27 millions de fragments de longueur moyenne 543 nucl´ eotide (Celera) + 4363.7 millions de nucl´ eotides en cours d’assemblage (Human Genome Project)

I calcul des chevauchements entre fragments

The Overlapper compares every read against every other read in search of complete end-to-end overlaps of at least 40 bp and with no more than 6\% differences in the match (...) Computing the set of all overlaps took roughly 10,000 CPU hours with a suite of four-processor Alpha SMPs with 4 gigabytes of RAM. This took 4 to 5 days in elapsed time with 40 such machines operating in parallel. Every overlap computed above is statistically a 1-in-1017 event and thus not a coincidental event.

I assemblage des fragments

For our assembly operations, the total compute infrastructure consists of 10 four-processor SMPs with 4 gigabytes of memory per cluster (Compaq’s ES40, Regatta) and a 16-processor NUMA machine with 64 gigabytes of memory (Compaq’s GS160, Wildfire). The total compute for a run of the assembler was roughly 20,000 CPU hours.

I extrait de The Sequence of the Human Genome Craig Venter et al.

Science, 2001 (291)

(30)

D´ ecoder le g´ enome: pr´ ediction de g` enes

I structure d’un g` ene (bact´ erien)

STOP

3’

5’ ADN

Promoteur

RBS

START

ARNm

I exploitation des signaux au niveau de la s´ equence d’ADN

I

promoteur: fixation de l’ARN polym´ erase (initie la transcription)

-35 16-19 bp -10 +1

---TTGACA---TATAAT---CAT

I

RBS: fixation du ribosome sur l’ARNm (initie la traduction)

I

codons START et STOP

I

biais de composition au sein de la s´ equence codante

(31)

D´ ecoder le g´ enome: pr´ ediction de g` enes

I homologie: par comparaison avec les g` enes connus dans d’autres organismes

I extrait d’alignement du g` ene de l’insuline humaine avec l’insuline du chat (Felis catus)

ATGGCCCTGTGGATGCGCCTCCTGCCCCTGCTGGCGCTGCTGGCCCTCTGGGGACCTGACCCAGCCGCAGCCTTTGTGAACCAACACCTGTG

||||||| ||||| |||||||||||||||||||||| ||||| |||||||| |||| ||| || |||||| || ||||| ||||| ||

ATGGCCCCGTGGACGCGCCTCCTGCCCCTGCTGGCGTTGCTGTCCCTCTGGATCCCTGCCCCGACCCGAGCCTTCGTTAACCAGCACCTTTG

I extrait d’alignement du g` ene de l’insuline humaine avec l’insuline du poulet (Gallus gallus)

ATGGCCCTGTGGATGCGCCTCCTGCCCCTGCTGGCGCTGCTGGCCCTCTGGGGACCTG-ACCCAGCC--GCAGCCTTTGTGAACCAACACCTGTG

||||| || ||||| || ||||| || ||||| || || | | | | || |||| | ||||| ||||| || ||||| ||||| ||

ATGGCTCTCTGGATCCGATCACTGCCTCTTCTGGCTCTCCTTGTCTTTTCTGGCCCTGGAACCAGCTATGCAGC---TGCCAACCAGCACCTCTG

I algorithmes de comparaison, d’alignement de s´ equences

(32)

Analyse des prot´ eines: domaines fonctionnels

I Exemple : doigt de zinc

YKCT--VCR---KDISSSESLRTHMFKQ-HH LKCSVPGCK---RSFRKKRALRIHVSE---H FECN--MCG---YHSQDRYEFSSHITRG-EH YTCG--YCTEDSPSFPRPSLLESHISL--MH YKCEFADCE---KAFSNASDRAKHQNR--TH FVCHWQDCSRELRPFKAQYMLVVHMRR---H FRCS--ECS---RSFTHNSDLTAHMRK---H CKCETENCN---LAFTTASNMRLHFKR--AH YRCSYEDCQ---TVSPTWTALQTHLKK---H FRCV--WCK---QSFPTLEALTTHMKDS-KH

I Mod` eles pour repr´ esenter des motifs approch´ es

expressions r´ eguli` eres, grammaires, mod` eles de Markov

I Algorithmes de recherche de motifs approch´ es

(33)

Analyse des prot´ eines: pr´ ediction de structure

Structure Structure Structure Structure

primaire secondaire tertiaire quaternaire

Swissprot : 163 235 s´ equences PDB : 243 structures

banques de prot´ eines s´ equenc´ ees banque de structures de prot´ eines

r´ esolues exp´ erimentalement

(34)

Analyse des prot´ eines: pr´ ediction de structure

I techniques exp´ erimentales: RMN, cristallographie

I apprentissage: r´ eseaux de neurones, SVM, mod´ eles bay´ esiens

I mod` eles physiques

I par comparaison ` a l’existant

Dans PDB, toutes les s´ equences avec 25% identit´ e ont la meme structure

I CASP (Critical Assessment of Techniques for Protein Structure Prediction): concours international biannuel

I Folding@home, Decrypthon

(35)

Comprendre l’´ evolution : phylog´ enie

I Retracer l’historique des esp` eces ` a partir des ´ evolutions observ´ ees

I 1859 – Darwin

"lignes g´ en´ ealogiques de tous les ^ etres organis´ es".

I 1866 – Haeckel

"encha^ ınement des esp` eces animales et v´ eg´ etales au cours du temps"

I 1967 – phylog´ enie mol´ eculaire

(36)

Comprendre l’´ evolution : phylog´ enie

Limites des caract` eres morphologiques

rat oiseau l´ ezard croco

´ ecailles 0 0 1 1

ovipare 0 1 1 1

rat oiseau l´ ezard croco

´ ecailles 0 0 1 1

ovipare 0 1 1 1

oeil 0 1 0 1

g´ esier 0 1 0 1

(37)

Archaeopteryx - oiseau dinosaure

(38)

Comprendre l’´ evolution : phylog´ enie

Limites des caract` eres morphologiques

dauphin thon

(39)

Phylog´ enie mol´ eculaire

I donn´ ees : s´ equences (ARN, prot´ eines)

I caract` ere: position dans la s´ equence

I evolution : mutations observ´ ees entre les s´ equences

´

el´ ephant FVNQHLCGSHLVEALYLVCGERGFFYTPKTGIVEQCCTGVCSLYQLENYCN hamster FVNQHLCGSHLVEALYLVCGERGFFYTPKSGIVDQCCTSICSLYQLENYCN baleine FVNQHLCGSHLVEALYLVCGERGFFYTPKAGIVEQCCASTCSLYQLENYCN alligator AANQRLCGSHLVDALYLVCGERGFFYSPKGGIVEQCCHNTCSLYQLENYCN

I algorithmes de construction des arbres de phylog´ enies, statistiques

pour mod´ eliser l’´ evolution

(40)

Biologie des syst` emes

I ´ etude des relations et les interactions entre diff´ erentes parties d’un syst` eme biologique

I

r´ eseaux de g` enes: quelle prot´ eine r´ egule quel g` ene

I

r´ eseaux m´ etaboliques: quelle prot´ eine interagit avec quelle prot´ eine

I

comment ´ evolue la concentration dans la cellule des diff´ erentes mol´ ecules au fil du temps

I mod´ elisation des syt` emes complexes: syst` emes d’´ equations

diff´ erentielles, automates cellulaires, r´ eseaux de Petri, syst` emes

multi-agents, . . .

(41)

Quˆ ete du Graal de la bio-informatique

aattaagttggcgctatctgantctc taactcttcgccttaacgcaaaatctcacactgatga

taagttggcgctatctgantctcatactgtttcacagacctgctg ctctgaacgtcgtacttaccacaaagaatctgacgaa

tatcactctgccgtac gcgtctaacgctgcagaactgtttgctcagc cgctgaacaagtgatcatt

acggttaagcgtcagtagatttcgttgt

ccacctggcagtggcaaccagcggctgctgatgtt

(42)

Quˆ ete du Graal de la bio-informatique

. . .

ctgcaggacgcctactaaggcggcggggaaaaacaaacgttattacaccgagacagaagg tgcactgcgttatgttgtcgcggacaacggcgaaaaggggctgaccttcgctgttgaacc aattaagttggcgctatctgantctcatactgtttcacagacctgctgccctgcggcggc caatcttcctttattcgcttataagcgtggagaattaaaatgcgacatcctttagtgatg ggtaactggaaactgaacggcagccgccacatggttcacgagctggtttctaacctgcgt aaagagctggcaggtgttgctggctgtgcggttgcaatcgcaccaccggaaatgtatatc gatatggcgaagcgcgaagctgaaggcagccacatcatgctgggtgcgcaaaacgtgaac ctgaacctgtccggcgcattcacgggtgaaacctctgctgctatgctgaaagacatcggc gcacagtacatcatcatcggtcactctgaacgtcgtacttaccacaaagaatctgacgaa ctgatcgcgaaaaaattcgcggtgctgaaagagcagggcctgactccggttctgtgcatc ggtgaaaccgaagctgaaaatgaagcgggcaaaactgaagaagtttgcgcacgtcagatc gacgcggtactgaaaactcagggtgctgcggcattcgaaggtgcggttatcgcttacgaa cctgtatgggcaatcggtactggcaaatctgcaactccggctcaggcacaggctgttcac aaattcatccgtgaccacatcgctaaagttgacgctaacatcgctgaacaagtgatcatt cagtacggcggctccgtaaacgcgtctaacgctgcagaactgtttgctcagccggatatc gacggcgcgctggttggtggtgcttctctgaaagctgacgccttcgcagtaatcgttaaa gctgcagaagcggctaaacaggcttaagtctgacaggtgccggatttcgatatccggcac ttactttccttaactcttcgccttaacgcaaaatctcacactgatgatcctgaatttcct cggctgaagcacggttaagcgtcagtagatttcgttgtgtcgccagcaatacaaatgagt tatcactctgccgtaccatcgccagcccgtagcgtcccatatgttcccgcgcctcaggta cttcttctgccagcatcataaatgggctgcgttgtaccagttcgctttccgttacccgac gcgcaggtattcatgcccgcgcaaaccacctggcagtggcaaccagcggctgctgatgtt cgccagattgttatcgag . . .

(43)

Quˆ ete du Graal de la bio-informatique

. . .

ctgcaggacgcctactaaggcggcggggaaaaacaaacgttattacaccgagacagaagg tgcactgcgttatgttgtcgcggacaacggcgaaaaggggctgaccttcgctgttgaacc aattaagttggcgctatctgantctcatactgtttcacagacctgctgccctgcggcggc caatcttcctttattcgcttataagcgtggagaattaaaatgcgacatcctttagtgatg ggtaactggaaactgaacggcagccgccacatggttcacgagctggtttctaacctgcgt aaagagctggcaggtgttgctggctgtgcggttgcaatcgcaccaccggaaatgtatatc gatatggcgaagcgcgaagctgaaggcagccacatcatgctgggtgcgcaaaacgtgaac ctgaacctgtccggcgcattcacgggtgaaacctctgctgctatgctgaaagacatcggc gcacagtacatcatcatcggtcactctgaacgtcgtacttaccacaaagaatctgacgaa ctgatcgcgaaaaaattcgcggtgctgaaagagcagggcctgactccggttctgtgcatc ggtgaaaccgaagctgaaaatgaagcgggcaaaactgaagaagtttgcgcacgtcagatc gacgcggtactgaaaactcagggtgctgcggcattcgaaggtgcggttatcgcttacgaa cctgtatgggcaatcggtactggcaaatctgcaactccggctcaggcacaggctgttcac aaattcatccgtgaccacatcgctaaagttgacgctaacatcgctgaacaagtgatcatt cagtacggcggctccgtaaacgcgtctaacgctgcagaactgtttgctcagccggatatc gacggcgcgctggttggtggtgcttctctgaaagctgacgccttcgcagtaatcgttaaa gctgcagaagcggctaaacaggcttaagtctgacaggtgccggatttcgatatccggcac ttactttccttaactcttcgccttaacgcaaaatctcacactgatgatcctgaatttcct cggctgaagcacggttaagcgtcagtagatttcgttgtgtcgccagcaatacaaatgagt tatcactctgccgtaccatcgccagcccgtagcgtcccatatgttcccgcgcctcaggta cttcttctgccagcatcataaatgggctgcgttgtaccagttcgctttccgttacccgac gcgcaggtattcatgcccgcgcaaaccacctggcagtggcaaccagcggctgctgatgtt cgccagattgttatcgag . . .

(44)

Quˆ ete du Graal de la bio-informatique

MRHPLVMGNWKLNGSRHMVHELVSNLRKELAG

VAGCAVAIAPPEMYIDMAKREAEGSHIMLGAQ

NVDLNLSGAFTGETSAAMLKDIGAQYIIIGHS

ERRTYHKESDELIAKKFAVLKEQGLTPVLCIG

ETEAENEAGKTEEVCARQIDAVLKTQGAAAFE

GAVIAYEPVWAIGTGKSATPAQAQAVHKFIRD

HIAKVDANIAEQVIIQYGGSVNASNAAELFAQ

PDIDGALVGGASLKADAFAVIVKAAEAAKQA

(45)

Quˆ ete du Graal de la bio-informatique

hélice alpha

GAQNVDL LN SG FTGETA SAAMLKDIGAQYIIIGH ERRTYHKESDELIAKKFAVLKEQGS

LTPV CL IG TE E EANE GKTA EEVCARQ DAI VLKTQGAAAFEGAVIAYEPVWAIGTGKSATP

A A AQ Q V KEIH RDHIAKVDANIAEQVIIQYGGSVN SNA AAELFAQ DIDGALVGGASLKADP

A AFV VKI AA AAE KQA

MRHPLVMGNWKLNGSRHMVHELVSNLRKELAGVAGCAVAIAPPEMYIDMAKREAEGSHIM

Domaine conservé Eléments de la structure secondaire

feuillet beta L

(46)

Quˆ ete du Graal de la bio-informatique

[AV]−Y−E−P−[LIVM]−W−[SA]−I−G−T−[GK]

LTPV CL IG TE E EA NE GKTA EEVCARQ DAI VLKTQGAAAFEGAVIAYEPVWAIGTGKSATP

A AF V VKI AA AAE KQA

Domaine conservé Eléments de la structure secondaire

feuillet beta hélice alpha

L

(47)

Quˆ ete du Graal de la bio-informatique

LTPV CL IG TE E EA NE GKTA EEVCARQ DAI VLKTQGAAAFEGAVIAYEPVWAIGTGKSATP

A AF V VKI AA AAE KQA

Eléments de la structure secondaire

feuillet beta hélice alpha

Domaine conservé L

(48)

Quˆ ete du Graal de la bio-informatique

(49)