Disponible à / Available at permalink :

(1)

- - -

Dépôt Institutionnel de l’Université libre de Bruxelles / Université libre de Bruxelles Institutional Repository

Thèse de doctorat/ PhD Thesis Citation APA:

Guglielmini, J. (2010). Origine et évolution des systèmes toxine-antitoxine de classe II (Unpublished doctoral dissertation). Université libre de Bruxelles, Faculté des Sciences – Sciences biologiques, Bruxelles.

Disponible à / Available at permalink : https://dipot.ulb.ac.be/dspace/bitstream/2013/210148/4/b232c8d8-bc35-4204-9778-f34bf881e4ea.txt

(English version below)

Cette thèse de doctorat a été numérisée par l’Université libre de Bruxelles. L’auteur qui s’opposerait à sa mise en ligne dans DI-fusion est invité à prendre contact avec l’Université ([email protected]).

Dans le cas où une version électronique native de la thèse existe, l’Université ne peut garantir que la présente version numérisée soit identique à la version électronique native, ni qu’elle soit la version officielle définitive de la thèse.

DI-fusion, le Dépôt Institutionnel de l’Université libre de Bruxelles, recueille la production scientifique de l’Université, mise à disposition en libre accès autant que possible. Les œuvres accessibles dans DI-fusion sont protégées par la législation belge relative aux droits d'auteur et aux droits voisins. Toute personne peut, sans avoir à demander l’autorisation de l’auteur ou de l’ayant-droit, à des fins d’usage privé ou à des fins d’illustration de l’enseignement ou de recherche scientifique, dans la mesure justifiée par le but non lucratif poursuivi, lire, télécharger ou reproduire sur papier ou sur tout autre support, les articles ou des fragments d’autres œuvres, disponibles dans DI-fusion, pour autant que :

Le nom des auteurs, le titre et la référence bibliographique complète soient cités;

L’identifiant unique attribué aux métadonnées dans DI-fusion (permalink) soit indiqué;

Le contenu ne soit pas modifié.

L’œuvre ne peut être stockée dans une autre base de données dans le but d’y donner accès ; l’identifiant unique (permalink) indiqué ci-dessus doit toujours être utilisé pour donner accès à l’œuvre. Toute autre utilisation non mentionnée ci-dessus nécessite l’autorisation de l’auteur de l’œuvre ou de l’ayant droit.

--- English Version ---

This Ph.D. thesis has been digitized by Université libre de Bruxelles. The author who would disagree on its online availability in DI-fusion is invited to contact the University ([email protected]).

If a native electronic version of the thesis exists, the University can guarantee neither that the present digitized version is identical to the native electronic version, nor that it is the definitive official version of the thesis.

DI-fusion is the Institutional Repository of Université libre de Bruxelles; it collects the research output of the University, available on open access as much as possible. The works included in DI-fusion are protected by the Belgian legislation relating to authors’ rights and neighbouring rights.

Any user may, without prior permission from the authors or copyright owners, for private usage or for educational or scientific research purposes, to the extent justified by the non-profit activity, read, download or reproduce on paper or on any other media, the articles or fragments of other works, available in DI-fusion, provided:

The authors, title and full bibliographic details are credited in any copy;

The unique identifier (permalink) for the original metadata page in DI-fusion is indicated;

The content is not changed in any way.

It is not permitted to store the work in another database in order to provide access to it; the unique identifier (permalink) indicated above must always be used to provide access to the work. Any other use not mentioned above requires the authors’ or copyright owners’ permission.

(2)

D 03751

iversité Libre de Bruxelles

Faculté des Sciences

Institut de Biologie et de Médecine Moléculaires Laboratoire de Génétique et Physiologie Bactérienne

Promoteur : Laurence Van Melderen

Thèse présentée en vue de l'obtention du grade de Docteur en Sciences Année académique 2009-2010

(3)

R

emerciements

J'ai eu la chance, au cours de cette thèse, d'avoir reçu le soutien d'un grand nombre de personnes.

Du coup j'ai la pression, je ne dois pas en oublier un seul dans cette partie. Je vais tenter de faire ça chronologiquement.

J'ai commencé ma thèse chez Michel Milinkovitch. C'est lui qui m'a fait confiance le premier, et m'a permis de passer le PRIA. Je pensais avoir de bonnes bases en phylogénie et bioinformatique en commençant ; je me suis vite rendu compte que ça ne suffisait pas, et que j'avais intérêt à progresser. Et c'est là que je veux principalement remercier Michel. Il m'a toujours tiré vers le haut, me poussant sans cesse à me perfectionner. Et par la suite, il s'est toujours effacé pour me mettre au premier plan dans diverses collaborations. Je te suis extrêmement redevable.

En termes de programmation informatique, il me faut citer mon mentor, Raphaël Helaers. Bon, ça m'embête de devoir l'écrire parce que je sens que je vais beaucoup en entendre parler, mais II faut dire ce qui est, sans lui je n'aurais jamais accompli le tiers de ce qui est présenté dans cette thèse.

Vient ensuite Nasia, qui a toujours su me rassurer dans les moments où je doutais. Avec un peu de recul, il me semble que nos discussions de début de soirée ressemblaient au concours de « qui galère le plus en ce moment ». Une bonne manière de rire un peu de nos soucis.

Au sein du labo de Michel, j'al également eu affaire à Daniel. Derrière tes apparences jamais sérieuses, tu as su m'écouter et me comprendre, dans les quelques moments délicats. Merci.

Je remercie également Delphine, Eva et Marie-Anne, avec qui je n'ai malheureusement pas vraiment travaillé, mais qui contribuaient à la bonne ambiance générale sans laquelle il est difficile d'avancer.

Enfin, Je remercie Patrick, Adrien, Daniele pour tous nos échanges.

Suite au départ de Michel, j'ai dû déménager deux étages plus bas pour m'installer chez Laurence Van Melderen, chez qui j'avais commencé à travailler quelques mois plus tôt. Je pensais que tous les boss se ressemblaient, j'ai dû admettre mon erreur. Laurence partage avec Michel, outre cette intelligence qui rend chaque discussion passionnante, ce respect de l'étudiant et de la qualité de son travail. Cela mis à part, j'ai découvert une autre façon de gérer un labo, des personnes, et ça a été une expérience bien agréable. Donc Laurence, merci de m'avoir accepté chez toi, et merci pour ces deux ans (me semble-t-il) passés en ta compagnie.

Arrivé chez Laurence, j'ai été confié à Régis et Damien. Ce sont eux qui m'ont fait lâcher mon clavier pour me mettre une pipette dans les mains. Je me sens enfin plus concerné maintenant pendant les lab meetings où je comprends bien mieux de quoi on me parle. Ne pas travailler seul derrière mon ordinateur mais debout, avec les autres, et tout en discutant des résultats sportifs de la veille, c'est quelque chose que je ne connaissais pas I Bon, je suis vite revenu à mes premières amours, merci Damien d'en faire les frais I

Manu... J'ai vite appris le concept de « paillasse sociale », un endroit où la propriété disparaît pour laisser place à une mise en commun de l'espace, du matériel et des ressources. Mais j'ai également apprécié nos échanges, au sujet du boulot ou non, et qui confinaient parfois au dialogue de sourds (qui a parlé de selfish ??). Merci pour tout.

(4)

Yoyo (Johan pour les non-intimes) alias Wilson alias Super Wallon. Ce qui est agréable c'est que tu es capable de me venir en aide sans même ouvrir la bouche ni faire quoi que ce soit d'autre. De toute façon je crois que Je ne suis pas le seul dans ce cas. C'est bien connu, si tu cherches quelque chose, si tu as un doute sur quelque chose, si tu ne sais pas comment te procurer quelque chose, et bien demande à Johann. Merci !

Docteur Pierre, malgré ton emploi du temps de ministre, tu es toujours parvenu, avec la plus grande gentillesse, à me trouver 5 minutes dès que j'avais besoin de toi pour une raison ou pour une autre.

Natacha, tu n'as pas gagné tes chocotoff avec les séquences ancestrales, mais malgré ton emploi du temps surchargé par ce bourreau de Johann, tu as su t'occuper de mes manips. Merci pour ça et pour la sauce chocolat ! Pierre-Alex, merci d'avoir toujours su trouver une raison pour déboucher une bière, et merci à toi Sarah de toujours trouver le petit truc pour aller avec (« Un Tue ? Une Zwan ? »).

Pierre Père, merci de nous faire partager toutes ces blagues, vidéos, etc, qu'on t'envoie par mails, toujours annoncés par la voix de ton majordome anglais (« You hâve mails. Sir »). Je remercie également nos chers anciens mémorants : Nathalie, moins timide qu'il n'y paraît ; Ethel, naturellement drôle; Joonas et son vin chaud. Je n'oublie pas Pierre (encore un) et Nancy, la nouvelle génération. Un merci également à Solange pour son aide, certes pas scientifique, mais néanmoins fortement appréciée.

Une pensée pour la belle-famille, pour mes parents et pour mes chers frères. Ne jamais sous-estimer l'importance des week-ends en famille.

Ne reste que Viviane. Sans toi je ne me serais même pas engagé dans tout ceci. Tu as su être la personne la plus présente et la plus importante pour moi, alors même que tu es peut-être celle que j'ai le moins vu. Tu as supporté mes sautes d'humeur, mes obsessions qui me rendaient parfois inattentif à tes propres problèmes, mes angoisses parfois injustifiées. Bizarrement je crois ne te l'avoir dit qu'une seule fols, alors je recommence : merci.

Je crois que tout le monde y est passé. Néanmoins je ne suis pas à l'abri d'un oubli. Si c'est le cas, je m'en excuse, et accepte les mails de réclamation ;-)

(5)

T able des matières

I. INTRODUCTION : LA PHYLOGÉNIE...3

1.1 Histoiredelaphylogénie...3

1.2 ÉVOLUTION... 5

1.2.1 Mutation ponctuelle...5

1.2.2 Recombinaison...5

1.2.3 Transposition...6

1.2.4 Procaryotes...6

1.2.5 Eucaryotes...8

1.3 Matricesdedistances...10

1.3.1 Estimer la distance évolutive...10

1.3.2 UPGMA: Unweighted Pair Group Method with Arithmetic mean...13

1.3.3 NeighborJoining (NJ)...14

1.3.4 Limite des méthodes de distance...14

1.4 Méthodesd'évaluation... 15

1.4.1 Recherche par « Branch and Bound »...15

1.4.2 Recherche heuristique...15

1.4.3 Critère de parcimonie...17

1.4.5 Critère de vraisembiance...17

1.4.6 Méthode bayésienne...18

1.5 A^utour^de^la^phylogénie... 20

1.5.1 Alignement muitiple...20

1.5.2 Le bootstrap...20

1.5.3 Consensus...21

1.5.4 Super-arbres...22

1.6 A^pports^deLA PHYLOGÉNIE... 23

1.6.1 Reiations cladistiques...23

1.6.2 Outgroup et axe du temps...23

1.6.3 Outiis dérivés des méthodes de reconstruction phylogénétique...23

II. INTRODUCTION : LES SYSTÈMES TOXINE-ANTITOXINE... 27

11.1 Lestroisclassesdesystèmes TA... 27

11.1.1 Les systèmes TA de ciasse 1...27

11.1.2 Les systèmes TA de classe III...28

11.1.3 Les systèmes TA de classe II...28

11.2 Classification... 30

11.2.1 Toxines affectant la réplication...30

11.2.2 Toxines affectant la traduction...30

11.2.3 Structure...31

11.3 F^onctions DES SYSTÈMES TA chromosomiques... 32

a.3.1 Mort celluiaire programmée...32

11.3.2 Moduiation de croissance...32

11.3.3 Persistance...32

11.3.4 Déveioppement...33

11.3.5 Stabilisation de régions chromosomiques non essentielies...33

11.3.6 Anti-addiction...33

1

(6)

11.4 ÉVOLUTION DES SYSTÈMES TA 35

III OBJECTIFS...36

IV RÉSULTATS... 37

IV.l D^écouverteautomatiqueetanalysephylogénétiquedenouveauxsystèmes TA... 37

IV.2 Conceptioninsilico etanalysefonctionnelleinvivo detoxinesancestrales... 41

IV.2.1 Analyse de la phylogénie RelE/ParE...41

IV.2.2 Conception in silico de toxines ancestrales...44

IV.3 L^e^déclin^du^système TA chromosomique CCD^qis? chezl'^espèce E^scherichiacou... 50

IV. 4 Analyseducontextegénomiquedessystèmes TA...54

V. DISCUSSION...57

V. l Fonctiondessystèmes TA... 57

V.2 À QUI PROFITENT LES SYSTÈMES TA PLASMIDIQUES ?... 59

V.3 Fonctiondessystèmes TA chromosomiques : innéeouacquise ?... 60

V.4 O^rigine^des^systèmes TA...61

VI PERSPECTIVES...64

VII. ANNEXES...66

VII.1 ÉTUDE PHYLOGÉNOMIQUE D'UN VARIANT INHABITUEL DE L'HISTONE H2A CHEZ LES ROTIFÈRES BDELLOÏDES ... 67

VII.2 Hîstoire^évolutive^du^virus^de^l'^hépatite C ^génotype 5âên F^rance, E^spagneêt Bêlgique...70

VII.3 Conclusiondesannexes... 73

VIII BIBLIOGRAPHIE... 75

IX MATÉRIEL ET MÉTHODES...83

IX.l Matériel... 83

IX.1.1 Souches et milieux de culture...83

IX.1.2 Vecteurs...83

IX.1.3 Oligonucléotides de synthèse...85

IX.1.4 Enzymes...85

IX.l.5 Solutions...86

IX.l.6 Antibiotiques...86

IX.2 Techniques ET PROCÉDURES...87

IX.2.1 Polymerase Chain Reaction (PCR)...87

IX.2.2. Analyse d'ADN par électrophorèse...87

IX.2.3. Clonage direct...88

IX.2.4. Clonage dans le vecteur pCR-XL-TOPO...89

IX.2.5. Clonage shotgun...89

IX. 2.6. Extraction des plasmides...91

IX.2.7. Séquençage...91

IX.2.8. Préparation de bactéries électrocompétentes...91

IX.2.9. Électroporation...91

IX.2.10. Transformation de bactéries par un plasmide : méthode au TSS...91

IX.2.11 Tests de toxicité et d'antitoxicité sur boîte...92

IX.2.12 Tests d'induction de la réaction SOS...92

IX.2.13 Tests d'incorporation d'acides aminés radioactifs...93

IX. 2.14 Reconstruction de séquences ancestrales in silico...94

IX.2.15 Reconstruction de séquences ancestrales in vivo...94

(7)

I. I ntroduction : la phylogénie

I.l H

istoiredelaphylogénie

Dès l’Antiquité, certains philosophes grecs avaient émis l’idée selon laquelle les espèces évoluent et donc partagent des liens de parenté, et classaient le vivant, avant même que les mécanismes de l’hérédité et de l’évolution ne soient connus. Mais c’est au siècle que tous ces travaux prennent un tournant majeur, lorsque Darwin formule la première théorie cohérente des mécanismes de l’évolution ; la phylogénie est née, à savoir l’étude des relations évolutives entre groupes d’organismes. Tout naturellement, le premier critère utilisé pour caractériser ees relations a été la ressemblance morphologique. En effet, l’observation selon laquelle nous ressemblons à nos proches parents permet de formuler plus généralement l’hypothèse que la ressemblance entre les individus (et par extension entre les espèces) est directement corrélée à la distance qui les sépare d’un point de vue évolutif. Malheureusement, ce critère est difficile à exploiter en raison du faible nombre de caractères morphologiques objectivement utilisables, la non-indépendance de certains d’entre eux, ainsi que le fort risque d’homoplasie (similarité qui n’est pas due à l’existence d’un ancêtre commun) étant donné que ces caractères sont le plus souvent soumis à la sélection naturelle. Avec les progrès de la science et des techniques de mesures, des caractères moins évidents mais objectifs ont vu le jour entre les années 30 et 60. Linus Pauling par exemple, dès le début des années 50, a utilisé l’électrophorèse et la chromatographie sur papier de protéines partiellement digérées par des protéases afin de créer des profils bidimensionnels uniques permettant une comparaison fine de protéines homologues (voir par exemple [1]). Dans les années 60, les séquences protéiques (séquences d’acides aminés) ont commencé à être utilisées.

Parallèlement pendant les années 50, la découverte du rôle de TADN et des mécanismes de l’hérédité a précisé la notion de gène. La relation entre la séquence nucléotidique et le phénotype a donné aux chercheurs un nouveau point de comparaison entre les espèces. La phylogénie moléculaire telle qu’elle existe actuellement est ainsi née dans les années 70 lorsque les techniques de séquençage de l’ADN sont apparues, remettant en cause de nombreuses observations, ce qui a bien entendu suscité bon nombre de débats. 11 est notamment apparu que des espèces proches morphologiquement pouvaient avoir pour un ou plusieurs gènes des séquences très éloignées (convergence morphologique). Un exemple

3

(8)

Chiroptcra (bat) Pcrissodaclyla (honte) Camivora (dog, cat) Cetaniodaetyla (eow, whale) Eulipotyphia (threw, ncdgehog) Primates (humait, monkey») Dermoptcra (flying lemur) Scandcntia (tree shrew) Rodcntia (muuse, rat) Laiiomorphü (rafibit) Xenarthra (anttodlllo, anieatcr) Proboscidea (éléphant) Sirenia (manatee, dugong) Hyracoidea (hyrax) Tubulidemala (aardvark) Afrosoricida (tenrec, golden mole) Macroscclidea (éléphant shtew) Marsupialia (opossum, kangaroo)

Figure 1. Phylogénie des Mammifères montrant la proximité évolutive des Cétacés et des

Artiodactyles (baleine et vache, entourés en rouge) et la proximité morphologique du hérisson et du tenrec (entourés en vert).

D'après Nishihara et al, 2006 [156]

(9)

marquant est le tenrec, petit animal africain à épines, qui s’est révélé, par des études phylogénétiques, ne pas être un proche parent du hérisson, comme le laissait supposer son phénotype, mais plus de l’éléphant [2]. L’inverse s’est révélé vrai, des espèces très dissemblables peuvent être génétiquement très similaires, citons par exemple la proximité phylogénétique de la baleine et de la vache (plus généralement, des Cétacés et des Artiodactyles, voir notamment [3, 4], figure 1).

4

(10)

Seconde position

T C A G

T

Phenyl- alanine

Serine

Tyrosine Cysteine T

C

Leucine Stop Stop A

IkniLonhane G

C Leucine Proline

Histidine

Arginine T C

Glutamine A

G

A Isoleucine

Threonine

Asparagine Serine T

C

Lysine Arginine A

Méthionine G

G Valine Alanine

Aspartate

Glycine T C

Glutamate A

G H>-1 O

<T>' fï Ow OC3

Figure 2. Le code génétique: à chaque triplet de codons correspond un aide aminé unique.

Exemple: CCT code pour la proline. Les couleurs correspondent aux propriétés physico-chimiques principales de ces acides aminés. Rouge: hydrophobes, bleus: polaires, orange: acides, vert: basiques.

Le codon stop correspond au signal d'arrêt de la traduction.

dirtct rtoMU

Figure 3. Mécanismes de duplication / délétion de gènes par recombinaison.

La recombinaison se produit par appariement de régions homologues du génome {direct repeats).

Selon la position relative des régions impliquées cela pourra aboutir à la duplication d’un fragment génomique (à droite, recombinaison entre deux molécules d’ADN lors de la recombinaison) ou à sa délétion (à gauche, recombinaison au sein même du chromosome).

(11)

1.2 É

volution

La phylogénie moléculaire est affaire de comparaisons, principalement de séquences d’ADN. Elle perd donc tout son sens si des éléments non comparables sont confrontés les uns aux autres. Il pourrait sembler simple de se dire qu’il suffit d’utiliser les différentes versions, dans différents organismes, d’un même gène. Mais ce serait faire l’erreur d’ignorer les grands mécanismes qui dictent l’évolution des gènes et des génomes et qui compliquent le choix des données avec lesquelles il est possible de travailler.

1.2.1 Mutation ponctuelle

La mutation ponctuelle est le mécanisme le plus connu d’évolution d’un gène. Elle crée en effet de la diversité lorsqu’elle est transmise à la génération suivante. Par définition elle ne touche que de petites régions et ne provoque le plus souvent que de petits changements (en tout cas en termes de séquence). Une mutation ponctuelle est le simple remplacement d’une base de la séquence ADN par une autre, voire l’addition ou la délétion d’une base. Elle peut être plus ou moins fréquente selon la pression de sélection, synonyme (ou silencieuse) si le changement de séquence ADN ne conduit pas à un changement de séquence protéique, ou non synonyme (Figure 2). Deux gènes séparés évolutivement par quelques mutations ponctuelles sont tout à fait utilisables en phylogénie puisqu’ils sont issus de l’évolution d’un seul gène ancestral.

1.2.2 Recombinaison

La recombinaison touche des régions plus grandes et induit des changements plus drastiques, telles des inversions, délétions, ou duplications (Figure 3). La recombinaison est un processus qui permet l’échange de matériel génétique soit entre molécules d’ADN, lors de la réplication par exemple, soit au sein du chromosome grâce à l’appariement de régions complémentaires distantes l’une de l’autre [5]. Un gène peut ainsi être entièrement supprimé au sein d’un groupe d’organismes et donc ne plus être utilisable pour des analyses phylogénétiques. Lors de la duplication de gènes, une des copies peut évoluer différemment.

Cette dernière n’étant pas issue d’un événement de spéciation, mais de duplication, elle est dite paralogue au gène de départ. Cela pourra se traduire phylogénétiquement par une plus grande proximité avec la copie dont elle est issue qu’avec le gène présent dans l’espèce ancestrale. De manière générale, il convient de savoir si l’on se trouve en présence de gènes homologues (dérivés d’un ancêtre commim), puis s’ils sont orthologues (séparés par une

5

(12)

Don or A Conjugative plasmid

Récipient

D

Pili nx'diates tell tell conlact

Kcplicâtion bcgins

Plasmid transferred to récipient tell

Plasmid replicates In récipient cell

Réplication twnpietc

Maiing pair séparâtes

Figure 4. Transfert horizontal de matériel génétique par conjugaison bactérienne.

(A) Une bactérie donneuse contenant un plasmide conjugatif forme une connexion avec une bactérie proche grâce au pilus. (B) Une copie simple brin du plasmide est faite. (Q La copie simple brin est envoyée à la cellule réceptrice via le pilus. (D) Le brin complémentaire du plasmide est créé. (E) La réplication du plasmide est terminée. (F) Les deux bactéries se séparent,

(13)

spéciation) ou paralogues (séparés par une duplication), afin d’éviter des erreurs d’interprétation. Notons aussi que tout comme les organismes, les gènes peuvent présenter une évolution convergente ; de ce fait, deux gènes non homologues peuvent présenter une similarité de séquence. Celle-ci peut conduire à formuler de mauvaises conclusions.

1.2.3 Transposition

La transposition est une forme de recombinaison par excision puis insertion, conduisant à la translocation d’un segment d’ADN particulier (le transposon) d’un site donneur à un ou plusieurs sites. Les transposons sont des acteurs majeurs de l’évolution des gènes et génomes, grâce à plusieurs mécanismes. Ils peuvent (/) altérer la fonction d’un gène en s’y insérant, (//) provoquer des réarrangements chromosomiques, comme de la recombinaison homologue, lorsque le même transposon s’insère plusieurs fois sur le même chromosome, et (üf) être une source de matériel, codant ou non, et ainsi créer de la nouveauté.

Les transposons (ou éléments transposables) peuvent être de natures différentes selon leur structure (voir pour revue [6, 7]).

1.2.4 Procaryotes

Les mécanismes décrits ci-dessous sont spécifiques aux procaryotes (pour revue, voir [6, 8-10]).

Conjugaison

Les bactéries possèdent, souvent en de multiples copies, des éléments génétiques circulaires extra-chromosomiques : les plasmides. Ces plasmides peuvent porter différents types de gènes, qui confèrent généralement un avantage sélectif dans des conditions particulières (gènes de résistance à des antibiotiques par exemple). Certains des plasmides sont dits conjugatifs. La conjugaison consiste en l’échange de matériel génétique entre organismes, via les plasmides (Figure 4). C’est un transfert dit horizontal, c’est-à-dire qu’il se fait entre individus qui ne descendent pas les uns des autres, par opposition au transfert vertical qui concerne la descendance. La conjugaison peut même se produire entre bactéries d’espèces éloignées dans le cas de certains plasmides dits « à large spectre d’hôtes ». Par recombinaison, du matériel plasmidique peut se retrouver intégré au chromosome. Ainsi, lorsque des gènes bactériens sont utilisés en phylogénie, il convient de se méfier du fait qu’ils puissent ne pas être issus directement de spéciation, mais de transfert horizontal. Ce transfert

6

(14)

O cassette de gène (Gc)

promoteur integrase

Figure 5. Mécanisme d'intégration de cassettes de gènes au sein d'un intégron.

Les cassettes de gènes (Gc), circulaires lorsqu’elles sont libres, peuvent être insérées par l’integrase (en gris) par recombinaison entre le site atti de l’integrase, et le site attC de la cassette de gène (en noir). L’integrase peut également catalyser la recombinaison entre deux sites attC de cassettes présentes dans l’intégron, ce qui résulte en l’excision d’une cassette. L’integrase est transcrite dans le sens inverse des cassettes (flèches coudées).

(15)

est responsable de la très grande difficulté à réaliser des phylogénies bactériennes, car il touche un très grand nombre de gènes.

Transduction par les bactériophages

Le mécanisme de transfert horizontal de matériel génétique peut aussi provenir d’ime infection par un bactériophage. Ceux-ci peuvent être lytiques, auquel cas leur cycle constitue simplement à produire, grâce à la machinerie cellulaire de la bactérie infectée, des particules phagiques qui seront finalement libérées par la lyse de leur hôte. D’autres phages sont dits tempérés ; dans ce cas, ils ont un cycle lysogène au cours duquel le génome du phage coexiste avec celui de la bactérie, voire y est intégré, et est transmis au cours des générations sous forme dormante. Sous certaines conditions, ces particules dormantes peuvent entrer en cycle lytique, elles sont alors libérées suite à la lyse bactérienne, emportant avec elles des fragments du génome de leur hôte. Lors de l’infection d’autres bactéries par ces nouveaux virus, ces fragments peuvent être transférés au nouvel hôte.

Transposons conjugatifs

Ces transposons s’excisent et s’insèrent dans des molécules d’ADN comme tout transposon ; ils ont une forme circulaire lorsqu’ils sont excisés et se transmettent par conjugaison, comme les plasmides. Leur mécanisme d’excision/insertion ressemble à celui des transposons.

Intégrons et cassettes de gènes

Les intégrons sont des structures particulières constituées d’un gène codant pour une intégrase, d’un site d’insertion atti, et d’un promoteur (Figure 5). Derrière ce promoteur peuvent s’insérer un certain nombre de cassettes de gènes, qui contiennent un site attC, grâce à l’intégrase. Celle-ci peut en effet catalyser la recombinaison entre le site attI et le site attC, conduisant à l’intégration d’une cassette au site atti. Ces cassettes sont des éléments génétiques circulaires sous leur forme libre. Elles possèdent généralement vm seul gène, qui peut conférer des propriétés telles que la résistance à un antibiotique. Elles peuvent être également excisées de l’intégron, par recombinaison entre deux sites attC de deux cassettes intégrées.

Les super-intégrons peuvent contenir un grand nombre de cassettes de gènes (plus d’ime centaine chez Vibrio cholerae), et l’integrase a la particularité de pouvoir catalyser la

7

(16)

gène protéine

Figure 6. Épissage alternatif d’un gène.

Un gène eucaryote est constitué d’introns (lignes pleines) et d’exons (rectangles de couleur). Lors de l’épissage, les introns ainsi que certains exons seront éliminés de l’ARN messager par coupure/religation (lignes pointillées), conduisant in fine à la production de protéines différentes à partir du même gène.

(17)

recombinaison avec des sites attC présentant une moindre similarité. Les super-intégrons peuvent donc acciunuler im grand nombre de cassettes d’origines diverses et constituent ainsi im réservoir majeur de gènes pour les bactéries. L’origine des cassettes de gènes étant encore obscure, il est important de savoir si un gène fait partie ou non d’une cassette lors d’analyses phylogénétiques sous peine d’erreurs d’interprétation possibles.

îlots génomiques

Les îlots génomiques sont de grandes régions chromosomiques (minimum lOkb), vraisemblablement issues d’éléments mobiles, et parfois eux-mêmes toujours mobiles. Elles sont constituées d’ADN « étranger » et contieiment des gènes codant différentes fonctions, qui peuvent s’avérer essentielles sous certaines conditions. Pour ces gènes également, étant donnée leur origine mobile, la phylogénie ne reflétera pas forcément celle des organismes dont ils sont issus.

1.2.5 Eucaryotes

Les mécanismes décrits ci-dessous sont spécifiques aux eucaryotes (pour revue, voir [7,11-15]).

Introns/épissage alternatif

Les gènes eucaryotes sont constitués d’une alternance d’introns et d’exons. Les introns sont éliminés lors d’une étape de la transcription, appelée épissage, et donc seuls les exons définissent la protéine encodée. Le mécanisme d’épissage alternatif permet, à partir d’un seul gène, d’obtenir différentes combinaisons d’exons conduisant à différentes protéines (Figure 6). Enfin, les introns n’étant pas codants, ils peuvent évoluer beaucoup plus rapidement que les exons car ils sont libres de contraintes évolutives. De ces changements peuvent parfois apparaître de nouveaux promoteurs, ou de nouveaux exons. En phylogénie, ce sont donc uniquement les exons qui reflètent l’évolution d’un gène. Il est alors indispensable de travailler avec le cDNA, qui correspond à la partie codante du gène.

Duplication segmentaire, duplication complète

Les génomes eucaryotes ont la faculté de se dupliquer spontanément, que ce soit partiellement ou entièrement. Il existe ainsi des organismes pour lesquels le génome est présent en plusieurs copies. Cette redondance tend par la suite à disparaître, par évolution

8

(18)

neutre par exemple, ou par spécialisation. En ce qui concerne les études phylogénétiques, cela crée un grand nombre de paralogies, qu’il convient de détecter.

Transfert horizontal

Le transfert horizontal de gènes existe aussi chez les eucaryotes, mais est beaucoup moins connu. Si l’on sait depuis assez longtemps que certains gènes eucaryotes sont issus de l’intégration de gènes d’endosymbiotes (notamment concernant la mitochondrie et le chloroplaste, organites issus d’endosymbioses bactériennes), il apparait que du transfert horizontal se produise encore actuellement, entre procaryotes et eucaryotes, ou entre eucaryotes. C’est en tout cas ce que suggèrent un certain nombre d’anomalies phylogénétiques observées, à savoir la non congruence de phylogénies de gènes par rapport à celles des espèces dont ils sont issus. Récemment, une publication a fait l’état de transfert horizontal massif de gènes de procaryotes, de champignons et de plantes chez les rotifères bdelloïdes [16].

Comme on le voit, les connaissances biologiques des séquences sur lesquelles l’on travaille sont de première importance, nécessitant donc l’intervention humaine. Mais par la suite dans le processus d’inférence phylogénétique, l’être humain a ses limites en termes de vitesse de calcul, qu’un ordinateur n’a pas. Cet outil a considérablement évolué, passant de machines imposantes aux capacités limitées à ce que nous cormaissons aujourd’hui. Mais les avancées de l’informatique, si elles ont permis de grandement augmenter la puissance de calcul, ont forcé les chercheurs à décrire des processus simples et utilisables par la machine pour inférer des arbres phylogénétiques. Ce sont les méthodes algorithmiques, qui sont apparues au début des années 60.

Parmi ces méthodes, un certain nombre sont fondées sur des matrices décrivant les distances évolutives qui séparent les différents éléments considérés deux à deux. En travaillant à partir de séquences (nucléotidiques ou protéiques) cela revient à estimer le nombre de mutations ayant permis le passage d’une séquence A à une séquence B.

(19)

s,

s.

s

₃

A T G

G C T T A C

5 10 15

Figure 7. Exemple d’évolution d’une séquence, montrant une substitution (position 6), une mutation réverse (position 4) et des substitutions multiples (position 10). En raison de ces phénomènes, la distance évolutive entre la première (Sj) et la dernière (S^) séquence est de 5 (nombre réel de mutations) alors que la distance observée n’est que de 2.

u/3

A <--- > G

u/3

Figure 8. Modèle d’évolution de Jukes et Canton

Chaque nucléotide peut être remplacé par un autre avec une probabilité de u/3, u étant le taux de substitution par unité de temps.

(20)

1.3 M

atricesde distances

1.3.1 Estimer la distance évolutive

Les méthodes fondées sur la distance évolutive nécessitent le calcul de cette distance.

En première approximation, si nous nous plaçons dans le contexte de comparaisons de séquences nucléotidiques, il suffirait de compter le nombre de différences que l’on observe entre deux séquences. Même si cette valeur peut effectivement être la distance évolutive, il convient de remarquer que celle-ci se définit en réalité par le nombre d’événements de mutation qui ont conduit d’une séquence à l’autre. Et de fait, rien n’interdit que pour une différence observée, il y ait eu plusieurs mutations au même site. En particulier, un site pour lequel aucune différence n’est visible peut avoir connu des événements de mutation qui ont conduit à cet état (Figure 7). Il apparait ainsi que compter le nombre de différences sous- estime fortement le nombre de changements évolutifs qui ont eu lieu, particulièrement si les deux séquences considérées ont divergé depuis longtemps. Il convient donc de se munir d’vm modèle permettant d’estimer précisément cette valeur, à partir de la seule chose observable à savoir le nombre de différences.

En 1969, Jukes et Cantor [17] ont proposé le premier modèle d’évolution des séquences ADN (Figure 8). Si u est le taux de substitution par unité de temps, alors chaque nucléotide est remplacé par un autre avec un taux de Cela suppose bien sûr des fréquences égales pour chacun des nucléotides dans les séquences considérées. À partir de là, il est possible de calculer la probabilité de passer d’un état à un autre. Si on considère une des quatre bases, on peut soit observer le changement de celle-ci en l’une des trois autres (donc 3 X - ) soit considérer la possibilité que cette base reste inchangée (une fois encore - ).

On a donc im taux “ tt de changement d’une base aléatoire. Jukes et Cantor ont considéré que la distribution des événements au cours du temps suit une loi de Poisson, ce qui a permis d’établir que la probabilité qu’aucun changement ne se soit produit au cours d’une quantité de temps t est Le corollaire est que la probabilité qu’au moins un changement se soit produit est 1—

Si l’on considère la proportionp de différences observées entre deux séquences, Jukes et Cantor ont dérivé de ces précédentes équations l’estimation du nombre réel de changements

(21)

a

A ^ G

P P

C <■ > T a

Figure 9. Modèle d’évolution de Kimura à deux paramètres.

Le taux de transition, a, est différent du taux de transversion, p. La transition est le changement d’une base purique (A ou G), ou d’une base pyrimidique (C ou T) en l’autre ; la transversion est le changement d’une base purique ou pyrimidique en une base p)Timidique ou purique respectivement.

(22)

En 1980, Kimura a introduit un paramètre supplémentaire à ce modèle, le taux de transition/transversion, la transition correspondant au passage d’une purine à l’autre ou d’une pyrimidine à l’autre (A-<->-G ou C<->T) et la transversion au passage d’une purine à une pyrimidine, ou inversement (A<-^C, A+->T, G^C, G-«-»T). On passe donc d’un modèle à un paramètre (ü) au modèle de Kimura à deux paramètres (K2P, [18]), a et P, a étant le taux de transition et P le taux de transversion (Figure 9). Notons que le modèle JC n’est qu’un cas particulier du K2P où a est égal à p.

Ces deux modèles sont très simples en termes de calcul, mais imposent de grandes restrictions, notamment le fait que les fréquences des quatre bases sont supposées égales à l’équilibre. Cette hypothèse est très lourde, si l’on considère notamment que chez les bactéries, le taux de bases G et C peut varier de 20% à 80% du génome. Deux autres modèles ont relâché cette contrainte ; l’un utilisé depuis 1984 et mis au point par Felsenstein [19, 20]

et l’autre décrit en 1985 par Hasegawa, Kishino et Yano [21]. Ils sont relativement similaires, ce qui a conduit Tamura et Nei à les généraliser en 1993 [22].

Mais dès 1984, Lanave a décrit le modèle de substitution le plus complexe qui existe à ce jour. Il a été baptisé GTR, pour General Time-Reversible [23], et il autorise des taux de substitutions instantanés variables entre les six paires de nucléotides, mais égaux dans les deux sens (du nucléotide i au nucléotide j, et de j à i). Ce modèle est donc qualifié de réversible dans le temps (c’est d’ailleurs également le cas pour tous les modèles décrits ci- dessus). Il généralise tous les autres, moins complexes, et n’a été réellement exploité que lorsque les ressources informatiques ont permis des calculs poussés dans des limites de temps acceptables. Ce modèle comporte six paramètres, et on pourrait imaginer de le rendre plus général en refusant la réversibilité, c’est-à-dire que le taux de substitution de i à j serait maintenant différent de celui de j à i. Cela porterait le nombre de paramètres à 12, mais à l’heure actuelle aucun programme de phylogénie n’implémente ce genre de modèle étant donnée que les méthodes d’inférence phylogénétiques actuelles utilisent cette hypothèse de réversibilité, ce qui simplifie la procédure en permettant de générer des arbres non racinés.

Il convient de noter que plus le modèle est complexe, plus il est général. Cela signifie que pour un modèle donné, par exemple le GTR, un modèle moins complexe comme le K2P correspond à un cas particulier où certains paramètres ne sont plus variables mais fixes. Il existe des programmes permettant de déterminer quel modèle s’applique le mieux aux

(23)

gourmand en ressources et donc en temps de calcul. De plus, si un modèle plus général décrit aussi bien si ce n’est mieux les dormées qu’un modèle plus simple, ce choix conduira à une plus grande variance des estimateurs lors de l’inférence phylogénétique [24], Le choix du

« meilleur » modèle représente donc un compromis entre le fitting (qualité de la description des données par le modèle) et l’augmentation de cette variance. Néanmoins, d’autres études (voir par exemple [25]) suggèrent que ce choix a un impact modéré sur l’inférence, notamment car les nœuds de l’arbre qui sont ainsi affectés sont généralement ceux qui sont le moins bien supportés statistiquement. De ce fait, pour des programmes comme raxml [26] ou

GARLI [27], les auteurs se sont concentré sur le modèle le plus général, le GTR, afin d’en

améliorer l’implémentation et de le rendre plus efficace. Il convient toutefois de préciser que les modèles présentés ne sont que des approximations, et que quelque soit le modèle choisi, il ne décrira jamais exactement la réalité.

Une « amélioration » possible des modèles d’évolution consiste à considérer le fait que les taux d’évolution peuvent changer de site à site. En effet, la sélection naturelle n’influe pas de la même manière sur toutes les parties de la séquence. Par exemple, certaines parties d’une protéine dont la structure est d’importance capitale pour la fonction seront fortement contraintes, et donc peu variables, comme par exemple le site actif d’une enzyme, ou encore la région impliquée dans une interaction de structure avec une autre protéine. D’autres parties peuvent n’avoir que peu d’importance en termes de séquence, et donc évoluer plus rapidement. Afin de prendre ceci en compte, des modèles de distribution des taux d’évolution aux différents sites ont été mis au point. Un des modèles les plus utilisés est fondé sur la distribution gamma (F, [28, 29]). La forme de cette distribution peut être contrôlée par un paramètre, a.

Enfin, il est parfois supposé que certains sites de la séquence sont invariables, à savoir que leur taux d’évolution est nul. Ce peut être le cas des exemples cités plus haut, à savoir de régions fortement contraintes lorsque l’on travaille dans une échelle de temps réduite. Ce paramètre est noté I [30]. Ainsi, un modèle GTR+F+I sera un modèle GTR, avec une variation de type gamma du taux d’évolution de site à site, et une certaine proportion de sites invariants.

Dans le cas de modèles d’évolution protéiques, le nombre de paramètres augmenterait drastiquement (passant de quatre bases à vingt et un acides aminés possibles) ce qui a conduit les chercheurs à construire des modèles empiriques, dérivés de données réelles. Margaret

12

(24)

A B C D E

A

C

4

A+C B D E

A+C 0 9 8 7,5

B

9

¹^~ô~l

7

¹^ïS

1) 8 ₇ 0 8

E lO , 8 „

l

Figure 10. Algorithme UPGMA.

Une matrice est construite, qui décrit toutes les distances (deux à deux) de toutes les paires de séquences présentes dans le jeu de données. (1) La distance la plus petite entre deux séquences est identifiée (distance A-C à la première itération). (2) Les deux séquences (A et C) sont donc reliées à un nouveau nœud, les deux branches ayant une longueur égale à la moitié de la distance séparant les deux séquences. (3) Une nouvelle matrice est construite de la manière suivante : les séquences (A et C) sont désormais représentées par une seule unité (A+C). La distance entre elle et une autre séquence (B) est calculée comme la moyenne arithmétique de la distance de cette séquence à chacune de celles constituant la nouvelle entité (B à A et B à C). Et ainsi de suite pour chaque autre séquence du jeu de données. La procédure est répétée à partir de (1) jusqu’à ce que l’arbre complet soit reconstruit, c’est- à-dire jusqu’à ce qu’il n’y ait plus qu’un élément au sein de la matrice.

(25)

Dayhoff a été parmi les premières à construire ces modèles. Le nombre de paramètres étant trop important pour permettre de déterminer un modèle général, elle a comparé des ensembles de séquences de protéines proches. À partir de ces comparaisons, elle a obtenu des probabilités de changement d’un acide aminé à un autre, supposées applicables à d’autres protéines. À son état le plus abouti, en 1979, le modèle de Dayhoff référençait 1572 changements inférés au sein de 71 ensembles de protéines [31]. Depuis, ce modèle, ainsi que de nombreux autres, fondés également sur des comparaisons de protéines, ont été développés ; le choix du modèle le plus approprié peut se faire grâce à des programmes comme PROTTEST [32].

Les modèles de substitutions permettent d’estimer la distance évolutive séparant les séquences considérées ; il est possible d’utiliser ces distances afin de construire des phylogénies.

1.3.2 UPGMA: Unweighted Pair Group Method with Arithmetic mean

Très tôt, dès la fin des années 50, les “clusters” ont été appliqués à la phylogénie. Un cluster est défini comme un regroupement d’éléments partageant un niveau de similarité significativement plus grand qu’avec le reste des éléments considérés. Dans les différents articles qui décrivent les méthodes de création des clusters, Sokal, Michener et Sneath [33-36]

évoquent la possibilité de les utiliser non seulement à des fins de classification, mais aussi d’inférence phylogénétique. Ces méthodes exclusivement numériques, issues des statistiques, sont apparues avant l’analyse de séquences (d’ADN ou de protéines), et ont donc reçu un accueil mitigé. Néanmoins, et pour la première fois, des inférences d’arbres absolument objectives pouvaient être réalisées.

La méthode UPGMA utilise ces clusters afin d’inférer les relations entre les séquences considérées. Elle est simple et peut être réalisée manuellement ou implémentée dans tm programme informatique (Figure 10).

Cette méthode est fortement biaisée, notamment par le fait qu’elle suppose un taux d’évolution constant entre toutes les séquences considérées (hypothèse de l’horloge moléculaire). Si on imagine le cas où un grand nombre de mutations se sont produites le long de la même branche, celle-ci se retrouvera à la base de la phylogénie finale, alors que la séquence n’aura émergé que récemment. L’UPGMA n’est donc fiable que dans le cas de séquences suffisamment proches, et ayant évolué à des vitesses similaires. Ce cas étant très

13

(26)

restreint, cette méthode n’a plus qu’un intérêt historique en tant que première méthode pouvant être automatisée, et donc entièrement objective, et n’est plus utilisée aujourd’hui.

1.3.3 Neighbor Joining (NJ)

L’algorithme de NJ mis au point par Saitou et Nei en 1987 [37] fonctionne également par clustering. Il ressemble à l’UPGMA, sauf pour la méthode de calcul de la distance séparant deux taxa (unités phylogénétiques) de tous les autres. Il ne suppose pas d’horloge moléculaire (vitesse d’évolution constante) et donc ne souffre pas du biais de l’UPGMA. Il nécessite plus de puissance de calcul que ce dernier, mais reste néanmoins très peu gourmand.

De fait, cette méthode est la plus rapide et la plus fiable pour des séquences qui ne sont pas trop divergentes. Elle est toujours utilisée à l’heure actuelle, notamment pour obtenir un premier arbre, de bonne qualité, qui pourra par la suite être amélioré par d’autres procédés.

Parmi les programmes qui implémentent le NJ, citons MEGA 4 [38], qui implémente également d’autres méthodes.

1.3.4 Limite des méthodes de distance

Il existe d’autres algorithmes utilisant des matrices de distances. Tous peuvent doimer de bons résultats, et sont généralement assez peu gourmands en ressources. Néanmoins, il existe un biais qu’aucune de ces méthodes ne peut corriger. Lorsque les taux d’évolution varient de site à site, il est préférable d’ajuster le calcul de distances pour traduire cette variation, ce que ne peuvent faire de telles méthodes. Ceci pose notamment problème lorsque ces taux varient grandement au sein des séquences.

(27)

number of taxa

Figure 11. Nombre de topologies (forme d’une phylogénie, ne tenant donc pas compte d’autres paramètres tels que la longueur des branches) en fonction du nombre de taxa.

Figure 12. Recherche par Branch & Bound.

Un premier arbre, obtenu par une méthode quelconque, est évalué (score 964). Ensuite, des arbres sont créés en prenant trois taxa aléatoires auxquels les taxa restant sont ajoutés un par un. À chaque addition d’un taxon le score de l’arbre obtenu est évalué. Si l’on considère que le score le plus bas correspond au meilleur arbre, à chaque étape, tout arbre évalué ayant un score supérieur à 964 sera abandonné.

(28)

1.4 M

éthodesd

’

évaluation

Les méthodes d’évaluation utilisent un critère selon lequel un score pourra être attribué à une phylogénie, pour un jeu de séquences dormé. Malheureusement, dès les années 60, Edwards et Cavalli-Sforza ont montré qu’échantillonner tous les arbres possibles à partir d’un même jeu de données est une tâche impossible dès lors qu’on dépasse un certain nombre de séquences [39]. En effet, la croissance du nombre de phylogénies possibles en fonction de la taille du jeu de séquences est factorielle, c’est-à-dire plus qu’exponentielle (Figure 11).

Pratiquement, il n’est pas concevable de considérer tous les arbres possibles au delà d’une dizaine de taxa. Cette valeur va augmenter avec la puissance des machines, mais lentement. Il apparaît donc qu’il faille définir une stratégie permettant de parcourir le plus efficacement possible l’espace des phylogénies.

1.4.1 Recherche par « Branch and Bound »

Le « Branch and Bound » est un moyen de réduire le nombre d’arbres à évaluer. Il fonctionne par construction pas à pas (c’est-à-dire en ajoutant une séquence à la fois) des phylogénies, et par calcul du score à chaque étape. De cette manière, un premier arbre est créé, et son score évalué. La procédure est répétée à chaque addition de séquence. À toutes les étapes de la construction, si le score évalué est moins bon que celui de la solution courante, l’algorithme s’arrête et ne calculera donc pas tous les scores pour tous les arbres construits à partir des mêmes premières étapes. Ceci nécessite bien sûr l’évaluation d’un arbre initial, qui peut par exemple se faire par NJ, par stepwise addition (les taxas sont ajoutés un par un, en tenant compte du critère d’évaluation choisi), ou encore aléatoirement (Figure 12).

Si cet algorithme réduit fortement le nombre d’arbres à évaluer, il ne règle pas complètement le problème mais le déplace. En effet, à partir d’un certain nombre de séquences, la recherche prendra tout de même beaucoup trop de temps pour être envisageable.

1.4.2 Recherche heuristique

Appliquée à la phylogénie, une heuristique est une méthode de recherche de la phylogénie optimale dans un temps pratique et qui ne nécessite pas de considérer toutes les possibilités. Ce type de méthode ne garantit pas toujours de trouver la (les) meilleure(s) solution(s). Le principe est de déterminer un arbre de départ (que ce soit aléatoirement ou via

(29)

solution optimalr

optimuin local g

point de départ

Figure 13. Représentation tridimensionnelle d'un espace de solutions.

Plus un point est élevé, meilleur est son score. Le point B correspond à l'arbre réel (solution optimale) tandis que A correspond à un arbre distant mais possédant néanmoins un score élevé (optimum local).

Si la recherche phylogénétique commence près du point A, elle aboutira à cette solution, qui est éloignée de la bonne.

D’après Felsenstein, \n Inferringphylogénies, 2004 Sinauer Associates [159]

(30)

le modifier et d’évaluer le nouvel arbre obtenu. Si ce dernier a un meilleur score, il pourra être décidé de le conserver et de réitérer la procédure à partir de ce point. Les modifications imposées aux arbres sont principalement des réarrangements de branches (échange de deux branches, de deux sous-arbres...). La recherche heuristique se termine quand, au terme d’rm certain nombre de changements, aucune nouvelle solution n’est trouvée. Ce nombre de changements, qui constitue de fait la condition d’arrêt de l’algorithme, est à l’appréciation de l’utilisateur. Par exemple, il peut être décidé de stopper l’analyse si le score n’a pas évolué après 50 itérations.

Ce type de recherche pose un problème majeur, celui des optima locaux. Si l’ensemble des scores de tous les arbres existant pour un jeu de séquences donné est représenté comme un espace en trois dimensions, le meilleur score correspondra au point le plus haut de cet espace, et représentera donc la meilleure solution. Néanmoins, d’autres points élevés sur cet espace, mais éloignés du maximum global, peuvent exister. Si le point de départ se situe aux alentours de l’un de ces optima locaux, la solution proposée pourra être finalement très éloignée de la solution réelle (Figure 13). Pour pallier à ce problème, il est d’usage de lancer la procédure plusieurs fois, à partir de points de départ différents. Il est également possible d’utiliser des algorithmes évolués sensés pouvoir « s’échapper » des ces optima locaux.

Prenons par exemple un algorithme classique appelé « hill climbing ». Le principe en est le suivant. Un arbre est défini puis évalué. Il devient temporairement la meilleure solution connue. (1) Cet arbre est modifié puis réévalué. (2) Si le nouvel arbre a un meilleur score, il est conservé et devient temporairement la meilleure solution. Dans le cas contraire il est mis de côté. La procédure reprend à (1). Étant donné que seules les améliorations du score sont considérées, une fois im optimum (même local) atteint, aucune autre solution ne peut être acceptée. Ce processus est relativement rapide, mais peut doimer des solutions très éloignées de la réalité. Une amélioration possible consiste, par exemple, à ne pas refuser systématiquement tout arbre de score moins élevé, ou ne pas accepter systématiquement tout arbre avec un meilleur score. La décision peut être aléatoire, ou dépendre de la différence de score entre les deux arbres évalués, par exemple.

La mise au point d’une heuristique s’appuie souvent sur des phénomènes naturels.

Nous pouvons par exemple citer l’algorithme génétique, inspirée de la biologie évolutionniste, et qui reproduit certains mécanismes tels que la mutation et la sélection [40]. Le principe est

(31)

par des arbres. À chaque cycle, ou génération, chaque individu est muté (chaque arbre est modifié), puis une phase de sélection a lieu. Cette phase va sélectionner les individus forts (ayant meilleur score), selon différentes stratégies possibles. Ainsi à chaque génération, les arbres ayant les moins bons scores ont une certaine probabilité d’être éliminés de la population. Parmi les programmes implémentant l’algorithme génétique, citons GARLI [27], et MetaPiGA [41], ce dernier ayant étendu cette heuristique au concept de métapopulations (le programme ne considère pas une population unique, mais un ensemble de populations qui coopèrent dans la recherche de la solution optimale, grâce au principe de consensus pruning).

Comme il a été dit, la clé des méthodes d’évaluation est un critère selon lequel les arbres envisagés seront testés. Il en existe plusieurs types.

1.4.3 Critère de parcimonie

Selon Edwards et Cavalli-Sforza en 1963 [42], l’arbre phylogénétique le meilleur au sein d’un ensemble de propositions est celui qui (i) regroupe toutes les séquences considérées et (ii) les réunit en invoquant le moins de changements possibles (quantité totale d’évolution minimale). Autrement formulé, l’arbre qui s’explique par le moins d’événements de mutation possible aura un meilleur score que les autres. Ceci requiert de pouvoir compter le nombre de ces changements. Plusieurs algorithmes dévoués à cette tâche ont été mis au point. Si on considère deux séquences A et B, le but est de déterminer combien d’étapes évolutives sont nécessaires pour passer de A à B (ou de B à A). Ceci suppose de formuler une hypothèse sur la séquence ancestrale X qui les relie. La même procédure est appliquée à toutes les séquences de l’arbre. Le programme PAUP* 4.0 [43] reste une référence concernant la parcimonie, même s’il implémente également d’autres méthodes.

1.4.5 Critère de vraisemblance

Le maximum de vraisemblance est une notion bien connue des statisticiens. Dès 1964, Edwards et Cavalli-Sforza ont appliqué cette méthode à la phylogénie [44]. La vraisemblance appliquée à la phylogénie traduit la probabilité d’observer les données que l’on considère (jeu de séquences), étant donnée la topologie de l’arbre testé et la longueur de ses branches, et pour un modèle d’évolution donné. La vraisemblance totale d’un arbre correspond au produit des vraisemblances à chaque nœud et pour chaque site ; pour faciliter les calculs on considère généralement le logarithme de la vraisemblance totale, qui est donc égal à la somme des logarithmes des vraisemblances. Calculer la vraisemblance d’un arbre requiert des calculs très

17

(32)

Modèle (hypothèses)

i7i rfi [Tl

Distribution

a priori

Figure 14. Inférence phylogénétique bayésienne à partir de trois espèces : l’homme, le gorille et le chimpanzé. Sans aucune autre hypothèse que les différentes topologies possibles, la distribution a priori sera plate (probabilités égales). L’inférence conduira à une distribution a posteriori. Cette distribution sera échantillonnée (espace sous la courbe), et donc chaque arbre échantillonné aura une probabilité plus grande de correspondre à la meilleure solution.

D’après Fredrik Ronquist, Gothenburg Workshop, 2008.

httD://people.sc.fsu.edu/~ronquist/mrbaves/

(33)

loiirds et donc très gourmands en ressources informatiques. C’est pourquoi il a longtemps été considéré que cette méthode ne s’appliquait pas à une trop grande quantité de données (trop de séquences, ou des séquences trop longues, ce qui rendait les analyses beaucoup trop lentes). Aujourd’hui, l’évolution de la puissance des ordinateurs, ainsi que le perfectionnement des programmes implémentant les méthodes de vraisemblance rendent possible l’analyse d’un très grand nombre de séquences, ce qui est intéressant car, sous ce critère, plus il y a de données, plus l’inférence convergera vers la réalité. Parmi les programmes utilisant le maximum de vraisemblance, citons phyML [45] et ^raxml [26].

1.4.6 Méthode bayésienne

La méthode bayésienne est très proche du maximum de vraisemblance. Le théorème de Bayes s’écrit comme suit :

fCH/D) = /(//)■/(D/tf)

constante de normalisation

H étant notre hypothèse (l’arbre testé : topologie et longueurs de branches), D étant nos données. f(H/D) correspond à la distribution a posteriori, fiH) à la distribution a priori, et fip/H) est la fonction de vraisemblance. La valeur nommée constante de normalisation représente elle la vraisemblance totale, pour tous les arbres possibles ; elle est donc impossible à calculer analytiquement et nécessite l’utilisation de méthodes complexes (Markov Chain Monte Carlo, ou MCMC).

Ce qui différencie principalement le maximum de vraisemblance de la méthode bayésienne est l’invocation d’une distribution a priori, qui donne des probabilités à tous les arbres possibles avant même de démarrer la procédure. Si rien n’est connu de l’évolution des séquences présentes dans nos données, cette distribution sera plate, c’est-à-dire que chaque arbre aura la même probabilité a priori. Le résultat est une distribution a posteriori, donc un ensemble de probabilités, et finalement, la tâche d’un algorithme bayésien appliqué à la phylogénie sera d’échantillonner suffisamment cette distribution pour avoir un bon aperçu de ce à quoi doit ressembler l’arbre réel (Figure 14) [46]. Encore une fois, c’est à l’utilisateur de décider à quel moment l’échantillonnage est suffisant. Dans un programme comme MrBayes [47, 48] tous les arbres ainsi échantillonnés sont « résumés » en un consensus (voir plus bas), et des probabilités sont associées à chacun des clades (groupes monophylétiques, c’est-à-dire issus d’un ancêtre commun unique) du consensus. Ces probabilités sont appelées posterior

18

(34)

(35)

clades probabilities et correspondent à la proportion d’arbres de l’échantillon dans lesquels chaque clade est retrouvé. Ces probabilités donnent une indication de la robustesse des clades.

A l’heure actuelle, ces deux dernières méthodes (bayésienne et maximum de vraisemblance) sont considérées comme les plus performantes. Leurs avantages sont nombreux. Outre le fait qu’il a été montré qu’elles égalent ou dépassent les autres en termes de résultats, elles utilisent toute l’information contenue au sein des séquences (chaque site), donnant des résultats fiables même avec de petites séquences, renfermant peu d’informations évolutives. De plus, de nombreux paramètres peuvent venir s’ajouter au modèle, comme la variation du taux d’évolution le long des séquences, avec la possibilité d’inclure des profils différents pour chaque branche de l’arbre.

Toutes les méthodes précédemment décrites fonctionnent de la même manière, à savoir par comparaison des différents états trouvés à chaque site des séquences. Mais si beaucoup de mutations consistent à remplacer une base nucléotidique par une autre, il est également possible d’avoir des événements d’insertion ou de délétion. Dans ce cas, il est obligatoire de procéder en tout premier lieu à un alignement multiple des séquences du jeu de données, afin que la comparaison se fasse sur des éléments réellement comparables.

19

(36)

a.

ACCTGTGCTTAATATAAGGCT/i T GCGTAATTGGTAAAAC CCCTGTGCTATAAGGGTAAGCT

T

^ATTGGTAAAAAAC

b.

ACCTGTGCTTAATATAAGGCT/fflGCGTAATTGGT—AAAAC CCCTGTGCT--- AT AAGGGT/Ô A GCTT AATTGGTAAAAA AC

Figure 15. Alignement de séquences.

En raison d’événements d’insertion/délétion, pour une position donnée, la comparaison (encadrement rouge) n’est pas la même. Lorsque les séquences ne sont pas alignées (a) ce qui est comparé ne reflète pas l’histoire évolutive des séquences, alors que c’est le cas avec des séquences alignées (b).