• Aucun résultat trouvé

10.4 Deuxième approche : processus agissant sur le paramètre de la loi géomé-

10.4.5 Dérivation de la valeur du paramètre à partir de la reconstruction

Une fois qu’on a obtenu une distribution a posteriori de densité d(x) pour le paramètre

p de la loi géométrique sur le nœud n de l’arbre, plusieurs choix s’offrent à nous :

1. on peut choisir le paramètre qui maximise la fonction de densité : ˆp = maxx∈Rd(x),

2. on peut choisir la moyenne de la distribution : ˆp = RRxd x,

3. on peut choisir la valeur médiane de la distribution, m telle queRm

−∞d x = 0,5.

Parmi celles-ci, la deuxième solution est la plus classique : on choisit comme estima- teur l’espérance de la variable statistique.

Nous avons présenté ici deux méthodes de détermination phylogénétique des para- mètres des HMM de reconstruction ancestrale en ce qui concerne les transitions quittant les états d’Insertion. Pour obtenir des modèles ancestraux dont tous les paramètres sont calculés d’après la phylogénie, il nous reste maintenant à examiner le contenu des états d’insertion, c’est-à-dire la question de la détermination des distributions de probabilité pour les émissions sur ces états. C’est l’objet du chapitre suivant.

C

HAPITRE

11

Émissions de caractères sur les états

d’Insertion du modèle

[Qian et Goldstein, 2003], ainsi que d’autres auteurs avant eux, n’ont pas su intégrer les états d’Insertion dans une démarche de calcul des émissions basée sur la phylogénie (voir section 5.3.1). En effet, ces états ont la particularité, nous l’avons déjà dit, de boucler sur eux-même. Ainsi, un seul état d’Insertion est susceptible de générer une insertion d’acides aminés de longueur quelconque entre deux colonnes Match. De façon concomitante, on doit apprendre les probabilités d’émission sur un tel état à partir, non pas d’une seule co- lonne d’acides aminés alignés les uns avec les autres, mais de plusieurs colonnes affichant un certain nombre d’acides aminés non alignés entre eux. En effet, tout HMM profil mo- délisant une zone d’insertion par le biais d’un seul état bouclant sur lui-même, avec une seule distribution de probabilités d’émission et une seule probabilité de self-transition, la notion d’alignement au sens classique n’existe pas (du point de vue du HMM profil) au sein des états d’Insertion, et les séquencesGMQ---,G-M-Q-,G---MQou mêmeM---QGsont

strictement interchangeables du point de vue d’un HMM profil les alignant contre l’un de ses état d’Insertion : elles donnent toutes trois un score égal à p(G) p(M) p(Q) p2I IpI M, si

les p sont les probabilités propres à l’état d’Insertion en question et si le départ de la zone d’insertion se fait à destination de l’état Match du nœud suivant.

Comment apprendre les probabilités d’émission sur ces états d’Insertion en tenant compte de la phylogénie reliant les séquences d’apprentissage ? Les HMM profils calculent classiquement les probabilités d’insertion à partir d’un décompte des acides aminés obser- vés (toutes séquences confondues) dans la zone en question, en mélangeant ces observa- tions à des pseudo-comptes (priors) reflétant la connaissance a priori des acides aminés ayant une propension élevée à se trouver dans des zones structurellement peu conservées et plutôt hydrophiles (voir en section 3.3.4). Mais le mécanisme d’apprentissage est biaisé, comme l’indique Sean Eddy, principal développeur de la suite HMMER :

168

CHAPITRE 11. ÉMISSIONS DE CARACTÈRES SUR LES ÉTATS D’INSERTION DU MODÈLE Les pseudo-comptes correspondant aux émissions sur les états d’insertion ont été artificiellement amplifiés pour atteindre des valeurs α très élevées, ce qui a pour effet de figer les distributions d’émission sur les états d’insertion dans HMMER : les états d’insertion reçoivent tous virtuellement la même distribu- tion d’émission, plutôt que d’apprendre celle-ci individuellement à partir des observations.

Qian et Goldstein [Qian et Goldstein, 2003, 2004] passent totalement sous silence leur traitement des émissions sur les états Match, et l’on peut donc penser que ces auteurs ne procèdent pas différemment de HMMER, c’est-à-dire ignorent l’aspect phylogénétique des choses. Nous proposons en revanche une approche nouvelle, quoique extrêmement simple, permettant de ne pas ignorer la phylogénie.

Figure 11.1. Fragment d’alignement de pro- téines TXNDC5 chez des drosophiles

seqC

seqA

seqE

seqF

Figure 11.2. Phylogénie correspondant aux taxa impliqués dans la zone d’insertion

Considérons conjointement l’alignement de séquences présenté en figure 11.1 et la phylogénie qui se trouve en regard (figure 11.2). Supposons de plus que la zone d’insertion couvre les colonnes surlignées d’un trait pointillé en figure 11.1, c’est-à-dire que la colonne qui précède la première de la zone et celle qui suit la dernière sont toutes deux modélisées par des états Match. Il est important de comprendre que dans l’univers des HMM profils, comme nous l’avons dit plus haut, ni l’ordre des acides insérés, ni leur position sur l’une ou l’autre des 6 colonnes que mesure cette zone d’insertion, n’ont d’importance. Pour dé- terminer le score d’une sous-séquence dans l’état d’Insertion correspondant d’un HMM profil, seule compte la composition de celle-ci en termes d’acides aminés. Ainsi, aucun processus d’apprentissage des émissions sur les états d’Insertion ne pourra faire mieux que de considérer les acides aminés d’une séquence donnée «alignés»contre cet état

d’Insertion, comme étant les éléments d’un ensemble, sans autre information pertinente. Le problème se posant alors au modélisateur qui voudrait utiliser la phylogénie sous- jacente à l’ensemble des séquences d’apprentissage, consiste à travailler avec une phy-

169

logénie dont les feuilles ne portent non pas chacune un acide aminé, mais un ensemble de tels caractères. Cette considération nous mène tout naturellement à représenter la situation décrite par les figures 11.1 et 11.2, en des termes qui sont résumés par la figure 11.3 : on compte pour chaque séquence les différents acides aminés insérés, avec pour chacun un coefficient correspondant à sa fréquence d’apparition dans la zone d’insertion et pour la séquence considérées.

1 3 1 3 1 3 1 5 1 5 1 5 1 5 1 5 1 6 1 2 1 6 1 6

seqC

seqA

seqE

seqF

L: S: V: G: I: L: M: Q: F: M: L: V: 1 P:

Figure 11.3.Vraisemblances aux feuilles pour le calcul du profil d’émission d’acides aminés pour l’état d’Insertion correspondant à la zone représentée en figure 11.1

Rappelons que dans l’algorithme itératif de pruning de Felsenstein (section 4.4), la fin de la récursion correspond au calcul de la vraisemblance d’une feuille. Soit f une telle feuille, c’est-à-dire un arbre élémentaire réduit à un seul nœud. Dans le cas classique d’un site correspondant à une colonne d’un alignement, si a est l’acide aminé effectivement porté par la feuille en question (c’est-à-dire observé dans l’alignement), alors on a simple- ment :

Pr(f |f = α,Q) = ½

1 si α = a

170

CHAPITRE 11. ÉMISSIONS DE CARACTÈRES SUR LES ÉTATS D’INSERTION DU MODÈLE Nous proposons que dans le cadre des émissions correspondant à un état d’Insertion, cette définition des vraisemblances partielles aux feuilles soit remplacée par :

Pr(f |f = α,Q) = n f α P20 β=1n f β , (11.2)

où nβf est le nombre d’observations de l’acide aminé β dans la zone d’insertion à modéliser et dans la séquence d’apprentissage correspondant à la feuille f .

L’intérêt d’une telle modélisation est double :

1. le reste de l’algorithme de pruning de Felsenstein se déroule de façon tout à fait clas- sique, la prise en compte de colonne multiples pour fabriquer un seul site ne pré- sente donc aucun surcoût,

2. la phylogénie est prise en compte car le profil d’émission inféré sur un nœud an- cestral dépendra majoritairement des insertions effectuées dans son voisinage phylogénétique.

Ainsi, nous avons présenté dans cette deuxième partie une méthodologie complète de dérivation des paramètres de HMM profils de reconstruction ancestrale, c’est-à-dire des modèles de description séquentielle basés sur l’inférence phylogénétique en un point d’in- térêt de l’arbre. Nous présentons dans la suite les résultats qu’ont donnés les différents aspects de cette méthode globale de«phylogénisation».

Troisième partie

Résultats

C

HAPITRE

12

Présentation des bancs de test

Nous présentons ici les jeux de données utilisés pour valider nos méthodes de phylo- génisation. On définit deux bancs de test avec des distances évolutives moyennes diffé- rentes entre l’un et l’autre. Les bancs sont relativement comparables du point de vue de la taille des familles qu’ils comprennent, puisque chaque famille issue de l’un comme de l’autre contient de 3 à 25 séquences. Ceci étant, les familles SABmark sont sensiblement moins fournies (7,8 séquences en moyenne) que les familles du banc de test Treefam (en moyenne 19,4 séquences par famille).

Sommaire

12.1 Distances évolutives modérées : TreeFam . . . 173 12.2 Grande distance évolutive : SABmark . . . 174

12.1 Distances évolutives modérées : TreeFam

Le premier banc de test est issu de la base de données TreeFam version 7.0 (http://www.treefam.org). Au total, cette base de données comporte 777.321 gènes ré- partis en 16.141 familles. Parmi toutes ces familles, 1.281 sont dites de classe ‘A’, pour signaler que les données correspondantes sont passées par une étape d’analyse et de cor- rection via l’expertise humaine. Pour plus de fiabilité, on choisit de travailler uniquement sur les familles de classe ‘A’ dans leur version«clean». Il s’agit là de groupes de séquences

homologues accompagnés chacun de l’arbre phylogénétique supportant les données. L’alignement et l’arbre phylogénétique ont systématiquement fait l’objet d’une révision via l’expertise humaine. Après un processus itératif d’enrichissement et de validation, les familles«clean»sont issues de la restriction d’un groupe d’homologie aux séquences pro-

174 CHAPITRE 12. PRÉSENTATION DES BANCS DE TEST

venant de 58 espèces, et pour la plupart d’un sous-ensemble de 28 espèces (Aedes aegypti,

Anopheles gambiae, Arabidopsis thaliana, Bos taurus, Brachydanio rerio, Caenorhabditis briggsae, elegans et remanei, Canis familiaris, Gallus gallus, Ciona intestinalis et savi- gnyi, Dictyostelium discoideum, Drosophila melanogaster et pseudoobscura, Gasterosteus aculeatus, Homo sapiens, Macaca mulatta, Monodelphis domestica, Mus musculus, Oryza sativa, Pan troglodytes, Rattus norvegicus, Schistosoma mansoni, Schizosaccharomyces pombe, Tetraodon nigroviridis, Xenopus tropicalis et Saccharomyces cerevisiae).

Ce jeu de données nous permettra de quantifier les corrélations entre différents types de caractères (position des indels, transitions empruntées dans un HMM, etc) sur des données qui sont évolutivement proches les unes des autres. Pour ce qui concerne les tests en détection, nous prenons comme ensemble de résultats positifs, et pour chaque famille«clean», l’ensemble des séquences de la famille «full» correspondante (cf. [Li

et al., 2006]), privé bien entendu des séquences d’apprentissage.

Parmi les 1.281 familles de classe ‘A’, il s’en trouve 454 possédant entre 3 et 25 taxa, dont 32 posent des problèmes de cohérence des données dans la base en ligne (Jean-Karim Hériché, EMBL Heidelberg, communication personnelle). Sur les 422 familles restantes, 13 familles possèdent une version«clean»égale à la version«full», ce qui se traduit pour

nous par une absence de cibles à détecter. Nous ignorons donc ces 13 familles. Restent les 409 familles qui forment notre premier jeu de données. Les 409 ensembles d’apprentissage corespondants (familles«clean») totalisent 7.950 séquences. Le nombre total de cibles à

détecter ({ full − clean }) contient 9.610 séquences.

Les recherches se font sur une base de séquences correspondant à l’ensemble des protéines intervenant dans la construction de la totalité des 1.281 familles de classe ‘A’ de TreeFam 7.0, c’est à dire 91.742 séquences. C’est un nombre respectable, si l’on compare avec les 71.830 entrées PDB (structures protéiques) ou avec les 533.049 séquences que comprend la base de données UniProtKB/Swiss-Prot (données de novembre 2011).