• Aucun résultat trouvé

10.4 Deuxième approche : processus agissant sur le paramètre de la loi géomé-

10.4.4 Implémentation du calcul des vraisemblances via la discrétisation

Maintenant que nous savons déterminer (au moins analytiquement) les densités de probabilité de transition d’un point de R à un intervalle, nous devons nous poser la ques- tion de l’implémentation concrète de l’algorithme de pruning de Felsenstein (cf. section 4.4). En effet, nous ne manipulons plus des probabilités dans un espace discret et fini, nous n’avons plus de générateur Q de dimension finie et donc plus de formule de la forme

Pτ= eQτ pour calculer les probabilités de transition correspondant à une durée τ. Nous

devons nous contenter de l’expression donnée en (10.23), mais surtout nous devons adap- ter l’algorithme de pruning de Felsenstein à un environnement continu.

temps

l

u

v

Figure 10.6. L’arbre T qui se réduit à une seule branche de longueur l

Considérons d’abord l’arbre élémentaire T constitué d’une seule branche et repré- senté en figure 10.6. Supposons que les caractères portés aux feuilles u et v sont respec- tivement α et β. Dans l’hypothèse où le processus markovien est à support discret (e.g. le processus WAG d’évolution des acides aminés), on rappelle que la vraisemblance de T s’écrit : Lkdiscret(T ) = π(α)Pr(α→ β). Le lecteur aura noté que l’on suppose, commel indiqué en figure 10.6, que le temps s’écoule du nœud u vers le nœud v. Dans le monde des processus à support continu, π fait référence non plus à des probabilités discrètes en nombre fini et sommant à 1, mais à une fonction continue sur R appelée densité de

probabilité et dont l’intégrale sur tout R vaut 1. De même, on ne sait plus calculer des

expressions de la forme Pr(α→ β) avec (α,β) ∈ Rl 2, mais seulement des densités de proba-

bilité de transition à intégrer comme en (10.23).

Dans l’univers des processus à support continu, la probabilité d’aller d’un point x donné à un autre point y en un temps t est nulle quels que soient x, y 6= x et t. Incidem- ment, la vraisemblance de tout arbre présentant des données aux feuilles qui sont consi- dérées comme autant de points de l’ensemble support du processus est tout aussi nulle. Pour pouvoir calculer des vraisemblances, il n’y a pas d’autre choix que de considérer les valeurs aux feuilles non plus comme des points, mais comme des intervalles centrés sur la valeur observée. Nous devons commencer par choisir un pas de discrétisation, c’est-à- dire une largeur d’intervalle fixe pour tous nos calculs. Nous appelons cette largeur ǫ. Par commodité, on écrira systématiquement Ix pour l’intervalle [x − ǫ/2,x + ǫ/2], intervalle de

164 CHAPITRE 10. TRANSITIONS QUITTANT LES ÉTATS D’INSERTION

largeur ǫ centré en x. On a alors :

Lkcont.(T ) = Pr(Iα)Pr

³

Iα→ Il β

´

(10.24) Dans la formule ci-dessus, la distribution stationnaire (croyance a priori) est l’intégra- tion de la loi normale évoquée plus haut. Elle s’exprime :

Pr(Iα) = Zα+ǫ2 α−ǫ2 1 σ s θ πeθ(x−µ)2σ2 d x (10.25)

Et d’autre part la probabilité de transition d’un intervalle à l’autre s’écrit : Pr³Iα→ Il β ´ = Zα+ǫ2 x=α−ǫ 2 Zβ+2ǫ y=β−ǫ 2 qt(x, y)d xd y (10.26)

La densité de probabilité de transition qt(x, y) a déjà été utilisée dans l’équation (10.23),

elle vaut : qt(x, y) = s θ π 1 σp1 − e−2θt eθ h y−xe−θt −µ(1−e−θt )i2 σ2(1−e−2θt) (10.27)

On sait donc calculer la vraisemblance d’un arbre élémentaire (réduit à une branche) sous l’hypothèse d’un processus d’évolution de type OU. Qu’en est-il de l’implémentation de l’algorithme de Felsenstein permettant de calculer des vraisemblances sur des arbres plus complexes (figure 10.7) ?

v w

u

V W

lv lw

U

Figure 10.7. Un arbre phylogénétique de racine u et ses deux sous-arbres

L’équation de la vraisemblance à la racine, Lk(U ) = PαPr(α)Lk(U |u = α) devient en

milieu continu :

Lk(U ) = Z

RPr(x)Lk(U |u = x)dx

10.4. DEUXIÈME APPROCHE : PROCESSUS AGISSANT SUR LE PARAMÈTRE DE LA LOI

GÉOMÉTRIQUE 165

L’équation de récurrence sur les vraisemblances conditionnelles de sous-arbre s’écri- vait : Lk(U |u = α) = " X β Pr³α→ βlv ´Lk(V |v = β) # · " X γ Pr³α→ γlw ´Lk(W |w = γ) # (10.29) Elle devient : Lk(U |u = x) = ·Z R qlv(x, y)Lk(V |v = y)d y ¸ · ·Z R qlw(x, z)Lk(W |w = z)dz ¸ (10.30)

Et lorsque l’arbre U est réduit à une feuille u portant la donnée observée xobs, en co-

hérence avec la notion d’intervalles présentée plus haut, on a : Lk(U |u = x) =1[x

obs−ǫ/2,xobs+ǫ/2](x) (10.31)

L’implémentation pratique des intégrations sur R pose deux problèmes :

– le processus OU est non borné, mais les valeurs de paramètre se trouvant en dehors de l’intervalle réel E =]0,1] sont absurdes et à ce titre doivent pouvoir être rejetées ou ignorées,

– en l’absence de formule analytique simple pour les expressions du type Lk(W |w = z) considérées comme fonctions de la variable γ ne laisse pas d’autre choix que d’ap- proximer le calcul de l’intégrale par une méthode de type«méthode des rectangles».

La solution au premier des deux problèmes énoncés ci-dessus fait appel à la nature et aux trajectoires du processus d’Ornstein-Uhlenbeck. Ce dernier se composant d’un terme de rappel vers la valeur moyenne µ de vitesse θ et d’un terme de bruit gaussien d’ampli- tude donnée par la variance σ2, on peut légitimement supposer que pour µ ∈]0,1], sous certaines conditions sur θ et σ (θ grand et σ faible, basiquement), et avec toutes les valeurs observées aux feuilles se trouvant dans E, le temps passé à l’extérieur de E par les réalisa- tions du processus stochastique le long des branches de l’arbre est faible. On commet dès lors une erreur raisonnablement peu élevée en intégrant systématiquement sur E plutôt que sur R. On peut se faire une idée plus précise de cette erreur en intégrant la distribution d’équilibre sur E et en calculant donc la probabilité qu’on se trouve à l’équilibre à l’exté- rieur de E. Pour une espérance µ = 0,5, une vitesse de rappel θ = 4 et un écart type σ = 0,3, on trouve : Z R\E 1 σ s θ πeθ(x−µ)2σ2 d x = 2,43.10−6

Avec les mêmes paramètres µ et σ mais avec un rappel moins prononcé θ = 2, on a Pr(x ∉ E) = 8,58.10−4.

166 CHAPITRE 10. TRANSITIONS QUITTANT LES ÉTATS D’INSERTION

La valeur moyenne de la distribution d’équilibre, µ, peut se déduire d’un grand nombre d’observations (alignements de séquence à des modèles de type HMM profil) : c’est l’in- verse de la longueur moyenne des insertions (cf. page 155).

En ce qui concerne l’intégration avec approximation des rectangles, on découpe l’in- tervalle E, de longueur 1, en N = ⌈1ǫ⌉ intervalles élémentaires de largeur ǫ, sur lesquels on considère l’intégrande comme étant constante :

Z Eqlv(x, y)Lk(V |v = y)d y ≈ N X i =1 ǫqlv(x, yi)Lk(V |v = yi) (10.32) où chacun des yi est un représentant de l’intervalle Ei =]yi − ǫ/2, yi + ǫ/2], avec par

construction SNi =1Ei=]0,1].

10.4.5 Dérivation de la valeur du paramètre à partir de la