• Aucun résultat trouvé

D’INSERTION 153

d’intérêt est plus direct que dans le cadre de la première solution. En effet, il s’agit de déterminer le paramètre p ∈]0,1] à partir d’une distribution sur ce même intervalle. On peut alors choisir la moyenne de la distribution, sa valeur maximale ou encore sa valeur médiane.

10.3 Première approche : processus agissant sur les

longueurs d’insertion

Nous nous attachons ici à déterminer les paramètres concernant les transitions au départ d’un état d’Insertion, en utilisant la même approche basée sur la phylogénie qu’auparavant et en utilisant les observations que constituent les longueurs d’insertions réalisées par les différentes séquences aux feuilles. Puisqu’on désire utiliser l’information apprise pour modéliser les transitions au départ d’un état d’Insertion, il est logique de ne s’appuyer que sur des observations qui concernent les séquences passant dans cet état d’Insertion. Ainsi, les observations sont des entiers positifs stricts. Ce sont ces observations qui constituent les caractères observés aux feuilles de notre phylogénie.

Considérons par exemple l’alignement d’apprentissage présenté en figure 10.2. Nous supposons que l’étiquetage de l’alignement en colonnes match et non match est tel que la zone d’insertion qui nous intéresse correspond aux cinq colonnes centrales : le pre- mier et le dernier site de la figure 10.2 correspondent à des colonnes«match». Dans ce

cadre, seules les cinq premières séquences empruntent l’état d’Insertion qui nous inté- resse. Nous représentons en figure 10.3 la traduction de cette situation en un alignement impliquant des caractères quantitatifs entiers. Le problème qui nous préoccupe alors est représenté en figure 10.4 : il s’agit de pouvoir inférer des valeurs par un processus de reconstruction ancestrale sur un arbre dont les feuilles portent des caractères pris dans N∗.

10.3.1 Processus agissant le long des branches de l’arbre

On cherche à utiliser un processus markovien à valeurs dans N∗, si possible réversible

(pour faciliter les calculs de vraisemblance et surtout les rendre insensibles à la position de la racine dans l’arbre). Parmi les processus les plus simples remplissant ces conditions, on trouve les processus dits«de naissance et de mort». Il s’agit de processus markoviens de

saut, définis sur un ensemble d’états correspondant directement à l’ensemble N (ou à N∗).

À partir d’un état i, les seules transitions possibles vont vers son successeur i + 1 (on parle alors d’une«naissance») ou bien vers son prédecesseur i − 1 (une«mort», par analogie

avec la modélisation d’une population d’individus). En temps continu, le taux instantané de transition correspondant à une naissance depuis l’état i s’écrit λi et le taux instantané

154 CHAPITRE 10. TRANSITIONS QUITTANT LES ÉTATS D’INSERTION

Figure 10.2. Un exemple de zone d’insertion avec sa phylogénie support

Figure 10.3.Traduction de la figure ci-contre en un alignement sur des caractères quantita- tifs

correspondant à une mort depuis le même état est µi. On représente un tel processus sur

N∗en figure 10.5.

Le problème que pose un tel processus est celui de l’apprentissage des paramètres : considéré sur un ensemble d’entiers non borné, il admet un nombre infini de paramètres

λi et µi! C’est pourquoi une simplification courante consiste à envisager le processus à

taux constants, dans lequel tous les λi sont égaux à λ et tous les µi à µ.

Si l’on se cantonne à la classe des processus de naissance et de mort stationnaires, alors il existe une distribution d’équilibre π sur les états de la chaîne, et cette distribution vérifie les conditions classiques d’équilibre local et global sur une chaîne de Markov (conditions d’équilibre portant sur les entrées et sorties concernant respectivement un état et une bi- partition de l’ensemble des états de la chaîne). La condition d’équilibre global s’écrit :

∀i λπi= µπi +1 (10.1)

et la condition d’équilibre local :

∀i λπi −1+ µπi +1= (λ + µ)πi (10.2)

À partir de ces deux contraintes ainsi que de l’évidence Piπi = 1, on détermine aisé-

ment la distribution d’équilibre du processus de naissance et de mort à taux constants sur N∗: ∀i πi= µ 1 −λ µ ¶ µ λ µi −1 (10.3) On observe au passage une condition sine qua non pour que le processus soit sta- tionnaire : on doit avoir 0 < λ < µ, c’est-à-dire un taux instantané de naissance inférieur au taux instantané de mort. Nous remarquons de plus que la distribution d’équilibre du

10.3. PREMIÈRE APPROCHE : PROCESSUS AGISSANT SUR LES LONGUEURS D’INSERTION 155

?

5

5

1

1

5

M1

I1

M2

Figure 10.4. Le problème de l’inférence phylogénétique sur des caractères quantitatifs en- tiers

processus, quand elle existe, est exactement la distribution géométrique de paramètre

p = 1−λ

µ. Cela signifie qu’avec un tel processus de naissance et de mort, la distribution des

longueurs d’insertion observées au bout d’une branche de longueur infinie suit une loi géométrique de paramètre 1 −λ

µ. Pour déterminer les paramètres λ et µ du processus de

naissance et de mort, il convient de se rappeler que si les longueurs d’insert suivent une loi géométrique de paramètre p, alors l’espérance de la longueur d’un insert est égale àp1 (cf. ci-avant en 10.1.1). Plusieurs logiciels (par exemple Prank) utilisant pour les alignements multiples de protéines des pénalités de gap revenant à avoir une distribution géométrique des longueurs de gap avec une espérance de longueur de gap égale à 2, nous avons choisi de suivre ce choix et de fixer p = 1 −λ

µ= 0,5, c’est-à-dire µ = 2λ. Le choix de la valeur de

l’un des deux paramètres est ensuite déterminé par des considérations de vitesse d’évolu- tion1, et on se décide par exemple à partir du nombre de substitutions attendues sur une 1. En effet, on sait que le processus reste dans un état donné pendant un temps aléatoire distribué selon une loi Exp(λ + µ), c’est-à-dire en moyenne pendant une duréeλ+µ1 .

156 CHAPITRE 10. TRANSITIONS QUITTANT LES ÉTATS D’INSERTION

Figure 10.5.Processus générique linéaire de naissance et de mort sur l’ensemble des entiers naturels non nuls

branche de longueur 1.

10.3.2 Implémentation concrète des calculs de vraisemblance

L’espace d’états du processus envisagé, N∗, est déraisonnablement grand. Le calcul des

probabilités de transition correspondant à une durée t ne peut se faire directement dans ce cadre, et il est important de pouvoir tronquer le processus pour travailler sur [1, N] afin de pouvoir manipuler une matrice Q de dimension finie comme générateur du processus. La théorie des chaînes de Markov nous apprend que la stabilité d’un processus par troncature n’existe que si ce processus est réversible. Nous rappelons la définition de la réversibilité pour les processus sur un espace fini : ∀i, j πiqi j = πjqj i. Dans le processus

linéaire de naissance et de mort, les seules transitions qui existent interviennent entre deux états consécutifs de la chaîne, soit par exemple j = i + 1. Dans ce cas, la relation de temps-réversibilité est bien vérifiée puisqueπi+1

πi =

λ

µ=

qi,i+1 qi+1,i.

Cette propriété de réversibilité permet d’utiliser le fait que les Chaînes de Markov à Temps Continu qui sont réversibles sont aussi stables par troncation, c’est-à-dire pour ce qui nous concerne que la chaîne de naissance et de mort tronquée à l’ensemble des états dans E = ‚1,Nƒ est encore une CMTC réversible dont les probabilités stationnaires s’expriment simplement : ∀i ∈ E πtrunc(i) =P π(i )

k∈Eπ(k). On peut par exemple choisir N = 40, ce qui semble raisonnable au moins pour toutes les espèces courantes, impliquées dans des alignements où l’on ne s’attend pas à avoir des insertions de plus de 40 résidus par rapport au consensus des autres séquences de la famille.