Approches arborées - Pondérer les séquences d’apprentissage pour maximiser l’informativité du

3.4 Pondérer les séquences d’apprentissage pour maximiser l’informativité du

3.4.2 Approches arborées

Dans tout ce qui précède, les séquences biologiques sont pondérées en fonction de leurs distances d’édition deux à deux, ou bien en fonction de l’apport informationnel des caractères qu’elles portent, lequel apport est évalué site par site. Toutes ces méthodes reviennent d’une certaine façon à évaluer la distance de chacune des séquences d’apprentissage à une séquence hypothétique qui serait une sorte de centroïde pour l’ensemble de ces séquences.

Si l’on sait construire un arbre dont les séquences d’apprentissage sont les feuilles, alors on peut envisager la racine de cette arbre comme portant une séquence virtuelle de référence, et évaluer la distance évolutive entre la racine et chacune des séquences d’apprentissage pour pondérer ces dernières. L’idée est alors de donner un poids plus élevé aux séquences se trouvant au bout de longues branches, alors que deux séquences très voisines se partageront un poids inférieur.

Plusieurs techniques ont été mises au point qui se chargent de résoudre le problème de la pondération des séquences en s’appuyant sur un arbre. Dans tout ce qui suit, on suppo- sera que l’arbre en question est déjà construit. En pratique il est souvent inféré rapidement à partir de l’alignement des séquences d’apprentissage, en général par des méthodes de

Neighbour-Joining ou de clustering hiérarchique de type UPGMA (cf. chapitre 4).

Une application de la loi de Kirchhoff : pondération à la Thompson et al.

L’idée de Thompson et coauteurs dans [Thompson et al., 1994b] est de calculer les poids des séquences aux feuilles d’un arbre en faisant l’analogie suivante : on assimile l’arbre à un réseau électrique dont les branches sont des conducteurs de courant faits d’un même matériau. La résistance qu’oppose une branche au passage du courant est donc strictement proportionnelle à sa longueur. Les feuilles étant au potentiel nul et la racine de l’arbre à un potentiel non nul arbitraire, la chute de potentiel entre deux points du réseau se calcule simplement par la loi d’Ohm : U = R x I. Le poids d’une séquence sera

60 CHAPITRE 3. DES MODÈLES POUR DÉCRIRE UN ALIGNEMENT

proportionnel à l’intensité qui arrive sur la feuille la portant.

10 3

5 2

seq1 seq2 seq3 seq4

Figure 3.7. Kirchhoff : arbre avec ses lon- gueurs de branche

seq1 seq2 seq3 seq4

I2+ I3+ I4

I1 I2+ I3

Figure 3.8. Kirchhoff : intensités

Le théorème de Kirchhoff énonce que les intensités se somment lors d’une bifurcation du réseau (cf. figure 3.8). En assimilant la longueur d’une branche à sa résistance, on ob- tient donc dans l’exemple de la figure 3.7 le jeu d’équations suivant :

Vracine = 10I1 (3.12)

= 5(I2+ I3+ I4) + 3(I2+ I3) + 2I2 (3.13)

= 5(I2+ I3+ I4) + 3(I2+ I3) + 2I3 (3.14)

= 5(I2+ I3+ I4) + 5I4 (3.15)

(3.16) En fixant le potentiel à la racine Vracine à une valeur arbitraire (par exemple 10), on a un

système de quatre équations reliant les quatre inconnues que sont les intensités I1à I4,

qui se résoud en donnant : I1= 1, I2= I3= 1₃ et I4= 2₃. Les poids des séquences ne sont

autres que les intensités normalisées à 1.

Le problème de cette approche est qu’elle est parfois contre-intuitive : la résistance étant plus élevée pour un conducteur plus long, si on considère une bifurcation avec une branche longue et une autre plus courte, l’intensité sera plus élevée dans la branche courte et la pondération favorisera les feuilles en bout de branche courte. C’est tout l’inverse de ce qu’on veut faire en donnant une prime aux séquences très divergentes. Cette anomalie

3.4. PONDÉRER LES SÉQUENCES D’APPRENTISSAGE POUR MAXIMISER

L’INFORMATIVITÉ DU MODÈLE 61

montre à quel point cet algorithme est sensible au positionnement de la racine de l’arbre.

Les poids à la Gerstein, Sonnhammer et Chothia

À l’occasion d’une publication [Gerstein et al., 1994] concernant l’évolution du volume des protéines, Gerstein, Sonnhammer et Chothia (à qui l’on doit la base de données struc- turale SCOP) ont décrit une nouvelle méthode de pondération des séquences. Comme celle que nous venons de décrire ci-dessus, la méthode que nous appellerons GSC s’ap- puie sur un arbre reliant les séquences entre elles. L’algorithme proposé procède de bas en haut, des feuilles jusqu’à la racine. La première étape consiste à attribuer à chaque séquence un poids initial égal à la longueur de la branche qui la porte. Ensuite on procède itérativement de la façon suivante en remontant vers la racine : lorsqu’on rencontre un nœud, on partage le poids (longueur) de la branche située juste au-dessus de ce nœud entre toutes les séquences situées en dessous. Le partage de ce poids additionnel s’effectue en proportion de ce qu’étaient les poids des séquences à l’étape précédente. On présente le processus en images en figure 3.9.

Alors que la méthode des poids GSC était la méthode par défaut de pondération des séquences dans HMMER2, elle n’est qu’une option dans HMMER3, ce dernier lui préférant par défaut la méthode des poids définis par position (Henikoff & Henikoff, cf. section 3.4.1). On peut se rendre compte de la variabilité des mesures de pondération ne serait-ce que sur le simple exemple introduit ici, en consultant le tableau 3.10, qui présente les pon- dérations normalisées (i.e. sommant à 1) pour les deux méthodes arborées vues ci-dessus et pour l’arbre donnée en figure 3.7.

Toutes les méthodes de pondération récapitulées ici, qu’elles s’apuient ou non sur un arbre sous-jacent, sont des méthodes«ad-hoc»qui ne jouissent en général d’aucune

justification théorique proprement établie en lien avec les séquences biologiques, et la

variabilité des poids issus des différentes méthodes induit évidemment des différences dans les modèles construits sur les alignements de séquences.

La notion de pondération des séquences, ou en tout cas de prise en compte différen- tielle des séquences, est pourtant centrale dans le processus de construction d’un modèle à partir d’un alignement, car elle pose directement la question de la cible des efforts du modélisateur : s’agit-il pour lui de concevoir un modèle de reconstruction ancestrale de la séquence à la racine de l’arbre ? Un modèle pour une séquence virtuelle qui serait au centre d’un volume défini par les points que constituent les séquences d’apprentissage ? Ou bien encore un modèle qui maximise la somme des vraisemblances des séquences d’apprentissage (maximum de discrimination) ? Tant que la cible (c’est-à-dire la fonction

62 CHAPITRE 3. DES MODÈLES POUR DÉCRIRE UN ALIGNEMENT 10 5 2 2 3 5 10 2 2 5 10 2 2 5 +32 3 +32 10 7 5 2 72 +5 ∗ 7 2 7 2+72+5 5 +5 ∗ 7 5 2+72+5 10 4,96 _4,96 7,08

Figure 3.9. Pondération selon Gerstein/Sonnhammer/Chothia. À chaque étape figurent les poids courants aux feuilles.

objectif que l’étape de pondération est censée maximiser) n’est pas clairement établie, on ne sait dire quelle méthode est la plus appropirée.

Quoi qu’il en soit, la possibilité de pondérer des séquences en tirant parti de l’infor- mation disponible dans un arbre a rencontré une certaine popularité, sans que l’on soit parvenu jusqu’ici à en donner une implémentation qui ne souffre aucune contestation. Sean R. Eddy écrivait fort à propos en 2003 dans le manuel utilisateur de la suite HMMER version 2.3.2 (c’est nous qui traduisons) :

Dans le document Combinaison de modèles phylogénétiques et longitudinaux pour l'analyse des séquences biologiques : reconstruction de HMM profils ancestraux (Page 80-84)