• Aucun résultat trouvé

2.3 Alignements multiples : plus de deux séquences

2.3.4 Alignements respectant la phylogénie

Les méthodes progressives ne se servent d’un arbre reliant les séquences entre elles qu’afin d’ordonnancer les tâches d’alignement partiel. Elles effectuent ensuite celles-ci en commençant par les séquences les plus proches pour finir avec les plus distantes. Rien n’est fait de façon rigoureuse pour que les événements phylogénétiques (insertions, délétions et substitutions) induisant l’alignement construit soient à la fois clairement localisables sur l’arbre guide et relativement peu nombreux. Le logiciel PRANK [Löytynoja et Goldman, 2005, 2008] développé par Ari Löytynoja et Nick Goldman a pour ambition d’être un logiciel d’alignement multiple étroitement guidé par la phylogénie : tout en alignant progressivement les séquences le long de son arbre guide, PRANKmarque les po- sitions correspondant à une insertion rencontrée plus bas dans l’arbre, pour les interdire pour toute la suite de l’alignement progressif : on n’y alignera plus de caractères. Ainsi, deux événements d’insertion situés à la même position dans l’alignement multiple mais

phylogénétiquement distincts (c’est-à-dire intervenant sur deux branches distinctes) cor-

respondront donc à deux colonnes distinctes dans l’alignement final, là où les méthodes traditionnelles d’alignement multiple ont justement plutôt tendance à agglutiner sur un nombre restreint de colonnes successives les résidus présents dans les zones de faible résolution (i.e. avec de nombreux gaps), sans prendre garde au fait que les résidus en

32 CHAPITRE 2. ALIGNER DES SÉQUENCES HOMOLOGUES

question soient phylogénétiquement issus du même résidu ancestral ou non2.

Nous avons survolé dans ce chapitre les différentes techniques menant à l’alignement d’un ensemble de séquences entre elles. Cet alignement est en soi un objet d’étude : en faisant l’hypothèse que tout alignement de séquences homologues est une représentation partielle d’une famille de séquences dérivant de la même séquence ancestrale et parta- geant donc des caractéristiques communes, on est amené à décrire cette famille par l’inter- médiaire de modèles statistiques, à partir des observations que constituent ces séquences

«d’apprentissage». L’objectif est donc d’apprendre un modèle stochastique à partir de

quelques représentants alignés entre eux. C’est ce type de modèles que nous décrivons dans le chapitre suivant.

2. Ce comportement observé tient notamment à la gestion des pénalités d’ouverture de gap, que les lo- giciels classiques d’alignement multiple minorent aux positions où une insertion a déjà été réalisée dans l’alignement en cours de construction.

C

HAPITRE

3

Des modèles pour décrire un

alignement

Comme on l’a vu dans le chapitre précédent, un ensemble de séquences homologues peut être décrit par un alignement, c’est-à-dire que (s’il s’agit de séquences protéiques) les acides aminés composant les différentes séquences peuvent être alignés colonne par co- lonne, avec éventuellement l’insertion de caractères dits«gaps»pour combler les trous.

À l’issue de la procédure d’alignement, on s’attend à ce que les caractères (nucléotides ou acides aminés) présents sur une même colonne soient tous issus de la même position ancestrale par le biais de processus évolutifs et/ou partagent des caractéristiques physico- chimiques semblables et remplissent donc le même rôle structurel et/ou fonctionnel dans leurs séquences respectives. Dans la suite, on parlera indifféremment de«sites»ou de «colonnes». Que l’on souhaite rechercher dans des bases de données d’autres séquences

apparentées ou que l’on cherche à caractériser les domaines fonctionnels communs aux séquences en question, il est utile de donner une modélisation nécessairement proba- biliste (car l’ensemble des séquences observées n’est qu’un sous-ensemble de la réalité observable) des séquences alignées. C’est à de tels modèles que nous nous intéressons dans ce chapitre.

Sommaire

3.1 Les précurseurs : tables de scores position-spécifiques . . . 35 3.2 Modèles de Markov cachés (HMM) . . . 36 3.3 HMM profils . . . 38 3.4 Pondérer les séquences d’apprentissage pour maximiser l’informativité

du modèle . . . 55 3.5 Sélectionner des colonnes d’intérêt dans un alignement, première étape

du processus d’inférence d’un modèle . . . 63

34 CHAPITRE 3. DES MODÈLES POUR DÉCRIRE UN ALIGNEMENT

Nous présentons dans ce qui suit l’essentiel des modèles conçus pour rendre compte d’un alignement, en faisant la part belle aux modèles de Markov cachés (HMM) puisque ce sont ceux dont nous avons retenu la structure pour développer les modèles que nous exposons dans cette thèse. En fin de chapitre, nous mettons en exergue deux sections qui ont trait à deux aspects importants de la construction de modèles : la pondération relative des séquences d’apprentissage et la sélection des sites d’intérêt au sein d’un alignement. Ces deux points sont traités spécifiquement car ils nous intéressent tout particulièrement. En effet, le travail que nous présentons dans cette thèse résoud de manière élégante, par une approche différente, les deux problématiques sous-jacentes :

– la pondération des séquences d’apprentissage, ou comment prendre en compte les liens existant entre celles-ci,

– la sélection d’un sous-ensemble de colonnes au sein d’un alignement, c’est-à-dire la désignation des sites que l’on juge utile de modéliser pour caractériser la famille de séquences en jeu.

Un alignement de séquences décrit fondamentalement de l’observé : on y trouve des séquences connues (par exemple des hémoglobines de vertébrés), mises ensemble parce que l’on connaît les liens de similarité (structurelle ou fonctionnelle) qui les unissent, ou bien parce que ces similarités nous auront été fortement suggérées par un collègue chercheur ou des outils probabilistes (par exemple BLAST, cf. le chapitre précédent). Mais lorsqu’il s’agira de déterminer à partir de ces observations la structure canonique per- mettant de décrire la totalité de cette famille de séquences (observées ou non) tout en excluant les séquences qui n’en font définitivement pas partie, on voudra se donner les moyens de repérer dans une base de données d’autres séquences qui auraient toutes les raisons de faire partie de la famille en question mais qui n’y figuraient pas au départ. C’est là tout le problème de l’inférence d’un modèle à partir d’une connaissance partielle de la réalité : il faut à la fois apprendre suffisamment des données observées (pour tenter d’en extraire les caractéristiques propres), et éviter l’écueil du sur-apprentissage (consistant à particulariser le modèle à tel point qu’il ne soit plus capable de représenter autre chose que les données d’apprentissage elles-mêmes).

Depuis le milieu des années 1980, plusieurs modèles ont été proposés pour décrire de façon statistique le contenu d’un alignement. Tous ces modèles intègrent évidemment une part d’incertitude stochastique : ce sont des modèles probabilistes. Avec ceux-ci, on a accès de façon directe à une première mesure de similarité : Pr(séquence|modèle), pour toute séquence candidate à l’homologie. En première approximation, si une telle probabilité est élevée, alors le modèle en question aura de grandes chances de générer la séquence donnée, et on aura tendance à accepter l’hypothèse selon laquelle la séquence

3.1. LES PRÉCURSEURS : TABLES DE SCORES POSITION-SPÉCIFIQUES 35

testée appartient à la famille modélisée.

3.1 Les précurseurs : tables de scores position-spécifiques

Gribskov, MacLachlan et Eisenberg ont publié en 1987 une méthodologie novatrice [Gribskov et al., 1987] pour construire des modèles probabilistes à partir d’un alignement de séquences protéiques, se servant ensuite de tels modèles afin d’effectuer des recherches d’homologues dans une base de données. Les auteurs partent d’un ensemble de séquences alignées (incluant donc possiblement des gaps). Pour chaque colonne p de l’alignement d’entrée, ils construisent une série de 20 scores M(p,α) (α représentant l’un des 20 acides aminés), en utilisant la formule

M(p,α) =

20

X

β=1

W (p,β)S(α,β) (3.1) dans laquelle β représente un acide aminé, W (p,β) la proportion d’apparition (ou poids relatif) de cet acide aminé dans la colonne p, et S(α,β) est le terme d’une matrice de scores de substitution correspondant à la substitution de α par β. Cette formule com- bine donc une observation réalisée sur l’alignement d’apprentissage, W (p,β), avec une connaissance a priori des scores d’alignement entre acides aminés, S(α,β). Dans leur ar- ticle, Gribskov et coauteurs utilisent pour S l’une des toutes premières matrices de scores d’alignement entre acides aminés, la matrice MDM78 due à Margaret Dayhoff [Dayhoff

et al., 1979], tout en faisant remarquer que toute autre matrice de score pourrait être uti-

lisée dans le même schéma général. Si−−−→obsp est le vecteur des proportions observées à la

position p et Mp le vecteur des 20 scores de«match»calculés pour cette même position,

la méthode de Gribskov et al. s’exprime matriciellement de la façon suivante : Mp = S−−−→obsp.

Un vingt-et-unième score penp est calculé pour chacune des positions : c’est la péna- lité associée à l’ouverture d’un gap ou d’une délétion à cet endroit. Alors que l’utilisateur fournit lui-même une pénalité ogapd’ouverture d’un gap et une pénalité egap d’extension

d’un gap d’un acide aminé supplémentaire, la pénalité retenue pour un gap de longueur

L sera égale à (penp(ogap+ L egap)). Les pénalités penp sont dérivées de l’alignement d’ap-

prentissage par une méthode que nous n’exposons pas ici, mais qui tend à diminuer la pénalité dans le voisinage immédiat des positions dans lesquelles on recontre un ou des gaps dans les séquences de l’alignement d’apprentissage.

Une fois le modèle établi sous la forme d’une matrice de scores de taille M × 21 (si

M est la taille de l’alignement fourni en entrée), la méthodologie de recherche de sé-

36 CHAPITRE 3. DES MODÈLES POUR DÉCRIRE UN ALIGNEMENT

de programmation dynamique) les séquences de la base contre le modèle, pour ensuite retenir les séquences donnant les meilleurs scores. Le processus d’alignement consiste à associer chacun des acides aminés de la séquence cible à une position p du profil (c’est le nom donné par les auteurs à leur matrice M) ou à un gap, qui déclenchera une pénalité fonction de sa position et de sa longueur. Insertions et délétions par rapport au modèle sont comptées de la même façon, ce qui fait que les positions orphelines du profil (c’est- à-dire n’ayant pas été associées à un acide aminé de la séquence cible) engendreront des pénalités calculées de la même façon. On entend alors par«score»de la séquence cible la somme des scores M(p, a) déclenchés par son alignement aux positions non orphelines, diminuée du total des pénalités d’insertions et de délétions.

Le modèle de«profil»ou«position-specific scoring table»développé par Gribskov et

coauteurs se résume graphiquement à ce qui est présenté en figure 3.1 : une chaîne d’états

«match»donnant des scores calculés selon (3.1), dont on peut sortir à tout moment pour

une insertion ou une délétion par rapport au consensus. Il est à noter que ce consensus, di- rectement représenté par la suite des états match avec leur acide aminé de plus fort score, est de même longueur que l’alignement fourni en entrée.

M

2

M

3

M

4

M

1

I

3

I

4

I

2

I

1

I

0 Begin End pen1 ∗ogap pen1 ∗egap pen1(ogap +3egap) pen1(ogap +egap)

Figure 3.1. Profil selon Gribskov et al. Il y a une correspondance bijective entre les états Mp du modèle et les positions p de l’alignement d’apprentissage. On a explicité uniquement

quelques-unes des différentes pénalités pour ne pas surcharger le schéma.