• Aucun résultat trouvé

2.4 Un HMM dédié aux séquences biologiques : le HMM profil

2.4.3 Comparaison SAM/HMMER

nécessité d’un second modèle nul s’explique par le problème de l’uniformité des états Inserts des HMM profils construits par HMMER. En effet, comme vu dans la section précédente

2.4.2.c, lors de la construction d’un HMM et dans tous les HMM de Pfam, l’ensemble des états Inserts ont une distribution de probabilités identique de génération des acides aminés. Le modèle nul2 est alors utilisé pour éviter qu’une séquence emprunte préférentiellement les états Inserts au lieu des états Matchs. Comme le premier modèle nul, ce modèle est un HMM composé d’un seul état (cf. figure 2.6). Les probabilités de génération associées à cet état sont calculées à la volée, lors de la traversée du HMM par la protéine suivant le chemin de probabilité maximale, en moyennant les distributions associées aux états de ce chemin. Ainsi si une séquence parcours principalement des états Inserts, son score sera fortement pénalisé par le modèle nul2 (car la probabilité de générer la séquence par le HMM et par le modèle nul2 seront équivalente). L’équation complète du calcul d’un score dans HMMER est donc donnée par la formule :

score(S|H) = log 1 P (S|H)

2P (S|nul) + 12P (S|nul2)

.

Enfin, il est à noter que, par défaut, HMMER dans sa version 2.3.2 ne calcule pas P (S|H) (la probabilité de générer la séquence S étant donné le HMM H obtenue par l’algorithme forward), mais P (S|H) la probabilité du chemin de Viterbi dans le HMM H.

Cette expression correspond au chemin de probabilité maximale et omet les probabilités de tous les autres chemins permettant de générer S. Bien que la probabilité de ces chemins est fréquemment négligeable par rapport à celle du chemin de Viterbi, le “score de Viterbi” est généralement moins précis que le “score forward”. Le choix d’HMMER s’explique par le fait que l’on connaît la forme de la distribution des scores de Viterbi mais pas de celle des scores forward. Cette distribution des scores étant nécessaire au calcul des E-valeurs (cf. section suivante 2.4.2.e), HMMER compense sa perte de précision au niveau des scores par une meilleure estimation des E-valeurs. Nous verrons en conclusion de ce chapitre que cette politique d’HMMER a depuis été modifiée dans la version 3.0 du programme (Eddy,2010).

e) Calcul d’une E-valeur : Plaçons nous dans dans le cadre de l’étude d’un ensemble de séquences requêtes (typiquement l’ensemble des protéines d’un organisme cible) à l’aide d’une librairie de HMM profils. À partir du score d’une séquence pour un HMM donné, on peut calculer une statistique appelée E-valeur (Eddy, 2003). Cette mesure permet d’évaluer la significativité du score et donc de décider si la séquence a effectivement été reconnue par le modèle. L’E-valeur représente l’espérance du nombre de séquences ayant un aussi bon score que la séquence requête, dans une base de données de séquences aléatoires de taille M, où M est le nombre de séquences requêtes. Cela entraîne une dépendance directe (proportionnelle) de l’E-valeur d’une séquence à la taille de l’ensemble de séquences dans laquelle on effectue la recherche, d’où la présence du facteur M dans les équations qui suivent. L’E-valeur peut être calculée de deux façons différentes :

– l’E-valeur brute est calculée de manière analytique et rapide. Elle produit cependant une borne supérieure de l’E-valeur dont l’estimation est trop conservatrice. La formule de cette borne supérieure est décrite par (Barret et al., 1997) et issue des travaux de

2.4. UN HMM DÉDIÉ AUX SÉQUENCES BIOLOGIQUES : LE HMM PROFIL 69

Milosavljevic et Jurka(1993) :

E-valeur(S|H) ≤ Mz−score(S|H),

où z est la base du logarithme utilisé dans le calcul du score.

– l’E-valeur empirique (Eddy, 1997) est plus précise mais nécessite un temps de calcul supérieur. Cette E-valeur vient de l’observation de la distribution des scores de Viterbi qui suit une loi de Gumbel, cas particulier (type I) des distributions de valeurs extrêmes — EVD pour Extreme Value Distribution — (Gumbel, 1958), de paramètres µ et λ. Cette méthode nécessite donc de calibrer au préalable les paramètres µ et λ de l’EVD pour chaque HMM. HMMER utilise pour cela un histogramme des scores obtenus par des séquences générées artificiellement par son modèle nul, sur lequel il ajuste (fit) les paramètres µ et λ. Plus le nombre séquences aléatoires générées pour construire l’histogramme est grand, plus le calibrage est précis, ce qui rend cette méthode plus coûteuse en temps que la précédente. De plus, toutes les familles/HMM ne produisent pas des histogrammes de scores qui suivent parfaitement cette distribution. Une fois les paramètres appris, on obtient l’E-valeur d’une séquence requête par la formule suivante :

E-valeur(S|H) = M(1 − z−z−λ(score(S|H)−µ)

).

f) Seuils de détection : Il existe deux manières d’affirmer si le modèle a bien reconnu une séquence :

– soit grâce au score obtenu par la séquence contre le HMM : s’il est supérieur à un seuil donné. Par exemple, la base Pfam accompagne chacun de ses modèles de seuils de score inclus dans le fichier du HMM et calibrés afin de minimiser le nombre de faux-positifs. Cependant ces seuils entraînent un manque de sensibilité des modèles pour l’étude de protéines divergentes (faux négatifs — cf. Chapitre 4).

– soit par l’E-valeur, si elle est inférieure à un seuil souhaité. Le seuil d’E-valeur est un paramètre dans la recherche de séquence homologue d’HMMER. Par défaut, il vaut 10, mais les résultats contiennent alors souvent des faux positifs, on peut alors envisager 0,1 pour des prédictions relativement sûres mais qui ne dispensent pas d’une étude manuelle des résultats au-delà (et en-deçà) du seuil.

2.4.3 Comparaison SAM/HMMER

Deux suites logicielles proposent les applications nécessaires à la manipulation de HMM profils pour l’étude de séquences biologiques et sont donc en concurrence : HMMER développé parEddy(1995) à Chevy Chase (Maryland, USA) pour la base de données Pfam, et SAM initié parHughey et Krogh(1996) à Santa Cruz (Californie, USA) pour les expériences de prédiction de structure CASP et la base SUPERFAMILY. Il existe évidemment de nombreuses différences entre les implémentations de ces deux programmes. Une distinction notable est que SAM

permet de convertir ses modèles au format d’HMMER. La réciproque n’étant pas possible les bases utilisant SAM peuvent proposer deux librairies de HMM pour chacun des programmes. On peut également citer la présence de transitions entre les états Inserts et Délétions (D→I et I→D), comme implémentation spécifique au programme SAM. Les questions importantes à se poser sont :

– Quel est l’impact de ces différences sur la qualité de ces programmes ? – Quels sont les points forts/faibles de chacun de ces programmes ?

Plusieurs études ont comparé ces deux programmes concurrents pour tenter de répondre à ces questions. À notre connaissance, la première fut celle deMcClure et al.(1996) qui cherche à évaluer l’impact des paramètres par défaut et optionnels — l’initialisation des probabilités, la longueur des modèles et la taille des ensembles d’apprentissage — indépendamment pour chaque programme (à l’époque dans leurs premières versions) à travers l’étude de quatre familles protéiques : globines, kinases, protéase d’acide aspartique et ribonuclease H. En- suite,Lindahl et Elofsson (2000) ont comparé la sensibilité et la spécificité de SAM (version T98) et d’HMMER (version 2.1) ainsi que d’autres algorithmes pour la détection d’homo- logues distants à partir des familles et des super-familles de la base SCOP. Ils concluent sur de meilleures performances de SAM pour l’étude de super-familles et d’HMMER lorsqu’il s’agit de l’étude au niveau des familles SCOP. Ce résultats est confirmé l’année suivante parRehmsmeier et Vingron (2001) lors de l’étude de 43 familles SCOP par SAM, HMMER ainsi que leur propre méthode de recherche basée sur des arbres phylogénétiques. Dans cette étude, les auteurs propose une approche originale où la recherche d’homologie se fait grâce à un arbre phylogénétique. À partir d’un arbre appris au préalable sur un alignement d’une famille, chaque séquence d’une banque est intégrée à l’alignement pour construire un nouvel un arbre. Ce dernier est alors confonté à l’arbre de référence pour établir, en fonction de la longueur de branche créée, si la séquence appartient ou non à la famille. Leurs conclusions révèlent que les résultats obtenus par leur méthode seraient supérieurs en terme de minimum de faux positifs à ceux d’HMMER, eux-mêmes supérieurs à ceux obtenus par SAM.

Des études plus récentes ont permis une approche plus systématique des avan- tages/inconvénients des versions plus récentes de ces programmes. La première, réalisée par

Madera et Gough (2002), porte sur deux familles de protéines (globines et cuprédoxines). Elle a permis d’identifier une sensibilité supérieure des modèles construits par SAM, et par- ticulièrement l’importance des alignements-graines (en montrant la qualité des alignements générés par le script T99 de SAM). La supériorité de l’estimation des modèles par SAM a été confirmée parWistrand et Sonnhammer(2005). Cette étude détaille l’impact des schémas de pondération des séquences de l’alignement graine, ainsi que des mixtures de Dirichlet utili- sées pour lisser les distributions de probabilités de génération. En effet, bien que ces deux programmes utilisent lors de la construction de modèles des mixtures de Dirichlet, la mix- ture recode3.20comp de SAM s’appuie sur 20 composantes contre 9 pour celle d’HMMER (Sjölander et al.,1996). La comparaison des algorithmes de pondération par défaut des pro- grammes semble indiquer un léger avantage pour SAM. Cette étude évite la question des alignements-graines en utilisant ceux de Pfam et tranche sur une question non résolue pré- cédemment concernant le programme dont les mesures de scores (et d’E-valeur) semblent les

2.4. UN HMM DÉDIÉ AUX SÉQUENCES BIOLOGIQUES : LE HMM PROFIL 71

plus précises : HMMER.