• Aucun résultat trouvé

Le modèle nul est un des paramètres les plus important du processus d’identification des modèles. En effet, il est utilisé à deux reprises : dans la formule du score d’une séquence (cf. Formule 2.3 page 66), et lors du calibrage du HMM pour générer les séquences artificielles (cf. section 2.4.2.e page 68)

5.4.1 Le modèle nul du logiciel HMMER

Comme vu précédemment, le modèle nul d’HMMER est un HMM composé d’un seul état qui boucle sur lui même (cf. fig 2.6page 67). Les probabilités de génération de cet état correspondent à la composition moyenne en acides aminés des protéines de Swiss-Prot (cf. figure 2.5page 67) et la longueur moyenne des protéines générées par ce modèle (espérance du nombre de boucles) correspond à la longueur moyenne des protéines de Swiss-Prot (cf. Section2.4.2.d page 66).

Nous faisons l’hypothèse que le modèle nul doit tenir compte des propriétés intrinsèques aux séquences protéiques étudiées et notamment de leur divergence. De par son paramétrage axé sur l’ensemble des protéines de Swiss-Prot, le modèle nul d’HMMER n’est donc, a priori, pas adapté pour l’étude d’un organisme comme P. falciparum. Nous proposons de le remplacer

5.4. CORRECTION DU MODÈLE NUL 129

par un modèle de structure identique mais dont la distribution de probabilités de génération est adaptée à P. falciparum.

5.4.2 Une distribution d’acides aminés représentative de P. falciparum

Le choix le plus naturel pour la distribution cible est de considérer la distribution moyenne des protéines de l’organisme, également appelée “composition globale”. Cependant, pour l’étude de P. falciparum, il est nécessaire de prendre en compte la présence d’insertions de faible complexité au sein des protéines (cf. section 3.3.2 page 81). Ces insertions se caracté- risent par un biais en acides aminés encore plus prononcé que dans la composition globale. Décrites comme codant des domaines non-globulaires n’affectant pas la fonction de la protéine (Pizzi et Frontali, 2001), on doit les exclure lors de l’estimation de la distribution cible. Des distributions cibles alternatives prenant en compte l’impact des zones de faible complexité doivent donc être considérées. Cependant, on dispose de peu d’informations sur ces zones dont les positions ne sont pas toujours clairement identifiées. Par conséquent, différentes approches ont été envisagées pour isoler les zones de faible complexité des protéines plasmodiales et obtenir une distribution des positions conservées. Trois solutions ont été retenues :

– L’approche de Pizzi et Frontali (2001) : Dans cette publication, la composition moyenne des zones de faible complexité et des zones conservées sont calculées à partir des résultats de l’algorithme SEG (Wootton et Federhen, 1993). Cet algorithme s’appuie sur la définition de complexité compositionnelle locale, issue de la théorie de l’information, afin de diviser les séquences d’acides aminés en zones de faible et forte complexité. Pour cela, il calcule la complexité de chaque fenêtre de lecture de longueur W puis fusionne les fenêtres recouvrantes de faible complexité. L’algorithme SEG est notamment utilisé dans le programme BLAST en prétraitement de l’alignement pour remplacer les zones de faibles complexité par l’acide aminé incertain X.

– Utiliser les alignements de domaines Pfam connus chez P. falciparum : Pour chaque domaine Pfam déjà identifié chez P. falciparum grâce au modèle nul original, on utilise l’algorithme de Viterbi pour extraire les positions alignées sur les états Matchs du HMM. Ainsi, on peut exclure les zones de faible complexité (dont les acides aminés sont alignés sur des états Inserts), et récupérer les positions conservées du domaine (alignées sur les états Matchs) à partir desquels on déduit une distribution moyenne en acides aminés.

– Réaliser une segmentation des séquences protéiques de P. falciparum à l’aide d’un HMM : Ce HMM possède deux états (cf. Figure 5.1). Les paramètres du modèle sont appris grâce à l’algorithme d’entraînement de Baum-Welch. On répète l’apprentissage avec une initialisation aléatoire des paramètres et on retient le résultat ayant la plus forte vraisemblance. À l’issue de l’entraînement, les distributions observées dans les deux états sont très différentes. L’une de ces distributions est fortement biaisée (plus que la composition globale), tandis que la seconde est plus proche de la distribution moyenne des protéines de Swiss-Prot. On peut donc faire l’hypothèse que le premier état a capturé les insertions et les zones de faible complexité, tandis que le second représente de façon plus précise la distribution moyenne en acides aminés des domaines de P. falciparum.

Figure 5.1 – Structure du HMM à deux états utilisé pour la segmentation des protéines plasmodiales en positions conservées ou non. Ce modèle est initié par l’état Begin où commence toute séquence. Les états STATE-1 et STATE-2, associées à des distribu- tions de probabilité sur les acides aminés, modélisent la génération des séquences. On espère y capturer séparément les positions conservées et les zones de faibles complexité. Enfin l’état End permet de clore la modélisation.

Pfam chez P. falciparum, représentées sur la figure 5.2. En utilisant la distance du χ2 par

rapport à la distribution de Swiss-Prot, on ordonne ces distributions de la plus proche de la composition de Swiss-Prot, et donc du modèle nul par défaut d’HMMER, à la plus biaisée :

– la composition observée sur les alignements des domaines Pfam connus ;

– la composition de Pizzi excluant les zones de faible complexité obtenues par SEG ; – la composition apprise sur les protéines de P. falciparum par entraînement des pa-

ramètres d’un HMM à deux états ;

– la composition globale en acides aminés des protéines de Plasmodium falciparum.

5.4.3 Expérimentations

Le programme HMMER a été relancé avec chacun des modèles nuls envisagés. Notons que cela nécessite la modification de chaque HMM de la librairie (fichiers .hmm où on trouve le modèle nul des calculs de scores), ainsi que la correction du code source du programme pour la génération de séquences artificielles (calibrage des modèles). Chacun des modèles nuls a permis l’identification d’un ensemble différent de domaines potentiels, et la procédure de certification a été appliquée sur ces ensembles pour évaluer la performance de chaque librairie. Comme l’atteste la figure 5.3, les résultats obtenus ici sont décevants au regard des ré- sultats du modèle nul original. On constate une diminution du nombre de domaines certifiés à FDR équivalent pour les librairies ayant un modèle nul corrigé quelle que soit la nouvelle distribution. Cependant, nous verrons dans les sections suivantes que lorsque l’on modifie la composition des états du HMM, la modification conjointe du modèle nul est une étape nécessaire pour l’amélioration des performances. Cette observation semble indiquer que l’adé- quation du modèle nul avec la distribution de génération globale des états des HMM profils est primordiale pour une librairie de HMM. La composition moyenne des états des HMM de

5.4. CORRECTION DU MODÈLE NUL 131

(a)

(b)

(c)

(d)

Figure 5.2 – Logo des distributions en acides aminés des quatre compositions cibles envisagées et comparaison avec la distribution de Swiss-Prot. Les fréquences des différents acides aminés sont représentées sur l’axe de droite. Dans chaque figure on trouve représentée en noir la distribution moyenne en acides aminés des protéines de Swiss-Prot, et en couleurs (cf. figure2.4 66pour le code couleur) les quatres distribution apprises ordonnées de la plus proche de Swiss-Prot à la plus biaisée (par une distance du χ2 à la distribution

de SwissProt) : la distribution observée sur les alignements de domaines Pfam connus chez P.falciparum (a), celle publiée par Pizzi (excluant les zones de faible complexité identifiées par SEG) (b), celle apprise grâce à un HMM à deux états par l’entraînement de Baum-Welch (c) et la distribution moyenne des protéines de P. falciparum (d).

Figure5.3 – Nombre de certifications réalisées en fonction du FDR, par les quatre librairies corrigées en modifiant le modèle nul.

Pfam étant proche de celle de Swiss-Prot, le modèle nul par défaut d’HMMER semble alors le mieux adapté. Par contre, lorsque la librairie utilisée exhibe une composition moyenne plus proche de celle de P. falciparum, comme c’est le cas des librairies corrigées des sections suivantes, alors la correction conjointe du modèle nul conduit souvent à de meilleurs résultats.