• Aucun résultat trouvé

nécessaire de simuler l’évolution des différentes positions du domaine pour corriger les mo- dèles. L’objectif des méthodes développées dans ce chapitre est de proposer des règles de correction générales qui puissent être appliquées à tout état Match, et ainsi pouvoir corriger l’intégralité des modèles de la librairie Pfam.

Dans la suite, on considère l’ensemble des états Matchs de tous les HMM de Pfam, que l’on note X = {x1. . . xN}. Chacun des N individus xi est décrit par un vecteur de fréquences

xi= (xij)j∈[1..20],

où xij est la probabilité de générer l’acide aminé j associée à l’état Match xi. Les probabilités

de génération de l’ensemble des états Matchs de la librairie Pfam exhibent une distribution moyenne en acides aminés π = (πj)j∈[1..20], proche de celle des protéines de Swiss-Prot. Cette

observation reflète le fait que les paramètres des modèles ont été entraînés sur des séquences ne présentant ni la divergence ni le biais de P. falciparum. Dans les sections suivantes nous proposons différentes méthodes de correction qui font tendre cette distribution moyenne vers une distribution cible σ = (σj)j∈[1..20] plus proche de celle des domaines protéiques de P. fal-

ciparum. Ces corrections ne se résument cependant pas à un ré-ajustement de composition globale des états Matchs. Il faut aussi tenir compte des spécificités de chaque position des HMM qui traduisent les contraintes physico-chimiques qui s’exercent à ces positions. Tout le problème est alors de définir l’opération à utiliser qui permette de conserver l’information position-spécifique tout en simulant une évolution divergente et biaisée comme chez P. falci- parum. Divers solutions ont été envisagées et sont détaillées ci-après (sections5.7à 5.10).

5.7 Facteurs de correction

5.7.1 Principe

Une idée simple pour corriger les modèles Pfam consiste à utiliser un vecteur de facteurs de correction multiplicatifs, noté (aj)j∈[1..20] pour transformer chaque distribution xi associée

à un état Match en une distribution x

i plasmodifiée en appliquant une fonction du type :

xij = f(xij) =

ajxij

P20

k=1akxik

, ∀j ∈ [1..20]. (5.1) Le dénominateur est un terme de normalisation qui garantit que pour toute distribution xi

passée en paramètre, le résultat x

i = f(xi) est aussi une distribution de probabilités. L’opé-

ration doit être définie pour nous permettre de transformer la distribution globale actuelle π des états Matchs des HMM de Pfam en une distribution cible σ plus proche de P. falcipa- rum. Cela signifie que les valeurs des (aj)j∈[1..20] correspondent à la résolution de l’équation

f (π) = σ. Ces facteurs de correction sont calculés après avoir choisi la distribution de départ π et la distribution cible σ. Puis ils sont appliqués à chaque état Match de l’ensemble des HMM de Pfam selon l’équation (5.1), pour obtenir une nouvelle librairie de HMM qui exhibe une composition globale de ses états Matchs correspondant à la distribution cible désirée.

Les (aj)j∈[1..20] s’obtiennent par la résolution de l’équation suivante :

∀j ∈ [1..20], σj =

ajπj

P20

k=1akπk

En observant cette équation, on constate tout d’abord que les (aj)j∈[1..20]sont définis à un

facteur multiplicatif λ près, c’est à dire que si (aj)j∈[1..20]est une solution alors (λaj)j∈[1..20]est

également solution. Il est donc possible de calculer une solution pour les valeurs des facteurs de correction (aj)j∈[1..20] tel que le terme de normalisation disparaisse de l’équation, c’est à

dire avec la contrainteP20

k=1akπk= 1. On obtient ainsi une solution évidente de l’équation :

∀j ∈ [1..20], aj =

σj

πj

.

Dans la suite, nous discutons des différentes distributions cibles qui peuvent être envisagées (section5.7.2) avant de présenter les résultats obtenus par les librairies corrigées (section5.7.3)

5.7.2 Choix des distributions de départ et cible

La distribution de départ π est obtenue en moyennant les distributions de probabilités (xi)i∈[1..N ] associées à l’ensemble des états Matchs de la librairie Pfam. Comme attendu, on

obtient une distribution en acides aminés très proche de celle calculée sur les protéines de Swiss-Prot (cf. figure 3.5page82).

En ce qui concerne la distribution cible, les différents choix utilisés au cours de nos expé- rimentations correspondent aux distributions vues précédemment (cf. section 5.4.2 et figure

5.2) :

– distribution globale en acides aminés des protéines de Plasmodium falciparum ; – distribution Pizzi excluant les zones de faible complexité obtenues par SEG ; – distribution observée sur les alignements des domaines Pfam connus ;

– distribution apprise par entraînement du HMM à deux états (cf. Figure 5.1). Pour chaque composition cible, les facteurs de corrections appropriés sont calculés, puis ap- pliqués aux états Matchs de tous les HMM originaux pour créer une nouvelle librairie.

5.7.3 Résultats

La figure 5.6présente les résultats de la méthode de certification par co-occurrence pour les différentes librairies corrigées par facteurs de corrections. Dans la première figure (en haut) le modèle nul utilisé est celui par défaut de Pfam, tandis que dans la suivante (en bas) les probabilités de génération du modèle nul correspondent à la distribution cible σ utilisée pour le calcul des facteurs de correction. On constate que de meilleurs résultats sont obtenus avec un modèle nul corrigé. Dans ce cas, les librairies obtenues permettent de certifier un plus grand nombre de domaines que la librairie Pfam originale, à FDR équivalent. On remarque aussi que les résultats obtenus sont assez proches quelle que soit la distribution cible choisie. Toutefois, la librairie correspondant aux facteurs de correction vers la distribution globale de P. falciparum semble la plus performante et sera retenue pour la comparaison des meilleures librairies dans la section5.11.

5.7. FACTEURS DE CORRECTION 139

Figure 5.6 – Résultats de certification par co-occurrence des librairies de HMM profils corrigés par facteurs de correction. La figure du haut représente les résultats obtenus par des librairies corrigées et ayant un modèle identique à Pfam. La figure du bas correspond à des librairies corrigées dont le modèle nul a été adapté à la composition cible de correction.