• Aucun résultat trouvé

4.3.1 Simulations sur la levure

L’objectif de cette première expérience était de s’assurer de la capacité de la méthode à améliorer la sensibilité de la détection de domaines Pfam dans les protéines divergentes. Le protocole de cette expérience se divise en trois étapes :

a) Déterminer l’ensemble des domaines de référence : Dans un premier temps, les HMM de Pfam sont utilisés avec leurs seuils de score pour déterminer l’ensemble des domaines de référence chez la levure S. cerevisiae (protéines extraites de la Saccharomyces Genome Database ou SGD (Cherry et al.,1998)). Seules les protéines pour lesquelles au moins deux domaines Pfam distincts ont été identifiés sont considérées dans les étapes suivantes.

b) Simuler l’évolution des séquences :

L’étape suivante consiste à simuler l’évolution des protéines afin de modifier leur compo- sition globale en acides aminés pour la rapprocher de celle de P. falciparum. Le programme seqgen(Rambaut et Grassly,1997) a été utilisé avec la matrice de taux d’échanges instanta- nés WAG (Whelan et Goldman,2001), mais en remplaçant la composition en acides aminés standard par celle mesurée chez P. falciparum (PlasmoDB 5.5). Par conséquent, à partir de n’importe quelle séquence, en appliquant les substitutions selon la matrice modifiée, on obtient une protéine artificielle dont la composition en acides aminés converge vers celle de P. falciparum. En appliquant différents taux de substitution par site — 0.1, 0.25, 0.5 et 0.75 — nous avons créé, à partir des séquences protéiques de la levure, quatre jeux de protéines

4.3. EXPÉRIMENTATIONS 101

artificielles de divergence croissante.

c) Retrouver les domaines divergents par co-occurrence : Enfin, dans la dernière étape de cette expérience, on applique aux quatre ensembles de protéines divergentes la pro- cédure suivante. Chaque HMM est utilisé avec son seuil de score Pfam pour déterminer les ensembles de domaines validants. On s’attend à ce qu’un certain nombre de domaines de référence ne soient plus détectés à cause de la divergence des séquences. Les seuils de Pfam sont alors relâchés à une E-valeur de 10 pour déterminer les ensembles de domaines potentiels et la méthode de certification par co-occurrence est appliquée. On espère ainsi retrouver une partie des domaines précédemment perdus.

Taux Dom. de Dom. Potentiellement Domaines FDR Domaines Proportion subst. référence perdus retrouvables retrouvés Estimé inédits GO connu

0.1 2 407 149 145 134 11.5% 274 97/130

0.25 2 407 346 301 265 9.2% 171 72/93

0.5 2 407 907 645 491 5.4% 60 20/31

0.75 2 407 1 436 747 501 4% 12 7/12

Table 4.2 – Résultats sur la levure après dérive des séquences. “Taux subst.” in- dique le taux de divergence des séquences, “Dom. de référence” les domaines des protéines multidomaines de la levure originale, “Dom. perdus” correspond aux domaines non retrouvés par les seuils de Pfam sur les séquences divergentes, “Potentiellement retrouvables” indique le nombre de domaines que l’on peut espérer retrouver (c.-à-d. des domaines perdus dans une protéines où au moins un autre domaine est retrouvé par les seuils de Pfam), “Domaines retrouvés” indique les domaines perdus que l’on retrouve par notre méthode de certification, “Domaines inédits” est le nombre de domaines inédits à l’ensemble de référence trouvé en plus par notre méthode, et “Proportion GO connu” indique la proportion de domaines inédits annotés par des annotations déjà connues dans les protéines correspondantes.

Le tableau 4.2 récapitule les résultats de cette expérience. Comme attendu, plus la di- vergence des séquences est importante, plus les seuils de Pfam se révèlent dans l’incapacité de retrouver certains domaines de référence. Par exemple, pour un taux de substitution de 0.5, 907 domaines sont perdus, soit environ un tiers des domaines de référence. On note que parmi ces 907 domaines, 645 sont potentiellement retrouvables (c.-à-d. sont présents dans une protéine où au moins un autre domaine est encore détecté par les seuils de Pfam), et 491 sont retrouvés par notre méthode. Ainsi, pour un taux de substitution de 0.5, ∼76% des domaines que l’on peut espérer retrouver sont effectivement certifiés, c.-à-d. ∼54% du nombre total de domaines perdus. De plus, 60 domaines inédits (absents des domaines de référence) sont éga- lement détectés malgré un faible FDR de 5.4%. Ce nombre de nouveaux domaines est encore plus important pour des taux de substitution moins élevé, et peut paraître étonnamment haut pour un organisme aussi bien annoté que la levure. Cela pose la question de la validité de ces nouveaux domaines. Répondre à cette question n’est pas une tâche aisée. Une solution est de se référer aux annotations GO associées aux domaines. En effet, il semble raisonnable de supposer que si les annotations associées aux nouveaux domaines découverts concordent

avec l’annotation de la protéine alors la présence de ces domaines est vraisemblable. Dans la dernière colonne du tableau 4.2, est reportée la proportion de domaines possédant une annotation concordante avec la protéine, parmi les domaines inédits annotés dans la GO. Par exemple pour un taux de substitution de 0.1, des 274 domaines inédits, 130 possèdent une annotation GO parmi lesquels 97 (soit 75%) possèdent une annotation déjà connue dans la protéine. Cette forte proportion suggère qu’une grande partie de ces nouveaux domaines ne seraient pas des faux positifs, mais des domaines réellement présents chez la levure découverts grâce à notre approche.

4.3.2 Impact des paramètres utilisés pour la certification

La deuxième série d’expériences a été appliquée à P. falciparum. Elle avait pour but d’évaluer l’impact des paramètres (E-valeur seuil et P-valeur) sur le nombre de nouveaux domaines certifiés par la méthode et sur le FDR. Dans ces expériences, les domaines validants sont les domaines Pfam connus issus de la base de données PlasmoDB (version 5.5).

Les résultats présentés à la figure4.2 montrent l’évolution du FDR en fonction de la P- valeur utilisée lors de la construction des CDP. Les courbes ont été réalisées pour différents ensembles de domaines potentiels correspondant à des seuils d’E-valeur fixés à 50, 10, 1 et 0.01. Comme attendu, plus la P-valeur est conservative, plus le F DR associé aux prédictions est faible. Même pour les E-valeurs les plus hautes, une P-valeur de 10−3permet une certification

avec un FDR performant. Notons qu’une P-valeur moins conservatrice de 10−1 peut aussi être

envisagée, puisque le gain en précision a principalement lieu entre 1 et 10−1.

On s’intéresse ensuite à l’impact de l’E-valeur sur la certification. La figure4.3représente d’un côté l’évolution du nombre estimé de domaines certifiés sur les données originales et sous H0 (à gauche), et de l’autre côté celle du FDR (à droite), lorsque l’on fait varier l’E-valeur

déterminant les domaines potentiels. Ces courbes ont été réalisées pour deux seuils différents de P-valeur (10−1 en haut et 10−3 en bas). On constate que plus on élève le seuil d’E-valeur

— c.-à-d. plus on augmente la taille de l’ensemble des domaines potentiels —, plus le nombre de certifications sur les données réelles et sous H0 augmente. Cependant, le F DR est lui aussi

plus élevé pour les plus grandes E-valeurs. On peut donc contrôler le FDR en calibrant le seuil d’E-valeur en fonction de ce que l’on souhaite privilégier (FDR faible ou plus grand nombre de nouveaux domaines).

Dans les sections suivantes, les résultats présentés chez P. falciparum et ses orthologues ont été obtenus pour une P-valeur de 10−2 et des E-valeurs correspondant à des FDR de 10%

et 20%.