• Aucun résultat trouvé

3.6 Détection des domaines protéiques

4.1.2 Domaines potentiels et validants

Une fois apprise la liste des CDP sur un grand nombre de protéines, on se replace au niveau de l’organisme cible. Il nous faut alors déterminer parmi ses protéines où se trouvent les domaines potentiels et validants utilisés dans le processus de certification.

a) Inférence des domaines potentiels : L’ensemble des domaines potentiels (Pi) est

inféré à partir des résultats de la recherche de domaines protéiques en utilisant le logiciel HMMER et la librairie complète de HMM de Pfam. Nous avons vu précédemment (cf. section

2.4.2pages66à68) qu’étant donné un ensemble de protéines et un HMM, HMMER permettait le calcul d’un score reflétant la similarité de chaque séquence au domaine protéique modélisé par le HMM. Ce score est généralement comparé à un seuil calibré manuellement pour authentifier la présence du domaine et garantir l’absence de faux-positifs. De plus, ce score est utilisé pour estimer une E-valeur qui représente l’espérance du nombre de séquences qui obtiendraient un aussi bon score.

La construction de l’ensemble des domaines potentiels nécessite plusieurs étapes dont la première consiste à considérer toutes les occurrences de domaines renvoyées par le programme HMMERqui diffèrent des domaines déjà connus et dont l’E-valeur est inférieur à une valeur seuil permissive. Cette valeur est choisie pour être beaucoup moins conservatrice que les seuils de score recommandés par Pfam pour chaque HMM. Une fois fixé le seuil d’E-valeur, on dispose, pour chaque protéine, d’une collection de domaines (avec leur position sur la séquence). Cette collection de domaines n’est pas exempte de chevauchement, c.-à-d. de domaines détectés sur les mêmes positions/acides aminés de la séquence. L’étape suivante consiste, dans un premier temps, à éliminer tous les domaines potentiels qui chevauchent un domaine connu de la protéine, puis à construire une liste de domaines potentiels non-chevauchants. Pour cela, nous avons donc mis en place est une heuristique qui conserve en priorité les domaines potentiels de meilleure E-valeur. Pour chaque protéine, l’heuristique va mémoriser successivement le domaine potentiel ayant la meilleure E-valeur et, s’il existe d’autres domaines potentiels qui le chevauchent, alors on élimine ces domaines de la collection. D’autres critères pourraient être envisagés et font actuellement l’objet d’expérimentations

4.1. PRÉSENTATION DE LA MÉTHODE 97

dans le cadre de la thèse d’Amel Ghouila. Notons que, lors de cette étape, il faut considérer les positions alignées sur des états Inserts comme des positions non-occupées par le domaine afin de prendre en compte les phénomènes de domaines encastrés. Ce phénomène peut être observé par exemple chez P. falciparum dans la protéine PFB0715w, où le domaine Pfam RNA_pol_Rpb2_2 (PF04561) est encastré dans le domaine RNA_pol_Rpb2_1 (PF04563). Ce genre de conformation n’est pas unique à P. falciparum : on l’observe pour des protéines orthologues de plusieurs espèces1 y compris des organismes modèles (levure, drosophile,

etc.). Il est marginal, sans être unique puisqu’on l’observe fréquemment pour certaines familles de domaines Pfam — par exemple le domaine HHH (PF00633) encastré dans le domaine HhH-GPD (PF00730). Cela peut s’expliquer par un mécanisme d’insertion d’un domaine fonctionnel complet au sein d’un autre domaine, suite par exemple à un évènement d’exon shuffling (Gilbert, 1978). À l’issue de la sélection des domaines non-chevauchants, un même domaine peut encore apparaître plusieurs fois dans la protéine. La dernière étape pour l’obtention des ensembles de domaines potentiels (Pi) consiste alors à ne retenir que le

nom/identifiant de chaque domaine (sans considérer les positions/occurrences) afin d’éliminer toute redondance.

b) Choix des domaines validants : Le choix de l’ensemble des domaines validants (Vi)

est un paramètre très important. En effet, c’est en se basant sur ces domaines que l’on certifie la présence de nouveaux domaines. Trois types de domaines validants ont été considérés dans ces travaux :

– Les domaines Pfam connus : La première solution est d’utiliser les domaines Pfam connus dans la protéine (c.-à-d. les domaines détectés par les seuils de score recommandés par Pfam). Cet ensemble peut être obtenu à l’aide du logiciel HMMER ou téléchargé directement depuis la base de données dédiée à l’organisme cible (par exemple la base PlasmoDB pour P. falciparum). Cette solution est la plus naturelle et la plus sûre.

– Les domaines Interpro (non-Pfam) connus : Une solution complémentaire consiste à considérer l’ensemble des domaines d’InterPro connus dans la protéine, à l’exclusion des domaines issus de Pfam. Cette liste de domaines peut être obtenue à l’aide du programme InterProScanou téléchargée depuis une base de données en ligne. L’utilisation de l’intégralité des bases de données InterPro permet d’accroître considérablement le nombre de domaines validants de chaque protéine. Par conséquent, on s’attend à obtenir un plus grand nombre de domaines certifiés. Cependant, l’hétérogénéité des schémas de domaines des bases d’Interpro risque de conduire à des certifications de moindre qualité par rapport à celles réalisées grâce aux domaines Pfam connus.

– Les domaines Pfam potentiels : Les deux précédents ensembles de domaines validants fournissent une base solide pour la certification de domaines potentiels, car la présence de ces domaines est indiscutable. Ils induisent néanmoins une limitation importante : on ne peut certifier un domaine que dans des protéines où la présence d’au moins un autre domaine est déjà connue. Or, les annotations les plus intéressantes sont justement attendues dans des protéines où, jusqu’ici, aucun domaine n’a pu être identifié. Pour surmonter cette

limitation, une solution est de considérer un troisième ensemble de domaines validants : les domaines potentiels eux-mêmes. Dans cette solution, toutes les paires de domaines potentiels sont énumérées et si une paire appartient à la liste des CDP, les deux domaines sont certifiés. Bien sûr cette procédure est beaucoup plus sujette à certifier de faux positifs que les deux précédentes mais nous allons voir dans la section4.2comment cela peut être contrôlé. Nous venons de définir trois ensembles de domaines validants disjoints et de qualité a priori décroissante. Notons pour finir que, pour certifier un domaine potentiel, seuls les do- maines validants qui ne recouvrent pas ce domaine seront considérés. Cela permet notamment d’empêcher la certification d’un domaine Pfam par un domaine Interpro équivalent connu à cette position.