• Aucun résultat trouvé

Extension à d’autres organismes et présentation des résultats

4.8 Perspectives

4.8.2 Extension à d’autres organismes et présentation des résultats

Actuellement, la principale perspective concerne l’application de la méthode à un plus grand nombre d’organismes et notamment à l’ensemble des organismes modèles, ainsi que le développement d’une base de données pour contenir et interroger l’ensemble des domaines divergents identifiés dans ces espèces.

L’étude du premier organisme supplémentaire, Arabidospsis thaliana, fut suggérée par les membres du laboratoire de physiologie cellulaire végétale (LPCV) du CEA de Grenoble

lors d’un séminaire en 2009. Par la suite, la collaboration de l’équipe MAB avec l’institut Pasteur de Tunis nous a conduit à appliquer cette méthode aux espèces responsables de la leishmaniose : Leishmania major, Leishmania infantum et Leishmania braziliensis (cf. le siteTritrypDB (Aslett et al., 2010) qui s’intéresse à tous les types de trypanosomes). Après cela, nous avons étendu notre étude aux eucaryotes pathogènes chez l’Homme d’après la base de données EupathDB (Aurrecoechea et al., 2007). En plus des espèces plasmodiales et des leishmanioses, la méthode a également été appliquée à deux autres apicomplexes Toxoplasma gondii et Cryptosporidium parvum (qui bénéficie chacun d’une base de données dédiée : res- pectivement ToxoDB (Gajria et al.,2008) et CryptoDB(Heiges et al., 2006)), un autre try- panosome Trypanosoma brucei gambiense (cf. TritrypDB) et un organisme appartenant un phylum distinct des précédents : Giardia lamblia (cf.GiardiaDB(Aurrecoechea et al.,2009a)). Le nombre d’organismes étudiés étant assez important, la construction d’une base de données accompagnée d’une interface Web dynamique pour remplacer le prototype (site Web statique) est devenue une nécessité. Un travail initié par des étudiants d’IUT Informatique a été récemment poursuivi par des étudiants en première année de Master. Nous avons intégré ces travaux pour obtenir une première version d’une base de données nommée EuPathDomains, actuellement disponible en ligne3. Un article vient d’être publié afin de présenter l’utilisation de cette base notamment dans le cadre des résultats obtenus pour les organismes précédemment cités (Ghouila et al.,2010).

Depuis le portail EuPathDomains (capture d’écran en figure 4.9), on peut accéder aux résultats de la méthode de certification pour chacune des espèces précédemment citées. Les résultats peuvent être interrogées par les noms ou les identifiants des protéines, des domaines, des entrées Interpro et des termes GO. De plus, il est possible d’indiquer le seuil de FDR maximum requis pour la certification des nouveaux domaines. Enfin, on peut spécifier une espèce ou un taxon d’intérêt.

Suite à une requête concernant une protéine d’intérêt, on obtient une page similaire à celle représentée par la figure4.10, qui correspond ici à la protéine PF11_0189 de P. falciparum. On trouve tout d’abord le nom de la protéine (sous la forme d’un lien vers le site PlasmoDB), son annotation actuelle, ainsi qu’une proposition de réannotation issue du workshop de 2008. Ensuite, nous présentons les annotations GO connues pour cette protéine et celles que nous avons déduites des combinaisons de ses domaines connus. À la suite de ces informations, deux tableaux représentent respectivement les domaines connus et certifiés de la protéine. On y trouve, pour chaque domaine :

1. son nom, qui est un lien vers la page des domaines ;

2. deux liens (sous forme d’images) respectivement vers la base de données de familles d’origine du domaine et vers Interpro ;

3. une représentation graphique linéaire de la protéine et de la localisation des différentes occurrences du domaine ;

4. les annotations GO associées à ce domaine par Interpro, et — pour les nouveaux do- maines certifiés — celles que l’on a pu déduire des combinaisons avec d’autres domaines.

4.8. PERSPECTIVES 123

Figure4.9 – Capture d’écran du portail de la base de données EuPathDomains.

De plus, les domaines certifiés par notre approche sont accompagnés d’autres informations relatives à la certification. Pour chaque nouvelle occurrence certifiée d’un domaine, on donne sa position, son E-valeur ainsi que le FDR associé pour chaque domaine ayant permis sa certification. Une infobulle apparait lorsque l’on survole le FDR et donne accès aux détails concernant la procédure de ré-échantillonnage : nombre total de domaines potentiels, nombre de domaines certifiés sur les données réelles et nombre de certifications attendues sous H0.

Dans cette page, les annotations GO déduites sont représentées en rouge si elles sont inédites par rapport aux annotation GO connues de la protéine, et en bleu dans le cas contraire. Chaque annotation GO est aussi un lien vers le site Web de la Gene Ontology, donnant accès à de plus amples informations sur la fonction décrite.

Figure4.10 – Résultats de la requête sur la protéine PF11_0189 de P. falciparum. Sont représentés les domaines Interpro connus et les domaines Pfam certifiés. Ces derniers sont accompagnés des détails de la certification et des annotations G0 déduites.

Chapitre 5

Correction des HMM

Comme nous l’avons vu dans les chapitres précédents, les librairies classiques de HMM, telle Pfam, sont performantes pour l’annotation de protéines dites “standards” mais souffrent d’une limitation importante lorsqu’il s’agit d’identifier les domaines au sein de protéines “di- vergentes”. Un des aspects de ce problème concerne les seuils d’identification. Ces seuils, qui minimisent le nombre de faux positifs, masquent du fait de leur rigueur les domaines les plus divergents. C’est pourquoi nous avons présenté au chapitre précédent, une méthode utilisant la co-occurrence de domaines afin de relâcher les seuils. Dans ce chapitre, nous proposons d’étudier le problème sous un angle différent en nous intéressant à l’origine des difficultés rencontrées par les librairies classiques face aux protéines les plus divergentes. Les modèles utilisés par ces librairies ont la plupart du temps été inférés sur la base de protéines issues des organismes modèles. La vocation de ces librairies est de fournir des modèles les plus généraux possibles afin d’identifier les domaines classiques dans n’importe quel génome récemment séquencé. Ce principe est contradictoire avec l’annotation de séquences où les spécificités évolutives sont nombreuses.

5.1 À quel niveau intervenir ?

Différentes approches sont envisageables pour corriger une librairie de HMM profils afin d’étudier un organisme divergent particulier. La première approche que nous avons étudiée ne constitue pas en soit une correction des modèles de domaines mais s’applique au modèle nul. L’impact du modèle nul est particulièrement important lors de l’identification des domaines. Il intervient non seulement pour le calcul du score mais aussi dans celui des E-valeurs, puisqu’il est utilisé pour générer les séquences artificielles lors du calibrages des paramètres de l’EVD. La construction d’un bon modèle nul est donc une étape importante du processus. Cela est étudié à la section 5.4.

La deuxième approche de correction que nous proposons part d’un principe assez naturel : réapprendre des modèles en utilisant des alignements de séquences graines (cf. section2.4.2.c page 64) recentrés sur notre organisme cible. Nous présentons en section 5.5, une approche visant à construire des modèles “espèce-dédiés”. Ces modèles sont appris à partir d’alignement- graines qui intégrent les séquences de domaines précédemment identifiées dans l’organisme

cible ou dans ses espèces les plus proches du point de vue phylogénétique. Nous verrons que cette approche produits de bons résultats, mais qu’elle a comme principal défaut d’être limitée par l’identification de domaines dans les espèces proches afin de pouvoir reconstruire un HMM. Ainsi, on ne peut améliorer l’identification que des domaines déjà connus chez P. falciparum ou ses relatifs.

Une troisième approche pour corriger des librairies de HMM consiste à modifier les pa- ramètres des modèles originaux pour les adapter à l’étude de l’organisme cible. De ce point de vue, différents paramètres peuvent être corrigés. Nous avons axés nos recherches sur les probabilités de génération associées aux états Matchs. Ces paramètres, appris grâce aux alignements-graines, capturent l’information portée par les positions conservées au cours de l’évolution, et sont à ce titre des paramètres clefs pour la reconnaissance des domaines. Nous tâchons de définir des règles de corrections générales qui puissent être appliquées aux distribu- tions de probabilités des différents états Matchs. L’idée ici est de simuler/prédire l’évolution des positions clés du domaine. Contrairement à l’approche de ré-apprentissage des modèles, qui nécessite l’identification au préalable d’occurrences du domaine dans notre espèce cible, cette méthode permet d’adapter les paramètres de l’ensemble des modèles de domaines d’une librairie. Le principe de la méthode est décrit en section 5.6. Plusieurs types de corrections ont été proposées :

– une correction numérique, appelée facteurs de correction (section 5.7) ; – l’utilisation de matrices de substitution d’acides aminés (section 5.8) ; – la formation de classes d’états (section 5.9) ;

– une approche de type k-plus proches voisins (section 5.10).

Les règles de corrections développées ici ne s’appliquent qu’aux états Matchs. Ceux-ci modélisent la majeure partie de l’information issue de l’alignement graine et sont donc les paramètres clefs des HMM. Cependant, d’autres types de correction qui n’ont pas été expéri- mentés dans le cadre de cette thèse sont possibles. On peut citer, par exemple, la modification de la structure des modèles, c’est à dire le nombre d’états et les transitions autorisées (ou non) entre ces états. Nous aurions également pu corriger les probabilités de génération associées aux états insertions ainsi que les probabilités de transitions entre les états. Ces approches n’ont toutefois pas été explorés en priorité car elles représentent a priori moins d’enjeux que les probabilités associés aux états Matchs.

5.2 État de l’art des méthodes de corrections de modèles