Comparaison avec les résultats de la littérature.

Chapitre VI : Discussion générale, Conclusions et Perspectives

VI.3. Comparaison avec les résultats de la littérature.

A l’époque où mon travail de thèse a été initié en décembre 2003, le domaine de la recherche d’homologues lointains par des approches automatiques était dominé par les techniques de « threading ». Comme mentionné plus haut, l’inconvénient du « threading » est qu’il suppose l’existence d’une structure tridimensionnelle correspondant à la portion de séquence analysée. Les premières méthodes de comparaison profil/profil ont été publiées à cette période et j’ai, au début de ma thèse, évalué l’intérêt des différentes approches telles que COMPASS , COACH ou HHsearch . COMPASS et HHsearch ont été sélectionnées pour leur rapidité et parce qu’elles intégraient en plus d’une procédure d’alignement des profils, un paramètre statistique (e-value ou probabilité) qui permettait d’évaluer la vraisemblance des alignements. Nous avons vu au chapitre IV qu’il existait néanmoins une disparité entre les paramètres statistiques calculés par les deux approches. Au cours de la discussion, je reviendrai brièvement sur cette particularité. Dans la suite, je mentionnerai également différents travaux publiés en 2006 qui s’inscrivent dans une démarche similaire à celle développée au cours de mon doctorat. Je chercherai à dégager les points originaux de ces travaux, afin de décrire ce qui les distinguent de la démarche entreprise dans mon étude.

VI.3.1.Comparaison avec les résultats publiés sur les logiciels

HHsearch et COMPASS

Deux points importants ont été notés lors de l’analyse comparée des capacités discriminantes des deux programmes COMPASS et HHsearch :

- Les e-value obtenues avec COMPASS favorise l’existence de faux-positifs. Pour des e-value inférieures à 10-3 on observe ainsi encore un nombre important de faux- positifs. En revanche, la e-value du programme HHsearch apparaît très stricte.

- Les différences observées entre les résultats du programme COMPASS et HHsearch sont étonnantes en regard des données publiées sur la sensibilité des deux méthodes. (courbe de sensibilité des logiciels PSI-BLAST, COMPASS, HHnoss et HHss tracée publié par J. Soeding et présentée en introduction Figure 19 page 53).

I.1.1.23Comparaison des calculs de e-value

Les modes de calcul des e-values entre les deux méthodes sont radicalement différents. Dans le cas de COMPASS, comme indiqué dans l’introduction, le mode de calcul de la e- value est très similaire à celui utilisé par PSI-BLAST. Ce calcul a été optimisé pour favoriser la sensibilité de la méthode . La e-value est calculée à partir d’une formule analytique qui prend en compte la longueur des séquences alignées et les paramètres λ et K. Ces derniers paramètres caractérisent la distribution des scores attendus lors de l’alignement d’une séquence avec l’ensemble des séquences d’une base de données. Les paramètres nécessaires pour calculer λ et K ont donc été obtenu une fois pour toute au moment du développement du programme et ne sont pas modifiés par la suite. En revanche, avec HHsearch, les paramètres λ et K sont définis à chaque étape de calibration d’un profil HMM. Bien que plus coûteuse en temps de calcul, cette méthode semble fournir des e-values en meilleur accord avec le nombre de faux-positifs effectivement obtenus. A ce propos, J. Soeding mentionne sur le site de HHsearch les résultats d’une analyse sur la précision de PSI-BLAST (http://toolkit.tuebingen.mpg.de/hhpred/help_ov). Sur un grand ensemble de séquences, les résultats de PSI-BLAST (utilisé avec les paramètres standards, jusqu’à 8 itérations avec des e-values d’inclusion de 10-4_{) comptent 100 fois trop de séquences non homologues dans} l’ensemble des séquences supposées homologues pour une e-value calculée par PSI-BLAST inférieure à 10-4_.

I.1.1.24Hiérarchie dans les performances des programmes

Il reste néanmoins surprenant que les résultats de HHsearch ne soient pas supérieurs à ceux de COMPASS en regard de ce qui a été publié (Figure 19 page 53). Notons que dans la

publication originale, J. Söding mentionnait effectivement une perte de fiabilité de la méthode HHsearch pour des homologues très lointains correspondant au cas de figure exploré ici . Elle n’était néanmoins pas aussi importante que celle obtenue dans nos tests. Une des différences entre notre étude et son ensemble test provient aussi de la longueur des séquences testées pour effectuer la comparaison. Dans son cas, J. Söding utilise l’intégrité de la longueur des deux séquences extraites de SCOP pour construire les profils et les comparer ensuite entre eux avec HHsearch. En revanche, nous restreignons la taille de la séquence prise en compte pour le second profil à la longueur de l’alignement identifié dans le signal non significatif de PSI- BLAST. Les profils résultants sont donc probablement de moins bonne qualité que ceux testés par J. Söding. Ce point souligne l’intérêt de ne pas se restreindre aux résultats des benchmarks pour décider de l’utilisation d’un logiciel ou d’un autre mais de tester chaque algorithme dans les conditions d’utilisation (telles qu’ici pour des applications sur des fragments de domaines).

VI.3.2.Le serveur HHsenser.

Récemment, le groupe d’Andrei N.Lupas a publié la description du serveur HHsenser (http://toolkit.tuebingen.mpg.de/hhsenser), qui permet d’enrichir des profils PSI-BLAST en vrais homologues tout en étant très stricts sur le filtrage des faux positifs . HHsenser part d’une séquence unique ou d’un alignement multiple et calcule deux alignements multiples, l’un très stringent et l’autre plus permissif. Pour cela, il effectue un PSI-BLAST sur la séquence d’intérêt avec un seuil de 10-3_{, trouve une première génération d’homologues} potentiels, puis reprend chacun de ces homologues (ou tout au moins un échantillon relativement divergent de ces homologues) et relance PSI-BLAST afin d’obtenir des alignements de deuxième génération. Ces alignements sont comparés avec l’alignement stringent de la séquence de départ en utilisant HHsearch. Des e-values et des P-values sont alors calculées. Si ces valeurs se trouvent sous un certain seuil, l’alignement est ajouté à l’alignement permissif de la séquence de départ. Et si ces valeurs sont sous un deuxième seuil, alors l’alignement est ajouté à l’alignement strict de la séquence de départ.

HHsenser utilise une valeur de 1 pour la e-value seuil ce qui limite le nombre de séquences analysées. Rappelons que dans notre cas l’utilisation couplée de deux méthodes de comparaison profil/profil nous permet d’envisager le traitement des e-value jusqu’à 1000. Cependant, HHsenser tire profit de la transitivité de la relation d’homologie, ce qui lui permet d’explorer avec HHsearch un nombre intéressant de couple de séquences. Toute la question

est donc de savoir si pour toute séquence d’une base de données, il existe une séquence de « pontage » qui permet de passer d’un homologue lointain à l’autre sans jamais avoir à dépasser une e-value PSI-BLAST de 1. Pour la suite, il sera tout à fait intéressant de comparer si notre stratégie permet effectivement une plus grande efficacité.

VI.3.3.La méthode FOLDpro

Le serveur FOLDpro (http://www.igb.uci.edu/servers/psss.html) cherche à déterminer le repliement le plus probable pour une séquence donnée . Son objectif est donc différent du nôtre. Cependant, il utilise une combinaison de méthodes dans son calcul de score, et en cela il se rapproche de notre procédure. FOLDpro exploitent les scores obtenus par un grand nombre de méthodes de comparaison séquence/séquence, séquence/profil, profil/profil (dont COMPASS et HHsearch), et des informations sur la composition des séquences et des structures 3D, afin de calculer un score global correspondant à l’adéquation entre une séquence et un repliement. Ce score global résulte d’une fonction mathématique dont les paramètres ont été optimisés par un processus d’apprentissage de type SVM (Support Vector Machine).

L’approche proposée dans ce travail est intéressante puisqu’elle rejoint nos préoccupations d’améliorer le filtre de sélection des homologues lointains en combinant les scores HHsearch et COMPASS de façon plus optimale que cela n’a été fait au chapitre IV. Là encore une comparaison des résultats obtenus par FOLDpro avec certains cas d’étude que nous avons traités au chapitre V pourra être très intéressante. Néanmoins, il faut noter qu’au dernier CAFASP5, la méthode FOLDpro arrive loin derrière le programme HHpred (correspondant à HHsearch utilisé sur une base de profils extraits de la PDB). Il n’est pas impossible que FOLDpro utilise trop de sources d’informations et que le bruit apporté par certaines méthodes limite les performances du programme.

Dans le document Détection d'homologies lointaines à faibles identités de séquences : Application aux protéines de la signalisation des dommages de l'ADN (Page 158-161)