• Aucun résultat trouvé

Chapitre VI : Discussion générale, Conclusions et Perspectives

VI.2. Rappel des principaux résultats

Lors de ma thèse, j’ai mis au point une stratégie permettaient de retrouver des homologues lointains dans le signal non-significatif de PSI-BLAST. Afin d’évaluer cette stratégie, j’ai tout d’abord vérifié la présence de séquences homologues parmi ce signal (cf chapitre II). J’ai observé que les alignements non significatifs donné par le logiciel PSI- BLAST dans l’intervalle (10-3, 1000) rassemblent un ensemble de séquences enrichie en homologues lointains. J’ai montré que des alignements présentant des e-values fortement non significatives (entre 100 et 1000) sont associés à une réalité structurale dans environ un tiers des cas. Enfin, j’ai constaté que parmi le signal non significatif du logiciel PSI-BLAST, les alignements de grande taille sont généralement de mauvaise qualité : la taille moyenne des alignements corrects à plus de 90% est de seulement trente résidus.

A partir de cette première analyse, j’ai choisi de rechercher des homologues lointains dans le bruit de fond de PSI-BLAST défini dans un intervalle de e-values compris entre 0,001 à 1000. J’ai alors isolé un jeu de données test de 200 séquences issues de la banque SCOP10, pour lesquelles plus de 10 séquences de la même superfamille sont retrouvées dans le signal non significatif de PSI-BLAST après une recherche sur la banque SCOP40. C’est sur ce jeu test que j’ai effectué la mise au point de ma procédure de recherche d’homologues lointains.

J’ai ensuite montré que les prédictions de structure secondaire permettaient de filtrer efficacement le signal non significatif de PSI-BLAST (cf chapitre III). La comparaison d’un point de vue local et global des prédictions de structures secondaires entre la séquence d’intérêt et les séquences potentiellement homologues a montré que ces deux approches étaient en mesure de filtrer le signal non significatif. Toutefois, l’approche globale présente des résultats uniquement pour les protéines prédites à plus de 70% en hélices α ou en

feuillets β. De plus, elle suppose que la séquence étudiée ne comporte qu’un domaine. Pour la suite de cette étude, nous avons donc préféré l’utilisation d’une approche locale des prédictions de structures secondaires. Cette approche a permis un filtrage rapide d’environ 40% des séquences non homologues du signal non significatif de notre jeu test. De plus, la majorité des séquences homologues perdues lors du filtrage sont associés à un alignement non-significatif fortuit ne présentant aucune réalité structurale.

Pour aller plus loin dans le filtrage des séquences du signal non-significatif de PSI- BLAST, j’ai utilisé des méthodes de comparaison profil/profil COMPASS et HHsearch (cf chapitre IV). Un des facteurs limitant dans l’utilisation des comparaisons profil/profil à grande échelle réside dans le temps de calcul nécessaire à la construction des profils associé à chaque protéine du signal non significatif. L’originalité de l’approche développée ici consistant à croiser les résultats de deux méthodes de comparaisons profil/profil permet pour le coût de la construction d’un seul profil de profiter de la précision de deux algorithmes différents de comparaison profil/profil. J’ai montré que ces deux méthodes étaient complémentaires et qu’un croisement de leurs résultats permettait d’augmenter la spécificité des résultats obtenus indépendamment. Les deux méthodes présentent en effet très peu de recouvrements entre leurs faux-positifs et offre une sensibilité tout à fait intéressante pour identifier un nombre conséquent de séquences d’intérêt. Cette intégration de différents outils d’analyse de séquences permet de traiter dans un temps moyen de 2h (cluster de 10 Processeurs Intel Xeon 3GHz) l’ensemble des séquences présentes dans le signal non significatif d’une séquence test. Ainsi, environ 90% des séquences non homologues présentes parmi le signal non significatif de notre jeu test ont été éliminées car leurs scores COMPASS et/ou HHsearch étaient supérieurs au seuil fixé. Là encore, j’ai vérifié que l’approche choisie ne conduisait qu’à l’élimination d’un faible nombre d’homologues lointains ne correspondant pas à un alignement fortuit (environ 20 %).

Nous avons discuté au chapitre V que la validation de la procédure sur une base de données de séquences dont les structures étaient déjà connues n’était pas forcément représentative de tous les cas de figures rencontrés lors d’une recherche d’homologues lointains sur une base de donnée telle que la nr. Dans ce contexte, l’analyse de cas réels extraits d’un ensemble de protéines de la réparation et de la signalisation des dommages de l’ADN nous a permis de tester les potentialités réelles de l’approche. Aujourd’hui, l’analyse

préliminaire des résultats obtenus par notre procédure sur 100 séquences de protéines impliquées dans la signalisation et la réparation des dommages de l’ADN, ainsi que l’analyse détaillée de trois exemples issus du laboratoire, ont permis de valider la stratégie utilisée :

- dans 36% des cas, des informations potentiellement nouvelles sur la composition en domaines des portions étudiées ont été trouvées.

- dans 27% des cas, des domaines cachés (non identifiés dans la PFAM) mais déjà détectés dans des protéines de fonctions similaires ont été retrouvés.

Toutefois, ces analyses ont aussi mis en évidence des défauts dans notre procédure, que nous souhaitons aujourd’hui rapidement corriger et m’ont stimulé pour apporter de nouvelles améliorations en particulier, pour améliorer à court et moyen termes la spécificité de la procédure.