• Aucun résultat trouvé

Exemple d’analyse : Deux domaines de liaison au NADP d1hxha et d1dih1 appartenant à la même superfamille.

comparaison profil/profil

IV.3.5. Exemple d’analyse : Deux domaines de liaison au NADP d1hxha et d1dih1 appartenant à la même superfamille.

Pour conclure ce chapitre, nous avons choisi d’illustrer les résultats obtenus au cours du chapitre IV en prolongeant l’exemple développé au cours du chapitre II correspondant aux deux domaines de liaison au NADP : d1hxha et d1dih1

Psi-Blast output

> d1dih_1 c.2.1.3 Dihydrodipicolinate reductase [ E. coli ] Evalue = 365Identities = (18%)

Query: 8 VALVTGGASGVGLEVVK-LLLGEGAKV 33 + G +G ++++ L EG ++ Sbjct: 6 RVAIAGAGGRMGRQLIQAALALEGVQL 32

Figure 60 Récapitulatif des propriétés de l’alignement PSI-BLAST dans le signal non significatif de la requête effectuée avec le domaine d1hxha.

Nous avons vu au chapitre II (page 76) que le logiciel PSI-BLAST proposait, au sein du signal non significatif, un alignement entre les séquences de ces deux domaines sur une longueur de 26 résidus avec 18% d’identité (Figure 60). Cet alignement est localisé au niveau de trois structures secondaires structuralement superposable et correspond à un Qmod de 70%. L’étape de prédiction de structure secondaire sur les deux séquences montre que leur alignement correspond à un Qsecpred de 57 % largement supérieur au seuil de 20 % (Figure

61). Le Qsecpred obtenu nous permet de sélectionner cet alignement pour une analyse à l’aide des méthodes de comparaison profil-profil. Un profil est construit pour chacune des séquences de l’alignement. Les profils sont ensuite comparés à l’aide du logiciel COMPASS et HHsearch. Le croisement des donnés nous permet de conserver cet alignement après filtrage (Figure 62).

Qsecpred >d1hxha_|c.2.1.2| d1dih_1|c.2.1.3| Qsecpred=O.57

d1hxha_ VALVTGGASGVGLEVVKLLLGEGAKVA

EEEEECCCCCHHHHHHHHHHCCCCEEE

EEEECCCCHHHHHHHHHHHHHCCHHCC

d1dih_1 RVAIAGAGGRMGRQLIQAALALEGVQL

Figure 61 Récapitulatif des propriétés de l’alignement des prédictions de structures secondaires. Les rectangles représentent les brins, les hélices sont représentées par des cylindres. Evalue = 5.28e-04 Query 9 ALVTGGAS..GVGLEVVKLLL~G~E~=GAK~~VA +++ +++ +++ ++ + + + ++ ++ Sbjct: 14 VAIAGAGG~~RMGRQLIQAAL.A.L.EGVQ...LG Compass HHsearch Evalue = 75

Figure 62: Récapitulatif des scores obtenu lors du croisement des méthodes de comparaison profil à profil COMPASS ET HHsearch.

D’après les valeurs seuils déterminées au cours de ce chapitre nous pouvons voir que, selon nos critères, les deux scores sont significatifs et nous permettent de suggérer la relation d’homologie existant entre les séquences d1hxha et d1dih. Toutefois il est intéressant de noter que si le score du logiciel COMPASS correspond aux valeurs considérées comme significatives, la e-value calculée par le logiciel HHsearch, ne permettait pas de présumer de la relation d’homologie lointaine et ce malgré un alignement associé à une réalité structurale.

Afin de mieux comprendre pourquoi cette région est suffisante pour établir une relation d’homologie lointaine, nous avons étudié les spécificités fonctionnelles et structurales de chaque domaine d1hxha et d1dih1. Ces deux domaines sont impliquées dans des réactions

de composés stéroïdiques pour 1hxh, et le dyhydrodipicolinate (DHPR) pour le domaine didh. Toutefois ces réactions enzymatiques ont en commun l’utilisation d’un cofacteur : le NAD.

L’analyse de la portion de séquence détectée du domaine 1dih montre que ce domaine porte l’empreinte d’un motif consensus « (V/I)(A/G)(V/I)XGXXGXXG » conservé chez un grand nombre de NADP déshydrogénase et utilisé pour identifier le repliement responsable de la liaison au NAD. Ce motif est localisé sur la boucle entre le premier brin et la première hélice du domaine d1dih (Figure 63). La portion de séquence détectée au niveau du domaine d1hxh ne contient que partiellement le motif consensus. Toutefois la nature des acides aminés reste très proche de celle observée pour le domaine d1dih et des études montrent que cette boucle était elle aussi impliquée dans la liaison au NAD . Si initialement ces séquences sont très divergentes, la présence de cette zone conservée est ici le résultat d’une contrainte fonctionnelle commune aux deux protéines.

Ce cas pratique illustre ainsi l’intérêt qu’il peut exister dans l’étude de certains alignements de petites tailles détectées de manière non-significative. En effet la détection de ces régions présentant une conservation locale plus importante peut être un indicateur de l’existence d’un repliement commun entre deux séquences très divergentes.

Figure 63 : Représentation du domaine d1dih, lors de sa liaison au NADP. Le domaine d1dih est représenté dans un type « cartoon ».La portion de séquence alignée entre la protéine d1hxh et d1idh est représentée en rouge. Le NADP est figuré selon une représentation type « sphères de Van der Wals » La figure est réalisée à l’aide du logiciel Pymol(version 0.99).

IV.4.Conclusion

Ce chapitre nous montre que les méthodes de comparaison profil-profil fournissent une approche intéressante pour le traitement du signal non significatif. Elles permettent une amélioration de la qualité locale de l’alignement mais n’améliore pas le taux de recouvrement des alignements initiaux proposé par le logiciel PSI-Blast. Le logiciel COMPASS propose des alignements de plus grandes tailles mais parfois de moindre qualité que les alignements plus courts proposés par le logiciel HHsearch (avec et sans prédictions de structures secondaires). Au niveau de la détection, ces approches permettent une élimination d’environ 90% des séquences non homologues présentes parmi le signal non significatif. Environ 40% des homologues ne sont pas détectés, mais il s’avère qu’environ 80% des homologues non détectées présentent un alignement fortuit parmi le signal non significatif. Sur un plan comparatif, le logiciel COMPASS se révéle plus efficace que le logiciel HHsearch lors de la recherche d’homologues lointains malgré une littérature en faveur du logiciel HHsearch. Cependant, lors de l’utilisation du logiciel HHsearch, l’utilisation des structures secondaires permet une amélioration de la détection des homologues. De plus nous avons montré que ces deux approches sont complémentaires et qu’un croisement des résultats obtenus par ces deux approches permet d’augmenter la spécificité des résultats obtenus indépendamment.

Une des limites liée à l’utilisation des méthodes de comparaison profil-profil est que la construction des profils nécessite des ressources informatiques importantes, notamment dans le cas d’une étude à grande échelle. Dans ce cadre, nous avons observé que l’utilisation des comparaisons de prédictions de structure secondaire d’un point vue local par le calcul du Qsecpred permettait de diminuer d’environ 45% le nombre de profils nécessaires à l’étude du signal significatif accélérant ainsi le temps nécessaire à la recherche d’homologues lointains.

A partir de ces résultats, nous avons envisagé de mener une étude systématique de 100 protéines issues de la signalisation des dommages de l’ADN. Au cours du chapitre 5, une partie des résultats obtenus sera présentée ainsi qu’une partie des travaux ayant conduit à la publication de deux articles.

Chapitre V :Applications

Analyse des protéines