• Aucun résultat trouvé

globales pour le filtrage du signal non significatif réalisé avec les prédictions de structures secondaires.

Pour conclure cette analyse un croisement des résultats obtenus dans les sections précédentes a été effectué pour explorer la complémentarité des stratégies de prédiction de structures secondaires locales et globales. Cette étude a été réalisée pour les séquences appartenant aux classes A et B et présentant respectivement un taux d’hélice α et de feuillet β supérieur à 70 %. Les séquences appartenant aux classes C et D et présentant un taux d’hélice α et de feuillet β inférieur à 70 % n’ont pas été retenues pour cette analyse complémentaire à cause du peu de spécificité apportée par la filtration par l’approche globale.

Pour les séquences appartenant à la classe A

Croisement des résultats obtenus à la suite des filtrations réalisées pour les séquences appartenant à la classe A

Proportion initiale des

séquences homologues et non homologues Filtration à l’aide

de l’approche locale

Filtration à l’aide de l’approche globale

Proportion finale des séquences homologues et non homologues 6 5 3 285 93 51

Proportion de séquences filtrées lors du croisement

8

488

Figure 44 Diagramme représentant les proportions de séquences homologues et non homologues filtrées pour les séquences appartenant à la classe A. Au sein des diagrammes : en vert est figurée la proportion de séquences homologues présentes dans le signal non significatif, en rouge la proportion de séquences non homologues, en hachuré la proportion de séquences non homologues filtrées, en jaune le pourcentage de séquences homologues filtrées. Les chiffres verts représentent le nombre moyen de séquences homologue, les chiffres rouges le nombre moyen de séquences homologues. Pour cette étude 29 séquences appartenant à la classe A sont analysées.

Pour les séquences appartenant à la classe B

Croisement des résultats obtenu à la suite des filtrations réalisées pour les séquences appartenant à la classe B

Proportion initiale des

séquences homologues et non homologues

Filtration à l’aide de l’approche locale Filtration à l’aide de l’approche globale

Proportion finale des

séquences homologues et non homologues

134 374 9 7 5 83

Proportion de séquences filtrées lors du croisement

12

642

Figure 45 : Diagramme représentant la proportion de séquences homologues et non homologues filtrées pour les séquences appartenant à la classe B. En vert est figurée la proportion de séquences homologues présentes dans le signal non significatif, en rouge la proportion de séquences non homologues, en hachuré la proportion de séquences non homologues filtrées. En jaune le pourcentage de séquences homologues filtrées. Les chiffres verts représentent le nombre moyen de séquences homologues, les chiffres rouges le nombre moyen de séquences non homologues. Pour cette étude 28 séquences appartenant à la classe B sont analysées.

Le croisement des données des approches locales et globales pour les séquences appartenant à la classe A (Figure 44) et à la classe B (Figure 45) permet d’éliminer 80% des séquences non homologues présentes lors de la filtration du signal non significatif à l’aide d’une approche locale. De plus cette approche permet également d’optimiser le filtrage à l’aide de l’approche globale en éliminant environ 45% des séquences non homologues présentes. Cependant ce double criblage entraîne au final une perte moyenne de 55% des homologues présents au sein du signal. Pour les séquences de la classe A, ce double filtrage entraîne ainsi en moyenne la perte de 5 séquences homologues (~60% de perte). Pour les séquences de la classe B : 7 séquences homologues (~60% de perte)

Le croisement de ces données entraîne une perte non négligeable des homologues présents dans le signal non significatif. Cette perte est trop importante au regard de la faible

élimination des séquences non homologues. L’intérêt d’un tel croisement apparaît donc discutable dans le cadre d’une recherche d’homologues lointains.

III.4. Conclusions

Au cours de ce chapitre nous avons vu que les prédictions de structures secondaires utilisées avec une stratégie locale ou globale se révèlent tout à fait intéressantes pour filtrer le signal non significatif. L’approche globale présente des résultats intéressants pour les domaines présentant une organisation en structures secondaires prédites à plus de 70% en hélices α ou en feuillets β. En dehors de ces conditions, cette stratégie n’apporte pas de performances intéressantes. De plus, les tests réalisés pour l’étude de l’approche globale sont effectués sur une banque de séquences de domaines; l’utilisation de cette approche sur une banque de séquences comportant plusieurs domaines pose des difficultés pour définir la zone sur laquelle doit être effectuée la prédiction de structure secondaire en vue d’une analyse « globale ». Pour la suite de cette étude nous avons donc préféré l’utilisation d’une approche locale des prédictions de structures secondaires. Cette approche, parfois moins efficace que l’approche globale en termes de filtrage, permet toutefois d’être utilisée sur n’importe quel type de séquences. Elle permet un filtrage correct d’environ 40 % des séquences non homologues du signal non significatif. Par ailleurs, nous avons observé que la majorité des séquences homologues perdues lors de la filtration était associée à un alignement structural fortuit. Enfin, cette étape est rapide à calculer : une prédiction de structure secondaire sur séquence unique réalisée sur le signal non significatif d’une sortie PSI-BLAST composée de 600 séquences ne prend que quelques minutes.

L’une des perspectives de ces travaux est d’utiliser des méthodes de prédictions de structure secondaire plus fiables. En effet, les prédictions de structure secondaire effectuées sur séquence unique par le logiciel PSI-PRED présentent une fiabilité limitée (68 %), et des méthodes plus récentes (cf chapitre VI) devraient permettre de mieux discriminer les vrais homologues structuraux des faux positifs de PSI-BLAST.

De manière générale, le filtrage par les deux méthodes de prédiction de structure secondaire proposées n’est pas assez efficace pour réaliser aisément une analyse manuelle approfondie de l’ensemble des séquences selectionnées en vue de détecter des homologues lointains. Afin de gagner en capacité de filtrage, nous avons exploré les potentialités des méthodes de comparaison profil/profil.

Chapitre IV :Filtrage du signal non

significatif à l’aide des méthodes de