• Aucun résultat trouvé

signalisation des dommages de

V.2.7. Prédiction des domaines

L’organisation en domaines des séquences du signal non significatif sélectionnées a été obtenue à partir de la banque Pfam et peut permettre à l’utilisateur d’évaluer si la présence d’autres domaines dans la séquence cible renforce ou infirme la possibilité d’une relation d’homologie lointaine. Au final, un fichier de sortie notifiant l’ensemble des informations associées aux séquences cible a été créé en suivant le format décrit ci-dessous à partir d’un exemple.

###########################

P06701@2.info Code de la protéine d’intérêt@ index du domaine

Sir3 Nom de la protéine d’intérêt

"Silencing protein that interacts with Sir2p and Sir4p, and histone H3 and H4 tails, to es- tablish a transcriptionally silent chromatin state; required for spreading of silenced chro- matin; recruited to chromatin through interaction with Rap1p" YLR442C

Annotation SGD

###########################

Lecture des informations :

>NomDomaine | CodeProtDetectée | EvaluePsiBlast | EvalueCOMPASS (seuil evalue=10-

3) | EvalueHHsearch (seuil evalue=75) | definition | DelimitationsMatchDansSeqRéf |

NbSeqProfilRéf | NbSeqProfilCible | DelimitationsMatchDansSeqCible

*NomDuDomainePFAM|DélimitationDuDomaine| X,SiLeDomaineRecouvreLaRégionSélectionnée

Exemple :

>P06701@2|P70044|3.01318|1.47e-128|1e-10|Cell division control protein 6. [Xenopus

laevis (African clawed frog)]|(576, 817)|26|467|('192', '396')

V.3.Résultats

D’après l’analyse des 100 protéines d’intérêt, 259 portions de séquence prédites comme structure ont été détectées par le programme. Ces portions ont été filtrées de manière à éliminer les séquences présentant un domaine identifié dans la banque Pfam A, puis de manière à ne conserver que les portions de taille supérieure à 30 résidus. Ce filtrage nous a permis d’identifier 70 portions d’intérêt. Ces portions correspondent à des îlots de régions structurées séparés du reste de la protéine par des régions désordonnées de 30 résidus.

Nous avons alors analysé le signal non significatif de PSI-BLAST sélectionné par notre approche pour les 70 portions de séquences. Quatre catégories de cas sont apparues (Figure 64) :

Aucune piste dans le signal non significatif

Homologues évidents dans le non

significatif  Besoin itération Détection de

séquences dans le signal non significatif

possédant domaine connu

Pistes intéressantes sur des régions sans

informations Nécessite validation 23% 31% 27% 19%

Figure 64 : Répartition des cas de figure obtenus suite à l’analyse des 70 portions de séquences.

- Dans 16 cas (23%, en rouge), les séquences du bruit de fond sont peu nombreuses et ne renvoient, d’après l’annotation des résultats, à aucune analogie structurale ou fonctionnelle avec la séquence d’intérêt. Notre première conclusion est que le signal non significatif est principalement composé de faux positifs.

- Dans 22 cas (31%, en orange), le bruit de fond contient soit des fragments probablement faux positifs comme précédemment, soit des portions de séquences appartenant sans ambiguïté à des homologues ou à des séquences de même architecture que la séquence d’intérêt. Il manque alors à notre approche la possibilité

d’intégrer ces homologues dans le profil de référence afin d’itérer la procédure et de calculer un signal non significatif enrichi.

- Dans 18 cas (27%, en cyan), les portions de séquences sélectionnées dans le signal non significatif correspondent à des domaines SMART, PROSITE, PRODOM, PRINTS (banques de motifs, profils, HMM) qui parfois étaient déjà détectés dans certaines séquences du signal significatif alors que PFAM ne détectait pas le domaine dans la séquence initiale.

- Dans 12 cas (19%, en vert), certaines séquences du signal non significatif pourraient être des homologues lointains potentiels (profils associés riches en diversité, e-values de comparaisons profil/profil largement inférieures aux seuils, contexte fonctionnel cohérent). Ces cas de figure paraissent intéressants à analyser manuellement de façon plus approfondie. Il faudra alors rechercher (i) si il existe déjà un lien dans la littérature entre la portion de séquence d’intérêt et le nouvel homologue potentiel, (ii) si l’on retrouve des motifs fonctionnels communs aux deux séquences, (iii) si l’on peut allonger le court fragment aligné et optimiser cet alignement (cf chapitre 4), (iv) si l’on peut construire un modèle structural de la séquence d’intérêt et le valider, soit en le confrontant à la littérature, soit par l’expérience.

Notre analyse des 70 séquences cibles permet aujourd’hui d’obtenir des informations potentiellement intéressantes et initialement non détectées par la base de donnée PFAM pour 27+19=36% des séquences. Le fait que dans 27% des cas la procédure mise au point permette de retrouver, dans les homologues lointains, des domaines déjà connus et probablement effectivement présent dans notre séquence d’intérêt constitue en quelque sorte une validation de l’approche. Par exemple, dans le cas de Rad1, impliqué dans la réparation par excision de nucléotides (NER), les résultats obtenus soulignent une ressemblance avec un domaine hélicase clairement identifié dans les protéines de la famille Rad54 (hélicase impliquée dans la recombinaison homologue). La proximité entre ces fonctions avait déjà été décrite dans la littérature sur la base d’analyses bioinformatiques ciblées et de résultats expérimentaux de biologie structurale .

Parmi les cibles intéressantes de cette analyses se trouvent aussi des exemples pour lesquels une analyse bioinformatique et/ou structurale avait été conduite au laboratoire et avait permis d’identifier des relations d’homologies lointaines. J’ai personnellement participé

à deux de ces études, l’une durant laquelle Isabelle Callebaut (LMCP, Jussieu) a détecté un domaine TUDOR dans Rad9 de levure et son homologue humain potentiel 53BP1 (Charier G., Thèse de doctorat, 2005) et l’autre durant laquelle j’ai mis en évidence l’existence d’un tandem de domaines BRCT dans Xrs2 de levure et son homologue humain Nbs1 . Le cas de Nej1 de levure a été étudié au laboratoire en collaboration avec Isabelle Callebaut (LMCP, Jussieu ; ) avant mon arrivée. Je présenterai maintenant ces trois exemples de manière détaillée, afin de décrire l’apport de la stratégie développée durant ma thèse, et d’identifier les améliorations à apporter pour augmenter l’efficacité de la procédure (les résultats détaillés et annotés de l’analyse peuvent être consultés en annexe page 171).