• Aucun résultat trouvé

Ce chapitre d’introduction aux protéines a permis de définir les notions de bases comme la structure d’une protéine, le coeur de cette thèse. Etudier la structure d’une protéine permet de récolter de précieuses informations concernant la compréhension du vivant. Les protéines sont composées de briques : les acides aminés, et d’unités modu- laires compactes et stables : le domaines. Ces domaines se retrouvent à travers les espèces dans différentes protéines. Les évènements évolutifs (duplications, translocations, indels, ...) entraînent des modifications chez les protéines telles que de grandes flexibilités ou encore des inversions de séquences ne modifiant pas la structure (dans le cas des per- mutations circulaires). Les domaines structuraux tels que définis ici servent de base aux classifications et protocoles d’assignations de protéines à un groupe (chapitres 2, 3)

L’étude des modifications induites par les changements au niveau des génomes (per- mutations circulaires, charnières, répétitions) seront l’objet des chapitres 4, 5, 6, 8, 7

Nous avons également mis en avant les groupes fonctionnels des protéines (F GS), les cinq types présentés se retrouvent dans les acides aminés ce qui autorise des substitutions

d’acides aminés dans la séquence sans modifier la présence d’un groupe fonctionnel dans la structure. L’étude de ces groupes fonctionnels est le thème du chapitre 9, cela via des protéines issues de la famille des GH5.

Classification de protéines,

comparaison globale de structures

Comparaison globale et

classification structurale des

protéines

2.1

Introduction

Découvrir la fonction des protéines est un vaste sujet d’étude depuis l’identification des premières protéines. Il est possible de la déterminer dans certains cas par expérimen- tation ou d’autres cas, par prédiction en se basant sur la comparaison de la protéine à fonction inconnue avec d’autres protéines de fonction connue. Le regroupement des pro- téines aux fonctions similaires et la caractérisation de ces groupes ont motivé l’émergence des classifications. Ces classifications étaient initialement basées sur les comparaisons de séquences : des séquences proches indiquant une relation d’homologie, certaines bases de données comme PROSITE[54] combinent les protéines de la base de données de séquences UniProt [10][9] et en extrait de nombreuses informations fonctionnelles et en terme de regroupement de séquences. L’une des bases de l’étude des séquences protéiques est la relation d’homologie qui unit deux séquences très proches. Et deux séquences proches sont logiquement amenées à avoir des structures proches et donc des fonctions proches. C’est cette logique qui est derrière les classifications, regrouper ce qui se ressemble pour déduire des informations fonctionnelles. Au niveau structurel, la similarité de structures associée à une faible similarité de séquence était interprétée comme une relation d’ana- logie mais des études plus récentes ont montré que la similarité de structures tendait en certains cas à refléter la présence d’un ancêtre commun lointain.

Si historiquement parlant, les classifications sont basées sur les séquences protéiques connues, cela est de part le nombre beaucoup plus important de séquences que de struc- tures. L’augmentation du nombre de structures protéiques dans la PDB [13] (autour de 90 000 structures sont disponibles en 2014) a permis des études à plus grande échelle et l’établissement de classifications de structures. Plus spécifiquement, les classifications structurales de protéines sont des classifications de domaines structuraux (une protéine pouvant être composée de plusieurs domaines et donc apparaître plusieurs fois dans la

classification) qui consistent à regrouper ces domaines selon des critères purement struc- turaux puis des critères d’homologie afin de faire émerger des similitudes et ainsi d’aider à la compréhension de l’univers des protéines.

La classification des structures permet de d’organiser les domaines structuraux et d’extraire des différents groupes des caractéristiques propres et d’évaluer entre autres la plasticité du groupe. Les principaux objectifs des classifications sont (i) proposer une vue de l’évolution à travers les différentes hiérarchies menant aux familles protéiques et représenter les relations évolutives entre les protéines ; (ii) comprendre le rôle fonctionnel des protéines.

Nous nous sommes focalisés sur le problème de classification des structures protéiques et laissons de côté les aspects séquentiels.

Les bases de données hiérarchisées comme SCOP [82] et CATH [88] ont pour objectif de caractériser l’univers des protéines, de l’organiser, avec des protocoles manuels pour SCOP et semi-automatique pour CATH , [89]. Par conséquent, l’intégration de nouvelles structures est un processus long et coûteux donc la majorité des structures de la PDB restent non classées à l’heure actuelle.

Le but de la première partie de ce mémoire, dédiée à la classification, n’est pas de créer une nouvelle classification mais d’enrichir les classifications existantes de manière fiable en résolvant un problème nommé le problème d’identification des superfamilles (SFIP ou Super Family Identification Problem) . De même le problème peut être considéré un niveau structural plus bas, on parle alors du FIP ou Family Identification Problem Le niveau de superfamille correspondant au niveau des classifications discriminant le repliement des domaines. Il s’agit , pour une classification donnée, de classer un nou- veau domaine (dit requête) au bon endroit dans la classification (soit dans la bonne superfamille).

L’une des approches utilisées est la recherche du plus proche voisin basée sur le principe qu’une protéine appartient à la même famille que la protéine dont elle est la plus proche structurellement parlant. La méthode classique (méthode one-to-all comparisons) requiert de choisir un outil de comparaison de structures, son score associé, et pour un domaine requête donné, de comparer cette requête avec l’ensemble des domaines de la classification existante. Cette méthode contient trois principaux défauts : le nombre de comparaisons à effectuer (augmentant avec la taille des bases de données), la pertinence de l’outil de comparaison et le problème de caractérisation de l’espace des protéines. Nous reviendrons plus en détail sur ces défauts dans ces chapitres. Aux vues de ces problèmes, nous avons travaillé à l’élaboration de méthodes alternatives de classification avec pour objectif de : (i) élaguer la contrainte deone-to-all, (ii) garantir l’exactitude du résultat , (iii) s’affranchir des alignements structuraux pour se focaliser sur un score de comparaison, (iv) évaluer nos méthodes.

Nous commencerons par un aperçu de la variété des outils et scores de comparaison, puis par présenter quelques outils et scores de comparaison de structures qui vont nous servir soit de comparateurs pour nos méthodes soit directement au sein de nos méthodes. Puis nous décrirons la méthode one-to-all comparisons ainsi que les nôtres et leurs in- novations qui ont permis de répondre positivement à nos objectifs et enfin quelques jeux

de données de tests et résultats qui ont montré les points forts de nos méthodes dont une caractérisation de l’espace des protéines par une mesure métrique mais également quelques limites.