Unabhängige Validierung von Methoden zur Proteinstrukturvorhersage : CASP und CAMEO

(1)

236

_{K A R R I E R E , KÖ P F E & KO N Z E P T E}

CASP und CAMEO

Unabhängige Validierung von Methoden

zur Proteinstrukturvorhersage

JÜRGEN HAAS, TORSTEN SCHWEDE

SIB – SWISS INSTITUTE OF BIOINFORMATICS, BIOZENTRUM UNIVERSITÄT BASEL

10.1007/s12268-014-0432-3 © Springer-Verlag 2014

ó Computergestützte Vorhersagen sind ein

Teil unseres täglichen Lebens geworden – im Alltag wie in der Wissenschaft. Computersi-mulationen machen Vorhersagen über das Wetter und das Weltklima, Börsenkurse und die volkswirtschaftliche Entwicklung, die Crash-Stabilität einer neuen Autokarosserie oder die Bindung eines Wirkstoffs an einen Rezeptor bei der Entwicklung neuer Medika-mente. Eine Frage bleibt dabei jedoch häufig offen: Wie verlässlich sind diese Vorhersa-gen? Aus unserer Alltagserfahrung wissen wir, dass die Wettervorhersage für morgen recht zuverlässig ist, während die Sechs-Wochen-Wettervorhersage ungefähr so nutz-los ist wie die Prognose unseres Bankers für Börsenkurse. Aber wie steht es mit der Genau-igkeit von wissenschaftlichen Vorhersagen? Wenn wir der wissenschaftlichen Literatur Glauben schenken, dann sind die meisten

ver-öffentlichten Methoden besser als alle ande-ren – was bereits aus statischen Gründen eher unwahrscheinlich erscheint und einen deut-lichen Hinweis auf einen reporting bias lie-fert. Wie lässt sich also die Vorhersagege-nauigkeit einer Methode unabhängig und objektiv evaluieren?

Die Vorhersage der dreidimensionalen (3D-) Struktur eines Proteins aus seiner Amino-säuresequenz wurde häufig als der „heilige Gral“ der Strukturbioinformatik bezeichnet, und entsprechend viele unterschiedliche Ansätze wurden dazu entwickelt und publi-ziert. Im Rahmen von CASP (Critical

Assess-ment of Techniques for Protein Structure Pre-diction, http://predictioncenter.org) wurden

im Verlauf der letzten 20 Jahre Mechanismen entwickelt, um diese Methoden zur Protein-strukturvorhersage objektiv und unabhängig zu evaluieren [1]. Diese Konzepte waren weg-weisend für eine Reihe verwandter Initiati-ven, wie z. B. CAMEO zur vollautomatischen Evaluierung von Servern zur

Strukturmodel-lierung (www.cameo3d.org [2]), CAPRI (Pro-teinkomplexe), CAFA (Proteinfunktion) oder BioCreative (Textmining). Im Folgenden wol-len wir die Konzepte zur unabhängigen Vali-dierung von Methoden zur Proteinstrukturvorhersage durch CASP und CAMEO vor -stellen.

Proteine sind für eine Vielzahl an moleku-laren Aufgaben in der lebenden Zelle verant-wortlich, und jedes Protein besitzt seiner Funktion entsprechende spezifische struktu-relle Eigenschaften. Mithilfe von experimen-tellen Methoden lassen sich die 3D-Struktu-ren von Proteinen aufklä3D-Struktu-ren. Im weltweiten Archiv für Proteinstrukturen, der Protein Data

Bank (PDB; www.pdb.org), sind gegenwärtig

etwa 100.000 Strukturen abgelegt. Allerdings sind wir heute weit davon entfernt, für alle Proteine eine experimentelle Struktur zu ken-nen: Die Anzahl der bekannten Proteinse-quenzen ist mit etwa 53 Millionen Sequen-zen (www.uniprot.org) um zwei Größenord-nungen größer als die Zahl der bekannten Proteinstrukturen. Aus diesem Grund sind Methoden zur Vorhersage der Strukturen mit-hilfe von Computerprogrammen von großem Interesse. Dabei lassen sich grob zwei unter-schiedliche Ansätze unterscheiden: De novo-Vorhersagemethoden versuchen die dreidi-mensionale Struktur eines Proteins aufgrund seiner Aminosäuresequenz, Vorhersagen der lokalen Strukturen und allgemeinem Wissen über Strukturprinzipien vorherzusagen. Bis-her ist die Anwendbarkeit von de novo-Metho-den jedoch auf kleinere Proteindomänen beschränkt und die Genauigkeit für prakti-sche Anwendungen häufig nicht ausreichend. Im Gegensatz dazu versucht man bei Metho-den zur vergleichenMetho-den Modellierung eine Homologiebeziehung zwischen dem Zielpro-tein (Target) und anderen ProZielpro-teinen mit bekannten Strukturen (Templates) herzu-stellen und diese Information zum Erherzu-stellen eines 3D-Modells zu verwenden. Homologie-modellierung wird heute in der Forschung

BIOspektrum|02.14|20. Jahrgang

˚ Abb. 1:Analyse der Seitenkettengenauigkeit eines Modells von SWISS-MODEL (grün, GDT = 95) für das CAMEO-Target 4NW4_A (grau). Zur Darstellung wurde das Modell mit der Referenz-struktur über lagert. Sauerstoffatome sind rot, Stickstoffatome blau, Kohlenstoffatome in der experimentellen Struktur grau und im Modell grün dargestellt. In diesem Beispiel repräsentiert das Modell die Koordinaten des Targets sehr gut.

(2)

237

als Routinemethode verwendet, um Struk-turmodelle zu generieren [3]. Meist kommen dabei vollautomatische Server zum Einsatz, die es auch Nicht-Bioinformatikern erlauben, verlässliche Modelle zu erhalten, wie z. B. der SWISS-MODEL server (http:// swissmodel. expasy.org), HHpred (http://toolkit.lmb.uni-muenchen.de/hhpred) oder Phyre (www. sbg. bio.ic.ac.uk/phyre2). Dabei spielt die Genau-igkeit von Modellen eine große Rolle und wird häufig numerisch als Bruchteil von richtig vorhergesagten Aminosäuren gemessen, z. B. durch den GDT (global distance test) oder lDDT (local distance difference test). Modelle mit GDT-Werten nahe bei 100 sind sehr gut (Abb. 1), solche unter 50 haben nur begrenzt Ähnlichkeit mit der tatsächlichen Struktur des Zielproteins (Abb. 2, rotes Modell).

Um die Vorhersagegenauigkeit verschie-denster Techniken vergleichen zu können, wird seit 20 Jahren alle zwei Jahre ein CASP-Wettbewerb organisiert [1]. Die Organisato-ren stellen dabei sicher, dass folgende Prin-zipien zur Anwendung kommen: (1) Die Ana-lyse basiert auf Vorhersagen (nicht

postdic-tions), das heißt zum Zeitpunkt der

Vorher-sage ist die experimentelle Struktur des Pro-teins noch nicht bekannt. (2) Um die Ver-gleichbarkeit der Resultate sicherzustellen, werden die Targets allen beteiligten Gruppen zur selben Zeit zur Verfügung gestellt, und die Resultate müssen zur selben Deadline abgeliefert werden. Somit steht allen Grup-pen auch dieselbe Hintergrundinformation zur Verfügung. (3) Die Modelle werden durch die Organisatoren vor der Auswertung voll-ständig anonymisiert, das heißt die Gutachter kennen die Identität der Methoden nicht und beurteilen die Qualität der Endergebnisse vor-urteilsfrei. (4) Die Evaluierung der Modelle erfolgt durch einen unabhängigen Experten, der objektive Kriterien für die Auswertung festlegt und selbst nicht am CASP teilnehmen darf. Erst nach Abschluss der Analyse geben die Organisatoren die Identität der Gruppen bekannt. Während einer CASP-Runde wer-den Modelle für ca. 100 Proteine ausgewer-tet, und die besten Methoden an einem Mee-ting präsentiert.

Alle erfolgreichen Ansätze zur Struktur-vorhersage stützen sich heute auf vollauto-matische Computerprogramme. Um der stür-mischen Entwicklung dieser Methoden gerecht zu werden, haben wir vor etwa zwei

Jahren das CAMEO-Projekt (Continuous

Auto-mated Model EvaluatiOn, www.cameo3d.org)

etabliert, um eine kontinuierliche differen-zierte Evaluierung auf einer breiten Daten-basis zu ermöglichen. CAMEO basiert auf vor-ab veröffentlichten Aminosäuresequenzen von Strukturen, die in der folgenden Woche von der PDB publiziert werden. Diese Tar-getsequenzen werden automatisch an die teil-nehmenden Server geschickt, die dann bis zum folgenden Mittwoch Zeit haben, um ihre Vorhersagen an CAMEO zur Evaluierung zu schicken. Im Verlauf von 112 Wochen wurden auf CAMEO 47.575 Vorhersagen für 2.006 Tar-gets ausgewertet. Neben Methoden zur Vor-hersage von 3D-Strukturen evaluiert CAMEO auch Techniken zur Vorhersage von Amino-säuren, die an der Bindung von Liganden beteiligt sind (ligand binding site residue

pre-diction), und Programme zur Abschätzung

der Modellgenauigkeit (model quality

estima-tion tools).

Auf der Internetseite von CAMEO (www. cameo3d.org) lassen sich die evaluierten Methoden, basierend auf verschiedenen numerischen Kriterien, über verschiedene Zeiträume vergleichen. Mit CAMEO steht der

computational structural biology community

eine Plattform zur Verfügung, die unabhän-gige zeitnahe Benchmarks auf großen Daten-sätzen ermöglicht. CAMEO unterstützt die Entwickler von Vorhersagemethoden und for-dert sie zugleich, da neue Methoden im direk-ten Vergleich mit konkurrierenden Ansätzen auf verschiedensten Aspekten der Struktur-vorhersage gemessen werden. Dies kommt

direkt den Nutzern von Strukturvorhersage-methoden zugute, die so die für ihre Anwen-dung am besten geeigneten Methoden aus-suchen können. Als Community-Projekt ist CAMEO offen für Anregungen und Vorschlä-ge, um die Entwicklung der nächsten Gene-ration von Strukturvorhersagemethoden

opti-mal zu fördern. ó

Literatur

[1] Moult J, Fidelis K, Kryshtafovych A et al. (2014) Critical assessment of methods of protein structure prediction (CASP) – round X. Proteins 82:1–6

[2] Haas J, Roth S, Arnold K et al. (2013) The Protein Model Portal: a comprehensive resource for protein structure and model information. Database 2013:bat031,

doi: 10.1093/database/bat031

[3] Schwede T (2013) Protein modeling: what happened to the „protein structure gap“? Structure 21:1531–1540

Jürgen Haas (links) und Torsten Schwede Korrespondenzadresse:

Prof. Dr. Torsten Schwede

Swiss Institute of Bioinformatics – SIB Biozentrum Universität Basel Klingelbergstraße 50–70 CH-4056 Basel Tel.: +41-(0)61-267-1586 Fax: +41-(0)61-267-1584 Torsten.Schwede@unibas.ch www.biozentrum.unibas.ch/schwede BIOspektrum|02.14|20. Jahrgang ¯ Abb. 2: Bänder-darstellung zweier Modelle für ein CASP-Target, die CorC/ HlyC-Transporter-assoziierte Domäne (grau, 4GH0, Kette A). Strukturell über -lagert sind ein akku-rates Modell der Methode HHPred-thread (grün, GDT = 92) und ein weitgehend falsch gefaltetes Modell (rot, GDT = 37).