66,99 €
The second edition of this successful textbook, completely revised and largely expanded. In particular the section on the analysis of genome data is covered in much greater depth and chapters added on machine learning, Bayesian networks, protein and enzyme designs as well as the evaluation of microarrays. Furthermore an attractive website with supplementary material and problems is available: WWW.WILEY-VCH.DE/HOME/BIOINFORMATIK
Sie lesen das E-Book in den Legimi-Apps auf:
Seitenzahl: 785
Veröffentlichungsjahr: 2013
Inhaltsverzeichnis
Vorwort
Website
Grundlagen – Biologie und Datenbanken
1 Biologische Grundlagen
1.1 DNA
1.2 Genetischer Code und Genomkomposition
1.3 Transkription
1.4 RNA
1.5 Proteine
1.6 Peptidbindung
1.7 Konformation von Aminosäureseitenketten
1.8 Ramachandran-Plot
1.9 Hierarchische Beschreibung von Proteinstrukturen
1.10 Sekundärstrukturelemente
1.11 α-Helix
1.12 β-Faltblätter
1.13 Supersekundärstrukturelemente
1.14 Protein-Domänen
1.15 Proteinfamilien
1.16 Fachbegriffe
1.17 Zitierte Literatur
2 Sequenzen und ihre Funktion
2.1 Definitionen und Operatoren
2.2 DNA-Sequenzen
2.3 Proteinsequenzen
2.4 Vergleich der Sequenzkomposition
2.5 Ontologien
2.6 Semantische Ähnlichkeit von GO-Termen
2.7 Zitierte Literatur
3 Datenbanken
3.1 DNA-Sequenz-Datenbanken
3.2 RNA-Sequenz-Datenbanken
3.3 Proteinsequenz-Datenbanken
3.4 Proteinstruktur-Datenbanken
3.5 SMART: Analyse der Domänenarchitektur
3.6 STRING: Proteine und ihre Interaktionen
3.7 SCOP: Strukturelle Klassifikation von Proteinen
3.8 Pfam: Kompilation von Proteinfamilien
3.9 COG und eggNOG: Gruppen orthologer Gene
3.10 Weitere Datenbanken
3.11 Zitierte Literatur
Lernen, Optimieren und Entscheiden
4 Grundbegriffe der Stochastik
4.1 Grundbegriffe der beschreibenden Statistik
4.2 Urnenexperimente und diskrete Verteilungen
4.3 Die Kolmogoroffschen Axiome
4.4 Bedingte Wahrscheinlichkeit und Unabhängigkeit
4.5 Zufallselemente
4.6 Unabhängigkeit von Zufallselementen
4.7 Markov-Ketten
4.8 Erwartungswerte
4.9 Varianzen
4.10 Wichtige Wahrscheinlichkeitsverteilungen
4.11 Schätzer
4.12 Grundlagen statistischer Tests
4.13 Eine optimale Entscheidungstheorie: Die Neyman-Pearson-Methode
4.14 Zitierte Literatur
5 Bayessche Entscheidungstheorie und Klassifikatoren
5.1 Bayessche Entscheidungstheorie
5.2 Marginalisieren
5.3 Boosting
5.4 ROC-Kurven
5.5 Testmethoden für kleine Trainingsmengen
5.6 Zitierte Literatur
6 Klassische Cluster- und Klassifikationsverfahren
6.1 Metriken und Clusteranalyse
6.2 Das mittlere Fehlerquadrat als Gütemaß bei Clusteralgorithmen
6.3 Ein einfaches iteratives Clusterverfahren
6.4 k-Means-Clusterverfahren
6.5 Hierarchische Clusterverfahren
6.6 Nächster-Nachbar-Klassifikation
6.7 k nächste Nachbarn
6.8 Zitierte Literatur
7 Neuronale Netze
7.1 Architektur von neuronalen Netzen
7.2 Das Perzeptron
7.3 Lösbarkeit von Klassifikationsaufgaben
7.4 Universelle Approximation
7.5 Lernen in neuronalen Netzen
7.6 Codierung der Eingabe
7.7 Selbstorganisierende Karten
7.8 Zitierte Literatur
8 Genetische Algorithmen
8.1 Objekte und Funktionen
8.2 Algorithmus
8.3 Der Begriff des Schemas
8.4 Dynamik der Anzahl von Schemata
8.5 Codierung der Problemstellung
8.6 Genetisches Programmieren
8.7 Zitierte Literatur
Algorithmen und Modelle der Bioinformatik
9 Paarweiser Sequenzvergleich
9.1 Dotplots
9.2 Entwicklung eines optimalen Alignmentverfahrens
9.3 Levenshtein-Distanz
9.4 Bestimmen der Ähnlichkeit von Sequenzen
9.5 Optimales Bewerten von Lücken
9.6 Namensgebung
9.7 Zitierte Literatur
10 Sequenz-Motive
10.1 Signaturen
10.2 Die PROSITE-Datenbank
10.3 Die BLOCKS-Datenbank
10.4 Sequenz-Profile
10.5 Bestimmen von Scores für Promotor-Sequenzen
10.6 Sequenz-Logos
10.7 Konsensus-Sequenzen
10.8 Sequenzen niedriger Komplexität
10.9 Der SEG-Algorithmus
10.10 Zitierte Literatur
11 Scoring-Schemata
11.1 Zur Theorie von Scoring-Matrizen
11.2 Algorithmen bedingte Anforderung an Scoring-Matrizen
11.3 Identitätsmatrizen
11.4 PAM-Einheit
11.5 PAM-Matrizen
11.6 Erweiterte Datenbasis: Die JTT-Matrix
11.7 BLOSUM-Matrizen
11.8 Matrix-Entropie
11.9 Scoring-Schemata und Anwendungen
11.10 Scoring-Funktionen
11.11 Zitierte Literatur
12 FASTA, BLAST, PSI-BLAST
12.1 FASTA
12.2 FASTA-Statistik
12.3 BLAST
12.4 Statistik von Alignments
12.5 Vergleich der Empfindlichkeit von FASTA und BLAST
12.6 Verfeinerung der Algorithmen
12.7 Profil basierter Sequenzvergleich
12.8 Verwenden von Intermediärsequenzen
12.9 PSI-BLAST
12.10 Die Empfindlichkeit von Sequenzvergleichsmethoden
12.11 Vergleich von Profilen und Konsensus-Sequenzen
12.12 Zitierte Literatur
13 Multiple Sequenzalignments
13.1 Berechnen von Scores für multiple Sequenzalignments
13.2 Iteratives, progressives Bestimmen eines multiplen Alignments
13.3 ClustalW: Konzepte
13.4 ClustalW: Algorithmus
13.5 ClustalW: Multiples Sequenzalignment für Trypsin-Inhibitoren
13.6 T-Coffee
13.7 M-Coffee und 3D-Coffee
13.8 Alternative Ansätze
13.9 Verwenden von MSAs zur Charakterisierung von Residuen
13.10 Alignment von DNA- und RNA-Sequenzen
13.11 Zitierte Literatur
14 Grundlagen phylogenetischer Analysen
14.1 Phylogenetische Ansätze
14.2 Distanz basierte Verfahren
14.3 Linkage-Algorithmen
14.4 Der Neighbour-Joining-Algorithmus
14.5 Parsimony-Methoden
14.6 Konstruktion eines Parsimony-Baumes
14.7 Maximum-Likelihood-Ansätze
14.8 Grundannahmen phylogenetischer Algorithmen
14.9 Phylogenetische Analyse und statistische Bewertung
14.10 Weitere phylogenetische Ansätze und Resultate
14.11 Zitierte Literatur
15 Hidden-Markov-Modelle
15.1 Eine Problem orientierte Einführung
15.2 Markov-Modelle
15.3 Ergodische Markovsche Ketten
15.4 Niveau und Macht einfacher Tests
15.5 Exkurs: Grenzwertsätze
15.6 Diskrimination von CpG-Inseln
15.7 Ansätze zur Lokalisierung von CpG-Inseln
15.8 Der Begriff des Hidden-Markov-Modells
15.9 Wichtige Algorithmen für HMMs
15.10 Das zeitweise unehrliche Casino
15.11 Das Rekonstruktionsproblem für HMMs
15.12 Zitierte Literatur
16 Profil-HMMs zur Modellierung von Proteinfamilien
16.1 Profil-HMMs
16.2 Viterbi-Pfade in Profil-HMMs
16.3 Eine Lösung des Anfrageproblems
16.4 Vorwärts- und Rückwärtsvariablen
16.5 Vom MSA zum Profil-HMM
16.6 Zitierte Literatur
17 Bedingte Markovsche Zufallsfelder
17.1 Markierungsprobleme und ME-Prinzip
17.2 Der Satz von Hammersley und Clifford
17.3 IIS-Algorithmus
17.4 Linien-CRFs
17.5 Zitierte Literatur
18 Vorhersage der Sekundärstruktur
18.1 Vorhersage der Proteinsekundärstruktur
18.2 Vorhersage der RNA-Sekundärstruktur
18.3 Zitierte Literatur
19 Vergleich von Protein-3D-Strukturen
19.1 Vergleich zweier Protein-3D-Strukturen
19.2 Superposition von Protein-3D-Strukturen
19.3 SAP: Vergleich von 3D-Strukturen mithilfe von Vektorbündeln
19.4 Simulated Annealing
19.5 Superposition mithilfe von DALI
19.6 TM-Align
19.7 Zitierte Literatur
20 Homologiemodellierung und Vorhersage der Protein-3D-Struktur
20.1 Verwenden von Threading-Verfahren
20.2 Eine Profil-Methode: 3D-1D-Profile
20.3 Wissensbasierte Kraftfelder
20.4 GenThreader
20.5 3D-PSSM
20.6 HHsearch
20.7 ROSETTA/ROBETTA
20.8 Weitere Ansätze
20.9 Zitierte Literatur
21 Analyse integraler Membranproteine
21.1 Struktur integraler Membranproteine
21.2 Spezifische Probleme beim Sequenzvergleich
21.3 Vorhersage der Topologie von Helix-Bündeln
21.4 Vorhersage der Topologie und Struktur von β-Fässern
21.5 Gegenwärtiger Stand bioinformatischer Methoden
21.6 Zitierte Literatur
22 Entschlüsselung von Genomen
22.1 Shotgun-Sequenzierung
22.2 Die Anzahl von Contigs beim Shotgun-Ansatz
22.3 Basecalling
22.4 Assemblieren von Teilsequenzen
22.5 Annotation kompletter Genome
22.6 Metagenomik
22.7 Zitierte Literatur
23 Auswertung von Genexpressionsdaten
23.1 DNA-Chip-Technologie
23.2 Bioinformatische Analyse von DNA-Chip-Signalen
23.3 Identifizieren differentiell exprimierter Gene
23.4 Metriken zum Vergleich von Expressionsdaten
23.5 Algorithmen für die Analyse kompletter DNA-Chip-Datensätze
23.6 Hauptkomponentenanalyse
23.7 Biclusterverfahren
23.8 Grenzen und Alternativen
23.9 Genexpressions-Profiling
23.10 Wärmekarten
23.11 Informationsgewinnung für systembiologische Fragestellungen
23.12 Zitierte Literatur
24 Analyse von Protein-Protein-Interaktionen
24.1 Biologische Bedeutung des Interaktoms
24.2 Methoden zum Bestimmen des Interaktoms
24.3 Anforderungen an Datenbanksysteme
24.4 Analyse des Genominhaltes
24.5 Bewertung von Codon-Häufigkeiten
24.6 Suche nach korrelierten Mutationen
24.7 Vergleich phylogenetischer Bäume
24.8 Vorhersage des Interaktoms der Hefe mithilfe eines Bayesschen Klassifikators
24.9 Zitierte Literatur
25 Zum Schluss
25.1 Zitierte Literatur
Stichwortverzeichnis
Beachten Sie bitte auch weitere interessante Titel zu diesem Thema
Helms, V.
Principles of Computational Cell Biology
From Protein Complexes to Cellular Networks
2008
ISBN: 978-3-527-31555-0
Ziegler, A., Koenig, I. R., Pahlke, F.
A Statistical Approach to Genetic Epidemiology
Second, Completely Revised and Enlarged Edition
2009
ISBN: 978-3-527-32389-0
Dehmer, M., Emmert-Streib, F. (Hrsg.)
Analysis of Complex Networks
From Biology to Linguistics
2009
ISBN: 978-3-527-32345-6
Emmert-Streib, F., Dehmer, M. (Hrsg.)
Analysis of Microarray Data
A Network-Based Approach
2008
ISBN: 978-3-527-31822-3
Alberts, B., Johnson, A., Lewis, J., Raff, M., Roberts, K., Walter, P.
Molekularbiologie der Zelle
2008
ISBN: 978-3-527-30492-9
Autoren
PD Dr. Rainer Merkl
Institut für Biophysikund Physikalische BiochemieUniversität RegensburgUniversitätsstraße 3193053 Regensburg
Prof. Dr. Stephan Waack
Institut für InformatikGeorg-August-UniversitätGoldschmidtstraße 737077 Göttingen
2. erw. u. neubearb. Auflage 2009
Alle Bücher von Wiley-VCH werden sorgfältig erarbeitet. Dennoch übernehmen Autoren, Herausgeber und Verlag in keinem Fall, einschließlich des vorliegenden Werkes, für die Richtigkeit von Angaben, Hinweisen und Ratschlägen sowie für eventuelle Druckfehler irgendeine Haftung.
Bibliografische Information der Deutschen NationalbibliothekDie Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar.
© 2009 WILEY-VCH Verlag GmbH & Co. KGaA, Weinheim
Alle Rechte, insbesondere die der Übersetzung in andere Sprachen, vorbehalten. Kein Teil dieses Buches darf ohne schriftliche Genehmigung des Verlages in irgendeiner Form – durch Photokopie, Mikroverfilmung oder irgendein anderes Verfahren – reproduziert oder in eine von Maschinen, insbesondere von Datenverarbeitungsmaschinen, verwendbare Sprache übertragen oder übersetzt werden. Die Wiedergabe von Warenbezeichnungen, Handelsnamen oder sonstigen Kennzeichen in diesem Buch berechtigt nicht zu der Annahme, dass diese von jedermann frei benutzt werden dürfen. Vielmehr kann es sich auch dann um eingetragene Warenzeichen oder sonstige gesetzlich geschützte Kennzeichen handeln, wenn sie nicht eigens als solche markiert sind.
Satz Hagedorn Kommunikation GmbH, ViernheimDruck Strauss GmbH, MörlenbachBindung Litges & Dopf GmbH, HeppenheimUmschlaggestaltung Adam Design, Weinheim
ISBN: 978-3-527-32594-8
Eine attraktive Webseite mit Zusatzmaterial sowie Fragen und Übungen zum Stoff finden Sie aufwww.wiley-vch.de/home/bioinformatik
Vorwort
Im vergangenen Jahrhundert hat sich in der biologischen Forschung der reduktionistische Ansatz als besonders erfolgreich erwiesen. Damit ist der Versuch gemeint, komplexe Lebensphänomene als vernetztes Zusammenwirken einfacher, in der Sprache der Physik oder Chemie beschriebener Vorgänge zu verstehen. Allerdings ist mittlerweile klar geworden, dass Lebensvorgänge mit solchen top down Ansätzen, d. h. der Zerlegung komplexer Vorgänge in einfachere, nicht vollständig zu verstehen sind. Daher gewinnen bottom up Ansätze zunehmend an Bedeutung. Diese versuchen, das Zusammenspiel der einzelnen Elemente in ihrer Gesamtheit zu modellieren. Die vielen „-omik“-Ansätze und die Konzepte der Systembiologie zielen genau in diese Richtung. So sind die Ergebnisse der Genomik und der Transkriptomik mittlerweile zu einer festen Größe und zu einer wichtigen Quelle für weiterführende Analyen und überraschende Einsichten geworden. Drei Beispiele sollen dies verdeutlichen:
Die Sequenzierung des menschlichen Genoms hat gezeigt, dass der Mensch nicht, wie bisher angenommen, bis zu 100 000 Gene, sondern nur 20 000–30 000 besitzt. Diese Anzahl liegt nicht wesentlich höher als die des Fadenwurms Caenorhabditis elegans, dessen Genom ca. 20 000 Gene umfasst. Dieses Ergebnis war für viele Wissenschaftler ein Schock, da bis dato genetische Komplexität direkt mit der Anzahl von Genen korreliert worden war. Der Befund hat einen Paradigmenwechsel ausgelöst; seither wird die Komplexität eines biologischen Systems an der Komplexität seiner Interaktionsnetzwerke gemessen.
Das ENCODE-Projekt zielt darauf ab, alle funktionellen Elemente des menschlichen Genoms zu identifizieren. In der Pilotphase wurde überraschenderweise festgestellt, dass praktisch das komplette menschliche Genom abgelesen und in RNA übersetzt wird. Es wird angenommen, dass viele dieser Moleküle in bisher unbekannter Weise in Regulationsvorgänge eingreifen.
Die Sequenzierung des Schnabeltier-Genoms hat unter anderem ergeben, dass diese Art, obwohl sie Eier legt, die Gene für Milchproteine besitzt. Ihre Gift-Proteine und die Schlangengifte stammen von denselben Genfamilien ab, haben sich allerdings unabhängig entwickelt. Aus dem Vergleich molekularer Daten wurde abgeleitet, dass sich der Vorfahre des Schnabeltiers vor ca. 166 Millionen Jahren von der Linie abspaltete, die später zu den Säugetieren führte.
Wie werden derartige Befunde erhoben? Die für die Datenanalyse notwendigen Werkzeuge liefert die Bioinformatik, ein spezieller Zweig der Computerwissenschaft, der sich seit Mitte des zwanzigsten Jahrhunderts zunächst kontinuierlich und in den letzten Jahren rasant entwickelte. Zu den ersten, eher bescheidenen Aufgaben, die Biologen an Mathematiker und Informatiker herantrugen, gehÇrten die statistische Auswertung der wenigen, damals vorhandenen Sequenzen und deren Speicherung. Heutzutage werden sowohl für das Vorhalten der exponentiell wachsenden Datenmengen als auch für den Betrieb hochkomplexer Programmsuiten leistungsfähige Server-Farmen benötigt. Der Aufwand, der auf technischer und theoretischer Seite getrieben werden muss, um den berechtigten Ansprüchen und Forderungen der Anwender zu genügen, ist enorm, bleibt aber meist hinter einfach zu bedienenden Grafikoberflächen verborgen. Ebenso unbekannt ist den Nutzern häufig auch der Algorithmus, d. h. die Rechenvorschrift, die mit einem Mausklick angestoßen wird, sowie die Bedeutung der Programmparameter und deren Einfluss auf die Ergebnisse. Dies ist umso erstaunlicher, wenn man den Aufwand bedenkt, der üblicherweise für die Planung molekularbiologischer Experimente getrieben wird. Es wäre zu erwarten, dass bei der Ausführung bioinformatischer Analysen ähnlich gründlich vorgegangen würde.
Für einen sicheren und souveränen Umgang mit bioinformatischen Tools sind derartige Kenntnisse jedoch unbedingt erforderlich. Nur wer die Eigenschaften und vor allem die Limitationen der Werkzeuge kennt, kann sie optimal einsetzen, ihre Ausgabe korrekt bewerten und die Algorithmen verbessern. Daher ist eine Beschäftigung mit den grundlegenden Methoden und speziellen Konzepten, die sich in der Bioinformatik entwickelt haben, für den Anwender sinnvoll und für diejenigen, die selbst bioinformatische Werkzeuge entwickeln wollen, unbedingte Voraussetzung.
Der vorliegende Text will eine Übersicht zu den wichtigsten Methoden und Lösungsansätzen vermitteln. Einen großen Anteil nehmen Verfahren ein, die sich der Analyse von Sequenzen widmen, da sie die größten Datenbestände ausmachen. Es wurde großer Wert auf eine praxisnahe Darstellung gelegt, in die viele Beispiele und Illustrationen eingestreut sind. Zusätzlich wird auf einer Webseite Material für Übungen angeboten. Auch bei der Zusammenstellung der Übungen war es unser Ziel, den kritischen Umgang mit bioinformatischen Tools zu trainieren.
Diese zweite Auflage wäre ohne die Mithilfe und die Anregungen vieler unserer Kollegen und Studenten nicht zu realisieren gewesen. Unser besonderer Dank gilt dem Verlag Wiley-VCH und insbesondere den Herren Dr. G. Cicchetti und Dr. A. Sendtko, die uns in allen Belangen stets tatkräftig unterstützten.
Regensburg und Göttingen, Oktober 2009
Rainer Merkl und Stephan Waack
Website
Auf einer speziellen Website werden Übungen angeboten, die interaktiv unter Verwendung eines Browsers und mithilfe frei verfügbarer Software, sowie unter Benutzung öffentlich zugänglicher Server bearbeitet werden können. Verweise auf die wichtigsten Lerneinheiten sind bei den folgenden Kapiteln angegeben. Die Übungen haben einerseits das Ziel, das Erfassen der Algorithmen und Modelle weiter zu festigen und erlauben es andrerseits, Werkzeuge in konkreten Anwendungen praktisch zu erproben. Wir bemühen uns, das Angebot der Dynamik des Internets anzupassen. Das Übungsmaterial finden Sie auf
http://www.wiley-vch.de/home/bioinformatik
Die Beschäftigung mit Algorithmen kann faszinieren. Dies gilt insbesondere dann, wenn komplexe und spannende Probleme zu lÇsen sind. Zu dieser Kategorie von Aufgaben zählen sicherlich auch diejenigen, die an die Bioinformatik herangetragen werden. Häufig müssen aus einer schier nicht zu bewältigenden Datenfülle verrauschte Signale herausgefiltert werden. Nur durch den Einsatz modernster Techniken und unter Berücksichtigung von Erkenntnissen aus der Mathematik, der Statistik und natürlich der Informatik ist es möglich, bioinformatische Algorithmenentwicklung voranzutreiben. Zusätzlich ist eine gewisse Vertrautheit mit den biologischen Strukturen und dynamischen Prozessen, die im Rechner nachzustellen sind, notwendig und hilfreich. Diese Grundlagen schaffen wir in Teil 1. Im folgenden Kapitel werden wichtige Eigenschaften von DNA, RNA, Aminosäuren und Proteinen erläutert sowie solche Fakten zu biologischen Objekten und Prozessen eingeführt, die für das Verständnis der im Text dargestellten biologischen Fragestellungen und informatischen Lösungsansätze benötigt werden.
Informationstragende Moleküle: DNA, RNA, Proteine
Anschließend wird die Datenstruktur Sequenz mit der in der Biologie eingeführten Bedeutung vorgestellt. Wir werden uns mit Operationen auf Sequenzen sowie verschiedenen Alphabeten, die zur Codierung von DNA- und Proteinsequenzen definiert wurden, beschäftigen. Sequenzen bilden die Grundlage für viele der hier eingeführten Algorithmen; sie werden uns im gesamten Text ständig begegnen. Die uns interessierenden Sequenzen haben eine biologische Funktion. Für deren Beschreibung werden zunehmend Ontologien genutzt. Wir erläutern die Gen-Ontologie, mit der Genprodukte annotiert werden.muckel
Sequenzen und ihre Funktion
Schließlich beschäftigen wir uns mit bioinformatischen Datenbanken. So werden z. B. Sequenzen oder Proteinstrukturen sowie Wissen über ihre biologische Funktion, ihre Eigenschaften, ihr Vorkommen etc. in zentralen Datenbanken gesammelt. Diese stellen den „Heiligen Gral“ der Bioinformatik dar. Praktisch bei jeder bioinformatischen Fragestellung wird in irgendeiner Weise auf Datenbanken und das darin deponierte Wissen zurückgegriffen. Dies kann im Rahmen so unterschiedlicher Aufgaben erfolgen wie der statistischen Auswertung von Sequenzen, dem Vermessen von Reaktionszentren, der Identifizierung von Transkriptionsfaktoren oder der Analyse von Hochdurchsatz-Datensätzen. Datenbanken bilden auch die Grundlage für das Generieren von Trainingsmengen, die benötigt werden, um bioinformatische Werkzeuge zu validieren und zu optimieren. Die Qualität bioinformatischer Algorithmen, d. h. deren Ausgabe, muss sich messen lassen an den in den Datenbanken deponierten und durch biochemische Experimente abgesicherten Fakten.
Bioinformatische Datenbanken
Zusätzlich zu Sequenz- und Strukturdatenbanken ist eine Fülle weiterer Datensammlungen entstanden. Wir werden einige der sogenannten sekundären Datenbanken, in denen abgeleitetes Wissen aufbereitet wird, vorstellen. Dazu zählen Beschreibungen von Stoffwechselvorgängen oder hierarchische Schemata zur Klassifikation von Proteinfamilien.
In den folgenden Kapiteln beschäftigen wir uns hauptsächlich mit Algorithmen auf Makromolekülen. Für das Verständnis der Methoden und Modellierungsansätze benötigen wir biologische Grundkenntnisse, die wir in diesem Kapitel einführen. Zu den wichtigsten molekularbiologischen Objekten gehören DNA, RNA und Proteine. Dies sind Moleküle, die jeweils aus kleineren, spezifischen Bausteinen aufgebaut sind. Deren lineare Abfolge kann in Form einer Zeichenkette (Sequenz) angegeben werden. Mit Sequenzen beschäftigen wir uns im folgenden Kapitel 2 genauer.
Drei wichtige Makromoleküle: DNA, RNA, Proteine
Die DNA ist der wichtigste Datenträger der Molekularbiologie. Hochdurchsatzmethoden sind mittlerweile so verfeinert, dass die Zusammensetzung der DNA mit geringem Aufwand bestimmt werden kann. Proteine haben Funktionen sowohl als Umsetzung der Geninformation als auch bei der Weitergabe der Gene an die nachfolgenden Generationen. Die biologische Bedeutung der RNA hat sich durch Befunde der letzten Jahre stark verändert. Es ist klar geworden, dass RNA-Moleküle in erheblichem Ausmaß an Regulationsaufgaben beteiligt sind.
In vivo liegen DNA, RNA und Proteine als dreidimensionale Strukturen vor. Neben der Beschreibung dieser Strukturen gehen wir im Folgenden auf solche Eigenschaften oder Prozesse ein, die in bioinformatischen Algorithmen von Bedeutung sind. Einen breiteren Raum nimmt die Darstellung von Proteinarchitekturen ein. Das Kapitel schließt mit einer Definition wichtiger Fachbegriffe.
Im bioinformatischen Kontext stehen Sequenzen in der Regel für die Abfolge einer kleinen, definierten Menge von Einzelbausteinen. DNA-Sequenzen sind Modelle für Makromoleküle der Desoxyribonucleinsäure (abgekürzt DNS oder DNA), die als fädige Struktur vorliegt. Jeder Strang ist eine Folge von vier Einzelbausteinen (Nucleotide), diese bestehen jeweils aus
Nucleotid
einem Zucker (in der DNA: Desoxyribose),
einer der Purin- oder Pyrimidinbasen Adenin, Guanin oder Cytosin, Thymin und
einem Phosphatrest.
In der Zelle kommt DNA üblicherweise in doppelsträngiger Form vor. Darin stehen sich Nucleotide paarweise gegenüber, wobei nur zwei Paarungen zugelassen sind (siehe Abb. 1.1 und Abb. 1.2).
Aufgrund des chemischen Aufbaus der Nucleotide hat jeder DNA-Strang beliebiger Länge eine eindeutige Orientierung mit jeweils einem freien 3′-OH- und einem 5′-OH-Ende. Sequenzen werden nach Übereinkunft stets so geschrieben, dass das 5′-OH Ende links und das 3′-OH-Ende rechts steht. In vivo ist die DNA-Doppelhelix meist zu einem Ring geschlossen, z. B. in Chromosomen oder Plasmiden. Darin sind die beiden komplementären DNA-Stränge gegenläufig angeordnet. Die durch den Aufbau vorgegebene Orientierung bedingt die Richtung, in der Gene abgelesen werden. Da Gene auf beiden Strängen codiert sein können, in Datensammlungen jedoch nur die Sequenz eines Stranges abgelegt wird, muss zur Bestimmung der Sequenz des Gegenstranges das reverse Komplement gebildet werden.
Reverses Komplement: Sequenz des Gegenstranges
Abb. 1.1 Raumstruktur der DNA. In der Abbildung ist die Doppelhelix gut zu erkennen. Die basischen Anteile der Nucleotide sind nach innen gerichtet und durch Wasserstoffbrücken verknüpft. Außen verlaufen die Zucker-Phosphat-Anteile der polymerisierten Nucleotide.
Abb. 1.2 Basenpaarungen in der DNA. In der als Doppelhelix bekannten DNA-Struktur liegen sich jeweils paarweise die Basen Adenin und Thymin sowie Guanin und Cytosin gegenüber. Zwischen A:T-Paaren können zwei, zwischen G:C-Paaren drei Wasserstoffbrücken ausgebildet werden. Je höher der Anteil von G:C-Paaren, desto mehr Energie muss für das Trennen der beiden Stränge einer DNA-Doppelhelix aufgewendet werden.
Die Sequenzinformation eines jeden Proteins ist in Form eines Gens in der DNA-Sequenz codiert. Jeweils drei direkt aufeinanderfolgende Nucleotide, die nicht überlappend abgelesen werden, codieren für eine Aminosäure. Eine solche Nucleotidgruppe wird Triplett oder Codon genannt. Die Abbildung der 64 Tripletts auf die 20 Aminosäuren heißt genetischer Code, dieser ist in Tabelle 1.1 dargestellt. Dieser Code ist quasi universell, abweichende Codonzuordnungen finden sich z. B. bei Mitochondrien, Mycoplasma und einigen Protozoen (Übersicht in [1]).
Basentriplett
Codon
Die Struktur der DNA legt die Lage der einzelnen Gene inner-halb einer DNA-Sequenz nicht fest, daher ergeben sich – wegen der zwei möglichen Ableserichtungen und der drei möglichen Intervalle pro Leserichtung – insgesamt sechs Leseraster. Prinzipiell kann jede Codonsequenz ein Gen codieren, sofern sie zwischen ein im selben Leseraster liegendes Start- und Stoppcodon eingebettet ist. Eine derartige Sequenz wird zur Unterscheidung von Genen (für die eine Funktion nachgewiesen ist) offenes Leseraster (open reading frame, ORF genannt.
Leseraster
ORF
Tab. 1.1 Der genetische Code. Die Zahlen geben die Nucleotidposition im Codon an. In einigen speziellen Fällen, wie in mitochondrialen Genomen, kann es Abweichungen von diesem kanonischen Code geben.
Diese Situation wird im folgenden Beispiel klar. Je nach Leseraster resultieren aus derselben DNA-Sequenz unterschiedliche Proteinsequenzen:
Beispiel
Leserichtung →
|.....ORF.....|
Leserahmen 1
..MetValGlyLeuSer***
2
.TyrGlyArgProGluLeu.
3
ValTrpSerAla***Val..
DNA,
GTATGGTCGGCCTGAGTTAA
(Doppelstrang)
CATACCAGCCGGACTCAATT
Leserahmen 4
..HisAspAlaGlnThrLeu
5
.IleThrProArgLeu***.
6
TyrProArgGlySerAsn..
← Leserichtung
Im gezeigten Beispiel existiert genau ein ORF (hier im Leserahmen 1), dessen Lage durch ein Startcodon (Met) und ein Stoppcodon (durch *** markiert) definiert ist. In allen anderen Leserastern treten in der gezeigten Sequenz Stoppcodons auf oder es fehlt ein Startcodon. Gene haben allerdings in der Regel eine Länge von mehr als 80 Codonen.
Der Informationsgehalt I der drei Basenpositionen im Codon ist nicht gleich, es gilt I(Position 2) > I(Position 1) > I(Position 3) [2]. Hierfür ist der genetische Code verantwortlich: Eine Mutation der dritten Base im Codon verändert die Aminosäurenkomposition häufig nicht; eine Mutation in der ersten Basenposition führt häufig zum Einbau einer Aminosäure mit ähnlichen Eigenschaften; eine Mutation der mittleren Base verursacht häufig den Einbau einer Aminosäure mit anderen Eigenschaften [1]. Die geringsten Auswirkungen auf die Aminosäurenkomposition der Proteine haben somit Veränderungen der Basenkomposition in Position 3 des Codons, gefolgt von Veränderungen der Basenkomposition an Position 1. Diese Befunde machen deutlich, dass simple statistische Konzepte nicht dazu geeignet sind, codierende Sequenzen adäquat zu modellieren.
Informationsgehalt der Basenpositionen ist unterschiedlich
Der GC-Gehalt ist eine charakteristische Größe eines Genoms. In bakteriellen Genomen schwankt der GC-Gehalt zwischen 25 % und 75 %. In G:C-Basenpaaren werden drei Wasserstoffbrückenbindungen ausgebildet, in A:T-Basenpaaren nur zwei; daher wurde vermutet, dass ein hoher GC-Gehalt des Genoms z. B. für thermophile [3] oder halophile [4] Organismen vorteilhaft wäre. Allerdings ist der GC-Gehalt phylogenetisch und nicht phänotypisch bedingt. Thermophile Organismen leben in Habitaten mit erhöhten Umgebungstemperaturen, halophile kommen in Umgebungen mit erhöhter Salzkonzentration vor. Der spezifische GC-Gehalt einer phylogenetischen Linie scheint durch evolutionären Druck eingestellt zu werden [5]. Aus dem Vergleich des GC-Gehalts der Genome solcher Bakteriophagen, die ihr eigenes DNA-Replikationssystem, und solcher, die das Replikationssystem des Wirts Escherichia coli verwenden, mit dem GC-Gehalt des Genoms von Escherichia coli wurde geschlossen, dass der GC-Gehalt vom DNA-Replikationssystem moduliert wird [1]. Mutationen im mutT Gen von Escherichia coli induzieren Transversionen von A:T- nach G:C-Basenpaaren [6] und Mutationen im mutY Gen Transversionen von G:C- nach A:T-Basenpaaren [7]. Die Genprodukte beider Gene sind an der DNA-Replikation bzw. DNA-Reparatur beteiligt.
GC-Gehalt der Genome ist phylogenetisch bedingt
Codonen kommen nicht mit annähernd gleicher Häufigkeit in Genen vor. Im Gegenteil, die Codonhäufigkeiten schwanken zwischen den taxonomischen Gruppen beträchtlich. Die Codonpräferenzen der beiden nahe verwandten Bakterien Escherichia coli und Salmonella typhimurium sind sich relativ ähnlich, Codonhäufigkeiten des Bakteriums Bacillus subtilis, das zu beiden eine große phylogenetische Distanz aufweist, sind auffällig anders.
Codonhäufigkeiten
Codonen, die für dieselbe Aminosäure codieren, werden synonyme Codonen genannt. Synonyme Codonen treten ebenfalls nicht mit vergleichbarer Häufigkeit auf, einige werden bevorzugt eingebaut. Daraus resultierende Unterschiede in der Häufigkeitsverteilung von kurzen Nucleotidketten können unter Verwendung statistischer Verfahren (Markov-Ketten) ausgenutzt werden, um die Lage von Genen vorherzusagen (z. B. im Programm Glimmer[8]). In Korrelation mit den ungleichmäßigen Codonhäufigkeiten treten Unterschiede in den Spezies spezifischen tRNA-Konzentrationen auf. tRNA ist an der Translation, d. h. der RNA-instruierten Proteinsynthese, beteiligt.
Synonyme Codonen codieren für dieselbe Aminosäure
Der genetische Code wird als degeneriert (im Sinne der in der Atomphysik eingeführten Bedeutung) bezeichnet, da einige Aminosäuren durch mehrere (synonyme) Codonen codiert werden.
Bei manchen Spezies variieren Codonhäufigkeiten zudem stark zwischen einzelnen Genen [9]. In bestimmten Genen tritt Spezies spezifisch eine Teilmenge der Codonen bevorzugt auf (Übersichten in [10] und [11]). Diese Verzerrung der Codonhäufigkeiten (codon usage bias) ist positiv korreliert mit der Genexpression [12]. Mögliche Ursachen für diese Verzerrung der Codonhäufigkeiten sind die unterschiedlichen Konzentrationen der tRNAs [13, 14], die Aufrechterhaltung der maximalen Elongationsrate, die Kosten für das Korrekturlesen sowie unterschiedliche Translationsraten der Codonen [15]. Diese Verzerrung der Codonhäufigkeiten wird als „Strategie“ interpretiert, die Wachstumsraten zu optimieren [10]. Wie wir später sehen werden, sind Unterschiede in den Codonhäufigkeiten ein wichtiges Signal, das für bioinformatische Analysen genutzt wird. Bei Prokaryonten weisen Gene, die im Genom benachbart liegen, eine ähnliche codon usage auf. Es wurde gezeigt, dass aus der Ähnlichkeit von Codonhäufigkeiten eine Interaktion der Genprodukte vorhergesagt werden kann [16]. Zudem zeigen diese Befunde die komplexe Komposition codierender DNA-Sequenzen.
Bevorzugte Codonen
Tab. 1.2 Gemittelte Codonhäufigkeiten im Genom von Escherichia coli K-12. Die Summe der Prozentwerte ergibt 100.
In Tabelle 1.2 sind die gemittelten Codonhäufigkeiten angegeben, so wie sie im Genom des Bakteriums Escherichia coli K-12 vorkommen. Auffallend selten sind in diesem Genom die Codonen AGA, AGG und CTA.
Codon usage von Escherichia coli K-12
Ganz allgemein wird das Umschreiben eines Textes Transkription genannt. In Analogie hierzu wird die Produktion von mRNA als Kopie eines Genabschnittes ebenso bezeichnet. Die für die Transkription notwendigen Enzyme sind die DNA-abhängigen RNA-Polymerasen. Bei der Transkription wird, anstelle von T (Thymin), in die mRNA das Nucleotid U (Uracil) eingebaut. Das RNA-Molekül, das hierbei entsteht, wird Transkript genannt.
Bei der RNA-Synthese müssen zwei Bedingungen eingehalten werden:
Bedingungen bei der RNA-Synthese
Die Synthese muss unmittelbar vor einem Gen beginnen.
Es muss der sinntragende (codogene) Strang transkribiert werden.
Das Einhalten dieser Bedingungen wird erreicht durch die bevorzugte Bindung von RNA-Polymerase an Erkennungsstellen (Promotoren), die unmittelbar vor Genen liegen.
Promotoren markieren Beginn des Transkriptes
Vergleicht man die Promotoren von Escherichia coli und bildet hieraus einen „idealen Promotor“, so fällt Folgendes auf:
In einem Bereich, der ca. 10 Basenpaare stromaufwärts des Transkriptionsstarts liegt, findet sich eine Sequenz, die häufig ähnlich zu TATA (
-10-Region
oder
TATA-Box
) ist.
In einem Bereich, der ca. 35 Basenpaare stromaufwärts vom Start liegt (
-35-Region
), befindet sich innerhalb eines AT-reichen Abschnittes eine Sequenz, die häufig ähnlich zu TTGACA ist.
Abb. 1.3 Konsensus-Sequenz von Escherichia coli Promotoren. Der untere der beiden DNA-Stränge wird transkribiert ab Position +1; nach [17].
Abbildung 1.3 zeigt einen idealisierten Promotor; von dessen Zusammensetzung weichen bekannte Promotoren mehr oder weniger stark ab.
Für die Einleitung der Transkription ist es notwendig, dass Transkriptionsfaktoren an den Promotor oder an zusätzliche Bindestellen wie Enhancer binden. In vielen Fällen ist das genaue Zusammenwirken dieser Faktoren nicht bekannt.
DNA-Bindung von Transkriptionsfaktoren regelt RNA-Synthese
Das Identifizieren von Promotoren mittels bioinformatischer Methoden hilft, mit höherer Sicherheit Operons vorherzusagen. In prokaryontischen Genomen sind Gene häufig in Funktionseinheiten, den Operons, zusammengefasst. Diese bestehen aus einem Promotor und einer Menge von Genen. Deren Genprodukte sind meist Elemente einer größeren Funktionseinheit oder tragen zur selben Stoffwechselleistung bei. So finden sich die Gene, die an der Tryptophan-Biosynthese beteiligt sind, in einem Operon.
Bei höheren Eukaryonten kennt man nur für einen kleinen Bruchteil des Genoms die genaue Funktion [18]. Zu den Genomabschnitten mit bekannter Funktion gehören regulatorische Elemente wie Promotoren sowie die Gene, die für Proteine oder bestimmte RNA-Spezies codieren. Für die RNA war bisher eine Funktion als Transfer-RNA, als Komponente von Ribosomen (ribosomale RNA) oder von Spleißosomen gesichert. Der erheblich größere Rest des Genoms wurde häufig als Junk-DNA bezeichnet. Jüngste, genomweite Experimente im Rahmen des ENCODE-Projektes haben jedoch gezeigt, dass Tausende, nicht für Proteine codierende Transkripte (ncRNAs) existieren, deren Bedeutung unklar ist. Diese Ergebnisse belegen für das Genom des Menschen [19] und der Maus, dass der größte Teil transkribiert wird. ncRNAs werden in kleine interferierende RNAs, mikro-RNAs und lange ncRNAs eingeteilt. Letztere haben eine Länge von mehr als 200 Nucleotiden und stellen den größten Anteil. Für diese RNA-Moleküle ist eine Beteiligung an der Organisation der Genomarchitektur und der Genexpression plausibel. Kleine RNA-Moleküle sind an einer Vielzahl von posttranskriptionalen silencing-Mechanismen beteiligt. Diese Prozesse zerstören mRNA-Moleküle, sodass kein Genprodukt (in der Regel ein Protein) gebildet werden kann.
Die Funktion der meisten RNA-Moleküle ist unbekannt
Proteine sind ebenfalls lineare Makromoleküle; Bausteine sind in diesem Fall die 20 natürlich vorkommenden Aminosäuren. Der Aufbau dieser Molekülfamilie ist einheitlich und besteht aus einem, in allen Aminosäuren identischen, sowie einem variablen Teil, der häufig auch Aminosäurerest genannt wird (siehe Abb. 1.4). Form und Art dieses Restes beeinflussen die Wechselwirkungen zwischen den Bausteinen. Die wichtigsten Wechselwirkungen sind Wasserstoffbrückenbindungen zwischen polaren Seitenketten.
Aufgrund des unterschiedlichen Aufbaus der Seitenkette haben die Aminosäuren voneinander abweichende physikalisch-chemische Eigenschaften. Sie lassen sich z. B. bezüglich der ionischen Ladung in die Gruppen basisch, sauer und neutral einteilen. Unter den neutralen Aminosäuren, die keine elektrische Gesamtladung tragen, finden sich wiederum polare, d. h. solche, die innerhalb des Moleküls eine unterschiedliche Ladungsverteilung aufweisen. Apolare, neutrale Aminosäuren sind hydrophob (Wasser abstoßend). Sie tendieren dazu, untereinander und mit anderen hydrophoben Gruppen zu interagieren. Mit hydrophil werden Moleküle bezeichnet, die gut wasserlöslich sind. Ein Spezialfall ist Prolin, eine zyklische Iminosäure. Nach der Ausbildung der Peptidbindung steht in dieser Aminosäure kein Wasserstoff mehr zur Ausbildung von Wasserstoffbrückenbindungen zur Verfügung. Diese Eigenart hat erheblichen Einfluss auf die Proteinstruktur.
Struktur von Aminosäuren
Natur der Aminosäuren: basisch, sauer, neutral, polar, hydrophil, hydrophob
Abb. 1.4 Strukturformel der Aminosäure Phenylalanin. Der in allen Aminosäuren gleichartige Anteil ist in der Strukturformel grau unterlegt. In jeder Aminosäure ist mit dem zentralen C-Atom ein Wasserstoffatom (unten), eine Aminogruppe (links), eine Carboxylgruppe (rechts) und eine Seitengruppe (oben) verknüpft. Das zentrale C-Atom wird wegen seiner Lage im Molekül häufig als Cα-Atom bezeichnet.
Tab. 1.3 Vorkommen der Aminosäuren in Proteinen. Die Werte sind in Prozent angegeben und wurden aus einer repräsentativen Stichprobe ermittelt; nach [20]. Der hier verwendete Einbuchstabencode ist im Kapitel 2 erläutert.
Die Häufigkeiten, mit denen die 20 Aminosäuren in Proteinen vorkommen, unterscheiden sich deutlich. In Tabelle 1.3 ist das mittlere Vorkommen gelistet.
Die in Abb. 1.5 dargestellten Verwandtschaftsbeziehungen aufgrund physikalischer und chemischer Eigenschaften der Aminosäuren sind die Grundlage für viele Sequenzvergleichs- und Alignmentverfahren. Hierfür werden Scoring-Matrizen benötigt, die wiederum aus Substitutionshäufigkeiten bestimmt werden. Diese Häufigkeiten werden aus dem Vergleich einer Vielzahl ähnlicher Proteine ermittelt und spiegeln gemeinsame Eigenschaften von Aminosäuren wider. Auf die angesprochenen Verfahren und Daten gehen wir in den folgenden Kapiteln genauer ein.
Gruppierung hinsichtlich physikalisch-chemischer Eigenschaften
Abb. 1.5 Venn-Diagramm der 20 natürlichen, in Proteinen vorkommenden Aminosäuren. Die Aminosäuren wurden aufgrund solcher physikalischchemischer Eigenschaften gruppiert, die für die Tertiärstruktur von Proteinen wichtig sind. Die Aminosäuren sind im Wesentlichen in zwei Gruppen (polar und hydrophob) eingeteilt, eine dritte Gruppe (klein) umfasst die kleinen Aminosäuren. Die Menge „extrem klein“ enthält diejenigen Aminosäuren, die höchstens zwei Seitenkettenatome besitzen. Cystein (C) in reduzierter Form (CH) ist Serin (S) ähnlich, in oxidierter Form (CS-S) ähnelt es Valin (V). Aufgrund des speziellen Einflusses auf den Hauptkettenverlauf liegt Prolin (P) isoliert; nach [21].
Proteine sind Polypeptidketten, die aus Aminosäuren synthetisiert werden. Bei der Synthese wird die Carboxylgruppe (COOH) der einen Aminosäure mit der Aminogruppe (NH2) des Nachbarn durch eine kovalente Bindung (Peptid-Bindung) verknüpft. Jede Polypeptidkette beliebiger Länge hat ein freies Amino-Ende (N-Terminus) und ein freies Carboxyl-Ende (C-Terminus). Die Richtung einer Kette ist definiert als vom N-Terminus zum C-Terminus zeigend. Diese Richtung stimmt überein mit der Syntheserichtung in vivo, die mit dem Ablesen der mRNA in 5′- 3′-Richtung korrespondiert.
Die an der Peptidbindung beteiligten Atome liegen jeweils starr in einer Ebene. Daher wird der Hauptkettenverlauf einer Polypeptidkette durch die Angabe von zwei Winkeln (Φ, Ψ) pro Residuum beschrieben. Diese Winkel geben die Drehung der beiden am Hauptkettenverlauf beteiligten Bindungen des zentralen Cα-Atoms jeder Aminosäure an. Beide Winkel unterliegen weiteren Einschränkungen, die sich aus der Natur des jeweiligen Aminosäurerestes herleiten. Die Rigidität der Peptidbindung und die sterische Hinderung zwischen Haupt- und Seitenkette tragen zur Stabilisierung der Proteinkonformation bei. Das erste Kohlenstoffatom, das im Rest auf das Cα-Atom folgt, wird Cβ-Atom genannt. In Abb. 1.6 ist die Situation illustriert. Der Hauptkettenverlauf dient häufig dazu, Faltungstypen von Proteinen zu charakterisieren und zu vergleichen. Die Hauptkette heißt im Englischen backbone.
Φ-, Ψ-Winkel Hauptkette
Abb. 1.6 Konformation der Peptidbindung. Die an einer Peptidbindung beteiligten sechs Atome liegen jeweils in einer Ebene. In der Abbildung sind zwei derartige Bindungen gezeigt und rot markiert. Der Aminosäurerest an der betrachteten Position (hier grün) ist mit R bezeichnet. Die räumliche Anordnung des Hauptkettenverlaufes eines Polypeptids ..-Cα-C-N-Cα-C-N-Cα-.. wird bestimmt durch das für jede Position (jedes Residuum) anzugebende Paar von Winkeln (Φ, Ψ), mit dem die Lage der durch die Peptidbindung aufgespannten Flächen relativ zum Cα-Atom festgelegt ist. Der mit ω bezeichnete Winkel kann nur die Werte +180° oder −180° annehmen.
Die Aminosäuren unterscheiden sich in der Art ihrer Seitenketten. Diese sind unterschiedlich lang und von verschiedener chemischer Natur. Jede Seitenkette kann eine von mehreren Konformationen einnehmen, die auf die Rotationsmöglichkeiten der Atombindungen zurückzuführen sind. Jede Konformation wird durch die Rotationswinkel beschrieben, die an den drehbaren Bindungen auftreten. Für die Zwecke des Proteindesigns, d. h. die rechnergestützte Modellierung, wird aus Komplexitätsgründen eine beschränkte Menge aller möglicher Seitenkettenkonformationen betrachtet, die Rotamere genannt werden. Diese sind in Bibliotheken zusammengefasst [22], [23] und enthalten diejenigen Konformationen, die in Proteinen häufig vorkommen. Aufgrund der unterschiedlichen Anzahl rotierbarer Atombindungen ist die Dimension des Konformationsraumes abhängig von der betrachteten Aminosäure: Da die Seitenketten von Glycin und Alanin keine rotierbaren Bindungen aufweisen, genügt es, diese beiden Aminosäuren jeweils durch ein Rotamer zu repräsentieren. Die Seitenketten von Arginin und Lysin sind hingegen lang gestreckt. Mit vier rotierbaren Bindungen und drei energetisch günstigen Winkeln pro Bindung resultieren jeweils 81 Rotamere. Beispiele für Rotamere sind in Abb. 1.7zusammengefasst. Die Menge der heute bekannten Proteinstrukturen erlaubt es, die Rotamerverteilungen in Abhängigkeit von den Φ- und Ψ-Winkeln der Hauptkette zu bestimmen. Solche Hauptketten spezifischen (backbone dependent) Bibliotheken [24], [25] verbessern die Modellierungsleistung beim Proteindesign.
Konformation der Rotamere: Aminosäuren spezifisch bestimmte Bibliotheken
Abb. 1.7 Beispiele für Rotameraus-prägungen. Rotamere sind in Proteinen häufig vorkommende Seitenkettenkonformationen. In der Abbildung sind für die Aminosäuren Arginin, Glutamin, Histidin und Tyrosin jeweils drei Rotamere angegeben. Die Seitenkette von Arginin enthält vier drehbare Bindungen mit jeweils drei energetisch günstigen Winkeln. Daher ergeben sich für Arginin 81 Rotamere (34). Für die Seitenkette von Glutamin resultieren aus drei drehbaren Bindungen 27 Rotamere. In den Seitenketten von Tyrosin und Histidin kommen jeweils nur zwei drehbare Bindungen vor, sodass neun Rotamere zur Beschreibung des Konformationsraumes ausreichen.
In Polypeptidketten sind nicht alle möglichen Kombinationen von Φ- und Ψ-Winkeln gleich häufig. Wird die Verteilung dieser Winkel aus einer größeren Anzahl von Proteinen ermittelt, so ergeben sich die in der Abb. 1.8 gezeigten Präferenzen. Dieser Befund macht klar, dass im Konformationsraum nur drei Bereiche stärker besetzt sind. In idealisierter Weise fallen Residuen aus rechtsgängigen α-Helices in den Bereich von (−57°, −47°), während solche aus linksgängigen Helices bei (+57°, +47°) liegen. Residuen aus parallelen β-Faltblättern haben (Φ, Ψ)-Winkelkombinationen von ca. (−119°, −113°), während diejenigen aus antiparallelen Blättern bei (−139°, +135°) zu finden sind. Werden für sämtliche Residuen eines Proteins die (Φ, Ψ)-Winkel bestimmt, so liegen häufig einige Paare abseits der Maxima. Dazu gehören solche von Glycin-Resten. Der Einbau von Glycin bewirkt eine scharfe Wendung des Hauptkettenverlaufs. Diese Darstellung der Winkelkombinationen wird nach ihrem Entwickler Ramachandran-Plot genannt. Die erwähnten Sekundärstrukturelemente werden im folgenden Text genauer erläutert.
Ramachandran-Plot: Verteilung der (Φ, Ψ)-Winkel
Abb. 1.8 Ramachandran-Plot. Je nach Zugehörigkeit zu einem Sekundärstrukturelement ergeben sich für die Φ-und Ψ-Winkel der Residuen charakteristische Kombinationen.
Die Eigenschaften der Seitenketten bestimmen die Wechselwirkungen innerhalb des Proteins und damit dessen dreidimensionale Konformation. Dieser Konformationszustand kann auf verschiedenen Abstraktionsebenen beschrieben werden:
Beschreibung der Proteinkonformation: Primärstruktur, Sekundärstruktur, Tertiärstruktur
Als
Primärstruktur
auf der Ebene der Sequenz durch die Abfolge der Aminosäuren.
Auf dem Niveau der
Sekundärstruktur.
Aus der Polypeptidkette falten sich Sekundärstrukturelemente, die regelmäßige Arrangements des Hauptkettenverlaufes ergeben.
Als
Tertiärstruktur.
Sie beschreibt die räumliche Anordnung aller Atome im Raum.
Und auf der Ebene der Proteine:
Als
Quaternärstruktur.
Sie definiert die Anordnung von Proteinen in Proteinkomplexen.
Wir werden Algorithmen vorstellen, die darauf abzielen, Primär-, Sekundär- und Tertiärstruktur von Proteinen zu analysieren, zu vergleichen oder vorherzusagen.
Die Grundbausteine der Proteine sind die Aminosäuren. Deren Abfolge in Proteinen definiert die Proteinsequenz, d. h. die Primärstruktur. Die nächsthöhere Abstraktionsebene, auf der Proteine beschrieben werden können, ist die der Sekundärstruktur. Sekundärstrukturelemente sind regelmäßige 3D-Substrukturen des Hauptkettenverlaufs einer Peptidkette. Bei der Klassifizierung von Sekundärstrukturelementen werden Art und Anordnung der Aminosäurereste (Seitenketten) ignoriert. Die Stabilisierung der Sekundärstruktur erfolgt über Wasserstoffbrückenbindungen zwischen den Imino- und Carbonylgruppen innerhalb der Hauptkette.
Zusätzlich zu den hier beschriebenen Bindungskräften wird die 3D-Struktur eines Proteins im Wesentlichen durch schwache, nichtkovalente Wechselwirkungen der Aminosäureseitenketten, insbesondere durch Wasserstoffbrückenbindungen zwischen polaren Resten bestimmt. Diese Wechselwirkungen spielen bei der Betrachtung der Sekundärstruktur keine Rolle. Die beiden wichtigsten Sekundärstrukturelemente sind die α-Helix und das β-Faltblatt.
Sind die (Φ, Ψ)-Winkel aufeinanderfolgender Residuen konstant, so ergeben sich helikale Strukturen. Unter diesen ist die am häufigsten vorkommende die α-Helix. In der α-Helix besteht jeweils eine Wasserstoffbrückenbindung zwischen der CO-Gruppe einer Aminosäure und der NH-Gruppe der viertnächsten. Es machen jeweils 3.6 Aminosäuren eine vollständige Drehung aus. Die Abb. 1.9 zeigt einen typischen Vertreter einer α-Helix.
Abb. 1.9 Typische α-Helix. Wasserstoffbrücken sind gestrichelt eingezeichnet. Sie werden zwischen Atomen des Proteinrückgrades ausgebildet. Die Struktur ist hier als Stäbchenmodell gezeigt.
Das zweite wichtige Sekundärstrukturelement ist das β-Faltblatt. Ein β-Faltblatt besteht aus einzelnen β-Strängen, die meist 5–10 Residuen lang sind (siehe Abb. 1.10). In β-Faltblättern bilden sich Wasserstoffbrückenbindungen zwischen Residuen unterschiedlicher Stränge aus. Hierbei wechselwirken die C=O-Gruppen des einen Stranges mit den NH-Gruppen des nächsten Stranges. Auf diese Weise können mehrere Stränge ein Blatt bilden. Die Cα-Atome aufeinanderfolgender Residuen kommen abwechselnd über oder unter der Ebene, die durch das Faltblatt aufgespannt wird, zum Liegen. Die Stränge können in zwei Richtungen verlaufen:
β-Faltblatt: parallele oder anti-parallele β-Stränge
Parallel;
die durch N- und C-Terminus vorgegebene Richtung in nebeneinanderliegenden Strängen ist dieselbe.
Antiparallel;
die Richtung nebeneinanderliegender β-Stränge wechselt alternierend.
Abb. 1.10 β-Faltblatt bestehend aus drei Strängen. Wasserstoffbrücken sind gestrichelt eingezeichnet. Die Struktur ist als Stäbchenmodell dargestellt.
Im Proteininneren sind die β-Faltblätter meist parallel. An der Proteinoberfläche sind sie häufig antiparallel. Dort ragen die Aminosäurereste der einen Seite in die (hydrophile) Umgebung, während die der anderen zum hydrophoben Kern hin ausgerichtet sind. Hieraus ergibt sich im Idealfall in der Sequenz ein charakteristischer Wechsel von hydrophilen und hydrophoben Aminosäuren.
Die regulären Strukturen der Hauptkette werden ausgebildet, weil sie energetisch günstig sind. Sie bilden häufig Aggregate, die als Supersekundärstrukturelemente bezeichnet werden. So besteht der klassische Faltungstyp des (βα)8-Fasses beispielsweise aus 8 (βα)-Einheiten, die rotationssymmetrisch zur Mittelachse angeordnet sind. Die 8 β-Stränge bilden eine fassartige Struktur, die außen von den α-Helices bedeckt wird. Das in Abb. 1.11 gezeigte Enzym HisF ist an der Histidinbiosynthese beteiligt. Die oben beschriebene, ideale Struktur wird hier durch weitere Sekundärstrukturelemente ergänzt. Die Topologie des (βα)8-Fasses kommt in vielen Enzymfamilien vor, die völlig unterschiedliche Reaktionen katalysieren. Aus dieser breiten Verteilung auf völlig unterschiedliche Stoffwechselwege wurde gefolgert, dass dieser Faltungstyp bereits sehr früh in der Protein-Evolution entstand [26]. Ausführlich wird diese Faltungstopologie in [27] und [28] beschrieben.
Abb. 1.11 Das (βα)8-Fass-Protein HisF. Beim Faltungstyp der (βα)8-Fässer bilden 8 β-Stränge ein zentrales, in sich geschlossenes Faltblatt, das von 8 α-Helices umgeben ist. Diese idealisierte Struktur ist häufig durch zusätzliche Schleifen oder andere Sekundärstrukturelemente erweitert.
Beim Vergleich zweier verwandter Proteinsequenzen fällt häufig auf, dass die Sequenzähnlichkeit nicht über die gesamte Länge hinweg einen konstant hohen Wert aufweist. Häufig wechseln sich Regionen mit signifikant hohen Scores (einem Maß für Sequenzähnlichkeit) ab mit solchen Regionen, die keinerlei Ähnlichkeit zur Vergleichssequenz haben. Ursache für dieses Schwanken des Scores ist der modulare Aufbau von Proteinen aus Domänen.
Proteine sind aus Domänen zusammengesetzt
Eine Domäne ist bei Proteinen die kleinste Einheit mit einer definierten und unabhängig gefalteten Struktur. Proteindomänen bestehen meist aus 50–150 Aminosäuren und führen häufig individuelle Reaktionen aus, deren Zusammenwirken die Gesamtfunktion eines Proteins ausmacht.
Definition der Proteindomäne
In Abb. 1.12 ist die 3D-Struktur eines CAP-Monomers dargestellt. Dieses besteht aus zwei Domänen:
Beispiel CAP-Protein
Abb. 1.12 3D-Struktur eines CAP-Monomers. Die N-terminale Domäne wurde orange, die C-terminale Domäne blau eingefärbt. In vivo lagern sich jeweils zwei CAP-Moleküle zu einem Dimer zusammen; nach [29].
Abb. 1.13 Domänenstruktur des präsynaptischen Proteins SAP97 und des MAGI-1A Proteins.
Die N-terminale Domäne (Residuen 1–135) bindet cAMP und ist an der Dimerisierung beteiligt.
Die C-terminale Domäne (Residuen 136–209) vermittelt die DNA-Bindung des Proteins.
CAP-Dimere, d. h. Aggregate von zwei Monomeren, aktivieren in Bakterien Gene, deren Genprodukte in den Zuckerstoffwechsel eingreifen.
Domänen sind die Organisationseinheiten, deren Zusammenwirken die Funktion eines Proteins bestimmt. Einen Eindruck von der Variabilität der Proteine auf Domänenniveau vermittelt Abb. 1.13. Auf Domänenebene lassen sich die beiden Proteine SAP97 und MAGI-1A wie folgt beschreiben: Beide Proteine enthalten eine GuKc-Domäne und eine unterschiedliche Anzahl von PDZ-Domänen. Die GuKc-Domäne besitzt in aktiven Enzymen Guanylatkinaseaktivität, in Membran assoziierten Proteinen zeigt sie nur Proteinbindungsfunktion. Die PDZ-Domänen haben unterschiedliche Bindungsspezifitäten; manche binden C-terminale, andere interne Polypeptide. In MAGI-1A kommt zusätzlich die ww-Domäne zweimal, in SAP97 die SH3-Domäne einmal vor.
Aus dem letzten Absatz könnte man folgern, dass Proteine eine schier unendliche Diversität von Strukturen hervorgebracht haben. Dies ist jedoch nicht der Fall. Wir konzentrieren uns im Folgenden auf Domänen, die in Multidomänenproteinen kombiniert werden oder in Eindomänenproteinen den Faltungstyp spezifizieren. Eindomänenproteine stellen den größten Anteil der bekannten Proteine. Es wurde abgeschätzt, dass ca. 80 % aller Proteine zu einem von ca. 400 Faltungstypen gehören. Diese Faltungstypen werden jeweils durch eine Supersekundärstruktur charakterisiert. Proteine können aufgrund dieser Faltungstypen gruppiert werden. Im Kapitel 3 stellen wir das Klassifikationssystem SCOP [30] vor, das auf einem solchen Schema beruht. Wie sehen repräsentative Vertreter der Faltungstypen aus? In den Abb. 1.14–1.19 sind die wichtigsten Faltungstypen dargestellt.
Die Anzahl von Protein-Topologien ist beschränkt
Die wichtigsten Sekundärstrukturelemente sind die α-Helix und der β-Strang. Da es nur zwei Elemente gibt, existieren auch nur drei paarweise Kombinationen, die zur Klassifikation von Proteinen genutzt werden können: Dies sind α mit α, α mit β und β mit β.
Die all-alpha-Klasse wird von kleinen Proteinen dominiert. Häufig bilden die Helices ein auf und ab verlaufendes Bündel. Die Wechselwirkungen zwischen den Residuen der Helices sind nicht so präzise zu identifizieren wie bei β-Strängen, sodass eine genaue Klassifikation schwierig ist. Die all-beta-Proteine werden häufig aufgrund der Anzahl von α-Strängen feiner klassifiziert. Die Struktur der β-Stränge ist weniger starr als die der α-Helices, daher ist die Topologie der β-Faltblätter häufig gestört und es treten Verdrehungen auf. α-β-Proteine können grob in solche Proteine aufgeteilt werden, die ein alternierend wechselndes Arrangement von α-Helices und β-Strängen längs der Sequenz aufweisen und solche, die eher isoliert liegende Sekundärstrukturen besitzen. Die erste Klasse schließt einige große und sehr reguläre Sekundärstrukturelemente ein, bei denen ein zentrales β-Faltblatt oder parallele β-Stränge auf beiden Seiten von α-Helices bedeckt werden. Die Abb. 1.14–1.19 zeigen typische Vertreter für diese Proteinklassen, die der SCOP-Datenbank entnommen wurden. Es ist jeweils der PDB-Code angegeben, unter dem die Datensätze in der Strukturdatenbank zu finden sind. Eine weitere Klasse bilden die Membranproteine. Typische Vertreter sind im Kapitel 21 gezeigt.
Abb. 1.14 Beispiel für ein all-alpha-Protein. Dieses Protein (PDB-Code 1DLW) besitzt einen Globin ähnlichen Faltungstyp. Die SCOP-Klassifikation lautet: Sechs Helices, gefaltetes Blatt, teilweise geöffnet.
Abb. 1.15 Das Bence-Jones-Protein (1BWW) ist ein all-beta-Protein. Die SCOP-Klassifikation lautet: Sandwich, sieben Stränge in zwei Faltblättern, einige Mitglieder dieses Typs besitzen zusätzliche Stränge.
Abb. 1.16 Die NAD(P)-bindende Domäne des Rossmann-folds (2JHF) gehört zu den alpha and beta folds (a/b). Der Kern besteht aus drei Schichten, dazu kommt ein paralleles β-Faltblatt bestehend aus sechs β-Strängen.
Abb. 1.17 Die Ribonuclease (1A2P) gehört zu den alpha plus beta folds. Eine einzelne Helix schmiegt sich gegen ein antiparalleles Faltblatt.
Abb. 1.18 Dieser Hydrolase-Inhibitor (1HLE) ist eines der einfachsten Multidomänenproteine. Diese Faltungstypen enthalten jeweils mehrere Domänen, die zu unterschiedlichen Klassen gehören.
Abb. 1.19 Beispiel für ein kleines Protein. Dieser Hydrolase-Inhibitor (1G6X) weist einen BPTI-ähnlichen Faltungstyp auf und wird als Disulfid reicher alpha plus beta fold klassifiziert.
In den folgenden Kapiteln werden biologische Fachbegriffe verwendet. Die wichtigsten, sofern nicht anderweitig im Text erläutert, wollen wir hier kurz zusammenfassen.
Die Begriffe homolog, ortholog und paralog, die Verwandtschaftsbeziehungen beschreiben, definieren wir im Kontext von Genen und Genomen.
Zwei Gene sind homolog, wenn sie von einem gemeinsamen Vorfahren abstammen. Diese Definition schließt orthologe und paraloge Gene mit ein.
Homologe, orthologe, paraloge Gene
Ortholog sind Gene aus unterschiedlichen Spezies, die sich durch Artenbildung aus einem gemeinsamen Vorfahren entwickelt haben.
Paralog sind Gene, die im selben Genom zu finden und durch Genduplikation entstanden sind.
Der Genotyp ist die Summe der Gene, die in einem Genom vorkommen.
Genotyp
Der Phänotyp ist das äußere Erscheinungsbild einer Art. In der Genetik wird aus dem Vergleich unterschiedlicher Phänotypen auf die Funktion von Genen geschlossen.
Phänotyp
Die Prokaryonten (auch Prokaryoten) sind diejenigen Arten, die keinen Zellkern besitzen. Dazu gehören die Bakterien und die Archaeen. Bakterien und Archaeen bilden jeweils eigene taxonomische Reiche.
Prokaryont
Die Eukaryonten (oder Eukaryoten) sind diejenigen Arten, die einen Zellkern besitzen.
Eukaryont
Als Mikroorganismen werden diejenigen Arten zusammengefasst, die mit dem bloßen Auge nicht zu erkennen sind. Dazu gehören Bakterien und Archaeen, aber auch Pilze wie die Hefe Saccharomyces cerevisiae.
Mikroorganismen
Die komplette Erbinformation eines Lebewesens heißt Genom.
Genom
Es wird angenommen, dass nur 1 % aller Mikroorganismen im Labor kultivierbar ist. Die Metagenomik versucht, die Gesamtheit aller Genome eines Biotops zu bestimmen. Hierzu wird dem Biotop eine Probe entnommen, es wird DNA isoliert und deren Sequenz bestimmt. Die Menge der gefundenen DNA-Sequenzen nennt man Metagenom.
Metagenom
Die Systembiologie versucht, Organismen als Ganzes zu verstehen. Deswegen ist sie auf die Analyse des Zusammenwirkens vieler Gene oder Proteine angewiesen. Zu den wichtigsten Werkzeugen der Systembiologie gehören Hochdurchsatzmethoden, die mit jedem Experiment umfangreiche Sätze von Messwerten erheben. Hochdurchsatzmethoden und ihre Anwendungen werden häufig im Kontext biochemischer Spezialdisziplinen genannt, deren Namen die Endsilbe „omik“ tragen. Diese widmen sich dem Studium biologischer „Datensätze“ deren Namen auf „om“ enden. Zu den wichtigsten Disziplinen gehören Genomik, Transkriptomik, Proteomik und Metabolomik.
Systembiologie
Genomik fokussiert sich auf die Erforschung des Genoms, d. h. die Gesamtheit aller Gene. Untersucht werden das Zusammenwirken der Gene, ihre Bedeutung für das Wachstum und die Entwicklung sowie für die Steuerung biologischer Systeme. Im Rahmen von Genomprojekten muss die Gesamtsequenz der DNA aufgeklärt und annotiert werden.
Genomik
Transkriptomik ist der Versuch, spezifische Expressionsmuster von Genen zu identifizieren und zu analysieren. Das Transkriptom ist das transkriptionelle Profil einer Zelle in einem spezifischen Zustand. Es wird aus der Menge biochemisch nachweisbarer mRNA-Moleküle abgeleitet. Dieser Ansatz beruht auf einem zentralen Dogma der Genombiologie. Es besagt, dass die Transkription von Genen genau dann erfolgt, wenn die zugehörigen Genprodukte aufgrund einer spezifischen Situation benötigt werden. Daher erlaubt der Vergleich von mRNA-Konzentrationen diejenigen Gene zu identifizieren die unter den, durch die jeweiligen Proben repräsentierten Bedingungen aktiviert werden.
Transkriptomik
Proteomik zielt darauf ab, Proteinkonzentrationen direkt zu bestimmen, um auf diese Weise einen exakten Status aktiver Genfunktionen abzuleiten. Dies ist eine heroische Aufgabe: Viele Proteine werden posttranslational modifiziert, sodass z. B. eine menschliche Zelle mehr als eine Million unterschiedlicher Proteinvarianten enthalten kann. Es ist sehr schwer, diese mit biochemischen Methoden zu unterscheiden.
Proteomik
Metabolomik beschäftigt sich mit dem Problem, all die Moleküle (die Metaboliten) zu identifizieren, die zu einem definierten Zeitpunkt in einer Zelle vorhanden sind. Zu dieser Menge gehören jedoch weder die DNA- oder RNA-Moleküle noch Enzyme oder Strukturelemente der Zelle.
Metabolomik
Lernmodule zur 3D-Darstellung von DNA- und Proteinmolekülen sowie weiteres Übungsmaterial finden Sie auf der begleitenden Website.
Interaktives Arbeiten
1 Osawa S., Jukes T. H., Watanabe K., Muto A. (1992) Recent evidence for evolution of the genetic code. Microbiol Rev, 56(1), 229–264.
2 Jimenez-Montano M. A. (1994) On the syntactic structure and redundancy distribution of the genetic code. Biosystems, 32(1), 11–23.
3 Kagawa Y., Nojima H., Nukiwa N., Ishizuka M., Nakajima T., Yasuhara T., Tanaka T., Oshima T. (1984) High guanine plus cytosine content in the third letter of codons of an extreme thermophile. DNA sequence of the isopropylmalate dehydrogenase of Thermus thermophilus. J Biol Chem, 259(5), 2956–2960.
4 Bernardi G., Bernardi G. (1986) Compositional constraints and genome evolution. J Mol Evol, 24(1–2), 1–11.
5 Hori H., Osawa S. (1987) Origin and evolution of organisms as deduced from 5S ribosomal RNA sequences. Mol Biol Evol, 4(5), 445–472.
6 Cox E. C., Yanofsky C. (1967) Altered base ratios in the DNA of an Escherichia coli mutator strain. Proc Natl Acad Sci U S A, 58(5), 1895–1902.
7 Nghiem Y., Cabrera M., Cupples C. G., Miller J. H. (1988) The mutY gene: a mutator locus in Escherichia coli that generates G.C-T.A transversions. Proc Natl Acad Sci U S A, 85(8), 2709–2713.
8 Salzberg S. L., Delcher A. L., Kasif S., White O. (1998) Microbial gene identification using interpolated Markov models. Nucleic Acids Res, 26(2), 544–548.
9 Sharp P. M., Cowe E., Higgins D. G., Shields D. C., Wolfe K. H., Wright F. (1988) Codon usage patterns in Escherichia coli, Bacillus subtilis, Saccharomyces cerevisiae, Schizosaccharomyces pombe, Drosophila melanogaster and Homo sapiens; a review of the considerable within-species diversity. Nucleic Acids Res, 16(17), 8207–8211.
10 Andersson S. G., Kurland C. G. (1990) Codon preferences in free-living microorganisms. Microbiol Rev, 54(2), 198–210.
11 Karlin S., Mrazek J. (2000) Predicted highly expressed genes of diverse prokaryotic genomes. J Bacteriol, 182(18), 5238–5250.
12 Sharp P. M., Li W. H. (1986) An evolutionary perspective on synonymous codon usage in unicellular organisms. J Mol Evol, 24(1–2), 28–38.
13 Ikemura T. (1981) Correlation between the abundance of Escherichia coli transfer RNAs and the occurrence of the respective codons in its protein genes. J Mol Biol, 146(1), 1–21.
14 Ikemura T. (1985) Codon usage and tRNA content in unicellular and multicellular organisms. Mol Biol Evol, 2(1), 13–34.
15 Sørensen M. A., Kurland C. G., Pedersen S. (1989) Codon usage determines translation rate in Escherichia coli. J Mol Biol, 207(2), 365–377.
16 Najafabadi H. S., Salavati R. (2008) Sequence-based prediction of protein-protein interactions by means of codon usage. Genome Biol, 9(5), R87.
17 Hawley D. K., McClure W. R. (1983) Compilation and analysis of Escherichia coli promoter DNA sequences. Nucleic Acids Res, 11(8), 2237–2255.
18 Birney E., Stamatoyannopoulos J. A., Dutta A., Guigo R., Gingeras T. R., Margulies E. H., Weng Z., Snyder M., Dermitzakis E. T., Thurman R. E. et al (2007) Identification and analysis of functional elements in 1% of the human genome by the ENCODE pilot project. Nature, 447(7146), 799–816.
19 Carninci P., Kasukawa T., Katayama S., Gough J., Frith M. C., Maeda N., Oyama R., Ravasi T., Lenhard B., Wells C. et al (2005) The transcriptional landscape of the mammalian genome. Science, 309(5740), 1559–1563.
20 Whelan S., Goldman N. (2001) A general empirical model of protein evolution derived from multiple protein families using a maximum-likelihood approach. Mol Biol Evol, 18(5), 691–699.
21 Taylor W. R. (1986) The classification of amino acid conservation. J Theor Biol, 119(2), 205–218.
22 Dunbrack R. L., Jr. (2002) Rotamer libraries in the 21st century. Curr Opin Struct Biol, 12(4), 431–440.
23 Ponder J. W., Richards F. M. (1987) Tertiary templates for proteins. Use of packing criteria in the enumeration of allowed sequences for different structural classes. J Mol Biol, 193(4), 775–791.
24 Dunbrack R. L., Jr., Karplus M. (1993) Backbone-dependent rotamer library for proteins. Application to side-chain prediction. J Mol Biol, 230(2), 543–574.
25 Ramachandran G. N., Ramakrishnan C., Sasisekharan V. (1963) Stereochemistry of polypeptide chain configurations. J Mol Biol, 7, 95–99.
26 Caetano-Anolles G., Kim H. S., Mittenthal J. E. (2007) The origin of modern metabolic networks inferred from phylogenomic analysis of protein architecture. Proc Natl Acad Sci U S A, 104(22), 9358–9363.
27 Wierenga R. K. (2001) The TIM-barrel fold: a versatile framework for efficient enzymes. FEBS Lett, 492, 193–198.
28 Sterner R., Höcker B. (2005) Catalytic versatility, stability, and evolution of the (βα)8-barrel enzyme fold. Chem Rev, 105(11), 4038–4055.
29 Knippers R. (1995) Molekulare Genetik, G. Thieme Verlag, Heidelberg.
30 Andreeva A., Howorth D., Chandonia J. M., Brenner S. E., Hubbard T. J., Chothia C., Murzin A. G. (2008) Data growth and its impact on the SCOP database: new developments. Nucleic Acids Res, 36(Database issue), D419–425.
In der Molekularbiologie und der Bioinformatik wird unter einer Sequenz meist eine Zeichenkette verstanden, die ein Stück DNA oder Protein als Folge von Symbolen beschreibt. Die Sequenz ist eine Abstraktion eines Makromoleküls; sie definiert die lineare Abfolge (Primärstruktur) von Basen im Falle der DNA bzw. von Aminosäuren im Falle von Proteinen. Diese Sequenzen werden durch evolutionäre Vorgänge variiert, wobei die Evolution auf „erfolgreiche“ Strukturen (Proteine, regulatorische Elemente etc.) baut, die dupliziert und/oder modifiziert werden. Dieselben oder ähnliche molekulare Strukturen werden wiederverwendet. „Duplikation und Modifikation“ ist das zentrale Paradigma der Proteinevolution. Es ist zu beachten, dass der Begriff „Sequenz“ in der Informatik anders belegt ist; biologische „Sequenzen“ würden in der Begriffswelt der Informatik als Zeichenketten (strings) bezeichnet.
Im Folgenden wird der Begriff Sequenz immer mit der Bedeutung verwendet, die in der Biologie üblich ist.
Bei der Reduktion einer Tertiärstruktur auf die Sequenz geht eine Fülle von Information verloren. Daher wird ein Vergleich von Sequenzen weniger aussagekräftig sein müssen als ein Vergleich von 3D-Strukturen. Dieser Unterschied wird offensichtlich beim Vergleich einer Proteinsequenz mit der Raumstruktur, die von diesem Protein im nativen Zustand eingenommen wird: Nach der Faltung in eine 3D-Struktur können Residuen, die in der Sequenz weit voneinander entfernt liegen, im Protein räumlich eng benachbart sein. Dennoch haben Algorithmen auf Sequenzen, insbesondere die zum Sequenzvergleich, trotz dieser Einschränkungen in der Molekularbiologie eine enorme Bedeutung. Dies gilt auch deswegen, weil von vielen Proteinen nur die Sequenz, nicht jedoch die 3D-Struktur bekannt ist.
Sequenzen stehen meist für Gene oder Genprodukte, d. h. häufig für Proteine. Anfangs wurden Proteinfunktionen mit frei wählbaren Begriffen annotiert. Eine automatische Prozessierung setzt jedoch das Verwenden streng kontrollierter Klassifikationsmerkmale voraus. Daher wurden für die Angabe von Enzymfunktionen die EC-Nummern eingeführt. Ein allgemeineres Klassifikationskonzept sind Ontologien, die sich allmählich auch in der Biologie durchsetzen. Wir stellen in diesem Kapitel die Gen-Ontologie (GO) vor, die zur Beschreibung von Genprodukten dient.
Beschreibung von Genfunktionen mithilfe von Klassifikationssystemen
Zunächst legen wir jedoch in diesem Kapitel das Fundament für den sicheren Umgang mit Sequenzen. Wir führen das Objekt selbst sowie Operationen auf Sequenzen ein, anschließend betrachten wir alternative Alphabete zur Notation von Proteinsequenzen.
Sequenzen sind, so wie wir sie verwenden, im mathematischen Sinne schlicht Buchstabenfolgen. Eine formale Definition lautet wie folgt:
Definitionen: Alphabet, Sequenzen
Sei ∑ ein Alphabet, d. h. eine endliche Menge von Zeichen. Sequenzen sind Zeichenreihen über ∑.Es ist∑0 := {ε} (ε steht für die leere Sequenz)∑n+1 := {aA | a ∈ ∑, A ∈ ∑n}∑* := ∑n, ∀ n ≥ 0∑* heißt die Menge aller Sequenzen (Worte) über ∑∑n ist die Menge aller n-Sequenzen (n-Worte, n-mere)
Die Menge ∑0 enthält genau ein Element, das leere Wort ε. Die Mengen ∑n+1 werden jeweils iterativ aus den Mengen ∑n gebildet, indem jedem Wort A aus ∑n eines der Zeichen a aus ∑ vorangestellt wird. ∑* enthält schließlich, als Vereinigungsmenge aller Mengen ∑n, Sequenzen jeder beliebigen Länge n. ∀ n ≥ 0 meint: „Für alle“ (∀) n größer/gleich null.
Erläuterung der Notation
{aA | a ∈ ∑, A ∈ ∑n} wird gelesen als die Menge aller Sequenzen aA mit der Eigenschaft (|) a Element (∈) aus ∑, A Element aus ∑n. a ist hierbei ein Zeichen, A ist bereits eine Sequenz der Länge n aus ∑n. Durch Konkatenation wird das Wort aA gebildet.
Beispiele für Alphabete sind die Zeichen des ASCII-Codes, das DNA- und AS-Alphabet oder {R, Y} ein Alphabet zur Unterscheidung von PuRin und PYrimidin-Basen in der DNA. Weitere Beispiele für Alphabete folgen unten.
Beispiele für Alphabete
Für den Umgang mit Sequenzen benötigen wir einige Operationen, um beispielsweise Teilsequenzen ansprechen zu können.
Seien A := a1a2 .. an und B := b1b2 .. bm zweiSequenzen. Dann gilt:|A| := n (Länge der Sequenz)AB := a1a2 .. anb1b2 .. bm Konkatenation
Operationen auf Sequenzen
AB ist die Sequenz, die entsteht, wenn wir die Sequenzen A und B aneinanderfügen (konkatenieren). Im Folgenden werden wir meist Sequenzen der Längen n bzw. m betrachten. Hierbei ist der numerische Wert dieser Variablen nicht genauer definiert. Mit einer Sequenz A kann ein ganzes Chromosom gemeint sein, daher ergibt sich n stets nach Zuweisung. Bestimmte Teilsequenzen haben spezielle Namen, die wir als Nächstes einführen wollen.
Sei A := a1a2 .. an eine Sequenz, dann gilt:A[i, j] := ai…aj· ∀ i, j | 1 ≤ i, j ≤ n ist eine Teilsequenz(*)A[1, i] := a1…ai ∀ i | 1 ≤ i ≤ n ist ein PräfixA[i, n] := ai…an ∀ i | 1 ≤ i ≤ n ist ein Suffix
Teilsequenz, Präfix, Suffix
(*) wird gelesen als: A[i,j] ist eine Teilsequenz für alle (∀) i,j für die gilt: 1 ≤ i, j ≤ n. Anstelle des Terms Teilsequenz wird häufig der Begriff Infix verwendet. Damit ist auch die Sequenz A eine Teilsequenz von A ebenso wie das leere Wort e. Wir unterstellen hier stillschweigend i ≤ j.
Anmerkungen,
DNA-Sequenzen werden notiert als Folgen der vier Buchstaben A, C, G und T, die für die vier Basen bzw. Nucleotide stehen. Um in Sequenzen auch Mehrdeutigkeiten angeben zu können, wird der in Tabelle 2.1 angegebene Code verwendet.
Notation für DNA-Sequenzen
Der Code für die Notation von Aminosäuresequenzen (siehe Tabelle 2.2) ist von den Namen der Aminosäuren abgeleitet. Es werden zwei unterschiedliche Codes verwendet; dies sind der Dreibuchstabencode, dessen Elemente ohne großes Nachdenken leicht in die Namen übersetzt werden können, sowie der platzsparende Einbuchstabencode.
Ein Beispiel für eine Proteinsequenz zeigt Abb. 2.1. Dies ist die Sequenz des CAP-Monomers, dessen 3D-Struktur wir im Kapitel 1 vorgestellt haben. Aufgrund der physikalisch-chemischen Eigenschaften und z. B. struktureller Präferenzen der Aminosäuren können weitere Alphabete für die Codierung von Proteinsequenzen gebildet werden, die sich an speziellen Charakteristiken orientieren. In Tabelle 2.3 sind einige Beispiele zusammengestellt, die aus [1] stammen; weitere sind in [2] angegeben.
Codes für die Beschreibung von Proteinsequenzen
Tab. 2.1 Alphabet für DNA-Sequenzen. Ein Mnemonic ist ein Begriff, der das Memorieren erleichtern soll.
Zeichen
Nucleotide
Mnemonic
A
A
Adenin
B
C,G,T
nicht A
C
C
Cytosin
D
A,G,T
nicht C
G
G
Guanin
H
A,C,T
nicht G
K
G,T
M
A,C
N
A,C,G,T
a
N
y
R
A,G
pu
R
in
S
G,C
S
trong
(3 H-Bindungen)
T
T
T
hymin
V
A,C,G
nicht T
W
A,T
W
eak
(2 H-Bindungen)
Y
C,T
p
Y
rimidin
Abb. 2.1 Proteinsequenz des CAP-Monomers. Die Sequenz ist im FASTA-Format angegeben. Die erste Zeile beginnt hierbei stets mit einem „>“, dem ein beliebiger Bezeichner für die Sequenz folgt. Die nächsten Zeilen listen die Sequenz.
Tab. 2.2 Alphabet für Proteinsequenzen. Es sind der Dreibuchstaben- und der Einbuchstabencode der Aminosäuren angegeben. Der Einbuchstabencode ist von den englischen Namen der Aminosäuren abgeleitet.
Reduzierte Alphabete werden in der Bioinformatik nur für spezielle Anwendungen genutzt, da die in der Sequenz enthaltene Information in ein gröberes Raster gezwängt wird. Genau der umgekehrte Weg, nämlich der einer präziseren Beschreibung der Ansprüche an allen Positionen im Protein, bewirkt in vielen Algorithmen eine erhebliche Steigerung der Empfindlichkeit. Dies gelingt z. B. durch Auswertung und Verwendung von multiplen Sequenzalignments anstelle einzelner Sequenzen. Tabelle 2.3 ist dennoch informativ: Die Tabelle belegt einerseits, nach welch vielfältigen Eigenschaften Aminosäuren klassifiziert werden können, zeigt jedoch auch, dass praktisch jede Gruppe mit mindestens zwei Aminosäuren besetzt ist. Dies lässt darauf schließen, dass sich Aminosäuren substituieren können.
Weitere Alphabete für die Codierung von Proteinsequenzen
Tab. 2.3 Beispiele für alternative Aminosäuren-Alphabete. Die Aminosäuren werden zur Alphabetbildung in Abhängigkeit von ihren Eigenschaften zu Gruppen zusammengefasst.
Alphabet
Größe
Grundlage der Alphabetbildung
{ambivalent, extern, intern}
mit
ambivalent
:= {Ala, Cys, Gly, Pro, Ser, Thr, Trp, Tyr}
extern
:= {Arg, Asn, Asp, Gln, Glu, His, Lys}
intern
:= {Ile, Leu, Met, Phe, Val}
3
Strukturelle Präferenzen der Aminosäuren
{sauer, aliphatisch, amidisch, aromatisch, basisch, hydroxyl, imino, schwefel}
mit
sauer
:= {Asp, Glu}
aliphatisch
:= {Ala, Gly, Ile, Leu, Val}
amidisch
:= {Asn, Gln}
aromatisch
:= {Phe, Trp, Tyr}
basisch
:= {Arg, His, Lys}
hydroxyl
:= {Ser, Thr}
imino
:= {Pro}
schwefel
:= {Cys, Met}
8
Chemische Eigenschaften der Aminosäuren
{sauer, basisch, hydrophob nicht polar, polar nicht geladen}
mit
sauer
und
basisch
wie oben,
hydrophob nicht polar
:= {Ala, Ile, Leu, Met, Phe, Pro, Trp, Val}.
polar nicht geladen
:= {Asn, Cys, Gln, Gly, Ser, Thr, Tyr}
4
Funktionen der Aminosäuren
{sauer, basisch, neutral}
mit
sauer
und
basisch
wie oben,
neutral
:= alle anderen Aminosäuren
3
Ladung der Aminosäuren
{hydrophil, hydrophob}
mit
hydrophil
:= {Arg, Asn, Asp, Cys, Gln, Glu, Gly, His, Lys, Ser, Thr, Tyr}
hydrophob
:= {Ala, Ile, Leu, Met, Phe, Pro, Trp, Val}
2
Hydrophobizität der Aminosäuren
Häufig müssen Sequenzen miteinander verglichen werden, um ihren „Inhalt“ zu interpretieren. So interessiert z. B., welche Funktion von einem betrachteten Gen codiert wird. Wir werden in den folgenden Kapiteln Algorithmen vorstellen, die sich genau dieser Frage widmen. Bei anderen Fragestellungen kommt es jedoch nicht auf den Inhalt, sondern auf die Zusammensetzung von Sequenzen an. Welche Parameter kommen für eine Charakterisierung von Sequenzen infrage? Für die Analyse oder den Vergleich von Proteinsequenzen bietet es sich an, das Vorkommen (die Häufigkeit f(asi)) der Aminosäuren zu bestimmen und die resultierende Tabelle mit 20 Werten mit einer zweiten zu vergleichen. So können z. B. die Unterschiede zum Wert As_diff aufaddiert werden:
Sequenzvergleich im Hinblick auf die Zusammensetzung
Hierbei sind M1 und M2 zwei Mengen von Proteinsequenzen und fMj (asi) ist das Vorkommen der Aminosäure asi im Datensatz Mj. Im Extremfall könnte M1 die Menge sämtlicher Proteine sein, die aus einem Genom stammen und M2