70,99 €
Bioinformatik
Der Marktführer bei den Bioinformatiklehrbüchern in neuer Auflage und mit dem neuen Thema Molekulardynamik
Bioinformatik ist eine Kerndisziplin in den modernen Biowssenschaften, von der Biotechnologie über die Biochemie und Molekularbiologie bis zur Molekulargenetik und Molekularmedizin. Sie ist eine essenzielle Grundlage für alle “omics”-Technologien, für die Strukturbiologie, die Systembiologie sowie die synthetische Biologie.
Bioinformatik. Grundlagen, Algorithmen, Anwendungen bietet eine umfassende Einführung in die wichtigsten Methoden der Bioinformatik. Der Autor erklärt dabei sowohl die mathematischen und biologischen Grundlagen als auch die wichtigsten Software-Tools und deren Anwendungsbereiche. Schwerpunkte sind Methoden zum Sequenzvergleich, Verfahren zur Charakterisierung von Proteinfamilien, Algorithmen zur Vorhersage von Protein- und RNA-Strukturen, Methoden des maschinellen Lernens und das Proteindesign.
Für die 4. Auflage wurde der Text durchgehend aktualisiert und um ein Kapitel zur Molekulardynamik erweitert. Neu aufgenommene Exkurse zu Meilensteinen der Bioinformatik und aktuellen Anwendungsgebieten lockern den Text auf. Auf der ebenfalls komplett überarbeiteten Begleit-Webseite werden interaktive Lernmodule bereitgestellt, einschließlich mehr als 120 Übungsaufgaben, zum Teil mit Lösungen.
Eine perfekte Einführung für alle Studenten der Lebenswissenschaften oder Informatik, die einen Einblick in die gängigen Methoden der Bioinformatik benötigen, sowie ein wertvoller Begleiter für alle, die bereits bioinformatische Werkzeuge nutzen und die zugrundeliegenden Konzepte verstehen möchten.
Sie lesen das E-Book in den Legimi-Apps auf:
Seitenzahl: 1170
Veröffentlichungsjahr: 2022
Cover
Titelseite
Impressum
Vorwort
Teil I: Grundlagen – Biologie und Datenbanken
1 Biologische Grundlagen
1.1 DNA
1.2 Genetischer Code und Genomkomposition
1.3 Transkription
1.4 RNA
1.5 Proteine
1.6 Peptidbindung
1.7 Konformation von Aminosäureseitenketten
1.8 Ramachandran-Plot
1.9 Hierarchische Beschreibung von Proteinstrukturen
1.10 Sekundärstrukturelemente
1.11 α-Helix
1.12 β-Faltblätter
1.13 Supersekundärstrukturelemente
1.14 Proteindomänen
1.15 Proteinfamilien
1.16 Enzyme
1.17 Proteinkomplexe
1.18 Evolutionäre Prozesse
1.19 Fachbegriffe
Literatur
2 Sequenzen und ihre Funktion
2.1 Definitionen und Operatoren
2.2 DNA-Sequenzen
2.3 Proteinsequenzen
2.4 Vergleich der Sequenzkomposition
2.5 Ontologien
2.6 Analyse der Anreicherung von GO-Termen
2.7 Semantische Ähnlichkeit von GO-Termen
Literatur
3 Datenbanken
3.1 Nukleotidsequenzdatenbanken
3.2 RNA-Sequenz-Datenbanken
3.3 Proteinsequenzdatenbanken
3.4 3-D-Struktur-Datenbanken
3.5 SMART: Analyse der Domänenarchitektur
3.6 STRING: Proteine und ihre Interaktionen
3.7 SCOP: Strukturelle Klassifikation von Proteinen
3.8 Pfam: Kompilation von Proteinfamilien
3.9 COG und eggNOG: Gruppen orthologer Gene
3.10 KEGG: Gene, Genome und Krankheiten
3.11 NCBI-Datenbanken: Literatur und biologisches Wissen
3.12 Weitere Datenbanken
Literatur
Teil II: Lernen, Optimieren und Entscheiden
4 Grundbegriffe der Stochastik
4.1 Grundbegriffe der beschreibenden Statistik
4.2 Zufallsvariable, Wahrscheinlichkeitsmaß
4.3 Urnenexperimente und diskrete Verteilungen
4.4 Die kolmogoroffschen Axiome
4.5 Bedingte Wahrscheinlichkeit, Unabhängigkeit, Satz von Bayes
4.6 Markov-Ketten
4.7 Erwartungswert, Varianz
4.8 Wichtige Wahrscheinlichkeitsverteilungen
4.9 Schätzer
4.10 Grundlagen statistischer Tests
4.11 Eine optimale Entscheidungstheorie: die Neyman-Pearson-Methode
Literatur
5 Bayessche Entscheidungstheorie und Klassifikatoren
5.1 Bayessche Entscheidungstheorie
5.2 Marginalisieren
5.3 Boosting
5.4 ROC-Kurven
5.5 Testmethoden für kleine Trainingsmengen
Literatur
6 Klassische Cluster- und Klassifikationsverfahren
6.1 Metriken und Clusteranalyse
6.2 Das mittlere Fehlerquadrat als Gütemaß
6.3 Ein einfaches iteratives Clusterverfahren
6.4 𝑘-Means-Clusterverfahren
6.5 Hierarchische Clusterverfahren
6.6 Affinity propagation
6.7 Bewertung der Clusterverfahren
6.8 Überlappende Cluster
6.9 Nächster-Nachbar-Klassifikation
6.10 𝑘-nächste-Nachbarn-Klassifikation
Literatur
7 Neuronale Netze
7.1 Architektur von neuronalen Netzen
7.2 Das Perzeptron
7.3 Modellieren boolscher Funktionen
7.4 Lösbarkeit von Klassifikationsaufgaben
7.5 Universelle Approximation
7.6 Lernen in neuronalen Netzen
7.7 Der Backpropagation-Algorithmus
7.8 Codieren der Eingabe
7.9 Selbstorganisierende Karten
7.10 Tiefe Architekturen
7.11 Ein einfaches Neuron, die
rectified linear unit
7.12 Das Neocognitron als alternatives Modellierparadigma
7.13 Faltung mithilfe von CNNs
7.14 Längerfristiges Speichern von Eingabedaten
7.15 Attention-basierte Netze
Literatur
8 Genetische Algorithmen
8.1 Objekte und Funktionen
8.2 Ablauf des Verfahrens
8.3 Codieren der Problemstellung
8.4 Der Begriff des Schemas
8.5 Dynamik der Anzahl von Schemata
8.6 Limitationen genetischer Algorithmen
8.7 Genetisches Programmieren
Literatur
Teil III: Algorithmen und Modelle der Bioinformatik
9 Paarweiser Sequenzvergleich
9.1 Dotplots
9.2 Entwickeln eines optimalen Alignment-Verfahrens
9.3 Levenshtein-Distanz
9.4 Bestimmen der Ähnlichkeit von Sequenzen
9.5 Optimales Bewerten von Lücken
9.6 Einordnung der Algorithmen
Literatur
10 Sequenzmotive
10.1 Signaturen
10.2 Die PROSITE-Datenbank
10.3 Die BLOCKS-Datenbank
10.4 Sequenzprofile
10.5 Scores für Promotorsequenzen
10.6 Möglichkeiten und Grenzen profilbasierter Klassifikation
10.7 Sequenzlogos
10.8 Konsensussequenzen
10.9 Sequenzen niedriger Komplexität
10.10 Der SEG-Algorithmus
Literatur
11 Scoring-Schemata
11.1 Theorie von Scoring-Matrizen
11.2 Algorithmenbedingte Anforderungen
11.3 Identitätsmatrizen
11.4 PAM-Einheit
11.5 PAM-Matrizen
11.6 Ein moderner PAM-Ersatz: die JTT-Matrix
11.7 BLOSUM-Matrizen
11.8 Matrixentropie
11.9 Scoring-Schemata und Anwendungen
11.10 Flexible Erweiterung: Scoring-Funktionen
Literatur
12 FASTA und die BLAST-Suite
12.1 FASTA
12.2 BLAST
12.3 Vergleich der Empfindlichkeit von FASTA und BLAST
12.4 Ansätze zur Performanzsteigerung
12.5 Profilbasierter Sequenzvergleich
12.6 PSI-BLAST
12.7 Sensitivität verschiedener Sequenzvergleichsmethoden
12.8 Vergleich von Profilen und Konsensussequenzen
12.9 DELTA-BLAST
12.10 Alternative Ansätze
Literatur
13 Multiple Sequenzalignments und Anwendungen
13.1 Berechnen von Scores für multiple Sequenzalignments
13.2 Iteratives Berechnen eines Alignments
13.3 ClustalW: Ein klassischer Algorithmus
13.4 T-Coffee
13.5 M-Coffee und 3D-Coffee
13.6 Alternative Ansätze
13.7 Alignieren großer Datensätze mit Clustal Omega
13.8 Alignieren großer Proteinsequenzdatensätze mit DECIPHER
13.9 Charakterisierung von Residuen mithilfe von Alignments
13.10 Alignment von DNA- und RNA-Sequenzen
Literatur
14 Grundlagen phylogenetischer Analysen
14.1 Einteilung phylogenetischer Ansätze
14.2 Distanzbasierte Verfahren
14.3 Linkage-Algorithmen
14.4 Der Neighbour-Joining-Algorithmus
14.5 Parsimony-Methoden
14.6 Maximum-Likelihood-Ansätze
14.7 Grundannahmen phylogenetischer Algorithmen
14.8 Statistische Bewertung phylogenetischer Bäume
Literatur
15 Markov-Ketten und Hidden-Markov-Modelle
15.1 Ein epigenetisches Signal: CpG-Inseln
15.2 Finite Markov-Ketten
15.3 Kombination zweier Ketten zu einem Klassifikator
15.4 Genvorhersage mithilfe inhomogener Ketten
15.5 Hidden-Markov-Modelle
15.6 Der Viterbi-Pfad
15.7 Ein HMM zur Erkennung von CpG-Inseln
15.8 Der Vorwärts- und der Rückwärtsalgorithmus
15.9 Schätzen von Parametern
15.10 Der Baum-Welch-Algorithmus
15.11 Entwurf von HMMs
15.12 Verwendung und Grenzen von HMMs
15.13 Wichtige Eigenschaften von Markov-Ketten
15.14 Markov-Ketten-Monte-Carlo-Verfahren
15.15 Weitere Anwendungen von Markov-Ketten
Literatur
16 Profil-HMMs
16.1 HMM-Struktur zur Beschreibung von Proteinfamilien
16.2 Suche nach homologen Sequenzen
16.3 Modellbau für Profil-HMMs
16.4 Approximieren von Wahrscheinlichkeitsdichten
16.5 HHsearch: Vergleich zweier Profil-HMMs
Literatur
17 Support-Vektor-Maschinen
17.1 Beschreibung des Klassifikationsproblems
17.2 Lineare Klassifikatoren
17.3 Klassifizieren mit großer Margin
17.4 Kernel-Funktionen und Merkmalsräume
17.5 Implizite Abbildung in den Merkmalsraum
17.6 Eigenschaften von Kernel-Funktionen
17.7 Häufig verwendete Kernel-Funktionen
17.8 Aus Merkmalen abgeleitete Kernel-Funktionen
17.9 Support-Vektor-Maschinen in der Anwendung
17.10 Multiklassen-SVM
17.11 Theoretischer Hintergrund
Literatur
18 Vorhersage der Sekundärstruktur
18.1 Vorhersage der Proteinsekundärstruktur
18.2 Vorhersage der RNA-Sekundärstruktur
Literatur
19 Vergleich von Protein-3-D-Strukturen
19.1 Grundlagen des Strukturvergleichs
19.2 Simulated annealing
19.3 DALI: fragmentbasierte Superposition
19.4 Fr-TM-align: Alignieren von Fragmenten
19.5 SPalignNS: optimales Kombinieren von Residuenpaaren
19.6 FAST: Vergleich der lokalen Geometrie
19.7 DeepAlign: Verwenden eines Strukturalphabets
19.8 Multiple Superpositionen
Literatur
20 Vorhersage der Protein-3-D-Struktur, Proteindesign und Moleküldynamik
20.1 Threading-Verfahren
20.2
3D-1D-Profile
: profilbasiertes Threading
20.3 Wissensbasierte Kraftfelder
20.4 Rotamerbibliotheken
20.5 MODELLER
20.6 Bewerten der Modellqualität
20.7 Alternative Modellieransätze
20.8 ROSETTA/ROBETTA
20.9 Moleküldynamiksimulationen
Literatur
21 Analyse integraler Membranproteine
21.1 Architektur integraler Membranproteine
21.2 Spezifische Probleme beim Sequenzvergleich
21.3 Vorhersage der Topologie von α-helikalen IMPs
21.4 Vorhersage der Struktur von β-Fässern
Literatur
22 Entschlüsselung von Genomen
22.1 Shotgun-Sequenzierung
22.2 Erwartete Anzahl von Contigs beim Shotgun-Ansatz
22.3 Basecalling und Sequenzqualität
22.4 Der klassische Assemblieransatz
22.5 Assemblieren kurzer Fragmente
22.6 Assemblieren langer und fehlerbehafteter Reads
22.7 Annotation kompletter Genome
22.8 Metagenomik
Literatur
23 Auswertung von Transkriptomdaten
23.1 DNA-Chip-Technologie
23.2 Analyse von DNA-Chip-Signalen
23.3 Identifizieren differenziell exprimierter Gene
23.4 RNA-Sequenzierung
23.5 Analyse der RNA-Sequenzen
23.6 Einzelzell-RNA-Sequenzierung
23.7 Metriken zum Vergleich von Expressionsdaten
23.8 Analyse kompletter Expressionsdatensätze
23.9 Hauptkomponentenanalyse
23.10 Biclusterverfahren
23.11 Grenzen und Alternativen bei der Expressionsanalyse
23.12 Genexpressions-Profiling
23.13 Visualisieren mithilfe von Wärmekarten
23.14 Datenaufbereitung für systembiologische Fragestellungen
Literatur
24 Analyse von Protein-Protein-Interaktionen
24.1 Biologische Bedeutung des Interaktoms
24.2 Methoden zum Bestimmen des Interaktoms
24.3 Vergleich von Codonhäufigkeiten
24.4 Analyse des Genominhaltes
24.5 Suche nach korrelierten Mutationen
24.6 Vergleich phylogenetischer Bäume
24.7 Vorhersage des Interaktoms der Hefe
24.8 Strukturbasierte Protein-Protein-Interaktionsvorhersagen
24.9 Netzwerkbasierte Protein-Protein-Interaktionsvorhersagen
Literatur
25 Big Data und Deep Learning: neue Herausforderungen und Möglichkeiten
25.1 Klassifikation mit Random Forests
25.2 Sequenzbasierte Vorhersage der Protein-3-D-Struktur
25.3 Berechnen einer Feinstruktur großer Proteinfamilien
25.4 Positionierung von Nukleosomen
25.5 Auswertung großer Datensätze mit tiefen Lernverfahren
25.6 Analyse des menschlichen Genoms mithilfe von ENCODE-Daten
Literatur
26 Zum Schluss
26.1 Informatik in schwierigem Umfeld
26.2 Ungelöste Probleme und Herausforderungen
Literatur
Stichwortverzeichnis
End User License Agreement
Kapitel 1
Tab. 1.1 Der genetische Code. Die Zahlen geben die Nukleotidposition im Codon an...
Tab. 1.2 Gemittelte Codonhäufigkeiten im Genom von
Escherichia coli
K-12. Die Su...
Tab. 1.3 Vorkommen der Aminosäuren in Proteinen. Die Werte sind in Prozent angeg...
Kapitel 2
Tab. 2.1 Alphabet für DNA-Sequenzen. Ein Mnemonic ist ein Begriff, der das Memor...
Tab. 2.2 Alphabet für Proteinsequenzen. Es sind der Dreibuchstaben- und der Einb...
Tab. 2.3 Beispiele für alternative Aminosäurealphabete. Die Aminosäuren werden z...
Kapitel 3
Tab. 3.1 Ausschnitt aus einer PDB-Datei. Die beiden Einträge definieren jeweils ...
Tab. 3.2 COG-Kategorien. Alle COG-Gruppen sind einer dieser Kategorien zugeordne...
Tab. 3.3 Einige wichtige Datenbanken des NCBI. Der für September 2020 gemeldete ...
Kapitel 4
Tab. 4.1 Augenzahlen bei einem 93-maligen Werfen eines Würfels.
Tab. 4.2 Situation beim statistischen Test. Der Anteil von Entscheidungen wird mithilfe ...
Kapitel 7
Tab. 7.1 Vergleich wichtiger Eigenschaften von RNN- und Transformer-Ansätzen.
Kapitel 8
Tab. 8.1 Vergleich von üblichem Binär- mit dem Gray-Code. Der Gray-Code ist so d...
Kapitel 10
Tab. 10.1 Ausschnitt aus dem Block zur PROSITE-Gruppe PS00344. Nach dem Namen de...
Tab. 10.2 Profil für eine Menge alignierter Sequenzen. In diesem Beispiel wurden...
Tab. 10.3 Berechnen der Konsensussequenz
S
M
. Durch Anwenden der Mehrheitsregel a...
Kapitel 11
Tab. 11.1 Die PAM250-Matrix. Die Aminosäuren sind so angeordnet, dass diejenigen...
Tab. 11.2 Die BLOSUM62-Matrix. Die Werte zeigen, dass ein Match seltener Aminosä...
Tab. 11.3 Entropie für Scoring-Matrizen der BLOSUM- und PAM-Familie. Für den Ver...
Kapitel 12
Tab. 12.1 Liste aller
w
-
mere
der Länge zwei mit einem Score
T
größer acht für di...
Tab. 12.2 Vergleich der Performanz beim Identifizieren evolutionärer Verwandtsch...
Tab. 12.3 Auswertung des
PDB40-J
Datensatzes unter Verwendung zweier Methoden. A...
Tab. 12.4 Auffindegenauigkeit für homologe Proteine aus den sieben SCOP-Klassen....
Kapitel 13
Tab. 13.1 Beginn der Tabelle mit paarweise berechneten Scores für das globale Al...
Tab. 13.2 Performanz von vier Verfahren zum Erzeugen von MSAs. Für Sequenzen, di...
Tab. 13.3 Performanz von neun Verfahren, die in der Lage sind, MSAs aus großen D...
Tab. 13.4 Scoring-System für das Bewerten der Sekundärstrukturvorhersage durch D...
Tab. 13.5 Log-Odds-Scores
G
ki
für das Auftreten von Aminosäuren
as
i
an den Resid...
Kapitel 15
Tab. 15.1 Übergangswahrscheinlichkeiten für Nukleotide in CpG-Inseln (+-Modell) ...
Tab. 15.2 Berechnen der Viterbi-Variablen und des Viterbi-Pfades. Die Sequenz
x
...
Kapitel 16
Tab. 16.1 Parameter des BLOCKS_9-Dirichlet-Gemisches. Es besteht aus neun Komponenten, ...
Tab. 16.2 Bevorzugte Aminosäuren der neun Komponenten des BLOCKS_9-Gemisches. Fü...
Kapitel 18
Tab. 18.1 Einteilung der Aminosäuren im Hinblick auf ihre Tendenz, die Sekundärs...
Kapitel 19
Tab. 19.1 Die CLESUM-
pp
(oben) und die CLESUM-
hh
-Matrix (unten). Mit den Werten a...
Tab. 19.2 Einfluss der Teilscores auf die Performanz von
DeepAlign
. CDD, MALIDUP...
Kapitel 20
Tab. 20.1 Beispiele für die Verwendung von Protein-3-D-Modellen. Für jeden Anwen...
Tab. 20.2 In Abhängigkeit vom Flächenanteil der Seitenkette, der nicht lösungsmi...
Tab. 20.3 Einteilung der Klassen B und P in Abhängigkeit vom Flächenanteil der S...
Tab. 20.4 Scores für das Vorkommen der Aminosäuren in den 18 Environment-Klassen...
Tab. 20.5 Beispiele für die Übertragung von Constraints von der Templatauf die T...
Tab. 20.6 Scores, die in der ersten Phase der Fragmentinsertion berechnet werden...
Tab. 20.7 Energieterme der REF15-Energiefunktion und ihre Gewichtung.
Tab. 20.8 Beispiele für Scores, die in ROSETTA für die Optimierung auf Atomnivea...
Kapitel 24
Tab. 24.1 Vergleich dreier genombasierter Methoden zur Vorhersage von Protein-Pr...
Tab. 24.2 Eigenschaften, die bei der Entwicklung eines Klassifikators für die Vo...
Cover
Inhaltsverzeichnis
Titelseite
Impressum
Vorwort
Begin Reading
Stichwortverzeichnis
End User License Agreement
IX
III
IV
V
VI
VII
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
530
531
532
533
534
535
536
537
538
539
540
541
542
543
544
545
546
547
548
549
550
551
552
553
554
555
556
557
558
559
560
561
562
563
564
565
566
567
568
569
570
571
572
573
574
575
576
577
578
579
580
581
582
583
584
585
586
587
588
589
590
591
592
593
594
595
596
597
598
599
600
601
602
603
604
605
606
607
608
609
610
611
612
613
614
615
616
617
618
619
620
621
622
623
624
625
626
627
628
629
630
631
632
633
634
635
636
637
638
639
640
641
642
643
644
645
646
647
648
649
650
651
652
653
654
655
656
657
658
659
660
661
662
663
664
665
666
667
668
669
670
671
672
673
674
675
676
677
678
679
680
681
682
683
684
685
686
687
688
689
690
691
692
693
694
695
696
697
698
699
700
701
702
703
704
705
706
707
708
709
710
711
712
713
714
715
716
717
718
719
720
721
722
723
724
725
726
727
728
729
Rainer Merkl
Vierte Auflage
Autor
Prof. Dr. Rainer Merkl
Institut für Biophysik undphysikalische BiochemieUniversität RegensburgUniversitätsstr. 3193053 RegensburgDeutschland
Titelbild/Zeichnungen
Unter Verwendung einer Abbildung von Shutterstock 2006929433/Frogella
Alle Bücher von WILEY-VCH werden sorgfältig erarbeitet. Dennoch übernehmen Autoren, Herausgeber und Verlag in keinem Fall, einschließlich des vorliegenden Werkes, für die Richtigkeit von Angaben, Hinweisen und Ratschlägen sowie für eventuelle Druckfehler irgendeine Haftung.
Bibliografische Information der Deutschen Nationalbibliothek
Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar.
© 2022 Ernst & Sohn GmbH, Rotherstraße 21, 10245 Berlin, Germany
Alle Rechte, insbesondere die der Übersetzung in andere Sprachen, vorbehalten. Kein Teil dieses Buches darf ohne schriftliche Genehmigung des Verlages in irgendeiner Form – durch Photokopie, Mikroverfilmung oder irgendein anderes Verfahren – reproduziert oder in eine von Maschinen, insbesondere von Datenverarbeitungsmaschinen, verwendbare Sprache übertragen oder übersetzt werden. Die Wiedergabe von Warenbezeichnungen, Handelsnamen oder sonstigen Kennzeichen in diesem Buch berechtigt nicht zu der Annahme, dass diese von jedermann frei benutzt werden dürfen. Vielmehr kann es sich auch dann um eingetragene Warenzeichen oder sonstige gesetzlich geschützte Kennzeichen handeln, wenn sie nicht eigens als solche markiert sind.
Satz le-tex publishing services GmbH, Leipzig
Print ISBN 978-3-527-34949-4
ePDF ISBN 978-3-527-83390-0
ePub ISBN 978-3-527-83389-4
Gedruckt auf säurefreiem Papier.
Im letzten Jahrhundert hat sich in der biologischen Forschung der reduktionistische Ansatz als besonders erfolgreich erwiesen. Damit ist der Versuch gemeint, komplexe Lebensphänomene als vernetztes Zusammenwirken einfacher, in der Sprache der Physik oder Chemie beschriebener Vorgänge zu verstehen. Allerdings ist mittlerweile die Einsicht gereift, dass Lebensvorgänge mit solchen Top-down-Methoden, die komplexe Vorgänge in einfachere zerlegen, nicht vollständig zu verstehen sind. Daher sind Bottom-up-Verfahren wichtig geworden. Diese versuchen, das Zusammenspiel der einzelnen Elemente in ihrer Gesamtheit zu modellieren. Die ,,Omik“-Ansätze und die Konzepte der Systembiologie zielen genau in diese Richtung. So wurden die Ergebnisse der Genomik, Transkriptomik, Proteomik und Metabolomik zu einer wichtigen Quelle für weiterführende Analysen und überraschende Einsichten, wie folgende Beispiele belegen.
Drei wichtige Beiträge bioinformatischer Analysen
Die Sequenzierung des menschlichen Genoms hat ergeben, dass der Mensch nicht, wie vorher angenommen, bis zu 100 000 Gene, sondern nur circa 20 000 besitzt. Diese Anzahl entspricht der des Fadenwurms Caenorhabditis elegans. Deswegen war dieses Ergebnis für viele Fachleute völlig unerwartet, da bis dato genetische Komplexität direkt mit der Anzahl von Genen korreliert worden war. Der Befund löste einen Paradigmenwechsel aus, seither wird die Komplexität eines biologischen Systems an der Vielschichtigkeit seiner Interaktionsnetzwerke gemessen.
Das ENCODE-Projekt zielt darauf ab, alle funktionellen Elemente des menschlichen Genoms zu identifizieren. In der Pilotphase wurde überraschenderweise festgestellt, dass praktisch das komplette menschliche Genom abgelesen und in RNA übersetzt wird. Mittlerweile ist klar geworden, dass viele RNA-Moleküle in Regulationsvorgänge eingreifen. Das Konzept, diese Genombereiche als funktionslose junk DNA aufzufassen, war damit obsolet.
Die Sequenzierung des Schnabeltier-Genoms hat unter anderem ergeben, dass diese Art die Gene für Milchproteine besitzt, obwohl sie Eier legt. Seine Giftproteine und die Schlangengifte stammen von denselben Genfamilien ab, haben sich allerdings unabhängig entwickelt. Aus dem Vergleich molekularer Daten wurde abgeleitet, dass sich der Vorfahre des Schnabeltiers vor circa 166 Millionen Jahren von der Linie abspaltete, die später zu den Säugetieren führte. Somit ist das Schnabeltier das vom Menschen am weitesten entfernte Säugetier.
Die Bioinformatik ist ein wichtiger Teil biologischer Forschung
Wie werden derartige Befunde erhoben? Die für die Datenanalyse notwendigen Werkzeuge liefert die Bioinformatik, ein spezieller Zweig der Computerwissenschaft, der sich seit Mitte des 20. Jahrhunderts zunächst kontinuierlich und in den letzten Jahren rasant entwickelte. Zu den ersten, eher bescheidenen Aufgaben, die Biologen an Mathematiker und Informatiker herantrugen, gehörten die statistische Auswertung der wenigen, damals vorhandenen Sequenzen und deren Speicherung. Heutzutage werden sowohl für das Vorhalten der exponentiell wachsenden Datenmengen als auch für den Betrieb hochkomplexer Programmsuiten leistungsfähige Serverfarmen benötigt. Die Lebenswissenschaften haben, wie andere Wissenschaftsdisziplinen auch, eine Big-Data-Revolution hinter sich und tiefe Lernverfahren haben längst Einzug gehalten. Daher ist der Aufwand enorm, der auf technischer und theoretischer Seite betrieben werden muss, um den berechtigten Ansprüchen und Forderungen der Anwender zu genügen. Diese Komplexität bleibt aber meist hinter einfach zu bedienenden Grafikoberflächen oder Programmierschnittstellen verborgen. Meist müssen aber zusätzlich zur eigentlichen Eingabe Programmparameter gesetzt werden, und die Ausgabe ist komplex, da beispielsweise die Zuverlässigkeit von Vorhersagen mit statistischen Kennwerten unterfüttert wird.
Zielsetzung und Leserschaft
Aufgrund der Komplexität der modernen bioinformatischen Werkzeuge ist für einen sicheren und souveränen Umgang fundiertes Wissen über die umgesetzten Techniken erforderlich. Nur wer die Eigenschaften und vor allem die Limitationen der Verfahren kennt, kann sie optimal einsetzen, ihre Ausgabe korrekt bewerten und die Algorithmen verbessern. Daher ist eine Beschäftigung mit den grundlegenden Methoden und speziellen Konzepten, die sich in der Bioinformatik entwickelt haben, für Anwendende ratsam und für diejenigen, die selbst bioinformatische Werkzeuge entwickeln wollen, unbedingte Voraussetzung.
Der vorliegende Text stellt wichtige bioinformatische Methoden und Lösungsansätze vor. Einen großen Anteil nehmen Verfahren ein, die sich der Analyse von Sequenzen widmen, da sie die größten Datenbestände ausmachen. Es wurde großer Wert auf eine praxisnahe Darstellung gelegt, in die viele Beispiele und Illustrationen eingestreut sind. Zusätzlich wird auf einer Webseite Material für Übungen angeboten. Diese sollen auch dazu dienen, den kritischen Umgang mit bioinformatischen Werkzeugen zu trainieren.
Diese vierte Auflage profitierte ganz erheblich von der Zuarbeit meines Teams und den Anregungen von Studierenden. Mein besonderer Dank gilt Dr. F. Weinreich und Dr. A. Sendtko vom Verlag Wiley-VCH und dem Team der le-tex publishing services GmbH in Leipzig, die mich in allen Belangen stets tatkräftig unterstützten.
April 2022, Obertraubling
Rainer Merkl
Auf einer eigenen Website werden Übungen angeboten, die interaktiv unter Verwendung eines Browsers und mithilfe frei verfügbarer Software sowie unter Benutzung öffentlich zugänglicher Server bearbeitet werden können. Verweise auf die wichtigsten Lerneinheiten sind bei den folgenden Kapiteln angegeben. Die Übungen haben einerseits das Ziel, das Erfassen und Verstehen der Algorithmen und Modelle weiter zu festigen und erlauben es andererseits, Werkzeuge in konkreten Anwendungen praktisch zu erproben. Das Übungsmaterial befindet sich auf
http://www.wiley-vch.de/home/bioinformatik
Die Beschäftigung mit Algorithmen kann faszinieren. Dies gilt insbesondere dann, wenn komplexe und spannende Probleme zu lösen sind. Zu dieser Kategorie von Aufgaben zählen auch diejenigen, die an die Bioinformatik herangetragen werden. Häufig müssen aus einer schier nicht zu bewältigenden Datenfülle verrauschte Signale herausgefiltert werden. Nur durch den Einsatz moderner Techniken und unter Berücksichtigung von Erkenntnissen aus der Mathematik, der Statistik und natürlich der Informatik ist es möglich, bioinformatische Algorithmenentwicklung voranzutreiben. Zusätzlich ist eine gewisse Vertrautheit mit den biologischen Strukturen und dynamischen Prozessen, die im Rechner zu modellieren sind, notwendig und hilfreich. Diese Grundlagen schaffen wir uns in Teil I.
Im ersten Kapitel werden wichtige Eigenschaften von DNA, RNA und Proteinen erläutert. Zusätzlich werden solche Fakten zu biologischen Objekten und Prozessen eingeführt, die für das Verständnis der im weiteren Text dargestellten biologischen Fragestellungen und informatischen Lösungsansätze benötigt werden.
Anschließend wird die Datenstruktur Sequenz mit der in der Biologie eingeführten Bedeutung vorgestellt. Wir werden uns mit Operationen auf Sequenzen sowie verschiedenen Alphabeten, die zur Codierung von DNA- und Proteinsequenzen definiert wurden, beschäftigen. Sequenzen bilden die Grundlage für viele der später eingeführten Algorithmen; sie werden uns im gesamten Text ständig begegnen. Die uns interessierenden Moleküle haben eine wichtige biologische Funktion. Für deren Beschreibung werden zunehmend Ontologien genutzt. Wir beschäftigen uns intensiver mit der Gen-Ontologie, die dazu dient, die Funktion von Genprodukten exakt und konsistent zu beschreiben.
Schließlich befassen wir uns mit bioinformatischen Datenbanken. So werden beispielsweise Sequenzen oder Proteinstrukturen sowie Wissen über ihre biologische Funktion, ihre Eigenschaften, ihr Vorkommen etc. in zentralen Datenbanken gesammelt. Diese bilden den ,,Heiligen Gral“ der Bioinformatik. Bei nahezu jeder bioinformatischen Fragestellung wird in irgendeiner Weise auf Datenbanken und das darin abgelegte Wissen zurückgegriffen. Dies kann im Rahmen so unterschiedlicher Aufgaben erfolgen wie der statistischen Auswertung von Sequenzen, dem Vermessen von Reaktionszentren, dem Identifizieren von Transkriptionsfaktoren oder der Analyse von Hochdurchsatzdatensätzen. Datenbanken sind auch die Quelle für das Zusammenstellen von Trainingsmengen, die benötigt werden, um bioinformatische Werkzeuge zu validieren und zu optimieren. Die Qualität bioinformatischer Algorithmen, d. h. deren Ausgabe muss sich an den in den Datenbanken deponierten und durch biochemische Experimente abgesicherten Fakten messen lassen.
Zusätzlich zu Sequenz- und Strukturdatenbanken ist eine Fülle weiterer Datensammlungen entstanden. Wir werden einige der sogenannten sekundären Datenbanken kennenlernen, in denen abgeleitetes Wissen angeboten wird. Dazu zählen ausführliche Beschreibungen von Genomen und Stoffwechselvorgängen oder hierarchische Schemata zur Klassifikation von Proteinfamilien.
In den folgenden Kapiteln beschäftigen wir uns meist mit Algorithmen, die Eigenschaften von Makromolekülen bewerten oder vergleichen. Für das Verständnis der Algorithmen und der zugrunde liegenden informatischen Methoden und Modellieransätze benötigen wir relativ wenige biologische Grundkenntnisse, die in diesem Kapitel eingeführt werden. Zu den wichtigsten molekularbiologischen Substanzklassen gehören DNA, RNA und Proteine. Dies sind Makromoleküle, die jeweils aus einer Abfolge kleinerer Bausteine bestehen. Die DNA ist beispielsweise aus Nukleotiden aufgebaut und deren lineare Anordnung kann in Form einer Zeichenkette (Sequenz) angegeben werden. Das Konzept der Sequenzen betrachten wir im nächsten Kapitel genauer, im Folgenden konzentrieren wir uns zunächst auf biochemische und biophysikalische Eigenschaften der genannten Molekülklassen.
Die DNA ist der wichtigste Datenträger in der Molekularbiologie; das Genom einer Spezies, das die komplette genetische Information enthält, ist in DNA-Molekülen codiert. In den letzten Jahrzehnten wurden Hochdurchsatzmethoden entwickelt, die es erlauben, DNA-Sequenzen mit geringem Aufwand und in kurzer Zeit zu ermitteln. Aus diesen Gründen werden bevorzugt Genomsequenzen bestimmt, da deren Kenntnis häufig ausreicht, die Komposition der anderen Makromoleküle (RNA und Proteine) abzuleiten. Die biologische Bedeutung der RNA hat durch neuere Erkenntnisse enorm zugenommen. Es ist klar geworden, dass RNA-Moleküle nicht nur an der Umsetzung der genetischen Information in Proteine beteiligt sind. Sie übernehmen in erheblichem Ausmaß auch Regulationsaufgaben, was lange unbekannt war. Proteine sind die wichtigsten Baustoffe aller biologischen Zellen. Sie geben den Zellen oft ihre Struktur und sind beispielsweise in Form von Enzymen essenzielle Komponenten der meisten Stoffwechselvorgänge.
Die In-vivo-Funktion von DNA, RNA und Proteinen kann nur anhand der dreidimensionalen Molekülstruktur verstanden werden. Im Vergleich zu den eher uniformen Raumstrukturen der DNA- und RNA-Moleküle bilden Proteine eine enorme Vielfalt unterschiedlichster Strukturen aus. Deswegen nimmt im Folgenden die Darstellung von Proteinarchitekturen einen breiteren Raum ein. Nach der Beschreibung typischer Protein-3-D-Strukturen beschäftigen wir uns mit Proteineigenschaften, die in bioinformatischen Algorithmen von Bedeutung sind.
Die in der Natur vorkommende Vielfalt von Lebewesen ist entstanden, weil sich vererbte organische Strukturen aufgrund von Evolutionsvorgängen in den biologischen Arten unterschiedlich entwickelt haben. Wir müssen uns daher auch mit dem Wesen von biologischen Evolutionsprozessen beschäftigen, da diese einen wesentlichen Teil der informatischen Modellbildung ausmachen. Das Kapitel schließt mit einer Definition wichtiger Fachbegriffe.
Abb. 1.1 Raumstruktur der DNA. In diesem DNA-Fragment ist die Doppelhelix gut zu erkennen. Die basischen Anteile der Nukleotide sind nach innen gerichtet und durch Wasserstoffbrücken verknüpft. Die Wasserstoffbrücken sind in dieser Abbildung nicht markiert. Außen verlaufen die Zucker-Phosphat-Anteile der polymerisierten Nukleotide; sie sind orange dargestellt. Die Raumstruktur dieses DNA-Fragments wurde mit experimentellen Methoden bestimmt, sodass die exakte Position aller DNA-Elemente bekannt ist und visualisiert werden kann.
Im bioinformatischen Kontext beschreiben Sequenzen in der Regel eine bestimmte Abfolge von Einzelbausteinen, die aus einer kleinen und definierten Menge stammen. So sind DNA-Sequenzen einfache Modelle für Makromoleküle der Desoxyribonucleinsäure (abgekürzt DNS oder DNA), die in der Natur als fädige Struktur vorliegt. Die Grundbausteine sind vier Nukleotide, diese bestehen jeweils aus
einem Zucker (in der DNA: Desoxyribose),
einer der zwei Purin-(Adenin, Guanin) oder zwei Pyrimidinbasen (Cytosin, Thymin),
einem Phosphatrest.
Abb. 1.2 Basenpaarungen in der DNA. In der als Doppelhelix bekannten DNA-Struktur liegen sich jeweils paarweise die Basen Adenin und Thymin oder Guanin und Cytosin gegenüber. Zwischen A:T-Paaren können zwei und zwischen G:C-Paaren drei Wasserstoffbrücken ausgebildet werden. Je höher der Anteil von G:C-Paaren ist, desto mehr Energie muss für das Trennen der beiden Stränge einer DNA-Doppelhelix aufgewendet werden.
Ein DNA-Strang ist aus einer Abfolge von Nukleotiden aufgebaut und in der Zelle kommt die DNA üblicherweise in doppelsträngiger Form vor, die eine Doppelhelix bildet. In der Helix stehen sich Nukleotide paarweise gegenüber, wobei nur zwei Paarungen zugelassen sind (siehe Abb. 1.1 und 1.2). In den Zellkernen höherer Arten ist die DNA um Nukleosomen gewickelt, die sich zu komplexeren Strukturen zusammenlagern. Dieser Befund ist für die bioinformatischen Kernalgorithmen ohne Belang.
Die Funktion und Struktur von Makromolekülen wird maßgeblich durch Wasserstoffbrücken determiniert. Eine Wasserstoffbrücke ist eine anziehende elektromagnetische Wechselwirkung zwischen einem kovalent in einem Molekül gebundenen Wasserstoff und einem elektronegativen Atom wie Stickstoff oder Sauerstoff. Diese Bindung kann im Gegensatz zu einer kovalenten Atombindung mit geringem Energieaufwand gelöst werden.
Aufgrund des chemischen Aufbaus der Nukleotide hat jeder DNA-Strang beliebiger Länge eine eindeutige Orientierung mit jeweils einem freien 3′-OH- und einem 5′-OH-Ende. Sequenzen werden nach Übereinkunft stets so geschrieben, dass das 5′-OH-Ende links und das 3′-OH-Ende rechts steht. In vivo ist die DNA-Doppelhelix meist zu einem Ring geschlossen, z. B. in Chromosomen oder Plasmiden. Darin sind die beiden komplementären DNA-Stränge gegenläufig angeordnet. Die durch den Aufbau vorgegebene Orientierung bedingt die Richtung, in der Gene abgelesen werden. Da Gene auf beiden Strängen codiert sein können, in Datensammlungen jedoch nur die Sequenz eines Stranges abgelegt wird, muss zum Bestimmen der Sequenz des Gegenstranges das reverse Komplement gebildet werden.
Die Sequenzinformation eines jeden Proteins ist in Form eines Gens in der DNA-Sequenz codiert. Jeweils drei direkt aufeinanderfolgende Nukleotide, die nicht überlappend abgelesen werden, codieren für eine Aminosäure. Eine solche Nukleotidgruppe wird Triplett oder Codon genannt. Die Abbildung der 64 Tripletts auf die 20 Aminosäuren heißt genetischer Code, dieser ist in Tab. 1.1 dargestellt. Der Code ist quasi universell, abweichende Codonzuordnungen finden sich aber z. B. bei Mitochondrien, Mycoplasma und einigen Protozoen [1]. Stoppcodonen terminieren die für Proteine codierenden Gensequenzen.
Tab. 1.1 Der genetische Code. Die Zahlen geben die Nukleotidposition im Codon an. In einigen speziellen Fällen, wie in mitochondrialen Genomen, kann es Abweichungen von diesem kanonischen Code geben. Die Namen der Aminosäuren sind im Dreibuchstabencode angegeben (siehe Tab. 2.2 in Kap. 2).
2
T
C
A
G
1
T
TTT
Phe
TCT
Ser
TAT
Tyr
TGT
Cys
T
3
TTC
Phe
TCC
Ser
TAC
Tyr
TGC
Cys
C
TTA
Leu
TCA
Ser
TAA
Stop
TGA
Stop
A
TTG
Leu
TCG
Ser
TAG
Stop
TGG
Trp
G
C
CTT
Leu
CCT
Pro
CAT
His
CGT
Arg
T
CTC
Leu
CCC
Pro
CAC
His
CGC
Arg
C
CTA
Leu
CCA
Pro
CAA
Gln
CGA
Arg
A
CTG
Leu
CCG
Pro
CAG
Gln
CGG
Arg
G
A
ATT
Ile
ACT
Thr
AAT
Asn
AGT
Ser
T
ATC
Ile
ACC
Thr
AAC
Asn
AGC
Ser
C
ATA
Ile
ACA
Thr
AAA
Lys
AGA
Arg
A
ATG
Met
ACG
Thr
AAG
Lys
AGG
Arg
G
G
GTT
Val
GCT
Ala
GAT
Asp
GGT
Gly
T
GTC
Val
GCC
Ala
GAC
Asp
GGC
Gly
C
GTA
Val
GCA
Ala
GAA
Glu
GGA
Gly
A
GTG
Val
GCG
Ala
GAG
Glu
GGG
Gly
G
Quelle: Basierend auf [1].
Abb. 1.3 Übersetzen eines DNA-Fragments in Proteinsequenzen. DNA kann in sechs Leserastern in Codonen übersetzt werden; pro Leserichtung ergeben sich jeweils drei Leseraster. In dieser DNA-Sequenz kommt nur ein ORF vor, die resultierende Proteinsequenz ist durch Fettdruck hervorgehoben. Ein ORF ist eine DNA-Teilsequenz, die durch ein Start- und ein Stoppcodon flankiert wird. Die Namen der Aminosäuren sind im Dreibuchstabencode angegeben, *** steht für die Sequenz von Stoppcodonen.
Die Struktur der DNA legt die Lage der einzelnen Gene innerhalb einer DNA-Sequenz nicht fest. Daher ergeben sich – wegen der zwei möglichen Ableserichtungen und der drei möglichen Intervalle pro Leserichtung – insgesamt sechs Leseraster. Prinzipiell kann jede Codonsequenz ein Gen codieren, sofern sie mit einem Startcodon beginnt und mit einem Stoppcodon endet. Eine derartige Sequenz wird zur Unterscheidung von Genen, für die eine Funktion nachgewiesen ist, offenes Leseraster (open reading frame, ORF) genannt. Das Übersetzten der Gensequenz in eine Proteinsequenz beginnt an einem Startcodon und endet am nächsten Stoppcodon. Die Codonsequenz der drei Stoppcodonen ist eindeutig definiert, als Startcodon dient häufig ,,ATG“, das aber auch für die Aminosäure Methionin codiert.
Diese Situation wird im folgenden Beispiel klar (siehe Abb. 1.3). Je nach Leseraster resultieren aus derselben DNA-Sequenz unterschiedliche Proteinsequenzen. Im gezeigten Beispiel existiert genau ein ORF (hier im Leseraster 1), dessen Lage durch ein Startcodon (Met) und ein Stoppcodon (durch *** markiert) definiert ist; in allen anderen Leserastern treten in der gezeigten Sequenz Stoppcodonen auf oder es fehlt ein Startcodon. Nur ein kleiner Teil der ORFs codiert für Gene und diese bestehen in der Regel aus mehr als 80 Codonen.
Der Informationsgehalt 𝐼 der drei Basenpositionen im Codon ist unterschiedlich, es gilt 𝐼(Position 2) > 𝐼(Position 1) > 𝐼(Position 3) [2]. Für diese Ungleichheit ist der genetische Code verantwortlich: Ein Blick auf Tab. 1.1 macht klar, dass eine Mutation der dritten Base im Codon die Aminosäurenkomposition häufig nicht verändert. Zudem resultiert eine Mutation in der ersten Basenposition im Einbau einer Aminosäure mit ähnlichen Eigenschaften, eine Mutation der mittleren Base verursacht häufig den Einbau einer Aminosäure mit anderen Eigenschaften [1]. Die geringsten Auswirkungen auf die Aminosäurenkomposition der Proteine haben somit Veränderungen der Basenkomposition in Position drei des Codons, gefolgt von Veränderungen der Basenkomposition an Position eins. Diese Befunde machen deutlich, dass simple statistische Konzepte nicht dazu geeignet sind, codierende Sequenzen adäquat zu modellieren: Es kann nicht unterstellt werden, dass die Basen voneinander unabhängig in Genen auftreten.
Der GC-Gehalt, d. h. der relative Anteil von Guanin und Cytosin an der DNA ist eine charakteristische Größe eines Genoms. Der mittlere GC-Gehalt von bakteriellen Genomen schwankt zwischen 20 und 75 % [3]. In G:C-Basenpaaren werden drei Wasserstoffbrückenbindungen ausgebildet, in A:T-Basenpaaren nur zwei; daher wurde lange vermutet, dass ein hoher GC-Gehalt des Genoms z. B. für thermophile [4] oder halophile [5] Organismen vorteilhaft wäre. Thermophile Organismen leben in Habitaten mit erhöhten Umgebungstemperaturen, halophile kommen in Umgebungen mit erhöhter Salzkonzentration vor. Es hat sich jedoch herausgestellt, dass der mittlere GC-Gehalt nicht von solchen Umweltfaktoren abhängt, sondern wohl durch evolutionären Druck eingestellt wird [6]. Zudem hängt der GC-Gehalt von Eigenschaften des DNA-Replikationssystems ab, dessen Aufgabe es ist, Kopien des Erbguts für die nächste Generation herzustellen. Aus dem Vergleich des GC-Gehalts der Genome solcher Bakteriophagen, die ihr eigenes DNA-Replikationssystem und solcher, die das Replikationssystem des Wirts Escherichia coli verwenden, mit dem GC-Gehalt des Genoms von Escherichiacoli wurde geschlossen, dass der GC-Gehalt vom DNA-Replikationssystem moduliert wird [1]. Bestimmte Mutationen im mutT-Gen von Escherichia coli induzieren Transversionen von A:T-nach G:C-Basenpaaren [7] und Mutationen im mutY -Gen Transversionen von G:C-nach A:T-Basenpaaren [8]. Die Genprodukte beider Gene sind an der DNA-Replikation oder DNA-Reparatur beteiligt. Neben dem mittleren GC-Gehalt eines Genoms sind auch lokale Schwankungen von Interesse: Der GC-Gehalt des menschlichen Genoms beträgt circa 42 %; es gibt aber sogenannte CpG-Inseln, in denen der GC-Gehalt mehr als 50 % beträgt. Da CpG-Inseln in der Nähe von Promotoren (siehe Abschn. 1.3) gehäuft vorkommen, wurden bioinformatische Verfahren entwickelt, um sie zu identifizieren [9]. Auch der GC-Gehalt von RNA-Molekülen wird untersucht, da es definierte Bereiche gibt, deren GC-Gehalt auf die optimale Wachstumstemperatur schließen lässt [10].
Codonen kommen nicht mit annähernd gleicher Häufigkeit in Genen vor. Im Gegenteil, die Codonhäufigkeiten schwanken zwischen den taxonomischen Gruppen beträchtlich. Die Codonpräferenzen der beiden nahe verwandten Bakterien Escherichia coli und Salmonella typhimurium sind sich ähnlich. Codonhäufigkeiten des Bakteriums Bacillus subtilis, das zu beiden eine große phylogenetische Distanz aufweist, sind auffällig anders. Solche Unterschiede in den Codonpräferenzen erlauben es, die taxonomische Herkunft der DNA einzuschränken [11]. Statistische Verfahren wie Markov-Ketten werden z. B. im Programm Glimmer [12] dazu genutzt, die Lage von Genen vorherzusagen. Hierfür wird die Zusammensetzung von ORFs mit der speziesspezifischen Codonhäufigkeit verglichen.
Der genetische Code wird als degeneriert bezeichnet, da einige Aminosäuren durch mehrere Codonen codiert werden. Codonen, die für dieselbe Aminosäure codieren, werden synonyme Codonen genannt. Wie Tab. 1.2