Bioinformatik - Rainer Merkl - E-Book

Bioinformatik E-Book

Rainer Merkl

0,0
70,99 €

-100%
Sammeln Sie Punkte in unserem Gutscheinprogramm und kaufen Sie E-Books und Hörbücher mit bis zu 100% Rabatt.
Mehr erfahren.
Beschreibung

Bioinformatik

Der Marktführer bei den Bioinformatiklehrbüchern in neuer Auflage und mit dem neuen Thema Molekulardynamik

Bioinformatik ist eine Kerndisziplin in den modernen Biowssenschaften, von der Biotechnologie über die Biochemie und Molekularbiologie bis zur Molekulargenetik und Molekularmedizin. Sie ist eine essenzielle Grundlage für alle “omics”-Technologien, für die Strukturbiologie, die Systembiologie sowie die synthetische Biologie.

Bioinformatik. Grundlagen, Algorithmen, Anwendungen bietet eine umfassende Einführung in die wichtigsten Methoden der Bioinformatik. Der Autor erklärt dabei sowohl die mathematischen und biologischen Grundlagen als auch die wichtigsten Software-Tools und deren Anwendungsbereiche. Schwerpunkte sind Methoden zum Sequenzvergleich, Verfahren zur Charakterisierung von Proteinfamilien, Algorithmen zur Vorhersage von Protein- und RNA-Strukturen, Methoden des maschinellen Lernens und das Proteindesign.

Für die 4. Auflage wurde der Text durchgehend aktualisiert und um ein Kapitel zur Molekulardynamik erweitert. Neu aufgenommene Exkurse zu Meilensteinen der Bioinformatik und aktuellen Anwendungsgebieten lockern den Text auf. Auf der ebenfalls komplett überarbeiteten Begleit-Webseite werden interaktive Lernmodule bereitgestellt, einschließlich mehr als 120 Übungsaufgaben, zum Teil mit Lösungen.

Eine perfekte Einführung für alle Studenten der Lebenswissenschaften oder Informatik, die einen Einblick in die gängigen Methoden der Bioinformatik benötigen, sowie ein wertvoller Begleiter für alle, die bereits bioinformatische Werkzeuge nutzen und die zugrundeliegenden Konzepte verstehen möchten.

Sie lesen das E-Book in den Legimi-Apps auf:

Android
iOS
von Legimi
zertifizierten E-Readern

Seitenzahl: 1170

Veröffentlichungsjahr: 2022

Bewertungen
0,0
0
0
0
0
0
Mehr Informationen
Mehr Informationen
Legimi prüft nicht, ob Rezensionen von Nutzern stammen, die den betreffenden Titel tatsächlich gekauft oder gelesen/gehört haben. Wir entfernen aber gefälschte Rezensionen.



Inhaltsverzeichnis

Cover

Titelseite

Impressum

Vorwort

Teil I: Grundlagen – Biologie und Datenbanken

1 Biologische Grundlagen

1.1 DNA

1.2 Genetischer Code und Genomkomposition

1.3 Transkription

1.4 RNA

1.5 Proteine

1.6 Peptidbindung

1.7 Konformation von Aminosäureseitenketten

1.8 Ramachandran-Plot

1.9 Hierarchische Beschreibung von Proteinstrukturen

1.10 Sekundärstrukturelemente

1.11 α-Helix

1.12 β-Faltblätter

1.13 Supersekundärstrukturelemente

1.14 Proteindomänen

1.15 Proteinfamilien

1.16 Enzyme

1.17 Proteinkomplexe

1.18 Evolutionäre Prozesse

1.19 Fachbegriffe

Literatur

2 Sequenzen und ihre Funktion

2.1 Definitionen und Operatoren

2.2 DNA-Sequenzen

2.3 Proteinsequenzen

2.4 Vergleich der Sequenzkomposition

2.5 Ontologien

2.6 Analyse der Anreicherung von GO-Termen

2.7 Semantische Ähnlichkeit von GO-Termen

Literatur

3 Datenbanken

3.1 Nukleotidsequenzdatenbanken

3.2 RNA-Sequenz-Datenbanken

3.3 Proteinsequenzdatenbanken

3.4 3-D-Struktur-Datenbanken

3.5 SMART: Analyse der Domänenarchitektur

3.6 STRING: Proteine und ihre Interaktionen

3.7 SCOP: Strukturelle Klassifikation von Proteinen

3.8 Pfam: Kompilation von Proteinfamilien

3.9 COG und eggNOG: Gruppen orthologer Gene

3.10 KEGG: Gene, Genome und Krankheiten

3.11 NCBI-Datenbanken: Literatur und biologisches Wissen

3.12 Weitere Datenbanken

Literatur

Teil II: Lernen, Optimieren und Entscheiden

4 Grundbegriffe der Stochastik

4.1 Grundbegriffe der beschreibenden Statistik

4.2 Zufallsvariable, Wahrscheinlichkeitsmaß

4.3 Urnenexperimente und diskrete Verteilungen

4.4 Die kolmogoroffschen Axiome

4.5 Bedingte Wahrscheinlichkeit, Unabhängigkeit, Satz von Bayes

4.6 Markov-Ketten

4.7 Erwartungswert, Varianz

4.8 Wichtige Wahrscheinlichkeitsverteilungen

4.9 Schätzer

4.10 Grundlagen statistischer Tests

4.11 Eine optimale Entscheidungstheorie: die Neyman-Pearson-Methode

Literatur

5 Bayessche Entscheidungstheorie und Klassifikatoren

5.1 Bayessche Entscheidungstheorie

5.2 Marginalisieren

5.3 Boosting

5.4 ROC-Kurven

5.5 Testmethoden für kleine Trainingsmengen

Literatur

6 Klassische Cluster- und Klassifikationsverfahren

6.1 Metriken und Clusteranalyse

6.2 Das mittlere Fehlerquadrat als Gütemaß

6.3 Ein einfaches iteratives Clusterverfahren

6.4 𝑘-Means-Clusterverfahren

6.5 Hierarchische Clusterverfahren

6.6 Affinity propagation

6.7 Bewertung der Clusterverfahren

6.8 Überlappende Cluster

6.9 Nächster-Nachbar-Klassifikation

6.10 𝑘-nächste-Nachbarn-Klassifikation

Literatur

7 Neuronale Netze

7.1 Architektur von neuronalen Netzen

7.2 Das Perzeptron

7.3 Modellieren boolscher Funktionen

7.4 Lösbarkeit von Klassifikationsaufgaben

7.5 Universelle Approximation

7.6 Lernen in neuronalen Netzen

7.7 Der Backpropagation-Algorithmus

7.8 Codieren der Eingabe

7.9 Selbstorganisierende Karten

7.10 Tiefe Architekturen

7.11 Ein einfaches Neuron, die

rectified linear unit

7.12 Das Neocognitron als alternatives Modellierparadigma

7.13 Faltung mithilfe von CNNs

7.14 Längerfristiges Speichern von Eingabedaten

7.15 Attention-basierte Netze

Literatur

8 Genetische Algorithmen

8.1 Objekte und Funktionen

8.2 Ablauf des Verfahrens

8.3 Codieren der Problemstellung

8.4 Der Begriff des Schemas

8.5 Dynamik der Anzahl von Schemata

8.6 Limitationen genetischer Algorithmen

8.7 Genetisches Programmieren

Literatur

Teil III: Algorithmen und Modelle der Bioinformatik

9 Paarweiser Sequenzvergleich

9.1 Dotplots

9.2 Entwickeln eines optimalen Alignment-Verfahrens

9.3 Levenshtein-Distanz

9.4 Bestimmen der Ähnlichkeit von Sequenzen

9.5 Optimales Bewerten von Lücken

9.6 Einordnung der Algorithmen

Literatur

10 Sequenzmotive

10.1 Signaturen

10.2 Die PROSITE-Datenbank

10.3 Die BLOCKS-Datenbank

10.4 Sequenzprofile

10.5 Scores für Promotorsequenzen

10.6 Möglichkeiten und Grenzen profilbasierter Klassifikation

10.7 Sequenzlogos

10.8 Konsensussequenzen

10.9 Sequenzen niedriger Komplexität

10.10 Der SEG-Algorithmus

Literatur

11 Scoring-Schemata

11.1 Theorie von Scoring-Matrizen

11.2 Algorithmenbedingte Anforderungen

11.3 Identitätsmatrizen

11.4 PAM-Einheit

11.5 PAM-Matrizen

11.6 Ein moderner PAM-Ersatz: die JTT-Matrix

11.7 BLOSUM-Matrizen

11.8 Matrixentropie

11.9 Scoring-Schemata und Anwendungen

11.10 Flexible Erweiterung: Scoring-Funktionen

Literatur

12 FASTA und die BLAST-Suite

12.1 FASTA

12.2 BLAST

12.3 Vergleich der Empfindlichkeit von FASTA und BLAST

12.4 Ansätze zur Performanzsteigerung

12.5 Profilbasierter Sequenzvergleich

12.6 PSI-BLAST

12.7 Sensitivität verschiedener Sequenzvergleichsmethoden

12.8 Vergleich von Profilen und Konsensussequenzen

12.9 DELTA-BLAST

12.10 Alternative Ansätze

Literatur

13 Multiple Sequenzalignments und Anwendungen

13.1 Berechnen von Scores für multiple Sequenzalignments

13.2 Iteratives Berechnen eines Alignments

13.3 ClustalW: Ein klassischer Algorithmus

13.4 T-Coffee

13.5 M-Coffee und 3D-Coffee

13.6 Alternative Ansätze

13.7 Alignieren großer Datensätze mit Clustal Omega

13.8 Alignieren großer Proteinsequenzdatensätze mit DECIPHER

13.9 Charakterisierung von Residuen mithilfe von Alignments

13.10 Alignment von DNA- und RNA-Sequenzen

Literatur

14 Grundlagen phylogenetischer Analysen

14.1 Einteilung phylogenetischer Ansätze

14.2 Distanzbasierte Verfahren

14.3 Linkage-Algorithmen

14.4 Der Neighbour-Joining-Algorithmus

14.5 Parsimony-Methoden

14.6 Maximum-Likelihood-Ansätze

14.7 Grundannahmen phylogenetischer Algorithmen

14.8 Statistische Bewertung phylogenetischer Bäume

Literatur

15 Markov-Ketten und Hidden-Markov-Modelle

15.1 Ein epigenetisches Signal: CpG-Inseln

15.2 Finite Markov-Ketten

15.3 Kombination zweier Ketten zu einem Klassifikator

15.4 Genvorhersage mithilfe inhomogener Ketten

15.5 Hidden-Markov-Modelle

15.6 Der Viterbi-Pfad

15.7 Ein HMM zur Erkennung von CpG-Inseln

15.8 Der Vorwärts- und der Rückwärtsalgorithmus

15.9 Schätzen von Parametern

15.10 Der Baum-Welch-Algorithmus

15.11 Entwurf von HMMs

15.12 Verwendung und Grenzen von HMMs

15.13 Wichtige Eigenschaften von Markov-Ketten

15.14 Markov-Ketten-Monte-Carlo-Verfahren

15.15 Weitere Anwendungen von Markov-Ketten

Literatur

16 Profil-HMMs

16.1 HMM-Struktur zur Beschreibung von Proteinfamilien

16.2 Suche nach homologen Sequenzen

16.3 Modellbau für Profil-HMMs

16.4 Approximieren von Wahrscheinlichkeitsdichten

16.5 HHsearch: Vergleich zweier Profil-HMMs

Literatur

17 Support-Vektor-Maschinen

17.1 Beschreibung des Klassifikationsproblems

17.2 Lineare Klassifikatoren

17.3 Klassifizieren mit großer Margin

17.4 Kernel-Funktionen und Merkmalsräume

17.5 Implizite Abbildung in den Merkmalsraum

17.6 Eigenschaften von Kernel-Funktionen

17.7 Häufig verwendete Kernel-Funktionen

17.8 Aus Merkmalen abgeleitete Kernel-Funktionen

17.9 Support-Vektor-Maschinen in der Anwendung

17.10 Multiklassen-SVM

17.11 Theoretischer Hintergrund

Literatur

18 Vorhersage der Sekundärstruktur

18.1 Vorhersage der Proteinsekundärstruktur

18.2 Vorhersage der RNA-Sekundärstruktur

Literatur

19 Vergleich von Protein-3-D-Strukturen

19.1 Grundlagen des Strukturvergleichs

19.2 Simulated annealing

19.3 DALI: fragmentbasierte Superposition

19.4 Fr-TM-align: Alignieren von Fragmenten

19.5 SPalignNS: optimales Kombinieren von Residuenpaaren

19.6 FAST: Vergleich der lokalen Geometrie

19.7 DeepAlign: Verwenden eines Strukturalphabets

19.8 Multiple Superpositionen

Literatur

20 Vorhersage der Protein-3-D-Struktur, Proteindesign und Moleküldynamik

20.1 Threading-Verfahren

20.2

3D-1D-Profile

: profilbasiertes Threading

20.3 Wissensbasierte Kraftfelder

20.4 Rotamerbibliotheken

20.5 MODELLER

20.6 Bewerten der Modellqualität

20.7 Alternative Modellieransätze

20.8 ROSETTA/ROBETTA

20.9 Moleküldynamiksimulationen

Literatur

21 Analyse integraler Membranproteine

21.1 Architektur integraler Membranproteine

21.2 Spezifische Probleme beim Sequenzvergleich

21.3 Vorhersage der Topologie von α-helikalen IMPs

21.4 Vorhersage der Struktur von β-Fässern

Literatur

22 Entschlüsselung von Genomen

22.1 Shotgun-Sequenzierung

22.2 Erwartete Anzahl von Contigs beim Shotgun-Ansatz

22.3 Basecalling und Sequenzqualität

22.4 Der klassische Assemblieransatz

22.5 Assemblieren kurzer Fragmente

22.6 Assemblieren langer und fehlerbehafteter Reads

22.7 Annotation kompletter Genome

22.8 Metagenomik

Literatur

23 Auswertung von Transkriptomdaten

23.1 DNA-Chip-Technologie

23.2 Analyse von DNA-Chip-Signalen

23.3 Identifizieren differenziell exprimierter Gene

23.4 RNA-Sequenzierung

23.5 Analyse der RNA-Sequenzen

23.6 Einzelzell-RNA-Sequenzierung

23.7 Metriken zum Vergleich von Expressionsdaten

23.8 Analyse kompletter Expressionsdatensätze

23.9 Hauptkomponentenanalyse

23.10 Biclusterverfahren

23.11 Grenzen und Alternativen bei der Expressionsanalyse

23.12 Genexpressions-Profiling

23.13 Visualisieren mithilfe von Wärmekarten

23.14 Datenaufbereitung für systembiologische Fragestellungen

Literatur

24 Analyse von Protein-Protein-Interaktionen

24.1 Biologische Bedeutung des Interaktoms

24.2 Methoden zum Bestimmen des Interaktoms

24.3 Vergleich von Codonhäufigkeiten

24.4 Analyse des Genominhaltes

24.5 Suche nach korrelierten Mutationen

24.6 Vergleich phylogenetischer Bäume

24.7 Vorhersage des Interaktoms der Hefe

24.8 Strukturbasierte Protein-Protein-Interaktionsvorhersagen

24.9 Netzwerkbasierte Protein-Protein-Interaktionsvorhersagen

Literatur

25 Big Data und Deep Learning: neue Herausforderungen und Möglichkeiten

25.1 Klassifikation mit Random Forests

25.2 Sequenzbasierte Vorhersage der Protein-3-D-Struktur

25.3 Berechnen einer Feinstruktur großer Proteinfamilien

25.4 Positionierung von Nukleosomen

25.5 Auswertung großer Datensätze mit tiefen Lernverfahren

25.6 Analyse des menschlichen Genoms mithilfe von ENCODE-Daten

Literatur

26 Zum Schluss

26.1 Informatik in schwierigem Umfeld

26.2 Ungelöste Probleme und Herausforderungen

Literatur

Stichwortverzeichnis

End User License Agreement

Tabellenverzeichnis

Kapitel 1

Tab. 1.1 Der genetische Code. Die Zahlen geben die Nukleotidposition im Codon an...

Tab. 1.2 Gemittelte Codonhäufigkeiten im Genom von

Escherichia coli

K-12. Die Su...

Tab. 1.3 Vorkommen der Aminosäuren in Proteinen. Die Werte sind in Prozent angeg...

Kapitel 2

Tab. 2.1 Alphabet für DNA-Sequenzen. Ein Mnemonic ist ein Begriff, der das Memor...

Tab. 2.2 Alphabet für Proteinsequenzen. Es sind der Dreibuchstaben- und der Einb...

Tab. 2.3 Beispiele für alternative Aminosäurealphabete. Die Aminosäuren werden z...

Kapitel 3

Tab. 3.1 Ausschnitt aus einer PDB-Datei. Die beiden Einträge definieren jeweils ...

Tab. 3.2 COG-Kategorien. Alle COG-Gruppen sind einer dieser Kategorien zugeordne...

Tab. 3.3 Einige wichtige Datenbanken des NCBI. Der für September 2020 gemeldete ...

Kapitel 4

Tab. 4.1 Augenzahlen bei einem 93-maligen Werfen eines Würfels.

Tab. 4.2 Situation beim statistischen Test. Der Anteil von Entscheidungen wird mithilfe ...

Kapitel 7

Tab. 7.1 Vergleich wichtiger Eigenschaften von RNN- und Transformer-Ansätzen.

Kapitel 8

Tab. 8.1 Vergleich von üblichem Binär- mit dem Gray-Code. Der Gray-Code ist so d...

Kapitel 10

Tab. 10.1 Ausschnitt aus dem Block zur PROSITE-Gruppe PS00344. Nach dem Namen de...

Tab. 10.2 Profil für eine Menge alignierter Sequenzen. In diesem Beispiel wurden...

Tab. 10.3 Berechnen der Konsensussequenz

S

M

. Durch Anwenden der Mehrheitsregel a...

Kapitel 11

Tab. 11.1 Die PAM250-Matrix. Die Aminosäuren sind so angeordnet, dass diejenigen...

Tab. 11.2 Die BLOSUM62-Matrix. Die Werte zeigen, dass ein Match seltener Aminosä...

Tab. 11.3 Entropie für Scoring-Matrizen der BLOSUM- und PAM-Familie. Für den Ver...

Kapitel 12

Tab. 12.1 Liste aller

w

-

mere

der Länge zwei mit einem Score

T

größer acht für di...

Tab. 12.2 Vergleich der Performanz beim Identifizieren evolutionärer Verwandtsch...

Tab. 12.3 Auswertung des

PDB40-J

Datensatzes unter Verwendung zweier Methoden. A...

Tab. 12.4 Auffindegenauigkeit für homologe Proteine aus den sieben SCOP-Klassen....

Kapitel 13

Tab. 13.1 Beginn der Tabelle mit paarweise berechneten Scores für das globale Al...

Tab. 13.2 Performanz von vier Verfahren zum Erzeugen von MSAs. Für Sequenzen, di...

Tab. 13.3 Performanz von neun Verfahren, die in der Lage sind, MSAs aus großen D...

Tab. 13.4 Scoring-System für das Bewerten der Sekundärstrukturvorhersage durch D...

Tab. 13.5 Log-Odds-Scores

G

ki

für das Auftreten von Aminosäuren

as

i

an den Resid...

Kapitel 15

Tab. 15.1 Übergangswahrscheinlichkeiten für Nukleotide in CpG-Inseln (+-Modell) ...

Tab. 15.2 Berechnen der Viterbi-Variablen und des Viterbi-Pfades. Die Sequenz

x

...

Kapitel 16

Tab. 16.1 Parameter des BLOCKS_9-Dirichlet-Gemisches. Es besteht aus neun Komponenten, ...

Tab. 16.2 Bevorzugte Aminosäuren der neun Komponenten des BLOCKS_9-Gemisches. Fü...

Kapitel 18

Tab. 18.1 Einteilung der Aminosäuren im Hinblick auf ihre Tendenz, die Sekundärs...

Kapitel 19

Tab. 19.1 Die CLESUM-

pp

(oben) und die CLESUM-

hh

-Matrix (unten). Mit den Werten a...

Tab. 19.2 Einfluss der Teilscores auf die Performanz von

DeepAlign

. CDD, MALIDUP...

Kapitel 20

Tab. 20.1 Beispiele für die Verwendung von Protein-3-D-Modellen. Für jeden Anwen...

Tab. 20.2 In Abhängigkeit vom Flächenanteil der Seitenkette, der nicht lösungsmi...

Tab. 20.3 Einteilung der Klassen B und P in Abhängigkeit vom Flächenanteil der S...

Tab. 20.4 Scores für das Vorkommen der Aminosäuren in den 18 Environment-Klassen...

Tab. 20.5 Beispiele für die Übertragung von Constraints von der Templatauf die T...

Tab. 20.6 Scores, die in der ersten Phase der Fragmentinsertion berechnet werden...

Tab. 20.7 Energieterme der REF15-Energiefunktion und ihre Gewichtung.

Tab. 20.8 Beispiele für Scores, die in ROSETTA für die Optimierung auf Atomnivea...

Kapitel 24

Tab. 24.1 Vergleich dreier genombasierter Methoden zur Vorhersage von Protein-Pr...

Tab. 24.2 Eigenschaften, die bei der Entwicklung eines Klassifikators für die Vo...

Orientierungspunkte

Cover

Inhaltsverzeichnis

Titelseite

Impressum

Vorwort

Begin Reading

Stichwortverzeichnis

End User License Agreement

Seitenliste

IX

III

IV

V

VI

VII

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

50

51

52

53

54

55

56

57

58

59

60

61

62

63

64

65

66

67

68

69

70

71

72

73

74

75

76

77

78

79

80

81

82

83

84

85

86

87

88

89

90

91

92

93

94

95

96

97

98

99

100

101

102

103

104

105

106

107

108

109

110

111

112

113

114

115

116

117

118

119

120

121

122

123

124

125

126

127

128

129

130

131

132

133

134

135

136

137

138

139

140

141

142

143

144

145

146

147

148

149

150

151

152

153

154

155

156

157

158

159

160

161

162

163

164

165

166

167

168

169

170

171

172

173

174

175

176

177

178

179

180

181

182

183

184

185

186

187

188

189

190

191

192

193

194

195

196

197

198

199

200

201

202

203

204

205

206

207

208

209

210

211

212

213

214

215

216

217

218

219

220

221

222

223

224

225

226

227

228

229

230

231

232

233

234

235

236

237

238

239

240

241

242

243

244

245

246

247

248

249

250

251

252

253

254

255

256

257

258

259

260

261

262

263

264

265

266

267

268

269

270

271

272

273

274

275

276

277

278

279

280

281

282

283

284

285

286

287

288

289

290

291

292

293

294

295

296

297

298

299

300

301

302

303

304

305

306

307

308

309

310

311

312

313

314

315

316

317

318

319

320

321

322

323

324

325

326

327

328

329

330

331

332

333

334

335

336

337

338

339

340

341

342

343

344

345

346

347

348

349

350

351

352

353

354

355

356

357

358

359

360

361

362

363

364

365

366

367

368

369

370

371

372

373

374

375

376

377

378

379

380

381

382

383

384

385

386

387

388

389

390

391

392

393

394

395

396

397

398

399

400

401

402

403

404

405

406

407

408

409

410

411

412

413

414

415

416

417

418

419

420

421

422

423

424

425

426

427

428

429

430

431

432

433

434

435

436

437

438

439

440

441

442

443

444

445

446

447

448

449

450

451

452

453

454

455

456

457

458

459

460

461

462

463

464

465

466

467

468

469

470

471

472

473

474

475

476

477

478

479

480

481

482

483

484

485

486

487

488

489

490

491

492

493

494

495

496

497

498

499

500

501

502

503

504

505

506

507

508

509

510

511

512

513

514

515

516

517

518

519

520

521

522

523

524

525

526

527

528

529

530

531

532

533

534

535

536

537

538

539

540

541

542

543

544

545

546

547

548

549

550

551

552

553

554

555

556

557

558

559

560

561

562

563

564

565

566

567

568

569

570

571

572

573

574

575

576

577

578

579

580

581

582

583

584

585

586

587

588

589

590

591

592

593

594

595

596

597

598

599

600

601

602

603

604

605

606

607

608

609

610

611

612

613

614

615

616

617

618

619

620

621

622

623

624

625

626

627

628

629

630

631

632

633

634

635

636

637

638

639

640

641

642

643

644

645

646

647

648

649

650

651

652

653

654

655

656

657

658

659

660

661

662

663

664

665

666

667

668

669

670

671

672

673

674

675

676

677

678

679

680

681

682

683

684

685

686

687

688

689

690

691

692

693

694

695

696

697

698

699

700

701

702

703

704

705

706

707

708

709

710

711

712

713

714

715

716

717

718

719

720

721

722

723

724

725

726

727

728

729

Bioinformatik

Grundlagen, Algorithmen, Anwendungen

Rainer Merkl

Vierte Auflage

Autor

Prof. Dr. Rainer Merkl

Institut für Biophysik undphysikalische BiochemieUniversität RegensburgUniversitätsstr. 3193053 RegensburgDeutschland

Titelbild/Zeichnungen

Unter Verwendung einer Abbildung von Shutterstock 2006929433/Frogella

Alle Bücher von WILEY-VCH werden sorgfältig erarbeitet. Dennoch übernehmen Autoren, Herausgeber und Verlag in keinem Fall, einschließlich des vorliegenden Werkes, für die Richtigkeit von Angaben, Hinweisen und Ratschlägen sowie für eventuelle Druckfehler irgendeine Haftung.

Bibliografische Information der Deutschen Nationalbibliothek

Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar.

© 2022 Ernst & Sohn GmbH, Rotherstraße 21, 10245 Berlin, Germany

Alle Rechte, insbesondere die der Übersetzung in andere Sprachen, vorbehalten. Kein Teil dieses Buches darf ohne schriftliche Genehmigung des Verlages in irgendeiner Form – durch Photokopie, Mikroverfilmung oder irgendein anderes Verfahren – reproduziert oder in eine von Maschinen, insbesondere von Datenverarbeitungsmaschinen, verwendbare Sprache übertragen oder übersetzt werden. Die Wiedergabe von Warenbezeichnungen, Handelsnamen oder sonstigen Kennzeichen in diesem Buch berechtigt nicht zu der Annahme, dass diese von jedermann frei benutzt werden dürfen. Vielmehr kann es sich auch dann um eingetragene Warenzeichen oder sonstige gesetzlich geschützte Kennzeichen handeln, wenn sie nicht eigens als solche markiert sind.

Satz le-tex publishing services GmbH, Leipzig

Print ISBN 978-3-527-34949-4

ePDF ISBN 978-3-527-83390-0

ePub ISBN 978-3-527-83389-4

Gedruckt auf säurefreiem Papier.

Vorwort

Im letzten Jahrhundert hat sich in der biologischen Forschung der reduktionistische Ansatz als besonders erfolgreich erwiesen. Damit ist der Versuch gemeint, komplexe Lebensphänomene als vernetztes Zusammenwirken einfacher, in der Sprache der Physik oder Chemie beschriebener Vorgänge zu verstehen. Allerdings ist mittlerweile die Einsicht gereift, dass Lebensvorgänge mit solchen Top-down-Methoden, die komplexe Vorgänge in einfachere zerlegen, nicht vollständig zu verstehen sind. Daher sind Bottom-up-Verfahren wichtig geworden. Diese versuchen, das Zusammenspiel der einzelnen Elemente in ihrer Gesamtheit zu modellieren. Die ,,Omik“-Ansätze und die Konzepte der Systembiologie zielen genau in diese Richtung. So wurden die Ergebnisse der Genomik, Transkriptomik, Proteomik und Metabolomik zu einer wichtigen Quelle für weiterführende Analysen und überraschende Einsichten, wie folgende Beispiele belegen.

Drei wichtige Beiträge bioinformatischer Analysen

Die Sequenzierung des menschlichen Genoms hat ergeben, dass der Mensch nicht, wie vorher angenommen, bis zu 100 000 Gene, sondern nur circa 20 000 besitzt. Diese Anzahl entspricht der des Fadenwurms Caenorhabditis elegans. Deswegen war dieses Ergebnis für viele Fachleute völlig unerwartet, da bis dato genetische Komplexität direkt mit der Anzahl von Genen korreliert worden war. Der Befund löste einen Paradigmenwechsel aus, seither wird die Komplexität eines biologischen Systems an der Vielschichtigkeit seiner Interaktionsnetzwerke gemessen.

Das ENCODE-Projekt zielt darauf ab, alle funktionellen Elemente des menschlichen Genoms zu identifizieren. In der Pilotphase wurde überraschenderweise festgestellt, dass praktisch das komplette menschliche Genom abgelesen und in RNA übersetzt wird. Mittlerweile ist klar geworden, dass viele RNA-Moleküle in Regulationsvorgänge eingreifen. Das Konzept, diese Genombereiche als funktionslose junk DNA aufzufassen, war damit obsolet.

Die Sequenzierung des Schnabeltier-Genoms hat unter anderem ergeben, dass diese Art die Gene für Milchproteine besitzt, obwohl sie Eier legt. Seine Giftproteine und die Schlangengifte stammen von denselben Genfamilien ab, haben sich allerdings unabhängig entwickelt. Aus dem Vergleich molekularer Daten wurde abgeleitet, dass sich der Vorfahre des Schnabeltiers vor circa 166 Millionen Jahren von der Linie abspaltete, die später zu den Säugetieren führte. Somit ist das Schnabeltier das vom Menschen am weitesten entfernte Säugetier.

Die Bioinformatik ist ein wichtiger Teil biologischer Forschung

Wie werden derartige Befunde erhoben? Die für die Datenanalyse notwendigen Werkzeuge liefert die Bioinformatik, ein spezieller Zweig der Computerwissenschaft, der sich seit Mitte des 20. Jahrhunderts zunächst kontinuierlich und in den letzten Jahren rasant entwickelte. Zu den ersten, eher bescheidenen Aufgaben, die Biologen an Mathematiker und Informatiker herantrugen, gehörten die statistische Auswertung der wenigen, damals vorhandenen Sequenzen und deren Speicherung. Heutzutage werden sowohl für das Vorhalten der exponentiell wachsenden Datenmengen als auch für den Betrieb hochkomplexer Programmsuiten leistungsfähige Serverfarmen benötigt. Die Lebenswissenschaften haben, wie andere Wissenschaftsdisziplinen auch, eine Big-Data-Revolution hinter sich und tiefe Lernverfahren haben längst Einzug gehalten. Daher ist der Aufwand enorm, der auf technischer und theoretischer Seite betrieben werden muss, um den berechtigten Ansprüchen und Forderungen der Anwender zu genügen. Diese Komplexität bleibt aber meist hinter einfach zu bedienenden Grafikoberflächen oder Programmierschnittstellen verborgen. Meist müssen aber zusätzlich zur eigentlichen Eingabe Programmparameter gesetzt werden, und die Ausgabe ist komplex, da beispielsweise die Zuverlässigkeit von Vorhersagen mit statistischen Kennwerten unterfüttert wird.

Zielsetzung und Leserschaft

Aufgrund der Komplexität der modernen bioinformatischen Werkzeuge ist für einen sicheren und souveränen Umgang fundiertes Wissen über die umgesetzten Techniken erforderlich. Nur wer die Eigenschaften und vor allem die Limitationen der Verfahren kennt, kann sie optimal einsetzen, ihre Ausgabe korrekt bewerten und die Algorithmen verbessern. Daher ist eine Beschäftigung mit den grundlegenden Methoden und speziellen Konzepten, die sich in der Bioinformatik entwickelt haben, für Anwendende ratsam und für diejenigen, die selbst bioinformatische Werkzeuge entwickeln wollen, unbedingte Voraussetzung.

Der vorliegende Text stellt wichtige bioinformatische Methoden und Lösungsansätze vor. Einen großen Anteil nehmen Verfahren ein, die sich der Analyse von Sequenzen widmen, da sie die größten Datenbestände ausmachen. Es wurde großer Wert auf eine praxisnahe Darstellung gelegt, in die viele Beispiele und Illustrationen eingestreut sind. Zusätzlich wird auf einer Webseite Material für Übungen angeboten. Diese sollen auch dazu dienen, den kritischen Umgang mit bioinformatischen Werkzeugen zu trainieren.

Diese vierte Auflage profitierte ganz erheblich von der Zuarbeit meines Teams und den Anregungen von Studierenden. Mein besonderer Dank gilt Dr. F. Weinreich und Dr. A. Sendtko vom Verlag Wiley-VCH und dem Team der le-tex publishing services GmbH in Leipzig, die mich in allen Belangen stets tatkräftig unterstützten.

April 2022, Obertraubling

Rainer Merkl

Website

Auf einer eigenen Website werden Übungen angeboten, die interaktiv unter Verwendung eines Browsers und mithilfe frei verfügbarer Software sowie unter Benutzung öffentlich zugänglicher Server bearbeitet werden können. Verweise auf die wichtigsten Lerneinheiten sind bei den folgenden Kapiteln angegeben. Die Übungen haben einerseits das Ziel, das Erfassen und Verstehen der Algorithmen und Modelle weiter zu festigen und erlauben es andererseits, Werkzeuge in konkreten Anwendungen praktisch zu erproben. Das Übungsmaterial befindet sich auf

http://www.wiley-vch.de/home/bioinformatik

Teil IGrundlagen – Biologie und Datenbanken

Die Beschäftigung mit Algorithmen kann faszinieren. Dies gilt insbesondere dann, wenn komplexe und spannende Probleme zu lösen sind. Zu dieser Kategorie von Aufgaben zählen auch diejenigen, die an die Bioinformatik herangetragen werden. Häufig müssen aus einer schier nicht zu bewältigenden Datenfülle verrauschte Signale herausgefiltert werden. Nur durch den Einsatz moderner Techniken und unter Berücksichtigung von Erkenntnissen aus der Mathematik, der Statistik und natürlich der Informatik ist es möglich, bioinformatische Algorithmenentwicklung voranzutreiben. Zusätzlich ist eine gewisse Vertrautheit mit den biologischen Strukturen und dynamischen Prozessen, die im Rechner zu modellieren sind, notwendig und hilfreich. Diese Grundlagen schaffen wir uns in Teil I.

Wichtige Objekte sind DNA, RNA und Proteine

Im ersten Kapitel werden wichtige Eigenschaften von DNA, RNA und Proteinen erläutert. Zusätzlich werden solche Fakten zu biologischen Objekten und Prozessen eingeführt, die für das Verständnis der im weiteren Text dargestellten biologischen Fragestellungen und informatischen Lösungsansätze benötigt werden.

Sequenzen repräsentieren Makromoleküle

Anschließend wird die Datenstruktur Sequenz mit der in der Biologie eingeführten Bedeutung vorgestellt. Wir werden uns mit Operationen auf Sequenzen sowie verschiedenen Alphabeten, die zur Codierung von DNA- und Proteinsequenzen definiert wurden, beschäftigen. Sequenzen bilden die Grundlage für viele der später eingeführten Algorithmen; sie werden uns im gesamten Text ständig begegnen. Die uns interessierenden Moleküle haben eine wichtige biologische Funktion. Für deren Beschreibung werden zunehmend Ontologien genutzt. Wir beschäftigen uns intensiver mit der Gen-Ontologie, die dazu dient, die Funktion von Genprodukten exakt und konsistent zu beschreiben.

Datenbanken sind zentrale Elemente bioinformatischer Arbeit

Schließlich befassen wir uns mit bioinformatischen Datenbanken. So werden beispielsweise Sequenzen oder Proteinstrukturen sowie Wissen über ihre biologische Funktion, ihre Eigenschaften, ihr Vorkommen etc. in zentralen Datenbanken gesammelt. Diese bilden den ,,Heiligen Gral“ der Bioinformatik. Bei nahezu jeder bioinformatischen Fragestellung wird in irgendeiner Weise auf Datenbanken und das darin abgelegte Wissen zurückgegriffen. Dies kann im Rahmen so unterschiedlicher Aufgaben erfolgen wie der statistischen Auswertung von Sequenzen, dem Vermessen von Reaktionszentren, dem Identifizieren von Transkriptionsfaktoren oder der Analyse von Hochdurchsatzdatensätzen. Datenbanken sind auch die Quelle für das Zusammenstellen von Trainingsmengen, die benötigt werden, um bioinformatische Werkzeuge zu validieren und zu optimieren. Die Qualität bioinformatischer Algorithmen, d. h. deren Ausgabe muss sich an den in den Datenbanken deponierten und durch biochemische Experimente abgesicherten Fakten messen lassen.

Zusätzlich zu Sequenz- und Strukturdatenbanken ist eine Fülle weiterer Datensammlungen entstanden. Wir werden einige der sogenannten sekundären Datenbanken kennenlernen, in denen abgeleitetes Wissen angeboten wird. Dazu zählen ausführliche Beschreibungen von Genomen und Stoffwechselvorgängen oder hierarchische Schemata zur Klassifikation von Proteinfamilien.

1Biologische Grundlagen

In den folgenden Kapiteln beschäftigen wir uns meist mit Algorithmen, die Eigenschaften von Makromolekülen bewerten oder vergleichen. Für das Verständnis der Algorithmen und der zugrunde liegenden informatischen Methoden und Modellieransätze benötigen wir relativ wenige biologische Grundkenntnisse, die in diesem Kapitel eingeführt werden. Zu den wichtigsten molekularbiologischen Substanzklassen gehören DNA, RNA und Proteine. Dies sind Makromoleküle, die jeweils aus einer Abfolge kleinerer Bausteine bestehen. Die DNA ist beispielsweise aus Nukleotiden aufgebaut und deren lineare Anordnung kann in Form einer Zeichenkette (Sequenz) angegeben werden. Das Konzept der Sequenzen betrachten wir im nächsten Kapitel genauer, im Folgenden konzentrieren wir uns zunächst auf biochemische und biophysikalische Eigenschaften der genannten Molekülklassen.

Die DNA ist der wichtigste Datenträger in der Molekularbiologie; das Genom einer Spezies, das die komplette genetische Information enthält, ist in DNA-Molekülen codiert. In den letzten Jahrzehnten wurden Hochdurchsatzmethoden entwickelt, die es erlauben, DNA-Sequenzen mit geringem Aufwand und in kurzer Zeit zu ermitteln. Aus diesen Gründen werden bevorzugt Genomsequenzen bestimmt, da deren Kenntnis häufig ausreicht, die Komposition der anderen Makromoleküle (RNA und Proteine) abzuleiten. Die biologische Bedeutung der RNA hat durch neuere Erkenntnisse enorm zugenommen. Es ist klar geworden, dass RNA-Moleküle nicht nur an der Umsetzung der genetischen Information in Proteine beteiligt sind. Sie übernehmen in erheblichem Ausmaß auch Regulationsaufgaben, was lange unbekannt war. Proteine sind die wichtigsten Baustoffe aller biologischen Zellen. Sie geben den Zellen oft ihre Struktur und sind beispielsweise in Form von Enzymen essenzielle Komponenten der meisten Stoffwechselvorgänge.

Die In-vivo-Funktion von DNA, RNA und Proteinen kann nur anhand der dreidimensionalen Molekülstruktur verstanden werden. Im Vergleich zu den eher uniformen Raumstrukturen der DNA- und RNA-Moleküle bilden Proteine eine enorme Vielfalt unterschiedlichster Strukturen aus. Deswegen nimmt im Folgenden die Darstellung von Proteinarchitekturen einen breiteren Raum ein. Nach der Beschreibung typischer Protein-3-D-Strukturen beschäftigen wir uns mit Proteineigenschaften, die in bioinformatischen Algorithmen von Bedeutung sind.

Die in der Natur vorkommende Vielfalt von Lebewesen ist entstanden, weil sich vererbte organische Strukturen aufgrund von Evolutionsvorgängen in den biologischen Arten unterschiedlich entwickelt haben. Wir müssen uns daher auch mit dem Wesen von biologischen Evolutionsprozessen beschäftigen, da diese einen wesentlichen Teil der informatischen Modellbildung ausmachen. Das Kapitel schließt mit einer Definition wichtiger Fachbegriffe.

Abb. 1.1 Raumstruktur der DNA. In diesem DNA-Fragment ist die Doppelhelix gut zu erkennen. Die basischen Anteile der Nukleotide sind nach innen gerichtet und durch Wasserstoffbrücken verknüpft. Die Wasserstoffbrücken sind in dieser Abbildung nicht markiert. Außen verlaufen die Zucker-Phosphat-Anteile der polymerisierten Nukleotide; sie sind orange dargestellt. Die Raumstruktur dieses DNA-Fragments wurde mit experimentellen Methoden bestimmt, sodass die exakte Position aller DNA-Elemente bekannt ist und visualisiert werden kann.

1.1 DNA

Im bioinformatischen Kontext beschreiben Sequenzen in der Regel eine bestimmte Abfolge von Einzelbausteinen, die aus einer kleinen und definierten Menge stammen. So sind DNA-Sequenzen einfache Modelle für Makromoleküle der Desoxyribonucleinsäure (abgekürzt DNS oder DNA), die in der Natur als fädige Struktur vorliegt. Die Grundbausteine sind vier Nukleotide, diese bestehen jeweils aus

einem Zucker (in der DNA: Desoxyribose),

einer der zwei Purin-(Adenin, Guanin) oder zwei Pyrimidinbasen (Cytosin, Thymin),

einem Phosphatrest.

Abb. 1.2 Basenpaarungen in der DNA. In der als Doppelhelix bekannten DNA-Struktur liegen sich jeweils paarweise die Basen Adenin und Thymin oder Guanin und Cytosin gegenüber. Zwischen A:T-Paaren können zwei und zwischen G:C-Paaren drei Wasserstoffbrücken ausgebildet werden. Je höher der Anteil von G:C-Paaren ist, desto mehr Energie muss für das Trennen der beiden Stränge einer DNA-Doppelhelix aufgewendet werden.

Ein DNA-Strang ist aus einer Abfolge von Nukleotiden aufgebaut und in der Zelle kommt die DNA üblicherweise in doppelsträngiger Form vor, die eine Doppelhelix bildet. In der Helix stehen sich Nukleotide paarweise gegenüber, wobei nur zwei Paarungen zugelassen sind (siehe Abb. 1.1 und 1.2). In den Zellkernen höherer Arten ist die DNA um Nukleosomen gewickelt, die sich zu komplexeren Strukturen zusammenlagern. Dieser Befund ist für die bioinformatischen Kernalgorithmen ohne Belang.

Wasserstoffbrücken

Die Funktion und Struktur von Makromolekülen wird maßgeblich durch Wasserstoffbrücken determiniert. Eine Wasserstoffbrücke ist eine anziehende elektromagnetische Wechselwirkung zwischen einem kovalent in einem Molekül gebundenen Wasserstoff und einem elektronegativen Atom wie Stickstoff oder Sauerstoff. Diese Bindung kann im Gegensatz zu einer kovalenten Atombindung mit geringem Energieaufwand gelöst werden.

Reverses Komplement

Aufgrund des chemischen Aufbaus der Nukleotide hat jeder DNA-Strang beliebiger Länge eine eindeutige Orientierung mit jeweils einem freien 3′-OH- und einem 5′-OH-Ende. Sequenzen werden nach Übereinkunft stets so geschrieben, dass das 5′-OH-Ende links und das 3′-OH-Ende rechts steht. In vivo ist die DNA-Doppelhelix meist zu einem Ring geschlossen, z. B. in Chromosomen oder Plasmiden. Darin sind die beiden komplementären DNA-Stränge gegenläufig angeordnet. Die durch den Aufbau vorgegebene Orientierung bedingt die Richtung, in der Gene abgelesen werden. Da Gene auf beiden Strängen codiert sein können, in Datensammlungen jedoch nur die Sequenz eines Stranges abgelegt wird, muss zum Bestimmen der Sequenz des Gegenstranges das reverse Komplement gebildet werden.

1.2 Genetischer Code und Genomkomposition

Die Sequenzinformation eines jeden Proteins ist in Form eines Gens in der DNA-Sequenz codiert. Jeweils drei direkt aufeinanderfolgende Nukleotide, die nicht überlappend abgelesen werden, codieren für eine Aminosäure. Eine solche Nukleotidgruppe wird Triplett oder Codon genannt. Die Abbildung der 64 Tripletts auf die 20 Aminosäuren heißt genetischer Code, dieser ist in Tab. 1.1 dargestellt. Der Code ist quasi universell, abweichende Codonzuordnungen finden sich aber z. B. bei Mitochondrien, Mycoplasma und einigen Protozoen [1]. Stoppcodonen terminieren die für Proteine codierenden Gensequenzen.

Tab. 1.1 Der genetische Code. Die Zahlen geben die Nukleotidposition im Codon an. In einigen speziellen Fällen, wie in mitochondrialen Genomen, kann es Abweichungen von diesem kanonischen Code geben. Die Namen der Aminosäuren sind im Dreibuchstabencode angegeben (siehe Tab. 2.2 in Kap. 2).

2

T

C

A

G

1

T

TTT

Phe

TCT

Ser

TAT

Tyr

TGT

Cys

T

3

TTC

Phe

TCC

Ser

TAC

Tyr

TGC

Cys

C

TTA

Leu

TCA

Ser

TAA

Stop

TGA

Stop

A

TTG

Leu

TCG

Ser

TAG

Stop

TGG

Trp

G

C

CTT

Leu

CCT

Pro

CAT

His

CGT

Arg

T

CTC

Leu

CCC

Pro

CAC

His

CGC

Arg

C

CTA

Leu

CCA

Pro

CAA

Gln

CGA

Arg

A

CTG

Leu

CCG

Pro

CAG

Gln

CGG

Arg

G

A

ATT

Ile

ACT

Thr

AAT

Asn

AGT

Ser

T

ATC

Ile

ACC

Thr

AAC

Asn

AGC

Ser

C

ATA

Ile

ACA

Thr

AAA

Lys

AGA

Arg

A

ATG

Met

ACG

Thr

AAG

Lys

AGG

Arg

G

G

GTT

Val

GCT

Ala

GAT

Asp

GGT

Gly

T

GTC

Val

GCC

Ala

GAC

Asp

GGC

Gly

C

GTA

Val

GCA

Ala

GAA

Glu

GGA

Gly

A

GTG

Val

GCG

Ala

GAG

Glu

GGG

Gly

G

Quelle: Basierend auf [1].

Abb. 1.3 Übersetzen eines DNA-Fragments in Proteinsequenzen. DNA kann in sechs Leserastern in Codonen übersetzt werden; pro Leserichtung ergeben sich jeweils drei Leseraster. In dieser DNA-Sequenz kommt nur ein ORF vor, die resultierende Proteinsequenz ist durch Fettdruck hervorgehoben. Ein ORF ist eine DNA-Teilsequenz, die durch ein Start- und ein Stoppcodon flankiert wird. Die Namen der Aminosäuren sind im Dreibuchstabencode angegeben, *** steht für die Sequenz von Stoppcodonen.

Leseraster

Die Struktur der DNA legt die Lage der einzelnen Gene innerhalb einer DNA-Sequenz nicht fest. Daher ergeben sich – wegen der zwei möglichen Ableserichtungen und der drei möglichen Intervalle pro Leserichtung – insgesamt sechs Leseraster. Prinzipiell kann jede Codonsequenz ein Gen codieren, sofern sie mit einem Startcodon beginnt und mit einem Stoppcodon endet. Eine derartige Sequenz wird zur Unterscheidung von Genen, für die eine Funktion nachgewiesen ist, offenes Leseraster (open reading frame, ORF) genannt. Das Übersetzten der Gensequenz in eine Proteinsequenz beginnt an einem Startcodon und endet am nächsten Stoppcodon. Die Codonsequenz der drei Stoppcodonen ist eindeutig definiert, als Startcodon dient häufig ,,ATG“, das aber auch für die Aminosäure Methionin codiert.

Diese Situation wird im folgenden Beispiel klar (siehe Abb. 1.3). Je nach Leseraster resultieren aus derselben DNA-Sequenz unterschiedliche Proteinsequenzen. Im gezeigten Beispiel existiert genau ein ORF (hier im Leseraster 1), dessen Lage durch ein Startcodon (Met) und ein Stoppcodon (durch *** markiert) definiert ist; in allen anderen Leserastern treten in der gezeigten Sequenz Stoppcodonen auf oder es fehlt ein Startcodon. Nur ein kleiner Teil der ORFs codiert für Gene und diese bestehen in der Regel aus mehr als 80 Codonen.

Informationsgehalt der Basenpositionen

Der Informationsgehalt 𝐼 der drei Basenpositionen im Codon ist unterschiedlich, es gilt 𝐼(Position 2) > 𝐼(Position 1) > 𝐼(Position 3) [2]. Für diese Ungleichheit ist der genetische Code verantwortlich: Ein Blick auf Tab. 1.1 macht klar, dass eine Mutation der dritten Base im Codon die Aminosäurenkomposition häufig nicht verändert. Zudem resultiert eine Mutation in der ersten Basenposition im Einbau einer Aminosäure mit ähnlichen Eigenschaften, eine Mutation der mittleren Base verursacht häufig den Einbau einer Aminosäure mit anderen Eigenschaften [1]. Die geringsten Auswirkungen auf die Aminosäurenkomposition der Proteine haben somit Veränderungen der Basenkomposition in Position drei des Codons, gefolgt von Veränderungen der Basenkomposition an Position eins. Diese Befunde machen deutlich, dass simple statistische Konzepte nicht dazu geeignet sind, codierende Sequenzen adäquat zu modellieren: Es kann nicht unterstellt werden, dass die Basen voneinander unabhängig in Genen auftreten.

GC-Gehalt von Genomen

Der GC-Gehalt, d. h. der relative Anteil von Guanin und Cytosin an der DNA ist eine charakteristische Größe eines Genoms. Der mittlere GC-Gehalt von bakteriellen Genomen schwankt zwischen 20 und 75 % [3]. In G:C-Basenpaaren werden drei Wasserstoffbrückenbindungen ausgebildet, in A:T-Basenpaaren nur zwei; daher wurde lange vermutet, dass ein hoher GC-Gehalt des Genoms z. B. für thermophile [4] oder halophile [5] Organismen vorteilhaft wäre. Thermophile Organismen leben in Habitaten mit erhöhten Umgebungstemperaturen, halophile kommen in Umgebungen mit erhöhter Salzkonzentration vor. Es hat sich jedoch herausgestellt, dass der mittlere GC-Gehalt nicht von solchen Umweltfaktoren abhängt, sondern wohl durch evolutionären Druck eingestellt wird [6]. Zudem hängt der GC-Gehalt von Eigenschaften des DNA-Replikationssystems ab, dessen Aufgabe es ist, Kopien des Erbguts für die nächste Generation herzustellen. Aus dem Vergleich des GC-Gehalts der Genome solcher Bakteriophagen, die ihr eigenes DNA-Replikationssystem und solcher, die das Replikationssystem des Wirts Escherichia coli verwenden, mit dem GC-Gehalt des Genoms von Escherichiacoli wurde geschlossen, dass der GC-Gehalt vom DNA-Replikationssystem moduliert wird [1]. Bestimmte Mutationen im mutT-Gen von Escherichia coli induzieren Transversionen von A:T-nach G:C-Basenpaaren [7] und Mutationen im mutY -Gen Transversionen von G:C-nach A:T-Basenpaaren [8]. Die Genprodukte beider Gene sind an der DNA-Replikation oder DNA-Reparatur beteiligt. Neben dem mittleren GC-Gehalt eines Genoms sind auch lokale Schwankungen von Interesse: Der GC-Gehalt des menschlichen Genoms beträgt circa 42 %; es gibt aber sogenannte CpG-Inseln, in denen der GC-Gehalt mehr als 50 % beträgt. Da CpG-Inseln in der Nähe von Promotoren (siehe Abschn. 1.3) gehäuft vorkommen, wurden bioinformatische Verfahren entwickelt, um sie zu identifizieren [9]. Auch der GC-Gehalt von RNA-Molekülen wird untersucht, da es definierte Bereiche gibt, deren GC-Gehalt auf die optimale Wachstumstemperatur schließen lässt [10].

Codonhäufigkeiten

Codonen kommen nicht mit annähernd gleicher Häufigkeit in Genen vor. Im Gegenteil, die Codonhäufigkeiten schwanken zwischen den taxonomischen Gruppen beträchtlich. Die Codonpräferenzen der beiden nahe verwandten Bakterien Escherichia coli und Salmonella typhimurium sind sich ähnlich. Codonhäufigkeiten des Bakteriums Bacillus subtilis, das zu beiden eine große phylogenetische Distanz aufweist, sind auffällig anders. Solche Unterschiede in den Codonpräferenzen erlauben es, die taxonomische Herkunft der DNA einzuschränken [11]. Statistische Verfahren wie Markov-Ketten werden z. B. im Programm Glimmer [12] dazu genutzt, die Lage von Genen vorherzusagen. Hierfür wird die Zusammensetzung von ORFs mit der speziesspezifischen Codonhäufigkeit verglichen.

Synonyme Codonen

Der genetische Code wird als degeneriert bezeichnet, da einige Aminosäuren durch mehrere Codonen codiert werden. Codonen, die für dieselbe Aminosäure codieren, werden synonyme Codonen genannt. Wie Tab. 1.2