Wiley-Schnellkurs Bioinformatik für Anwender - Röbbe Wünschiers - E-Book

Wiley-Schnellkurs Bioinformatik für Anwender E-Book

Röbbe Wünschiers

0,0
14,99 €

-100%
Sammeln Sie Punkte in unserem Gutscheinprogramm und kaufen Sie E-Books und Hörbücher mit bis zu 100% Rabatt.
Mehr erfahren.
Beschreibung

Die digitale Datenverarbeitung wird auch für Lebenswissenschaftler immer wichtiger. Hier setzt dieser Schnellkurs an. Röbbe Wünschiers erklärt Ihnen, wie Sie mit Sequenz-, Struktur- und anderen Daten umgehen sollten. Er erläutert, wie Sie Linux als virtuelle Maschine installieren und wie Ihnen Linuxtools wie Sed oder die einfache Programmiersprache AWK bei der Datenanalyse helfen können. Außerdem führt er Sie knapp in weitere Bereiche ein, die Ihnen das digitale Leben erleichtern können: das Datenbanksystem MariaDB/MySQL, die Programmierumgebung R für statistisches Rechnen und Datenvisualisierung, die Textsatzsprache LaTeX und einiges mehr. Ausgearbeitete Beispiele aus den Lebenswissenschaften und Übungsaufgaben samt Lösungen helfen Ihnen Ihr Wissen zu festigen und zu überprüfen. Auf der Webseite datenmassen.de finden sich alle Daten und Abbildungen zum Download.

Sie lesen das E-Book in den Legimi-Apps auf:

Android
iOS
von Legimi
zertifizierten E-Readern

Seitenzahl: 297

Bewertungen
0,0
0
0
0
0
0
Mehr Informationen
Mehr Informationen
Legimi prüft nicht, ob Rezensionen von Nutzern stammen, die den betreffenden Titel tatsächlich gekauft oder gelesen/gehört haben. Wir entfernen aber gefälschte Rezensionen.



EINSTIEGSTEST

Bestimmungsschlüssel für meine Leser

Liebe Leserinnen und Leser, gleich zu Beginn wird es persönlich. Mit etwas Geschick können Sie sich nach der Lektüre dieses Buches ein Bild von mir machen, ein Psychogramm erstellen und meine Forschungsvorlieben herausarbeiten. Aber ich, ich stehe im Dunkeln. Wir können zwar bei Facebook Freundschaft schließen (facebook.com/awkologist), aber was hilft das? Eine Hassliebe meiner Studienzeit (Biologie) ist die Pflanzen- und Tierbestimmung mit den Bestimmungsbüchern »Die Flora von Deutschland« von Schmeil-Fitschen oder der »Fauna von Deutschland« von Paul Brohmer. Mit diesem Einstiegstest versuche ich, in selber Manier Ihren Bezug zur Bioinformatik zu bestimmen – oder, genauer gesagt: Sie können sich selbst bestimmen.

Schauen Sie sich dazu bitte den Bestimmungsschlüssel an. Punkt 1 bietet drei Antwortmöglichkeiten, die Sie zu Punkt 9, 2 oder 42 bringen. So hangeln Sie sich durch den Bestimmungsschlüssel und erfahren, welche Art User/Leser Sie sind.

Natürlich erhebt dieser Entscheidungsbaum keinen Anspruch auf Vollständigkeit. Es soll aber deutlich werden, dass dieses Buch sowohl dem Anfänger als auch dem aktiven Forscher hilfreich sein kann. Ich hoffe, dass insbesondere Lehrende und Lernende in diesem Buch viele Anregungen finden, vor allem in den Kapiteln 5–9.

1

Weiß nicht, was ein Computer ist oder wie er angeht

9

Weiß, was ein Computer ist und wie er angeht

2

Habe keine Zeit – Will meinen Chef mit einer Datenanalyse beeindrucken

Forscher

42

2

Habe schon in Linux oder MacOSX im Terminal gearbeitet

3

Kenne den Terminal nur vom Flughafen oder der Bank?

6

3

Habe schon einmal programmiert

4

Programmierung ist mir unbekannt

5

4

Kenne mich mit Bioinformatik aus

Kollege

17

Bioinformatik ist ein neues Habitat

Quereinsteiger

16

Trifft beides nicht zu

13

5

Kenne mich gut mit DNA/RNA-Sequenzdaten aus

Fortgeschritten

15

Will endlich vernünftig mit Daten umgehen

Einsteiger

14

Trifft beides nicht zu

13

6

Habe schon einmal programmiert

7

Programmierung ist mir unbekannt

8

7

Kenne mich mit Bioinformatik aus

Experte

18

Bioinformatik ist neues Habitat

Fortgeschritten

12

Trifft beides nicht zu

13

8

Kenne mich gut mit DNA/RNA-Sequenzdaten aus

Einsteiger

11

Will endlich vernünftig mit Daten umgehen

Starter

10

Trifft beides nicht zu

13

9

Hmm, es ist ein kleines Wunder, dass Sie zu diesem Buch gegriffen haben. Sie haben zwar das größte Potential unter den potentiellen Lesern, aber – das wird kein Schnelleinstieg ...

10

Starter – Etwas biologisches Grundwissen setze ich zwar voraus, aber sie werden hier viel Nützliches lernen. Los geht’s im ersten Teil auf Seite 37.

11

Einsteiger – Sie sind Lebenswissenschaftler, oder? Ich glaube, genau für Sie habe ich dieses Buch geschrieben.

12

Fortgeschritten – Wahrscheinlich sind Sie Physiker und wandern auf den Spuren von Francis Crick. Sie können vermutlich am meisten in den Kapiteln

2

und

5

9

lernen. In

Kapitel 3

lernen Sie den Terminal kennen.

13

Sie sind schwer zu bestimmen und es ist ein glücklicher Umstand, dass wir uns getroffen haben. Blättern Sie mal durch und schauen Sie, ob Sie etwas lernen können.

14

Einsteiger – Etwas biologisches Grundwissen setze ich voraus, aber das bekommen Sie hin. Es gibt ja Google. Überfliegen Sie das erste Kapitel und legen dann auf Seite 95 richtig los.

15

Fortgeschritten – Überfliegen Sie das erste Kapitel und legen dann auf Seite95 richtig los.

16

Quereinsteiger – Wahrscheinlich sind Sie Physiker und wandern auf den Spuren von Francis Crick. Sie können vermutlich am meisten in den Kapiteln

2

und

5

9

lernen.

17

Kollege – Hallo Herr Kollege. Stöbern Sie einfach etwas herum und lassen sich inspirieren.

18

Experte oder Forscher – Sie werden sich wundern, wie mächtig der Linux-Terminal ist. Stöbern Sie einfach etwas herum und lassen sich inspirieren, aber lesen Sie unbedingt

Kapitel 3

.

42

Forscher – Sie suchen die Antwort auf alle Fragen. Dann, schnell durch das Buch fräsen. Darum: Schnelleinstieg :-)

Röbbe Wünschiers

Wiley Schnellkurs Bioinformatik für Anwender

Datenmassen richtig fassen

Fachkorrektur Dr. Katharina Hemschemeier

Bibliografische Information der Deutschen Nationalbibliothek

Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie;

detaillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar.

1. Auflage 2016

© 2016 WILEY-VCH Verlag GmbH & Co. KGaA, Weinheim

All rights reserved including the right of reproduction in whole or in part in any form. This book published by arrangement with John Wiley and Sons, Inc.

Alle Rechte vorbehalten inklusive des Rechtes auf Reproduktion im Ganzen oder in Teilen und in jeglicher Form. Dieses Buch wird mit Genehmigung von John Wiley and Sons, Inc. publiziert.

Wiley, the Wiley logo, and related trademarks and trade dress are trademarks or registered trademarks of John Wiley & Sons, Inc. and/or its affiliates, in the United States and other countries. Used by permission.

Wiley und darauf bezogene Gestaltungen sind Marken oder eingetragene Marken von John Wiley & Sons, Inc., USA, Deutschland und in anderen Lndern.

Das vorliegende Werk wurde sorgfältig erarbeitet. Dennoch übernehmen Autoren und Verlag für die Richtigkeit von Angaben, Hinweisen und Ratschlägen sowie eventuelle Druckfehler keine Haftung.

Umschlaggestaltung: Torge Stoffers Grafik-Design, Leipzig

Korrektur: Katharina Hemschemeier

Satz: inmedialo Digital- und Printmedien UG, Plankstadt

ePub ISBN: 978-3-527-80553-2

mobi ISBN: 978-3-527-80554-9

Print: ISBN: 978-3-527-53040-3

Vorwort von Michael Bölker

Nie war es einfacher als heute, Bioinformatik zu betreiben. Im Internet gibt es jede Menge Webseiten, auf denen man Gene finden, Sequenzen vergleichen oder Proteinstrukturen vorhersagen lassen kann. Meist sind diese Seiten sehr einfach zu bedienen und liefern auch in kürzester Zeit die gewünschte Antwort. Und trotzdem kann es manchmal sehr schwer sein, Bioinformatik zu betreiben, dann nämlich, wenn es für mein Problem oder meine Frage eben keine Seite im Internet gibt oder aber, falls es eine solche gibt, diese offensichtlich keine vernünftige Antwort geben kann. Dann steht man da mit seiner Frage und wünscht sich, dass man sie einfach selber lösen könnte. Nur ist das dann nicht ganz leicht, besonders wenn man dafür große Mengen Daten hat oder benötigt.

Einen kleinen Beitrag aus diesem Dilemma mag dieses Buch leisten. Es soll diejenigen, die zwar täglich vor dem Computer sitzen, aber sich noch nie getraut haben, diesen selber zu »programmieren«, Mut machen und dabei helfen, es einfach mal zu probieren, es geht einfacher als man denkt. Wahrscheinlich ginge es noch leichter, wenn man einen Bioinformatiker kennt, der einem das Problem auf seine Art mal ganz schnell löst. Aber Bioinfomatiker gibt es nicht so viele, vor allem nicht viele, die Zeit für einen haben.

Also vielleicht doch selber machen? Wie spannend und gleichzeitig erhellend das sein kann, habe ich selber erfahren, als ich ein Problem lösen wollte (ich bin nicht der Krebsforscher aus der Einleitung, sondern der Genetiker mit seinen Ribosomen), von dem ich annahm, dass es ganz simpel zu lösen sein sollte. Nach einigen Tagen vergeblicher Mühe vor dem Bildschirm gab ich auf, ich fand einfach kein Programm im Internet, das ich zur Lösung meines Problems hätte direkt einsetzen können. Jedoch dank einer kurzen und intensiven Einführung des Verfassers, bei der er mir die Vorzüge von Zeilen-Editoren und die Stärke regulärer Ausdrücke nahegebracht hatte, konnte ich innerhalb kurzer Zeit meine Daten auf meinem Laptop genau so auswerten, wie ich es mir gewünscht hatte. Als dann auch noch ein sehr spannendes Ergebnis dabei herauskam, hatte ich ein Erfolgserlebnis, wie schon lange nicht mehr. Solche Erfolgserlebnisse wünsche ich allen geneigten Lesern dieses Schnellkurses Bioinformatik. Er will Ihnen Mut machen, sich einfach mal zu trauen und selber zu programmieren. Und wenn Sie dafür schon ein paar Vorkenntnisse mitbringen oder vielleicht sogar schon eine Programmiersprache beherrschen, um so besser! Mit Hilfe des Bestimmungsschlüssels am Anfang dieses Buches können Sie sich gleich selbst einordnen, um zu erfahren, auf welche Weise dieses Buch Ihnen am nützlichsten sein kann. Allen Lesern und vor allem denjenigen, die diesen Schnellkurs dafür nutzen, endlich mal wieder selber ihre Datenmassen zu beherrschen, wünsche ich viel Vergnügen, wenn Sie die »Tasten tanzen lassen«.

Michael Bölker – Professor für Genetik an der Universität Marburg

Vorwort von Diethard Tautz

Big Data ist heute in aller Munde, spätestens seit wir realisieren, wie Google uns ausspäht und Amazon immer am Besten weiß, was wir als nächstes kaufen sollten. Aber die größte Big Data Explosion fand im letzten Jahrzehnt im Genomik-Bereich statt. Weniger in Bezug auf das Gesamtvolumen, als vielmehr in Bezug auf die Geschwindigkeit des Wachstums. Das erste Humangenomprojekt hat noch viele Jahre gedauert und viele Millionen Dollar gekostet. Heute gibt es Maschinen, die hundert Genome pro Tag sequenzieren können, zu Kosten, die eine Individualsequenzierung für Patienten zur Routine machen werden. Für die Biologie tut sich damit ein ganzes Universum an neuen Möglichkeiten auf, da nicht nur Genome sequenziert werden, sondern auch Transkriptome und Epigenome. Inzwischen sind die Methoden bis zur Einzelzellanalyse verfeinert. Gleichzeitig reift die Erkenntnis, dass wir als höhere Organismen in Gemeinschaft mit einer riesigen Zahl von Mikroorganismen leben, dem sogenannten Metabiom. Auch dieses wird erst durch Big Data Projekte erschlossen und experimentell zugänglich. Selbst in der klassischen Taxonomie entsteht mittels Sequenzanalysen ein neues Feld – die Taxonomics.

Kein Bereich der Biologie kommt mehr an diesen Entwicklungen vorbei. Studenten der Biologie müssen zu »Big Data Natives« ausgebildet werden.

Tatsächlich hat die Geschwindigkeit des Wachstums der Daten sogar die Geschwindigkeit der Computerentwicklung hinter sich gelassen. Und das gilt insbesondere für unsere vertrauten Alltagsprogramme, mit denen wir das Computerzeitalter versuchen zu meistern. Tabellenoperationen sind in Word auf 4.000 und in Excel auf 100.000 Zeilen begrenzt. Aber ein Genomikdatensatz hat Millionen von Zeilen. Das ist ein Umfang, den wir auch mit guter Intuition nicht mehr wirklich fassen können – aber genau dafür haben wir ja heutzutage Computer: Ein paar Befehlszeilen reichen, um aus solchen Datenmengen Information heraus zu filtern. Aber für den typischen Microsoft Nutzer sehen diese aus wie chinesische Schriftzeichen. Wunderschön, aber rätselhaft.

Das vorliegende Buch führt uns in diese Welt des »Computer-Chinesisch« ein. Wer bereit ist, sich wieder ein Stück zu den Anfängen des Computers zurück zu bewegen, wird man verblüfft feststellen, dass diese viel mehr können als man ihnen im Alltag abverlangt. Mit Big Data zu arbeiten wird da selbst auf einem Heimcomputer möglich.

Das Buch nimmt den Leser an die Hand und führt ihn durch die ersten Schritte, bis hin zu realen Beispielen der Genomdatenanalyse. Der Schlüssel ist der Umgang mit dem Linux-Betriebssystem, das nahe am Kern des Computers arbeitet. Hinzu kommt der Einstieg in eine einfache Programmiersprache und der Umgang mit Datenbanken. Das ist das Rüstzeug, mit dem sich eigentlich jeder Student der Naturwissenschaften vertraut machen sollte – insbesondere auch die Biologen. Das Buch führt aber auch in das Programmpaket R ein. Dieses entwickelt sich derzeit rasend schnell zum Wunderwerkzeugkasten der Datenanalyse, Statistik und Visualisierung. Da es eine Open Source Software ist, wurde es zum Sammelbecken für die Entwicklung und Bereitstellung von neuen Algorithmen zur Datenanalyse an der vordersten Forschungsfront. Das Buch kann da natürlich nur einen Einstieg vermitteln, aber der ist geeignet, jedem zu zeigen, was für eine großartige Landschaft von Werkzeugen sich dahinter verbirgt.

Wer das alles beherrscht ist eigentlich schon hervorragend gerüstet. Aber das Buch hat auch noch eine Kür zu bieten. Es führt in die bei Bioinformatikern beliebte dynamische Textverarbeitung LaTeX ein und befasst sich mit der Visualisierung komplexer Daten, sowie der Veröffentlichung auf Web-Servern.

Das Buch ist als Schnellkurs gedacht – und tatsächlich kann man die einzelnen Kapitel vergleichsweise schnell abarbeiten, zumal die lockere Erzählweise des Textes einen dazu geradezu auffordert. Gleichzeitig lernt man einiges über die Historie der Entwicklung des »Computer-Chinesisch« und kann damit die Vielfalt besser einordnen. Mit diesem Rüstzeug kann man auch gleich die ersten eigenen wissenschaftlichen Datenanalysen durchführen. Die Genomforscher stellen ja fast alle Daten frei zur Verfügung – und darin gibt es viel zu entdecken!

Diethard Tautz – Max-Planck Institut für Evolutionsbiologie, Plön

Vorwort des Autors

Der Ausspruch Let my dataset change your mindset des schwedischen Mediziners und Datenjongleurs Hans Rosling beschreibt bestens, worum es mir mit diesem Schnellkurs geht ich möchte aber my durch your ersetzen. Ich will Ihnen Werkzeuge zeigen, die Ihnen helfen, mit Ihren Datensätzen zu spielen. Dann können Sie Wissen generieren und dieses teilen. Dazu gehört die Visualisierung für einen Vortrag, die Formatierung für eine Publikation oder die Verbreitung über das Internet. Alles das werde ich Ihnen mit praktischen Beispielen vorturnen und Sie sollen mitmachen.

Mit diesem Schnellkurs möchte ich Ihnen zu mehr Freiheit bei der Datenprozessierung und -analyse verhelfen frei von kommerzieller Software, frei von festgelegten Verarbeitungswegen. Ich stelle keine Algorithmen vor und interpretiere keine Ergebnisse. Dies ist also kein Lehrbuch der Bioinformatik, sondern vielmehr eine Einführung in die Werkzeuge und die Anwendung von Bioinformatik.

Für die intensive Hilfe bei der Korrektur des Textes und der Kontrolle der Beispiele danke ich Felix Moorhoff, Nadine Wappler und besonders meiner Fachlektorin Katharina Hemschemeier, die noch einige Punkt- und Kommamutationen aufdeckte.

Ich widme dieses Buch all jenen programmieraffinen Menschen, die ihre Programme, Progrämmchen, Skripte und Einzeiler frei zur Verfügung stellen, all jenen modernen »Aufklärern«, die in Foren ihre Ideen und Erfahrungen weitergeben und ebenso den Suchmaschinenexperten, ohne die dies alles ebenso verborgen geblieben wäre wie so manches gute Buch. Frei nach der vom amerikanischen Programmierer Richard Stallman in melodischen Text (gnu.org/music/free-software-song.en.html) gegossener Maxime: Join us now and share the software; You’ll be free, hackers, you’ll be free ...

Röbbe Wünschiers Quedlinburg, den 31/12/2015

1Einleitung

1.1 Was Sie über Bioinformatik wissen  sollten

Bioinformatik ist ein dehnbarer Begriff. Er spannt einen Bogen von der Entwicklung von Algorithmen  was nicht Thema dieses Buches ist  bis hin zur reinen Anwendung von Software zur Datenanalyse  was dem Thema dieses Buches schon näher kommt. Lassen Sie mich dies anhand zweier Begegnungen verdeutlichen:

Neulich traf ich einen Krebsforscher. Mit ihm sprach ich unter anderem über die Fortschritte bei der Genomanalyse und welchen Beitrag sie für seine Arbeit leistet. Pfiffig wie er war, enthüllte er erst im Verlauf unseres Gespräches, dass er Krebse erforscht  nicht Tumore. Die Genomanalysen, die seine Arbeit betreffen, gehören in den Bereich des DNA-Barcodings, also der Identifizierung von biologischen Arten anhand eines eindeutigen genetischen Markers. Solche Marker zu finden, ist eine typische bioinformatische Aufgabe und zeigt, wie tief die Bioinformatik in klassische Disziplinen der Lebenswissenschaften eingedrungen ist.

Eine weitere Begegnung: Mit einem Professor der Genetik hatte ich das Vergnügen, eine zweiwöchige Sommerakademie zur Synthetischen Biologie zu leiten. Privat sprachen wir auch über unsere Forschung. Er arbeitet unter anderem am Ribosomal Readthrough, einem Phänomen, bei dem Ribosomen während der Translation der mRNA in ein Protein gelegentlich das Stopcodon überlesen. Er hatte eine riesige Excel-Datei mit RNA-Sequenzen von Transkripten, in denen er nach bestimmten Sequenzmotiven suchen wollte. Ich zeigte ihm, wie einfach das mit den Linux-Kommandozeilenprogrammen Sed und AWK geht. Innerhalb weniger Stunden konnte er seine Daten selbstständig analysieren und war begeistert.

Bei beiden Begegnungen war Bioinformatik ein Thema, aber kein zentrales, sondern das Mittel zum Zweck. Und genau in diese Bioinformatik, also die Bioinformatik als Mittel zum Zweck, möchte ich Sie einführen. Dabei greife ich auf meine persönliche 15-jährige Erfahrung als forschender und lehrender Biologe zurück, der experimentell arbeitet und dabei große Datenmengen erzeugt. Zunächst waren dies überwiegend Genexpressionsdaten, die mit DNA-Mikroarrays erzeugt wurden. Diese Daten mussten geplottet (Abb. 1.1) und annotiert (Abb. 1.2) werden. Eine hohe Zahl steht für eine hohe Aktivität des Gens. Später kamen Sequenzdaten aus NG (next generation) DNA- und RNA-Sequenzierungen dazu. Eine Sequenzierung erzeugt dabei rund 40 Millionen Sequenzen, die in einer etwa 2-3 GB großen Datei im FastQ-Format gespeichert sind. Die Verarbeitung dieser Daten stößt an die Grenzen von MS Excel und des Notepads.

Abb. 1.1 Visualisierung von Genexpressionsdaten. Über die Kommandozeile kann mit einem zugegebenermaßen langen Befehl eine Datenbankabfrage gestellt (Zeile 1), die Daten formatiert (Zeilen 2+3) und anschließend geplottet (Zeile 4) werden.

Abb. 1.2 Mit dem relationalen Dankenbanksystem MariaDB (oder MySQL, siehe Abschnitt 10.2) können Daten aus verschieden Tabellen kombiniert werden.

Wichtiger Hinweis

Die Bioinformatik, die ich Ihnen zeigen möchte, ist eine angewandte Bioinformatik. Sie ist Mittel zum Zweck. Es geht mir nicht um die Herleitung oder gar Entwicklung von Algorithmen, sondern um die Verarbeitung und Analyse von Daten aus den Lebenswissenschaften. Und  dies ist kein Theoriebuch. Sie müssen die Tasten schon selbst tanzen lassen.

1.1.1 Bioinformatik heißt mit Computern »sprechen«

Was haben »Montagsmaler« und »Activity« mit Bioinformatik zu tun? Bis 1996 gab es die Sendung Montagsmaler. Ein Begriff musste gemalt und von den Gruppenpartnern geraten werden. Bei dem Gesellschaftsspiel Activity muss ein pantomimisch vorgestellter Begriff erraten werden. Beide Vorgehensweisen sind im weiteren Sinn graphisch, ebenso wie Powerpoint. Aber wie viele Powerpoint-Präsentation sind zu textlastig? Zu viele  und es gibt einen Stapel Ratgeber darüber, wie man dies vermeidet. Und warum sind diese Präsentationen zu textlastig? Weil es häufig leichter fällt, einen Sachverhalten zu beschreiben, anstatt ihn zu skizzieren.

In der Bioinformatik wird dem Computer über Programmiersprachen beschrieben, wie er Daten verarbeitet soll. Zum Beispiel: nehme aus der Datei seqs.fasta alle Sequenzen, die mit einem Startcodon (ATG) beginnen, im Leseraster mindestens ein Cystein codieren und mit einem Stopcodon (TAA, TGA, TAG) enden → markiere diese offenen Leseraster → markiere die Cysteincodons → zeige das Ergebnis an. Dies ist in Abb. 1.3 dargestellt. Der eigentliche Befehl steht in der ersten Zeile des Terminals. Wenn Sie das Kapitel 3 durchgearbeitet haben, werden Sie diesen Befehl auch verstehen.

Abb. 1.3 Der Terminal ist ein wichtiges Element der Bioinformatik, da sich komplexe Arbeitsanweisungen leichter als Text denn per »zeige-und-klicke«formulieren lassen.

Sie sehen also, dass Sie mit dem Terminal ein Powertool zu Verfügung haben, mit dem Sie sehr effizient komplexe Prozessierungen von Daten vornehmen können.

1.1.2 Kleine Geschichte der Bioinformatik

Historisch betrachtet sind die Entstehung der Chemo- und Bioinformatik die konsequente Antwort auf die Entwicklungen der Molekularbiologie. Die Sequenzierung des ersten Proteins durch Frederick Sanger 1953 und die erste Kristallstrukturanalyse eines Proteins durch Max Perutz und John Kendrew 1960 legten die Datengrundlage. John Kendrew nutzte zur Berechnung der Myoglobinstruktur aus Röntgenbeugungsdaten den ersten europäischen Computer namens ESDAC (electronic delay storage automatic calculator), der 1949 in Cambridge/UK seinen Betrieb aufnahm. Er war damit einer der ersten Chemoinformatiker.

Unix, als Vorläufer von Linux, war in gewisser Weise von Anfang an auch ein akademisches Betriebssystem, insbesondere seit der Weiterentwicklung von Unix an der Universität von Berkeley in Kalifornien/USA. Die Unix-Variante BSD (Berkeley Software Distribution) ist übrigens die Basis für MacOSX und iOS. Dementsprechend wurde Unix von Anfang an insbesondere in den Naturwissenschaften angewendet. So gibt es seit den sechziger Jahren Publikationen aus den Bereichen Chemoinformatik und Bioinformatik. Voraussetzung für diese Entwicklung war zum einen der Zugang zu einem leistungsfähigen Computer, zum Beispiel dem IBM 7090 Computer, der auch die amerikanischen Mercury and Gemini Raumflüge unterstützte. Mit UNIVAC I (universal automatic computer) von John William Mauchly und John Presper Eckert war 1951 in den USA der erste kommerziell vertriebene Computer verfügbar. Zum anderen bedurfte es einer verständlichen Programmiersprache. John Backus von IBM entwickelte 1956 mit Fortran (formula translation) die erste Compiler-Programmiersprache. So wurden chemische beziehungsweise biologische Daten informatisch »fassbar«.

Fortran war auch das Werkzeug von Margaret Oakley Dayhoff aus den USA, einer Pionierin der Bioinformatik. Eines ihrer ersten Projekte war Anfang der 1960er Jahre die Erstellung eines Fortran-Programms, um aus Sequenzfragmenten eines Proteins seine vollständige Sequenz zu bestimmen (Dayhoff, 1964). Dieselbe Aufgabe, allerdings in unvergleichbar größerem Ausmaß und auf DNA-Sequenzen bezogen, musste das Team um Craig Venter bei der Etablierung des whole-genome shutgun sequencing lösen. Diese Methode zur Sequenzierung vollständiger Genome aus geschredderter genomischer DNA fand sowohl bei der Sequenzierung des ersten Genoms eines freilebenden Bakteriums (Fleischmann et al., 1995) als auch bei der Sequenzierung des humanen Genoms durch Celera Genomics (Venter et al., 2001) Anwendung. In den 1960er Jahren entstanden auch die ersten Algorithmen zur Analyse von Proteinsequenzen (Dayhoff und Ledley, 1962), der Modellierung von Proteinstrukturdaten (Levinthal, 1966) und der Rekonstruktion der Evolution von Organismen aus Proteinsequenzen (Fitch und Margoliash, 1967).

In den 1970er Jahren untersuchte Margaret Oakley Dayhoff ausgehend von einigen hundert Proteinsequenzen die Häufigkeit des Aminosäureaustausches bei verwandten Proteinen mit statistischen Methoden. Daraus entwickelten sich die sogenannten Substitutionsmatrizen, die bis heute von großer praktischer Bedeutung in der Sequenzanalyse und -suche in Datenbanken sind. Im Jahre 1977 publizierten Alan Maxam und Walter Gilbert sowie Frederick Sanger unabhängig voneinander verschiedene Methoden zur DNA-Sequenzierung. Auf der deutlich eleganteren Methode von Sanger basieren die heutigen Verfahren zur automatisierten DNA-Sequenzanalyse. Zwei Jahre später brachte die Firma Oracle die erste kommerzielle Datenbanksoftware auf den Markt, und 1979 entstand mit dem von Walter Goad entwickelten Prototyp von GenBank die erste öffentliche Gendatenbank. Um in dieser Datenbank Sequenzen zu finden, die ähnlich zu einer vorliegenden Sequenz sind, wurde ein zuvor von Saul Needleman und Christian Wunsch (Needleman und Wunsch, 1970) entwickelter und von Temple Smith und Michael Waterman (Smith und Waterman, 1981) modifizierter Alignment-Algorithmus verwendet, der in die BLAST (basic local alignment software tool) Software mündete (Altschul et al., 1990). BLAST wird heute von annähernd jedem Molekularbiologen  und von uns in den Kapiteln 5, 6 und 7  verwendet. Da ähnliche Proteinsequenzen oft auf Proteine mit ähnlichen Funktionen hinweisen, kommt der BLAST-Suche in Datenbanken eine große praktische Bedeutung zu.

Molecular Design Ltd. (chemische Datenbanken, gegründet 1978), Health Design Inc. (toxikologische Vorhersagen, gegründet 1978), Tripos Inc. (Molecular Modeling und Drug Design, gegründet 1979) und IntelliGENETICS (DNA- und Proteinsequenz-Analyse, gegründet 1980) waren Pioniere bei der marktwirtschaftlichen Anwendung von Computern (mit Unix) im Bereich der Chemie und Biochemie. Es ist schon erstaunlich: die Grundlage zu dem, was heute als bioinformatische Revolution gefeiert wird, ist schon vor über 30 Jahren gelegt worden.

Allein dieser kurze und unvollständige Rückblick auf die ersten Stunden der Chemo- und Bioinformatik zeigt, dass epochale Fortschritte sowohl in der Molekularbiologie als auch in der Computer- und Informationstechnologie zu einer überaus fruchtbaren Synthese führten.

1.1.3 Bioinformatik heute

Für viele Lebenswissenschaftler ist der Computer (scheinbar) wichtiger geworden als das Experiment. Egal, ob man Wald- und Wiesenbiologe ist, in der medizinischen Forschung arbeitet oder die Stammesgeschichte einer Tiergruppe nachvollziehen möchte: immer werden Daten mit dem Computer erfasst und ausgewertet. Die Entwicklung computergesteuerter Messgeräte hat diese Entwicklung massiv beschleunigt. Die Auswertung erfolgt häufig mit spezieller Software, die entweder mit dem Messinstrument mitgeliefert oder aber von Kollegen aus aller Welt entwickelt und bereitgestellt wird. Software von den Herstellern ist meistens mit einer benutzerfreundlichen graphischen Oberfläche ausgestattet. Das ist schön, wenn man nach Schema F verfährt. Häufig berücksichtigt diese Software aber weder die neuesten Erkenntnisse bei der Datenanlyse, noch können diese eigenhändig integriert werden. Die aktuellsten Umsetzungen von neuen Algorithmen und Verfahren sind wiederum oft kommandozeilenbasiert  das bedeutet, diese laufen nur im Terminal. Wenn Sie mit dem Terminal umgehen können, öffnet sich eine neue Welt an Möglichkeiten. Und dies gilt nicht nur für den Linux/MacOSX-Terminal, sondern auch für das kommandozeilenbasierte R, das für die numerische Datenanalyse und -visualisierung besonders geeignet ist (siehe Kapitel 11).

Warnung

Bioinformatik und Excel passen nicht gut zusammen. Die meisten Lebenswissenschaftler arbeiten mit Excel. Das ist okay, solange die Datenmengen nicht zu groß sind und man weiß, was man tut, beziehungsweise Excel weiß, was man will. Ein Beispiel: das Protein Sept7 (ein Septin) codiert für ein Protein, das u.a. am Aufbau des Cytoskeletts beiteiligt ist. Öffnen Sie einmal Excel und geben Sie den Gennamen sept7 ein. Ja, versuchen Sie es einfach einmal.  Und? Mein Excel (MS Excel für Mac 2011, Version 14.4.8) macht daraus das Protein Sept-07, womit allerdings der 1. September 2007 gemeint ist (Abb. 1.4).  Man muss wissen, das Gennamen im Allgemeinen kursiv und klein geschrieben werden, Proteine dagegen normal gesetzt sind und mit Großbuchstben beginnen.  Okay, dann eben die Zelle mit Sept-07 rechtsklicken → Zellen formatieren ... → Text → OK. Huch: jetzt steht da 39326!? Dies ist die Anzahl der Tage zwischen dem 1. Januar 1900 und dem 1. September 2007. Nur wenn man die Zellenformatierung vor der Eingabe auf Text einstellt, wird der Genname korrekt eingetragen. Diese Besonderheit von Excel führte dazu, dass Sept-07 als Genname in die renommierte GenBank Einzug hielt (Zeeberg et al., 2004) und niemand das Gen fand. Erst später wurde der Fehler bemerkt und korrigiert.

Abb. 1.4 Vorsicht mit Excel: mit seinen Standardeinstellungen wird aus manchem Gennamen ein Datum.

1.1.4 Experimente und Bioinformatik

Bei meiner eigenen Arbeit spreche ich gerne davon, dass ich experimental and computational biology betreibe. Leider lässt sich das nicht stolperfrei ins Deutsche übertragen. Im Englischen wird die Einheit aus Experiment und computergestützter Datenanalyse unmittelbar deutlich.

Ich hatte schon angesprochen, dass bei Experimenten durch die moderne Messmethodik massenhaft Daten anfallen. Abb. 1.5 gibt einen Eindruck aus meiner eigenen Arbeit. Um die Dynamik der Biologie und ihrer regulativen Prozesse während der Biogasfermentation zu analysieren, verfolgen wir die abiotischen Faktoren (linker Plot) und entnehmen zu verschieden Zeitpunkten Proben für die Sequenzierung. Dabei sequenzieren wir alle zum jeweiligen Zeitpunkt in einer Gemeinschaft von Lebewesen aktiven Transkripte (RNASeq), das sogenannte Metatranskriptom. Jede Sequezierung resultiert in einer Datei, die im komprimierten Zustand rund 2 GB groß ist. Meine Doktorandin hat berechnet, dass alle in ihrer Arbeit ausgewerteten RNASeq-Daten ausgedruckt einen Papierberg mit dem Gewicht von acht Eiffeltürmen ergeben würde (Standardpapier und -textgröße vorausgesetzt). Ohne grundlegende bioinformatische Kenntnisse ist eine Auswertung unmöglich. In den Kapiteln 6 und 7 werden Sie den Umgang mit solchen Daten lernen.

Abb. 1.5 Bei der Analyse der Dynamik des Metatrankriptoms bei der Biogasfermentation fallen massenweise Daten an  die ausgedruckt dem mehrfachen Gewicht des Eiffelturms entsprechen würden.

Ich möchte aber noch auf einen weiteren wichtigen Aspekt bei der bioinformatischen Auswertung experimenteller Daten eingehen: den Weg der Daten (Abb. 1.6). Wenn Sie mit dem Computer experimentelle Daten auswerten, müssen Sie auf die verwendete Software vertrauen können. Je komplexer die Software und je weniger Rohdaten Sie in den Fingern halten, desto schwieriger ist es, Fehler zu entdecken. So wurde die Bildung des Ozonlochs über der Antarktis lange übersehen, weil für viele Jahre die Daten von TOMS (Total Ozone Mapping Spectrometer) Satelliten der NASA falsch ausgewertet wurden  und zwar von einem Computer. Der Algorithmus  von einem Menschen erstellt  markierte zu geringe Werte als fehlerhaft, und diese wurden somit von der Gesamtanalyse ausgeschlossen (Pearce, 2008). Eine Reanalyse der Daten in den 80er Jahren aufgrund der Veröffentlichung eines britischen Wissenschaftlers (Farman et al., 1985) zeigte, dass das Programm zu viele Daten markiert hat. Das Ozonloch hätte schon Jahre früher erkannt werden können.

Abb. 1.6 Ob mit oder ohne Computer, man muss den Weg der experimentellen Daten immer genau prüfen. Dieser Wissenschaftler glaubt, der Wurm sei ein Bakterium. Dabei hat er nur übersehen, dass der Wurm von Bakterien besiedelt ist, deren ribosomale RNA (rRNA) letztendlich zu einem falschen Ergebnis führte.

1.2 Meine Leser

Wenn Sie Bioinformatik als ein Werkzeug verstehen, um Ihre biologischen Daten zu analysieren und zu visualisieren, dann sind Sie meine Zielgruppe. Ich werde nicht über Algorithmen sprechen. Sie werden sich Linux und seine Tools sowie die bioinformatische Software anhand vieler Beispiele erarbeiten. Mit diesen Werkzeugen sollen Sie lernen und können Sie lehren. In jedem Fall steht die praktische Anwendung im Vordergrund, wie insbesondere Teil II zeigt.

Warnung

Bevor Sie loslegen: beachten Sie bitte unbedingt die Box zur Wahl des Betriebssystems auf Seite §.

Tipp

»Und mit Geistesstärke tu’ ich Wunder auch.«  Sie, der Leser oder die Leserin, halten mit diesem Buch einen Schnelleinstieg in den Händen. Nach der Bearbeitung der Beispiele sollten Sie in der Lage sein, die Methoden auf Ihre Daten anzuwenden und tiefergehende Quellen hinzuzuziehen. Goethes Zauberlehrling hatte die Möglichkeit nicht, aber Ihnen lege ich, unabhängig von diesem Buch, ans Herz: machen Sie immer Backups von Ihren Daten. Sonst kann auch Ihnen schnell das Wasser bis zum Halse stehen!

1.3 Notwendiges Vorwissen

Optimaler Weise haben Sie schon ein Basiswissen in Biologie (siehe Abb. 1.7) und keine Berührungsängste mit dem Computer.

Abb. 1.7 Grundwissen Biologie. Wenn Ihnen die gezeigten Begriffe bekannt vorkommen, dann haben Sie eine gute Basis. ORF: open reading frame(offenes Leseraster); im Proteinalignment bezeichnen die Pluszeichen ähnliche, die vertikalen Striche identische Aminosäuren von zwei Proteinsequenzen.

Ansonsten ist kein Vorwissen notwendig. Sie sollten aber Zugang zu einem Computer haben, auf dem Sie Software installieren dürfen und mit dem Sie in das Internet kommen.  Eine Sache wäre aber doch hilfreich, wenngleich nicht notwendig: wenn Sie ein Problem mitbringen  ein Datenverarbeitungsproblem. Denn die größte Motivation zum Lernen ist die Notwendigkeit (und Freude), ein Problem zu lösen.

1.4 Ziel des Buches

Der Weg ist das Ziel! Ich möchte Ihnen zeigen, wie Sie mit Daten spielen und aus Daten anschauliche Ergebnisse gewinnen. Ich werde keine Ergebnisse diskutieren und keine Algorithmen vorstellen. Mein primäres Ziel ist, dass Sie durch praktische Beispiele einen Einblick in die Prozessierung, Analyse und Visualisierung von biologischen sequenzbasierten Daten (DNA, RNA, Protein) unter Linux bekommen. Ich möchte Sie damit für die Datenflut in Praktika, Abschlussarbeiten und Forschungsprojekten rüsten (Abb. 1.8).

Abb. 1.8 Mein Ziel ist es, Ihnen Grundlagen für die Verarbeitung und Analyse von Daten aus den Lebenswissenschaften zu vermitteln.

Wichtiger Hinweis

»Es gibt nichts Gutes, außer man tut es«  das sagte einst Erich Kästner. Lernen durch Handeln, das sagen die Pädagogen. Lassen Sie die Tasten schwingen, das sage ich. Ohne Übung geht nichts, und daher ist dieses Buch durchsetzt von sogenannten Terminals mit Beispielen, die Sie durcharbeiten und  das ist mir wichtig  nicht schnöde abtippen, sondern mit denen Sie spielen sollen. Verändern Sie Befehle, schauen Sie was passiert. Learning by doing! Der ganze Teil II dient der Übung.

Mit dem Einzug von Hochtechnologie und Hochdurchsatzverfahren in den Laboralltag nimmt die digitale Datenverarbeitung einen immensen Stellenwert ein. Es ist heute selbstverständlich, dass ein Naturwissenschaftler seine Forschungsdaten selbstständig graphisch aufarbeitet und präsentiert. Früher hat dies der Institutszeichner oder ein Graphiker gemacht. Ein Großteil der Zeit wird dabei am Computer mit der Formatierung der Daten verbracht. Häufig müssen Daten umformatiert werden, um den Formatansprüchen einer bestimmten Analysesoftware zu entsprechen: Kommata in Punkte, Tabulatoren in Semikolons, Leerzeichen in Unterstriche, Spalten in Zeilen umwandeln, Information aus zwei Dateien in eine Datei zusammenfügen etc. Hier setzt dieses Buch an. Mit diesem Buch möchte ich Ihnen eine digitale Pipette in die Hand geben; dabei steht die Pipette für ein universelles Hilfsmittel im Labor. Während mit der Pipette Flüssigkeiten »prozessiert« werden, möchte ich Ihnen zeigen, wie Sie experimentelle Daten prozessieren können (Abb. 1.9).

Abb. 1.9 Datenprozessierung mit Linux und dem Terminal. Egal, welches Betriebssystem auf Ihrem Computer installiert ist, mit der freien VirtualBox-Software von Oracle installieren wir gemeinsam eine virtuelle Linux-Maschine (siehe Abschnitt 3.2).

1.4.1 Teil I: Vorbereiten

Im Zentrum dieses Buches steht der Terminal (Abb. 1.9). Mit verschiedenen Programmen werden wir experimentelle Daten prozessieren, speichern und visualisieren. Unabhängig davon, welches Betriebssystem auf Ihrem Computer installiert ist, können Sie mit der VirtualBox-Software von Oracle ein komplettes Linuxsystem als virtuelle Maschine laufen lassen (siehe Abschnitt 3.2