69,99 €
Die Bioinformatik ist für die Weiterentwicklung der modernen Biowissenschaften von herausragender Bedeutung. In Grundzügen wird sie Teil einer jeden Ausbildung zum Biologen oder Biochemiker werden. Obwohl die Zahl der angebotenen Lehrveranstaltungen rapide zunimmt, gibt es bisher auf dem deutschsprachigen Markt noch kein Lehrbuch zu dieser Thematik. Das vorliegende Werk schließt diese Lücke. Reich bebildert und mit relativ wenig mathematischem Formelaufwand werden die Grundlagen der Bioinformatik gut verständlich aufbereitet. Die Themenauswahl ist dabei auf die Bedürfnisse der experimentell tätigen Biochemiker, Biologen und Mediziner abgestimmt. Auf die wichtigsten Hilfsmittel, die das Internet kostenlos bietet, wird ausführlich eingegangen. Die Inhalte werden in der Abfolge Sequenz - Struktur - Funktion entwickelt: · Sequenzdatenbanken · Genomprojekte · Proteinorientierte Datenbanken · Techniken des eukaryontischen Genomassembly · Strukturdatenbanken · Expressionsanalyse mit DNA Chips · Proteomics · Phylogenie und Sequenz · DNA Computing Die Bioinformatik betrifft die tägliche Arbeit eines jeden Biowissenschaftlers. Es sollte sich daher jeder mit den grundlegenden Ansätzen vertraut machen.
Sie lesen das E-Book in den Legimi-Apps auf:
Seitenzahl: 283
Veröffentlichungsjahr: 2012
Contents
Vorwort
Einleitung
1 Sequenzen
1.1 Der Evolutionsverlauf des Planeten Erde, die molekulare Evolution biologischer Systeme und die Suche nach Ähnlichkeiten
1.2 Sequenzdatenbanken
1.3 Proteindatenbanken
1.4 Alignments – Ähnlichkeiten zwischen Sequenzen
1.5 Das Identifizieren von ORFs in genomischer DNA
1.6 Markov Modelle
2 Strukturen
2.1 Wie falten sich Proteine?
2.2 Strukturdatenbanken
2.3 Vorhersage von RNA-Strukturen
2.4 Pattern-Suche
2.5 Die Klassifizierung von Proteinstrukturen
3 Genomics
3.1 Orthologe, Paraloge und globaler Aufbau von Genomen
3.2 Cluster von orthologen Gruppen
3.3 Wie sequenziert man Genome?
4 Functional Genomics
4.1 DNA Chiptechnologie und Expressionsarrays
4.2 Das Modell Saccharomyces cerevisiae
4.3 Anwendungsgebiete für Chiptechnologie
4.4 Chiptechnologie in der Pharmaforschung
4.5 Pharmakogenetik
5 Proteomics
5.1 Datenbankgestützte high-tech Sequenzierung von Proteinen
5.2 Genomweite Two-Hybrid Analyse in Hefe
5.3 Proteomarray mit exprimierten Hefe Proteinen – Die Suche nach enzymatischen Aktivitäten
5.4 Datenbanken für nonhomology Funktionsvorhersagen
5.5 Pathway-Datenbanken
6 Phylogenetik
6.1 Grundlagen
6.2 Gen-trees versus Spezies-trees
7 DNA-Computing – Ein Exot mit Potential
Index
Autor:
Priv.-Daz. Dr. Reinhard Rauhut
Max-Planck-Institut für Biophysikalische
Chemie – Abl. Zelluläre Biochemie
Am Faßberg 11
D-37077 Göllingen
Der Autor ist Privatdozent des
Fachbereiches Biologie der
justus-Liebig-Universität Gießen.
Institut für Biochemie
e-mail: [email protected]
Das vorliegende Werk wurde sorgfältig erarbeitel. Dennoch übernehmen Autor, und Verlag für die Richtigkeit von Angaben. Hinweisen und Ratschlägen sowie für eventuelle Druckfehler keine Haftung.
Die Deutsche Bibliothek – CIP-Einheitsaufnahme
Ein Titeldatensatz für diese Publikation ist bei Der Deutschen Bibliothek erhältlich
© Wiley-VCH Verlag GmbH.
D-69469 Weinheim. 2001
Alle Rechte, insbesondere die der Übersetzung in andere Sprachen, vorbehalten. Kein Teil dieses Buches darfohne schriftliche Genehmigung des Verlages in irgendeiner Form – durch Fotokopie. Mikroverfilmung oder irgendein anderes Verfahren – reproduziert oder in eine von Maschinen. insbesondere von Datenverarbeitungsmaschinen, verwendbare Sprache übertragen oder übersetzt werden.
Print ISBN 9783527303557
Epdf ISBN 978-3-527-66327-9
Epub ISBN 978-3-527-66326-2
Mobi ISBN 978-3-527-66325-5
Vorwort
Betrachtet man das Bild der modernen Biologie, wie es sich in diesen Tagen in den Medien präsentiert, so fragt sich der Beobachter bisweilen, ob denn die Zukunft der Biologie eher an der Börse oder aber im Labor liege. Der Wirtschaftsteil berichtet ebenso oft über Biologisches wie der Wissenschaftsteil. Dieses plötzliche wirtschaftliche Interesse an den Biowissenschaften ist zu einem Gutteil auch dem jungen Wissenschaftsgebiet der Bioinformatik zu verdanken. Ich sage verdanken, da sich Wissenschaft neben einem Erkenntniszuwachs, einer Umsetzung von intellektuell aufregenden Ideen in neue innovative Produkte des biomedizinischen Sektors, neuer diagnostischer Ansätze und Produktionsverfahren nicht schämen muß. Biologie als Wachstumsbranche und Hoffnungsträger, – es bleibt zu hoffen, daß einer ganzen Generation hervorragend ausgebildeter Biochemie- und Biologiestudenten in Kürze einmal ein freundlicherer Arbeitsmarkt beschieden sei, als dies bisher der Fall war. Die Frage, was von all den Börsengängen bleiben wird, ist noch nicht zu beantworten, die Bioinformatik wird jedoch mit Sicherheit die biologischen Wissenschaften nachhaltig revolutionieren. Es ist dabei ganz und gar kein Zufall, daß die Geburt der Bioinformatik mit der Entwicklung des Internets in den 90er Jahren einherging und durch öffentliche Datenbanken sowie die Benutzung internet-basierter Software gekennzeichnet ist. Der experimentell arbeitende Biologie muß in den Zeiten des Internets auf eine ganz neue Weise lernen zu „wissen, wo es steht“. Wo kann ich Informationen und Hilfsmittel zu meinem konkreten Laborproblem im Internet finden, wie kann ich das Maximum an Informationen erhalten, die zu meinem Protein, zu meiner Sequenz in Beziehung stehen, wie erkenne ich den maximalen Informationsgehalt meiner eigenen Daten?
Das Buch ist aus einer einsemestrigen Vorlesung Bioinformatik für Biologen und Biochemiker entstanden. Den Teilnehmern sollten im Rahmen dieser Veranstaltung die Möglichkeiten und Quellen der heutigen Bioinformatik vorgestellt werden, so daß sie für die eigene Arbeit im Labor, für die eigenen Experimente, die richtigen Entscheidungen treffen können. Zudem sollte dem Hörer klar werden, in welcher Richtung sich die modernen biologischen Wissenschaften ändern werden, eine für den Studenten nicht unwichtige Fragestellung, geht es doch auch um sein zukünftiges Arbeitsgebiet.
Das Buch soll sich also vornehmlich an den experimentell tätigen Biochemiker und Biologen wenden, dessen Ausbildung künftig Bioinformatikwissen enthalten muß. Die Mathematik, die hinter bestimmten Bioinformatikprogrammen steht, wird hier nur ansatzweise verfolgt. Bisher ist nur eine sehr begrenzte Anzahl von Bioinformatik-Monographien erschienen, von denen die meisten für den Studenten und auch für den experimentell tätigen Wissenschaftler wenig hilfreich sind, da sie sich zumeist allzusehr mit dem mathematischen Innenleben von Bioinformatikanwendungen beschäftigen, also mehr auf der Entwickler- als auf der Anwenderseite beheimatet sind. Vorbild bei der Planung des Buches war eigentlich nur das 1998 von Baxevanis und Ouellette herausgegebene Buch Bioinformatics (Wiley, New York), das Anfang 2001 in der zweiten Auflage erschienen ist. Dem Informatiker, der neue Datenbankstrukturen entwickelt, Algorithmen entwirft oder Software schreibt, kann im vorliegenden Werk aber sicherlich eine Menge der Biologie vermittelt werden, die hinter den Daten steht.
Der Text verzichtet auf eine allzu bemühte Verdeutschung von Bioinformatik-Begriffen, da dies der Wiederauffindbarkeit in realen Websites eher abträglich ist. Ich habe versucht, die Linkinformationen auf dem neuesten Stand zu halten. Der Benutzer wird merken, daß gerade die besten Websites einem ständigen raschen Wandel unterliegen. Perfekte Lehrbücher entstehen nicht in der ersten Auflage, sie wachsen vielmehr durch das Feedback der Leser. Verlag und Autor erhoffen sich für zukünftige Auflagen reichlich Kommentare und Anregungen zu möglichen Verbesserungen, Fehlern, Unklarheiten, oder Aspekten, die keine Berücksichtigung gefunden haben.
Für zahlreiche Anregungen zum Thema Bioinformatik möchte ich Dr. Gerd Helftenbein, Heidelberg und Dr. Markus Sauerborn, Berlin danken, sowie in Gießen dem Kollegen Prof. Dr. Alfred Pingoud. Dem Verlag Wiley-VCH und seinem Projektverantwortlichen Dr. Hans-Joachim Kraus sei gedankt, daß dieses Buchprojekt so zügig auf den Weg gebracht und mit Elan durchgeführt werden konnte.
Reinhard Rauhut
Göttingen – Gießen, August 2001
Einleitung
Man hat, wer sich erinnert, als experimentell tätiger Biochemiker und Biologe eigentlich erst zu Beginn der 90er Jahre vermehrt die Erfahrung gemacht, daß das rasche Wachstum der Datenbankeinträge tatsächlich einen Einfluß auf den Laboralltag haben kann. War die Situation bis zu diesem Zeitpunkt eher so, daß man zunächst experimentell arbeitete, um eine biologische Funktion z.B. durch Proteinaufreinigung und -Charakterisierung sowie Klonierung des zugehörigen Gens zu beschreiben und man dann an den Computer ging, um die Resultate mit anderen Ergebnissen zu vergleichen, so ist es heute, nach mehr als zehn Jahren raschen Wachstums der Datenmengen, nach dem Erscheinen von Proteomics, Genomics und high-throughput-research, oft so, daß man zuerst am Computer arbeitet und dann eine in silico geborene Idee experimentell verfolgt und bestätigt. Man muß aber zunächst akzeptieren, daß die Entdeckung und Definition lohnender targets für experimentelle Ansätze in der explodierenden Datenmenge nur durch automatisierte, sensitive Verfahren des Erkennens von zusammengehörenden Einzelfalcten, von Sequenz- und Regulationsmustern möglich ist. Dies ist ein fundamentaler Beitrag der Bioinformatik. Bei allen Teildisziplinen des biomedizinischen Sektors und vielen Anwendern chemischer Produkte ist ein reges Interesse an der Bioinformatik vorhanden (Abb. E.l). Bioinformatik und der Computer werden aber das Experiment auch in Zukunft nicht ersetzen, ganz im Gegenteil. Genomprojekte, die enorm fortgeschrittenen Techniken der Strukturaufklärung biologischer Makromoleküle, die Erstellung komplexer Datensets mit Chiptechnologien führen seit den 90er Jahren zu einer immer rasanteren Zunahme des biologischen Wissens. Allein die bloße Menge existierender Daten machte spezielle Methoden zu ihrer Erschließung nötig. Entdeckungen sind heute möglich, indem man die bereits existierende Datenmenge genau analysiert. Bioinformatik schafft die Ordnungskriterien, die zur Bewältigung der Datenmenge notwendig sind. Und wir werden sehen, daß sich die Vielfalt der beobachteten Lebensformen und Biomakromoleküle auf ein relativ begrenztes Set evolutionären „Spielmaterials“ zurückführen läßt.
E.1 Eine Zusammenstellung der technologischen Sektoren, die gegenwärtig Bioinformatik Ressourcen benutzen. (nach Saviotti et al., Nature Biotech 2000, 18: 1247-1249)
Dies sind die rein quantitativen Zwänge für das Entstehen einer spezialisierten Form von Biologie (bzw. Informatik) wie sie die Bioinformatik darstellt. Wir haben es aber nicht mit einem bloßen quantitativen Phänomen zu tun. Der vergleichende Blick auf ganze Genome, Proteome und Transkriptome erlaubt es seit wenigen Jahren, experimentelle Ansätze zu verfolgen, die so zuvor überhaupt nicht denkbar waren. Hier ist offensichtlich eine neue Qualität der biologischen Forschung möglich geworden, die sowohl Fragestellungen der evolutionsorientierten Forschung, der Evolution von Proteinstrukturen und des Sequenz-Struktur-Funktions Zusammenhanges, als auch Fragen der komplexen Regulation großer Genverbände oder sogar ganzer Genome einschließt.
Jede Hypothese, die unter Zuhilfenahme des Bioinformatik-Instrumentariums formuliert wird, bedarf des nachfolgenden experimentellen Beweises. Ich werde versuchen klarzumachen, wie sehr die Bioinformatik hilft, neue Experimente gezielter und aussagekräftiger zu gestalten, oft sogar erst den ersten Hinweis darauf gibt, welche Experimente überhaupt möglich und angebracht sind.
Nur sechs Jahre nach der Veröffentlichung des ersten komplett sequenzierten mikrobiellen Genoms (Abb. 1.9 und 1.11) leben wir bereits in dem, was man gemeinhin die „post-genomische“ Phase nennt, ein Begriff, unter dem die neuen Techniken zusammengefaßt werden, die unter Verwendung von Genomdaten den Zusammenhang von Sequenz, Struktur und Funktion im Regelwerk einer Zelle untersuchen. Gerade die Proteinforschung erlebt durch die post-Genom-Phase eine wahre Renaissance.
Die Geschwindigkeit bei der Erarbeitung neuer Erkenntnisse wird enorm zunehmen. So werden medizinisch-pharmazeutisch orientierte Laboratorien bei der molekularen Beschreibung von Krankheitsbildern, bei der Identifizierung neuer therapeutischer Targets und der Targetvalidierung sehr viel schneller arbeiten können. Es ist daher nicht verwunderlich, daß es gerade die Ergebnisse des high-throughput-research (HTR) sind, die einer Industrialisierung geradezu bedürfen. Nur so kann das in den Datenmengen enthaltene Potential ausgeschöpft werden und zur Entwicklung von HTR-gestützten Assays führen. Neue molekulare Ätiologien bisher diffuser Krankheitsbilder machen Hoffnung, daß auch in solchen Fällen neue diagnostische Marker und therapeutische Targetklassen definiert werden können und der biomedizinischen Forschung neue Erfolge in der Bekämpfung von Krankheiten, die sich bisher einer Therapie widersetzten, beschieden sind.
Ist Bioinformatik nun eine spezialisierte Form von Biologie oder von Informatik? Die Rolle des experimentell tätigen oder Experimente planenden Biologen wird zumeist die eines Benutzers von Bioinformatik-Hilfsmitteln sein. Bioinformatik ist für die Weiterentwicklung der biologischen Wissenschaften so wichtig, daß sie in ihren Grundzügen Teil einer jeden Ausbildung zum Biologen oder Biochemiker werden muß. Es soll daher hier der Stoff behandelt werden, der jedem Studenten der Biowissenschaften und jedem aktiven Biowissenschaftler geläufig sein sollte. Im Mittelpunkt soll also der Anwender stehen. Es wird natürlich, wie in jeder arbeitsteiligen Struktur, auch in der Bioinformatik zur Ausbildung eines Spezialistentums kommen. Die gegenwärtigen Gründungsinitiativen für Studiengänge der Bioinformatik belegen dies. Die Anwender-spezifische Entwicklung von Software erfordert einen anderen, mehr Informatik-orientierten Studiengang, dessen Absolventen sicherlich in einschlägigen Start-Up Firmen gesucht sind. Die Realität der Bioinformatik ist derart, daß die Programmentwicklung und Ausformulierung international gültiger Datenformate für den akademischen Bereich in den Händen spezialisierter, zumeist Datenbank-assoziierter Forschungsgruppen liegt (z. B. NIH, EMBL, Swiss Institute for Bioinformatics).
In der Zukunft wird es sicherlich verstärkt einen Markt für spezialisierte kommerzielle biologische Software geben, wie z.B. integrierte Formen des data-mining mit benutzerfreundlichen Programm-Suiten und Software für die Analyse laborintern erstellter Expressionsdaten. Im Rahmen dieses Buches werde ich kommerzielle Software allerdings nur kurz berühren, das Schwergewicht liegt vielmehr in der Verwendung frei zugänglicher internetbasierter Software. Das Datensuchen und -analysieren wird zunehmend so komplex, daß es gerade für Großfirmen notwendig sein wird, damit eine spezielle Abteilung und entsprechende Fachkräfte zu beschäftigen, während kleinere Betriebe vielleicht die externe Bearbeitung durch spezielle Service-Provider vorziehen werden. Vielleicht kann dieses Buch auch dem einen oder anderen Börsenanalysten ein Hilfsmittel sein, wenn er über den nächsten Startup zu entscheiden hat.
Es wird für eine künftige Ausbildung von „hauptamtlichen“ Bioinformatikern wichtig sein, eine gesunde Kombination von biologischem und mathematischem Wissen zu vermitteln. Da Bioinformatik aber die tägliche Arbeit eines jeden Biowissenschaftlers betrifft, sollte jeder mit den grundlegenden Ansätzen selbst vertraut sein, sollte die wichtigsten Hilfmittel, die ihm das Internet kostenlos zur Verfügung stellt, selbst nutzen und die Limitationen gängiger tools abschätzen können. Man sollte sich bei Fragen, die zum Tagesgeschäft gehören, nicht unnötig in die Abhängigkeit von Spezialisten begeben, denen man sich huldvoll nähern muß, damit sie einmal einen Blick auf das Problem werfen, ein Phänomen, das man im Zusammenhang mit Computern sicherlich in vielen Labors kennt. Die Bedeutung der Bioinformatik liegt nicht in ihrer Rolle für nur einige wenige Spezialisten, sie liegt vielmehr darin, daß sich in absehbarer Zeit das Instrumentarium und die Forschungsplanung eines jeden Naturwissenschaftlers in einer biologischen Disziplin ändern wird und daß ein jeder sich um diese neuen Entwicklungen wird kümmern müssen, allein schon im Interesse einer gesicherten Forschungsfinanzierung.
Die unterschiedlichen Bioinformatik-Bedürfnisse lassen sich an zwei Äußerungen verdeutlichen, wie sie in Nature (15 Feb 2001) aus Anlaß der Veröffentlichung des menschlichen Genoms gemacht wurden. Ein so bedeutender Biologe wie Leroy Hood fordert, daß man Bioinformatik auf das engste mit der Ausführung von Experimenten verknüpfen muß, daß ein Biologe Kenntnisse der Bioinformatik besitzen muß, da er nur so in der Lage ist, im Labor „hypothesis driven research“ zu betreiben. Ein Vertreter eines führenden SoftwareAnbieters für Bioinformatik äußert sich dagegen dahingehend, daß der ideale Firmenmitarbeiter ein Programmierer mit biologischer Nachschulung ist.
Es gibt für die Bioinformatik noch keinen festen Kanon von Lehrinhalten. Gedruckte Informationen sind sehr weit verstreut und bei schlechter Bibliotheksversorgung kaum zugänglich. Ich werde daher sehr oft Originalveröffentlichungen heranziehen, um eine bestimmte Problematik zu verdeutlichen. Dies gilt z. B. für solche Techniken wie datenbankgestützte Sequenzierung und DNA-Chip Technologie, die hier als Teile der Bioinformatik aufgefaßt und präsentiert werden. Wir werden wichtige Websites besuchen, es soll aber darauf verzichten werden, dort, wo ausführliche Online-Manuals zugänglich sind, diese noch einmal in ganzer Breite zu wiederholen. Das Buch soll nicht nur Anleitung sein, wie ich Bioinformatik-Ressourcen erschließe, es soll auch die durch die Bioinformatik bereits gewonnenen neuen Einsichten in das Werden und Funktionieren von Organismen vorstellen. Das Konzept verfolgt also keinen engen Bioinformatik-Begriff, sondern will auch die dazugehörige neue Biologie ansatzweise vorstellen.
Es wird im Rahmen dieses Buches nicht möglich sein, auch nur annähernd alle Webressourcen vorzustellen, die der Kategorie Bioinformatik zuzurechnen sind, da es für nahezu jede Ausrichtung der Biologie, Molekularbiologie und Biochemie, für jede Molekülklasse eine spezielle Datenbank gibt. Einen sehr guten Überblick über alle Datenbanken gibt die jährliche Datenbank-Sondernummer von Nucleic Acids Research. Die Ausgabe vom Januar 2001 enthält vollständige Beschreibungen für 95 Datenbanken. Außerdem ist eine online frei zugängliche Kompilation von Baxevanis enthalten [http://nar.oupjournals.org], die insgesamt 281 Datenbanken in einer Liste aktiver Links vereinigt.
Wir wollen lernen, welche Erkenntnisse man aus der gewaltig zunehmenden, aber zunächst gestaltlosen Masse an Primärdaten (Sequenzen) gewinnen kann, wenn man die entsprechenden Methoden kennt. Bioinformatik ersetzt nicht Experimente, sondern hilft beim Design intelligenter Experimente. Wir müssen also wissen, wo man Daten findet, was man überhaupt finden kann, wir müssen die Prinzipien verstehen, die z. B. hinter einem Alignmentprogramm, einem Homologiesuchprogramm stehen. Ein Verständnis dessen, was im Hintergrund abläuft, wenn man ein solches Programm anwendet, ist natürlich wünschenswert, nur so kann man auch die Limitierungen abschätzen. Eine vollständige Durchdringung des zugrunde liegenden mathematischen Konzepts von Sequenzalignments ist nicht intendiert, da man hier sehr schnell in den Bereich einer hochspezialisierten Wahrscheinlichkeitsmathematik, von Stochastik, formaler Logik und quasimathematischer Linguistik gerät, der stets weit jenseits des Horizontes eines normalen anwendenden Naturwissenschaftlers liegen wird.
Das Interesse, das Wechselspiel von Funktion und Struktur eines biologischen Makromoleküls zu verstehen, kennzeichnet die moderne Biochemie und Molekularbiologie. In einem eher klassischen Ansatz wird man dazu versuchen, eine funktionelle Mutante zu charakterisieren, das Gen zu identifizieren, oder ein Protein zunächst unter Verwendung eines spezifischen Assay aufzureinigen, biochemisch zu charakterisieren, eine partielle Aminosäuresequenz zu erstellen und nach Überexpression des zugehörigen Gens eine Strukturanalyse z. B. durch Kristallisation durchzuführen. Alle diese experimentellen Techniken wird man auch in Zukunft anwenden, aber man wird im Vorfeld weitaus mehr Zeit darauf verwenden, das wirklich lohnende Target für diese Arbeiten auszuwählen. Und man wird in der Bewertung der Resultate sehr viel Zeit aufwenden, diese mit anderen Sequenzen zu vergleichen. Über Struktur und Funktion hinaus ist es gerade die Regulation auch komplexer Molekülverbände und Reaktionsfolgen, die mit den neuen Techniken der functional genomics und der Bioinformatik analysiert werden können. Diesen Techniken ist ein Kapitel mit exemplarischen Beispielen gewidmet.
Datenbanken für Primärsequenzen und die Suche in diesen werden uns daher zunächst beschäftigen. Insbesondere werden wir uns dem Problem widmen müssen, zwei oder mehrere Sequenzen, die eventuell eine evolutionäre Beziehung zueinander haben, miteinander zu vergleichen (Problematik paarweiser oder multipler Sequenzalignments).
Die evolutionsorientierte biologische Forschung ist seit etwa 1980 durch die Verwendung von 16 und 23 S rRNA Sequenzen und die Propagierung des Archaea-Konzeptes durch Woese auf eine solide Basis gestellt worden (Abb. E.2). Mit der steigenden Anzahl von Gesamtgenomen ist jetzt die Möglichkeit gegeben, die hier gewonnenen Schlüsse auf genomischer Ebene zu überprüfen und neue verbesserte Konzepte zum Evolutionsverlauf zu entwickeln. Einige wichtige Konzepte bei der Darstellung evolutionärer Beziehungen werden im Kapitel Evolution vorgestellt.
E.2 Der auf rRNA Sequenzen basierende universal phylogenetic tree in seiner Form ohne root (s. auch Abb. 6.6). Einführung und Durchsetzung dieses konzeptes in den frühen 80er jahren waren vornehmlich das verdienst von Carl Woese. Die zahlen geben die Anzahl der abgeschlossenen bzw. in Arbeit befindlichen Genome wieder (Stand 1998; für einen Überblick des jeweils neuesten Standes siehe die Websites von TIGR und des NCBI). (aus Woese, Curr Biol 1998, m: R781-783; Abdruck mit Genehmigung von Elsevier Science)
Die ständig zunehmende Menge an Proteindaten (Primärsequenzen und 3D Strukturen) erlaubt neue Erkenntnisse bei der Klassifizierung von Proteinen, ihrer Zusammenfassung zu Familien und Superfamilien. Da solche Klassifizierungen genomweit durchgeführt werden können, wird dabei ein großer Teil des erlaubten Protein 3D-Raums einbezogen. Protein-Evolution kann daher heute viel globaler analysiert werden, als das auf der Basis einzelner Proteinfamilien jemals möglich war. Struktur- und Motivdatenbanken für Proteine wird daher ein eigener Abschnitt gewidmet sein. Die Beziehung zwischen Struktur, Sequenz und Funktion wird dabei in einem veränderten Licht erscheinen. Vielfalt wird hier durch die Verwendung eines relativ beschränkten Sets von Bausteinen erreicht, ein weiteres Beispiel für die Allgegenwart des kombinatorischen Prinzips der zu selbstreplizierenden Systemen organisierten Materie.
Mount:
Bioinformatics – Sequence and Genome Analysis
(Cold Spring Harbor Press, New York, 2001). Gerade bei Abschluß der Arbeiten zum vorliegenden Band erschienen, bietet dieses vorzügliche Buch einen umfassenden und anwenderorientierten Überblick aller Aspekte der Bioinformatik.
Baxevanis, Ouellette, eds.:
Bioinformatics
(Wiley, New York, 2001, 2. Auflage). Dieser Band ist für den normalen Bioinformatik-Nutzer einer der nützlichsten auf dem Markt.
Gibas, Jambeck:
Developing Bioinformatics Computer Skills
(O’Reilly, Sebastopol, CA; 2001). Dieser gerade erschienene Band geht für den Nicht-Informatiker auf sehr ansprechende, verständliche Weise auf Unix- und Scripterfordernisse der Bioinformatik ein.
Eine weitaus stärker theoretisch-mathematische Ausrichtung haben Setubal/ Meidanis:
Introduction to Computational Molecular Biology
(PWS Publ., Boston, 1997) und Durbin, Eddy, Krogh, Mitchison:
Biological Sequence Analysis
(Cambridge University Press, 1998)
Methods in Enzymology, Vol 266:
Computer Methods for Macromolecular Sequence Analysis
(R. F. Doolittle, ed., Academic Press, 1996); Methods in Enzymology, Vol 183:
Molecular Evolution: Computer Analysis of Protein and Nucleic Acid Sequences
(R. F. Doolittle, ed., Academic Press, 1990). Wenn auch etwas in die Jahre gekommen, bieten beide Titel noch viel Wissenswertes.
Als vorzüglichen Überblick über das weite Feld von allgemeinen und speziellen Datenbanken und Bioinformatik-Anwendungen, sei auf das jährliche Januar
Nucleic Acids Research
Sonderheft hingewiesen. Hier lassen sich neben Kurzbeschreibung einer Datenbank oder Website auch die aktuellen WebAdressen entnehmen.
Einen ansprechenden Kurzüberblick über die Bioinformatik gibt das
TIBS
Supplement 1998: Trends Guide to Bioinformatics.
Saenger:
Principles of Nucleic Acid Structure
(Springer, New York – Berlin, 1983). Immer noch der führende Titel auf diesem Gebiet.
Branden, Tooze:
Introduction to Protein Structure
(Garland Publ., New York, 1998, 2. Auflage). Der führende Titel zum Verständnis von Proteinstrukturen.
Die komparative Analyse ist in der Biologie ein seit langem eingesetztes Mittel, Entdeckungen zu machen. Wurden anfangs Morphologien ganzer Organismen verglichen, vergleichen wir heute Sequenzen. Das Ergebniss einer Suche nach Ähnlichkeiten zwischen zwei oder mehreren Sequenzen, nach Homologien, wird gewöhnlich in Form eines „sequence alignment“ dargestellt. Dabei wird eine distinkte Beziehung zwischen den Positionen zweier oder mehrerer Nukleinsäure- bzw. Proteinsequenzpositionen hergestellt, die untereinander im Alignment stehen (siehe z.B. ). Die auf diese Weise erkennbar gemachten Ähnlichkeiten bzw. Abweichungen lassen dann Schlüsse auf strukturelle, funktionelle und evolutionäre Beziehungen zu. Ein Alignment hat also das Ziel, erkennbar zu machen, ob zwei Sequenzen hinreichend ähnlich sind (Ähnlichkeit, , ist eine quantifizierbare Größe, z.B. ausgedrückt als % Identität zweier Sequenzen), so daß man das Vorliegen einer Homologie annehmen kann. ( ist also der Schluß, der aus dem Vergleich der beiden Sequenzen gezogen wird.) Zwei Gene sind entweder homolog, oder sie sind es nicht. Korrekt gesprochen, gibt es Grade von Ähnlichkeit (similarity) aber nicht von Homologie (homology). Hinter „Alignments“ steht also der Gedanke, daß evolutionär verwandte Proteine Sequenzähnlichkeit zeigen. Inwieweit dies dann auch für Struktur und Funktion gilt, wird im folgenden zu diskutieren sein.
Lesen Sie weiter in der vollständigen Ausgabe!
Lesen Sie weiter in der vollständigen Ausgabe!
Lesen Sie weiter in der vollständigen Ausgabe!
Lesen Sie weiter in der vollständigen Ausgabe!
Lesen Sie weiter in der vollständigen Ausgabe!
Lesen Sie weiter in der vollständigen Ausgabe!
Lesen Sie weiter in der vollständigen Ausgabe!