Erhalten Sie Zugang zu diesem und mehr als 300000 Büchern ab EUR 5,99 monatlich.
Viele Arbeitsgebiete der Linguistik haben in den letzten Jahren von einer Hinwendung zu empirischen Daten profitiert: Allgemein verfügbare Korpora erlauben die nachvollziehbare Prüfung von Hypothesen. Der vorliegende Band geht diesen Weg für die Textlinguistik. Die wesentlichen Ebenen der Textanalyse werden systematisch erläutert und ,Textualität' als das Ergebnis der Interaktion dieser Ebenen gedeutet. Anhand einer linguistischen Datenbank und eines auf mehreren Ebenen annotierten Textkorpus können praktische Recherchen durchgeführt und die Mechanismen der Textkohärenz gründlicher untersucht werden als bisher - sowohl qualitativ als auch quantitativ. Die 2. Auflage wurde vollständig überarbeitet und an vielen Stellen ergänzt, u.a. um ein eigenständiges Kapitel zur "Argumentationsstruktur". Zudem steht jetzt für die Korpusrecherche das "Potsdamer Kommentarkorpus" online bereit und ist in die Übungsaufgaben des Buches integriert. Stimmen zum Buch: "... eine uneingeschränkte Empfehlung für alle, die sich mit moderner Textanalyse in praktischer Hinsicht befassen wollen." - Info DaF 36, 2/3 (2009) "Studierende der Sprachwissenschaft im allgemeinen und der Textlinguistik sowie der Computerlinguistik im besonderen werden dieses Buch als ein gutes Lernmittel erleben" - ZfS 26 (2007)
Sie lesen das E-Book in den Legimi-Apps auf:
Seitenzahl: 414
Veröffentlichungsjahr: 2018
Das E-Book (TTS) können Sie hören im Abo „Legimi Premium” in Legimi-Apps auf:
Manfred Stede
Korpusgestützte Textanalyse
Grundzüge der Ebenen-orientierten Textlinguistik
A. Francke Verlag Tübingen
© 2019 • Narr Francke Attempto Verlag GmbH + Co. KG Dischingerweg 5 • D-72070 Tübingen www.francke.de • [email protected]
Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen.
E-Book-Produktion: pagina GmbH, Tübingen
ePub-ISBN 978-3-8233-0154-7
Für Brigitte, Leonie und Tim
Als im Jahr 2006 die erste Ausgabe dieses Buches entstand, waren korpusbasierte Ansätze in der Linguistik bereits recht weit verbreitet, doch für die Beschreibungsebene Text gab es nur wenige Korpora, die mit textlinguistisch relevanten Phänomenen annotiert waren – zumal für die deutsche Sprache. Das lag in erster Linie daran, dass diese Phänomene (wie etwa die Koreferenz zwischen Nominalphrasen oder die Gliederung eines Textes in seine Diskursstruktur) einerseits für eine automatische Analyse zu schwierig waren und andererseits eine manuelle Annotation mit hohem Aufwand verbunden war. Insofern war der Titel Korpusgestützte Textanalyse seinerzeit vor allem als programmatisch zu verstehen. Seither hat sich das Forschungsfeld jedoch kräftig weiter entwickelt: Auch für das Deutsche sind eine ganze Reihe interessanter Korpora entstanden, annotiert mit vielfältigen textlinguistischen Phänomenen, sowie leistungsfähige Software-Werkzeuge, die eine komfortable Recherche in diesen Korpora ermöglichen. Die vorliegende Neuauflage greift diese Entwicklungen auf und berichtet an vielen Stellen über die Möglichkeiten des Erkenntnisgewinns mit Hilfe solcher Werkzeuge. Insbesondere steht nun das frei zugängliche Potsdamer Kommentarkorpus, implementiert in der linguistischen Datenbank ANNIS3, mit seiner Mehrebenen-Annotation für praktische Übungen zur Verfügung; hier danke ich Peter Bourgonje und Thomas Krause für die technische Unterstützung.
Darüber hinaus sind alle Kapitel gründlich durchgesehen und teilweise ergänzt worden, um neuere Entwicklungen der Textanalyse zu integrieren.
Potsdam, im Juni 2018 Manfred Stede
Dieses Buch nähert sich der Aufgabe Textanalyse aus zwei verschiedenen Richtungen: Das grundsätzliche Anliegen, Strukturen in Texten aufzudecken und nach der Entstehung von Kohärenz zu fragen, ist das der Textlinguistik. Auch die Idee, dafür eine Reihe unterschiedlicher Ebenen heranzuziehen, wird von verschiedenen Autor/innen der Textlinguistik vertreten. Sie ist jedoch ebenso in der Computerlinguistik prominent, und damit geht der Versuch einher, die Aufteilung in Ebenen und die Untersuchung ihrer Zusammenwirkung möglichst systematisch zu betreiben. Hinzu kommt die Betonung der Rolle eines datenorientierten Vorgehens, das (neben der Korpuslinguistik, per definitionem) gleichfalls in der Computerlinguistik seit vielen Jahren gründlich verankert ist. Während meiner Beschäftigung mit der Thematik fiel mir auf, wie merkwürdig separat die Disziplinen Textlinguistik und Computerlinguistik allerdings nebeneinander zu existieren scheinen: Die Textlinguistik nimmt kaum einmal die durchaus interessanten Ergebnisse der textbezogenen Computerlinguistik auf. Und in der Computerlinguistik werden mitunter Räder neu erfunden, die vor vielen Jahren in der Textlinguistik bereits bekannt waren, wenn auch möglicherweise noch nicht hinreichend formalisiert. Diese Entwicklung ist bedauerlich, und es erscheint mir wichtig, die beiden Disziplinen stärker aufeinander aufmerksam zu machen. Sollte das Buch dazu einen Beitrag leisten, so wäre ein Ziel erreicht.
Das Buch möchte Studierenden einen Überblick über die verschiedenen Ebenen der linguistischen Textanalyse vermitteln. Weil am Ende die Einsicht in das Zusammenwirken der unterschiedlichen Ebenen stehen soll, ist das Unterfangen relativ „breit“ angelegt – wir behandeln eine ganze Reihe recht unterschiedlicher Themen. Dies bedingt, dass bei der Diskussion der Einzelebenen einiges nur kursorisch besprochen wird, was von Fall zu Fall unbefriedigend erscheinen mag. Ich habe jedoch versucht, am Ende jedes Kapitels Hinweise auf geeignete weiterführende Lektüre zur jeweiligen Ebene anzugeben.
Das Buch entstand im Verlauf dreier Veranstaltungen des Proseminars Textstrukturen an der Universität Potsdam. Allerlei Anregungen aus den Diskussionen mit Seminarteilnehmer/innen flossen in die Überarbeitungen ein. Besonders bedanken möchte ich mich bei Eva Breindl, Christian Chiarcos, Stefanie Dipper, Michael Grabski, Alexander Mehler und Georg Rehm für ihre wertvollen Hinweise zur Verbesserung früherer Versionen einzelner Kapitel. Andreas Peldszus half bei einigen technischen Problemen und der Gestaltung von Abbildungen. Doch wie immer gilt: Für alle verbleibenden Fehler ist allein der Autor verantwortlich.
Potsdam, im März 2007 Manfred Stede
Texte sind vielschichtige Objekte. Lesen wir einen, so geschehen vielerlei Dinge mit uns: Unter anderem rufen wir die einzelnen Wörter oder Phraseme (Mehrworteinheiten) in unserem mentalen Lexikon ab; analysieren wir seine Sätze und ihre Bestandteile mit Hilfe unseres grammatischen Wissens; machen uns ein Bild von der Bedeutung der Sätze; stellen dazu Zusammenhänge zu anderen Sätzen her (z.B. beim Verstehen eines Pronomens); setzen auch die einzelnen Satzbedeutungen zueinander in Beziehung (z.B. beim Herstellen eines Kausalzusammenhangs, der nicht explizit ausgedrückt ist); stellen fest, „worum es geht“ und registrieren Themen-Wechsel an bestimmten Textstellen; nehmen den Stil des Textes wahr: auf welche Weise spricht die Autorin oder der Autor mit uns; identifizieren wir gelegentlich versteckte Präsuppositionen und interpretieren unscheinbare Andeutungen; erkennen wir (oder glauben zu erkennen), was man uns mit diesem Text wirklich sagen will, welchen Zweck der Text erfüllen soll. All dies und mehr geschieht sehr schnell und zur gleichen Zeit – der Text geht nicht wie ein Computerprogramm „Schritt für Schritt“ vor und serviert uns solcherlei Informationseinheiten und Verarbeitungsanweisungen in sauberer Reihenfolge, sondern lässt uns in hohem Maße parallel arbeiten, also rezipieren und konstruieren. Ein Blick auf die Etymologie des Wortes TextTextEtymologie, wie ihn etwa Mistrik (1973, S. 10) vornahm, verdeutlicht die Komplexität:
Das Verständnis dieses Begriffes wird uns durch den Rückgriff auf die ursprüngliche Bedeutung des lateinischen Verbums texo, texere und des lateinischen Substantivums textus erleichtert: texo, texere heißt weben, flechten, zusammenfügen, bauen; textus heißt Gewebe, Geflecht, Zusammenhang, Gefüge. Ein Text ist also ein kompaktes Ganzes, dessen Inneres auf eine bestimmte Weise geflochten, d.h. aus der Fügung sprachlicher Elemente entstanden ist. Er ist eine in sich geschlossene sprachliche Äußerung im allgemeinen Sinne.
Mistrik betont hier auch, dass bei aller Komplexität ein (guter) Text am Ende die verschiedenen Fäden wieder zusammen laufen lässt, den Eindruck der Abgeschlossenheit vermittelt. Nach der Lektüre kann der Leser mit der Autorin übereinstimmen oder nicht, kann feststellen, dass vielleicht einige inhaltliche Fragen offen geblieben sind; doch das Lese-Erlebnis als solches ist erfolgreich beendet, wenn sich das Gefühl einstellt, das Anliegen des Textes insgesamt verstanden zu haben.
Wie aber „funktioniert“ ein solch komplexes Lese-Erlebnis? Wie gelingt es dem Text, uns ein solches Erlebnis zu verschaffen? Aus linguistischer Sicht ist dies bislang nur in einzelnen Ansätzen verstanden. Es gibt relativ gut ausgearbeitete Modelle für bestimmte Aspekte (z.B., wie finden wir ein Antezedens für ein Personalpronomen), aber es gibt keine umfassende Erklärung für das Zusammenwirken der verschiedenen Teilaufgaben, die wir beim Lesen bearbeiten. Dass man sich für die Suche nach einer solchen Erklärung auf ganz unterschiedliche Beschreibungsebenen begeben muss, dürfte heute weitgehend unstrittig sein. Bereits im Modell von Grosz u. Sidner (1986) ist von drei verschiedenen Strukturen die Rede (die allerdings nicht gleichermaßen ausgearbeitet wurden): einer intentionalen, einer aufmerksamkeitssteuernden (attentional) und einer linguistischen Struktur. Ähnlich unterscheidet Nussbaumer (1991) eine funktional-illokutive Ebene (Handlungsstruktur), eine inhaltlich-propositionale Ebene, sowie eine sprachlich-ausdrucksseitige Ebene. Sehr reichhaltig ist das Programm der Untersuchung dieser Vielfalt in dem Band Ebenen der Textstruktur (Motsch, 1996) artikuliert. Auch Brinker (2005) betont, dass künftige Forschung die einzelnen Ebenen zunächst isolieren und dann systematisch miteinander verbinden müsse. Allein fehlt bis heute eine Theorie, die auf der Grundlage sorgfältig ausgearbeiteter Einzelebenen dann genau das Zusammenwirken dieser Ebenen erklären könnte. Dieses Ziel wurde vor einiger Zeit bereits sehr eingängig von Brandt u. Rosengren (1992, S. 9, Hervorh. durch MS) formuliert:
Einigkeit besteht heute darüber, dass Texte multidimensionale Gebilde sind (…) In (Motsch 1990a) liegt ein Versuch vor, die einzelnen Ebenen zu identifizieren. Diese kurze Übersicht zeigt, dass die vielen theoretischen Ansätze, die oft neben- und unabhängig voneinander konzipiert wurden und häufig auch nur einen Aspekt des Textes beleuchten, in einem generellen Modell zueinander in Bezug gesetzt und an authentischem Material überprüft werden müssen. Ein solches Modell kann nicht auf Anhieb ausgearbeitet werden.
Auch heute ist dieses Modell noch nicht in Sicht; bei der Feststellung, dass es „nicht auf Anhieb“ entwickelt werden kann, dürfte es sich mithin um eine milde Formulierung handeln. Eine andere Untersuchung, die sich ebenfalls diesem Ziel verschreibt, ist die von Schröder (2003), der formuliert (S. 1, Hervorh. im Original):
Entscheidend ist, dass die multidimensionale Textstruktur als ein Zusammenspiel aus verschiedenartigen Ebenen begriffen wird. Daraus folgt, dass die unterschiedlichen Ebenen der Textstrukturierung nicht nur getrennt und sozusagen ‚nebeneinander‘ existieren, sondern dass sie sich gegenseitig auch beeinflussen und untereinander in einem Verhältnis wechselseitiger Abhängigkeiten stehen.
Für Schröder steht dann speziell die Handlungsstruktur im Mittelpunkt der Betrachtung, während es uns hier darum geht, nicht eine bestimmte Ebene vertieft zu behandeln, sondern mehrere Ebenen gleichermaßen zur Sprache zu bringen, und die Aufmerksamkeit auf die besagten wechselseitigen Abhängigkeiten zu richten. Um einen Beitrag zu dem eher langfristigen Ziel der Modellierung des Zusammenwirkens zu leisten, schlagen wir zwei, ihrerseits miteinander verwobene, Wege ein:
Wir versuchen, für eine Reihe interessanter Beschreibungsebenen den jeweiligen „Stand der Kunst“ darzustellen, also Material zusammen zu tragen, das für die Ebene grundlegend ist und auf dessen Basis die Entwicklung präziserer Modelle möglich sein sollte.
Wir betonen die wichtige Rolle von Daten als Grundlage der Erkenntnissuche und der Theoriebildung. Für die Untersuchung des linguistischen Objekts Satz sind Korpora und insbesondere mit syntaktischer Information angereicherte (sog. ‚annotierte‘) Daten in Gestalt von ‚Baumbanken‘ heute bereits zu einer sehr wichtigen Informationsquelle für viele Syntaktiker geworden. Für den Text ist dieser Perspektivenwechsel bisher – zumindest was die Arbeit mit annotierten Daten betrifft – noch weniger vorangeschritten.
So wie bestimmte Satz-Baumbanken für Computerlinguisten, aber auch für weniger Computer-orientierte Syntaktiker, die gemeinsame Datenbasis darstellen, anhand derer Hypothesen geprüft, weiterentwickelt und miteinander verglichen werden können, kann auch die Untersuchung von Texten erheblich von annotierten Korpora profitieren, anhand derer sich Phänomene aufzeigen lassen, die dann eben auch von Dritten nachvollzogen und weiter intepretiert werden können. Voraussetzung dafür ist freilich, dass die Annotationen einerseits nachvollziehbar und andererseits nützlich sind. Für die Textanalyse bedeutet das – und damit schließt sich unser Kreis – gut motivierte, voneinander getrennte Analyse-Ebenen, die einerseits in sich selbst schlüssig begründet sein müssen und andererseits dann das Auffinden von Korrelationen zwischen diesen Ebenen ermöglichen. Wenn, wie von den oben zitierten (und weiteren) Autoren richtigerweise betont, das Wechselspiel zwischen verschiedenen Ebenen letztlich die TextualitätTextualität hervorbringt, dann setzt eine systematische Untersuchung dieser Phänomene eine geeignete Datengrundlage voraus: Texte, die gleichzeitig auf unterschiedlichen Ebenen annotiert sind. Dass die Arbeit mit solchen Text-Daten heute möglich ist, verdanken wir den korpus- und computerlinguistischen Entwicklungen der letzten Jahre. Die technische Seite wird in diesem Buch öfters zur Sprache kommen, sie ist aber auch kein zwingender Bestandteil der Lektüre: Die zentrale Diskussion der einzelnen Beschreibungsebenen wird rein inhaltlicher Natur sein.
Unser Untersuchungsgegenstand sind allein geschriebene Texte, und wir treffen hier auch die oft übliche Einschränkung auf sog. Gebrauchstexte. Um dem komplexen „Funktionieren“ von Texten auf die Spur zu kommen, sollte man einerseits mit „richtigen“ Texten arbeiten und nicht allein mit handgefertigten Beispielen, andererseits aber die Komplexität auch begrenzen: Wie etwa Dichtung oder spielerische Werbetexte funktionieren, werden wir hier nicht untersuchen. Sämtliche multimedialen Aspekte bleiben ebenfalls von der Betrachtung ausgeschlossen. Bedingt durch das unseren eigenen Untersuchungen meist zugrunde liegende Korpus, das Potsdamer KommentarkorpusPotsdamer Kommentarkorpus, gibt es darüber hinaus einen gewissen Schwerpunkt auf Phänomenen in argumentativen Texten; doch die meisten Kapitel und Abschnitte sind unabhängig von dieser Wahl und gleichermaßen für andere Texttypen gültig.
Im Folgenden gehen wir kurz auf die technische Seite einer korpusgestützen Textanalyse ein. Eine Reihe der Übungsaufgaben in den folgenden Kapiteln basieren auf den hier besprochenen Software-Werkzeugen. Es sei aber noch einmal betont, dass das Buch ggf. auch vollständig ohne die Komponente der Korpus-Recherche gelesen und bearbeitet werden kann.
Die Arbeit mit Textkorpora kann im Prinzip beginnen, sobald eine Sammlung von Textmaterial, das nach bestimmten Kriterien ausgewählt wurde, zusammengestellt ist.1 Mit geeigneten Software-Werkzeugen lassen sich dann Untersuchungen der Wortfrequenz, von Kollokationen etc. durchführen (Hinweise auf solche Werkzeuge finden sich auf der Homepage zum Buch).
Für viele Zwecke entsteht allerdings ein eherblicher Mehrwert, wenn die Texte nicht nur „roh“ vorliegen, sonden mit linguistischer Information annotiert sind. Unter Annotation verstehen wir die Anreicherung von „Primärdaten“ (in unserem Fall: Texten) mit Informationen, die aus linguistischer Interpretation hervorgehen. Dabei kann es sich um ganz unterschiedliche Arten von Information handeln: part-of-speech tags, Syntax-Bäume, Sprechakte uvm. Der eigentliche Annotationsvorgang geschieht für manche Informationsarten vollautomatisch, wie üblicherweise bei der morphologischen Analyse und dem part-of-speech tagging (der Annotation mit Wortart-Information). Diese automatische Bearbeitung ermöglicht es den großen deutschsprachigen online-Korpussammlungen cosmas2 (IDS Mannheim) und DWDS3 (BBAW), Abfragemöglichkeiten anzubieten, die verschiedene Flexionsformen zum eingegebenen Wort finden, typische Wortkookkurrenzen berechnen, oder Wortsuche bei zusätzlicher Angabe der Wortart (zur Desambiguierung) ausführen.
Wenn eine Annotationsaufgabe so schwierig ist, dass sie einstweilen nicht oder nur mit ungenügender Ergebnisqualität automatisierbar ist, dann muss sie manuell durch geschulte Annotatoren ausgeführt werden. Dies ist bei allen in diesem Buch besprochenen Ebenen der Fall, auch wenn für einige davon bereits automatische Lösungen mit durchaus beachtlicher – aber eben nicht perfekter – Qualität existieren. Auch für die manuelle Annotation sind aber geeignete Software-Werkzeuge erforderlich, die vor allem diese zwei Zwecke erfüllen:
Das Werkzeug kann den jeweiligen Typus der Annotation durch eine geeignete Visualisierung und ein zugeschnittenes Bedienungskonzept optimal unterstützen und dadurch hohe Effizienz ermöglichen.
Die entstehenden Daten können in geeigneten Formaten abgespeichert werden, die eine einfache Weiterverarbeitung erlauben.
Mit anderen Worten: Linguistische Annotation sollte in aller Regel nicht mit dem gebräuchlichen Textverarbeitungs- oder Tabellenkalkulationsprogramm erfolgen. In den späteren Kapiteln gehen wir jeweils am Ende auf die konkrete Annotationsaufgabenstellung ein, nennen geeignete Werkzeuge, und geben weitere Hinweise auf der Homepage.
Aufwändige Annotationen entfalten ihre Wirkung freilich erst, wenn man nach ihnen auch recherchieren kann. Für die Syntax bedeutet dies vor allem die Suche in Datenbanken, die speziell auf Baumstrukturen zugeschnitten sind. Ebenso gibt es aber auch Korpora, die auf der Text-Ebene annotiert sind, beispielsweise für die Koreferenz zwischen Nominalphrasen (siehe Kap. 4). Auch dafür benötigt man dann spezielle Abfrage- und Auswertungswerkzeuge, um aus den Daten Erkenntnisse zu ziehen. (In manchen Fällen gestattet bereits das Annotationswerkzeug auch die Recherche, oft ist das aber nicht der Fall.)
Von besonderem Interesse ist es nun, wenn dieselben Primärdaten mit einer Reihe von ganz unterschiedlichen Annotationen versehen sind, aus deren Kombination sich dann – sei es durch manuelle Recherche oder durch statistische Auswertung – neue Erkenntnisse gewinnen lassen. Dies entspricht dem oben (S. 14) wiedergegebenen Zitat von Brandt u. Rosengren (1992), wonach Ebenen zueinander in Beziehung gesetzt werden, indem man sie an authentischem Material prüft. Möchte man dies an einigermaßen umfangreichem Textmaterial tun, so ist eine Automatisierung mittels einer Datenbank unerlässlich.
Damit dieses Szenario der MehrebenenannotationMehrebenen-Annotation (engl. multi-level annotation) funktioniert, muss eine gewisse Systematik eingehalten werden, damit diese Ebenen einerseits separat recherchiert und ggf. auch verändert werden können. Um andererseits Korrelationen zwischen einzelnen Annotationsebenen aufdecken zu können, müssen alle Annotationen technisch mit den Primärdaten in derselben Weise verbunden sein. Dies wird durch eine sogenannte standoff-AnnotationStandoff-Annotation erreicht, bei der sowohl der Primärtext als auch jede Analyse-Ebene jeweils in einer einzelnen Datei gespeichert und die Verbindungen zwischen den Ebenen durch „Zeiger“ realisiert werden. Eine technische Grundlage dafür ist XMLXML (‚eXtensible Markup Language‘) als standardisiertes Austauschformat für Daten zwischen verschiedenen Software-Systemen. Der große Vorteil ist, dass man für die verschiedenen Analyse-Ebenen jeweils spezielle Werkzeuge benutzen kann, die auf die zugrunde liegenden Strukturen zugeschnitten sind und damit ein möglichst effektives Arbeiten erlauben.
Architektur der Daten-Annotation mit ANNIS
Annotiert man nun jeweils denselben Text mit verschiedenen Werkzeugen auf verschiedenen inhaltlichen Ebenen, müssen anschließend alle resultierenden Annotationen wieder zusammengefügt werden. Dies geschieht in einer linguistischen Datenbank, die dann die Recherche erlaubt. Abb. 1.1 illustriert diese Konzeption: Die Annotationswerkzeuge auf der linken Seite (die dort genannten werden im Verlauf des Buches kurz angesprochen werden) erzeugen jeweils eigene XML-Dateien, die dann in einem geeigneten Austauschformat (wie zum Beispiel PAULA, Dipper (2005)) zusammengeführt und in die Datenbank (wie zum Beispiel ANNIS; siehe unten) eingespeist werden. Zusätzlich können weitere Werkzeuge für die statistische Auswertung der Daten benutzt werden; dieses Thema werden wir in diesem Buch aber nicht weiter besprechen.
Eine Alternative besteht darin, ein universelleres Annotationswerkzeug zu benutzen, mit dem sich unterschiedliche Typen von Information annotieren lassen; in diesem Fall entfällt die Zusammenführung der verschiedenen Annotationsformate. Es sollte aber stets abgewogen werden, ob dieser Vorteil nicht dadurch gemindert wird, dass das Werkzeug für einige der Annotationsschritte möglicherweise nur bedingt geeignet ist oder eine umständliche Handhabung mit sich bringt.
ANNIS
Weil die Datenbank in der Lage sein muss, für dieselben Primärtexte ganz unterschiedliche Annotationsschemata recherchierbar bereitzustellen und die Suchergebnisse angemessen zu visualisieren, sind Standard-Textdatenbanken für unseren Zweck nicht verwendbar. Die für dieses spezielle Szenario konzipierte linguistische Datenbank ANNIS entstand in einer ersten Version in den frühen 00er Jahren an der Universität Potsdam4 (Dipper u.a., 2004) und wurde später an der Humboldt Universität zu Berlin ausgiebig weiterentwickelt (Krause u. Zeldes, 2016). Es handelt sich um eine open-source software, die in der aktuellen Version ANNIS3 von der Webseite ‚corpus-tools.org‘ bezogen werden kann.5
Bildschirmabzug von ANNIS3 (Ausschnitt)
ANNIS zeigt die verschiedenen Annotationsebenen zu einem Text jeweils in einer Form, die dem Annotationstyp entspricht. In dem Bildschirmabzug in Abbildung 1.2 (der nur einen Ausschnitt der Benutzeroberfläche zeigt) sind für denselben Textausschnitt die morphosyntaktischen Informationen, Syntax-Bäume, sowie die Koreferenz-Markierungen (vgl. Kap. 4) angezeigt. Weitere Annotationsebenen können nach Wunsch aufgeklappt werden.
Die Suchfunktion von ANNIS gestattet die Formulierung von Anfragen, die mehrere Annotationsebenen miteinander verbinden. Angenommen, zu den gespeicherten Texten liegen Annotationen zur Syntax, zum Informationsstatus der Diskursgegenstände und zur rhetorischen Struktur vor, so ist es beispielsweise möglich, alle Textstellen zu finden, in denen
eine Präpositionalphrase am Satzanfang steht,
der in der dort eingebetteten NP denotierte Diskursgegenstand brand-new ist, und
die PP als Satellit der Kohärenzrelation Concession verwendet wird.
Ein entsprechender Satz könnte lauten: Trotz einer Verwarnung durch die Schiedsrichterin ging Leonie weiter mit großem Elan in die Zweikämpfe. Wie die Suchsprache AQL (‚ANNIS Query Language‘) benutzt wird, ist in den Hilfeseiten beschrieben, die in ANNIS integriert sind. Einführende Hinweise für den Start finden sich auch auf der Homepage zu diesem Buch (unter www.narr-studienbuecher.de), wo auch die URL einer öffentlich nutzbaren ANNIS-Installation angegeben ist, mit der das Potsdamer Kommentarkorpus bearbeitet werden kann.
In der Entstehungszeit von ANNIS wurde auch das ‚Potsdamer Kommentarkorpus‘ (PCC) als exemplarisches Korpus für die Mehrebenen-Annotation entwickelt (Stede, 2004). Es besteht aus 174 Texten aus der Märkischen Allgemeinen Zeitung (MAZ), die ursprünglich auf den Ebenen Satzsyntax, nomnale Koreferenz und Rhetorische Struktur annotiert wurden. In der aktuellen Version PCC2.01 (Stede u. Neumann, 2014) sind Konnektoren und ihre Argumente hinzugekommen. Die der Annotation zugrunde liegenden Richtlinien sind in dem online frei zugänglichen Band (Stede, 2016a) zusammengefasst. Alle Texte stammen von den Kommentarseiten der MAZ aus den frühen 00er Jahren und sind etwa 12–14 Sätze lang. Das PCC ist in ANNIS3 online verfügbar und kann für Korpusabfragen zu den meisten der in Teil II des Buches diskutierten Annotationsebenen verwendet werden. Eine ausführlichere Darstellung der Hintergründe des Korpus und der zugrunde liegenden Design-Entscheidungen beim PCC findet sich in (Stede, 2016b).
Der Teil I ‚Einführung und Grundbegriffe‘ wird im folgenden Kapitel mit einer Diskussion der Schlüsselbegriffe Kohäsion und Kohärenz fortgesetzt, die üblicherweise als die zentralen Merkmale der Textualität verstanden werden. Anschließend stellen wir Konzeptionen zu den miteinander verwandten Begriffen Textfunktion, Textsorte und Texttyp vor und betonen hier auch die wichtige Rolle von Korpora für den Erkenntnisgewinn (Kap. 3).
Teil II des Buches widmet sich den verschiedenen Ebenen der Textanalyse. Zunächst geht es um die Referenzielle Struktur (Kap. 4), dann um die Thematische Struktur und die Verbindung zur Informationsstruktur von Sätzen (Kap. 5). Nach einem Blick auf Temporale Struktur (Kap. 6) wenden wir uns den Sprechakten und der daraus hervorgehenden Konzeption einer Illokutionsstruktur zu (Kap. 7). Den Abschluss bildet eine genauere Betrachtung des Typus der argumentativen Texte und ihrer Struktur (Kap. 8).
Teil III untersucht exemplarisch einen Ansatz, der sich nicht nahtlos in die Ebenen-Darstellung integrieren lässt, weil er einen umfassenderen Anspruch auf „die“ linguistisch motivierte Textstrukur erhebt. Hiernach kann ein Text in seine strukturell-relevanten minimalen Einheiten zerlegt werden (Kap. 9), die dann durch sogenannte Kohärenzrelationen zu einer Rhetorischen Struktur zusammengefügt werden (Kap. 10).
Am Schluss fasst Kapitel 11 dann das zentrale Anliegen noch einmal zusammen, weist exemplarisch auf Wechselwirkungen zwischen einzelnen Ebenen hin, und nimmt im Lichte der in Teil II und III diskutierten Fragen abermals die Frage nach der Kohäsion, der Kohärenz und der Textstruktur(en) unter die Lupe.
Die einzelnen Kapitel sind so konzipiert, dass sie zwar nach einer gewissen Logik aufeinander folgen, doch sie lassen sich recht problemlos auch einzeln bearbeiten, wenn sich das Lese-Interesse auf ausgewählte Themen richtet.
Abschließend zwei Hinweise zur Terminologie: (i) Die Frage der Verwendung geschlechts/un/spezifischer Bezeichnungen behandeln wir in diesem Buch durch zufälligen Wechsel zwischen maskuliner und femininer Form. (ii) Die „handelnden Personen“ rund um den Text bezeichnen wir meistens als ‚Autorin‘ oder ‚Verfasser‘ und ‚Leser‘, doch mitunter (etwa bei der Diskussion von Sprechhandlungen) verwenden wir auch andere Begriffe wie ‚Sprecher‘, ‚Hörerin‘, ‚Adressat‘ oder ‚Rezipientin‘, ohne damit jeweils wichtige theoretische Unterscheidungen zu verbinden.
Wählen Sie aus dem Online-Angebot einer Tageszeitung einen nicht zu langen Kommentar (10–15 Sätze) aus und speichern Sie ihn in einer „plain text“ Datei. Der Kommentar sollte nicht allzu schwierig sein in dem Sinne, dass er eher arm an komplexen syntaktischen Konstruktionen sein und möglichst keine wiedergegebene wörtliche Rede enthalten sollte. Dieser Text wird die Arbeitsgrundlage für viele der Übungsaufgaben der nachfolgenden Kapitel sein. Falls Sie planen, den technischen Anregungen zu folgen und spezielle Software-Werkzeuge für die Annotation Ihres Kommentars einzusetzen, können Sie in Ihrem Text Umlaute und Sonderzeichen ersetzen, um etwaige ärgerliche und zeitraubende Zeichensatz- und Konvertierungs-Probleme von vornherein zu vermeiden. Aber auch, wenn Sie sich mit spezieller Software nicht befassen wollen, werden Sie vielleicht die verschiedenen Anmerkungen zu Ihrem Kommentar speichern und wiederfinden wollen. In diesem Fall brauchen Sie eine Datei und nicht nur einen Papier-Ausschnitt.
Dieses Kapitel wirft zunächst einen Blick auf die Wurzeln der Textlinguistik und beleuchtet dann in Kürze die wesentlichen Phänomene der Kohäsion und Kohärenz. (Diese werden in den nachfolgenden Kapiteln dann vertieft dargestellt.) Weitere Phänomene der Textualität werden angesprochen und Beispiele für die Untersuchung annotierter Korpora genannt.
In den 1960er Jahren, einer durch die bahnbrechenden Entwicklungen von Chomskys Generativer Transformationsgrammatik ausgelösten „Blütezeit der Syntax“, waren die Untersuchungsgegenstände der Linguistik das Morphem, das Wort, die systematischen Wortgruppen bzw. Konstituenten und der Satz. Nur wenige Sprachwissenschaftler zeigten sich von dieser Konzentration auf die Satz-Beschreibung unbefriedigt und meldeten Interesse an, auch satzübergreifende Phänomene zum Ziel linguistischer Untersuchung und Theoriebildung zu machen, mithin den Text als linguistische Einheit zu begreifen.
Einer der wesentlichen Auslöser der Beschäftigung mit Texten war der Wunsch, die Funktion und Bedeutung von PronominaPronomina linguistisch zu erklären. Pronomina sind die augenfälligsten sprachlichen Mittel, die Bezüge zwischen Sätzen herstellen. Hier ein auch von Linke u.a. (1994) zitiertes Textbeispiel aus einem Roman:
Ich glaube, dann war Nadja dran. Sie hatte sich für Jura beworben und wußte längst, daß sie zugelassen war. Sie hatte es telefonisch erfahren, und sie hatte mittlerweile auch einen Förderungsvertrag mit Patenschaft und so unterschrieben. Sie kriegte dann aber irgendwie Kontakt mit einer frustrierten Richterin, die den Laden von innen kannte. Von da an wollte Nadja nicht mehr.
(Thomas Brussig: Wasserfarben)
Mit Ausnahme eines einzelnen Teilsatzes ist kontinuierlich die Rede von Nadja, auf die nach der ersten Erwähnung durchgehend mit dem Personalpronomen sie verwiesen wird – bis zum letzten Satz, wo wieder ihr Name genannt wird, entweder um der drohenden Monotonie zu begegnen, oder um einer möglichen Verwechslung mit der Richterin vorzubeugen. Der Autor hat bei der Wahl seiner referierenden AusdrückeReferenzieller Ausdruck (auch ‚referenzielle Ausdrücke‘ genannt) viele Freiheiten: Er kann Eigennamen, Pronomen, umschreibende Nominalphrasen (NP) verwenden. Gleichzeitig unterliegt er aber auch Beschränkungen, denn das intendierte Bezugsobjekt muss von der Leserin auch ohne allzu viel Mühe rekonstruiert werden können. Solcherlei Beobachtungen zum Wechselspiel zwischen Wahlfreiheit und Einschränkung bei der Textproduktion weckten das Interesse derjenigen, die den Blick über den sprichwörtlichen Tellerrand des Satzes hinaus richteten.
Eine der „Pionierarbeiten“ der Textlinguistik war die Dissertation von Roland Harweg (1968), in der er die unterschiedlichen Arten von PronominaPronomina klassifizierte und ihre Rolle im Text untersuchte. Da er einen sehr weiten Begriff verwendete und auch einige definite NPs unter ‚Pronomina‘ subsumiert, definierte er dann auch ‚Text‘ als „ein durch ununterbrochene pronominale Verkettung konstituiertes Nacheinander sprachlicher Einheiten.“ Als weiteren Wegbereiter der Textlinguistik nennt Adamzik (2004) vor allem Peter Hartmann (s. etwa Hartmann, 1968), der u.a. das Augenmerk auf die Funktion von Texten (im Gegensatz zu ihrer strukturellen Beschreibung) richtete und deutlich machte, dass Sprecher nicht in Worten, auch nicht in Sätzen, sondern mit Sätzen aus Worten in Texten sprechen, mithin der Text der primäre Untersuchungsgegenstand der Sprachwissenschaft sei. Ähnlich hatte auch Harald Weinrich mit seiner vielbeachteten Arbeit Tempus (Weinrich, 1964) dem Satz den Status als Haupt-Gegenstand der Linguistik abgesprochen; später legte er konsequenterweise dann auch eine Textgrammatik der deutschen Sprache vor (Weinrich, 2005, 3. Aufl.).
„Phasen“ der Textlinguistik
Nach Adamzik (2004) lässt sich die bis zur Jahrtausendwende durchgeführte Textlinguistik-Forschung (im deutschsprachigen Raum) grob in drei Phasen einteilen:
die transphrastische Phase, die Phänomene der Satzverknüpfung untersucht;
die kommunikativ-pragmatische Phase, die Texte als komplexe sprachliche Handlungen auffasst und analysiert;
die kognitivistische Phase, die die kognitiven Prozesse der Produktion und Rezeption bei Sprachbenutzern in den Mittelpunkt stellt.
In den letzten etwa zehn Jahren wurde die Linguistik dan insgesamt stark von der Hinwendung zu authentischen Sprachdaten beeinflusst, wodurch eine empirisch fundierte Theoriebildung befördert wurde. Im vorliegenden Buch nehmen wir ebenfalls diese Perspektive ein und richten den Blick auf die Arbeit mit Korpora, die für die Beschreibungsebene Text vielfältig annotiert sind.
Um Sätze oder Teilsätze miteinander zu verbinden, sind die oben genannten Pronomina ein prominentes, aber keineswegs das einzige sprachliche Mittel. Solche Verbindungen kommen immer dann zum Tragen, wenn die Interpretation einer sprachlichen Einheit die Interpretation einer anderen zur Voraussetzung hat. Wir sprechen dann von Kohäsion zwischen solchen Einheiten und nennen die entsprechenden Signale an der sprachlichen Oberfläche kohäsionsstiftende Mittel.
Zur Motivation dieses Themas zitieren Halliday u. Hasan (1989) das Beispiel eines stand-up comedian, der auf die Bühne trat und seinen Vortrag mit den Worten begann: So we pushed him under the other one. Dies ist (zumindest bis unmittelbar nach der Äußerung des Satzes) ein Exemplar eines rundum misslungenen Textes, der eine Anzahl unauflösbarer Verweise enthält – sozusagen ein vorgetäuschter Text, der Kohäsionsmittel einsetzt, aber dabei keinen Sinn vermittelt. KohäsionKohäsion ist also allein ein Aspekt der sprachlichen Oberfläche. In gewöhnlichen Texten geht sie mit Sinnhaftigkeit (der im nächsten Abschnitt zu besprechenden Kohärenz) einher, doch ist diese Verbindung eben nicht zwangsläufig gegeben.
Welche sprachlichen Mittel gibt es, um solcherlei Kohäsion herzustellen? Nach Bußmann (2002) handelt es sich „im Wesentlichen um Erscheinungen der Wiederholung, Ersetzung und Verknüpfung.“ Die nachfolgende Liste ist eine Kombination und Ergänzung aus ähnlichen Listen von Halliday u. Hasan (1989), Linke u.a. (1994) und Bußmann (2002). Die Phänomene werden hier nur kurz erwähnt, und die meisten werden in späteren Kapiteln dann ausführlicher behandelt.
RekurrenzRekurrenzbezeichnetKoreferenznachKohäsion Linke u.a. (1994) die „materielle Wiederaufnahme eines einmal eingeführten Textelements im nachfolgenden Text.“ Dies kann durchgehende Koreferenz (Bezugnahme auf denselben Gegenstand; s.u.) einschließen wie in Beispiel 2.2 mit Vogel oder auch nicht, wie in Beispiel 2.3 (Mutter); der letztgenannte Fall wird häufig als weniger kohäsiv angesehen als der erste.
Gestern habe ich einen Vogel beim Nestbau beobachtet. Der Vogel war ganz klein, hat aber trotzdem ziemlich große Zweige angeschleppt. Als Nistplatz hatte sich der Vogel ausgerechnet die Nische über unserem Rollladenkasten ausgesucht.
(2.3)Meine Mutter ist sehr ängstlich und denkt immer gleich das Schlimmste. Annas Mutter ist da viel pflegeleichter: Die lässt ihre Tochter abends auch allein weggehen. So eine Mutter wäre mir ja auch lieber.
Rekurrenz liegt auch vor, wenn zwei Wörter in unterschiedlichen Flexionsformen gebraucht werden, also zum Beispiel zwischen Mutter und Mütter.
SubstitutionSubstitution ist die Wiederaufnahme eines Textelements mit identischem Referenzobjekt, aber unterschiedlicher lexikalischer Realisierung. Typisch für Substitution sind die lexikalischen Relationen der (Quasi-) Synonymie, Hyponomie (Unterbegriff) und Hyperonymie (Oberbegriff). Typischerweise wird bei der späteren Wiederaufnahme ein Hyperonym gewählt: Gegen 19 Uhr trat ein Damhirsch aus dem Wald. Nachdem er die Hasen verscheucht hatte, knabberte der Hirsch genüsslich an den Kleeblättern. Ausnahmen von dieser Tendenz gibt es aber beispielsweise in Nachrichtentexten, wo mit referierenden Ausdrücken bei der Wiederaufnahme auch noch neue Information übermittelt wird, wodurch sich insgesamt kurze, verdichtete Texte erstellen lassen: Ein 43 Jahre alter Mann überfiel die Sparkasse. Der Facharbeiter war mit einer Schreckschusspistole …
(In-)DefinitheitDefiniteArtikelArtikel werden benutzt, um die ‚Zugänglichkeit‘ (engl. accessibility) eines Referenzobjekts zu markieren. Eine Faustregel lautet, dass mit indefiniten Artikeln neue Gegenstände in den Diskurs eingebracht werden, während definite Artikel Anweisungen darstellen, im Kontext nach einem bereits eingeführten Gegenstand zu suchen: Ein Auto kurvte um unser Haus. Nach drei Metern fuhr das Auto gegen eine Ampel. Eine ganz ähnliche Situation, jedoch ohne exakte Referenzidentität, liegt vor, wenn der Gegenstand unmittelbar aus einem im Text bereits eingeführten Gegenstand abgeleitet werden kann, z.B. durch Meronymie (Teil-Ganzes-Relation): Ich habe ein neues Auto. Das Dach ist undicht.
Außerdem ist der definite Artikel angemessen, wenn der Gegenstand im Hörerwissen als eindeutig identifizierbar vorausgesetzt werden kann, wie der Papst oder die Bundesregierung. Auch hier handelt es sich um eine Such-Anweisung, allerdings ist der Suchraum nicht der Text, sondern das Weltwissen des Rezipienten. Ähnlich kann der definite Artikel, verbunden mit einer Zeigegeste, im Gespräch auf einen „real“ vorhandenen Gegenstand verweisen: DEN Vogel habe ich gestern schon mal gesehen! Nun ist der Suchraum die außersprachliche Situation. – Diese beiden Fälle werden mitunter bei der Diskussion von Kohäsion mit behandelt, was aber nicht recht angemessen scheint, eben weil die Verbindung nicht im Text besteht, sondern ein Verweis aus dem Text heraus erfolgt. Den Begriff ‚Kohäsion‘ wollen wir hier allein auf textinterne Verweise beschränken.
Pro-FormenPro-Form sind die verschiedenen Arten der eingangs bereits genannten Pronomina (Personal-, Demonstrativ-, Possessiv-), dazu Pronominaladverbien und einige andere Adverbien wie dort oder da. Die Bezugselemente (oder ‚Antezedenten‘) können einzelne Wörter, Konstituenten, ganze Sätze oder auch Satzgruppen sein: Das war eine kurze Beschreibung des Phänomens ‚Pro-Formen‘. Wir unterscheiden zwischen anaphorischem Gebrauch, bei dem die Pro-Form dem Bezugselement im Text nachfolgt, und kataphorischem Gebrauch, in dem die Pro-Form dem Bezugselement vorausgeht: Bevor sie ins Seminar ging, putzte Maria sich noch einmal dieKohäsionNase.
EllipsenEllipse ähneln den Pro-Formen, wobei aber das anaphorische Element hier eine „Leerstelle“ ist. Soll eine Ellipse zu Analysezwecken im Text markiert werden, ist dafür das Symbol ∅ gebräuchlich. Zu unterscheiden sind Substantiv-Ellipsen (Maria trinkt Kaffee mit Milch. Mir schmeckt schwarzer ∅ besser.) und Verb-Ellipsen (Maria trinkt Kaffee mit Milch, und ich ∅ einen Tee.). Im Deutschen ersetzt Elision auch die im Englischen gebräuchliche ‚one-anaphora‘, wobei dann keine Referenzidentität zwischen den Objekten besteht: Diese Kekse sind hart. Wir brauchen frische ∅.
Bußmann (2002) weist darauf hin, dass nicht alle Ellipsen kohäsionsstiftend sind, weil bestimmte Typen syntaktisch motiviert sind. Dazu zählen lexikalische Ellipsen, in denen ein Argument des Verbs qua Weltwissen vom Rezipienten ergänzt wird (Er isst gerade / Die Hühner legen gerade), Infinitivkonstruktionen (Luise hat aufgehört zu rauchen) und Subjekt-Elision in Imperativsätzen (Geh nach Hause!).
Referenzunabhängige lexikalische Assoziation: Die zuletzt besprochenen Phänomene beruhen auf Koreferenz, also auf identischem Bezug der kohäsiv verbundenen Ausdrücke zur „Welt“. Zwischen Lexemen können aber auch referenzunabhängige Assoziationen bestehen, wie oben mit Beispiel 2.3 für den Fall identischer Wörter illustriert. Dies lässt sich zunächst ausdehnen auf Wörter unterschiedlicher Wortart, die aber morphologisch und semantisch eng verwandt sind, wie Mensch und menschlich.
Ein nächster Schritt der Ausweitung führt zu den Synonymen, also nahezu bedeutungsgleichen Wörtern oder Phrasen wie etwa sehr groß / riesig. Synonym-Verwendung kann mit Koreferenz einhergehen (s.o. Substitution), muss es aber nicht tun. Kohäsion entsteht des Weiteren auch durch den Gebrauch von Wörtern mit gegensätzlicher Bedeutung, die sog. Antonyme. Diese können einander morphologisch ähnlich sein (gesund / ungesund), müssen es aber nicht (laut / leise).
Der am schwierigsten abgrenzbare Bereich lexikalischer Assoziation umfasst schließlich eine Verwandtschaft, wie sie manchmal mit dem Begriff Wortfeld umschrieben wird. Es lässt sich etwa argumentieren, dass zwischen Lehrer und Klasse eine kohäsive Verbindung geschaffen wird, oder zwischen Konzert und Dirigent, ohne dass eine der bisher genannten (klarer zu bestimmenden) lexikalischen Relationen vorliegt. Für die Zugehörigkeit zu einem Wortfeld lassen sich kaum präzise Kriterien angeben; hier ist man auf subjektive Beurteilung angewiesen.
Metakommunikative Verknüpfung besteht dort, wo der Produzent im Text über den Text spricht, z.B. in Überschriften, Gliederungshinweisen und formelhaften Rückverweisen: im Folgenden; vgl. Abschnitt 3; wie oben bereits angedeutet; wie soeben dargelegt; …
TempusTempus undModusModus werden von Zifonun (2000, S. 315) so charakterisiert: „Die Tempora situieren oder lokalisieren die Proposition im Zeitablauf […]. Die Modi tragen dazu bei, die Proposition in einer ‚Welt‘ zu lokalisieren; sie signalisieren also, ob die Proposition bezogen auf die […] wirkliche Welt interpretiert werden soll oder nur auf eine ‚mögliche Welt‘, wie wir sie zum Beispiel in unseren Hoffnungen, Befürchtungen, Wünschen und Plänen konzipieren.“ Gemeinhin wird diesen Merkmalen nur eine geringe kohäsive Kraft zugeschrieben, doch ist die Einhaltung der Regeln der zeitlichen Abfolge (als Ausweitung der consecutio temporum im komplexen Satz) durchaus ein auf der Textebene angesiedeltes, die Kohärenz sicherndes Instrument.
KonnektorenKonnektor gelten neben Pro-Formen als KohäsionsmittelKohäsion „par excellence“, da sie ganz explizit eine Verbindung zwischen Texteinheiten herstellen. Die Art der Verbindung kann dabei recht klar (obwohl) oder auch nur vage (und) sein. Syntaktisch sind Konnektoren keine homogene Klasse, sondern teilen sich in subordinierende und koordinierende Konjunktionen, einige Präpositionen (trotz, wegen), Konjunktional- und andere Adverbien. Auch die Abgrenzung der Gruppe der Konnektoren ist nicht immer ganz einfach, etwa zur metakommunikativen Verknüpfung in Fällen, wo ein Konnektor nicht textexterne Sachverhalte verknüpft, sondern textinterne Objekte. Halliday u. Hasan (1989) nennen das Beispiel He is really a good fellow. First, he‘s honest; next, he‘s generous.
Formgebende strukturelle Mittel sind verschiedene rhetorische Figuren im Satzbau, die kohäsiv wirken; ein bekanntes Beispiel ist die bewusste Wahl paralleler Satzstrukturen, z.B. um Gegensätze herauszustellen: Vor zwei Wochen hat Susanne aufgehört zu rauchen. Und in vier Monaten wird sie wohl anfangen zu joggen.
Zu beachten ist, dass die aufgelisteten kohäsiven Mittel nicht alle im gleichen Sinne ‚Mittel‘ sind, d.h. von der Autorin bewusst eingesetzte ‚Mittel zum Zweck‘. Auf der einen Seite wird beispielsweise eine parallele Satzstruktur oder eine andere rhetorische Figur bei der Textproduktion im besten Sinne des Wortes gewählt, denn es gäbe auch alternative Formulierungsmöglichkeiten, die auf einen solchen rhetorischen Effekt verzichten. Auf der anderen Seite sind Phänomene wie die Koreferenz oder die lexikalische Assoziation quasi unvermeidliche Resultate, sobald ein thematisch zusammenhängender Text bearbeitet wird: Die Sätze des Textes behandeln verwandte Gegenstände, und dazu verwenden sie zwangsläufig Wörter, die in bestimmten semantischen Relationen zueinander stehen. In dieser Weise wären die verschiedenen genannten Kategorien noch einmal daraufhin zu überprüfen, inwieweit sie jeweils aus einer Auswahlentscheidung der Autorin hervorgehen oder nicht.
Diese Auswahl betrifft häufig auch die Frage, inwieweit eine bestimmte semantische Relation durch lexikalische Wahl (aus den offenen Wortklassen) oder durch kohäsive Mittel markiert ist. Das Spektrum der Möglichkeiten wird von (Kunz u.a., 2017, S. 275) mit diesen englischen Beispielen für den Ausdruck einer temporalen Abfolge zweier Ereignisse illustriert:
The performance was followed by a round of applause.
(2.5)After the performance, there was a round of applause.
(2.6)After the performance ended, there was a round of applause.
(2.7)The performance ended. Afterwards, there was a round of applause.
(2.8)[There was the performance.] After the event, there was a round of applause.
Das Wort ‚Kohäsion‘ legt es bereits nahe, aber wir wollen noch einmal betonen, dass es sich um ein relationales Phänomen handelt: Kohäsion wirkt nicht dadurch, dass an bestimmten Stellen des Textes ein bestimmtes Merkmal auftritt, sondern dadurch, dass dieses Merkmal eine Verbindung zu einer früheren Textstelle schafft. Ganz offensichtlich ist dies bei Pronomen und Ellipsen, aber ebenso gilt es für die anderen besprochenen Phänomene. In den Worten von Halliday u. Hasan (1989, S. 11): „Where the interpretation of any item in the discourse requires making reference to some other item in the discourse, there is cohesion.“ Dieses sehr allgemeine „making reference“ haben wir im vorigen Abschnitt in eine Reihe von Kategorien aufgegliedert und damit bereits etwas genauer beschrieben. Neben dieser Sortierung der unterschiedlichen Mittel wird sich unser Interesse später darauf richten, was genau mit all diesen Mitteln im Text erreicht wird, d.h. welche Effekte Kohäsionsmittel für die Wahrnehmung des Textes als strukturiertes Gebilde haben.
Dazu müssen wir vorab noch die Frage stellen, wo genau die Kohäsion zu verorten ist, beziehungsweise: in welchen strukturellen Einheiten die beiden kohäsiv verbundenen Elemente angesiedelt sind. Gelegentlich war hier bereits die Rede von der Satzverknüpfung, die fraglos auch im Zentrum des Interesses steht: Sätze als abgeschlossene Informationseinheiten werden miteinander kohäsiv verbunden, wodurch ein Text dann am Ende eben mehr als nur eine Menge von isolierten Sätzen ist. Natürlich können Sätze aber komplex sein, und dann können die oben besprochenen kohäsiven Verbindungen ebenso zwischen den Einheiten von Teilsätzen auftreten: Wenn im Herbst die Beeren geerntet werden, müssen diese umgehend gekühlt werden, damit sie nicht verderben. Konnektoren verbinden hier die Teilsätze, die zusätzlich auch durch pronominale Koreferenz verbunden sind. Nun ließe sich das Argument zwar fortsetzen und konstatieren, dass (zum Beispiel) pronominale Beziehungen auch innerhalb einer Verbalphrase auftreten können; hier macht es allerdings keinen Sinn mehr, von einem kohäsiven Mittel zu sprechen, denn das Verb und seine Mitspieler sind strukturell so eng verbunden, dass ein textstiftender, kohäsiver Zusammenhalt nicht erforderlich ist. Wir halten daher den Teilsatz als die relevante Einheit für das Etablieren kohäsiver Relationen fest (und werden die Frage nach seiner Definition später in Abschnitt 9.1 noch genauer beleuchten).
Neben der Entscheidung für die kleinste Untersuchungseinheit muss für eine präzise Analyse von Kohäsion (wie sie bei der Korpus-Annotation erforderlich ist) auch festgelegt werden, wie groß die Distanz zwischen den beiden Elementen sein darf, die in einer kohäsiven Verbindung stehen sollen. Die Antwort lässt sich kaum allgemeingültig für alle Kategorien kohäsiver Mittel geben. Unterstellen wir einen verständlich formulierten Text, so wird etwa die Verbindung zwischen Pronomen und Antezedens gelingen, auch wenn einmal eine Reihe von Sätzen „überbrückt“ werden muss. Für eine Ellipse ist der Spielraum aber deutlich geringer. Und von einer parallelen Satzstruktur wird man nicht sprechen wollen, wenn zufällig zwei Sätze, die weit voneinander entfernt sind, analog aufgebaut sind. Umgekehrt kann es aber durchaus bedeutsam (und vom Autor beabsichtigt) sein, wenn zum Beispiel der erste und der letzte Satz eines Textes dieselbe womöglich etwas ungewöhnliche Form tragen. Eine präzise Anweisung zur Kohäsionsanalyse muss für all diese Fälle Festlegungen treffen, wenn reproduzierbare Ergebnisse erzielt werden sollen.
Skizzierung lexikalischer/referenzieller Ketten in einem Text
Sind diese Festlegungen getroffen, kann schließlich beobachtet werden, dass durch kohäsionsstiftende Mittel nicht immer nur jeweils zwei Textstellen miteinander in Verbindung gebracht werden, sondern oft auch mehr – in diesem Fall sprechen wir von Kohäsionsketten. Dies kann durch Rekurrenz geschehen, durch bestimmte formgebende strukturelle Mittel, vor allem aber durch Koreferenzbeziehungen und durch referenzunabhängige lexikalische Assoziation. Eine Illustration liefert (für einen früheren Absatz dieses Buches) Abbildung 2.1. Koreferenz untersuchen wir in Kapitel 4 im Detail, und die Hinweise, die uns sowohl referenzielle als auch lexikalische Kettenlexikalische Kette auf die thematische Gliederung des Textes geben können, werden in Kapitel 5 in den Blick genommen.
Die Kohäsion ist ohne Frage ein zentrales Merkmal von Texten, doch es erweist sich bei näherer Betrachtung als nicht hinreichend. Das eingangs genannte Beispiel des stand-up commedian hat bereits illustriert, dass ein Text zwar kohäsiv klingen, aber dennoch nicht funktionieren kann. Linke u.a. (1994, S. 224) geben für dieses Argument folgenden Beispieltext an:
Wir haben sehr gute Sängerinnen und Sänger an unserer Oper. Die Sopranistin ist besonders umschwärmt. Mozart liegt ihr sehr. Mir ist von den Mozart-Opern die Zauberflöte am liebsten. Diese neuen plump-deutlichen Ausdeutungen der Tempelgemeinschaft als männerbündische Freimaurerloge scheinen mir allerdings eine sehr fragwürdige Interpretation des Werkes. Aber die heutigen Opernleute schrecken ja vor nichts zurück. Bei Wagner-Inszenierungen ist das oft noch schlimmer, obwohl ich ja für solche pathetische Musik sowieso nicht viel übrig habe.
In diesem Text finden sich vielfältige kohäsionsstiftende Mittel, doch bleiben wir nach der Lektüre unzufrieden: Der Text ergibt keinen rechten Sinn – er reiht Sätze aneinander, die paarweise irgendwie auch zueinander passen, doch sie fügen sich nicht zu einem stimmigen Gesamtbild. Dem Text mangelt es an Kohärenz.
Donald Trump war immer an der Gunst der Wirtschaftskapitäne interessiert. Kürzlich schlug der Präsident eine deutliche Senkung der Unternehmenssteuern vor.
In diesem Beispiel (angelehnt an eines von Kehler (2004)) sind die beiden Sätze unabhängig voneinander interpretierbar – jeder Satz könnte auch für sich allein stehen. Rezipieren wir sie jedoch nacheinander, d.h. als Teile desselben Texts, tritt eine weitere Information hinzu: Wir sind geneigt, entweder die Aussage des ersten Satzes als Grund für die des zweiten zu interpretieren, oder die des zweiten als Evidenz für die Behauptung im ersten Satz. Damit etablieren wir eine inhaltliche RelationKohärenzrelation zwischen den Sätzen bzw. ihren Aussagen, die gewissermaßen einen „Mehrwert“ gegenüber der Interpretation der jeweils einzelnen Sätze darstellt. Solche inhaltlichen Relationen gelten gemeinhin als das geeignete Beschreibungsmittel für (lokale) Kohärenz, was sich auch in der Definition von Bußmann (2002) zeigt:
Semantisch-kognitiver Sinnzusammenhang eines Textes, darstellbar z.B. in Form semantischer Netze aus Konzepten und Relationen. Lokale K.Kohärenzlokal besteht satzintern und zwischen benachbarten Äußerungen, globale K.Kohärenzglobal konstituiert das Textthema bzw. die Textfunktion aus semantisch-pragmatischen Makrostrukturen. (…)
Ist die grundsätzliche Eignung des Relations-Begriffs weitgehend unumstritten, so scheiden sich die Autoren freilich bei der konkreten Ausgestaltung, d.h. bei der Angabe eines konkreten Inventars von Kohärenzrelationen, die in Texten auftreten können, und ihrer jeweiligen Definitionen. Auf einen recht einflussreichen Vorschlag, die Rhetorical Structure TheoryRhetorical Structure Theory (RST) (Mann u. Thompson, 1988), werden wir in Kapitel 10 genauer eingehen.
Verbindungen zwischen Gedanken
Ein interessanter Ansatz zur Festlegung einer Menge von Kohärenzrelationen stammt von Kehler (2002), der sich auf den Philosophen David Hume beruft, welcher drei Gruppen möglicher „connections among ideas“ vorgeschlagen hatte:
Resemblance: Es werden die Gemeinsamkeiten, Unterschiede oder das Verhältnis der Generalisierung / Spezialisierung zwischen zwei Aussagen herausgestellt. Beispiel:
Meine Freundin Mona hat sich ein neues Mountainbike gekauft. So eins fährt auch ihr Bruder schon seit zwei Jahren.
Cause-Effect: Eine Aussage wird als Grund, die andere als Folge interpretiert. Beispiel:
Meine Freundin Mona hat sich ein neues Mountainbike gekauft. Jetzt ist sie total glücklich.
Contiguity: Teile derselben Situation werden beschrieben und als zusammengehörig interpretiert, z.B. als temporal aufeinanderfolgend. Beispiel:
Meine Freundin Mona hat sich ein neues Mountainbike gekauft. Sie hat sofort eine Tour durch das Sauerland unternommen.
Die Dreiteilung nach Hume und Kehler ist durchaus abbildbar auf andere in der Literatur vorgeschlagene Klassifikationen in vier Gruppen, wie die von Halliday u. Hasan (1989) (additive, temporal, causal, adversative) oder von Martin (1992) (addition, temporal, consequential, comparison) – man kann additive und temporal als Varianten von contiguity auffassen; adversative sowie comparison als spezielle Formen von resemblance; und causal/consequential als äquivalent zu cause-effect.
Welche konkreten RelationenKohärenzrelation zur Ausgestaltung dieser Gruppen vorgeschlagen wurden, wird uns wie gesagt in Kapitel 10 beschäftigen. Hier sei lediglich festgehalten, dass lokale KohärenzKohärenzlokal zwischen benachbarten Sätzen genau dann entsteht, wenn die Interpretation des Ganzen mehr als die Summe der Interpretationen der Teile darstellt – wobei dieses „mehr“ unterschiedlich ausgeprägt sein kann: In den obigen Beispielen 2.10 und 2.12, wo kein expliziter Konnektor die kausale Interpretation nahelegt, leisten wir die entsprechende Interpretations-„Mehrarbeit“ unter dem Einfluss unseres Weltwissens; in einem Fall von contiguity wie dem nachfolgenden konstruieren wir hingegen eine gemeinsame Einordnungsinstanz („Person unterstützt Partei“) für die beiden Aussagen, ohne einen Kausalbezug zu postulieren.
Marianne verteilte Flugblätter für die Grünen. Sebastian organisierte die lokalen Sonntagsstammtische für die Partei.
Die Zweckmäßigkeit der Unterscheidung zwischen lokaler und globaler Kohärenz (die wie gesehen u.a. von Bussmann, aber nicht von allen Autoren getroffen wird) lässt sich am weiter oben gezeigten Beispieltext 2.9 gut erkennen: Benachbarte Sätze sind dort nicht allein „pseudo-kohäsiv“ verbunden, sondern in der Tat auch inhaltlich verknüpfbar – die lokale Kohärenz ist jeweils gewährleistet. Das Manko des Textes ist die mangelnde globale KohärenzKohärenzglobal, denn der Text reiht Aussage an Aussage, ohne aber letzten Endes zu einem klaren Ziel zu führen. Globale Kohärenz werden wir im nächsten Kapitel zum Begriff der Textfunktion in Beziehung setzen.
Für die lokale Kohärenz stellt neben der besprochenen Rolle der Kohärenzrelation die KoreferenzKoreferenz die wesentliche zweite Säule dar. Dass benachbarte Sätze nicht abrupt das Thema wechseln, sondern dass zumindest ein Gegenstand wieder aufgenommen wird (vgl. die Kohäsionsmerkmale Rekurrenz, Substitution, Pro-Form, Ellipse), trägt zentral zur Wahrnehmung des Textes als miteinander verwobenes Ganzes bei. Hier sind Kohäsion und Kohärenz also eng aufeinander bezogen: Koreferenz (als Baustein der Kohärenz) kann ohne Kohäsion nicht bestehen. Dass dies für die Kohärenzrelation (als den anderen Baustein) nicht gilt, haben einige unserer oben gezeigten Beispiele illustriert; die Relation kann von der Leserin auch dann erschlossen werden, wenn sie nicht durch einen Konnektor wie deshalb oder danach explizit angezeigt wird.
Den oben gezeigten, recht „künstlichen“ Beispielen kohäsiver, aber nicht kohärenter Texte zum Trotz: In der Praxis ist die große Mehrzahl der Texte sowohl kohäsiv als auch kohärent, schon allein aufgrund des Kohärenzkriteriums der Beibehaltung von DiskursgegenständenDiskursgegenstand, die dementsprechend auch wiederholt im Text sprachlich bezeichnet werden und somit Kohäsion erzeugen. Wir betrachten daher die Kohäsion (an der Textoberfläche sichtbare Verknüpfung) allgemein als die linguistische Reflexion von Kohärenz – der unter der Textoberfläche liegenden, vom Rezipienten zu rekonstruierenden, inhaltlichen Verknüpfung. Damit ergibt sich als wichtiger Unterschied zwischen beiden, dass die Wahrnehmung der Kohärenz das (zwangsläufig subjektive) Interpretieren des Textes voraussetzt, während die Kohäsion als Eigenschaft des Textes von allen Sprachbenutzern gleichermaßen beobachtet werden kann, auch wenn sie sich nicht wirklich mit dem Textinhalt auseinandersetzen.
Die Verbindung zwischen Kohäsion und Kohärenz ist eng, aber nicht zwingend, denn Texte können durchaus auch kohärent sein, ohne dabei auf kohäsive Mittel zurückzugreifen. Dafür nennt Redeker (1990) diese zwei kurzen Beispiele:
Sally is crying. Nanny has thrown out the time-worn teddy bear. The holes were getting too large to fix.
(2.16)Take those dirty shoes off. There‘s a brand-new carpet in the hallway. Mom‘s ALREADY mad at me.
Zu 2.15 ist anzumerken, dass die definiten NPs the teddy bear und insbesondere the holes durchaus als kohäsionsstiftend betrachtet werden können (bei the holes handelt es sich um einen ‚indirekten Verweis‘1 auf teddy bear); dennoch ist nicht zu leugnen, dass beide Texte sicherlich nur minimal kohäsiv, dabei aber durchaus kohärent sind – wir haben bei der Lektüre keine Schwierigkeiten, naheliegende inhaltliche Verknüpfungen zwischen den Sätzen zu konstruieren. Die Leichtigkeit dieser Aufgabe hängt dabei durchaus von der jeweiligen Kohärenzrelation ab. Eine Kausalrelation kann, wie gesehen, per Weltwissen oft problemlos inferiert, also erschlossen, werden. Für die Relation Concession hingegen scheint die explizite Signalisierung durch einen KonnektorKonnektor (also durch ein kohäsionsstiftendes Mittel) schlicht unumgänglich:2
Die Sonne schien uns schon seit Stunden bei der Arbeit auf den Kopf. Dennoch verging uns die gute Laune nicht.
(2.18)Die Sonne schien uns schon seit Stunden bei der Arbeit auf den Kopf. Die gute Laune verging uns nicht.
Die unverknüpfte Satzfolge (die sog. ‚asyndetische VerknüpfungAsyndetische Verknüpfung‘) in 2.18 wird mit hoher Wahrscheinlichkeit völlig anders interpretiert als 2.17. Weil die Konzessionsbeziehung eine recht komplexe ist, benötigen wir als Leser ein explizites sprachliches Signal, um sie zwischen zwei Aussagen herzustellen. Für Beispiel 2.17