Computerlinguistische Methoden für die Digital Humanities - Melanie Andresen - E-Book

Computerlinguistische Methoden für die Digital Humanities E-Book

Melanie Andresen

0,0

Beschreibung

Computerlinguistische Methoden durchdringen unseren Alltag, etwa in Form von Suchmaschinen und Chatbots. Aber auch für die geisteswissenschaftliche Textanalyse bieten sie große Potenziale, die unter anderem in den Digital Humanities erschlossen werden. Der Band bietet eine niedrigschwellige Einführung in die Computerlinguistik für Geisteswissenschaftler:innen, ohne Erfahrungen mit Mathematik oder Programmieren vorauszusetzen. Es wird gezeigt, wie distributionelle Semantik, Sentimentanalyse, Named Entity Recognition, manuelle Annotation, maschinelles Lernen und Co. neue Zugänge zu Texten eröffnen und wie diese Methoden gewinnbringend für geisteswissenschaftliche Fragestellungen eingesetzt werden können. Alle Kapitel werden von Übungen und einem digitalen Anhang mit Musterlösungen und Beispielskripten in Python begleitet. Vom theoretischen Fundament bis zu den Werkzeugen für die praktische Umsetzung vermittelt der Band alle Grundlagen für den Einstieg in dieses spannende interdisziplinäre Forschungsfeld.

Sie lesen das E-Book in den Legimi-Apps auf:

Android
iOS
von Legimi
zertifizierten E-Readern

Seitenzahl: 397

Das E-Book (TTS) können Sie hören im Abo „Legimi Premium” in Legimi-Apps auf:

Android
iOS
Bewertungen
0,0
0
0
0
0
0
Mehr Informationen
Mehr Informationen
Legimi prüft nicht, ob Rezensionen von Nutzern stammen, die den betreffenden Titel tatsächlich gekauft oder gelesen/gehört haben. Wir entfernen aber gefälschte Rezensionen.



Melanie Andresen

Computerlinguistische Methoden für die Digital Humanities

Eine Einführung für Geisteswissenschaftler:innen

Dr. Melanie Andresen hat über neun Jahre an den Universitäten Hamburg und Stutt gart in der Linguisti k, Computerlinguisti k und den Digital Humaniti es gelehrt und geforscht. Seit 2024 arbeitet sie bei DeepL an der Verbesserung maschineller Übersetzung.

 

DOI: https://doi.org/10.24053/9783823395799

 

© 2024 • Narr Francke Attempto Verlag GmbH + Co. KGDischingerweg 5 • D-72070 Tübingen

 

Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen.

 

Alle Informationen in diesem Buch wurden mit großer Sorgfalt erstellt. Fehler können dennoch nicht völlig ausgeschlossen werden. Weder Verlag noch Autor:innen oder Herausgeber:innen übernehmen deshalb eine Gewährleistung für die Korrektheit des Inhaltes und haften nicht für fehlerhafte Angaben und deren Folgen. Diese Publikation enthält gegebenenfalls Links zu externen Inhalten Dritter, auf die weder Verlag noch Autor:innen oder Herausgeber:innen Einfluss haben. Für die Inhalte der verlinkten Seiten sind stets die jeweiligen Anbieter oder Betreibenden der Seiten verantwortlich.

 

Internet: www.narr.deeMail: [email protected]

 

ISSN 0941-8105

ISBN 978-3-8233-8579-0 (Print)

ISBN 978-3-8233-0505-7 (ePub)

Inhalt

Vorwort1 Einleitung1.1 Über dieses Buch1.2 Korpus- und Computerlinguistik1.3 GrundbegriffeTeil 1: Linguistische Ausgangspunkte2 Lexik2.1 Das Wort2.2 Tokenisierung2.3 Lemmatisierung2.4 Der Wortschatz von Korpora2.5 Kollokationen2.6 Keywords2.7 Beispielstudien2.8 Übungen3 Wortarten3.1 Wortarten in der Linguistik3.2 Wortarten annotieren3.3 Automatisches POS-Tagging3.4 Beispielstudien3.5 Übungen4 Syntax4.1 Konstituentengrammatik4.2 Dependenzgrammatik4.3 Computerbasierte Syntaxanalyse4.4 Beispielstudien4.5 Übungen5 Semantik: Wortfelder5.1 Semantik: Linguistische Grundlagen5.2 Wortfelder5.3 Beispielstudien5.4 Übungen6 Semantik: Sentimentanalyse6.1 Bewertungen in Texten6.2 Lexikonbasierte Sentimentanalyse6.3 Sentimentanalyse mit maschinellem Lernen6.4 Emotionsanalyse6.5 Beispielstudien6.6 Übungen7 Semantik: Distributionelle Semantik7.1 Grundlagen7.2 Ähnlichkeiten berechnen7.3 Word Embeddings7.3.1 Spärliche vs. dichte Repräsentation7.3.2 Word Embeddings berechnen7.3.3 Statische und dynamische Embeddings7.3.4 Mit Word Embeddings arbeiten7.3.5 Evaluation7.4 Beispielstudien7.5 Übungen8 Pragmatik: Referenz8.1 Entitäten und Referenz8.2 Named Entity Recognition8.3 Koreferenz8.4 Beispielstudien8.5 ÜbungenTeil 2: Methoden9 Korpussuche und -statistik9.1 Reguläre Ausdrücke9.2 Absolute und relative Frequenzen9.3 Deskriptive Statistik9.4 Visualisierung9.5 Inferenzstatistik9.6 Übungen10 Manuelle Annotation10.1 Manuelle und automatische Annotation10.2 Annotationsrichtlinien10.3 Qualität manueller Annotationen prüfen10.4 Tools zur manuellen Annotation10.5 Übungen11 Maschinelles Lernen11.1 Maschinelles Lernen, künstliche Intelligenz & Co.11.2 Überwachtes und unüberwachtes Lernen11.3 Musterablauf einer Klassifikation11.3.1 Trainingsdaten11.3.2 Merkmale11.3.3 Lernverfahren11.3.4 Evaluation11.4 Übungen12 Deep Learning12.1 Grundlagen12.2 Aufbau eines Deep-Learning-Modells12.3 Training eines Deep-Learning-Modells12.4 Word Embeddings12.5 Recurrent Neural Networks12.6 Transformer12.7 Mit Deep Learning arbeiten12.8 ÜbungenTeil 3: Gesellschaft13 Computerlinguistik und Ethik13.1 Einführung13.2 Dual Use13.3 Bias und Diskriminierung13.3.1 Beispiele für Bias13.3.2 Ursachen von Bias13.4 Ressourcenverbrauch13.5 RepräsentationRessourcenverzeichnisLiteraturverzeichnisSachregister

Vorwort

Dieses Buch basiert auf der Lehrveranstaltung „Computerlinguistische Methoden für die Digital Humanities“, die ich in den Wintersemestern 2020/21 bis 2023/24 an der Universität Stuttgart im Masterstudiengang „Digital Humanities“ unterrichtet habe. Ich danke allen Studierenden dieser Lehrveranstaltung ganz herzlich für ihre hochmotivierte Teilnahme, wertvolle Rückmeldungen und die zahlreichen Impulse aus ihren geisteswissenschaftlichen Disziplinen, die den Austausch in der Lehrveranstaltung wie auch in den Digital Humanities im Ganzen für mich so facettenreich und spannend machen.

Mein Dank gilt meinem Lektor Tillmann Bub, der mir genau zum richtigen Zeitpunkt den Anstoß gegeben hat, dieses lange erwogene Projekt tatsächlich in die Tat umzusetzen. Jonas Kuhn danke ich herzlich dafür, dass er mir die Umsetzung ermöglicht hat.

Für ihre Zeit zum Korrekturlesen, ihr hilfreiches Feedback und gute Gespräche danke ich (in alphabethischer Reihenfolge) Johanna Binnewitt, André Blessing, Lisa Dücker, Agnieszka Faleńska, Lina Franken, Sarah Ihden, Sarah Jablotschkin, Nora Ketschik, Roman Klinger, Janis Pagel, Axel Pichler, Nils Reiter, Evelyne Roth, Michael Roth, Nadja Schauffler, Eleonore Schmitt, Lena Schnee, Carla Sökefeld, Anna Tilmans und Michael Vauth.

 

Stuttgart, im Februar 2024        Melanie Andresen

1Einleitung

In diesem Kapitel werden Inhalt und Aufbau dieses Buches vorgestellt. Wir klären außerdem, was genau die Computerlinguistik ist und welche Gemeinsamkeiten und Unterschiede zwischen der Computerlinguistik und dem eng verwandten Gebiet der Korpuslinguistik bestehen. Zuletzt führen wir die Grundbegriffe Korpus, Metadaten und Annotation ein, die im ganzen Buch zentral sind.

1.1Über dieses Buch

Computerlinguistische Methoden durchdringen heute unseren Alltag: Wir stellen Anfragen an Suchmaschinen, die ermitteln, welche Webseiten am besten zu unserem Anliegen passen. Wir nutzen automatische Übersetzer, damit wir uns bei einer geschäftlichen E-Mail auf Englisch nicht allein auf unser Sprachgefühl verlassen müssen. Unser Textverarbeitungsprogramm korrigiert unsere Rechtschreibfehler. Das Tippen von Textnachrichten auf dem Handy wird dadurch erleichtert, dass uns jederzeit die wahrscheinlichsten nächsten Wörter vorgeschlagen werden. Bei Bedarf können wir unser Smartphone auch mündlich beauftragen, den Wecker für morgen früh zu stellen oder Mama anzurufen. Und vielleicht fragen wir Chatbots nach den richtigen Antworten für die heutigen Hausaufgaben oder lassen sie ganze Essays für uns schreiben.

Auch für die geisteswissenschaftliche Textanalyse bieten computerlinguistische Methoden ein großes Potenzial. Sie ermöglichen uns die Auswertung von Textmengen, die mit manuellen Methoden nicht realistisch bearbeitet werden können. Denn auch in den Geisteswissenschaften stehen uns immer größere Datenmengen zur Verfügung, die wir nicht mehr manuell sichten können. Stattdessen sind wir auf das sog. Distant Reading angewiesen, d. h. die computerbasierte Erschließung großer Textmengen. Die Computerlinguistik bietet uns zudem neue, datengeleitete Zugänge zu unseren Gegenständen. Dies ist insbesondere bei explorativen Fragestellungen hilfreich, wenn wir unsere Daten zunächst erschließen und nicht direkt eine bestimmte, aus der Theorie abgeleitete Hypothese prüfen wollen. Computerlinguistische Methoden ergänzen den traditionellen geisteswissenschaftlichen Blick auf Texte um Quantifizierungen, die unter anderem präzise Vergleiche und die Anwendung statistischer Methoden ermöglichen. Ein Teilschritt der Analyse wird dadurch reproduzierbar, auch wenn die Interpretation der Daten am Ende in der Regel uns Menschen und unserer subjektiven Perspektive überlassen bleibt.

Dieses Buch richtet sich an alle, die Interesse an der Anwendung computerlinguistischer Methoden auf geisteswissenschaftliche Fragestellungen und an der Reflexion ihrer Potenziale haben. Es setzt kein linguistisches, technisches oder mathematisches Vorwissen voraus und bietet dadurch einen niedrigschwelligen Einstieg in ein spannendes und interdisziplinäres Forschungsfeld, das an der Schnittstelle von ganz unterschiedlichen, textbasiert arbeitenden Geisteswissenschaften und der Computerlinguistik liegt.

Die ComputerlinguistikComputerlinguistik hat sich in den letzten Jahrzehnten methodisch massiv verändert.1 Frühe Ansätze haben vor allem menschliche Expert:innen genutzt, die ihr Wissen über den Gegenstand in maschinell lesbare Regeln übersetzt haben, die der Computer dann anwenden konnte. Für den Anwendungsfall der Spamerkennung in E-Mails ließe sich beispielweise als Regel formulieren, dass das Wort gratis im Betreff möglicherweise auf eine Spamnachricht hinweist und diese dann entsprechend behandelt wird. Durch die stark gestiegene (und weiterhin steigende) Verfügbarkeit von Sprachdaten und Rechenkapazitäten zu ihrer Verarbeitung setzen die meisten Ansätze der Gegenwart auf statistische Verfahren des maschinellen Lernens und Deep Learnings. Hierbei gibt es keine von Menschen formulierten Regeln. Stattdessen muss eine ausreichende Menge bereits korrekt klassifizierter Daten zum Training zur Verfügung stehen, anhand derer der Algorithmus die (teilweise sehr komplexen) Zusammenhänge zwischen den Merkmalen der sprachlichen Oberfläche und den Zielkategorien ermittelt.

Für die Anschlussfähigkeit computerlinguistischer Methoden an die Geisteswissenschaften stellen sich durch diese Entwicklung ganz neue Fragen. Insbesondere die Interpretierbarkeit der automatischen Analyse und ihrer Ergebnisse ist ein entscheidender Faktor für die Einsatzfähigkeit computerlinguistischer Modelle in den Geisteswissenschaften. Für die geisteswissenschaftlichen Erkenntnisinteressen ist es in der Regel nicht ausreichend, zum Beispiel die Unterscheidung zwischen zwei Gruppen von Texten erfolgreich automatisieren zu können. Stattdessen wollen wir durch die Analyse vor allem etwas über unseren Gegenstand lernen. Die erfolgreichsten Methoden der Computerlinguistik sind deshalb nicht unbedingt auch die mit dem größten Potenzial für die Geisteswissenschaften.

In dieser Einführung werden deshalb zwei Strategien verfolgt: Erstens liegt ein Schwerpunkt auf Methoden, die mit linguistischen Grundlagen in Verbindung stehen und sich durch gute Nachvollziehbarkeit durch den Menschen auszeichnen. Diese entsprechen aus computerlinguistischer Perspektive nicht immer dem allerneusten Stand der Technik, sind für geisteswissenschaftliche Fragestellungen aber vielfach geeigneter. Zweitens wird mit dem maschinellen Lernen und den künstlichen neuronalen Netzen in die aktuellen Methoden der Computerlinguistik einführt. Schließlich ist auch für manche geisteswissenschaftlichen Anliegen vor allem die erfolgreiche Automatisierung das Ziel. Der computerlinguistische Stand der Technik ist in einem sehr zügigen Wandel begriffen und mag sich zum Zeitpunkt der Veröffentlichung dieses Buches bereits weiterentwickelt haben, ohne dass die hier vermittelten Grundlagen ihre Gültigkeit verlieren würden.

Der Hauptteil dieses Buches ist in drei Teile gegliedert: Die Kapitel in Teil I gehen von linguistischen Beschreibungsebenen aus und stellen dar, welche computerlinguistischen Zugänge uns jeweils zu dieser Ebene von Sprache zur Verfügung stehen und wie wir damit praktisch arbeiten können. Im Rahmen der Lexik (Kapitel 2) geht es darum, was für den Computer (und für uns) ein Wort ist und wie wir den Wortschatz eines Korpus mit Methoden wie Kollokations- oder Keywordanalyse untersuchen können. Die Kapitel zu Wortarten (Kapitel 3) und Syntax (Kapitel 4) beschreiben, wie wir diese linguistischen Grundkategorien modellieren, manuell oder automatisch annotieren und für geisteswissenschaftliche Fragestellungen nutzen können. Im Gebiet der Semantik betrachten wir Wege, den Inhalt eines Korpus über Wortfelder zu erschließen (Kapitel 5), Möglichkeiten, im Rahmen der Sentimentanalyse Bewertungen oder Stimmungen zu erfassen (Kapitel 6) und mit den Konzepten der distributionellen Semantik, insbesondere den populären Word Embeddings, zu arbeiten (Kapitel 7). Im Bereich der Pragmatik blicken wir auf die Referenten von Texten und darauf, wie wir sie anhand von Named Entity Recognition und Koreferenzanalyse erfassen können (Kapitel 8). Am Ende jedes Kapitels zeigen Beispielstudien, welche Anwendungspotenziale sich aus den jeweiligen Methoden für die Digital Humanities ergeben. Teil II setzt einen methodischen Schwerpunkt quer zu den linguistischen Teilgebieten. Wir widmen uns der Frage, wie wir in Korpora nach Wörtern und Mustern suchen und die Ergebnisse durch statistische Kennzahlen und Visualisierungen präsentieren können (Kapitel 9). Kapitel 10 fokussiert die manuelle Annotation von Daten, die für viele Automatisierungen der wichtige erste Schritt ist. In zwei Kapiteln zum maschinellen Lernen (Kapitel 11) und spezifischer dem Deep Learning (Kapitel 12) geht es um Möglichkeiten der Automatisierung von Annotationen. In Teil III betrachten wir computerlinguistische Methoden im Kontext der Gesellschaft und widmen uns den ethischen Fragen, die bei der Anwendung computerlinguistischer Methoden berücksichtigt werden müssen (Kapitel 13).

Am Ende der meisten Kapitel gibt es Übungen, zu denen im digitalen Anhang des Buches Musterlösungen zur Verfügung stehen. Sie können im Online-Shop des Narr Verlags aufgerufen werden (https://files.narr.digital/9783823385790/Zusatzmaterial.zip). Zu manchen Aufgaben gehören außerdem Beispielskripte in PythonPython, die ebenfalls im digitalen Anhang zu finden sind. Die Skripte sind so gestaltet, dass sie auch ohne fundierte Programmierkenntnisse ausprobiert werden können. Um die Skripte auf Ihrem eigenen Rechner ausführen zu können, müssen Sie eine möglichst aktuelle Version von → Python 3 installiert haben. Zusätzlich empfiehlt sich eine (kostenlose) Programmierumgebung wie → PyCharm oder → Visual Studio Code. Mögliche Probleme bei der Installation und Einrichtung lassen sich in einem Buch nur schwer abdecken. Über die Suchmaschine Ihres Vertrauens finden Sie aber bei Bedarf zahlreiche Anleitungen in Text- und Videoform.

Alle Tools und Ressourcen, die mit einem Pfeil (→) versehen sind, finden Sie im Ressourcenverzeichnis am Ende des Buches mit allen wichtigen Informationen zum Zugriff wieder. Zur Veranschaulichung der in diesem Buch vorgestellten Methoden wird häufig das → Foodblogkorpus als Beispiel verwendet. Es umfasst 150 deutschsprachige Texte aus 15 Foodblogs und steht als freier Download zur Verfügung. Alle URLs in diesem Buch wurden zuletzt am 12. Dezember 2023 überprüft.

1.2Korpus- und Computerlinguistik

Dieses Buch ist eine Einführung in computerlinguistische Methoden. In den Grundlagen des Faches ergibt sich aber eine Überschneidung mit dem Gebiet der Korpuslinguistik. Einige Konzepte und Methoden, die in diesem Buch präsentiert werden, sind auch Teil des korpuslinguistischen Werkzeugkoffers. Deshalb wollen wir die beiden Fächer zu Beginn vergleichend nebeneinanderstellen. Die KorpuslinguistikKorpuslinguistik kann definiert werden als:

die Gesamtheit aller Tätigkeiten, die darauf gerichtet sind,

(1) umfangreiches authentisches Sprach- oder Textmaterial (gesprochen oder geschrieben) zu sammeln, zusammen zu stellen [sic], aufzubereiten, mit Informationen zu annotieren, zu verwalten und zu warten sowie verfügbar zu machen,

(2) solches Material für wissenschaftliche oder technische Zwecke oder andere Anwendungen systematisch auszuwerten. (Köhler 2005: 1)

Diese Definition betont in Punkt 1, dass das Textmaterial „umfangreich“ sein muss. Dies hängt damit zusammen, dass die Korpuslinguistik im Normalfall zu quantitativen, generalisierenden Aussagen kommen möchte und dazu Muster analysiert, die sich erst ab einer gewissen Menge von Material beobachten lassen. Wie groß die Menge an Daten zu diesem Zweck sein muss, lässt sich nur für den Einzelfall beantworten. Weiterhin wird auch die Authentizität des Sprachmaterials hervorgehoben. Dies erfolgt insbesondere in Abgrenzung zu in der Sprachwissenschaft historisch häufig genutzten Verfahren, der Introspektion, also der Befragung des eigenen, subjektiven Sprachgefühls, sowie der Konstruktion von Beispielsätzen, die unter Umständen zwar grammatisch möglich sind, aber in der wirklichen Sprachverwendung nicht vorkommen.

Die Definition erwähnt außerdem, dass in Korpora gesprochene oder geschriebene Sprache gesammelt werden kann. Beide Modi bringen ihre eigenen Herausforderungen mit sich. Gesprochene Sprache muss zunächst aufgezeichnet und dann transkribiert, also verschriftlicht werden. Auch wenn die automatische Erkennung gesprochener Sprache große Fortschritte macht, erfordert dieser Vorgang in den meisten Fällen erheblichen manuellen Aufwand. Geschriebene Sprache ist oft besser verfügbar, wenn sie von vornherein digital ist oder bereits digitalisiert wurde. Bauen wir hingegen ein Korpus aus mittelalterlichen handschriftlichen Dokumenten auf, ist auch hier mit einem erhöhten Arbeitsaufwand aus Scannen, automatischer Texterkennung, Nachbearbeitungen usw. zu rechnen.

Neben der Erstellung des Korpus wird auch die Verwaltung und Verfügbarmachung als Aufgabe der Korpuslinguistik angeführt. Während nicht bei jedem Korpus eine Veröffentlichung möglich ist (insbesondere im Rahmen studentischer Arbeiten mit geringen Kapazitäten oder bei Korpora aus datenschutzrechtlich sensiblen oder urheberrechtlich geschützten Texten), ist es für die wissenschaftliche Gemeinschaft von großer Bedeutung, dass Daten allgemein zur Verfügung stehen, sodass Aufbereitungsarbeit nicht mehrfach geleistet werden muss. Öffentlich verfügbare Daten ermöglichen außerdem eine unabhängige Überprüfung von Ergebnissen und tragen so dazu bei, dass das Fach den Ansprüchen an die gute wissenschaftliche Praxis gerecht wird (siehe z. B. Deutsche Forschungsgemeinschaft 2022).

Punkt 2 der Definition trägt der Tatsache Rechnung, dass Korpora nicht nur zu linguistischen Zwecken analysiert werden, sondern für ganz unterschiedliche Wissenschaften interessant sein können. Dies ist gerade im Kontext der Digital Humanities von Bedeutung, wo sich potenziell alle geisteswissenschaftlichen Fächer korpus- und computerlinguistischer Methoden bedienen. Die zusätzliche Erwähnung von technischen Zwecken leitet bereits in den Zuständigkeitsbereich der ComputerlinguistikComputerlinguistik über:

Die Computerlinguistik ist diejenige Wissenschaft, die ganz allgemein die maschinelle Verarbeitung von Sprache mit dem Computer in den Blick nimmt. Im Mittelpunkt stehen dabei Prozesse, die die Erzeugung oder Analyse von gesprochener oder schriftlich fixierter Sprache erlauben. Aber auch die Beschreibung der Sprache selbst in einer Weise, dass der Computer damit umgehen kann, ist Gegenstand der Computerlinguistik. Und schließlich verfolgt man mit der maschinellen Verarbeitung von Sprache meist ein bestimmtes praktisches Ziel, so dass auch die Entwicklung von Software, von sprachverarbeitenden Systemen, ein wichtiges Teilgebiet der Computerlinguistik darstellt. (Lobin 2010: 10)

Wie bei der Korpuslinguistik wird Sprache auch hier in geschriebener und gesprochener Form erwähnt. Während in der Korpuslinguistik gesprochene Sprache für die Analyse zunächst ins geschriebene Medium übertragen wird, befassen sich Teilbereiche der Computerlinguistik auch mit Sprache als akustischem Phänomen, etwa im Kontext von Sprachassistenten. In diesem Buch wird es nur um die schriftliche Form von Sprache gehen.

Gegenüber der Korpuslinguistik wird in der Definition eine neue Unterscheidung gemacht: Die Computerlinguistik befasst sich wie die Korpuslinguistik mit der Analyse, aber auch mit der Erzeugung von Sprache. Während wir uns bei der Analyse mit vorhandenen Sprachdaten befassen, können wir bei der Erzeugung ganz neue Sprache, ebenfalls in gesprochener oder geschriebener Form, generieren. Sprachgenerierung kommt zum Beispiel bei Chatbots zum Einsatz und wird im Kontext von Produktbeschreibungen genutzt. Sie ist außerdem Teil der bereits erwähnten Sprachassistenzsysteme, die in gesprochener Sprache auf unsere Fragen antworten.

Die Definition erwähnt die Herausforderung, Sprache überhaupt in einer Form zu modellieren, mit der ein Computer etwas anfangen kann. Das betrifft zum Beispiel die Segmentierung: Arbeiten wir mit Wörtern, Sätzen oder Texten als Analyseeinheiten? Was für Kategorien benötigen wir für unsere Analyse? Und in was für Datenstrukturen können wir all das im Computer abbilden? Im Laufe des Buchs werden wir uns mit einigen Möglichkeiten hierzu befassen.

Ein wichtiger Unterschied gegenüber der Korpuslinguistik ist das am Ende erwähnte praktische Ziel: Computerlinguistische Entwicklungen erfolgen mehrheitlich in Hinblick auf ein bestimmtes Anwendungsszenario oder ein spezifisches Problem, das mithilfe von Software gelöst werden soll. Das kann zum Beispiel darin bestehen, für beliebige Sätze eine vollständige syntaktische Analyse zu produzieren oder zuverlässig positive Bewertungen zu einem Produkt von negativen zu unterscheiden.

Betrachtet man nun Korpus- und Computerlinguistik im Vergleich, zeigen sich Gemeinsamkeiten und Unterschiede: Beide Felder betreiben computergestützte Forschung zu Sprache mithilfe von Korpora. Aber sie verfolgen dabei ganz unterschiedliche Erkenntnisinteressen: Die Korpuslinguistik beschreibt die Verwendung von Sprache anhand von Korpora und ist an sprachlichen Mustern um ihrer selbst willen interessiert. Die Computerlinguistik demgegenüber versucht, Sprache mit dem Computer zu modellieren und so praktische Probleme technisch zu lösen (McEnery & Hardie 2012: 228).

Folglich unterscheidet sich auch, was in den beiden Fächern jeweils als interessantes Forschungsergebnis betrachtet wird. Durch die hohe Anwendungsorientierung in der Computerlinguistik ist die entscheidende Frage häufig: Wie gut funktioniert dieses System, das bestimmte sprachliche Muster oder Handlungen erkennen soll? Zum Beispiel: Mit welcher Genauigkeit kann das automatische System Hatespeech in den sozialen Medien erkennen? Ist es genau genug, um in der Praxis eingesetzt werden zu können? Die Korpuslinguistik legt den Fokus hingegen auf die Beschreibung und Erklärung von sprachlichen Phänomenen und fragt: Was können wir aus den Ergebnissen über den sprachlichen Gegenstand lernen? Im Beispiel interessiert sich die Korpuslinguistik etwa für die Frage: Welche sprachlichen Merkmale zeichnen Hatespeech in den sozialen Medien aus und welche Funktionen haben sie?

Viele Ergebnisse computerlinguistischer Forschung werden heute in der Korpuslinguistik und den Digital Humanities eingesetzt und einige davon werden wir in diesem Buch betrachten. Dazu gehört etwa die Tokenisierung, also die Segmentierung von Zeichenketten in Wörter, die Annotation von Wörtern mit ihrer Wortart oder ihrer syntaktischen Funktion sowie die Erkennung von Eigennamen oder im Text ausgedrückten Sentiments. Diese Analyseoptionen sind nicht nur in den Sprachwissenschaften relevant. Sprache ist auch in vielen anderen Geisteswissenschaften Gegenstand oder ermöglicht zumindest einen Zugang zum Forschungsgegenstand: „[E]xperience of the human world is largely a textually mediated experience, and to that extent, human beings live in a textually mediated world“ (McEnery & Hardie 2012: 230).

1.3Grundbegriffe

In diesem Kapitel war bereits vielfach von Korpora die Rede, die sowohl in der Korpus- als auch in der Computerlinguistik eine entscheidende Rolle spielen. In diesem Abschnitt werfen wir einen genaueren Blick auf die Grundbegriffe Korpus, Metadaten und Annotationen.

Das Wort „Korpus“ gibt es im Deutschen als Maskulinum und als Neutrum:1 Während wir „der Korpus“ sagen, wenn es zum Beispiel um den Körper eines Menschen, eines Schranks oder einer Gitarre geht, nutzen wir „das Korpus“ in der Korpuslinguistik, um von einer wissenschaftlich untersuchbaren Textsammlung zu sprechen. Genauer lässt sich das KorpusKorpus (Plural: Korpora) wie folgt definieren:

Ein Korpus ist eine Sammlung schriftlicher oder gesprochener Äußerungen. Die Daten des Korpus sind typischerweise digitalisiert, d. h. auf Rechnern gespeichert und maschinenlesbar. Die Bestandteile des Korpus bestehen aus den Daten selber sowie möglicherweise aus Metadaten, die diese Daten beschreiben, und aus linguistischen Annotationen, die diesen Daten zugeordnet sind. (Lemnitzer & Zinsmeister 2015: 13)

Die meisten Korpora umfassen schriftliche Äußerungen. Der Aufbau von Korpora gesprochener Sprache ist meist aufwendiger, da er zunächst die Transkription der gesprochenen Sprache, also ihre Übertragung in den schriftlichen Modus, erfordert. Generell ist die gesprochene Sprache deshalb korpuslinguistisch weniger erforscht. Aber auch die Aufbereitung schriftlicher Texte kann sehr aufwendig sein, wenn sie nicht schon von sich aus maschinenlesbar sind. Für die korpuslinguistische Analyse von handschriftlichen Aufzeichnungen einer historischen Persönlichkeit etwa ist viel manuelle Aufbereitung notwendig. Die maschinenlesbare Form des Korpus ist Voraussetzung für die effiziente (oder überhaupt realistische) Durchführung aller korpus- und computerlinguistischen Verfahren. Neben den Primärdaten, also den Texten selbst, werden in der Definition noch Metadaten und Annotationen als Teile von Korpora genannt.

Der Begriff der MetadatenMetadaten ist manchen vielleicht aus dem öffentlichen Diskurs um Datenschutz und die Vorratsdatenspeicherung bekannt. Hier ist oft die Rede davon, dass beispielsweise Metadaten von Telefongesprächen erfasst werden können. Es werden also nicht die Gespräche selbst aufgezeichnet (das wären hier die Primärdaten), aber alle Informationen dazu erfasst, wer wann wie lange mit wem telefoniert hat – Informationen, die ebenfalls bereits weiterreichende Schlüsse zulassen. Metadaten sind also ihrem Präfix entsprechend „Daten über die Daten“. In der Korpuslinguistik beantworten Metadaten die Frage: Was ist eigentlich drin in diesem Korpus? Diese Information ist essenziell, um wissenschaftlich mit den Daten arbeiten zu können. Welche Metadaten wichtig sind und zu den Texten des Korpus zur Verfügung stehen sollten, hängt von der Fragestellung ab, zu deren Beantwortung sie beitragen sollen. Beispiele für häufig erfasste Metadaten sind etwa die Textsorte, die Autorin oder der Autor des Textes (bzw. demografische Daten wie Alter und regionale Herkunft), der Modus (geschrieben/gesprochen), der Entstehungszeitpunkt und ggf. die Erhebungsbedingungen.

Metadaten sind unheimlich wichtig, um die Daten zu verstehen und beurteilen zu können, ob ein verfügbares Korpus zu unserer Fragestellung passt. Anhand der Metadaten können wir außerdem erkennen, ob es im Korpus möglicherweise Teilgruppen gibt, in denen die Antwort auf unsere Frage unterschiedlich ausfällt und die getrennt analysiert werden sollten. Wenn wir uns etwa für die Satzlänge in der deutschen Schriftsprache interessieren und unser Korpus Zeitungstexte, wissenschaftliche Texte und Social-Media-Posts enthält, ist eine separate Analyse dieser Gruppen empfehlenswert.

Wenn wir ein bereits verfügbares Korpus nutzen, müssen wir uns deshalb immer ausführlich über die Metadaten informieren und prüfen, ob die Daten zur Bearbeitung unserer Fragestellung geeignet sind. Metadaten werden zum Beispiel über eine begleitende Webseite veröffentlicht oder können in wissenschaftlichen Publikationen enthalten sein. Sollten relevante Informationen fehlen, besteht vielleicht die Möglichkeit, direkt bei den Ersteller:innen nachzufragen. Wenn wir selbst ein Korpus erstellen, müssen wir neben den Texten selbst auch möglichst viele Metadaten erheben. Es empfiehlt sich, dies frühzeitig anzugehen, bevor eventuell Informationen verloren gehen. Im Zweifelsfall lohnt es sich, alle verfügbaren Metadaten zu erfassen, falls sie sich erst später als wichtig herausstellen oder Forscher:innen mit anderen Interessen das Korpus nachnutzen wollen. Metadaten sollten in maschinenlesbarer Form erfasst werden, zum Beispiel in einer Tabelle. Bei der Erfassung sollte man von vornherein auf Einheitlichkeit achten, um spätere Nachbearbeitungen zu vermeiden (z. B. gibt es sehr viele unterschiedliche Möglichkeiten, ein Datum zu schreiben). Suchen wir zum Beispiel im Kernkorpus des 20. Jahrhunderts des → Digitalen Wörterbuchs der deutschen Sprache(DWDS) nach Verwendungsbelegen für ein bestimmtes Wort, bekommen wir zu jedem Treffer die Information, aus welcher Publikation er stammt (inkl. Titel, Autor:in, Veröffentlichungsjahr, Seitenzahl), zu welcher Textklasse der Text gehört (Belletristik, Wissenschaft, Gebrauchsliteratur oder Zeitung) und welcher Lizenz der Text unterliegt.

Neben den Primärdaten und den Metadaten ist in der oben angeführten Definition von Korpus noch von (optionalen) Annotationen die Rede. Bei AnnotationenAnnotation handelt es sich um Anreicherung des reinen Textes eines Korpus mit zusätzlichen Informationen. Oft sind das linguistische Informationen wie Wortarten, syntaktische Strukturen, Eigennamen oder Koreferenzrelationen. Grundsätzlich kann aber jede Art Information annotiert werden, die am Text beobachtbar ist, zum Beispiel das Thema eines Absatzes oder die Erzählebene in literarischen Texten. Metadaten liefern in der Regel Informationen über den Text als Ganzes, Annotationen können sich auf sprachliche Einheiten beliebiger Größe beziehen: Laute, Morpheme, Wörter, Wortgruppen, Sätze oder Absätze.

Annotationen ermöglichen es, das Korpus gezielter nach Phänomenen zu durchsuchen. Wenn wir uns zum Beispiel für die Verwendung von Adjektiven interessieren, ist es hilfreich, wenn zu jedem Wort eines Textes die Wortart hinterlegt ist und wir direkt danach suchen können. Annotationen haben außerdem den Vorteil, dass sie unsere Interpretation der Daten wiederauffindbar und kritisierbar machen. Wenn wir in einem Text annotiert haben, in welchen Sätzen es unserer Meinung nach um Krankheit geht, kann eine andere Person sich diese Annotationen später ansehen und unter Umständen feststellen, dass sie selbst manche Entscheidungen anders getroffen hätte. So tragen Annotationen zur Wissenschaftlichkeit des Forschungsprozesses bei.

Annotationen können manuell oder automatisch vorgenommen werden. Mit beiden Formen werden wir uns in diesem Buch ausführlich beschäftigen. Die manuelle Annotation (Kapitel 10) erfordert eine klare Ausformulierung von Regeln zur Annotation (Annotationsrichtlinien), damit die Annotationen nicht subjektiv ausfallen, sondern mehrere Personen anhand der Regeln zu ähnlichen Annotationsergebnissen kommen. Die manuelle Annotation kann durch zahlreiche digitale Tools unterstützt werden. Das Ziel der Computerlinguistik ist in der Regel die automatische Annotation durch den Computer. Für einige linguistische Kategorien ist das bereits mit hoher Qualität möglich, etwa für die Wortarten. Andere Kategorien, die mehr Wissen über den größeren sprachlichen Kontext oder die Welt erfordern, sind weniger gut automatisierbar. Für viele Kategorien stehen bereits Tools zur automatischen Annotation zur Verfügung. Wenn wir für unsere Analyse individuellere Kategorien benötigen, für die das nicht der Fall ist, können wir uns auch selbst an der Automatisierung der Annotationsaufgabe versuchen (Kapitel 11 und 12).

Die Kategorien oder Label, die bei der Annotation vergeben werden, bezeichnet man auch als TagsTags. Eine Sammlung von Tags, die gemeinsam einen Phänomenbereich abdecken, heißt TagsetTagset. Das STTS (Schiller et al. 1999) ist zum Beispiel ein Tagset zur Annotation von Wortarten, das aus 54 unterschiedlichen Tags besteht. Von einem Tagset erwarten wir, dass es das zu annotierende Phänomen mehr oder weniger vollständig abdeckt. Ein Tagset ist exhaustiv, wenn für alle denkbaren Phänomene ein Tag vorgesehen ist. Tagsets sollten außerdem disjunkt sein, d. h., die Kategorien sind trennscharf und jeder Instanz wird genau ein Tag zugewiesen. Im Beispiel der Wortarten sollte jedes Wort des Deutschen genau einer Kategorie des Tagsets zuzuweisen sein (und nicht keiner oder mehreren).

Annotationen können in ganz unterschiedlichen Formen vorgenommen werden. Allen von uns bekannt sind sicherlich handschriftliche Annotationen auf Papier. So können wir etwa beim Lesen einer Kurzgeschichte anhand von Markierungen formale oder inhaltliche Besonderheiten hervorheben, zum Beispiel alle Textstellen, die zur Charakterisierung der Hauptfigur beitragen. Annotationen auf Papier sind leicht anzufertigen und oft für einen ersten Zugang zu einem Text geeignet, wenn die zu annotierenden Kategorien möglicherweise noch gar nicht feststehen. Die Auswertung von Annotationen auf Papier ist allerdings mühsam und kaum automatisierbar, weshalb es sich immer empfiehlt, frühzeitig auf eine digitale Form umzusteigen.

Mit welchen Annotationstools und in welchem Annotationsformat wir sinnvollerweise arbeiten, hängt von einer Reihe von Faktoren ab, insbesondere davon, welche Art Information wir annotieren und wie wir sie später analysieren wollen. In den folgenden Kapiteln werden wir eine Reihe von Beispielen für Annotationskategorien und die Arbeit mit ihnen kennenlernen.

Teil 1: Linguistische Ausgangspunkte

2Lexik

In diesem Kapitel geht es darum, wie wir ein Wort definieren und es mit dem Computer erfassen können, indem wir Zeichenketten in Token segmentieren und Wortformen auf ihr Lemma abbilden. Wir befassen uns außerdem mit allgemeinen Frequenzeigenschaften des Wortschatzes von Korpora. Als konkrete Analyseverfahren zur Lexik betrachten wir die Berechnung von Kollokationen und Keywords und demonstrieren ihren Nutzen anhand von Beispielstudien.

2.1Das Wort

In der Lexik dreht sich alles um das WortWort und den Wortschatz. Deshalb widmen wir uns zunächst dem grundlegenden Konzept des Wortes, das sich als überraschend schwer zu fassen erweist. Im Lexikon der Sprachwissenschaft heißt es etwa:

Intuitiv vorgegebener und umgangssprachlich verwendeter Begriff für sprachliche Grundeinheiten, dessen zahlreiche sprachwissenschaftliche Definitionsversuche uneinheitlich und kontrovers sind. (Bußmann 2008: 794)

Woran liegt es, dass das Konzept des Wortes, das uns im Alltag völlig klar erscheint, schwer präzise zu definieren ist? Betrachten wir die folgende Liste von Beispielen:

 

(1)

Ich stehe auf.

 

(2)

Ich fahre nach New York.

 

(3)

Mund-zu-Mund-Beatmung

 

(4)

Sie soll’s am Abend nochmal versuchen.

 

(5)

Waschmaschine vs. washing machine

Intuitiv lässt sich das Wort als etwas beschreiben, das zwischen zwei Leerzeichen (oder Interpunktionszeichen) steht. Doch gleich im ersten Beispielsatz wird dieses Konzept herausgefordert: stehe auf lässt sich schließlich auf die Grundform aufstehen zurückführen. Es ließe sich durchaus dafür argumentieren, dass es sich nur um ein Wort handelt. Ebenso können wir im Fall von New York dafür plädieren, dass es sich um ein einziges Wort handelt, da beide Komponenten nur zusammen als Name der Stadt gelesen werden können. Bei komplexen Wortbildungen wie in Beispiel (3) haben wir es zwar mit nur einem Wort zu tun, aber die Bestandteile haben noch eine hohe Selbstständigkeit, die gerade durch die graphematische Trennung durch Bindestriche betont wird. Zuletzt erlaubt das Deutsche Kontraktionen (‚Zusammenziehungen‘, auch: Verschmelzungen), bei denen die Bestandteile in unterschiedlichem Maße selbstständig bleiben: Bei soll’s in Beispiel (4) ließe sich noch dafür argumentieren, vor dem Apostroph zu trennen und von zwei Wörtern zu sprechen. Bei am hingegen ist die Kontraktion aus an dem sehr stark konventionalisiert, wir nehmen sie also kaum noch als solche wahr und eine Trennung ist nicht in allen Kontexten grammatisch. Das Beispiel (5) zeigt, dass die Segmentierung am Leerzeichen je nach Sprache sehr unterschiedliche Ergebnisse haben kann und dadurch willkürlich erscheint.

Um diese ganz unterschiedlichen Perspektiven abzudecken, brauchen wir mehrere Wortkonzepte. Wir wollen sie im Folgenden anhand dieser Bespielsätze unterscheiden:

 

(6)

Die Ente schwimmt im Teich.

 

(7)

Die Ente taucht unter.

 

(8)

Ich versuche, mich mit der Ente anzufreunden.

 

(9)

Ich mag Enten.

Die Duden-Grammatik (Duden 2009: 129–130) unterscheidet zwei Wortkonzepte, nämlich das Lexem und das syntaktische Wort:

Das LexemLexem ist eine abstrakte Einheit des Wortschatzes, die in unterschiedlichen grammatischen Formen realisiert werden kann. In den Beispielsätzen gehören alle vier fett markierten Wörter zum gleichen Lexem ENTE. Ein Lexem wird meistens durch sein Lemma dargestellt. Das LemmaLemma (Plural: Lemmata, auch: Nennform) können wir uns vorstellen als die Form des Wortes, die wir im Wörterbuch nachschlagen würden. Bei Verben ist das der Infinitiv, bei Substantiven der Nominativ Singular, bei Adjektiven die prädikative Form (wie in Die Wolke ist weiß).

Das syntaktische WortWortsyntaktisches oder die WortformWortform ist eine spezifische grammatische Ausprägung eines Wortes. Das Wort Ente in Beispiel (6) und (7) steht im Nominativ Singular, in Beispiel (8) im Dativ Singular, in Beispiel (9) im Akkusativ Plural. Wir haben es also mit drei unterschiedlichen syntaktischen Wörtern zu tun.

Zusätzlich können wir noch das graphematische WortWortgraphematisches hinzuziehen, bei dem es sich um eine Buchstabensequenz handelt, die von Leerzeichen (und ggf. Interpunktionszeichen) begrenzt wird (Fuhrhop & Peters 2023: 260). Hier ist die sprachliche Oberfläche entscheidend und nicht die Zugehörigkeit zu einer Bedeutungseinheit wie beim Lexem oder die grammatischen Eigenschaften wie beim syntaktischen Wort. In diesem Sinne handelt es sich bei den fettgedruckten Wörtern in (6)­–(9) um vier graphematische Wörter.

In der Korpus- und Computerlinguistik spielen für die Wortdefinition auch praktische Fragen eine Rolle: Damit sie dem Computer möglichst leicht vermittelbar ist, benötigen wir eine an der sprachlichen Oberfläche orientierte Definition. Deshalb wird der Begriff des Wortes, der zahlreiche theoretische Implikationen hat, oft vermieden. Stattdessen sprechen wir von TypeType und Token (englisch ausgesprochen)Token:

Als Type bezeichnen wir ein Wort im Sinne einer abstrakten Kategorie. Kommt in einem Satz (oder Korpus) zweimal das Wort und vor, gehören beide Instanzen zum gleichen Type. […] Token sind demgegenüber die konkreten Vorkommen eines Types an einer bestimmten Stelle im Text. Zu einem Type kann es im Korpus also immer ein oder mehrere Token geben. (Andresen & Zinsmeister 2019: 32)

Der Begriff Token entspricht also weitestgehend dem graphematischen Wort. Allerdings gehören auch Interpunktionszeichen zu den Token sowie alle anderen Textsegmente, die wir eventuell nicht im engeren Sinne als Wort bezeichnen würden (z. B. E-Mail-Adressen und Hashtags). In den Beispielsätzen zählen wir bei den fettgedruckten Wörtern vier Token, aber nur zwei Types (Ente und Enten).

Die Größe eines Korpus wird meist in Token angeben. Es ist sinnvoll, zur Klarstellung zu ergänzen, ob die Zählung mit oder ohne Interpunktion erfolgt:

Das Foodblogkorpus umfasst 89.448 Token (inkl. Interpunktion).

In diesem Buch wird der Einfachheit halber häufig von „Wörtern“ die Rede sein, eine Präzisierung erfolgt dort, wo es sich als notwendig erweist.

2.2Tokenisierung

Wie stellen sich Wörter nun für den Computer dar? Zunächst ist zu betonen, dass der Computer kein intuitives Verständnis von Wörtern hat. Stattdessen sieht die Maschine zunächst nur ZeichenkettenZeichenketten, auch StringsStrings genannt. Leerzeichen unterscheiden sich dabei nicht grundsätzlich von anderen Zeichen. Auf der grundlegendsten Ebene werden alle Zeichen durch eine Abfolge von Nullen und Einsen repräsentiert: das Zeichen „A“ etwa durch die Folge „01000001“, das Leerzeichen durch „00100000“.1 Wenn wir mit Zeichenketten linguistisch arbeiten wollen, müssen wir sie zunächst segmentieren. Diese Segmentierung wird als TokenisierungTokenisierung bezeichnet, also die Zerlegung von Zeichenketten in Token (und oft auch in Sätze).

Eine einfache Möglichkeit zur Tokenisierung besteht darin, die Zeichenkette an Leerzeichen und sonstigem Whitespace (z. B. Zeilenumbrüchen und Tabstopps) zu teilen. Damit erreichen wir in der Mehrzahl der Fälle unser Ziel der Segmentierung in Token. Aber es gibt Ausnahmen: Insbesondere für Interpunktionszeichen brauchen wir eine separate Behandlung, damit sie nicht am Ende des vorangehenden Tokens kleben bleiben. Da das Inventar von Interpunktionszeichen überschaubar ist, wäre hier denkbar, mit einer Liste zu arbeiten und Zeichenketten mit einem Interpunktionszeichen am Ende nachzubearbeiten. Allerdings würden wir im Falle von Abkürzungen wollen, dass der Abkürzungspunkt Teil des Tokens bleibt, was eine komplexere Handhabung erfordert (s. u.).

Die zweite Aufgabe der Tokenisierung besteht in der Segmentierung in SätzeSatzgrenzen. Auch hier kann man sich eine einfache Grundregel vorstellen, derzufolge wir Zeichenketten an Interpunktionszeichen segmentieren, die das Satzende anzeigen, also an Punkt, Fragezeichen und Ausrufezeichen. Dies würde beispielsweise der Zeichenkette in Beispiel (10) bereits gerecht. Zusätzlich ließe sich prüfen, ob auf das Interpunktionszeichen ein Leerzeichen und ein Großbuchstabe folgen, um Beispiele wie (11) zu berücksichtigen. Die größte Herausforderung auch bei der Satzsegmentierung sind Abkürzungen. In Beispiel (12) sollte erkannt werden, dass der Punkt nach Aufl ein Abkürzungspunkt ist und kein Satzende anzeigt. Die Aufgabe wird erschwert durch Fälle wie Beispiel (13), wo der Punkt eine Doppelfunktion als Abkürzungspunkt und Satzendepunkt erfüllt.

 

(10)

Morgens esse ich gerne Müsli. Das schmeckt!

 

(11)

Wir brauchen mindestens 1.000 Enten!

 

(12)

Die dritte Aufl. ist soeben erschienen.

 

(13)

Das Buch erscheint in dritter Aufl.

Die wichtigste Aufgabe der Tokenisierung besteht also in der Disambiguierung von Punkten in Abkürzungs- und SatzendepunkteAbkürzungen. Zu diesem Zweck können wir regelbasierte Verfahren nutzen, wie zum Beispiel Listen von häufig verwendeten Abkürzungen und reguläre Ausdrücke (siehe Kapitel 9.1), mit denen zum Beispiel geprüft wird, ob auf den Punkt ein Leerzeichen und ein Großbuchstabe folgen. Allerdings sind Listen nicht sehr flexibel. Je nach Textsorte sind ganz unterschiedliche Abkürzungen üblich und eine für Zeitungsdaten erstellte Liste wird für wissenschaftliche Texte nur teilweise hilfreich sein. Außerdem gibt es viele selten verwendete Abkürzungen, die nicht alle erfasst werden können. Auch das Problem, zu erkennen, wenn eine Abkürzung am Satzende steht, ist durch die Liste noch nicht gelöst (Hagenbruch 2010).

Listenansätze können um Regeln ergänzt werden. Dabei kann das Wort nach dem zu disambiguierenden Punkt Aufschluss geben: Kleinschreibung macht sehr wahrscheinlich, dass es sich um eine Abkürzung und kein Satzende handelt. Ist es großgeschrieben, können wir aber nicht umgekehrt schließen, dass ein Satzende vorliegt. Um hier abzuwägen, kann es helfen, die Wortart zu berücksichtigen: Wird zum Beispiel eine Präposition großgeschrieben, haben wir es in der Regel mit einem neuen Satz zu tun. Zusätzlich können wir im Korpus prüfen, ob das Wort auch kleingeschrieben vorkommt. Wird es meistens kleingeschrieben, können wir die Großschreibung wiederum als Hinweis auf eine Satzgrenze interpretieren (Hagenbruch 2010).

Anstatt all diese Zusammenhänge in Regeln zu formulieren, können wir die Tokenisierung auch mit statistischen Verfahren vornehmen, die auf Grundlage von Korpora komplexere Muster erkennen und auf neue Daten anwenden können. Das Verfahren Punkt von Kiss & Strunk (2006) macht sich das Konzept der Kollokationen zunutze, das in Kapitel 2.5 genauer vorgestellt wird. Kurz gesagt liegt hier die Annahme zugrunde, dass Abkürzungen im Korpus nur selten ohne den Punkt am Ende vorkommen. Indem wir ermitteln, welche Wörter auffällig häufig vor einem Punkt stehen, haben wir gute Kandidaten für Abkürzungen identifiziert. Zusätzlich ziehen Kiss & Strunk (2006) noch heran, dass Abkürzungen meistens eher kurz sind und unter Umständen auch weitere, wortinterne Punkte vorkommen. Letzteres ist insbesondere dann der Fall, wenn Abkürzungen für mehrere Wörter entgegen der Rechtschreibempfehlung zusammengeschrieben werden (u.s.w.). Das Verfahren hat den großen Vorteil, dass es keinen zusätzlichen menschlichen Input wie zum Beispiel Annotationen benötigt, sondern unüberwacht (siehe Kapitel 11.2) von den bloßen Textdaten ausgeht. Dadurch ist es leicht auf andere Sprachen übertragbar – jedenfalls solche, die Leerzeichen und Interpunktion nutzen.

Für die praktische Umsetzung der Tokenisierung stehen uns eine Reihe von Tools zur Verfügung. In Python sind hier insbesondere das → Natural Language Toolkit (NLTK) (mit der Tokenisierung basierend auf Kiss & Strunk 2006), → Stanza und → spaCy zu erwähnen, in der Programmiersprache → R die Bibliothek → quanteda. Außerdem gibt es Tools zur Korpusanalyse, die neben vielen anderen Funktionen auch eine Tokenisierung vornehmen, wie zum Beispiel → AntConc.

2.3Lemmatisierung

Das Deutsche ist eine morphologisch komplexe Sprache – jedenfalls im Vergleich zum Englischen, für das die meisten Tools zur automatischen Sprachverarbeitung zuerst entwickelt werden.1 Das bedeutet, dass viele Lexeme viele ganz unterschiedliche Oberflächenformen haben. Das Adjektiv weiß etwa kann neben dieser Grundform zum Beispiel auch als weiße, weißer, weißes, weißen, weißere, (am) weißesten verwendet werden. Wenn wir wissen wollen, wie oft in einem Text von der Farbe Weiß die Rede ist, ist uns die konkrete Wortform vermutlich weniger wichtig, wir würden gerne die Vorkommen aller Formen des Lexems zählen. Zu diesem Zweck ist der Schritt der Lemmatisierung notwendig.

Bei der LemmatisierungLemmatisierung werden alle Token auf ihre Grundform, also auf das Lemma, abgebildet. Die automatische Lemmatisierung kann sich zunutze machen, dass viele Flexionsprozesse im Deutschen regelhaft funktionieren. So können wir eine Partizip-II-Form eines Verbs mehrheitlich daran erkennen, dass sie mit ge- beginnt und auf -t endet. Das Lemma können wir bilden, indem wir das ge- streichen und das -t durch ein -en ersetzen (gelacht → lachen, gemeint → meinen). Allerdings gibt es auch einige irreguläre Formen (gewesen → sein) und Wörter, die diesem Muster entsprechen, ohne ein Partizip zu sein (geht, gerät). Anstatt sich auf solche hart formulierten Regeln zu verlassen, arbeiten die meisten modernen Lemmatisierer mit wahrscheinlichkeitsbasierten Verfahren (Wartena 2019).

Die Lemmatisierung ist Teil der meisten Tools zur automatischen Analyse von Sprache, etwa über die Plattform → WebLicht, die Python-Bibliotheken → Stanza und → spaCy oder den ebenfalls in Python implementierten Tagger → HanTa (Wartena 2019). In der Regel empfiehlt sich die Verwendung der Lemmatisierung, wenn wir vor allem am Inhalt eines Textes und weniger an seiner sprachlichen Gestaltung interessiert sind. Obwohl die Lemmatisierung für viele Anwendungsfälle sehr nützlich ist, kann es auch wichtig sein, die konkreten Wortformen dabei nicht aus den Augen zu verlieren. Studien haben gezeigt, dass es zwischen den unterschiedlichen Formen eines Lemmas durchaus Bedeutungsunterschiede geben kann: Tognini-Bonelli (2001: 94) zeigt zum Beispiel, dass das Verb to face in seiner Form facing eher im konkreten Sinne von ‚etwas gegenüberstehen‘ verwendet wird, bei Verwendung der Form faced ist mehrheitlich die metaphorische Bedeutung ‚mit etwas konfrontiert sein‘ gemeint.

2.4Der Wortschatz von Korpora

Die Frequenzen von Wörtern und die Verteilung dieser Frequenzen in Korpora folgen einer Reihe von Mustern, die für die Arbeit mit Korpora immer wieder von Bedeutung sind und die wir hier betrachten werden.

Welche Wörter würden wir erwarten, wenn wir die häufigsten Wörter im Foodblogkorpus betrachten? Tabelle 1 zeigt die Lösung: In der Mehrzahl handelt es sich um sog. FunktionswörterFunktionswörter, also Artikel, Konjunktionen, Präpositionen und Pronomen. Diese Wörter verraten uns zunächst nichts oder wenig über den Inhalt des Korpus und sind auch für jedes Korpus des Deutschen ungefähr gleich. Das einzige Wort, das einen Hinweis auf die Textsorte gibt, ist g (wie in 500 g Mehl) als häufige Mengenangabe für Zutaten. Die hohe Frequenz von ich kann zusätzlich als Hinweis auf eine Textsorte interpretiert werden, in der Menschen von ihren eigenen Erfahrungen berichten.

Rang

Types

Frequenz

1

und

2730

2

die

1546

3

mit

1211

4

in

1108

5

der

1065

6

g

749

7

den

740

8

ich

683

9

das

636

10

auf

620

Tabelle 1:

Die 10 häufigsten Types im Foodblogkorpus

Wenn wir die Frequenz aller Wörter im Korpus ermitteln, sortieren und grafisch darstellen, ergibt sich für jedes Korpus eine Verteilung wie in Abbildung 1. Jedes Korpus hat somit eine sehr kleine Anzahl von Wörtern, die extrem häufig sind (linker Rand). Von Rang zu Rang nimmt die Frequenz aber sehr schnell ab. Außerdem hat jedes Korpus extrem viele Wörter, die nur sehr selten oder sogar nur ein einziges Mal vorkommen (rechter Rand in Abbildung 1). Dieser Zusammenhang wird als das Zipf’sche GesetzZipf’sches Gesetz bezeichnet. Formaler ausgedrückt besagt das Gesetz:

Die Frequenz eines Wortes ist umgekehrt proportional zu seinem Rang in der sortierten Wortliste. Das heißt: Wenn die Frequenz eines Wortes W1 k-mal so groß ist wie die eines Wortes W2, dann ist der Rang von W2 ungefähr k-mal so groß wie der von W1. (Perkuhn, Keibel & Kupietz 2012: 84; ursprünglich Zipf 1949)

Die Werte in Tabelle 1 zeigen, dass das zumindest annähernd der Fall ist: die hat einen doppelt so hohen Rangplatz wie und, dem Gesetz nach müsste die Frequenz von und also doppelt so hoch sein wie die von die. Tatsächlich liegt die Frequenz 1,77-mal so hoch (2730/1546) und auch manche der folgenden Werte liegen etwas abseits der erwarteten Werte. Aber die ungefähre Tendenz wird durch das Gesetz gut beschrieben, wie auch an der charakteristischen Kurve in Abbildung 1 erkennbar ist.

Abbildung 1:

Die häufigsten Wörter des Foodblogkorpus und ihre Frequenz, nach Frequenz sortiert

Die beschriebene Verteilung von Wortfrequenzen bedeutet auch, dass es in jedem Korpus eine hohe Anzahl an sog. Hapax LegomenaHapax Legomena (Singular: Hapax Legomenon) gibt, d. h. Wörtern, die im Korpus nur ein einziges Mal vorkommen. Auch dies lässt sich am Foodblogkorpus veranschaulichen: Wie bereits oben genannt, umfasst das Korpus insgesamt 89.448 Token (inkl. Interpunktion) und 13.042 Types, also unterschiedliche Wörter. Davon handelt es sich bei ganzen 7.707 um Hapax Legomena. Das heißt, dass ungefähr jeder zweite Type nur ein einziges Mal im Korpus vorkommt. Dieser Anteil variiert zwar von Korpus zu Korpus, die Größenordnung ist aber recht stabil.

Für die korpus- und computerlinguistische Praxis bedeutet dies: Die hochfrequenten Funktionswörter können ein Problem darstellen, da sie (für die meisten Fragestellungen) wenig Information transportieren, aber viel frequenter sind als alle anderen Wörter. Diesem Problem wird häufig mit sog. StoppwortlistenStoppwörter begegnet, d. h. Listen von genau diesen Funktionswörtern, die basierend auf der Liste von der Analyse ausgeschlossen werden können. Wie bereits erwähnt, sind diese hochfrequenten Wörter korpusübergreifend relativ stabil, sodass nicht für jedes Korpus eine eigene Liste erstellt werden muss. Textsortenspezifische Ergänzungen können aber durchaus sinnvoll sein.

Am anderen Ende der Verteilung kann die hohe Zahl an Hapax Legomena eine Herausforderung sein. Im Gegensatz zu den hochfrequenten Wörtern ist in diesem Bereich mit sehr viel Variation zwischen Korpora zu rechnen. Das bedeutet, dass jedes neue Korpus, das wir analysieren, wieder sehr viele noch unbekannte Wörter enthält, für die der Computer aber etwa bei der automatischen Annotation mit Wortarten trotzdem eine sinnvolle Analyse anbieten soll.

Eine einfache Möglichkeit, den Wortschatz eines Korpus zu charakterisieren, ist der sog. Type-Token-RatioType-Token-Ratio (TTR). Dabei handelt es sich um ein Maß für die lexikalische Vielfalt eines Textes, das zahlreiche Anwendungsmöglichkeiten hat. Das Maß wird zum Beispiel verwendet, um den Sprachstand Lernender zu beschreiben: Je besser man eine Sprache beherrscht und je größer der Wortschatz wird, desto größer wird die lexikalische Vielfalt der Texte. In der Literaturwissenschaft könnte man annehmen, dass die lexikalische Vielfalt in „anspruchsvoller“ Literatur höher ist als in Heftromanen – Jannidis, Konle & Leinen (2019) können diese Hypothese allerdings nicht bestätigen.

Der TTR berechnet sich als Quotient aus der Anzahl der Types und der Anzahl der Token in einem Korpus.

Das Foodblogkorpus beispielsweise hat 89.448 Token und 13.042 Types (beides inkl. Interpunktion), sodass wir den TTR folgendermaßen berechnen können:

Für die Interpretation dieses Wertes ist es hilfreich, sich die möglichen Extremwerte zu vergegenwärtigen. Nehmen wir also den (völlig unrealistischen) Extremfall maximaler lexikalischer Vielfalt an, der darin besteht, dass jeder Type im Korpus nur ein einziges Mal vorkommt. Für das Foodblogkorpus würde das bedeuten, dass 89.448 unterschiedliche Wörter vorliegen. Der TTR würde in diesem Fall einen Wert von 1 erreichen:

Der andere Extremfall besteht darin, dass das ganze Korpus nur aus einem einzigen Wort besteht, das immer wiederholt wird:

Der TTR nimmt in diesem Fall einen Wert sehr nahe an 0 an. Realistische Werte werden immer irgendwo zwischen diesen beiden Extremen liegen. Um letztlich zu einer Beurteilung eines solchen Wertes zu kommen, brauchen wir immer einen Vergleichswert. Hier stoßen wir allerdings auf ein gewichtiges Problem des TTR: Der Wert ist nicht unabhängig von der Korpusgröße. Stattdessen lässt sich beobachten, dass der TTR mit steigender Korpusgröße abnimmt. Dadurch ist ein Vergleich von Korpora unterschiedlicher Größe nicht möglich. Der Grund für diese Abhängigkeit liegt wiederum in der Zipf’schen Verteilung und wird von Perkuhn, Keibel & Kupietz (2012: E6–3) anschaulich beschrieben:

Zur Veranschaulichung dieser Ursache stellen Sie sich vor, Sie gehen ein bestehendes Korpus Worttoken für Worttoken durch und berechnen dabei nach jedem Token den TTR-Wert für das Teilkorpus, das alle bisher gesehenen Tokens enthält. Nach einigen hundert Tokens werden Sie bereits den meisten der hochfrequenten (d. h. häufigen) Worttypes mindestens einmal begegnet sein. Je größer Ihr Teilkorpus wird, desto mehr werden Sie auch von den mittelfrequenten Wörtern mindestens einmal gesehen haben, und es wird immer unwahrscheinlicher, im nächsten Token einen neuen Worttype anzutreffen, denn es verbleiben fast nur noch niederfrequente Worttypes, die Sie noch ein erstes Mal sehen könnten.

Um der Abhängigkeit des TTR von der Korpusgröße Rechnung zu tragen, kommt in der Praxis der standardisierte Type-Token-RatioType-Token-Ratiostandardisierter (STTR) zum Einsatz. Die Berechnung besteht aus drei Schritten (Perkuhn, Keibel & Kupietz 2012: E6–4):

Wir teilen das Korpus in Segmente gleicher Länge. Häufig wird hier eine Länge von 100 bis 2000 Token gewählt, ein geeigneter Wert hängt aber auch von der Länge der Texte im Korpus ab.

Wir berechnen den TTR für jedes Segment einzeln. Das letzte (in der Regel zu kurze) Segment wird dabei ausgelassen.

Wir bilden das arithmetische Mittel aller TTR-Werte für das Korpus.

Sofern wir die gleiche Segmentlänge wählen, können wir den STTR-Wert von zwei unterschiedlichen Korpora miteinander vergleichen. Auch der STTR kann Werte zwischen 0 und 1 annehmen und ist analog zum TTR zu interpretieren.

Zur Anwendung auf das Foodblogkorpus gibt es unterschiedliche Möglichkeiten. Wir können Textgrenzen und Blogs vorübergehend ignorieren und alle Texte zu einer großen Datei zusammenführen, die dann segmentiert wird. Da die Texte im Schnitt knapp 600 Token lang sind, berechnen wir den STTR für eine Segmentlänge von 500 und kommen auf den Wert 0,56. Alternativ können wir einen STTR-Wert für alle Blogs einzeln berechnen und sie miteinander vergleichen. So können wir feststellen, dass die lexikalische Vielfalt im Korpus erheblich schwankt: Die Werte reichen von 0,49 für den Blog Baking with Marianne bis zu Kochzivilisten mit 0,61 (bei Segmentlänge 500).

2.5Kollokationen

Um den Wortschatz und die Verwendung konkreter Wörter in einem Korpus weiterführend zu beschreiben, lohnt es sich, über das Einzelwort hinauszuschauen:

You shall know a word by the company it keeps. (Firth 1957: 179)

Diese vielzitierte Formulierung von John R. Firth bringt die Intuition hinter dem Konzept der KollokationenKollokationen auf den Punkt: Die Bedeutung eines Wortes ergibt sich aus dem Kontext, in dem es benutzt wird. Allgemeiner gesprochen können wir viel über die Verwendung eines Wortes lernen, wenn wir betrachten, welche anderen Wörter häufig im Kontext unseres Zielwortes stehen.

Zu den wichtigsten Kollokationen zum Suchwort Film im DWDS-Wortprofil1 gehören beispielsweise drehen, Regisseur/in, zeigen, gleichnamig,