Autorschaftserkennung und Verstellungsstrategien - Steffen Hessler - E-Book

Autorschaftserkennung und Verstellungsstrategien E-Book

Steffen Hessler

0,0

Beschreibung

Dieser Band wirft einen genauen Blick auf die Autorschaftserkennung im Bereich der Forensischen Linguistik. Mit Textanalysen und -vergleichen von inkriminierten Texten werden schreiberidentifizierende Merkmale erarbeitet und analysiert, die dabei helfen, Hinweise auf Täter:innen zu finden. Ferner werden theoretische Rahmenbedingungen und Analysen von authentischen inkriminierten Schreiben vorgestellt, die in Zusammenarbeit mit dem BKA erstellt wurden. Anhand der Analysen wird eine bisher noch nicht beschriebene Verstellungsstrategie herausgearbeitet: die Stilisierungsstrategie. Bei dieser überdecken Täter:innen den eigenen Sprachgebrauch mit stilisierten Merkmalen, die aus verschiedenen Medien bekannt sind, und verschleiern damit ihre persönliche sprachliche Kompetenz. Wegen der großen Menge an inkriminierten Texten werden Methoden zur teil-automatisierten Analyse entwickelt und in der Arbeit vorgestellt.

Sie lesen das E-Book in den Legimi-Apps auf:

Android
iOS
von Legimi
zertifizierten E-Readern

Seitenzahl: 548

Veröffentlichungsjahr: 2023

Das E-Book (TTS) können Sie hören im Abo „Legimi Premium” in Legimi-Apps auf:

Android
iOS
Bewertungen
0,0
0
0
0
0
0
Mehr Informationen
Mehr Informationen
Legimi prüft nicht, ob Rezensionen von Nutzern stammen, die den betreffenden Titel tatsächlich gekauft oder gelesen/gehört haben. Wir entfernen aber gefälschte Rezensionen.



Steffen Hessler

Autorschaftserkennung und Verstellungsstrategien

Textanalysen und -vergleiche im Spektrum forensischer Linguistik, Informationssicherheit und Machine-Learning

DOI: https://doi.org/10.24053/9783823395614

 

© 2023 • Narr Francke Attempto Verlag GmbH + Co. KGDischingerweg 5 • D-72070 Tübingen

 

Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechtsgesetztes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen.

 

Alle Informationen in diesem Buch wurden mit großer Sorgfalt erstellt. Fehler können dennoch nicht völlig ausgeschlossen werden. Weder Verlag noch Autor:innen oder Herausgeber:innen übernehmen deshalb eine Gewährleistung für die Korrektheit des Inhaltes und haften nicht für fehlerhafte Angaben und deren Folgen. Diese Publikation enthält gegebenenfalls Links zu externen Inhalten Dritter, auf die weder Verlag noch Autor:innen oder Herausgeber:innen Einfluss haben. Für die Inhalte der verlinkten Seiten sind stets die jeweiligen Anbieter oder Betreibenden der Seiten verantwortlich.

Verlag und Autor haben sich bemüht, alle Rechteinhaber von Abbildungen, die nicht unter das wissenschaftliche Zitatrecht fallen, zu ermitteln. Berechtigte Hinweise auf übersehene Rechtsansprüche erbitten wir an den Verlag.

 

Internet: www.narr.deeMail: [email protected]

 

ISSN 0564-7959

ISBN 978-3-8233-8561-5 (Print)

ISBN 978-3-8233-0427-2 (ePub)

Inhalt

1 Fragestellungen und Aufbau der Arbeit2 Aufgaben und Tätigkeitsbereiche der forensischen Linguistik und Fragestellungen im Bereich der Autorenerkennung3 Forschungsüberblick und Anwendungsbereiche4 Weitere relevante Forschungsdisziplinen4.1 Sozio- und Varietätenlinguistik4.2 Linguistische Semantik und Pragmatik4.3 Sprachkontaktforschung4.4 Medienlinguistik und Online-Kommunikation4.5 Fehlerforschung5 Textanalysen und Textvergleiche im Bereich Autorschaftsanalyse5.1 Individuelles Sprachverhalten vs. Gesamtpopulation5.2 Unvoreingenommenheit bei Textanalysen und insbesondere Textvergleichen5.3 Textanalysen5.4 Textvergleiche5.5 Wahrscheinlichkeitsaussagen und Nicht-Linearität bei Textvergleichen5.6 Hypothesenbildung bei der Autorschaftsanalyse5.7 Keine exklusive Nutzung eines Ausdrucks und Sprachwandel5.8 Zusammenfassung6 Strittige Punkte und Forschungsdebatten6.1 Qualitative und quantitative Analysen6.2 Individualstil und sprachlicher Fingerabdruck vs. Varietäten und sprachlicher Fingerzeig6.3 Multiple Autorschaft6.4 Muttersprachliches Selbstbewusstsein7 Autorschaftserkennung in multimedialen Umgebungen8 Datengrundlage und Hinweise zum Datenschutz8.1 Kenntnis des Mediums und des Untersuchungsgegenstandes8.2 Deutschsprachige Amazon-Rezensionen8.3 Englischsprachige Amazon-Rezensionen8.4 Online-Foren (Gaming und Börse)8.5 Inkriminierte Textserie8.6 Medial stilisierte Sprache8.7 Datenschutz, Urheberschaft, gute wissenschaftliche Praxis sowie Opferschutz im Zusammenhang mit Autorenanalyse9 Textanalysen – Methoden der Fehler- und Stilanalyse9.1 Fehlerdefinition – Normiertheit und Regelwerke9.2 Fehlerforschung9.3 Fehlerbeschreibung, sprachliche Ebenen und Erscheinungsbild von Fehlern9.4 Fehlertypen und Fehlerschwere9.5 Fehlerursachen9.6 Muttersprachliche, lernersprachliche und fingierte Fehler9.7 Markiertheitstheorie – Stil, Fehler und Markiertheit9.8 Stilanalysen und stilistische Merkmale9.9 Reliabilität und Validität stilistischer Merkmale9.10 Kurzer Exkurs: Kritik am zu vereinfachten Umgang mit Metadaten9.11 Merkmalsets und Merkmalsetmuster9.12 Qualitative Analysen9.13 Quantitative Analysen9.14 Zusammenfassung10 Kriminaltechnisches Informationssystem Texte (KISTE)10.1 Befunde in KISTE – Befundkategorien10.2 Zusammenfassung11 Autorenerkennung in Online-Umgebungen11.1 Der Medienbegriff in dieser Arbeit11.2 Das Internet als Medium11.3 Prototypische Eigenschaften der Internetkommunikation11.4 Sprache in Internetforen und Online-Rezensionen – konzeptionelle Mündlichkeit?11.5 Problematik internetbasierter Daten und Fluidity im Bedeutungsspektrum forensischer Linguistik11.6 Zusammenfassung12 Erster empirischer Teil – Probeerhebungen – Rezensionen der Produktkategorie Cola12.1 Diatopische Variation12.2 Analyse von Cola-Rezensionen auf amazon.de12.3 Zusammenfassung13 Zweiter empirischer Teil – Verdacht auf Verbreitung von Desinformation und Verstellungsstrategien in Social Media13.1 Verdacht auf Verschleierungsstrategien und Verbreitung von Desinformation in einem Internetforum13.2 Kursmanipulationen an der Börse13.3 Fachsprachlichkeit in Börsenforen13.4 Verstellungsstrategien im Zusammenhang mit Kursmanipulationen13.5 Zusammenfassung14 Erpresserschreiben14.1 Anonymität und Nicht-Öffentlichkeit von Erpresserschreiben14.2 Die Textfunktionen von Erpresserschreiben und Abgrenzung von Drohbriefen14.3 Das Erpresserschreiben als Textsorte14.4 Einzelne Komponenten der Textsorte Erpresserschreiben14.5 Zusammenfassung15 Verstellungsstrategien15.1 Anonymität, fingierte Autorschaft und metasprachliches Bewusstsein15.2 Sprachliche Verstellungsstrategien – Grundlegende Übersicht15.3 Verstellungsstrategien als sprachlicher Stil15.4 Grenzen der Verstellung15.5 Sich verstellen bzw. lügen15.5.1 ‚Fake News‘ und ‚Lügenpresse‘15.5.2 Lügen im psychologischen und juristischen Sinn15.5.3 Lügen im linguistischen Sinn in Abgrenzung zum laienhaften Verständnis von Lügen15.5.4 Lügen als Veränderung des sprachlichen Stils15.5.5 Verstellungsstrategien als eine bestimmte Variante des Lügens und Täuschens15.5.6 Zusammenfassung15.6 Dissimilatorische und simulatorische Verstellungsstrategien15.6.1 Dissimilatorische Verstellungsstrategien – Verschleierung15.6.2 Simulatorische Verstellungsstrategien – Imitation15.6.3 Imitation als Verstellungsstrategie und die Darstellung von Autorität15.6.4 Imitation als Verstellungsstrategie und varietätenlinguistische Fragestellungen15.6.5 Zusammenfassung15.7 Imitation von Nicht-Muttersprachlichkeit als Verstellungsstrategie15.7.1 Die unspezifische Imitationsstrategie Foreigner Talk15.7.2 Spezifik von Einzelsprachen vs. Nicht-Spezifik der Darstellung von Nicht-Muttersprachlichkeit15.7.3 Die Bedeutung von Code-Switching für Verstellungsstrategien als Nicht-Muttersprachler/in15.7.4 Tertiärer Ethnolekt, Foreigner Talk und Xenolekt15.7.5 Der Weg ins Bewusstsein – Mediale Vorbilder, Verbreitung und Generierung15.7.6 Vorsicht bei Rückschlüssen auf Mehrsprachigkeit bei der Analyse einzelner Merkmale15.7.7 Untersuchungen zur Imitation von Nicht-Muttersprachlichkeit als Verstellungsstrategie15.7.8 Zusammenfassung15.8 Grad der Verstellung und Detektion15.8.1 Fingierte Fehler im Rahmen von Verstellungsstrategien15.8.2 (In-)Konsistenz von Merkmalen bei Verstellungen und Spracherwerb15.8.3 Zusammenfassung16 Korpuslinguistische Analysen von Verstellungsstrategien16.1 Stilanalyse16.1.1 Autorenstilisierungen16.1.2 Datumsangaben, Grußformeln und Anreden16.1.3 Groß- und Kleinschreibung16.1.4 Interpunktion16.1.5 Fachsprachen16.1.6 Register16.1.7 Lexikalische Komplexität16.2 Fehleranalyse16.2.1 Getrennt- und Zusammenschreibung16.2.2 Interpunktion16.2.3 Alte und neue deutsche Rechtschreibung16.2.4 Orthographie16.2.5 Syntax16.2.6 Morphologie16.2.7 Orthographie oder Morphologie16.2.8 Lexik16.2.9 Konstanz der Fehlerhaftigkeit und Plausibilität16.3 Zusammenfassung17 Dritter empirischer Teil – Analyse von Verstellungsstrategien im Rahmen einer Textserie inkriminierter Schreiben17.1 Verstellungsstrategien – Verschleierung, Imitation und Stilisierung17.2 Aspekte von Verstellungsstrategien17.2.1 Saliente, sprecheridentifizierende Merkmale und Gesamtpopulation17.2.2 Konsistenz und Plausibilität17.2.3 Stufen schriftsprachlicher Kompetenz17.2.4 Errors / Mistakes / Tippfehler – Das Auftreten von korrekten neben falschen Formen17.2.5 Zugänglichkeit – Oberflächliche und tiefer liegende sprachliche Ebenen17.2.6 Inkonsistenzen im Verlauf eines Textes und Unterschiede zwischen mehreren Texten17.2.7 Sprachmischungen17.2.8 Xenolekt vs. Sprachkontaktphänomene17.2.9 Der Konflikt der Verständnissicherung17.3 Anmerkungen zur Arbeitsweise bei der Analyse17.4 Heterogene schriftsprachliche Kompetenz und keine eindeutige Verstellung in den Texten X1–X1017.5 Verschleierung der eigenen schriftsprachlichen Kompetenz und Imitation von Nicht-Muttersprachlichkeit in den Texten X11–X2117.5.1 Orthographie17.5.2 Morphologie17.5.3 Lexik17.5.4 Syntax17.5.5 Darstellung von Fremdsprachlichkeit – Fremdsprachliche Lexik17.5.6 Zwischenfazit zur Darstellung von Fremdsprachlichkeit17.5.7 Darstellung von Fremdsprachlichkeit – Pseudofremdsprachliche Endungen17.5.8 Hoher Grad der Verstellung17.5.9 Widersprüche bei der schriftsprachlichen Kompetenz17.5.10 Nicht-Plausibilität und Inkonsistenz anhand konkreter Textvergleiche17.5.11 Vergleich der unterschiedlichen Realisationen eines Lexems in einem Text17.5.12 Sonstige Auffälligkeiten17.6 Fallenlassen der bisherigen Verstellungsstrategie in den Texten X22–X3617.6.1 Analyse von Text X2217.6.2 Analyse der Texte X23–X2617.6.3 Analyse der Texte X27–X3017.6.4 Analyse der Texte X31–X3617.7 Aspekte der Stilisierung und Analyse der Stilisierungsstrategie17.7.1 Mediale Stilisierung17.7.2 Kommunikationsziele der Verstellungsstrategien im Vergleich17.7.3 Die Stilisierungsstrategie im Rahmen der inkriminierten Textserie im Vergleich mit medial stilisierten Texten17.7.4 Medial stilisierte Sprache als Vorbild für die Stilisierungsstrategie17.8 Zusammenfassung18 Teil-automatisierte Verfahren für Textvergleiche18.1 Quantitative, statistische und automatisierte Ansätze18.2 Datengrundlage18.3 Interne Struktur von AdHominem18.3.1 Trainingsset18.3.2 Test-Set18.4 Anpassungen der Texte durch AdHominem18.5 Markierungen bzw. Attentions in AdHominem19 Vierter empirischer Teil – Analysen der Textvergleiche von AdHominem19.1 Probeerhebungen19.2 Einzelanalysen von Merkmalen innerhalb der Textvergleiche von AdHominem19.2.1 Zeichensetzung19.2.2 Orthographie19.2.3 Diatopische Variationen & Fremdsprachen19.2.4 Stilistik19.2.5 Syntax19.2.6 Kombinierte Merkmale19.3 Zusammenfassung, Herausforderungen und Ziele20 Fazit und AusblickAbkürzungsverzeichnisVerzeichnis der Korpora, Textsammlungen und SprachatlantenTabellenverzeichnisAbbildungsverzeichnisBilderverzeichnisVerzeichnis der AnhängeLiteraturverzeichnis

Meinen Eltern Barbara und Rainer sowie meiner kleinen Familie Maxi und Jonathan gewidmet

 

Großer Dank an Maxi und Potti für die Hilfe bei der Entstehung dieser Arbeit

 

Großer Dank an Prof. Dr. Karin Pittner für die Betreuung dieser Arbeit

1Fragestellungen und Aufbau der Arbeit

In vielen schriftsprachlichen Bereichen des Internets, wie Texten in sozialen Medien, Online-Rezensionen oder anonymen Mails, haben die Leser/innen keine gesicherten Informationen über die Verfasser/innen. Daher ist es im schriftsprachlichen Bereich auch leichter möglich, den eigenen Sprachgebrauch zu verschleiern, Fehler zu fingieren und den Sprachstil anderer zu imitieren bzw. zu stilisieren, um eine falsche Identität vorzutäuschen. Bei Texten, die in krimineller Absicht verfasst werden, wie beispielsweise Erpresserbriefen, Phishing-Mails oder Online-Betrugsfällen, ergibt sich hieraus ein großes Schadenspotential.

Sprachliche Verstellungsstrategien werden ebenfalls zur Verbreitung von Desinformation und Einflussnahme auf andere User/innen eingesetzt. Im Rahmen der vorliegenden Arbeit werden Texte in multimedialen Umgebungen auf den Einsatz von Verstellungsstrategien hin untersucht. Herzstück ist eine Analyse der sprachlichen Merkmale einer inkriminierten Textserie, die in diesem Umgang und dieser Tiefe bislang in der Forschung nicht vorgelegt wurde. Bei der Imitation vermeintlich typischer Vertreter/innen bestimmter Gruppen können unplausible Merkmalsets und sprachliche Inkonsistenzen Hinweise auf Verstellungsstrategien geben. Bei der Untersuchung werden neue Methoden für die Einordnung von Verstellungsstrategien entwickelt. Die Stilisierung wurde bisher in der Forschung noch nicht als eigenständige Verstellungsstrategie analysiert.

Die Forschungsergebnisse stellen Verschleierungs-, Imitations- und Stilisierungsstrategien in verschiedenen medialen Umgebungen vor und bieten neue Ansätze zur Abwehr von Social Engineering1 und zur Steigerung des Bewusstseins für Informationssicherheit2 in privaten und institutionellen Bereichen. Außerdem soll die Entwicklung des Systems AdHominem dazu beitragen, Textvergleiche teilweise automatisieren zu können.

Zuerst werden in Kapitel 2 die grundsätzlichen Fragen behandelt, womit sich die forensische Linguistik beschäftigt und welchen Nutzen sie in der Praxis bietet. Unter Kapitel 3 wird ein Überblick grundlegender und aktueller Forschungsliteratur und Anwendungsbereiche der Autorschaftserkennung gegeben. In Kapitel 4 werden weitere, für die Autorenerkennung relevante Forschungsdisziplinen mit ausgewählter Forschungsliteratur vorgestellt.

Textanalysen und Textvergleiche sind Unterbereiche der Autorschaftserkennung. In Kapitel 5 werden beide Bereiche vorgestellt und voneinander abgegrenzt. Es werden die Fragen geklärt, wie das individuelle Sprachverhalten gegenüber der Gesamtpopulation einzuschätzen ist, was Textanalysen und Textvergleiche beinhalten, welche Wahrscheinlichkeitsaussagen über die Autorschaft gemacht werden können und wie aus Textanalysen und Textvergleichen eine Hypothesenbildung gewonnen werden kann.

Kapitel 6 zeigt, dass einige Fragestellungen der Autorenerkennung kontrovers diskutiert werden. Dazu gehört, in welchen Bereichen qualitative und quantitative Analysen eingesetzt werden können. Ebenfalls wird der Frage nachgegangen, ob es einen Individualstil gibt und wie solche Überlegungen mit variationslinguistischen Konzepten zu vereinbaren sind. Weiterhin werden Herausforderungen wie multiple Autorschaft oder muttersprachliches Selbstbewusstsein diskutiert.

Kapitel 7 gibt einen Überblick, in welchen Bereichen Autorenerkennung eingesetzt werden kann. Dann werden in Kapitel 8 Korpora und Textsammlungen, wie Online-Rezensionen, Beiträge in Online-Foren, medial stilisierte Texte und eine inkriminierte Textserie vorgestellt. Sie bilden die Grundlage für vier empirische Untersuchungen in dieser Arbeit.

In Kapitel 9 werden, ausgehend von einer allgemeinen Fehlerdefinition, Fragen zu Fehlern auf verschiedenen sprachlichen Ebenen, ihrem jeweiligen Erscheinungsbild sowie zur Aussagekraft von Fehlern behandelt. Außerdem werden stilistische Analysen sowie die Reliabilität und Validität stilistischer Merkmale im Rahmen von Textanalysen behandelt. Es folgt eine Einordnung von Fehlern in unterschiedliche Typen sowie eine Thematisierung von Fehlerursachen, die insbesondere bei der Analyse verschiedener Verstellungsstrategien bedeutsam ist.

In Kapitel 10 werden Merkmale bzw. Befundkategorien auf verschiedenen linguistischen Betrachtungsebenen wie Orthographie, Interpunktion, Morphologie, Syntax etc. innerhalb des Systems KISTE (BKA) vorgestellt.

In Kapitel 11 werden das Internet als Medium ebenso wie prototypische Eigenschaften der Internetkommunikation und Spezifika der verwendeten Sprache in Submedien des Internets thematisiert und auf die Herausforderungen beim Umgang mit internetbasierten Daten eingegangen.

Im Rahmen des ersten empirischen Teils dieser Arbeit werden in Kapitel 12 Online-Rezensionen analysiert. Es wird der Frage nachgegangen, ob es möglich ist, anhand bestimmter Merkmale Hinweise auf den Ort der sprachlichen Sozialisation der Verfasser/innen zu erhalten. In Kapitel 13 werden von User/inne/n geäußerte Verdachtsfälle auf die Verbreitung von Desinformation in Online-Foren fokussiert, die mit dem Gebrauch von Verstellungsstrategien einhergehen.

Kapitel 14 thematisiert Fragen, die die Nicht-Öffentlichkeit und verschiedene Textfunktionen von Erpresserschreiben betreffen. Erpresserschreiben werden hier von ‚verwandten‘ Texten wie Drohbriefen abgegrenzt und als Textsorte beschrieben. Dazu werden einzelne Komponenten der Textsorte Erpresserschreiben vorgestellt.

In Kapitel 15 wird untersucht, wie Anonymität in Texten hergestellt und fingierte Autorschaft konstituiert wird. Nach einer grundlegenden Übersicht, welche Verstellungsstrategien in Texten eingesetzt werden, wird thematisiert, inwiefern die Verwendung einer Verstellungsstrategie als ein bestimmter sprachlicher Stil analysiert werden kann und welche natürlichen Grenzen bei Verstellungsstrategien gegeben sind. In weiteren Unterkapiteln wird die Tätigkeit, sich zu verstellen, genauer analysiert und mit kognitiv-verwandten Bereichen wie Lügen und Täuschen verglichen. Dann werden die Verstellungsstrategien Verschleierung und Imitation vorgestellt. Außerdem werden sprachlich-gesellschaftliche Phänomene wie die Nutzung von Foreigner Talk für die Bedeutung von Imitationsstrategien thematisiert. Die Untersuchung beinhaltet die Abgrenzung von Sprachkontaktphänomenen und sprachlichen Interferenzen von Xenolekt, Ausländerregister etc. Weiterhin werden Fragen aufgeworfen, wie mediale Vorbilder, durch die sich Foreigner Talk etc. etablieren, ins Sprachbewusstsein gelangen. Im Anschluss wird thematisiert, wie fingierte Fehler im Rahmen von Verstellungsstrategien aufgedeckt werden können.

Das Kapitel 16 stellt, ausgehend von einer korpuslinguistischen Arbeit Bredthauers (2013), Möglichkeiten der Analyse von Texten vor, in denen Verstellungsstrategien verwendet werden. Es werden Herausforderungen und Problemstellungen thematisiert und Lösungsstrategien vorgestellt, wie Merkmale bzw. Fehler innerhalb bestimmter Kategorien wie Getrennt- und Zusammenschreibung, Interpunktion etc. analysiert und eingeordnet werden können.

Die zuvor vorgestellten theoretischen Konzepte werden in Kapitel 17 auf einen konkreten Untersuchungsgegenstand angewendet, indem Merkmale einer erpresserischen Textserie analysiert werden. Dabei werden Verstellungsstrategien offengelegt, determiniert und analysiert. Besprochen wird u. a., was saliente, also sprecheridentifizierende Merkmale sind und was Merkmalsets inkonsistent bzw. nicht plausibel erscheinen lässt. Es werden die Fragen aufgeworfen, inwiefern Stufen sprachlicher Kompetenz, Zugänglichkeit und Verständnissicherung eines Textes eine Rolle bei der Plausibilität von Texten spielen. Im Anschluss werden Aspekte der Stilisierung als zuvor in der Forschung noch nicht besprochene Verstellungsstrategie vorgestellt. Dabei werden Merkmalsets und weitere Parameter der inkriminierten Textserie mit Merkmalen und Konzepten medial stilisierter Texte verglichen. Stilisierungsstrategien im Rahmen inkriminierter Schreiben und medial stilisierte Texte weisen Ähnlichkeiten auf, die einzeln analysiert und kategorisiert werden.

In Kapitel 18 werden teil-automatisierte Verfahren für Textvergleiche vorgestellt, die Forscher/innen bei Einzelanalysen unterstützen können. Hier wird das im Rahmen des Forschungskollegs „SecHuman – Sicherheit für Menschen im Cyberspace“ entwickelte System AdHominem vorgestellt. Dabei wird der Fokus darauf gelegt, die Funktionsweise von AdHominem für nicht-technische Forschungsbereiche darzulegen. Außer der Datengrundlage werden die interne Struktur, Verfahrensweisen und Anpassungen von AdHominem erklärt.

Das Kapitel 19 stellt Analysen der von AdHominem vorgenommenen Textvergleiche vor. Im Rahmen von Textvergleichen von Online-Rezensionen markiert AdHominem Textteile unterschiedlich intensiv. Die Markierungen geben Hinweise darauf, welche Elemente bei der Entscheidung, ob zwei Texte die gleiche Autorschaft haben oder nicht, entscheidend waren. Dann werden aus diesen Textteilen Merkmale linguistischer Betrachtungskategorien analysiert und kategorisiert. Außerdem wird der Frage nachgegangen, wie solche Verfahren im Rahmen interdisziplinärer Forschung weiterentwickelt werden können.

In Kapitel 20 wird im Ausblick thematisiert, wie die hier erarbeiteten Forschungsergebnisse und empirischen Analysen im Rahmen weiterer Forschungsarbeiten und interdisziplinären Projekte vertieft und weiterentwickelt werden können. Außerdem werden Ideen aufgeworfen, wie die hier gewonnenen Erkenntnisse das Bewusstsein für IT-Sicherheit steigern können.

2Aufgaben und Tätigkeitsbereiche der forensischen Linguistik und Fragestellungen im Bereich der Autorenerkennung

Die forensische Linguistik ist ein Forschungsbereich aus dem Spektrum Sprache und Recht. Forensische Linguistik stellt damit eine Schnittstelle der Wissenschaftsdisziplinen Linguistik und Jura dar.

Drei Bereiche interdisziplinärer Forschung aus dem Bereich Sprache und Recht betreffen die Linguistik (vgl. Fobbe 2011: 15 und Stickel 2002: 2f.):

Die Rechtssprache und ihre Entwicklung zu einer Fachsprache sowie ihre Bedeutung bei der Entwicklung der deutschen Standardsprache

Die Bedeutung des Betrachtungsbereichs der Pragmatik für die Rechtssprache und die damit verbundene Rechtsprechung

Die juristische Interpretation von sprachlichen Äußerungen in Texten, mündlichen Aussagen etc.

Die forensische Linguistik ist ein Teilbereich der angewandten Linguistik, der sich sowohl mit linguistischen als auch juristischen Fragestellungen befasst und damit als eine Schnittstelle von Sprache und Recht verstanden wird. Die Problemstellungen werden von ‚außen‘, also von der Kriminalistik, seitens Unternehmen oder bei Rechtsfragen im Allgemeinen, an die forensische Linguistik herangetragen. Anfang der 80er Jahre war es daher die Hauptintention, auf den Stellenwert der Verbindung theoretischer und empirischer Forschung hinzuweisen und beispielsweise Jurist/inn/en über die Möglichkeiten linguistischer Forschung zu informieren, um sie bei ihrer Arbeit zu unterstützen (Kniffka 1981: 588).

Heutzutage ist, außer diversen privaten Instituten, in erster Linie das Bundeskriminalamt mit der Bearbeitung verschiedener forensisch-linguistischer Fragestellungen und Forschungsaufgaben betraut. Beim BKA befassen sich Abteilungen des Kriminaltechnischen Instituts (KT) mit Fragen der forensischen Linguistik, wobei die Fachbereiche forensische Sprechererkennung und forensische Autorenerkennung unterschieden werden. Beide Disziplinen fallen beim BKA unter den „Fachbereich Sprache, Audio“ und sind Teil der „Biometrie“. Während sich die Sprechererkennung u. a. mit der Erforschung und Analyse akustischer Signale der „menschlichen Stimme und anderen akustischen Ereignissen“1 beschäftigt, befasst sich die Autorenerkennung mit Textanalysen, Textvergleichen und der Sammlung inkriminierter Schreiben für Sammlungsrecherchen (Schall 2004: 551).

Die behandelten Texte sind inkriminierte Schreiben. So „bilden Erpresserbriefe, Drohschreiben und Verleumdungen das einschlägige Untersuchungsmaterial der Autorenerkennung.“2 Laut Fobbe (2011: 41) ist ein inkriminierter Text ein Text, „der Gegenstand oder Bestandteil eines zivil- oder strafrechtlichen Verfahrens ist und zu dem im Vorfeld des letzteren auch durch die Polizei oder die Staatsanwaltschaft ermittelt worden ist“. In einigen Fällen, nämlich in der Regel dann, wenn Texte selbst Teil einer strafbaren Handlung darstellen, versuchen Autor/inn/en inkriminierter Texte anonym zu bleiben.

„Naturgemäß weisen Erpresserbriefe, anonyme Briefe u. ä. außerordentlich selten wirklich (sprecher)identifizierende Merkmale auf und naturgemäß zeigt das Verständigungsmittel Sprache in Verwendungszusammenhängen dieser Art weit mehr interpersonale als personale Charakteristika.“ (Kniffka 1981: 594)

Die Autorenerkennung der forensischen Linguistik geht davon aus, dass es möglich ist, anhand von Analysen Hinweise auf die/den Autorin/Autoren eines Textes, die/der die „Gestaltungsmacht“ (Winko 2002: 348f.) über einen Text hat, erhalten zu können. Einige Aspekte, wie beispielsweise Unauffälligkeit, das heißt das Nichtvorhandensein oder das nur geringe Vorhandensein sprachlicher Merkmale oder die Kürze eines Textes, können die Analyse bzw. deren Interpretation erschweren oder sogar unmöglich machen.

Kniffka (2000: 179f.) legt sehr vereinfacht und allgemein verständlich dar, in welchen Bereichen linguistische Expertise nachgefragt wird. Er fragt: „What is said?“, „What is meant?“ und „Who is the author of an anonymous utterance x?“3 Dern (2009: 21) berücksichtigt in einer Liste aus Fragestellungen die Möglichkeiten von Autor/inn/en, ihren Sprachgebrauch zu anonymisieren. So müssen Texte auf sprachliche Merkmale analysiert werden, die Hinweise darauf geben können, ob eine Verstellungsstrategie angewendet wird. Außerdem wird geprüft, ob Fehler bzw. Stilistik eines Textes Rückschlüsse auf die Herkunft und weitere Metadaten einer/eines Autorin/Autors zulassen. U.U. ist Deutsch nicht in ihre/seine Muttersprache oder aber er/sie verstellt sich als Nicht-Muttersprachler/in.

Da die Autorenerkennung in der Praxis in vielfältigen Bereichen Anwendung findet, werden Fragestellungen von ‚außen‘, also von nicht-linguistischer Seite, an forensische Linguist/inn/en herangetragen. Diese Fragen sind, da sie eben fachfremd sind, nicht-linguistischer Natur und können daher auch nicht in ihrer ursprünglichen Form von Sprachwissenschaftler/inne/n beantwortet werden. Aus diesem Grund kann z. B. eine Fragestellung seitens eines Gerichts, einer/eines Staatsanwältin/Staatsanwaltes oder Ermittler/inne/n für die Linguistik nicht einfach übernommen werden. Vorher muss eine Umwandlung in eine linguistische Fragestellung vorgenommen werden (vgl. Kniffka 2000, Kniffka 2007 und Fobbe 2011: 233ff.).

Fobbe weist darauf hin, dass es wichtig für die Autorenerkennung ist, dass eine allgemeine, nicht-fachspezifische, oder fachfremde Fragestellung wie „Handelt es sich bei dem Schreiber um einen Muttersprachler des Deutschen?“4 (Fobbe 2011: 63) in eine linguistische Fragestellung transformiert werden muss. Ein Vorschlag ist: „Gibt es Sprachgebrauchsformen in diesem Text, die auf eine nicht-muttersprachliche Kompetenz hindeuten?“5 (Fobbe 2011: 63) Die Umformulierung ist dabei nicht weglassbar, da sie impliziert, dass eine linguistische Fachperson ausschließlich linguistische Fragen beantwortet. Die Antwort könnte also sein: Es gibt Sprachgebrauchsformen in diesem Text, die auf eine nicht-muttersprachliche Kompetenz hindeuten. Keinesfalls sollte sie lauten: Die oder der Schreiber/in des Textes ist wahrscheinlich Ausländer/in, oder: Es gibt Anzeichen dafür, dass es sich bei der/dem Autor/in um eine/n Ausländer/in handelt. Muttersprache und Nationalität sind voneinander getrennte Eigenschaften und sollten nicht verwechselt oder vermischt werden.

Kniffka (2007: 9) weist darauf hin, dass es für die Verwertbarkeit vor Gericht obligatorisch ist, die Fragestellung wieder in eine allgemein verständliche, also u. U. nicht-fachsprachliche umzuformulieren, um die rechtliche Verwertbarkeit für das Gericht oder die ermittelnde Behörde sicherzustellen.

Das Ziel forensisch linguistischer Bemühungen in der Praxis ist die Erstellung von Gutachten, die sowohl das Sprachsystem als auch den jeweiligen Sprachgebrauch des Untersuchungsgegenstandes fokussieren (Kniffka 1981: 591). Grundsätzlich werden zwei Arten linguistischer Gutachten mit Fragestellungen, die von außen an die forensische Linguistik herangetragen werden, unterschieden. Einerseits werden Gutachten angefragt, wie eine Formulierung innerhalb eines spezifischen sprachlichen Zusammenhangs zu verstehen, bzw. zu begutachten ist. Ein Beispiel wäre, ob der Sprachgebrauch eines bestimmten Worts als diskriminierend, beleidigend o.ä. einzuschätzen ist. Außerdem werden Gutachten angefragt, die die Frage nach der Autorschaft eines anonymen Textes betreffen. Es kann also z. B. danach gefragt werden, mit welcher Wahrscheinlichkeit Text X von Autorin Y oder Autor Z geschrieben wurde (vgl. hierzu Kniffka 1981: 589). Im Rahmen dieser Arbeit wird hauptsächlich die zweite Fragestellung betrachtet, wobei die erste Frage auch ein Teil davon sein kann.

In jedem Fall betreffen Gutachten außerlinguistische Perspektiven. Kniffka (1981) führt verschiedene Funktionen linguistischer Gutachten im juristischen Bereich auf:

„Die diagnostische Funktion besteht darin, sprachliches Verhalten nicht um seiner selbst willen, sondern mit Rücksicht auf außerlinguistisches (hier: juristisches) Erkenntnisinteresse zu analysieren.6 […] Die persuasiv-therapeutische Funktion besteht – unabhängig davon, ob ein Gutachten konkrete ‚Empfehlungen‘ mitteilt oder nicht – darin, daß nicht nur eine Analyse vorgenommen wird, sondern das Gutachten als „Beweismittel“ bei Gericht dient, daß es in einem durch eine Nachbarwissenschaft konstituierten Praxisfeld beantragt und verwendet wird.“ (Kniffka 1981: 617f.)

Eine Beobachtung, die praktisch arbeitende forensische Linguist/inn/en, ob für den Bereich der Privatwirtschaft oder als Hilfe für die Strafverfolgung, immer wieder machen, ist, dass linguistische Gutachter/innen erst konsultiert werden, wenn wegen Problemen oder Schwierigkeiten bei Ermittlungen ein „Beweisnotstand“ (Kniffka 1990b: 439) vorliegt. Mit der Rolle von linguistischer Expertise und Linguist/inn/en als Gutachter/inn/en vor Gericht befasst sich außer Kniffka (1981) u. a. Fobbe (2011: 233–249) sehr ausführlich.

Durch die in den letzten Jahren immer weiter ins Licht der Öffentlichkeit rückende Internetkriminalität, wie Online-Betrugsfälle (sogenannten Frauds), damit einhergehende Erpressungsversuche etc., drängt sich für forensisch linguistische Untersuchungen die folgende Frage auf: Ist es möglich, die Aufmerksamkeit bzw. das Bewusstsein (Awareness) von Internetnutzer/inn/en zu erhöhen, indem auf Gefahren im Internet stärker aufmerksam gemacht wird? Dern (2009: 201) fordert: „Auch muss in stärkerem Maße Sensibilität für die Komplexität der Sprache einerseits, ihre Bedeutung in fast allen alltäglichen Lebensbereichen andererseits geschaffen werden.“ Welchen Beitrag für die IT-Security Awareness kann die Linguistik, insbesondere die forensische Linguistik und hier im Speziellen die Autorenerkennung leisten?

Welche Rolle spielt das metasprachliche Bewusstsein sowohl beim Verfassen als auch bei der Rezeption von inkriminierten Texten? Lassen sich Methoden der klassischen Autorenerkennung auf Alltagsprobleme im Internet, wie beispielsweise Manipulation von Nutzer/innen in Internetforen, der Verbreitung von Desinformation etc. übertragen? Welche Verstellungsstrategien gibt es, welche Parameter liegen ihnen zugrunde und wie lassen sie sich voneinander abgrenzen? Ist es Nicht-Linguist/inn/en möglich, für derlei Strategien ein Bewusstsein zu entwickeln, um sich selbst besser vor Gefahren im Internet und anderen medialen Umgebungen schützen zu können?

Welchen Stellenwert hat die KI-basierte Automatisierung von Textvergleichen und welche Rolle kann sie in der Zukunft, beispielsweise für die Früherkennung von Frauds, Hatespeech, Fake News, Fake-Rezensionen, Online-Mobbing usw. einnehmen? Welche Veränderungen bringt die technische Unterstützung für die klassische Autorenerkennung mit sich und wie kann sie weiterentwickelt und bestmöglich in Forschung und Praxis genutzt werden?

Das sind sehr weitreichende sowie komplexe Fragestellungen und Themengebiete, deren sich die vorliegende Arbeit annehmen wird. Dabei wird keinerlei Anspruch auf eine vollständige Beantwortung dieser Fragen erhoben. Vielmehr sollen vor allem neue Denkanstöße für die Erforschung von Verstellungsstrategien in Texten in multimedialen Umgebungen und einen interdisziplinären Forschungskomplex zwischen Linguistik, Rechtswissenschaften, Informationssicherheit und Entwicklung künstlicher Intelligenz hervorgebracht werden.

3Forschungsüberblick und Anwendungsbereiche

Im Folgenden soll ein Forschungsüberblick einen Einblick in die Mannigfaltigkeit forensisch-linguistischer Forschung geben. Dabei liegt der Fokus auf der Autorenerkennung bzw. Autorschaftserkennung1 und ihrer Anwendungsbereiche.

Der Begriff Forensic Linguistics wurde 1968 von Jan Svartvik (Svartvik 1968) geprägt. Analog dazu hat sich im deutschsprachigen Raum die Bezeichnung Forensische Linguistik durchgesetzt. Fobbe gibt mit Verweis auf Kniffka (1990: 1ff.) die folgende Definition: „Forensische Linguistik ist ein Teilbereich der Linguistik, der die linguistische Analyse solcher sprachlichen Daten (einschließlich ihrer Präsentation vor Gericht) umfasst, die Gegenstand juristischer Betrachtung sind.“ (Fobbe 2011: 16) In Deutschland fand die forensische Linguistik insbesondere in den 70er Jahren mehr Beachtung, als das Bundeskriminalamt (BKA) die Briefe der Rote Armee Fraktion (RAF) analysierte. Anhand der Analysen versuchte man, Hinweise auf die Entführer Hanns Martin Schleyers und dessen Aufenthaltsort herauszufinden.

Sprachwissenschaftliche Lexika beschreiben die forensische Linguistik als „Umsetzung computergestützter Text- und Sprachvergleiche für gerichtsverwertbare Ergebnisse bei der Entschlüsselung von Drohbriefen, erpresserischen Anrufen [!] oder Bekennerschreiben, z. B. Attentaten“ (Bußmann 2008: 195) und als „Anwendung quantitativer Methoden der Sprachstatistik und philolog.-hermeneut. Interpretationsverfahren in der Kriminalistik v. a. zur Identifizierung von Sprechern durch Stimmanalysen bzw. zum Nachweis von Autorschaften bei geschriebenen Texten z. B. bei Erpresserschreiben, Bekennerbriefen nach Attentaten, anonymen Verleumdungen u.dgl. […]“ (Glück 2005: 195).

Forensische Linguistik ist im Grunde ein Überbegriff für viele verschiedene Forschungszweige und Betätigungsfelder. „Forensic linguistics covers a wide range of topics, including the language used in trials by judges, lawyers and witnesses; the language of the law itself; the language used in civil causes; and the language used in criminal cases.“ (Shuy 2007: 101). Schall (2004: 545, vgl. auch die Übersicht von Grewendorf 1992) nennt in ihrer kurzen Einführung beispielhaft folgende Teildisziplinen: „Analyse des Sprachverhaltens vor Gericht“, „Analyse der Gesetzessprache“ sowie „die Analyse von in Warenzeichen verwendeter Sprache“ und beschreibt die Autorenerkennung als „Herzstück der FL2“ (Schall 2004: 556).

Im angloamerikanischen Raum gibt es einige Einführungen zur forensischen Linguistik, wie beispielsweise McMenamin (2002), Olsson (2004), Gibbons (2005) und Shuy (2006).

Im deutschsprachigen Raum ist Kniffka (1981) der Wegbereiter für eine wissenschaftliche Auseinandersetzung mit der Forensischen Linguistik. In seinem Aufsatz beschreibt er die Aufgaben von linguistischen Sachverständigen bei Gericht. Neun Jahre später legt Kniffka einen Sammelband (Kniffka 1990, darin enthalten Kniffka 1990a, 1990b, und 1990c) vor, in dem er Erfahrungen aus seiner Tätigkeit als Gutachter und bisherige Forschungsergebnisse zusammenführt, um die forensische Linguistik einem größeren Publikum zugänglich zu machen. Der Sammelband von Grewendorf (1992) konzentriert sich auf den Zusammenhang von Sprache und Recht, der für die Praxis unmittelbare Bedeutung hat. Erpresserbriefe und Drohbriefe untersucht und analysiert Artmann (1996) in seiner Dissertation. Kniffka (2000) untersucht, ob Autorschaftsanalyse ohne Vergleichsdaten möglich ist und kommt dabei zu dem Schluss, dass diese Frage sehr fallspezifisch zu beantworten sei, dass es jedoch in einigen Konstellationen möglich ist. Bei der dargestellten Analyse ergeben sich verschiedene Konstellationen möglicherweise involvierter Personen(gruppen) unterschiedlicher Herkunft sowie verschiedene Verstellungsstrategien, die Kniffka (2000: 186) in einer Übersicht wiedergegeben hat.

Da die forensische Linguistik eng mit verschiedenen Bereichen wissenschaftlicher Praxis verbunden ist, wird ihr im grundlegenden Einführungsband zur Angewandten Linguistik (Knapp 2004) ein eigenes Kapitel (Schall 2004: 544ff.) gewidmet. Den Aufgaben und Forschungsbereichen speziell in Deutschland hat sich Kniffka (2007) in einer weiteren Monographie angenommen. Um diese Perspektive einer möglichst breiten Leserschaft zugänglich zu machen, liegt die Arbeit in englischer Sprache vor.

Grundlegend für einen Überblick der Forensischen Linguistik im Allgemeinen und der Autorenerkennung insbesondere im deutschsprachigen Raum sind, außer der bereits genannten kurzen Einführung von Schall (2004), die Einführungsbände von Dern (2009) und Fobbe (2011). Während sich Derns Einführung eher an eine, aus linguistischer Sicht, fachfremde Leserschaft und Kriminalist/inn/en wendet, bietet Fobbes Band für Linguist/inn/en grundlegende sowie tiefgreifende Einblicke in verschiedene Forschungsbereiche und Zusammenhänge der forensischen Linguistik. Einen aktuellen Überblick zur Autorschaftsanalyse bietet Ehrhardt (2018), die hier auch neuere Forschungsergebnisse berücksichtigt. Weiterhin sei für einen allgemeinen Überblick noch die Internetseite „Forensische Linguistik“ genannt, die von Eilika Fobbe betrieben wird.3

Die forensische Linguistik beschäftigt sich mit einer Vielzahl unterschiedlicher Texte und Textsorten. Ein Text ist eine aus Wörtern bestehende kommunikative Einheit, die die Merkmale Kohäsion, Kohärenz, Intentionalität, Akzeptabilität, Informativität, Situationalität und Intertextualität besitzt (de Beaugrande/Dressler: 1981). In der Textlinguistik werden außerdem verschiedenen Textsorten unterschieden. Für die forensische Linguistik bzw. Autorschaftsanalyse liegen Textsorten wie Erpresser- und Drohschreiben, Abschiedsbriefe etc. im Fokus des Interesses. Ehrhardt (2018: 181 und 190) verweist auf die Wichtigkeit des Wissens um Textmuster und Textsorten bei der Beschäftigung mit forensischer Linguistik und den Einfluss, den sie auf die Verwendung sprachlicher Merkmale und die Analyse dieser Merkmale haben können. So muss zwischen Merkmalen unterschieden werden, die textsortenbedingt sind und solchen, die Schreibpräferenzen einer/eines Autorin/Autors darstellen.

Es sind Forschungsarbeiten zu einzelnen Textsorten veröffentlicht worden, wie z. B. zu Erpresserbriefen (u. a. Artmann 1996, Brinker 2002, Busch 2006, Dern 2009, insbesondere 141–191, Seifert 2010, Fobbe 2011, insbesondere 159–164), Abschiedsbriefen (u. a. Leenaars 1988, Ammon 1994, Olsson 2004: 159–164, Sanger/MacCarthy Veach 2008, Shapero 2011, auch Fobbe 2011: 100–105) und Mikrologging wie SMS, E-Mail etc. (u. a. Sousa-Silva/ Laboreiro/ Sarmento/ Grant/ Oliveira/ Maia 2011, Grant 2013, Ishihara 2014).

Private Institute übernehmen in Deutschland einen großen Teil der Arbeit, die verschiedene Bereiche der forensischen Linguistik betreffen (vgl. Glück 2005: 195). In diesem Zusammenhang ist auf die Veröffentlichung von Drommel (2016) hinzuweisen, die Aufsätze und weitere Texte seit 1987 sammelt und eine Reihe von Fallstudien bietet. Drommels wissenschaftliche Arbeit ist durch seine Tätigkeit eher im privatwirtschaftlichen Bereich anzusiedeln. Seine Texte sind in der Forschungsdiskussion vielfach kritisiert worden. U.a. gab es eine kontroverse Debatte um den von ihm vorgeschlagenen „linguistischen Fingerabdruck“. Auf diese Thematik wird in Kapitel 6.2 eingegangen. Drommel (2016: 83ff.) knüpft Analysen der RAF-Sprache an die Textlinguistik mit den Ebenen Kohäsion, Kohärenz, Intentionalität, Akzeptabilität, Informativität, Situationalität und Intertextualität. Er erklärt die Verbindung von Textlinguistik mit der forensischen Linguistik und nennt die Kommunikationsabsicht bzw. -strategie der RAF-Autor/inn/en als wichtige Untersuchungsbereiche für die Autorenerkennung und deren Bedeutung für die Strafverfolgung und Rechtsprechung.

Drommels teils kontrovers aufgenommenen Texte und die Forschungsdiskussion darum werden hier mit der nötigen wissenschaftlichen Distanz behandelt. Es erscheint jedoch in jedem Fall lohnend, sich mit seinen Aufsätzen zu befassen, da sie einige interessante Zahlen und Fakten aus dem Bereich der Privatwirtschaft bieten und Einblicke in die Verbindung dieser mit der forensischen Linguistik gewähren.

Da sich die vorliegende Arbeit insbesondere mit verschiedenen Verstellungsstrategien und deren unterschiedlichen Ausprägungen befasst, sei hier auch die Monographie von Bredthauer (2013) genannt, die eine Analyse von Verstellungen in inkriminierten Schreiben vorlegt. Weitere Forschungsarbeiten für den deutschsprachigen Raum zu der Thematik Verstellungsstrategien sind u. a. Fobbe (2006) zum Foreigner Talk, Ehrhardt (2007a) und Schall (2008) zur Verschleierung („Disguise“ bzw. „Verbergen“) der eigenen Identität sowie Seifert (2010) zu verschiedenen Verstellungs- und Imitationsstrategien. Dern (2008, 2009: 82–90) bietet Experimente zu Verstellungsstrategien und Fallbeispiele (insb. wegweisend ist 2009: 112–118) sowie thematische Vorüberlegungen und Übersichten (2009: 78–82).

Die Autorenerkennung ist eine linguistische Disziplin, die ebenfalls juristische Fachbereiche berührt. Ihre spezifische Zielsetzung ist die Analyse von anonymen bzw. in ihrer Entstehung fragwürdigen Texten. Dern (2009: 19) beschreibt die Autorenerkennung als „linguistische Bewertung fraglicher schriftsprachlicher Texte in forensischen, kriminalistischen oder in sonst einer Form sicherheitsrelevanten Kontexten“. Es besteht eine bewusste Analogie der Termini Autorenerkennung und Sprechererkennung, wobei die Schwesterdisziplin Sprechererkennung die gesprochene Sprache in vergleichbaren Kontexten behandelt (vgl. u. a. Gfroerer 2006 und Künzel 1987). Die Autorenerkennung ist allerdings eine jüngere Disziplin als die Sprechererkennung, weshalb sie bisher über keine standardisierte Methode verfügt, die allgemeine Gültigkeit hat. „Eine standardisierte Methode, wie sie mit Einschränkungen im Bereich der Sprechererkennung gegeben ist (Künzel 1987), existiert im Bereich der Autorenerkennung nicht.“ (Dern 2003: 51)

Bei der Autorenerkennung der Kriminaltechnik des Bundeskriminalamtes werden inkriminierte Schreiben wie Erpressung, Bedrohung und andere Texte wie Bekennerschreiben, die im Zusammenhang mit weiteren Kapitalverbrechen wie Mord, Raub, Vergewaltigung etc. stehen, auf ihre Autorschaft untersucht.

Delikttypen, zu denen häufig vom BKA Texte bearbeitet werden, sind nach Informationen aus der Zusammenarbeit von BKA (insb. Sabine Ehrhardt) und Forscher/innen der Ruhr-Universität Bochum im Rahmen der SecHuman-Forschungsgruppe „Sprachliche Imitations- und Verschleierungsstrategien“:

1.

Tötungsdelikte

a.

Mord(versuch)

b.

Totschlag

2.

Staatsschutzdelikte

a.

Bildung terroristischer Vereinigung

b.

Herbeiführen einer Sprengstoffexplosion

c.

Bedrohung

d.

Volksverhetzung

e.

Verwendung verfassungsfeindlicher Symbole

3.

(Schwerer) sexueller Missbrauch

a.

von Kindern

b.

von Jugendlichen

c.

Sexuelle Nötigung / Vergewaltigung

4.

Erpressung

a.

Versuchte Erpressung

b.

Erpresserischer Menschenraub

Eher seltener bearbeitet werden Texte, die mit diesen Delikttypen in Verbindung stehen:

5.

Industriespionage

6.

Geheimdienstliche Agententätigkeit

7.

Betäubungsmittel in nicht-geringen Mengen

8.

Brandstiftung

9.

Nachstellung

Schall (2004: 551) bietet eine Übersicht zur Häufigkeit von Delikttypen, bei der als Quelle „BKA, KT 54-Autorenerkennung“ genannt wird. Aus dieser geht hervor, dass Erpressung der mit Abstand häufigste Delikttyp ist, der von der Autorenerkennung des BKA bearbeitet wird. Im Besonderen sind „Erpressungen von Lebensmittelherstellern und Großhandelsketten“ (Schall 2004: 544) die Deliktsorte, mit der das BKA am häufigsten beauftragt ist. In der Tabelle (Schall 2004: 551) folgen Bedrohung, Terrorismus/Extremismus, Sonstige, Volksverhetzung, Beleidigung/üble Nachrede, Sprengstoff/Brand und dann Tötungsdelikte.

Im Bereich der Privatwirtschaft findet die Autorenerkennung ebenfalls Anwendung. Der Linguistenverband Deutschland (LVD) beschäftigt sich seit den 1980ern mit sprachlichen Fällen von Mobbing und Erpressung. Dabei unterscheidet der Verband folgende Delikttypen:

Delikttypen in der LVD-Statistik in der Rangfolge nach Häufigkeit (vgl. Drommel 2016: 105–106):

Klassisches Business-Mobbing

Interne Beleidigung/üble Nachrede/Verleumdung (§§ 185ff. StGB)

Falsche Anschuldigung (§ 164 StGB)

Bedrohung (§ 241 StGB)

Öffentliche Verleumdung/Bedrohung (§ 187, 188, Abs. 2 StGB)

Erpressung (§ 253 StGB)

Verrat von Betriebsgeheimnissen (§ 120 Betriebsverfassungsgesetz)

Werks- und Wirtschaftsspionage

Die größte Zunahme innerhalb des untersuchten Zeitraums erfährt der Delikttyp Business-Mobbing, bei dem in den Jahren 1980–1984 insgesamt 128 Fälle, im Zeitraum 1995–1999 schon 243 Fälle festgestellt wurden. Die Zahl hat sich also fast verdoppelt. Eine weitere Auffälligkeit ist bei den Delikttypen öffentliche Verleumdung/Bedrohung und Erpressung festzustellen, bei denen ein großer Anteil der Täter/innen als sogenannte „Innentäter/innen“ identifiziert werden. In den Jahren 1995–1999 waren 53 Täter/innen Außentäter/innen (also Externe) und 95 Ex-Mitarbeiter/innen. Dagegen fällt ein riesiger Anteil der Delikte auf Innentäter/innen, also aktuelle Mitarbeiter/innen von Unternehmen. Mit 369 festgestellten Delikten sind das mehr als doppelt so viele wie in den beiden anderen Kategorien zusammen. (vgl. Drommel 2016: 106–110).

Drommel (2016: 8), der nach eigener Aussage über 1000 Fälle in fast 30 Jahren (Stand 2016) bearbeitet hat, nennt u. a. „Firmenmobbing, Betrug, Erpressung, Entführungsfälle, Werks- und Wirtschaftsspionage, Verrat von Betriebsgeheimnissen, Verleumdung, falsche Anschuldigungen, Dokumentenfälschung, Cybermobbing, terroristische Bekennerschreiben sowie Abschiedsbriefe von Selbstmördern“ (Drommel 2016: 21) als weitere Betätigungsfelder aus dem privatwirtschaftlichen Bereich. Außerdem werden forensische Linguist/inn/en mit Echtheitsprüfungen von Testamenten und Tagebüchern sowie mit der Beurteilung von Verhörprotokollen und Bekennerschreiben beauftragt (vgl. Drommel 2016: 21).

Weitere Gegenstandsbereiche der Autorenerkennung sind, gerade im Zusammenhang mit IT-Security, Cybermobbing (vgl. hierzu auch Marx 2019), das Vortäuschen falscher und mehrerer Identitäten (z. B. in Online-Foren), Hatespeech (vgl. hierzu u. a. Marx 2018), Fake-Rezensionen, die Verbreitung von Desinformation durch Fake News etc. Außerdem kann die forensische Linguistik bei allen Bereichen des Social Engineerings, die sprachlicher Natur sind (und das sind die meisten), wichtige Beiträge leisten. Bei Online-Betrugsfällen wie Frauds und Scams, Spear-Phishing4, Phishing5, der Erkennung von Social Bots etc. stellen sich ebenfalls Fragen nach der Urheberschaft von Texten, die nicht selten strafrechtlich relevant sind. Die Ergebnisse der Autorenerkennung können ein vor Gericht verwertbares Gutachten, eine Stellungnahme bzw. ein formloser Hinweis an die Polizei, Ermittlungsbeamte, Sicherheitsexperten usw. (vgl. Dern 2009: 20) oder im privatwirtschaftlichen Bereich ein internes Gutachten sein.

Ferner lassen sich aus Gutachten und Stellungnahmen z. B. im Bereich der Informationssicherheit Sicherheitspolicen ableiten, wie die Mitarbeiter/innen eines Unternehmens oder einer Behörde mit erhaltenen E-Mails und weiteren Medien innerhalb ihres Arbeitsfeldes umzugehen haben und welche Gefahren sich aus dem breiten Feld unbekannter Autorschaft ergeben. Analog zur IT-Security-Awareness schlage ich die Bezeichnung Linguistic Awareness vor. Der Begriff, übersetzbar mit Linguistisches bzw. Sprachliches Bewusstsein, hat mit der Annahme zu tun, dass Leser/innen bzw. Sprecher/innen so geschult werden können, dass sie ein größeres sprachliches Sicherheitsbewusstsein für Gefahren im IT-Bereich entwickeln können.

Für forensischen Linguist/inn/en ergibt sich bei der Autorschaftsanalyse bzw. Autorenerkennung ein sehr heterogenes Aufgabenfeld, das Dern (2009) so beschreibt:

„Autorenerkennung manifestiert sich in einer Vielzahl unterschiedlichster Ausprägungen zwischen den Polen des sehr spezifischen Auftrags wie z. B. dem der Klärung der Frage, ob eine bestimmte Person einen bestimmten Text verfasst haben könnte oder aber nicht, und des äußerst vagen Auftrags der nicht weiter spezifizierten Bewertung eines fraglichen Schreibens im Hinblick auf die Erarbeitung möglicherweise ermittlungsrelevanter Hinweise.“ (Dern 2009: 20)

Obwohl die Justiz nicht in allen der oben genannten Fälle eine Rolle spielt, ist die forensische Linguistik Teil des Arbeitsgebiets Sprache und Recht. Die Prüfung, ob Gesetzestexte, Produktwarnungen etc. für Laien verständlich bzw. eindeutig sind, die Prüfung der Authentizität von Vernehmungsprotokollen, die Prüfung, ob ein Plagiat z. B. bei Produktnamen vorliegt usw., gehören in dieses Arbeitsgebiet (vgl. Dern 2009: 17–18) Einen umfangreichen Überblick zu dem Arbeitsgebiet Sprache und Recht bieten Rathert (2006), Grewendorf (1992) und Kniffka (1990a). Für den anglo-amerikanischen Raum, in dem man von Language and Law spricht, bieten sich für eine Übersicht insbesondere Coulthard/Johnson (2010a), Coulthard/Johnson (2010b), Olsen et al. (2008), Rathert (2006), Shuy (2006), Solan/Tiersma (2005), Gibbons (2005), Lerch (2004/2005), Olsson (2004), Haß-Zumkehr (2002), Cotterill (2002), McMenamin (2002), Shuy (1998), Gibbons (1994), Levi (1994a und 1994b), Grewendorf (1992) sowie Levi/Walker (1990) an.

In der Forschung und Praxis gestaltet sich die Arbeit für forensische Linguist/inn/en sehr vielfältig. Aufgrund der Mannigfaltigkeit der Forschungs- und Anwendungsbereiche ist eine breit aufgestellte linguistische sowie interdisziplinäre Betrachtung stets vorteilhaft und in einigen Fällen unabdingbar.

4Weitere relevante Forschungsdisziplinen

Die forensische Linguistik und dabei insbesondere die Autorenerkennung betrifft verschiedene linguistische Forschungsbereiche und berührt aufgrund ihrer praxisnahen Ausrichtung auch weitere Forschungsfelder. Kniffka in einer recht frühen Untersuchung (Kniffka 1990b: 448) zu dem Schluss, dass eine „möglichst breite und interdisziplinäre Perspektive unbedingt notwendig und sinnvoll ist“. Grundsätzlich berührt die Autorschaftsanalyse linguistische Betrachtungsebenen wie Orthographie, Syntax, Morphologie, Lexik etc. Ebenfalls werden Fragen von Semantik und Pragmatik aufgeworfen, wie beispielsweise die Bedeutung von Lügen sowie die Abgrenzung zu ‚verwandten‘ sprachlichen Phänomenen.

Einige weitere linguistische und nicht-linguistische Forschungsbereiche, die für diese Arbeit von entscheidender Bedeutung sind, sollen hier kurz vorgestellt werden. Dabei wird für jede Forschungsdisziplin auch eine Auswahl von Literaturhinweisen gegeben, die einen kleinen Teil der im Rahmen dieser Arbeit verwendeten Literatur darstellt. Auf entscheidende Impulse aus diesen Forschungsbereichen für die Autorenerkennung und die Erforschung von Verstellungsstrategien wird genauer in den betreffenden Kapiteln und einzelnen empirischen Analysen eingegangen.

4.1Sozio- und Varietätenlinguistik

Bei der Autorenerkennung stehen Autor/inn/en von Texten im Fokus. Sowohl bei der Textanalyse als auch beim Textvergleich versucht man, sehr vereinfacht gesagt, anhand bestimmter Merkmale (bzw. Merkmalbündel oder Merkmalsets) sowie weiterer Faktoren auf die Autorschaft zu schließen. Daher sind soziolinguistische und varietätenlinguistische Überlegungen und Methoden essenziell für Analysen. In der „Sprachwirklichkeit“ (Löffler 2016: 79) kommen unzählige sprachliche Phänomene vor. Diese müssen für eine analytische Betrachtung auf eine abstrakte Ebene gebracht werden, um sie so zu systematisieren und ggfs. zu Varietäten, also auf sprachliche Gemeinsamkeiten beruhende Ausprägung einer Sprache, zusammenzufassen. Sprecher/innen und Schreiber/innen verfügen über verschiedene aktive bzw. passive sprachliche Kompetenzen diverser Varietäten, nämlich die innere Mehrsprachigkeit1. Darunter fallen u. a. größere Dialekte wie Westfälisch, Hessisch oder Ostfränkisch. Dialekte sind, im Gegensatz zu den kleineren, untergeordneten Regiolekten weiter von der Standardsprache, hier also dem Standarddeutschen, entfernt. Das bedeutet, dass Dialekte mehr sprachliche Merkmale beinhalten, die von dem Standarddeutschen abweichen, als Regiolekte wie z. B. das Ruhrdeutsche. Als untergeordnete Varietät teilt sich das Ruhrdeutsche einen gemeinsamen Raum wie ein Teil des Westfälischen. Außer Dialekten oder Regiolekten können Sprecher/innen auch Kompetenzen in Soziolekten wie z. B. jugendsprachlichen Varietäten haben. Das bedeutet, dass eine einzelne Sprecherin je nach Situation dialektal, regiolektal oder soziolektal bedingte Merkmale verwenden kann. Diese können teilweise deckungsgleich sein. Außerdem können Merkmale verschiedener Varietäten zusammen auftreten, da es keine klaren Trennlinien gibt und sich Personen in ihrem Sprachgebrauch in einem komplexen Varietätenspektrum bewegen (vgl. Girnth 2007). Für die Autorschaftsanalyse ist insbesondere bedeutsam, dass alle Varietäten Auswirkungen auf den schriftsprachlichen Gebrauch einer Person haben können.

Die Standardsprache überdacht wiederum alle Varietäten. Sie hat die größte kommunikative Reichweite, da das Standarddeutsche im gesamten DACH2-Raum und teilweise darüber hinaus von den meisten Personen verstanden wird. Die Grammatik und Orthographie des Standards sind vereinheitlicht, normiert und haben dadurch eine überregionale Gültigkeit. Die Normiertheit der deutschen Schriftsprache wird durch die allgemeine Schulpflicht und teilweise durch überregionale Medien mit Vorbildcharakter, wie beispielsweise Tageszeitungen, erreicht. Die Standardsprache zeichnet sich im Gegensatz zu Varietäten wie Dialekten durch das Fehlen von salienten, also auffälligen sprachlichen Merkmalen aus. Die Standardsprache lässt im Gegensatz zu o. g. Varietäten weniger Varianten zu.

Die Normierung ist insbesondere im Bereich der Schriftsprache geregelt und bei offiziellen Texten, wie behördlichen Schreiben, ist die Einhaltung des amtlichen Regelwerks3 für deutsche Rechtschreibung obligatorisch. Hier ist die „geltende Norm der deutschen Schreibung“ festgelegt. Für viele Personen hat der Duden den Charakter eines allgemein gültigen Regelwerks. Das ist jedoch nicht der Fall, da in verschiedenen Duden-Ausgaben ausschließlich Empfehlungen für Rechtschreibung, Grammatik und Stilistik gegeben werden. Außerdem verstehen viele Leute unter dem Duden nur den Rechtschreib-Duden, nicht aber die anderen Bände wie den Grammatik- oder Zweifelsfall-Duden.

Als Einführungen für die Varietätenlinguistik seien hier Löffler (2016), Felder (2016), Sinner (2014), Knöbl (2012), Girnth (2007) und Veith (2005) genannt. Eine systematische Herangehensweise an Varietäten bietet ein vierdimensionales Modell bei Becker/Hundt (1998), das folgende „Determinanten“ berücksichtigt:

„(i)

die kommunikative Reichweite (diatopische Dimension)

(ii)

die soziale Gruppe der Sprechenden4 (diastratische Dimension)

(iii)

die kommunikative Funktion (diasituative Dimension)

(iv)

der historische Zeitpunkt (diachronische Dimension).“ (Becker/Hundt 1998: 124)

Varietät ist von Register abzugrenzen, vgl. hier Felder (2016: 43–51, insbesondere 50f.). Als sprachliche Register werden verschiedene Sprachlagen verstanden, die eine Person beherrscht. Die Wahl und der Gebrauch eines bestimmten Registers werden von außersprachlichen Umständen wie Situation, Ort, Konstellation der Kommunikationsteilnehmer/innen usw. bestimmt (vgl. Halliday 1978: 110f.). Verschiedene sprachliche Register und situatives Sprechen werden unter der „diaphasische[n] Dimension“ (Girnth 2007: 189) erfasst.

Für die Autorenerkennung bedeutsam ist insbesondere die Analyse von Merkmalen und deren Interpretation. Dabei können Merkmale und insbesondere deren gemeinsames Auftreten als Merkmalsets varietätenbedingt sein, denn eine „Varietät ist eine im Sprecherwissen verankerte Zusammenziehung von Variantenbündeln zu einer übergreifenden, in sich relativ abgeschlossenen Einheit“. (Lüdtke/Mattheier 2005: 15, siehe auch Coseriu 1988)

4.2Linguistische Semantik und Pragmatik

Obwohl bereits erwähnt wurde, dass bei der Autorenerkennung auch pragmatische Gesichtspunkte eine Rolle spielen, soll hier kurz auf einige wichtige Themenfelder eingegangen werden. Verstellungsstrategien sind verwandt mit Lügen, da beide dem Kooperationsprinzip (Grice 1975: 45–46) widersprechen. Die Erforschung von Lügen, Täuschungen und ähnlichen Sprachphänomenen wie Ironie oder Sarkasmus, die mit Stilmitteln wie Metaphern oder Hyperbeln dargestellt werden können, fällt in die Schnittstelle zwischen Semantik und Pragmatik. Für einen Einblick in diesen Forschungsbereich sind Finkbeiner (2015) und Meibauer (2015) zu nennen. Lackey (2013: 241) beschäftigt sich u. a. mit den Unterschieden zwischen dem „Verbergen von Informationen (deception)“ und dem „Erwecken eines falschen Glaubens (deceit)“. Verschiedene Verstellungsstrategien berühren entweder einen oder beide Aspekte von Unwahrheiten bzw. Lügen. Sprachliche Verstellungsstrategien können als bestimmte Varianten des Lügens analysiert werden. Durch die schriftsprachliche Fixierung und der damit verbundenen Planbarkeit haben Verstellungsstrategien bestimmte Eigenschaften und Möglichkeiten, die in Kapitel 15 dargelegt werden. Die Verschleierung der eigenen schriftsprachlichen Kompetenz oder die Imitation der Sprache einer Person oder Personengruppe unterliegen bestimmten Parametern, die in Kapitel 15.6 besprochen werden.

4.3Sprachkontaktforschung

Die Vortäuschung bzw. Imitation von Nicht-Muttersprachlichkeit ist eine häufig gewählte Verstellungsstrategie beim Verfassen inkriminierter Schreiben. Dabei spielt die Abgrenzung von Sprachkontaktphänomenen wie Code-Switching (u. a. Clyne 2003), -Shifting (u. a. Auer 1998) und -Mixing (u. a. Muysken 2000) eine Rolle. Abzugrenzen davon sind Foreigner Talk bzw. Xenolekt (u. a. Bechert/Wildgen 1991: 58). Einige Muttersprachler/innen verwenden gegenüber Nicht-Muttersprachler/innen eine stark vereinfachte, reduzierte Sprache, die der einfacheren Verständigung dienen soll, jedoch in vielen Situationen das Gegenteil bewirkt. Riehl (2014: 129) beschreibt, dass alle sprachlichen Ebenen von der Vereinfachung der Sprache, die Xenolekt mit sich bringt, betroffen sein können. Auch Merkmale des „tertiären Ethnolekts“ (Auer 2003) und ihre mediale Präsenz als Sprachphänomene wie „Türkendeutsch“, „Kanak-Sprak“ usw. (Neuland 2008: 158) sind bei der Analyse fingierter Texte zu beachten. Beim Gebrauch des tertiären Ethnolekts dient die Sprechweise von nicht-muttersprachlichen Personen als Vorbild, ohne dass die Sprecher/innen Kontakt zu der ethnischen Minderheit haben, die diese Sprechweise originär verwenden (primärer Ethnolekt). Da die wenigsten Schreiber/innen inkriminierter Texte über ausreichend Sprachbewusstsein verfügen, um Merkmale echter Sprachkontaktphänomene zu berücksichtigen, greifen viele auf medial verbreitete Formen zurück. Die so produzierten sprachlichen Merkmale bieten wichtige Hinweise auf Verstellungsstrategien wie z. B. die Imitation des sprachlichen Stils einer nicht-muttersprachlichen Person. Die Imitation von Nicht-Muttersprachlichkeit wird in Kapitel 15.7 thematisiert.

4.4Medienlinguistik und Online-Kommunikation

Im Rahmen der vorliegenden Arbeit werden Texte aus verschiedenen Medien und Submedien behandelt. Verschiedene Medien unterliegen spezifischen Möglichkeiten und Beschränkungen, die bei der Analyse beachtet werden sollten (u. a. Marx/Weidacher 2014). Medien besitzen trotz vieler Unterschiede, ebenfalls eine ganze Reihe von Gemeinsamkeiten (u. a. Schneider 2017: 37), die Vergleiche untereinander erlauben. Für die Betrachtung von Online-Rezensionen und Texten, die in Online-Foren hochgeladen werden, sind die Rahmenbedingungen der „internetbasierten Kommunikation“ (Beißwenger 2016) und der Chatkommunikation (u. a. Dürscheid 2016) zu beachten. Eine umfassende Einführung in die Medienlinguistik bietet Schmitz (2015).

Viele inkriminierte Schreiben bzw. Texte, die mit Straftaten, Ordnungswidrigkeiten und insbesondere Verstellungsstrategien der Nutzer/innen im Zusammenhang stehen, finden im Bereich der Online-Kommunikation statt. Auch diese Arbeit befasst sich, insbesondere im Bereich der Verschleierung der Identität in Online-Foren, mit Besonderheiten des Sprachgebrauchs im Internet, vgl. Kapitel 11. Eine gute Übersicht über „internetbasierte Kommunikation“ bietet Beißwenger (2016) und zur Syntax im Speziellen liefern Dietterle/Lüdeling/Reznicek (2017) interessante Ansätze. Zur Nähe- bzw. Distanzsprache, die insbesondere bei Erpressertexten eine Rolle spielt, bietet sich eine Beschäftigung mit Dürscheid (2016) an.

In medialen Räumen wie dem Internet entwickeln sich neue sprachliche Regeln wie z. B. in Bereichen der Interpunktion und insbesondere der Stilistik, die bislang noch nicht kodifiziert wurden. Damit verbunden ist in Kommunikationsbereichen wie Online-Foren der Gebrauch bestimmter Fachsprachen. Für die vorliegende Arbeit sind hier fachsprachliche Bereiche der Onlinekommunikation wie Gaming- und Börsensprache zu nennen, die in Kapitel 13 behandelt werden.

4.5Fehlerforschung

Im Bereich der Textanalyse muss für eine wissenschaftlich fundierte Betrachtung die Unterscheidung von Merkmalen, Fehlern und stilistischen Varianten im Bereich der Varietätenlinguistik getroffen werden, was in der Fehlerforschung fokussiert wird. Hierfür bieten sich Siekmann/Thomé (2018) an, die außer aktuellen Ansätzen und Verfahren zur Analyse von Fehlern auch einen weitreichenden diachronen Forschungsüberblick liefern. Insbesondere für die Unterscheidung von (fingierten) Errors, Mistakes (vgl. u. a. Corder 1967 und Dern 2009: 68) und Tippfehlern im Rahmen fingierter Texte spielen neuere Erkenntnisse aus der Fehlerforschung eine wichtige Rolle. Während Performanzfehler bzw. Mistakes solche Fehler darstellen, die die/der Schreiber/in selbst korrigieren kann, sind Kompetenzfehler bzw. Errors solche Fehler, deren sich die/der Autor/in eines Textes nicht bewusst ist. Daher können sie nicht eigenständig korrigiert werden. Fingierte Fehler können nur auf den Ebenen produziert werden, für die die/der Schreiber/in ein ausreichendes sprachliches bzw. metasprachliches Bewusstsein hat. Die einzelnen Ebenen einer Sprache sind unterschiedlich leicht zugänglich. Während im Bereich der Lexik und z. B. bei den Genera von Substantiven oder Flexionsformen häufiger fingierte Fehler produziert werden, ist die Syntax als tief liegender Bereich der Sprache seltener von Manipulationen betroffen. Die Bedeutung der Fehlerforschung für die Autorschaftsanalyse wird in Kapitel 9 beschrieben.

5Textanalysen und Textvergleiche im Bereich Autorschaftsanalyse

Die Autorenerkennung bzw. Autorschaftsanalyse kann in die zwei Forschungs- und Analysebereiche Textanalyse und Textvergleich aufgegliedert werden. Bei der Textanalyse ist das Ziel, anhand eines oder mehrerer Texte Anhaltspunkte über Alter, Geschlecht, Herkunft, Bildungsgrad etc. einer/eines Autorin/Autors zu erhalten. Dahingegen werden beim Textvergleich ein oder mehrere Texte unbekannter Herkunft einem oder mehreren Texten bekannter Autor/inn/en gegenübergestellt. Hier wird anhand der Analyse sprachlicher Merkmale der Grad der Übereinstimmung bestimmt. Insbesondere der Gebrauch spezifischer Merkmalsets (oder Merkmalbündel), also die Kombination verwendeter Merkmale, sowie das wiederholte Auftreten bestimmter Merkmale in bestimmten Zusammenhängen sind signifikant für die Identifizierung einer/eines Autors/Autorin. „Diese Merkmalbündel von Sprachvarianten erscheinen im Kontrast zu anderen systematisch auftretenden Variantenrealisierungen (z. B. zum Standard) als markiert und rechtfertigen die Varietätenabgrenzung.“ (Felder 2016: 9).

Im Folgenden sollen Methoden und Ziele von Textanalysen und -vergleichen vorgestellt werden. Dabei werden auch Konzepte wie die Gesamtpopulation und Arbeitsweisen wie Hypothesenbildung im Rahmen der Autorschaftsanalyse erläutert.

5.1Individuelles Sprachverhalten vs. Gesamtpopulation

Nicht alle von der sprachlichen Norm abweichenden Merkmale sind für Textanalysen und Textvergleichen gleich bedeutsam. Das Herausarbeiten salienter, also aussagekräftiger Merkmale und deren Verbindung zu Merkmalsets steht im Fokus der Forschung und Praxis. Das Auftreten von Merkmalen in Texten einer/eines bestimmten Autorin/Autors gegenüber dem allgemeinen Auftreten, hier Gesamtpopulation genannt, ist von entscheidender Bedeutung für die Erarbeitung von Thesen, die die Autorschaft betreffen.

Kniffka (1981: 595) verweist darauf, dass es nicht um „sprecherspezifische, sondern um individuelle sprecheridentifizierende Merkmale“ und den spezifischen Gebrauch dieser Merkmale (wie z. B. Fehler) im Vergleich zum Gebrauch der Gesamtpopulation, geht.

„Nicht, wie ‚ungewöhnlich‘ ein sprachlicher Ausdruck schlechthin ist, sondern wie konsistent und typisch er für den Sprachgebrauch eines Sprechers als (allgemein) ungewöhnliche sprachliche Handhabung einer Situation auftritt, ist von Interesse.“ (Kniffka 1981: 591f.)

Sprachverhalten wird also durch das wiederholte Auftreten salienter, also aussagekräftiger Merkmale, die in Relation zur Gesamtpopulation selten sind, individuell und damit sprecheridentifizierend.

5.2Unvoreingenommenheit bei Textanalysen und insbesondere Textvergleichen

Wie in allen Wissenschaften ist es für die forensische Linguistik grundlegend wichtig, unvoreingenommen an den Untersuchungsgegenstand heranzugehen. Bei Textanalysen und Textvergleichen ist das von besonderer Bedeutung, damit eine/e Forscher/in sich bei der Analyse, beispielsweise aufgrund des Vorkommens eines bestimmten Merkmals, nicht aufgrund des Ersteindrucks für eine mögliche Hypothese entscheidet. Dabei besteht die Gefahr, dass die/der forensische Linguist/in vor allem Belege für diese Hypothese sucht, und andere Merkmale, die möglicherweise gegen die Hypothese sprechen, übersieht (vgl. u. a. Solan 2010). Dieser Gefahr muss bei der Analyse entgegengesteuert werden, indem man eine Hypothese erst nach vollständiger Analyse aufstellt. Das gilt insbesondere bei der Untersuchung von Texten im Rahmen eines Textvergleichs, die bereits einen maschinellen ‚Analyseprozess‘ durchlaufen haben.

5.3Textanalysen

Bei Textanalysen steht „die Feststellung aussagekräftiger Verhaltensweisen, seien es Fehler oder nicht-fehlerhafte Auffälligkeiten“ im Vordergrund, um „Rückschlüsse auf die Person des Autors oder die Bedingungen der Textproduktion“ zu erhalten (Dern 2009: 34). Kniffka (2000: 185) beschreibt die Hauptaufgaben bei Textanalysen der forensischen Linguistik so: „The main task is an examination of covariation patterns of data of various grammatical, stylistic, orthographic, “phenotypic” (layout, make-up) and other dimensions. “ So können z. B. sowohl Quantität als auch Qualität von Fehlern, sprachlicher Abweichungen und sonstige Merkmale Informationen über die sprachliche Bildung, metasprachliches Bewusstsein und Erfahrung bei der Textproduktion einer/eines Autorin/Autors preisgeben. Außer Fehler und Abweichungen in Bereichen wie Orthographie, Morphologie, Syntax etc. spielen insbesondere verschiedene Varietäten sowie die Analyse der diastratischen, diatopischen und diaphasischen Ebenen eines Textes eine Rolle, um mögliche Aussagen über die Metadaten einer/eines Autorin/Autors treffen zu können. Diese betreffen dann Alter, Herkunft, Bildung, Tätigkeit/Beruf, eventuell auch das Geschlecht usw. Zu bedenken ist aber immer, dass es unterschiedliche Textsorten gibt, die bestimmten Regeln und Regelhaftigkeiten unterworfen sind und dass Schreiber/innen sich dieser bedienen und auch ihren Schreibstil entsprechend anpassen können. So ist es möglich, dass Autor A einen Geschäftsbrief ganz anders formuliert als einen Liebesbrief und sich sein Schreibstil bei den beiden Texten stark unterscheidet, obwohl es sich um den gleichen Autor handelt. Andererseits ist es möglich, dass der Geschäftsbrief von Autorin B stark dem Geschäftsbrief von Autor A ähnelt, obwohl es sich um zwei unterschiedliche Personen handelt. Das ist insbesondere bei Texten der Fall, deren Textsorte stark konventionalisiert ist (vgl. u. a. Dern 2009: 35).

Solche Überlegungen sind insbesondere bei vergleichenden Analysen (Textvergleiche s. u.) bedeutsam. Dennoch sollte die grundsätzliche Problematik auch bei Textanalysen ohne Vergleichsmaterial mitbedacht werden.

Kniffka (2000: 180) beschreibt, dass zumindest Textvergleiche anonymer Schreiben1 gänzlich von dem Umfang und derart der Vergleichsdaten abhängig sind. Er bezieht sich dabei sowohl auf eigene wie auch andere Veröffentlichungen. Anfang des Jahrtausends wird daher die Frage gestellt: „Is it at all possible to do forensic linguistic anonymous authorship analysis successfully without (any) comparison data?“ Da es bei der Textanalyse kein Vergleichsmaterial gibt, wird bei der „Text Analysis“ (Ehrhardt 2013: 68, 2016) oder beim „authorship profiling“ (u. a. Ehrhardt 2018: 174) von einem „single text problem“ (Grant 2008 222, Coulthard/Grant/Kredens 2011: 536f.) bzw. „describ[ing] an author qua author“ (Olsson 2004: 98) gesprochen.

Den besonderen wissenschaftlichen Status bzw. auch das Problem des authorship profilings fassen Coulthard, Grant und Kredens (2011) so zusammen:

„Normal scientific method moves from observation of a large number of examples to a generalization. Profiling involves taking a single example and, by matching it to a well-founded generalization, drawing a conclusion about that instance.“ (Coulthard/Grant/Kredens 2011: 538)

In einer Tabelle fasst Ehrhardt (2018: 175f.) relevante Aspekte der Aufgaben des authorship profilings zusammen. Die groben Kategorien sind „Language classification“, also ob ein/e Autor/in Muttersprachler/in ist oder nicht, „Regional variety“, „Age“, „Linguistic competence, Education, Social background“, „Profession, Special interests“ und „Attitude“. Letzteres meint die Einstellung, den Glauben oder die Sichtweise einer/eines Autorin/Autors, der bzw. die durch die Sprachwahl u. U. deutlich wird. Als Beispiel nennt Ehrhardt das Adjektiv „ungläubig“, das laut ihr heutzutage fast ausschließlich von Leuten mit islamischem Hintergrund genutzt wird, und die Nominalphrase „kapitalistische Verwertungslogik“, die einen linksextremen Hintergrund nahelegt (Ehrhardt 2018: 176).

Durch das Herausarbeiten „sprachlicher[r] Strukturen mit ‚Signalwirkung‘“ (Dern 2009: 67) oder mit Indikatorfunktion (vgl. hierzu Fleischer/Michel/Starke 1996: 43, Baldauf 1999 und Dern 2003) werden Rückschlüsse auf Autor/in und Textproduktionssituation gezogen. Diese Textstrukturen werden als „Befunde“ (u. a. Dern 2009: 67) bezeichnet.

Ziel der Textanalyse ist dann, mithilfe dieser Befunde Autor/innen einzuschätzen, um ggfs. Täterprofile erstellen zu können. Weiterhin können die Analysen dazu beitragen, die Autorenabsicht einschätzen zu können. Mithilfe solcher Informationen lassen sich dann seitens der Kriminalistik verschiedene „Ermittlungsansätze“ bilden. Für die linguistische Analyse wiederum ist folgender Grundsatz entscheidend: „Der Autor soll dabei nicht identifiziert sondern hinsichtlich der folgenden Eckdaten kategorisiert werden“ (Dern 2009: 64ff.). Autor/in A und B treten also nicht als eine bestimmte Person auf, sondern erscheinen durch Parameter verschiedener Kategorien personenbezogener Eigenschaften als Repräsentant/in einer bestimmten Personengruppe! Bei den Eckdaten unterscheidet Dern Muttersprache, Bildung, Ausbildung/Tätigkeit, Erfahrung in der Textproduktion, Altersgruppe, regionale Zugehörigkeit bzw. dialektale Prägung.

Die festgestellten Befunde werden in einem sogenannten Befundprotokoll aufgelistet. Die Befundbewertung und -beschreibung basieren auf Erkenntnissen der Forschung, Korpusanalysen, gegebenenfalls Experimenten (vgl. Dern 2009: 106) und der Erfahrung der/des Forscherin/Forschers.

Bei der Textanalyse und der Auswertung der Befunde ist essenziell, dass die Normabweichungen mit normgerechten Schreiben kontrastiert werden, um feststellen zu können, ob es sich um systematische oder zufällige Abweichungen handelt (vgl. Dern 2009: 67f.). Auf diese Problematik wird in Kapitel 9 eingegangen, in dem Fehlertypen, also z. B. Errors und Mistakes besprochen werden.

5.4Textvergleiche

Die Frage, die sich bei einem Textvergleich stellt, ist, ob ein fraglicher Text von einer/einem oder mehreren fraglichen Autor/inn/en geschrieben wurde. Dafür müssen alle Texte, die bei einem Textvergleich berücksichtigt werden sollen, vorher in einzelnen Textanalysen untersucht werden. Es folgt ein Vergleich der Merkmale und Merkmalsets bzw. Befunde der jeweiligen Texte. Ziel ist, anhand dieser Vergleiche auf diversen sprachlichen Ebenen einen Übereinstimmungsgrad der Texte zu bestimmen. Daraus ergibt sich die Möglichkeit einer Wahrscheinlichkeitsaussage über die Identität bzw. Nichtidentität der Autor/inn/en. Bei Textvergleichen werden i. d. R. anonyme Texte, deren Urheberschaft ungeklärt bzw. unklar ist, mit anderen Texten mit geklärter Autorschaft verglichen. Dabei sind verschiedene Konstellationen möglich, die mit „1:1, 1:N and N:N“ (Ehrhardt 2018: 177) umschrieben werden können. Entweder werden zwei Texte miteinander vergleichen, ein Text wird mit mehreren Texten verglichen, oder mehrere Texte werden mit mehreren Texten vergleichen.

Wenn es bei der Konstellation 1:1 nur einen fraglichen Text, also einen ohne belegte Autorschaft gibt, wird auch von „authorship verification“ (u. a. Potha/Stamatos 2014: 313f.) gesprochen. Koppel/Schler/Argamon (2013: 326) beschreiben die Autorschaftsverifikation als Hauptaufgabe der Autorschaftsanalyse: „Plainly, if we can solve this problem, we can solve the standard attribution problems […] as well as many other authorship attribution problems.“ Es ist ebenfalls eine 1:1-Konstellation ohne Vergleichsmaterial möglich, die „serves the purpose of establishing the basis to combine the investigations of so far unsolved but possibly related cases“ (Ehrhardt 2018: 177). Die Konstellationen 1:N und N:N (Ehrhardt 2018: 177) können bei einem wesentlich erhöhten Schwierigkeitsgrad als Serie von paarweisen Textvergleichen operationalisiert werden. In der Computerlinguistik kann N entweder als Closed Set oder als Open Set behandelt werden.

Die Begriffe Open Set und Closed Set kommen aus der Klassifikationstheorie. Bei der Klassifikation werden einzelne Objekte (für die Autorenerkennung also in der Regel mehrere Texte) anhand bestimmter vorher festgelegter Merkmale einer Klasse (bei der Autorenerkennung also z. B. einer/einem Autor/in) zugeordnet. Für eine Übersicht in linguistischen Kontexten siehe auch Lehmann (1996). Außerdem betreibt Lehmann eine Internetseite zu diesem Thema.1

Bei einem Closed Set-Szenario sind alle möglichen Klassen (also hier Autor/inn/en) vorher festgelegt, d. h., dass sich das System in jeden Fall für eine der vorgegebenen Klassen entscheidet. Das ist auch der Fall, wenn sich das Objekt ggf. nur sehr schlecht einer der Klassen zuordnen lässt. Man denke hier an eine Bilderkennungssoftware, die Bilder entweder der Klasse Hund oder der Klasse Katze zuordnet. Bekommt das Programm nun ein Bild von einer Giraffe, muss es das Bild dennoch als Katze oder als Hund klassifizieren.

Bei einem Open Set-Szenario können zusätzlich zu den festgelegten Klassen noch weitere Klassen zugelassen werden. Wenn ein Objekt nicht richtig in eine festgelegte Klasse passt, dann kann es auch einer unspezifizierten Klasse zugeordnet werden. Nehmen wir das Beispiel mit der Giraffe, dann könnte das System sagen, dass das Bild zu keiner der bisher festgelegten Klassen Hund oder Katze passt. Alle denkbaren Szenarien unterscheiden sich u. a. nach Untersuchungsgegenstand, Zielsetzung und auch insbesondere darin, wie viele und welche Klassen definiert werden. Beispielsweise sind auch Open Set-Szenarien denkbar, in denen es von vornherein nur unspezifizierte Klassen gibt. Problematisch bei solchen Verfahren ist, dass man im Rahmen der Untersuchung zwar eine unspezifizierte Klasse entdecken kann, jedoch dieser Klasse keinen passenden Namen zuordnen kann.

Im Rahmen dieser Arbeit sind diese Informationen ausreichend, um die grundsätzliche Problematik und Unterscheidung zwischen Closed und Open Set-Szenarien zu verstehen. Weiterführende Informationen, insbesondere zu Open-Set-Szenarien, bieten Geng/Huang/Chen (2019).

In Bezug auf die Autorenerkennung geht man also bei einem Closed Set-Szenario davon aus, dass alle möglichen Autor/inn/en bereits bekannt sind, während ein Open Set-Szenario dergestalt ist, dass es außer den bekannten Autor/inn/en noch weitere geben kann, denen ein fraglicher Text zugeordnet werden kann. In der forensischen Linguistik ist die Behandlung als Open Set-Aufgabe vorrangig (Ehrhardt 2018: 177). Dagegen verlangt ein Closed Set-Szenario, wie gezeigt, eine Vorauswahl möglicher Autor/inn/en, was für die forensische Linguistik ein wesentlich selteneres (Ehrhardt 2018: 177), aber auch kein unrealistisches Szenario darstellt, denn: „in many forensic applications the investigators are able to filter out most of the persons in a case and produce a closed-set of suspects“ (Potha/Stamatos 2014: 313). In der Forschungsdiskussion wird deutlich, dass die Herangehensweise im Bestfall von den gegebenen Umständen abhängig gemacht werden sollte, da es wohl keine generell beste Methode gibt, bzw. diese in vielen Szenarien nicht wählbar ist. In jedem Fall ist eine qualitative Herangehensweise, die durch technische Hilfsmittel unterstützt wird, wünschenswert.

Egal welche Methode präferiert wird (falls überhaupt eine Wahl möglich ist), vergleichende linguistische Analysen beginnen mit voneinander unabhängigen Einzelanalysen jedes Textes, der Sammlung von Merkmalen und deren Systematisierung. Die Daten werden dann im Hinblick auf Ähnlichkeiten und Unterschiede untersucht und verglichen. Ehrhardt (2018: 178) nennt außerdem noch die Untersuchung der „typicality for a population of relevant language users“ als Teil der Analyse. Dann werden auf Basis der Analyse Schlussfolgerungen mit Abgleichung der vorformulierten Hypothese gezogen und geprüft.

5.5Wahrscheinlichkeitsaussagen und Nicht-Linearität bei Textvergleichen

Wahrscheinlichkeitsaussagen können bei Textanalysen nur relativ sein. Das bedeutet, dass keine absoluten Aussagen möglich sind, da „Sprache nur indirekt materialisiert ist und nicht physikalischen Gesetzen, sondern sozialen Normen, Regeln und Bewertungen unterliegt“ (Fobbe 2011: 61).

In anderen Wissenschaften wird mit anderen, auf Zahlen basierten Angaben gearbeitet, die beispielsweise auf Prozentangaben basieren. Von außerlinguistischer Seite werden daher auch prozentuale Angaben der Art mit welcher prozentualen Wahrscheinlichkeit handelt es sich bei Sprecher X um den Autoren von Text Y etc. angefragt. Kniffka (2000) erteilt der Möglichkeit prozentualer Angaben eine klare Absage:

„A calculation of these levels in percentage figures is not possible. Language data are not quantifiable in such terms. It should be noted, however, that between the different levels no intervals of equal size exist. The higher the probability level, the smaller the interval.“ (Kniffka 2000: 197)

Dazu merkt Dern (2009: 76) an, dass eine Angabe mit Prozentzahlen auch deswegen abzulehnen sei, da Zahlenwerte nicht per se eine höhere Objektivität bedeuten. Statt prozentualer Angaben wird mit einer bipolaren Skala von verbalen Wahrscheinlichkeitsgraden (Dern 2009: 76 und Kniffka 2000: 197) gearbeitet, die wie folgt aussieht:

mit an Sicherheit grenzender Wahrscheinlichkeit

mit sehr hoher Wahrscheinlichkeit

mit hoher Wahrscheinlichkeit

wahrscheinlich