0,00 €
Magisterarbeit aus dem Jahr 2006 im Fachbereich Didaktik - Informatik, Note: 1, Universität zu Köln, Sprache: Deutsch, Abstract: Mittels der u.a. in JAVA programmierten, barrierefreien Open Source Webapplikation PaGe werden aus Corpora beliebiger UTF8 codierbarer Sprachen, die in eine MySQL Datenbank gespeichert werden, automatisch linguistische Paradigmen ermittelt. Die Methode ist die der strukturellen Semantik, die auf Ferdinand de Saussure zurückgeht. Die Methode, das Programm PaGe und Hintergrund ist in der Arbeit theoretisiert. Die Webapplikation ist erreichbar unter: http://pascal.selfip.org/Paradigmenbildung/
Das E-Book können Sie in Legimi-Apps oder einer beliebigen App lesen, die das folgende Format unterstützen:
Veröffentlichungsjahr: 2012
Page 1
Paradigmenbildung in einem selbstlernenden System
Page 1
In der sogenanntenInformationsgesellschaftlebend bedarf es Mittel und Techniken, die Inhalte, Informationen und Dokumente verschiedenster Art zu organisieren, um mehr als nur zufälligen Zugriff auf das Gewünschte zu erhalten.1Mittlerweile hält nicht mehr nur das weltweite Internet eine unglaubliche Fülle an Dokumenten bereit, auch der heimische Rechner ist längst zur Bibliothek geworden, in der sich zehn Jahre Tageszeitung neben Teilen der Gutenbergbibliothek2, der Wikipedia3und einer Menge anderer Bücher, Aufsätze etc. befinden. Der massive Zuwachs an digitalen Dokumenten lässt für deren Organisation keine manuelle, sondern nur eine automatische Methode zu. Dabei sind zumindest für die textuellen Dokumente neben den bestehenden Werkzeugen von dem Sprachlichen Informationsverarbeiter weitere Werkzeuge entwickelbar, wie das in der vorliegenden Arbeit entwickelte Programm beispielhaft aufzeigt. Eine Möglichkeit läge darin, die Meta-Tags4in HTML-Dokumenten um Keywords zu erweitern, die nicht explizit Bestandteile des originären Dokuments sind. Ein mögliches Verfahren dazu ist die Generierung von Paradigmen, denn Worte sind im gleichen Paradigma wenn sie „gegeneinander austauschbar“5sind, also z.B. die WörterOrangeundApfelsine6oder die WörterObstund z.B.Orange7. Die auf diese Weise ausgezeichneten Dokumente, in denen etwa im eigentlichen Text stets nur vonApfelsinedie Rede ist, würden auch dann noch durch eine Suchmaschine auffindbar sein, wenn der Benutzer als SuchbegriffOrangeeingegeben hätte. Für die Analyse und maschinelle Erzeugung von Wissen ist demnach
1 Mit zunehmender Dokumentenzahl steigt die Unwahrscheinlichkeit des Rechercheerfolges. Ein ausführlicher Artikel zum Thema findet sich unter:
http://de.wikipedia.org/wiki/Dokumentenmanagement (letzter Zugriff: 21.02.2006)
2 http://www.gutenberg.org/ (letzter Zugriff: 21.02.2006)
3 http://de.wikipedia.org/wiki/Hauptseite (letzter Zugriff: 21.02.2006)
4Meta-Tagssind versteckte Elemente auf einer Webseite. Sie enthalten Metadaten über das betreffende Dokument.
5 Diese Definition gilt für die Domäne Linguistik. Es gibt andere Lesarten vonParadigma.
6 Der Fachterminus einer solchen Relation lautetSynonym.Dabei hat das Beispiel nur für „die Nordhälfte Deutschlands Gültigkeit und ist in Österreich und der Deutschschweiz als Teutonismus markiert. In Bayern würde der Gebrauch des Wortes Apfelsine einen "Zugereisten" oder Urlauber kennzeichnen.“ Vgl. http://de.wikipedia.org/wiki/Synonym (letzter Zugriff: 08. 01. 2006)
7 Der Fachterminus einer solchen Relation lautetHyperonym(vgl. Kapitel 2.12).
Page 2
eine Akzentverschiebung in Richtung Semantik8erfoderlich.
In jüngster Zeit wird die automatisierte Paradigmenbildung als wichtiger Bestandteil zur Informationsorganisation fokussiert.9Dieser Umstand ist insbesondere der taxonomischen Eigenschaft von Paradigmen geschuldet: sowohl Elemente innerhalb eines Paradigmas, als auch Paradigmen als Ganzes (vgl. dazu Schwiebert 2004:9 f.), stehen immer in Relation zueinander.10Das XML-Magazin veröffentlichte zu dem Thema Taxonomie und Topic Maps einen Aufsatz von Thomas Bandholtz. Hier beobachtet Bandholtz (2002):
Internationale Firmen (wie z.B. Accenture, BP, HP, IBM, Microsoft, Nokia, Royal Dutch/Shell, Schlumberger, Siemens, Toyota oder Xerox ) wetteifern im Aufbau ihrer Master Classification und weisen terminologisch versierten Mitarbeitern eine Rolle als Taxonomist zu.
Auch in mittelständischen Firmen steigt der Bedarf an Organisation digitaler Dokumente.11
Ferner findet sich in dem Artikel von Bandholtz ein Querverweis auf den inThe Bulletin: Seybold News & Views On Electronic Publishingveröffentlichten Text von Luke Cavanagh, in dem betont wird, dass Taxonomie Managemet eine Schlüsselposition im Content Management erhält. Cavanagh (2002) stellt fest: „The categorization software business is developing as we speak, and the software being created may well be the next big must-buy item in your organization.“
Wie der Titel der vorliegeden Arbeit „Paradigmenbildung in einem selbstlernenden System“ impliziert, ist zentrales Ziel dieser Arbeit die Entwicklung einer Software, die automatisch Paradigmen auf der Grundlage eines Korpus generiert. Das dazu notwendige linguistische Fundament wird in Kapitel 2 dargestellt. Im Anschluss an Jürgen Rolshovens (2002:3) Feststellung „Die Codierung in der parole ist sehr unvollständig.“12, wird in diesem Kapitel u.a. den Fragen nachgegangen, inwiefern sich diese Unvollständigkeit auf die richtige Bestimmung von Paradigmen auswirkt. Wo liegen die Grenzen der Computabilität von Paradigmen bzw. welche Schwierigkeiten gibt es? Bereits die
8 Die Semantik ist ein Synonym zuBedeutungslehre.
9 Im deutschsprachigen Raum wurde das Projekt des Leipziger Wortschatz entwickelt. Vgl.: http://wortschatz.uni-leipzig.de/ (letzter Zugriff: 21.02.2006)
10 Auch wenn Paradigmenper sekeine wissenschaftliche Klassifizierung der außersprachlichen Realität darstellen, so organisieren sie doch linguistische Klassifikationen.
11 Vgl. auch: http://www.knowledgebusiness.com/knowledgebusiness/ (letzter Zugriff: 21.02.2006)
12 Der Begriffparoleist von Ferdinand de Saussure geprägt und bezeichnet den tatsächlichen Sprachgebrauch, also z.B. Sätze, im Gegensatz zurlangue,die das allgemeine Regelwerk von Sprache beschreibt, wie etwa die Grammatik.
Page 3
Geschichte der Sprachwissenschaft liefert darauf eine erste Antwort. Dies aufzuzeigen, ist u.a. die Aufgabe des 2. Kapitels. Zusätzlich liefert das Kapitel 3.3 mit einer Diskussion über die technischen Grenzen und Probleme praxisnahe Einsicht in das weite Feld der strukturellen Semantik.
Es besteht ein weitverbreitetes Interesse der Wirtschaft sowie öffentlicher Institutionen an der Bereitstellung einfach zu bedienender Schnittstellen zwischen Mensch und Maschine. Aus diesem Grund war der Einsatz entsprechender Softwaretechnologien sowie die Konzeption und Programmierung einer „niedrigschwelligen“ Schnittstelle ein zentrales Anliegen vorliegender Arbeit. Die Verwendung des Programms soll für den Benutzer möglichst unkompliziert sein.
Das Ziel der Arbeit besteht folglich in der Erzeugung vondeklarativem Wissenmittelsfunktionalen Wissens.13Die maschinelle Analyse eines beliebigen Korpus14erzeugt durch einen Algorithmus15Daten16, die in einer Datenbank gespeichert werden.17Das auf diese Art generierte sprachliche Wissen, die Zuordnung von Wörtern zu einem Wortparadigma, sollte im Idealfall dem intuitiven Wissen eines Muttersprachlers nicht widersprechen.18Ein wichtiges Anliegen ist das in der Datenbank persistierte deklarative Wissen jedem Anwender frei zur Verfügung zu stellen und den Zugriff auf diese Daten möglichst einfach19zu halten. Im Kapitel 3 wird das aus der theoretischen Vorarbeit entstandene ProgrammPaGe20vorgestellt und seine Handhabung erläutert. Im letzten Kapitel werden zusammenfassend die Ergebnisse der Arbeit dargelegt sowie offene Fragestellungen und Wünsche aufgezeigt.
Vor dem Übergang zum nächsten Kapitel wird an dieser Stelle die in der Arbeit verwendete Notation erläutert:
Kursiver Textsoll das Rezipieren erleichtern. Außer in Kapiteln vorangestellten Zitaten
13 Qualitativ unterscheidet sich deklaratives Wissen vom Output funktionalen Wissens lediglich durch die Latenzzeit.Latenzzeitbeschreibt den Zeitraum zwischen einer Aktion (hier: der Anfrage, in welchem Paradigma ein Wort liegt) und dem Eintreten einer Reaktion (hier: die Antwort der Zuordnung des Wortes zu einem Wortparadigma).
14 Einschränkungen hinsichtlich des Aufbaus des Korpus werden in Kapitel 3.2 erläutert.
15 DerAlgorithmus,also ein exakt definierter Handlungsablauf, stellt das funktionale Wissen dar.
16 DieDatenstehen für das deklarative Wissen. Sie sind entweder axiomatisch oder (wie im vorliegenden Fall) Produkte der Anwendung anderer Daten auf funktionales Wissens.
17 Siehe hierzu Kapitel 3 und Kapitel 4
18 Ergebnisse des PaGe werden in Kapitel 4 diskutiert.
19 Siehe hierzu den Exkurs in Kapitel 3.1 zur Barrierefreiheit
20 PaGe ist ein aus den beiden Anfangsbuchstaben der WorteParadigmenundGeneratorgebildetes Akronym.
Page 4
soll der kursive Text einen Fokus erzeugen. Am besten lässt sich das durch eine prosodische Hervorhebung mitlesen. Die Funktion so markierten Textes kann dabei durchaus verschieden sein, sei es um das Wort als Eigennamen, als inhaltlslose Oberflächenerscheinung, ganze Wortgruppen als Zitat oder einfach als inhaltlichbesondersbedeutsam zu kennzeichnen. Die genaue Funktion sollte sich aus dem Kontext ergeben.
In der Sprachwissenschaft existieren viele verschiedene Denkrichtungen. Jedes Modell hat seine eigenen Fachtermini, Axiome und Ansprüche. Dabei werden oftmals gleichlautende Termini verwendet, die aber inhaltlich sehr verschieden sind.21
Die vorliegende Arbeit ist aus strukturalistischer Sichtweise geschrieben. Dabei gibt es selbst innerhalb der strukturalistischen Schule mindestens drei Hauptschulen,22die sich ihrem Wesen nach voneinander unterscheiden,23nämlich die
1. Prager Schule unter Mathesius, Trubetzkoy (1939) und Jakobson und die 2. Kopenhagener Schule unter Louis Hjelmslev (1953/1961) sowie den 3. amerikanischen Strukturalismus, der sich in den Deskriptivismus von Bloomfield (1933) und den Distributionalismus Zellig Harris' (1951/1960) aufspaltet.
Grundsätzlich aber kann der sprachwissenschaftliche Strukturalismus als Weiterentwicklung der Ideen von Ferdinand de Saussure (1916)24angesehen werden. Der Strukturalismus25bezeichnet demnach
21 Vgl. z.B. die differenten Lesarten des BegriffsGrammatikunter deskriptiver, mentalistischer oder normativer Sichtweise.
22 Vgl. Hans-Jürgen Sasse (2003)
23 Letztlich unterscheiden sich sogar die einzelne Autoren selbst über die Jahre in ihren Ansichten und Definitionen. Daher auch z.B. die Ausdrücke „der frühe Chomsky“ oder „der Chomsky der späten 60er Jahre“.
24 Die erste französische Ausgabe erschien 1916. In der Arbeit wird die deutsche Fassung von 1967 verwendet (vgl. Literaturverzeichnis).
25 Synonyme sind strukturale/strukturelle/strukturalistische Sprachwissenschaft.
Page 5
[...] eine Gruppe unterschiedlicher sprachwissenschaftlicher Richtungen, die in der ersten Hälfte des 20. Jahrhunderts entwickelt wurden. Wesentliche gemeinsame wissenschaftstheoretische Prämissen sind das Postulat, dass alle linguistischen Aussagen als die Struktur betreffende Aussagen zu formulieren sind (daher der Name) und die Auffassung von Sprache als ein relationales System von Elementen, deren interne Beziehungen zueinander ohne Rückgriff auf psychologische oder geisteswissenschaftliche (z.B. auch historische) Erklärungshilfen beschrieben werden müssen. (Sasse 2003:69)
Die vorliegende Arbeit orientiert sich dabei an jenen Strukturalisten, die sich nicht nur um deskriptive Techniken zur Analyse von Sprachdaten bemühten, sondern daneben eine rigorose Form der Sprachtheorie entwickelten.26Da sich diese strukturalistischen Methoden ihrer Form nach an den Naturwissenschaften orientieren, ihre Formalismen und Termini sich also der Logik und der Mathematik entlehnen, sind diese Methoden für den Einsatz in computerlinguistische Modelle prädestiniert. Die zum Einsatz kommenden heuristischen Methoden sind vor allem der Substitutionstest27für die Kookkurrenzanalyse und die Gewichtung der Aussagen durch quantitative Relationen, um Distributionsverhältnisse zu ermitteln. Wie diese Heuristiken funktionieren und auf welche Weise sie im PaGe umgesetzt sind, ist in Kapitel 3.3 beschrieben. In Kapitel 2 wird der Begriffsverortung und der geschichtlichen Auseinandersetzung mit dem BegriffParadigmainnerhalb der Linguistik Platz eingeräumt. Dies kann nicht geschehen ohne sich mit der bereits in der Einleitung erwähntenSemantikauseinanderzusetzen.
Die eingangs umschriebene Lesart von Semantik alsBedeutungslehre,die z.B. auch die Beziehung zwischen Sprache und Denken und Welt fasst, muss im Kontext dieser Arbeit
26 Wichtige Vertreter dieser mathematoiden Richtung sind der Behaviorist Louis Hjelmslev und Zellig S. Harris, der Lehrer von Noam Chomsky. Vgl.: Sasse (2003:71)
27 Der Substitutionstest, oderAustauschtest,ist ein Mittel der Distributionsanalyse. Der BegriffDistributionist ein Synonym fürVerteilungund meint die Beschreibung der Elemente aufgrund der anderen sie umgebenden Elemente. Ein Element innerhalb einer Elementenkette wird gegen ein anderes Element ausgetauscht. Die so entstandene Kette wird auf Wohlgeformtheit überprüft, und das Ergebnis trägt zur Definition (lat: de=ab; finis=Grenze, also Definitio=Eingrenzen) des Elements bei.
