Maschinelles Lernen   auf der Grundlage der Rough Set Philosophie  von Zdzislaw Pawlak; - Michael Ziegenbalg - E-Book

Maschinelles Lernen auf der Grundlage der Rough Set Philosophie von Zdzislaw Pawlak; E-Book

Michael Ziegenbalg

0,0
0,99 €

oder
-100%
Sammeln Sie Punkte in unserem Gutscheinprogramm und kaufen Sie E-Books und Hörbücher mit bis zu 100% Rabatt.
Mehr erfahren.
Beschreibung

Wirtschaft wird nicht nur in der Wirtschaft gemacht, sondern auch in Forschungslabors und Hochschulen.   Jürgen Rüttgers, Bundesminister für Forschung und Bildung, [Rüttgers, 1996]       Einleitung   Der Wirtschaftsstandort Deutschland befindet sich zur Zeit in einer Krise. Als eine Ursache wird immer wieder genannt, daß es entweder nicht, oder zu langsam gelingt, wissenschaftliche Entwicklungen schnell genug in marktfähige Produkte umzuwan­deln. Zeitverluste führen bei schnell fallenden Renditen innovativer Produkte dazu, daß sich ihre Herstellung oft schon nicht mehr rechnet, wenn sie marktfähig gewor­den sind. Hierzu schreibt Konrad Seitz:"Wer zuerst am Markt ist und die globalen Märkte durchdringt, setzt die Standards und gewinnt anhand der Erfahrungskurve einen Produktivitätsvorsprung, der ihn für später kommende Konkurrenten oft unein­holbar macht. [Seitz, 1992, S. 371] Diese Analyse trifft nicht nur auf marktstrategisch so bedeutende Produkte wie Mikroprozessoren und Speicherchips zu. Auch die Ent­wicklung von LCD-Bildschirmen, die in Deutschland begann, aber von anderen zur Marktreife gebracht wurde, ist ein Beispiel.   Es stellt sich die Frage, wie die Entwicklungszeiten innovativer Produkte verkürzt werden können. Entwicklungsstätten für neue Technologien sind die Universitäten mit den staatlichen Forschungsinstituten, private Forschungsinstitute und auch die (Fach-)Hochschulen. Diese Entwicklungsstätten lassen sich im Hinblick auf ihre Aufgabenschwerpunkte differenzieren. Während die Grundlagenforschung Kernaufgabe der Forschungsinsti­tute ist, besteht die Hauptaufgabe der Hochschulen darin, neue Anwendungsmög­lichkeiten auf der Basis der Grundlagenforschungsergebnisse zu entwickeln und ihre Absolventen mit innovativem, praxisbezogenem Wissen auf praktische Aufgaben vorzubereiten. Gelänge es bereits an dieser Nahtstelle zwischen theoretisch orientier­ten Forschungsinstituten und praktisch orientierten Hochschulen den Wissenstransfer zu beschleunigen und zu optimieren, dann würde sich die Chance erhöhen, früher als andere Wettbewerber innovative Produkte auf dem globalen Markt plazieren zu kön­nen. Während die praxisbezogene Seite als Technologietransfer zwischen Hoch­schule und Wirtschaft bereits institutionell entwickelt ist, bestehen noch Optimie­rungsspielräume seitens des Wissenstransfers.  

Das E-Book können Sie in Legimi-Apps oder einer beliebigen App lesen, die das folgende Format unterstützen:

EPUB
Bewertungen
0,0
0
0
0
0
0
Mehr Informationen
Mehr Informationen
Legimi prüft nicht, ob Rezensionen von Nutzern stammen, die den betreffenden Titel tatsächlich gekauft oder gelesen/gehört haben. Wir entfernen aber gefälschte Rezensionen.



Michael Ziegenbalg

Maschinelles Lernen auf der Grundlage der Rough Set Philosophie von Zdzislaw Pawlak;

Rough Set Theorie

Dieses Buch ist meinem großen Lehrer Herrn Prof. Dr. Gerhard Michler gewidmetBookRix GmbH & Co. KG80331 München

Einleitung

Wirtschaft wird nicht nur in der Wirtschaft gemacht,

sondern auch in Forschungslabors und Hochschulen.

 

Jürgen Rüttgers, Bundesminister für Forschung und Bildung, [Rüttgers, 1996]

 

 

 

Einleitung

 

Der Wirtschaftsstandort Deutschland befindet sich zur Zeit in einer Krise. Als eine Ursache wird immer wieder genannt, daß es entweder nicht, oder zu langsam gelingt, wissenschaftliche Entwicklungen schnell genug in marktfähige Produkte umzuwan­deln. Zeitverluste führen bei schnell fallenden Renditen innovativer Produkte dazu, daß sich ihre Herstellung oft schon nicht mehr rechnet, wenn sie marktfähig gewor­den sind. Hierzu schreibt Konrad Seitz:“Wer zuerst am Markt ist und die globalen Märkte durchdringt, setzt die Standards und gewinnt anhand der Erfahrungskurve einen Produktivitätsvorsprung, der ihn für später kommende Konkurrenten oft unein­holbar macht. [Seitz, 1992, S. 371] Diese Analyse trifft nicht nur auf marktstrategisch so bedeutende Produkte wie Mikroprozessoren und Speicherchips zu. Auch die Ent­wicklung von LCD-Bildschirmen, die in Deutschland begann, aber von anderen zur Marktreife gebracht wurde, ist ein Beispiel.

 

Es stellt sich die Frage, wie die Entwicklungszeiten innovativer Produkte verkürzt werden können.

Entwicklungsstätten für neue Technologien sind die Universitäten mit den staatlichen Forschungsinstituten, private Forschungsinstitute und auch die (Fach-)Hochschulen. Diese Entwicklungsstätten lassen sich im Hinblick auf ihre Aufgabenschwerpunkte differenzieren. Während die Grundlagenforschung Kernaufgabe der Forschungsinsti­tute ist, besteht die Hauptaufgabe der Hochschulen darin, neue Anwendungsmög­lichkeiten auf der Basis der Grundlagenforschungsergebnisse zu entwickeln und ihre Absolventen mit innovativem, praxisbezogenem Wissen auf praktische Aufgaben vorzubereiten. Gelänge es bereits an dieser Nahtstelle zwischen theoretisch orientier­ten Forschungsinstituten und praktisch orientierten Hochschulen den Wissenstransfer zu beschleunigen und zu optimieren, dann würde sich die Chance erhöhen, früher als andere Wettbewerber innovative Produkte auf dem globalen Markt plazieren zu kön­nen. Während die praxisbezogene Seite als Technologietransfer zwischen Hoch­schule und Wirtschaft bereits institutionell entwickelt ist, bestehen noch Optimie­rungsspielräume seitens des Wissenstransfers.

 

Eine Differenzierungsmöglichkeit befindet sich an der angesprochenen Nahtstelle zwischen Forschungsinstituten und Hochschulen. Die Rezeption der Forschungser­gebnisse an den Hochschulen ist in vielen Fällen so langwierig, daß für praktische Anwendungsentwicklungen oft viel zu wenig Zeit bleibt. Auch die häufig langwierige, weil an traditionelle Vermittlungsformen gebundene, Weitergabe von Grundlagenwis­sen kostet viel wertvolle Zeit, die bei den so bedeutenden teamorientierten, praxisbe­zogenen Ausbildungsanteilen fehlt.

Eine wesentliche Verkürzung des bisher beanspruchten Zeitanteils für Wissensauf­nahme verspricht die Entwicklung und der Einsatz von geigneten Lehrprogrammen. Die entwickelten Programme können dann auch anderen Hochschulen und privat­wirtschaftlichen Entwicklern über eine an ein Netz angeschlossene Wissensdaten­bank zur Verfügung gestellt werden. Es ist vorstellbar, daß sich der Ruf einer Hoch­schule in der Zukunft zunehmend darauf gründen wird, welche Lehrsysteme bzw. Entwicklungen sie anbieten kann. Für innovative Firmen und Entwickler bestände in einer solche Datenbank ein problemloser Zugang zu neuen Technologien. Die Zu­sammenarbeit mit solchen Firmen wiederum verspräche positive Rückwirkungen auf die Hochschule.

Für praxisorientierte Hochschulen zu entwerfende Lehrprogramme können dann als geignet betrachtet werden, wenn die Entwickler solcher Lehrprogramme das Ziel im Auge haben, möglichst schnell die Entwicklung von Anwendungen zu ermöglichen. Dazu gehört, daß die Lehrsystementwickler einerseits den Mut zur didaktischen Re­duktion des wissenschaftlichen Lehrstoffs haben müssen, andererseits in der Lage sein müssen, den Stoff der Zielgruppe angemessen methodisch aufzubereiten. Mit der vorliegenden Arbeit wurde ein solcher Versuch unternommen. Dabei liegt es auf der Hand, daß grundlegende Überlegungen zur Didaktik und Methodik von Wissenstrans­ferprogrammen in einem anderen Rahmen stattfinden müßten.

 

Lehrgegenstand ist die Rough Set Philosophie von Z. Pawlak, Professor am Institut für Informatik an der Universität Warschau.

Die Rough Set Philosophie läßt sich im Rahmen der Künstliche Intelligenz dem Be­reich Maschinelles Lernen zuordnen. Auf der Grundlage von Verfahren, die auf der Rough Set Philosophie basieren, können Daten, die z.B. durch Beobachtung oder Messung gewonnen wurden, analysiert werden. Durch diese Verfahren läßt sich das in den Daten verborgene Regelwissen extrahieren. Dieses Regelwissen wiederum kann für Anwender direkt als Handlungsanleitung dienen, oder es kann über nachge­schaltete Expertensysteme, die mit den Regeln arbeiten, nutzbar gemacht werden.

Bezogen auf das Lehrprogramm bestand die Aufgabe darin, aus der Rough Set Phi­losophie einen implementierbaren Algorithmus abzuleiten, die Rough Set Philosophie bezogen auf diesen Algorithmus für Unterrichtszwecke didaktisch zu reduzieren und für ein Lehrprogramm methodisch aufzubereiten.

Für die Erarbeitung der Rough Set Philosophie wurde eine Veröffentlichung Pawlaks aus dem Jahre 1991 gewählt, in der der Autor früher erschienene Aufsätze zusam­mengefaßt hat. Die in diesem Buch vorgelegte Verbindung von theoretischen Grund­lagen und praktischen Beispielen schien die günstigste Basis für das Vorhaben zu bilden und die Auswahl zu rechtfertigen. [Pawlak, 1991]

Eine generelle, wissenschaftliche Erarbeitung der Rough Set Philosophie mit allen verfügbaren Veröffentlichungen wäre bestenfalls im Rahmen einer Dissertation zu bewältigen. Aus diesem Grund kann nicht ausgeschlossen werden, daß hier aufgrund praktischer Notwendigkeiten entwickelte Überlegungen auch von anderen schon ge­äußert wurden. Das Hauptinteresse dieser Arbeit besteht in der Entwicklung eines Lehrprogramms auf der Basis der Rough Set Philosophie. Die wissenschaftliche Auseinandersetzung mit der Rough Set Philosophie auf der Basis der genannten Veröffentlichung erfolgte nur soweit, wie es zur Entwicklung des Algorithmus not­wendig war.

Die Umwandlung der Rough Set Philosophie in der von Pawlak in diesem Buch vor­gelegten Form in ein lauffähiges Programm erwies sich als schwierig. Letzten Endes war eine Implementation auf der Grundlage eines konsistenten Algorithmus ohne ei­nen methodischen Zusatz sogar unmöglich. Das Auffinden der methodischen Un­schärfe in Pawlaks Theorie und die Entwicklung einer passenden methodischen Er­gänzung waren so zeitraubend, daß das Lehrprogramm  lediglich als Demonstrationsprototyp vorgelegt werden kann. Wegen des methodischen Zusatzes in der Rough Set Philosophie und wegen eines von Pawlak abweichenden Verfahrens bei der Behandlung inkonsisten­ter Daten muß bei dem vorgelegten Programm von einer Adaption auf der Basis der Rough Set Philosophie gesprochen werden.

 

Die Arbeit gliedert sich in drei Hauptteile. Nach einigen einleitenden Worten zum Ver­hältnis Philosophie und Künstliche Intelligenz werden im ersten Teil die Kerngedan­ken der Rough Set Philosophie dargestellt. Dabei werden die methodischen Unschär­fen herausgearbeitet und problematische Verfahren angesprochen.

Im Anschluß an einige Bemerkungen zu praktischen Anwendungen wird im zweiten Teil das Lehrprogramm als Adaption der Rough Set Philosophie vorgestellt. Hierzu gehören Ausführungen zu didaktischen und methodischen Entscheidungen. Kernbe­standteil des Lehrprogramms ist ein zu Unterrichtszwecken formulierter Algorithmus, der REMINI-ALGORITHMUS genannt wird.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Philosophische Problemstellungen in der Künstlichen Intelligenz

 

Die Künstliche Intelligenz ist eine Teildisziplin der Informatik. Sie „ ist eine wissen­schaftliche Disziplin, die das Ziel verfolgt, menschliche Wahrnehmungs- und Verstan­desleistungen zu operationalisieren und durch Artefakte, kunstvoll gestaltete techni­sche - insbesondere Informationsverarbeitende Systeme - verfügbar zu machen.“ [Görz, 1995, S. 1]

Die hierfür nötige Untersuchung menschlicher Wahrnehmungs- und Verstandeslei­stungen war ein zentraler Gegenstand der Philosophie, bis sich aus der Philosophie Einzelwissenschaften wie die Psychologie, die Linguistik und die Kognitionswissen­schaften herauslösten, die jeweils die Forschung in Teilgebieten auf wissenschaftli­cher Basis fortsetzten. Durch die Fülle der Forschungsergebnisse dieser Disziplinen wird jedoch ein unmittelbarer Zugang zur Frage, worauf menschliche Wahrneh­mungs- und Verstandesleistungen beruhen, außerordentlich erschwert. Es kann sich deshalb als fruchtbar erweisen, auf einen Autor zurückzugreifen, der am Anfang der neuzeitlichen philosophischen Erkenntnistheorie stand.

Zur Frage, worauf Erkenntnis beruht und was Erkenntnis ist, schrieb John Locke im Jahre 1690 in seiner Abhandlung über den menschlichen Verstand:

 

“1. Der Geist hat bei allem Denken und Folgern  kein anderes unmittelbares Objekt als seine eigenen Ideen[1]; er betrachtet nur sie und kann nur sie betrachten. Daher ist es offenbar, daß unsere Erkenntnis lediglich mit unseren Ideen zu tun hat.

 

Die Erkenntnis scheint mir nichts anderes zu sein als die Wahrnehmung des Zu­sammenhangs und der Übereinstimmung oder Nichtübereinstimmung und des Wi­derstreits zwischen irgendwelchen von unseren Ideen. Allein darin besteht die Er­kenntnis.“ [Locke, 1976, Buch 4, S. 167]

 

Moderner ausgedrück bedeutet dies, daß unsere Wahrnehmungen von Objekten nicht diese selbst abbilden, sondern daß die Ideen oder Begriffe von den Objekten lediglich geistige „Repräsentationen der externen Welt“ sind. (Vergleiche G. Strube (Hrsg.) über Kognition in [Görz, 1995, S. 314].)

Diese Repräsentationen, nicht die Objekte selbst, weisen eine Struktur auf, die Er­kenntnisgewinn bzw. Denken durch Wahrnehmung des Zusammenhangs ermöglicht. Der Wahrheitsanspruch der Erkenntnisse ist beschränkt, weil nichts über die Objekte selbst gesagt werden kann. Lediglich die interne Struktur der Repräsentationen, so unscharf, unvollständig oder gar widersprüchlich sie auch sein mögen, kann unter­sucht werden.

Objekte, die gemeinsame Eigenschaften haben (z.B. rote Bauklötze oder quadrati­sche Bauklötze, ...) lassen sich zu Klassen von Objekten zusammenfassen, die durch Begriffe oder Konzepte repräsentiert werden. Die interne Struktur einer Menge von Repräsentationen wird durch Klassifikationsschlüsse aufgedeckt. Ist die Struktur be­kannt, können Begriffe „verwendet werden, um neue Objekte zu alten in Beziehung zu setzen. [G. Strube, in Görz, 1995, S. 315]

 

 

[1] Statt „Ideen“ kann auch „Begriffe“ gesagt werden. [Locke, 1976, S. 23]

1. Maschinelles Lernen in der Rough Set Philosophie

 

 

Das Kernproblem im Rahmen der Künstlichen Intelligenz besteht in der Formulierung von Algorithmen, die Klassifikationsschlüsse ermöglichen. Mit der Rough Set Philosophie von Zdzislaw Pawlak liegt eine Theorie vor, in der ein Verfahren zur Operationalisierung bestimmter Repräsentationen vorgestellt wird.

Die folgenden Ausführungen sind zum Teil wörtliche Übersetzungen der Teile des Textes von Pawlak [Pawlak, 1991] die für das Verständnis Maschinellen Lernens auf der Basis der Rough Set Philosophie und für das Verständnis des dem Lehrprogramm zugrunde liegenden Algorithmus von Bedeutung sind.

Um die entsprechenden Textstellen prüfen zu können, sind die jeweiligen Fundstellen angegeben. Die Ausführungen sind häufig stark komprimiert und stellen die mathematischen Aspekte in den Vordergrund. Für weitergehende Informationen wird der Leser gebeten, den Text von Pawlak selbst zur Hand zu nehmen.

 

1.1 Grundlagen

In den folgenden Ausführungen werden die Grundlagen der Rough Set Philosophie entwickelt. Dazu gehört die Untersuchung der Frage, in welchem Verhältnis Objekte bzw. Daten, Klassifikationen, Klassifikationsschlüsse und Wissen zueinander stehen.

Die Klassifikation nicht eindeutiger (rauher) Mengen durch Aufteilung in eindeutig klassifizierbare Regionen und nicht eindeutig klassifizierbare Regionen mittels Approximation bildet den Kern der Theorie.

 

 

1.1.1 Zum Verhältnis von Daten und Wissen

 

 

Daten sind eine Form von Repräsentationen. Sie können das Ergebnis von Beobachtungen, Messungen oder anderer Datenerhebungsformen sein. Meß- und Beobachtungsdaten stellen an sich noch kein Wissen dar, weil sie häufig unnütze Details enthalten, gelegentlich widersprüchlich und häufig unvollständig sind. Kurz gesagt, Daten sind unorganisiert.

Wissen dagegen kann als organisiertes Datenmaterial verstanden werden, das weder widersprüchliche, noch unnütze Details enthält. Durch die Kenntnis des inneren Gefüges wechselseitiger Abhängigkeiten zwischen den Daten können Schlüsse über das vorhandene Datenmaterial hinaus vollzogen werden, die die Erfassung und Interpretation zukünftiger Daten erleichtern.

Das Kernproblem, das sich aus diesem Verhältnis von Daten und Wissen ergibt, ist folglich die Transformation von Daten in Wissen. Wie können unorganisierte Daten in organisiertes Wissen durch Aufdeckung des Abhängigkeitsgefüges im Datenmaterial transformiert werden?

 

 

1.1.2 Wissen und Klassifikation

 

 

Alle Inhalte der realen und abstrakten Welt können zum Gegenstand eines oder mehrerer interessierter Handelnder werden. Zusammen bilden diese Inhalte das Universum des Diskurses. Die voneinander abgrenzbaren, zusammengehörigen Teile dieses Universums bilden Klassifikationen. Die Klassifikationen bestehen aus Objekten, die in Beziehungen zueinander stehen. Diese Beziehungen lassen sich durch vernünftiges Schließen aufdecken.

Erkenntnis bzw. Wissen beruht auf der Fähigkeit, Objekte als Teile des Universums zu klassifizieren. Objekte können reale Dinge wie z.B. unterschiedliche Bauklötze, Krankheitssymptome oder abtrakte Dinge wie z.B Zeitpunkte sein.

So läßt sich z.B. eine Menge von acht {x1, ..., x8} Bauklötzen, die sich in Farben, Formen und Größen unterscheiden, klassifizieren. Hierzu ein einfaches Beispiel, anhand dessen einige grundlegende Begriffe eingeführt werden sollen.

Es seien 8 Objekte des Universums U gegeben, die nach bestimmten Merkmalen die folgenden Klassifikationen bilden.

 

Das erste Klassifizierungsmerkmal ist die Farbe.

 

{x1, x3, x7} rote Baukötze

 

{x2, x4} blaue Baukötze

 

{x5, x6, x8} gelbe Baukötze

 

Das zweite Klassifizierungsmerkmal ist die Form.

 

{x1, x5} runde Bauklötze

 

{x2, x6} quadratische Bauklötze

 

{x3, x4, x7, x8} dreieckige Bauklötze

 

Das dritte Klassifizierungsmerkmal ist die Größe.

 

{x2, x7, x8} große Bauklötze

 

{x1, x3, x4, x5, x6} kleine Bauklötze

 

Gleichzeitig mit diesen 3 Klassifikationen wurden 3 Äquivalenzrelation R1, R2 und R3 gebildet. Pawlak benutzt aus mathematischen Gründen Äquivalenzrelationen statt Klassifikationen; die Konzepte sind wechselseitig austauschbar. [Pawlak, 1991, S. 3]  Jede Äquivalenzrelation besteht aus einer Familie von Äquivalenzklassen:

 

U/R1={{x1, x3, x7} {x2, x4} {x5, x6, x8}}

 

U/R2={{x1, x5} {x2, x6} {x3, x4, x7, x8}}

 

U/R3={{x2, x7, x8} {x1, x3, x4, x5, x6}}

 

Diese Äquivalenzklassen sind elementare Konzepte (Kategorien) in der Wissensbasis

 

K=(U, {R1,R2,R3}).

 

Mit [x]R wird eine Kategorie in R bezeichnet, die ein Element xU enthält. Mit PR wird eine Teilmenge der Äquivalenzrelation {R1,R2,R3} von R bezeichnet. Ist P beispielsweise {R1,R2}, dann lassen sich {R1,R2}-Basiskategorien bilden, die Schnittmengen von elementaren Kategorien sind. Suchen wir z.B. alle Bauklötze, die blau und quadratisch sind, dann bilden wir die Schnittmenge aus R1 {x2, x4} und R2 {x2, x6}. Wir erhalten {x2} als eine Basiskategorie von P. Kombinieren wir alle Eigenschaften der R1-Objekte (blau, rot, gelb) mit denen der R2-Objekte (rund, quadratisch, dreieckig), dann erhalten wir 9 Basiskategorien, die zusammen eine Familie von Äquivalenzklassen bilden. Eine Familie von Äquivalenzklassen bildet ihrerseits wiederum eine Äquivalenzrelation. Somit ist die Schnittmenge aller zu P R gehörenden Äquivalenzrelationen P wiederum eine Äquivalenzrelation. Sie wird mit IND(P) bezeichnet und Unschärferelation (indiscernibility relation) auf P genannt. [vgl. Pawlak, 1991, S.3] Mit U/IND(P), das ist die Familie aller Äquivalenzklassen der Äquivalenzrelation IND(P), wird Wissen bezeichnet, das mit der Familie von Äquivalenzrelationen P verbunden ist.

 

Eine Darstellung dieser Beziehungen in Tabellenform mag der Anschaulichkeit dienen und hilfreich im Hinblick auf spätere Überlegungen sein.

 

 

Tabelle 1

 

U

R1

R2

R3

x1

1

1

2

x2

2

2

1

x3

1

3

2

x4

2

3

2

x5

3

1

2

x6

3

2

2

x7

1

3

1

x8

3

3

1

 

Farben, Formen und Größen werden durch Zahlen in der Tabelle repräsentiert. Die Domäne von :

 

R1 (Farbe) ist: 1 (rot), 2 (blau), 3 (gelb);

 

R2 (Form) ist: 1 (rund), 2 (quadratisch), 3 (dreieckig)

 

R3 (Größe) ist: 1 (groß), 2 (klein).

 

Wenn P=R1 ist, dann ist U/IND(P)={{x1,x3,x7}, {x2,x4}, {x5.x6,x8}}.

Wäre P={R1,R2}, dann erhielten wir als eine Basiskategorie, bestehend z.B. aus „rot“ und „quadratisch“ {x1,x3,x7}{x3,x4,x7,x8}={x3,x7}. Wir erhielten 3x3=9 Basiskategorien, die gemeinsam U/IND(P) bilden würden, weil R1 und R2 jeweils aus Domänen mit 3 Werten bestehen. Bestände P aus {R1,R2,R3} so ergäbe sich z.B. als Basiskategorie aus rot (1), dreieckig (3) und groß (1):

 

{x1,x3,x7}{x3,x4,x7,x8}{x2,x7,x8}={x7}.

 

U/IND(P) bestände mit {R1,R2,R3} aus 3x3x3=27 Basiskategorien. Die P-Basiskategorien können unter Verwendung des Wissens P ausgedrückt werden. Sie sind die fundamentalen Bausteine unseres Wissens. Die Familie aller P-Basiskategorien wird Familie von Basiskategorien in der Wissensbasis K=(U,R) genannt. Mit IND(K) wird die Familie aller in K als IND(K) ={IND(P): PR} definierten Äquivalenzrelationen bezeichnet.

Natürlich besteht eine Wissensbasis nicht nur aus Basiskategorien. Ein Beispiel für eine R1-Kategorie wäre „rot oder blau“: {x1,x3,x7}{x2,x4}={x1,x2,x3,x4,x7}.

Besondere Aufmerksamkeit muß auf die Tatsache gelegt werden, daß es auch Kategorien gibt, die in der Wissensbasis nicht vorkommen. So ist die aus „blau“ und „rund“ bestehende Basiskategorie aus P={R1,R2} die leere Menge:

 

{x2,x4}{x1,x5}=.

 

Objekte, die blau und rund sind, sind nicht vorhanden und folglich in der Wissensbasis unbekannt. Wenn eine Kategorie in einer Wissensbasis nicht definierbar ist, kann sie vielleicht näherungsweise (approximativ) definiert werden. Das ist der zentrale Punkt der Rough Set Theorie, die Analyse vager Kategorien. [Pawlak, 1991, S.9]

 

1.1.3 Rough Sets (Rauhe Mengen)

 

 

Der Kerngedanke der Theorie rauher Mengen, wird im Folgenden dargestellt und an einem einfachen Beispiel veranschaulicht. Seine praktische Anwendbarkeit wird klarer, wenn die Struktur von Teilmengen (X), die Bedingungsattribute bilden, auf der Basis einer Menge (U), die Entscheidungsattribute enthält, untersucht wird.

 

Zuerst wieder einige Notationen.

 

Es sei XU und R eine Äquivalenzrelation. X ist R-definierbar, wenn X einige R-Basiskategorien enthält; andernfalls ist X R-undefinierbar. Entsprechend sind die R-definierbaren Mengen die Untermengen des Universums U, die auf der Wissensbasis K exakt definiert werden können, wogegen R-undefinierbare Mengen nicht auf der Wissensbasis K definiert werden können. Die R-definierbaren Mengen werden auch R-exakte Mengen genannt, die R-undefinierbaren werden als R-inexakt oder R-rauh bezeichnet.

Die Menge XU wird exakt in K genannt, wenn es eine Äquivalenzrelation RIND(K) gibt, so daß X R-exakt ist. Und X wird rauh in K genannt, wenn X R-rauh für irgend ein RIND(K) ist.

Rauhe Mengen können approximativ definiert werden. Zu diesem Zweck werden zwei exakte Mengen benutzt, die als untere (Ru ) und obere (Ro) Approximation bezeichnet werden. [Pawlak, 1991, S. 9]