Clusteranalyse - Ein Anwendungsbeispiel - Florian Wohlkinger - E-Book

Clusteranalyse - Ein Anwendungsbeispiel E-Book

Florian Wohlkinger

0,0
15,99 €

oder
-100%
Sammeln Sie Punkte in unserem Gutscheinprogramm und kaufen Sie E-Books und Hörbücher mit bis zu 100% Rabatt.

Mehr erfahren.
Beschreibung

Essay aus dem Jahr 2007 im Fachbereich Soziologie - Methodologie und Methoden, Note: 1,0, Otto-Friedrich-Universität Bamberg (Fakultät für Sozial- und Wirtschaftswissenschaften), Veranstaltung: Datenanalyse am PC, Sprache: Deutsch, Abstract: Unter dem Begriff „Clusteranalyse“ versteht man ein Segmentierungsverfahren, mit dem die zu untersuchenden Daten in Gruppen aufgeteilt werden sollen. Diese Gruppeneinteilung wird von Backhaus et al. (2003) folgendermaßen beschrieben: „Die Mitglieder einer Gruppe sollen dabei eine weitgehend verwandte Eigenschaftsstruktur aufweisen; d.h. sich möglichst ähnlich sein. Zwischen den Gruppen sollen demgegenüber (so gut wie) keine Ähnlichkeiten bestehen. Ein wesentliches Charakteristikum der Clusteranalyse ist die gleichzeitige Heranziehung aller vorliegenden Eigenschaften zur Gruppenbildung. […] Bei allen Problemstellungen, die mit Hilfe der Clusteranalyse gelöst werden können, geht es immer um die Analyse einer heterogenen Gesamtheit von Objekten (z.B. Personen, Unternehmen), mit dem Ziel, homogene Teilmengen von Objekten aus der Objektgesamtheit zu identifizieren.“ Die im Folgenden dargestellte Clusteranalyse hat einen Datensatz der Katholischen Universität Eichstätt zur Grundlage, der sich auf eine 2004 durchgeführte Schülerbefragung bezieht. Leiter der Studie war Prof. Dr. Siegfried Lamnek; das Thema war „Gewalt in der Schule“. Die hier betrachteten Variablen sind acht Täter- und Opfer-Indizes, mittels denen die Schüler in Gruppen eingeteilt werden sollen.

Das E-Book können Sie in Legimi-Apps oder einer beliebigen App lesen, die das folgende Format unterstützen:

EPUB

Veröffentlichungsjahr: 2008

Bewertungen
0,0
0
0
0
0
0
Mehr Informationen
Mehr Informationen
Legimi prüft nicht, ob Rezensionen von Nutzern stammen, die den betreffenden Titel tatsächlich gekauft oder gelesen/gehört haben. Wir entfernen aber gefälschte Rezensionen.



Inhaltsverzeichnis
1 EINLEITUNG
2 ZU DEN DATEN.
3 METHODISCHE VORÜBERLEGUNGEN
4 DISKUSSION VERSCHIEDENER LÖSUNGSMÖGLICHKEITEN
4.1 ZUSAMMENSETZUNG DER CLUSTER UND VERGLEICH DER MITTELWERTE
4.2 F- UND T-WERTE
5 ENDGÜLTIGES MODELL.
5.1 STATISTISCHE ARGUMENTE.
5.2 INHALTLICHE ARGUMENTE
5.3 ZUSAMMENHANG MIT SOZIODEMOGRAFISCHEN MERKMALEN
6 ZUSAMMENFASSUNG
7 ANHANG
7.1 SYNTAX.

Page 1

Betreuer:

Verfasser:Florian Wohlkinger

Datum der Abgabe:13.02.2007

Page 1

1 Einleitung

Unter dem Begriff „Clusteranalyse“ versteht man ein Segmentierungsverfahren, mit dem die zu untersuchenden Daten in Gruppen aufgeteilt werden sollen. Diese Gruppeneinteilung wird von Backhaus et al. (2003) folgendermaßen beschrieben:

„Die Mitglieder einer Gruppe sollen dabei eine weitgehend verwandte Eigenschaftsstruktur aufweisen; d.h. sich möglichst ähnlich sein. Zwischen den Gruppen sollen demgegenüber (so gut wie) keine Ähnlichkeiten bestehen. Ein wesentliches Charakteristikum der Clusteranalyse ist die gleichzeitige Heranziehungallervorliegenden Eigenschaften zur Gruppenbildung. […] Bei allen Problemstellungen, die mit Hilfe der Clusteranalyse gelöst werden können, geht es immer um die Analyse einerheterogenen Gesamtheit von Objekten(z.B. Personen, Unternehmen), mit dem Ziel,homogene Teilmengen von Objektenaus der Objektgesamtheit zu identifizieren.“1

Die im Folgenden dargestellte Clusteranalyse hat einen Datensatz der Katholischen Universität Eichstätt zur Grundlage, der sich auf eine 2004 durchgeführte Schülerbefragung bezieht. Leiter der Studie war Prof. Dr. Siegfried Lamnek; das Thema war „Gewalt in der Schule“. Die hier betrachteten Variablen sind acht Täter- und Opfer-Indizes, mittels denen die Schüler in Gruppen eingeteilt werden sollen.

2 Zu den Daten

Die vorliegenden acht Variablen wurden aus einer ganzen Reihe von Items gebildet, in denen die Erfahrungen der Schüler mit verschiedenen Gewalttaten erfasst wurden. Die auf diese Art erzeugten Indizes drücken zum einen die Erlebnisse der Opfer, zum anderen die der Täter aus. Sowohl die Opfer- als auch die Täter-Indizes bestehen jeweils aus vier Dimensionen: physische Gewalt gegen Personen, physische Gewalt gegen Sachen, psychische Gewalt und verbale Gewalt. Jeder Index kann einen Wert zwischen 0 (keinerlei Erfahrungen mit Gewalt aus dem jeweiligen Bereich; Verneinung aller Items) und 10 (sämtliche Items wurden bejaht) annehmen.

Im Datensatz liegen weiterhin eine Reihe soziodemographischer Merkmale vor, mit denen im Anschluss an die Clusteranalyse zusätzlich Korrespondenzanalysen durchgeführt werden können, um Zusammenhänge von den erzeugten Clustern (Gruppen) und Merkmalen grafisch zu veranschaulichen.

3 Methodische Vorüberlegungen

Da der Datensatz aus über 4000 Fällen besteht, ist es zunächst einmal sinnvoll, sich eine 10%ige Zufallsstichprobe zu erstellen. Diese ermöglicht es, Dendogramme anzufertigen und

1Backhaus, K. et al. (2003). Multivariate Analysemethoden. Eine anwendungsorientierte Einführung. 10. Auflage. Berlin: Springer.

Page 2

sich so einen Überblick über die Daten zu verschaffen und das weitere Vorgehen bei der Analyse zu planen. Nachdem die Stichprobe anhand der Häufigkeitsverteilungen darauf überprüft wurde, ob sie den Verhältnissen im Datensatz entspricht, kann mit der eigentlichen Analyse angefangen werden.

Für die Clusteranalyse können unterschiedliche Fusionsalgorithmen verwendet werden. Im vorliegenden Fall wird sie sowohl mit dem WARD-Verfahren als auch mit Complete Linkage durchgeführt. Beim Complete Linkage Verfahren werden auf jeder Fusionsstufe für alle Klassen die Abstände der am weitesten voneinander entfernten Objekte bestimmt. Fusioniert werden dann diejenigen beiden Klassen, für die dieser Abstand am geringsten ist. Die auf diese Art klassierten Objekte sind also nicht nur dem nächstgelegenen Nachbar ähnlich, sondern allen Objekten innerhalb der Klasse. Beim Ward-Verfahren hingegen werden die Klassen berechnet, indem die quadrierte euklidische Distanz für alle Objektpaare bestimmt wird und dann diejenigen Objekte zu Klassen zusammengefasst werden, bei deren Fusion der geringste Zuwachs des Heterogenitätsmaßes (Fehlerquadratsumme) resultiert. Eine Betrachtung der Dendogramme beider Verfahren ergibt, dass beim Complete Linkage viele sehr schwach besetzte Klassen sowie eine riesige Klasse gebildet werden. Dies ist für die Durchführung einer Clusteranalyse wenig sinnvoll und führt daher zu der Entscheidung, die weiteren Analysen auf dem Ward-Verfahren basieren zu lassen, da die Klassensituation hier deutlich besser aussieht.