Einstieg in die Datenanalyse mit SPSS - Marco Schuchmann - E-Book

Einstieg in die Datenanalyse mit SPSS E-Book

Marco Schuchmann

0,0

Beschreibung

Dieses Buch dient zum Einstieg in SPSS und zeigt anhand von Beispielen, wie man verschiedene Methoden der Statistik in SPSS anwenden kann. Dabei werden Interpretationshilfen der SPSS-Ausgaben gegeben und es werden diverse Testverfahren mit Beispielen beschrieben. Anhand der Beispiele wird dann auch erklärt, wie man den p-Wert interpretieren kann und welche Schlüsse sich dadurch ergeben. Im Vordergrund stehen dabei die Anwendungen von Verfahren der größtenteils schließenden und beschreibenden Statistik, weniger die graphischen Möglichkeiten. Es werden aber auch Diagramme erstellt und beschrieben, wie beispielsweise der Boxplot. Die Ausgaben und die Tests werden so erklärt, dass sie für Sozialwissenschaftlerinnen und Sozialwissenschaftler oder für Wirtschaftswissenschaftlerinnen und Wirtschaftswissenschaftler verständlich sein sollen. Für diejenigen, die eine weiterführende mathematische Erläuterung haben möchten, wurde jeweils ein Abschnitt „Für mathematisch Interessierte“ eingebaut. Hier werden dann die Größen der SPSS-Ausgabe näher untersucht und es werden auch mathematische Erklärungen gegeben. Wer diese nicht benötigt, kann die entsprechenden Passagen überspringen. Die Ausgaben und die Erklärung der Menüführung wurden auf der Basis der Version 22 erstellt. Es werden aber auch Anmerkungen zur Verwendung von älteren Menüs gegeben. Lernvideos zum Buch finden Sie unter www.statistikpaket.de/SPSS-Videos.html.

Sie lesen das E-Book in den Legimi-Apps auf:

Android
iOS
von Legimi
zertifizierten E-Readern

Seitenzahl: 126

Das E-Book (TTS) können Sie hören im Abo „Legimi Premium” in Legimi-Apps auf:

Android
iOS
Bewertungen
0,0
0
0
0
0
0
Mehr Informationen
Mehr Informationen
Legimi prüft nicht, ob Rezensionen von Nutzern stammen, die den betreffenden Titel tatsächlich gekauft oder gelesen/gehört haben. Wir entfernen aber gefälschte Rezensionen.



Vorwort

Dieses Buch dient zum Einstieg in SPSS und zeigt anhand von Beispielen, wie man verschiedene Methoden der Statistik in SPSS anwenden kann. Dabei werden auch Interpretationshilfen der SPSS-Ausgaben gegeben und es werden diverse Testverfahren mit Beispielen beschrieben. Anhand der Beispiele wird dann auch erklärt, wie man den p-Wert interpretieren kann und welche Schlüsse sich dadurch ergeben.

Im Vordergrund stehen dabei die Anwendungen von Verfahren der größtenteils schließenden und auch beschreibenden Statistik, weniger die graphischen Möglichkeiten. Es werden aber auch Diagramme erstellt und beschrieben, wie beispielsweise der Boxplot.

Die Ausgabe und die Tests werden so erklärt, dass sie auch für Sozialwissenschaftlerinne und Sozialwissenschaftler oder für Wirtschaftswissenschaftlerinne und Wirtschaftswissenschaftler verständliche sein sollen. Für diejenigen, die eine weiterführende mathematische Erläuterung möchten, wurde jeweils ein Abschnitt „Für mathematisch Interessierte“ eingebaut. Hier werden dann die Größen der SPSS-Ausgabe näher untersucht und es werden auch mathematische Erklärungen gegeben. Wer diese nicht benötigt, kann die entsprechenden Passagen überspringen.

Die Ausgaben und die Erklärung der Menüführung wurden auf der Basis der Version 22 erstellt. Es werden aber auch Anmerkungen zur Verwendung von älteren Menüs gegeben.

Inhaltsverzeichnis

1 DATENEINGABE IN SPSS

2 UNIVARIATE STATISTIKEN UND DIAGRAMME

2.1 Berechnung von Kenngrößen

2.2 Das Testen von Hypothesen am Beispiel des Einstichproben t-Tests

2.3 Der Binomialtest

2.4 Berechnung von Rangzahlen (für mathematisch interessierte)

2.5 Der Vorzeichentest (für mathematisch Interessierte)

2.6 Wilcoxon Vorzeichenrangtest für eine Stichprobe

2.7 Kolmogorov-Smirnov-Test auf Normalverteilung

3 ZUSAMMENHÄNGE UNTERSUCHEN

3.1 Kovarianz und Korrelation

3.2 Rangkorrelation nach Spearman

3.3 Kontingenztafeln und Chi-Quadrat-Test

4 VERGLEICH ZWEIER UNVERBUNDENER STICHPROBEN

4.1 Der Zweistichproben t-Test

4.2 Wilcoxon Rangsummentest

5 VERGLEICH ZWEIER VERBUNDENER STICHPROBEN

5.1 t-Test für zwei verbundene Stichproben

5.2 Der Wilcoxon Vorzeichenrangtest für zwei verbundene Stichproben

6 LINEARE REGRESSIONSANALYSE

6.1 Erstes Beispiel zur einfachen linearen Regression

6.2 Zweites Beispiel zur multiplen linearen Regression

7 VERGLEICH MEHRERER UNVERBUNDENER STICHPROBEN

7.1 Die einfaktorielle Varianzanalyse

7.2 Modellgleichung im linearen Modell für mathematisch Interessierte

7.3 Bemerkung zur zweifaktoriellen Varianzanalyse

7.4 Der Kruskal-Wallis Test

8 VERGLEICH MEHRERER VERBUNDENER STICHPROBEN

8.1 Friedman Rang-Varianzanalyse

9 LITERATURVERZEICHNIS

1 Dateneingabe in SPSS

Zunächst soll gezeigt werden, wie in SPSS Daten eingeben und wie die Daten genauer deklarieren werden können. Wir beziehen uns auf den folgenden Datensatz:

Geschlecht (v1)Wie geht es Ihnen? (v2)Alter (v3)1220232422 1121

Wie Sie sehen können, wurde das Geschlecht kodiert, um die Eingabe zu erleichtern. Hier soll 1 für weiblich und 2 für männlich stehen. Analog wurde die Antwort auf die Frage „Wie geht es Ihnen?“ kodiert. 1 steht für „sehr gut“, 2 für „gut“, 3 für „mittelmäßig“ und 4 („schlecht“) und 5 („sehr schlecht“) kommen nicht vor.

Beim Alter hatte die dritte Person keine Angaben gemacht.

Nun gibt es metrisch Daten und nichtmetrisch Daten. Mit metrischen Daten können Sie rechnen (Mittelwerte bestimmen, …). Diese wären z.B. allgemein die Körpergröße, das Körpergewicht, das Alter. Hier haben die Abstände eine feste Bedeutung. Wenn eine Person 25 und die andere 30 Jahre alt ist, dann ist eine 5 Jahre älter.

Bei nichtmetrischen Daten machen die Abstände keinen Sinn, selbst wenn man diese numerisch kodiert (wie beim Geschlecht und dem Gemütszustand oben). Hier dürfen genau genommen keine Mittelwerte berechnet werden, auch wenn dies beispielsweise bei Noten oder bei der Frage v2 oben oft macht wird.

Wir unterscheiden nochmal bei nichtmetrischen Daten zwischen ordinalem und nominalem Niveau. Beim ordinalen Niveau gibt es eine Rangfolge (einer Person, der es sehr gut geht, geht es besser, als einer der es gut geht). Trotzdem dürfte hier man genau genommen keinen Mittelwert berechnen, sondern höchstens einen Median (dieser Teilt die Stichprobe auf, ca. bzw. mind. 50% der Stichprobenwerte sind kleiner oder gleich dem Median, was wir später noch sehen werden).

Einer Person, der es gut geht, der geht es ja nicht halb so schlecht, wie einer, der es sehr gut geht. Oder wenn man die Personen mit sehr gut/gut (1/2) und mittel/schlecht (3/4) vergleicht, dann geht es denen ja nicht genau um jeweils eine Einheit schlechter. Die Werte der Zahlen bzw. die Abstände sind hier nicht definiert.

SPSS kann man das Datenniveau mitteilten. Für metrisch muss man „Skala“ wählen. Nominal und ordinal können eingestellt werden. Es gibt allgemein auch eine Unterscheidung bei metrischen Daten, auf die wir aber nicht näher eingehen.

In SPSS erscheint nach dem Öffnen das lehre Datenfenster.

Bemerkung:

Sie werden zuvor - nach dem Starten von SPSS - gefragt, ob Sie gespeicherte Daten laden möchten oder einen neuen „Dataset“ erstellen möchten. Gespeicherte Daten können Sie auch noch später, wie üblich über den Menüpunkt „Datei“, öffnen. Sie können das Fenster, was sich nach dem Starten öffnet, auch einfach schließen, womit Sie zum Datenfenster gelangen.

Nun können erst mal unsere Daten eingegeben werden (man könnte auch erst die Daten deklarieren, was wir aber im Nachhinein machen).

Der Punkt steht für einen fehlenden Wert. Klickt man doppelt auf eine Spalte (auf deren Überschrift, z.B. Frage 1), erscheint die Variablenansicht. Oder man wählt: →Ansicht →Variablen

Wir ändern zunächst die Variablennamen. Hier könnten wir auch direkt „VAR00001“ in „Geschlecht“ ändern, wir wollen aber erst einmal kurze Bezeichnungen beibehalten und ändern „VAR00001“ in „v1“, „VAR00002“ in „v2“, … .

Die Dezimalstellen können wir alle auf 0 stellen. Bei "Beschriftung" (Variablenlabel) können wir nun die Bedeutung der Variablen festlegen. Z.B. bei v1 „Geschlecht“, bei v2 „Wie geht es Ihnen?“ und bei v3 „Alter“ eintragen. Diese Beschriftungen erscheinen später in der Ausgabe.

Bei den Variablen v1 und v2 können wir nun auch noch die Werte erklären (Wertelabel).

Dazu klicken wir in der Zeile v1 unter Werte auf "Keine" und dann auf den Button, der dann neben "Keine" erscheint. Hier können wir zu jedem Wert eine Bedeutung eintragen.

Wert: 1, Beschriftung: „weiblich.

Danach klicken wir jeweils auf →Hinzufügen.

Wert: 2, Beschriftung: „männlich“.

Danach muss man auf →OK klicken.

Analog legen wir für v2 fest, dass 1 „sehr gut“ ist, …. Nun stellen wir noch das Datenniveau ein (unter Maß):

Danach kann man auf eine Zeilennummer links doppelt klicken oder man wählt: →Ansicht →Daten

Man könnte danach auch →Ansicht →Wertebeschriftung wählen und man sieht die Wertelabels:

In SPSS werden fehlende Werte durch einen Punkt gekennzeichnet. Man kann auch andere Werte als fehlende Werte deklarieren (im vorhergehenden Menü unter „Fehlend“).

Nach der Dateneingabe kann man eine erste Häufigkeitstabelle erstellen, um die Daten zu prüfen. Dies wäre in unserem Fall zwar nicht nötig, aber bei großen Datenmengen sollte man dies schon mal vorab tun.

Wir wählen → Analysieren →Deskriptive Statistiken →Häufigkeiten:

Wie man erkennen kann, werden die Fragen 1, 5 und 7 ausgewählt. Mit der Pfeiltaste in der Mitte wurden die ausgewählten Variablen auf die rechte Seite gezogen. Nach Bestätigen mit →OK wird die Häufigkeitstabelle in einem separaten Fenster angezeigt. Wir betrachten uns mal die Tabelle für das Alter etwas genauer an:

Alter

 HäufigkeitProzentGültige ProzentKumulative ProzenteGültig 20

 21

 24

 Gesamtsumme

Fehlend System

Gesamtsumme

1

1

1

3

1

4

25,0

25,0

25,0

75,0

25,0

100,0

33,3

33,3

33,3

100,0

33,3

66,7

100,0

Wir sehen, dass eine Person 20, eine 21, … Jahre alt war. Daneben stehen die Prozentwerte, wobei der fehlende Wert mit berücksichtigt wird. Dies ist auch interessant, denn wenn beispielsweise drei Personen "ja", eine "nein" und 96 nichts gewählt haben, dann kann man nicht einfach sagen, dass 75% "ja" gesagt haben.

In den beiden letzten Spalten sieht man dann die relativen Häufigkeiten derer, die geantwortet haben und daneben wird noch mal kumuliert. D.h. ca. 33,3% waren 20 Jahre alt, aber ca. 66,7% waren bis zu 21 Jahren alt (21 Jahre oder jünger).

Die Ergebnisse erscheinen in einem extra Fenster. Es gibt damit ein Datenfenster und ein Ausgabenfenster. In beiden Fenstern steht das Menü zur Verfügung. Man kann später separat die Daten und die Ausgabe speichern.

2 Univariate Statistiken und Diagramme

Im diesem Kapitel berechnen wir zunächst Kenngrößen einer einzelnen Stichprobe bzw. so genannte empirische Kenngrößen, wie beispielsweise den Mittelwert. Diese können, unter gewissen Voraussetzungen, als Schätzer für „theoretische“ Kenngrößen einer Zufallsvariablen verwendet werden, wie beispielsweise dem Erwartungswert.

2.1 Berechnung von Kenngrößen

Gegeben sei folgende Stichprobe: 167,163,155,167,161,177,173,179. Diese Werte könnten als Körpergrößen von zufällig ausgewählten Schülern einer Schule interpretiert werden.

Die folgenden Daten werden zunächst in SPSS eingegeben.

v1

167

163

155

167

161

177

173

179

Kenngrößen können wir auch über das Menü für Häufigkeitstabellen auswählen. Wir wählen → Analysieren →Deskriptive Statistiken →Häufigkeiten und dort wählen wir v1 aus. Man könnte auch unter →Deskriptive Statistiken →Deskriptive Statistiken wählen, nur hier wird kein Median unter "Optionen" angeboten.

Danach klicken wir auf →Statistiken im selben Fenster und hier erscheint dann folgendes (wir haben schon einige Kenngrößen ausgewählt, die Sie auch wählen können):

Wir klicken auf →Weiter und dann auf Diagramme, wo wir ein Histogramm auswählen.

Histogramme sind für metrische Werte geeignet, gerade wenn viele verschiedene Werte auftreten können, aber nicht für jede einzelne Ausprägung ein Balken, wie beim Balkendiagrammen, erscheinen soll.

Balkendiagramm eigenen sich für ordinale oder nominale Daten und Kreisdiagramm für nominale Daten, bei nicht zu vielen Ausprägungen.

Wir klicken nach der Diagrammauswahl auf →Weiter und dann auf →OK.

Statistiken

Körpergröße

N

 

Gültig

 Fehlend

Mittelwert

Median

Modalwert

Standardabweichung

Varianz

Minimum

Maximum

Perzentile 25

 50

 75

8

0

167,7500

167,0000

167,00

8,20714

67,357

155,00

179,00

161,5000

167,0000

176,0000

Die Ausgabe der Tabelle hätte man auch unterdrücken können (im Menü zu Tabellen den Haken bei „Tabelle anzeigen“ deaktivieren).

Körpergröße

 HäufigkeitProzentGültige ProzentKumulative ProzenteGültig 155,00112,512,512,5 161,00112,512,525,0 163,00112,512,537,5 167,00225,025,062,5 173,00112,512,575,0 177,00112,512,587,5 179,00112,512,5100,0 Gesamtsumme8100,0100,0 

Der Mittelwert liegt bei 167,75cm und der Median bei 167cm, womit ca. die bzw. mindestens die Hälfte der Personen bis zu 167cm groß waren. Der Median ist das 50% Quartil. Da Werte mehrfach vorkommen können, können auch deutlich mehr als 50% der Werte kleiner oder gleich dem (empirischen) Median sein. Im Beispiel sind 62,5% kleiner oder gleich 167cm (siehe Häufigkeitstabelle oben).

Analog gibt es das 25% Quartil, welches hier bei 161,5cm liegt, womit ca. ¼ der Personen bis zu 161,5cm groß waren (hier waren es sogar genau 25%, je nachdem wie groß die Stichprobe ist und wie viele Werte mehrfach vorkommen gibt es Abweichungen zu den %-Zahlen der Quartile).

Die untere Grafik kann mit einem Doppelklick auf selbige bearbeitet werden. D.h. man kann beispielsweise mit einem Doppelklick auf die y-Achse die Skalierung einstellen (den Bereich, der angezeigt wird, aber auch Schrittweite für die Beschriftung), was ähnlich wie in Excel geht.

Wie man sieht, sind mehr Kenngrößen zur Beurteilung einer Stichprobe notwendig, als nur der Mittelwert. Z.B. hätten die beiden Stichproben 170, 169, 171 und 170, 150, 190 beide den selben Mittelwert, nämlich 170, aber die zweite Stichprobe hat eine deutlich größere Standardabweichung. An der Standardabweichung kann man schon mal erkennen, in wie weit der Mittelwert als Vorhersagewert für eine Beobachtung geeignet ist. Wenn der Mittelwert von Jahreseinkommen 40.000€ ist und die Standardabeichung 100€, dann liegen die Werte (Jahreseinkommen) relativ nahe beieinander, wenn diese aber 30000€ beträgt, gibt es eine beachtliche Streuung.

Nehmen wir einmal 10 Personen, 9 haben 0€ auf ihrem Konto, eine hat 1.000.000€. Im Mittel hat jeder 100.000€. Die Streuung wäre riesig. Betrachtet man hier den Median, der unempfindlich gegenüber Ausreißern ist, dann beträgt dieser 0€. Damit weiß man, dass mindestens 50% der Personen höchstens 0€ hatten. Auch das 75% Quartil wäre 0€, womit man weiß, dass mindestens 75% der Personen 0€ hatten. Dadurch kann man schon eher eine Stichprobe beurteilen, als nur über den Mittelwert. Man könnte zur graphischen Beurteilung auch einen Boxplot oder ein Histogramm erstellen, was wir nach dem Teil für "mathematisch Interessierte" im Beispiel tun.

Für mehr mathematisch Interessierte folgt eine genauere Betrachtung der Kenngrößen:

Hier sind einige Kenngrößen von Stichproben zu sehen:

Das arithmetische Mittel:

Die empirische Varianz:

Die empirische Standardabweichung:

Der kleinste und größte Stichprobenwert:

min(xi) und max(xi).

Der empirische Median (eine Möglichkeit der Berechnung):

Hierzu wird zunächst die Stichprobe x1, x2, xn geordnet in x(1), x(2), ..., x(n). Nun kann der empirische Median berechnet werden.

Weitere Kenngrößen sind der empirische Variationskoeffizient die empirische Schiefe und die empirische Wölbung (engl. skewness & kurtosis):

Bei symmetrischen Verteilungen nimmt die Schiefe den Wert 0 an. Da es sich jeweils um die entsprechenden empirischen Werte, also um Schätzer der theoretischen Kenngrößen handelt, ist der Wert bei Stichproben, die aus Realisierungen von symmetrisch verteilten Zufallsvariablen bestehen, nicht automatisch gleich Null. Ist die Abweichung vom Wert 0 zu groß, so ist dies ein Hinweis darauf, dass die theoretische Verteilung nicht symmetrisch sein könnte. Die Schiefe ist - wie die Wölbung - dimensionslos. Die Wölbung einer normalverteilten Zufallsvariable hat den Wert 3, während der Exzess hier den Wert 0 annimmt.

Wir erstellen noch einen Boxplot. Dazu wählen wir: →Diagramme → Alte Dialogfelder →Boxplot. Bei älteren SPSS Versionen müssen Sie statt →Diagramme den Menüpunkt →Grafik wählen.

Hier können Sie →Einfach und Auswertung über verschiedene Variablen auswählen und auf →Definieren klicken. Wir haben zwar nur eine Variable für den Boxplot, wir müssen aber nicht mehrere auswählen. Wenn man den Punkt Auswertung über Kategorien einer Variablen auswählt, muss man mindestens eine Variable auswählen, die die Gruppen definiert, z.B. das Geschlecht, was wir noch gleich sehen werden.

Wählen Sie nun im Menü unter „Box entspricht“ Ihre Variable Körpergröße bzw. v1 aus und dann →OK.

Die Grafik, die sie dann sehen, könnten Sie auch nach einem Doppelklick auf selbige bearbeiten (Achsen formatieren, …).

Die Box verläuft vom 25% Quartil (q25) bis zum 75% Quartil (q75). Die Box umfasst damit ca. 50% der Stichprobenwerte (die mittleren ca. 50%). Es sind keine Ausreißer vorhanden. Diese wären oberhalb oder unterhalb der Whiskers, d.h. der Linien, die oben und unten von der Box weg verlaufen und diese würden mit einem Kringel und der Nummer der Beobachtung gekennzeichnet werde. Es könnten auch extreme Werte vorhanden sein, die mit einem Stern gekennzeichnet werden.

Hier sind mehr Details dazu: