Multivariate Analysemethoden - J. Winke - E-Book

Multivariate Analysemethoden E-Book

J. Winke

0,0

Beschreibung

Die Komplexität der Umwelt macht die Analyse von mehreren statistischen Variablen in einem Modell immer wichtiger. Für die Wirtschaft steigt somit die Bedeutung von multivariaten Analysemethoden und deren Fähigkeiten Zusammenhänge zu erkennen und die Zukunft zu prognostizieren. Die multivariaten Analysemethoden finden in vielen Bereichen der Marktforschung und des Marketings Anwendung. Multivariate Analysemethoden sind u.a. wichtig für die Produktpositionierung, Kundensegmentierung, Wettbewerbsanalyse oder für zahlreiche Forschungsprojekte. Im Buch finden Sie alle wichtigen Analysemethoden, die Sie kennen müssen: · Varianzanalyse · Faktorenanalyse · Clusteranalyse · Multiple Regression · Entscheidungsbaumanalyse · Analyse fehlender Werte · Korrespondenzanalyse Die Inhalte sind dabei einfach und verständlich erklärt. Über 150 Abbildungen und SPSS-Outputs helfen Ihnen, damit der einfache Einstieg in die multivariate Analyse gelingt. Die unterschiedlichen Analyseverfahren werden zusätzlich noch an Beispielen angewendet und erklärt. Das Buch beinhaltet: · Die wichtigsten multivariaten Analyseverfahren · Über 150 Abbildungen · Viele Beispiele und SPSS-Outputs · Über 35 wissenschaftliche Quellen Der Fokus dieses Buches liegt dabei nicht auf den komplexen mathematischen Hintergründen, die das Verständnis oft erschweren. Ziel ist es, Ihnen die richtige Anwendung und praktische Umsetzung der multivariaten Verfahren einfach und leicht verständlichen zu beschreiben. Getreu dem Motto: Datenanalyse einfach erklärt. Beginnen Sie sofort mit ihrer eigenen multivariaten Datenanalyse zum fairen Preis. Das Buch bietet Ihnen den optimalen Einstieg in die Grundlagen der Analysen und deren Anwendungen.

Sie lesen das E-Book in den Legimi-Apps auf:

Android
iOS
von Legimi
zertifizierten E-Readern

Seitenzahl: 181

Veröffentlichungsjahr: 2021

Das E-Book (TTS) können Sie hören im Abo „Legimi Premium” in Legimi-Apps auf:

Android
iOS
Bewertungen
0,0
0
0
0
0
0
Mehr Informationen
Mehr Informationen
Legimi prüft nicht, ob Rezensionen von Nutzern stammen, die den betreffenden Titel tatsächlich gekauft oder gelesen/gehört haben. Wir entfernen aber gefälschte Rezensionen.



Multivariate

Analysemethoden

Multivariate Statistik und

Datenanalyse mit SPSS

einfach erklärt

Inhaltsverzeichnis

Abbildungsverzeichnis

Die Analyse fehlender Werte

Eine Einführung

Was sind fehlende Werte?

Wodurch entstehen fehlende Werte?

Warum sind fehlende Werte ein Problem?

Die Ursache fehlender Werte

Folgen und Konsequenzen fehlender Werte

Beeinflussung der Validität

Klassifikation der fehlenden Werte

Vorgehen bei der Analyse fehlender Werte

Kann man fehlende Werte ignorieren?

Das Ausmaß der fehlenden Werte analysieren

Die Löschung von unvollständigen Daten

Tests zur Analyse der Zufälligkeit

Auswahl der Methode

1.Klassische Verfahren

2.Imputationsbasierte Verfahren

Allgemeine Handlungsempfehlung

Die Clusteranalyse

Einführung

Vorbereitung der Daten

Voraussetzung für Clusteranalyse

Das Vorgehen bei der Clusteranalyse

1) Erstellung der Proximitätsmatrix

Binäre/ nominale Variablenstruktur

Ordinale Variablenstruktur

Metrische Variablenstruktur

Gemischt skalierte Variablenstruktur

2) Auswahl des Clusterverfahrens

Agglomerative Algorithmen (hierarchisch)

Partitionierende Verfahren (K-Means)

3) Festlegung Clusterzahl

4) Clusterdiagnose

Explorative Faktorenanalyse

Einleitung

Voraussetzungen der Faktorenanalyse

Ablauf der Faktorenanalyse

Variableneignung

Kommunalität & Faktorenextraktion

Kommunalität

Extraktionsmethoden

Die Zahl der Faktoren bestimmen

Faktorinterpretation

Die Rotation

Benennung der Faktoren

Faktorwerte bestimmen

Ablauf in SPSS

Die Entscheidungsbaumanalyse

Eine Einführung

Modellannahmen/ Voraussetzungen

Die Baumstruktur

Aufbaumethoden des Baums & Ablauf

Merging-Phase

Split-Phase

Vorgehen in SPSS

Interpretation der Ergebnisse

Der Baumeditor

Schritt-für-Schritt-Anleitung

Multiple Regression

Einsatzbereich

Vorgehensweise

1. Modellformulierung

2. Schätzung der Regressionsfunktion

3. Prüfung der Regressionsfunktion

4. Prüfung der Regressionskoeffizienten

5. Prüfung der Modellprämissen

Analyse einflussreicher Beobachtungen

Ausreißer

Hebelwerte (eng. leverage)

Cook-Distanzen

Ergänzungen

Dummy Variablen

Methoden der Multiplen Regression

Korrespondenzanalyse

Allgemeines

Grundlagen der Korrespondenzanalyse

Einordnung

Fragestellung und Anspruch an die Daten

Zielsetzung

Anwendungsbereiche

Vorgehensweise

Erstellung der Zeilen- und Spaltenprofile

Festlegung der geometrischen Schwerpunkte der

Das geometrische Modell – Marken im Raum der Merkmale

Ermittlung der Streuungen (Distanzen)

Standardisierung der Daten

Extraktion der Dimensionen

Ermittlung der Koordinaten

Interpretation

Symmetrische Normalisierung

Asymmetrische Normalisierung

Übersicht

Fazit

Vorgehensweise in SPSS

Abkürzungen

Varianzanalyse

Problemstellung

Einfaktorielle ANOVA

Modellgleichung

Hypothesen

Streuungszerlegung (sum of squares)

F-Statistik

Modellannahmen

SPSS Durchführung

Interpretation der SPSS-Ergebnisse

Zweifaktorielle ANOVA

Modellgleichung

Hypothesen

Streuungszerlegung

F-Statistik

Modellannahmen

Wechselwirkungen

SPSS Durchführung

SPSS Interpretation

Einfaktorielle ANOVA mit Messwiederholung

Modellgleichung

Hypothesen

Streuungszerlegung

F-Statistik

Modellannahmen

SPSS Durchführung

SPSS Interpretation

Mehrfaktorielle ANOVA mit Messwiederholung (Mixed ANOVA)

Hypothesen

Streuungszerlegung

F-Statistik

Modellgüte

Modellannahmen

SPSS Durchführung

SPSS Interpretation

Quellenverzeichnis

Abbildungsverzeichnis

Abbildung 1: Übersicht Validität21

Abbildung 2: Missing at completely random23

Abbildung 3: Missing at random24

Abbildung 4: Missing not at random25

Abbildung 5: Univariate Statistik (Vorgehen in SPSS)29

Abbildung 6: Kreisdiagramm über fehlende Werte29

Abbildung 7: Variablenzusammenfassung (Output SPSS)30

Abbildung 8: Ein Muster fehlender Werte (SPSS Output)31

Abbildung 9: Muster fehlender Werte (SPSS Output)32

Abbildung 10: Test der fehlenden Werte (Vorgehen in SPSS)34

Abbildung 11: T- Tests bei unterschiedlicher Varianz35

Abbildung 12: Kreuztabelle 1 (SPSS Output)37

Abbildung 13: Kreuztabelle 2 (SPSS Output)38

Abbildung 14: Betrachtung Muster (Vorgehen in SPSS)39

Abbildung 15: Muster in Tabellen (Output in SPSS)40

Abbildung 16: MCAR-Test nach Little42

Abbildung 17: Listenweiser Fallausschluss (Vor- und Nachteile)43

Abbildung 18: Paarweiser Fallausschluss (Vor- und Nachteile)44

Abbildung 19: Mittelwert-Imputation (Vor- und Nachteile)45

Abbildung 20: Regressions-Imputation (Vor- und Nachteile)46

Abbildung 21: Hot und Cold Deck Verfahren (Vor- und Nachteile)46

Abbildung 22: Multiple Imputation47

Abbildung 23: Vorgehen der multiplen Imputation in SPSS52

Abbildung 24: Interpretation SPSS Output multiple Imputation56

Abbildung 25: Die Clusteranalyse59

Abbildung 26: Abwägung Variablenzahl60

Abbildung 27: Rohdatenmatrix in Ähnlichkeitsmatrix überführen62

Abbildung 28: Ähnlichkeits- und Distanzmaß,63

Abbildung 29: Proximitätsmaße in SPSS (Vorgehen)65

Abbildung 30: Proximitätsmaße mit Skalenniveau65

Abbildung 31: Binäre Option in SPSS66

Abbildung 32: Kombinationsmöglichkeiten binäre Variablenstruktur66

Abbildung 33: Näherungsmatrix nach Jaccard67

Abbildung 34: Näherungsmatrix nach Russell und Rao68

Abbildung 35: Näherungsmatrix nach M-Koeffizient68

Abbildung 36: Beispiele Auswahl binär Koeffizienten69

Abbildung 37: Näherungsmatrix nach Chi-Quadrat-Maß71

Abbildung 38: Näherungsmatrix City-Block-Metrik (Distanzmaß)73

Abbildung 39: Näherungsmatrix (quadrierte) euklidische Distanz74

Abbildung 40: Näherungsmatrix Pearson-Korrelationskoeffizient76

Abbildung 41: Übersicht Ähnlichkeits- und Distanzmaße76

Abbildung 42: Ähnlichkeits- und Distanzmaße77

Abbildung 43: genaues Vorgehen in SPSS (Distanz- und Ähnlichkeitsmaße)79

Abbildung 44: Übersicht Clusterverfahren81

Abbildung 45: Single Linkage Verfahren82

Abbildung 46: Complete-Linkage-Verfahren83

Abbildung 47: Average Linkage-Verfahren83

Abbildung 48: Vorgehen Clusteranalyse in SPSS89

Abbildung 49: Zuordnungsübersicht (SPSS-Output)89

Abbildung 50: Eiszapfendiagramm (SPSS-Output)90

Abbildung 51: Dendrogramm (SPSS-Output)91

Abbildung 52: Vorgehen k-Means in SPSS96

Abbildung 53: Interpretation SPSS-Output K-Means-Verfahren99

Abbildung 54: Übersicht Clusterverfahren100

Abbildung 55: Zielkonflikt der Clusterzahl100

Abbildung 56: Zuordnungsübersicht101

Abbildung 57: Das Elbow-Kriterium102

Abbildung 58: Erstellung multivariate Profile103

Abbildung 59: Clusteranalyse mit Hilfe multivariater Profile104

Abbildung 60: explorative vs. konfirmatorische Faktorenanalyse106

Abbildung 61: Bildung der Faktoren107

Abbildung 62: Zielkonflikt der Faktorenanalyse108

Abbildung 63: Das Fundamentaltheorem109

Abbildung 64: Ablauf der Faktorenanalyse112

Abbildung 65: Es sollten hohe und niedrige Korrelationen vorliegen113

Abbildung 66: Signifikanz der Korrelationen114

Abbildung 67: Inverse Korrelationsmatrix114

Abbildung 68: Image vs. Anti-Image115

Abbildung 69: Anti-Image-Matrix115

Abbildung 70: Der Bartlett-Test116

Abbildung 71: Interpretation der MSA Werte117

Abbildung 72: MSA-Werte der einzelnen Variablen118

Abbildung 73: Komponenten der Gesamtvarianz bei einer 1 Faktor119

Abbildung 74: Grafische Darstellung (Vektor-Diagramm)121

Abbildung 75: Übersetzung von Winkel in Korrelation121

Abbildung 76: Totale Varianzaufklärung122

Abbildung 77: Hauptkomponentenanalyse (SPSS Output)123

Abbildung 78: Hauptachsenanalyse (SPSS Output)124

Abbildung 79: Iterationsmaximum erreicht125

Abbildung 80: Iterationen in SPSS manuell einstellen126

Abbildung 81: Vergleich Hauptachsen- & Hauptkomponentenanalyse126

Abbildung 82: Vergleich der Kommunalitäten127

Abbildung 83: Berechnung Kaiser Kriterium129

Abbildung 84: Berechnung der Kommunalität130

Abbildung 85: Faktorauswahl nach Kaiser Kriterium131

Abbildung 86: Zusammenhang Eigenwert und Kommunalität131

Abbildung 87: Beispiel Scree-Plot132

Abbildung 88: Faktorinterpretation134

Abbildung 89: rotierte Lösung der orthogonalen Rotation135

Abbildung 90: Unterschiede in der Faktorenmatrix nach Rotation136

Abbildung 91: rotierte Lösung der oblique Rotation137

Abbildung 92: SPSS Output Oblique Rotation138

Abbildung 93: Vergleich der orthogonalen und obliquen Rotation139

Abbildung 94: Beispiel Faktorenbezeichnung140

Abbildung 95: Schätzverfahren zur Bestimmung der Faktorwerte142

Abbildung 96: 3-Dimensionales-Ladungsdiagramm143

Abbildung 97: Ein-Dimensionales-Ladungsdiagramm144

Abbildung 98: Vorgang der Faktorenanalyse in SPSS145

Abbildung 99: Einordung der Entscheidungsbaumanalyse148

Abbildung 100: Zuordnung des richtigen Datenniveaus149

Abbildung 101: Wertelabels vergeben.150

Abbildung 102: Unterschied CHAID- & Exhaustive CHAID-Verfahren152

Abbildung 103: Aufbaumethode Exhaustive CHAID (SPSS)153

Abbildung 104: Übersicht Tests für Datenniveaus154

Abbildung 105: mehrdimensionale Kontigenztabelle155

Abbildung 106: Kreuztabellen Mergen Schritt 1 (Beispiel)157

Abbildung 107: Kreuztabellen Mergen Schritt 2 (Beispiel)158

Abbildung 108: Übersicht p-Wert der Unterteilungsebenen158

Abbildung 109: Merging der Kategorie 1 und 2 (Beispiel)159

Abbildung 110: „Siegervariante“ des Merging-Prozesses160

Abbildung 111: Kreuztabelle Split-Phase162

Abbildung 112: Vorgehen in SPSS (Entscheidungsbaumanalyse)173

Abbildung 113: Interpretation der Ergebnisse181

Abbildung 114: Der Baumeditor182

Abbildung 115: Datenpunkte190

Abbildung 116: SPSS Koeffizienten (einfach)192

Abbildung 117: SPSS Koeffizienten194

Abbildung 118: Streuung195

Abbildung 119: SPSS ANOVA197

Abbildung 120: t-Wert199

Abbildung 121: t-Wert Konfidenzintervalle200

Abbildung 122: kein linearer Zusammenhang erkennbar202

Abbildung 123: linearer Zusammenhang erkennbar202

Abbildung 124: standardisiertes Streudiagramm203

Abbildung 125: Dreiecksmuster mit größer bzw. kleiner werdenden Varianz)204

Abbildung 126: Rhombus Muster (ansteigende und kleiner werdende Varianz)204

Abbildung 127: Residualwerte verändern sich systematisch205

Abbildung 128: QQ-Diagramm206

Abbildung 129: Histogramm207

Abbildung 130: Positive Autokorrelation208

Abbildung 131: Negative Autokorrelation209

Abbildung 132: Autokorrelation (Durbin/Watson)210

Abbildung 133: Venn-Diagramm, geringe Multikollinearität211

Abbildung 134: Venn-Diagramm, keine Multikollinearität212

Abbildung 135: Venn-Diagramm, hohe Multikollinearität (Katastrophe)212

Abbildung 136: Korrelationsmatrix213

Abbildung 137: Toleranz & VIF für das Fallbeispiel214

Abbildung 138: Multivariate Analyseverfahren219

Abbildung 139: Fallbeispiel Datensatz220

Abbildung 140: Zeilenprofile223

Abbildung 141: Spaltenprofile223

Abbildung 142: Massen der Zeilen224

Abbildung 143: Massen der Spalten225

Abbildung 144: Geometrisches Modell226

Abbildung 145: Grafische Darstellung228

Abbildung 146: Kreuztabelle Marke*Merkmal229

Abbildung 147: Chi-Quadrat-Tests230

Abbildung 148: Totale Inertia231

Abbildung 149: relative Häufigkeiten233

Abbildung 150: Zentrierte Werte234

Abbildung 151: Standardisierte Daten236

Abbildung 152: SPSS Output237

Abbildung 153: Übersicht Zeilenpunkte239

Abbildung 154: Übersicht Spaltenpunkte240

Abbildung 155: SPSS Zeilenpunkte242

Abbildung 156: SPSS Spaltenpunkte243

Abbildung 157: Zeilenpunkte für Marke245

Abbildung 158: Zeilenpunkte für Merkmal246

Abbildung 159: Zeilen- und Spaltenpunkte247

Abbildung 160: Zeilen-Prinzipal-Normalisierung249

Abbildung 161: Spalten-Prinzipal-Normalisierung251

Abbildung 162: Vorgehensweise SPSS258

Abbildung 163: Struktur der ANOVA263

Abbildung 164: Streuungszerlegung265

Abbildung 165: Streuungszerlegung266

Abbildung 166: Effektstärke268

Abbildung 167: Vorgehen in SPSS273

Abbildung 168: SPSS Ausgaben276

Abbildung 169: Odinal281

Abbildung 170: Disordinal282

Abbildung 171: Hybrid283

Abbildung 172: Vorgehen in SPSS289

Abbildung 173: SPSS Ausgaben290

Abbildung 174: Vorgehen in SPSS295

Abbildung 175: SPSS Ausgaben297

Abbildung 176: Vorgehen in SPSS305

Abbildung 177: SPSS Ausgaben308

Die Analyse fehlender Werte

Eine Einführung

Was sind fehlende Werte?

„Missing data, where valid values on one or more variables are not available for analysis, are a fact of life in multivariate analysis.“ (Hair, Black, Babin, & Anderson, 2010, S. 42).

Missing Values sind fehlende Werte in den erhobenen Daten, die sich auf wenigen Variablen/ Fällen sammeln oder über den gesamten Datensatz verteilt vorhanden sein können. Sie bedrohen die Validitäten der durchgeführten Studie und können das Verständnis für Effekte beeinflussen. Besonders in der multivariaten Datenanalyse kommen fehlende Werte sehr häufig vor. Aus diesem Grund ist ihre Betrachtung von großer Bedeutung. (Bankhofer, 1995) & (Hair, 2010, S. 42-43)

Wodurch entstehen fehlende Werte?

Missing Values können aus drei folgenschweren Gründen fehlen. Ein erster Aspekt ist der Proband selbst, der das Vorkommen fehlender Werte verursacht. Das ist beispielsweise der Fall, wenn jemand eine Frage nicht beantworten möchte. Ein zweiter Grund ist das Studiendesign selbst, das z.B. durch seine Länge zu viel Zeit von den Probanden verlangt und aus diesem Grund zu fehlenden Werten führt. Ein letzter grundlegender Aspekt ist die Interaktion zwischen Probanden und dem Studiendesign/ Versuchsleiter. Probanden sind eventuell nicht fähig genug eine Frage zu beantworten. Es könnte auch sein, dass die Fragen zu intim sind und der Proband nicht antworten möchte. (Ausführliche Darbietung der Gründe siehe: die Ursache fehlender Werte) (Bankhofer, 1995, S. 5-12)

Warum sind fehlende Werte ein Problem?

Fehlende Werte haben einen Einfluss auf die Generalisierbarkeit der Daten. Beispielsweise ist die Verallgemeinerung der Ergebnisse nicht möglich, wenn die Mehrheit der Studienteilnehmer, denen es während des Experiments schlecht erging, abbricht und deswegen die Ergebnisse vor allem auf den Probanden beruhen, die positiv auf die Bedingung reagiert haben. Ebenfalls können falsche Schlussfolgerungen gezogen werden, wenn die fehlenden Daten die Beziehungen zwischen den Variablen beeinflussen. Außerdem können Missing Values (fehlende Werte) zu nichtrepräsentativen Stichproben führen, wenn als Verfahren z.B. der listenweise Fallausschluss (siehe Kapitel: Vorgehen) genutzt wird. Ebenfalls haben fehlende Werte einen Einfluss auf die unterschiedlichen Validitäten, was mit dem Problem der Generalisierbarkeit einhergeht. (Hair, 2010, S. 42-43) & (Bankhofer, 1995, S. 25-27)

Die Ursache fehlender Werte

Die Ursachen fehlender Werte sind in drei großen Bereichen der empirischen Forschung zu finden. Beginnend mit dem Untersuchungsdesign, über die Datenerhebung selbst und auch in der Datenauswertung können Gründe für das Entstehen fehlender Werte gefunden werden.

a) Untersuchungsdesign

Grundsätzlich gilt, dass das Untersuchungsdesign so umfangreich wie nötig und so knapp wie möglich sein sollte, um möglichst viele Informationen durch möglichst wenige Variablen und wenig (Zeit)Aufwand der Probanden zu generieren. Folgende Ursachen können Gründe für das Entstehen von fehlenden Werten sein: (Bankhofer, 1995, S. 8-12)

Fehlerhaftes Untersuchungsdesign:

Das Untersuchungsdesign wird so bestimmt, dass es sehr wahrscheinlich abzusehen ist, dass es zu fehlenden Werten kommt. Beispiel: Wenn in einer Studie das Merkmal „Alter des Ehepartners“ abgefragt wird und sich jedoch auch unverheiratete Personen unter den Probanden befinden, kommt es, soweit keine „Non-Option“ gibt, zu fehlenden Werten. Ein weiteres Beispiel wäre: Es wird nach dem Alter der Kinder gefragt, ohne angeben zu können, keine zu haben. Bei kinderlosen Personen kommt es hier zu fehlenden Werten. (Bankhofer, 1995, S. 8-12)

Mangelhaftes Untersuchungsdesign:

Das Design kann durch unübersichtliche Anordnungen, missverständliche Fragen, unbekannten Wörtern oder Redewendungen in den Fragestellungen fehlende Werte verursachen. (Bankhofer, 1995, S. 8-12)

b) Die Datenerhebung

Auch die Datenerhebung selbst kann für fehlende Werte verantwortlich sein. Folgende Gründe könnte es geben:

Übersehen von Fragen:

Bei schriftlichen Befragungen kann es sein, dass der Proband eine Frage übersieht. Das kann dem Interviewer auch bei einer mündlichen Untersuchung passieren. Gründe dafür sind zumeist Ablenkung oder technische Mängel in der Untersuchung. (Bankhofer, 1995, S. 8-12)

Mangelndes Wissen:

Der Proband ist selbst mit Mühe nicht in der Lage eine Frage zu beantworten. Das ist besonders dann der Fall, wenn die Fragen auf Ereignisse abzielen, die längere Zeit zurückliegen. (Bankhofer, 1995, S. 8-12)

Dieser Art der fehlenden Werte klammern Angaben, wie z.B. „Ich weiß nicht“ aus, da diese vor allem auf eine Unentschlossenheit oder Unentschiedenheit der Probanden zurückgehen. Solche unentschlossenen Angaben sind keine fehlenden Werte, sondern Informationen.

Antwortverweigerung:

Ein Proband verweigert die Antwort auf eine Frage, unabhängig ob diese schriftlich oder mündlich gestellt wurde. Insbesondere tritt diese Ursache fehlender Werte dann auf, wenn die befragten Personen eine Verletzung der Privatsphäre vermuten. Beispiel: Probanden beantworten Fragen nach dem eigenen Trink-, Rauch- oder Sexualverhalten bewusst nicht. (Bankhofer, 1995, S. 8-12)

Motivationsprobleme:

Geringe Motivation von dem Interviewer oder der Testperson sorgen ebenfalls für Missing Values. Die fehlende Motivation geht auf eine Abneigung gegen die Befragungssituation, den Interviewer, die Erhebung allgemein oder auf die Länge der Befragung zurück. Ein Mangel an Motivation kann, z.B. auf geringe Vergütung, zurückgeführt werden. (Bankhofer, 1995, S. 8-12)

Verständnisprobleme:

Der Befragte kann die ihm gestellte Frage nicht richtig verstehen und hat deswegen Probleme zu antworten. (Bankhofer, 1995, S. 8-12)

Meinungslosigkeit:

Der Proband gibt keine Antwort auf eine Frage nach seiner Meinung, weil er entweder keine Meinung zu dieser Thematik hat oder sie nicht formulieren kann. (Bankhofer, 1995, S. 8-12)

Zeitprobleme:

Eine befragte Person hat zur Beantwortung eines Fragebogens nur limitiert Zeit und ist nicht in der Lage, alle ihr gestellten Fragen in dieser Zeit zu beantworten. In solchen Fällen sammeln sich die fehlenden Werte am Ende der Befragung. (Bankhofer, 1995, S. 8-12)

Filterführung des Interviewers:

Während der Befragung überspringt der Interviewer absichtlich bestimmte Fragen. Beispiel: Die Befragten, die angeben Raucher zu sein, werden weitere Fragen zu diesem Thema gestellt. Andere, die angeben Nichtraucher zu sein, haben dadurch bei den Fragen über Rauchen fehlende Werte. (Bankhofer, 1995, S. 8-12)

Unaufmerksamkeit des Beobachters:

Werden in einer Studie auf Beobachtungen wert gelegt, erhält man fehlende Werte, wenn der Beobachter in der Zeit unaufmerksam ist und ihm deshalb der zu beobachtenden Sachverhalt entgeht. (Bankhofer, 1995, S. 8-12)

Technische Mängel:

Fehlende Werte können auf technische Defekte zurückgeführt werden. Beispiel: Bei Video- und Blickaufzeichnungen (z.B. Eye-Tracking-Studien) wird durch einen technischen Mangel der zu beobachtende Sachverhalt (die Blickrichtung) verpasst bzw. nicht erfasst. (Bankhofer, 1995, S. 8-12)

c) Die Datenauswertung

Auch in der Datenauswertung können einige Ursachen für fehlende Werte gefunden werden.

Codierungsfehler:

Fehlende Werte entstehen dann, wenn eigentlich vorhandene Werte irrtümlicherweise als fehlend codiert werden. (Bankhofer, 1995, S. 8-12)

Übertragungsfehler:

Wenn Daten beispielsweise von einem schriftlichen Fragebogen in SPSS überführt werden und dabei manuell eingetippt werden müssen, kann es zu fehlenden Werten kommen. Diese können auch durch Fehler beim elektronischen Einlesen von Daten und deren Abspeicherung hervorgerufen werden. (Bankhofer, 1995, S. 8-12)

Löschung von unmöglichen Daten:

Ein Wert wird aus dem Datensatz entfernt, weil er in diesem Kontext unmöglich sein kann, was bei der Überprüfung der Daten sichtbar wird. Beispiel: Alphanumerische Zeichen werden gelöscht, wenn sie bei einer Variablen auftreten, die eigentlich nur numerische Ausprägungen besitzen darf. (Bankhofer, 1995, S. 8-12)

Löschung von fehlerhaften Daten:

Daten werden bei der Überprüfung als fehlerhaft erkannt und vom Forscher oder der Forscherin entfernt, obwohl sie grundsätzlich realisierbar wären und eigentlich korrekt sind. (Bankhofer, 1995, S. 8-12)

Folgen und Konsequenzen fehlender Werte

Aus dem Problem der fehlenden Werte können konkrete Folgen für die Praxis abgeleitet werden. Diese sind unter anderem Fehler in den statistischen Daten, Biases (=systematische Fehler) in den Parameterschätzungen, fehlerhafte Interpretationen der Ergebnisse sowie das Begrenzen der Repräsentativität und der Stärke der Stichprobe. So kann es durch Missing Values zu fehlerhaften statistischen Ergebnissen kommen, die bei Beachtung der fehlenden Werte anders ausgefallen wären. Werden fehlende Werte in den Datensätzen von Forschern vernachlässigt, ist dieses Vorgehen nicht mit einer wissenschaftlichen Arbeitsweise vereinbar. Besonders die Validität einer Studie wird von Missing Values beeinflusst. (Bankhofer, 1995, S. 25-27) & (Hair, 2010, S. 42-43)

Beeinflussung der Validität

Abbildung 1: Übersicht Validität

Eigene Darstellung, Quelle: vgl. (Lüdtke & Trautwein, 2007)

a) Konstruktvalidität

Konstruktvalidität gibt an, wie gut die erfassten Variablen das vorgesehene Konstrukt messen und wie gut die Werte die relevanten Variablen voraussagen. Ist die Konstruktvalidität hoch, dann fallen die Testwerte so aus, wie es die Theorie und die Hypothese vorgibt. (Döring & Bortz, 2016)

Durch fehlende Werte in den Variablen ist es möglich, dass das zu erfassende Konstrukt (eine Fragestellung oder eine Hypothese) dahinter nicht vollständig oder fehlerhaft erschlossen wird. Besonders im Fall der mono-Operations sind fehlende Daten besonders nachteilig. Mono-Operations sind einzelne Messungen, die durch ein einzelnes Item oder multiple Items bestehen und zur Repräsentation des Konstrukts bzw. Konzepts dienen. Das ist z.B. dann der Fall, wenn das Rauchverhalten (als Konstrukt) durch die Anzahl konsumierter Zigaretten in den letzten 24 Stunden gemessen wird. Fehlt der Wert für die konsumierten Zigaretten, kann das Konstrukt Rauchen nicht erfasst werden. (Allison, 2002) & (McKnight, McKnight, Sidani, & Figueredo, 2007) & (Schafer & Graham, 2002)

Ein kleinerer Item-Pool führt ebenfalls mit fehlenden Werten zu einer größeren Fehlervarianz und diese dann wiederum zu geringerer Reliabilität in den Messungen. Der Informationsverlust, welcher mit Missing Values einhergeht, führt außerdem zu unvollständigen Repräsentationen des Konstrukts und damit automatisch zu einer kleineren Konstruktvalidität.

b) Interne Validität

Die interne Validität ist gegeben, wenn Unterschiede in der abhängigen Variablen mit Sicherheit auf Unterschiede in der unabhängigen Variablen zurückgeführt werden können.

Die interne und externe Validität beeinflussen sich gegenseitig. Durch die mit fehlenden Werten einhergehende Stichprobenselektion gibt es Unterschiede in den Gruppen, die wiederum zu einem systematischen Fehler führen. Dadurch entstehen nicht-repräsentative Stichproben, die neben der internen auch die externe Validität verkleinern. Durch Randomisierung, d.h. Probanden werden zufällig auf unterschiedliche und identische Gruppen aufgeteilt, kann es auch zu fehlenden Werten kommen. Wenn es teilnehmerbedingt zu fehlenden Werten kommt, verursacht dieser Grund der fehlenden Werte ungleiche Stichprobengrößen, was wiederum die statistischen Voraussetzungen für viele Vorgänge in SPSS verletzt, wodurch es zu einer kleineren Validität in den Ergebnissen der statistischen Auswertung kommt. (Allison, 2002) & (McKnight, McKnight, Sidani, & Figueredo, 2007) & (Schafer & Graham, 2002)

c) Externe Validität

Die externe Validität gibt an, inwieweit sich die Testergebnisse über die Untersuchungssituation verallgemeinern lassen (Döring & Bortz, 2016). Bei homogenen Stichproben (viele Probanden ähneln sich) ist die Streuung der Werte/ Antworten gering. Der Test wird also schneller signifikant, aber die Repräsentativität der Ergebnisse für eine heterogene Grundgesamtheit sinkt. Wenn fehlende Werte in den Daten auftreten, dann kann es zu Schwierigkeiten mit den Schlussfolgerungen und Interpretationen der Ergebnisse kommen. Dies kann falsche Rückschlüsse hervorrufen, die dann möglicherweise falsche Richtlinien verursachen. (Allison, 2002) & (McKnight, McKnight, Sidani, & Figueredo, 2007) & (Schafer & Graham, 2002)

Klassifikation der fehlenden Werte

Um die richtigen Methoden zur Behandlung fehlender Werte auswählen zu können, ist es von Bedeutung zu wissen, ob hinter den fehlenden Werten eine Systematik liegt. Die Klassifikation der fehlenden Werte erfolgt nach der Arbeit von Rubin in drei Arten (Rubin, 1976):

a) MCAR – Missing completely at random

Abbildung 2: Missing at completely random

Eigene Darstellung, Quelle: (IBM®, 2020)

Die Werte in den Daten fehlen vollständig zufällig. Das Auftreten der fehlenden Werte (sowohl X als auch Y) lassen sich weder auf Ausprägungen der betreffenden Variablen noch auf andere Variablen im Datensatz zurückzuführen. (IBM Corp., 2017, S. 2)

Beispiel: Bei der vorliegenden Studie wird das Haushaltseinkommen, das Alter und das Geschlecht erhoben. Bei dem Haushaltseinkommen treten fehlende Werte auf, die MCAR sind, wenn sie weder vom Einkommen selbst noch vom Alter oder Geschlecht abhängen. Man kann also keinen systematischen Ausfall im Datensatz feststellen. Hier sind die fehlenden Werte gleichmäßig (zufällig) verteilt. (Bankhofer, 1995, S. 14-16) & (Lüdtke & Trautwein, 2007)

b) MAR – Missing at random

Abbildung 3: Missing at random

Eigene Darstellung, Quelle: (IBM®, 2020)

Einige Daten fehlen „bedingt“ zufällig. Die fehlenden Werte von Y hängen von X ab, aber nicht von Y selbst. Bedeutet:

Das Auftreten von fehlenden Daten hängt von der Ausprägung einer anderen beobachteten Variablen ab, aber nicht von der Ausprägung der Variable selbst. Die Folge daraus ist eine eingeschränkte Generalisierbarkeit der Ergebnisse. (IBM Corp., 2017, S. 2)

Beispiel: In der Studie werden erneut Haushaltseinkommen, Alter und Geschlecht abgefragt. Bei den fehlenden Werten bei der Variable Einkommen fällt auf, dass die Werte häufiger fehlen, wenn die Variable „Alter“ hohe Werte aufweist. Kurz: Ältere Menschen haben häufiger als jüngere das Einkommen nicht angegeben. (Bankhofer, 1995, S. 14-21) & (Lüdtke & Trautwein, 2007)

c) MNAR – Missing not at random

Abbildung 4: Missing not at random

Eigene Darstellung, Quelle: (IBM®, 2020)

Die Daten fehlen nicht zufällig. Die fehlenden Werte in Y hängen von der Ausprägung in Y ab. Das Auftreten von fehlenden Werten hängt mit der Ausprägung der Variable selbst zusammen (und nicht mit Ausprägungen anderer Variablen im Datensatz, siehe MAR). Es gibt weder einen Test, der diese Verteilung testen kann, noch eine adäquate Methode zur Behandlung von MNAR-Daten. Man sollte MNAR nur ausschließen, wenn der Ausfallmechanismus bekannt ist (z.B. durch weitere empirische Studien). MNAR Daten sollten vermieden werden. (Lüdtke & Trautwein, 2007)

Beispiel: In der Studie mit den Erhebungen zu den Variablen Einkommen, Alter und Geschlecht treten fehlende Werte beim Einkommen auf. Wenn die fehlenden Werte MNAR sind, sind die Werte von der Höhe des Einkommens selbst abhängig. Kurz: Probanden mit einem höheren Einkommen geben dieses häufiger nicht an. Das Problem bei dieser Art fehlender Werte ist, dass sie nur dann sicher festgestellt werden können, wenn der Ausfallmechanismus bekannt ist. Somit muss der Forscher wissen, dass sich hinter den fehlenden Werten vermehrt hohe Werte im Haushaltseinkommen verbergen, was oftmals nicht so offensichtlich wie im Beispiel ist. (Bankhofer, 1995, S. 14-21) & (Lüdtke & Trautwein, 2007)

Vorgehen bei der Analyse fehlender Werte

Kann man fehlende Werte ignorieren?

Einige fehlende Werte können ignoriert werden und müssen demnach in der weiteren Analyse nicht beachtet werden.

Vernachlässigbar sind: