Erhalten Sie Zugang zu diesem und mehr als 300000 Büchern ab EUR 5,99 monatlich.
Die Komplexität der Umwelt macht die Analyse von mehreren statistischen Variablen in einem Modell immer wichtiger. Für die Wirtschaft steigt somit die Bedeutung von multivariaten Analysemethoden und deren Fähigkeiten Zusammenhänge zu erkennen und die Zukunft zu prognostizieren. Die multivariaten Analysemethoden finden in vielen Bereichen der Marktforschung und des Marketings Anwendung. Multivariate Analysemethoden sind u.a. wichtig für die Produktpositionierung, Kundensegmentierung, Wettbewerbsanalyse oder für zahlreiche Forschungsprojekte. Im Buch finden Sie alle wichtigen Analysemethoden, die Sie kennen müssen: · Varianzanalyse · Faktorenanalyse · Clusteranalyse · Multiple Regression · Entscheidungsbaumanalyse · Analyse fehlender Werte · Korrespondenzanalyse Die Inhalte sind dabei einfach und verständlich erklärt. Über 150 Abbildungen und SPSS-Outputs helfen Ihnen, damit der einfache Einstieg in die multivariate Analyse gelingt. Die unterschiedlichen Analyseverfahren werden zusätzlich noch an Beispielen angewendet und erklärt. Das Buch beinhaltet: · Die wichtigsten multivariaten Analyseverfahren · Über 150 Abbildungen · Viele Beispiele und SPSS-Outputs · Über 35 wissenschaftliche Quellen Der Fokus dieses Buches liegt dabei nicht auf den komplexen mathematischen Hintergründen, die das Verständnis oft erschweren. Ziel ist es, Ihnen die richtige Anwendung und praktische Umsetzung der multivariaten Verfahren einfach und leicht verständlichen zu beschreiben. Getreu dem Motto: Datenanalyse einfach erklärt. Beginnen Sie sofort mit ihrer eigenen multivariaten Datenanalyse zum fairen Preis. Das Buch bietet Ihnen den optimalen Einstieg in die Grundlagen der Analysen und deren Anwendungen.
Sie lesen das E-Book in den Legimi-Apps auf:
Seitenzahl: 181
Veröffentlichungsjahr: 2021
Das E-Book (TTS) können Sie hören im Abo „Legimi Premium” in Legimi-Apps auf:
Multivariate
Analysemethoden
Multivariate Statistik und
Datenanalyse mit SPSS
einfach erklärt
Abbildungsverzeichnis
Die Analyse fehlender Werte
Eine Einführung
Was sind fehlende Werte?
Wodurch entstehen fehlende Werte?
Warum sind fehlende Werte ein Problem?
Die Ursache fehlender Werte
Folgen und Konsequenzen fehlender Werte
Beeinflussung der Validität
Klassifikation der fehlenden Werte
Vorgehen bei der Analyse fehlender Werte
Kann man fehlende Werte ignorieren?
Das Ausmaß der fehlenden Werte analysieren
Die Löschung von unvollständigen Daten
Tests zur Analyse der Zufälligkeit
Auswahl der Methode
1.Klassische Verfahren
2.Imputationsbasierte Verfahren
Allgemeine Handlungsempfehlung
Die Clusteranalyse
Einführung
Vorbereitung der Daten
Voraussetzung für Clusteranalyse
Das Vorgehen bei der Clusteranalyse
1) Erstellung der Proximitätsmatrix
Binäre/ nominale Variablenstruktur
Ordinale Variablenstruktur
Metrische Variablenstruktur
Gemischt skalierte Variablenstruktur
2) Auswahl des Clusterverfahrens
Agglomerative Algorithmen (hierarchisch)
Partitionierende Verfahren (K-Means)
3) Festlegung Clusterzahl
4) Clusterdiagnose
Explorative Faktorenanalyse
Einleitung
Voraussetzungen der Faktorenanalyse
Ablauf der Faktorenanalyse
Variableneignung
Kommunalität & Faktorenextraktion
Kommunalität
Extraktionsmethoden
Die Zahl der Faktoren bestimmen
Faktorinterpretation
Die Rotation
Benennung der Faktoren
Faktorwerte bestimmen
Ablauf in SPSS
Die Entscheidungsbaumanalyse
Eine Einführung
Modellannahmen/ Voraussetzungen
Die Baumstruktur
Aufbaumethoden des Baums & Ablauf
Merging-Phase
Split-Phase
Vorgehen in SPSS
Interpretation der Ergebnisse
Der Baumeditor
Schritt-für-Schritt-Anleitung
Multiple Regression
Einsatzbereich
Vorgehensweise
1. Modellformulierung
2. Schätzung der Regressionsfunktion
3. Prüfung der Regressionsfunktion
4. Prüfung der Regressionskoeffizienten
5. Prüfung der Modellprämissen
Analyse einflussreicher Beobachtungen
Ausreißer
Hebelwerte (eng. leverage)
Cook-Distanzen
Ergänzungen
Dummy Variablen
Methoden der Multiplen Regression
Korrespondenzanalyse
Allgemeines
Grundlagen der Korrespondenzanalyse
Einordnung
Fragestellung und Anspruch an die Daten
Zielsetzung
Anwendungsbereiche
Vorgehensweise
Erstellung der Zeilen- und Spaltenprofile
Festlegung der geometrischen Schwerpunkte der
Das geometrische Modell – Marken im Raum der Merkmale
Ermittlung der Streuungen (Distanzen)
Standardisierung der Daten
Extraktion der Dimensionen
Ermittlung der Koordinaten
Interpretation
Symmetrische Normalisierung
Asymmetrische Normalisierung
Übersicht
Fazit
Vorgehensweise in SPSS
Abkürzungen
Varianzanalyse
Problemstellung
Einfaktorielle ANOVA
Modellgleichung
Hypothesen
Streuungszerlegung (sum of squares)
F-Statistik
Modellannahmen
SPSS Durchführung
Interpretation der SPSS-Ergebnisse
Zweifaktorielle ANOVA
Modellgleichung
Hypothesen
Streuungszerlegung
F-Statistik
Modellannahmen
Wechselwirkungen
SPSS Durchführung
SPSS Interpretation
Einfaktorielle ANOVA mit Messwiederholung
Modellgleichung
Hypothesen
Streuungszerlegung
F-Statistik
Modellannahmen
SPSS Durchführung
SPSS Interpretation
Mehrfaktorielle ANOVA mit Messwiederholung (Mixed ANOVA)
Hypothesen
Streuungszerlegung
F-Statistik
Modellgüte
Modellannahmen
SPSS Durchführung
SPSS Interpretation
Quellenverzeichnis
Abbildung 1: Übersicht Validität21
Abbildung 2: Missing at completely random23
Abbildung 3: Missing at random24
Abbildung 4: Missing not at random25
Abbildung 5: Univariate Statistik (Vorgehen in SPSS)29
Abbildung 6: Kreisdiagramm über fehlende Werte29
Abbildung 7: Variablenzusammenfassung (Output SPSS)30
Abbildung 8: Ein Muster fehlender Werte (SPSS Output)31
Abbildung 9: Muster fehlender Werte (SPSS Output)32
Abbildung 10: Test der fehlenden Werte (Vorgehen in SPSS)34
Abbildung 11: T- Tests bei unterschiedlicher Varianz35
Abbildung 12: Kreuztabelle 1 (SPSS Output)37
Abbildung 13: Kreuztabelle 2 (SPSS Output)38
Abbildung 14: Betrachtung Muster (Vorgehen in SPSS)39
Abbildung 15: Muster in Tabellen (Output in SPSS)40
Abbildung 16: MCAR-Test nach Little42
Abbildung 17: Listenweiser Fallausschluss (Vor- und Nachteile)43
Abbildung 18: Paarweiser Fallausschluss (Vor- und Nachteile)44
Abbildung 19: Mittelwert-Imputation (Vor- und Nachteile)45
Abbildung 20: Regressions-Imputation (Vor- und Nachteile)46
Abbildung 21: Hot und Cold Deck Verfahren (Vor- und Nachteile)46
Abbildung 22: Multiple Imputation47
Abbildung 23: Vorgehen der multiplen Imputation in SPSS52
Abbildung 24: Interpretation SPSS Output multiple Imputation56
Abbildung 25: Die Clusteranalyse59
Abbildung 26: Abwägung Variablenzahl60
Abbildung 27: Rohdatenmatrix in Ähnlichkeitsmatrix überführen62
Abbildung 28: Ähnlichkeits- und Distanzmaß,63
Abbildung 29: Proximitätsmaße in SPSS (Vorgehen)65
Abbildung 30: Proximitätsmaße mit Skalenniveau65
Abbildung 31: Binäre Option in SPSS66
Abbildung 32: Kombinationsmöglichkeiten binäre Variablenstruktur66
Abbildung 33: Näherungsmatrix nach Jaccard67
Abbildung 34: Näherungsmatrix nach Russell und Rao68
Abbildung 35: Näherungsmatrix nach M-Koeffizient68
Abbildung 36: Beispiele Auswahl binär Koeffizienten69
Abbildung 37: Näherungsmatrix nach Chi-Quadrat-Maß71
Abbildung 38: Näherungsmatrix City-Block-Metrik (Distanzmaß)73
Abbildung 39: Näherungsmatrix (quadrierte) euklidische Distanz74
Abbildung 40: Näherungsmatrix Pearson-Korrelationskoeffizient76
Abbildung 41: Übersicht Ähnlichkeits- und Distanzmaße76
Abbildung 42: Ähnlichkeits- und Distanzmaße77
Abbildung 43: genaues Vorgehen in SPSS (Distanz- und Ähnlichkeitsmaße)79
Abbildung 44: Übersicht Clusterverfahren81
Abbildung 45: Single Linkage Verfahren82
Abbildung 46: Complete-Linkage-Verfahren83
Abbildung 47: Average Linkage-Verfahren83
Abbildung 48: Vorgehen Clusteranalyse in SPSS89
Abbildung 49: Zuordnungsübersicht (SPSS-Output)89
Abbildung 50: Eiszapfendiagramm (SPSS-Output)90
Abbildung 51: Dendrogramm (SPSS-Output)91
Abbildung 52: Vorgehen k-Means in SPSS96
Abbildung 53: Interpretation SPSS-Output K-Means-Verfahren99
Abbildung 54: Übersicht Clusterverfahren100
Abbildung 55: Zielkonflikt der Clusterzahl100
Abbildung 56: Zuordnungsübersicht101
Abbildung 57: Das Elbow-Kriterium102
Abbildung 58: Erstellung multivariate Profile103
Abbildung 59: Clusteranalyse mit Hilfe multivariater Profile104
Abbildung 60: explorative vs. konfirmatorische Faktorenanalyse106
Abbildung 61: Bildung der Faktoren107
Abbildung 62: Zielkonflikt der Faktorenanalyse108
Abbildung 63: Das Fundamentaltheorem109
Abbildung 64: Ablauf der Faktorenanalyse112
Abbildung 65: Es sollten hohe und niedrige Korrelationen vorliegen113
Abbildung 66: Signifikanz der Korrelationen114
Abbildung 67: Inverse Korrelationsmatrix114
Abbildung 68: Image vs. Anti-Image115
Abbildung 69: Anti-Image-Matrix115
Abbildung 70: Der Bartlett-Test116
Abbildung 71: Interpretation der MSA Werte117
Abbildung 72: MSA-Werte der einzelnen Variablen118
Abbildung 73: Komponenten der Gesamtvarianz bei einer 1 Faktor119
Abbildung 74: Grafische Darstellung (Vektor-Diagramm)121
Abbildung 75: Übersetzung von Winkel in Korrelation121
Abbildung 76: Totale Varianzaufklärung122
Abbildung 77: Hauptkomponentenanalyse (SPSS Output)123
Abbildung 78: Hauptachsenanalyse (SPSS Output)124
Abbildung 79: Iterationsmaximum erreicht125
Abbildung 80: Iterationen in SPSS manuell einstellen126
Abbildung 81: Vergleich Hauptachsen- & Hauptkomponentenanalyse126
Abbildung 82: Vergleich der Kommunalitäten127
Abbildung 83: Berechnung Kaiser Kriterium129
Abbildung 84: Berechnung der Kommunalität130
Abbildung 85: Faktorauswahl nach Kaiser Kriterium131
Abbildung 86: Zusammenhang Eigenwert und Kommunalität131
Abbildung 87: Beispiel Scree-Plot132
Abbildung 88: Faktorinterpretation134
Abbildung 89: rotierte Lösung der orthogonalen Rotation135
Abbildung 90: Unterschiede in der Faktorenmatrix nach Rotation136
Abbildung 91: rotierte Lösung der oblique Rotation137
Abbildung 92: SPSS Output Oblique Rotation138
Abbildung 93: Vergleich der orthogonalen und obliquen Rotation139
Abbildung 94: Beispiel Faktorenbezeichnung140
Abbildung 95: Schätzverfahren zur Bestimmung der Faktorwerte142
Abbildung 96: 3-Dimensionales-Ladungsdiagramm143
Abbildung 97: Ein-Dimensionales-Ladungsdiagramm144
Abbildung 98: Vorgang der Faktorenanalyse in SPSS145
Abbildung 99: Einordung der Entscheidungsbaumanalyse148
Abbildung 100: Zuordnung des richtigen Datenniveaus149
Abbildung 101: Wertelabels vergeben.150
Abbildung 102: Unterschied CHAID- & Exhaustive CHAID-Verfahren152
Abbildung 103: Aufbaumethode Exhaustive CHAID (SPSS)153
Abbildung 104: Übersicht Tests für Datenniveaus154
Abbildung 105: mehrdimensionale Kontigenztabelle155
Abbildung 106: Kreuztabellen Mergen Schritt 1 (Beispiel)157
Abbildung 107: Kreuztabellen Mergen Schritt 2 (Beispiel)158
Abbildung 108: Übersicht p-Wert der Unterteilungsebenen158
Abbildung 109: Merging der Kategorie 1 und 2 (Beispiel)159
Abbildung 110: „Siegervariante“ des Merging-Prozesses160
Abbildung 111: Kreuztabelle Split-Phase162
Abbildung 112: Vorgehen in SPSS (Entscheidungsbaumanalyse)173
Abbildung 113: Interpretation der Ergebnisse181
Abbildung 114: Der Baumeditor182
Abbildung 115: Datenpunkte190
Abbildung 116: SPSS Koeffizienten (einfach)192
Abbildung 117: SPSS Koeffizienten194
Abbildung 118: Streuung195
Abbildung 119: SPSS ANOVA197
Abbildung 120: t-Wert199
Abbildung 121: t-Wert Konfidenzintervalle200
Abbildung 122: kein linearer Zusammenhang erkennbar202
Abbildung 123: linearer Zusammenhang erkennbar202
Abbildung 124: standardisiertes Streudiagramm203
Abbildung 125: Dreiecksmuster mit größer bzw. kleiner werdenden Varianz)204
Abbildung 126: Rhombus Muster (ansteigende und kleiner werdende Varianz)204
Abbildung 127: Residualwerte verändern sich systematisch205
Abbildung 128: QQ-Diagramm206
Abbildung 129: Histogramm207
Abbildung 130: Positive Autokorrelation208
Abbildung 131: Negative Autokorrelation209
Abbildung 132: Autokorrelation (Durbin/Watson)210
Abbildung 133: Venn-Diagramm, geringe Multikollinearität211
Abbildung 134: Venn-Diagramm, keine Multikollinearität212
Abbildung 135: Venn-Diagramm, hohe Multikollinearität (Katastrophe)212
Abbildung 136: Korrelationsmatrix213
Abbildung 137: Toleranz & VIF für das Fallbeispiel214
Abbildung 138: Multivariate Analyseverfahren219
Abbildung 139: Fallbeispiel Datensatz220
Abbildung 140: Zeilenprofile223
Abbildung 141: Spaltenprofile223
Abbildung 142: Massen der Zeilen224
Abbildung 143: Massen der Spalten225
Abbildung 144: Geometrisches Modell226
Abbildung 145: Grafische Darstellung228
Abbildung 146: Kreuztabelle Marke*Merkmal229
Abbildung 147: Chi-Quadrat-Tests230
Abbildung 148: Totale Inertia231
Abbildung 149: relative Häufigkeiten233
Abbildung 150: Zentrierte Werte234
Abbildung 151: Standardisierte Daten236
Abbildung 152: SPSS Output237
Abbildung 153: Übersicht Zeilenpunkte239
Abbildung 154: Übersicht Spaltenpunkte240
Abbildung 155: SPSS Zeilenpunkte242
Abbildung 156: SPSS Spaltenpunkte243
Abbildung 157: Zeilenpunkte für Marke245
Abbildung 158: Zeilenpunkte für Merkmal246
Abbildung 159: Zeilen- und Spaltenpunkte247
Abbildung 160: Zeilen-Prinzipal-Normalisierung249
Abbildung 161: Spalten-Prinzipal-Normalisierung251
Abbildung 162: Vorgehensweise SPSS258
Abbildung 163: Struktur der ANOVA263
Abbildung 164: Streuungszerlegung265
Abbildung 165: Streuungszerlegung266
Abbildung 166: Effektstärke268
Abbildung 167: Vorgehen in SPSS273
Abbildung 168: SPSS Ausgaben276
Abbildung 169: Odinal281
Abbildung 170: Disordinal282
Abbildung 171: Hybrid283
Abbildung 172: Vorgehen in SPSS289
Abbildung 173: SPSS Ausgaben290
Abbildung 174: Vorgehen in SPSS295
Abbildung 175: SPSS Ausgaben297
Abbildung 176: Vorgehen in SPSS305
Abbildung 177: SPSS Ausgaben308
„Missing data, where valid values on one or more variables are not available for analysis, are a fact of life in multivariate analysis.“ (Hair, Black, Babin, & Anderson, 2010, S. 42).
Missing Values sind fehlende Werte in den erhobenen Daten, die sich auf wenigen Variablen/ Fällen sammeln oder über den gesamten Datensatz verteilt vorhanden sein können. Sie bedrohen die Validitäten der durchgeführten Studie und können das Verständnis für Effekte beeinflussen. Besonders in der multivariaten Datenanalyse kommen fehlende Werte sehr häufig vor. Aus diesem Grund ist ihre Betrachtung von großer Bedeutung. (Bankhofer, 1995) & (Hair, 2010, S. 42-43)
Missing Values können aus drei folgenschweren Gründen fehlen. Ein erster Aspekt ist der Proband selbst, der das Vorkommen fehlender Werte verursacht. Das ist beispielsweise der Fall, wenn jemand eine Frage nicht beantworten möchte. Ein zweiter Grund ist das Studiendesign selbst, das z.B. durch seine Länge zu viel Zeit von den Probanden verlangt und aus diesem Grund zu fehlenden Werten führt. Ein letzter grundlegender Aspekt ist die Interaktion zwischen Probanden und dem Studiendesign/ Versuchsleiter. Probanden sind eventuell nicht fähig genug eine Frage zu beantworten. Es könnte auch sein, dass die Fragen zu intim sind und der Proband nicht antworten möchte. (Ausführliche Darbietung der Gründe siehe: die Ursache fehlender Werte) (Bankhofer, 1995, S. 5-12)
Fehlende Werte haben einen Einfluss auf die Generalisierbarkeit der Daten. Beispielsweise ist die Verallgemeinerung der Ergebnisse nicht möglich, wenn die Mehrheit der Studienteilnehmer, denen es während des Experiments schlecht erging, abbricht und deswegen die Ergebnisse vor allem auf den Probanden beruhen, die positiv auf die Bedingung reagiert haben. Ebenfalls können falsche Schlussfolgerungen gezogen werden, wenn die fehlenden Daten die Beziehungen zwischen den Variablen beeinflussen. Außerdem können Missing Values (fehlende Werte) zu nichtrepräsentativen Stichproben führen, wenn als Verfahren z.B. der listenweise Fallausschluss (siehe Kapitel: Vorgehen) genutzt wird. Ebenfalls haben fehlende Werte einen Einfluss auf die unterschiedlichen Validitäten, was mit dem Problem der Generalisierbarkeit einhergeht. (Hair, 2010, S. 42-43) & (Bankhofer, 1995, S. 25-27)
Die Ursachen fehlender Werte sind in drei großen Bereichen der empirischen Forschung zu finden. Beginnend mit dem Untersuchungsdesign, über die Datenerhebung selbst und auch in der Datenauswertung können Gründe für das Entstehen fehlender Werte gefunden werden.
a) Untersuchungsdesign
Grundsätzlich gilt, dass das Untersuchungsdesign so umfangreich wie nötig und so knapp wie möglich sein sollte, um möglichst viele Informationen durch möglichst wenige Variablen und wenig (Zeit)Aufwand der Probanden zu generieren. Folgende Ursachen können Gründe für das Entstehen von fehlenden Werten sein: (Bankhofer, 1995, S. 8-12)
Fehlerhaftes Untersuchungsdesign:
Das Untersuchungsdesign wird so bestimmt, dass es sehr wahrscheinlich abzusehen ist, dass es zu fehlenden Werten kommt. Beispiel: Wenn in einer Studie das Merkmal „Alter des Ehepartners“ abgefragt wird und sich jedoch auch unverheiratete Personen unter den Probanden befinden, kommt es, soweit keine „Non-Option“ gibt, zu fehlenden Werten. Ein weiteres Beispiel wäre: Es wird nach dem Alter der Kinder gefragt, ohne angeben zu können, keine zu haben. Bei kinderlosen Personen kommt es hier zu fehlenden Werten. (Bankhofer, 1995, S. 8-12)
Mangelhaftes Untersuchungsdesign:
Das Design kann durch unübersichtliche Anordnungen, missverständliche Fragen, unbekannten Wörtern oder Redewendungen in den Fragestellungen fehlende Werte verursachen. (Bankhofer, 1995, S. 8-12)
b) Die Datenerhebung
Auch die Datenerhebung selbst kann für fehlende Werte verantwortlich sein. Folgende Gründe könnte es geben:
Übersehen von Fragen:
Bei schriftlichen Befragungen kann es sein, dass der Proband eine Frage übersieht. Das kann dem Interviewer auch bei einer mündlichen Untersuchung passieren. Gründe dafür sind zumeist Ablenkung oder technische Mängel in der Untersuchung. (Bankhofer, 1995, S. 8-12)
Mangelndes Wissen:
Der Proband ist selbst mit Mühe nicht in der Lage eine Frage zu beantworten. Das ist besonders dann der Fall, wenn die Fragen auf Ereignisse abzielen, die längere Zeit zurückliegen. (Bankhofer, 1995, S. 8-12)
Dieser Art der fehlenden Werte klammern Angaben, wie z.B. „Ich weiß nicht“ aus, da diese vor allem auf eine Unentschlossenheit oder Unentschiedenheit der Probanden zurückgehen. Solche unentschlossenen Angaben sind keine fehlenden Werte, sondern Informationen.
Antwortverweigerung:
Ein Proband verweigert die Antwort auf eine Frage, unabhängig ob diese schriftlich oder mündlich gestellt wurde. Insbesondere tritt diese Ursache fehlender Werte dann auf, wenn die befragten Personen eine Verletzung der Privatsphäre vermuten. Beispiel: Probanden beantworten Fragen nach dem eigenen Trink-, Rauch- oder Sexualverhalten bewusst nicht. (Bankhofer, 1995, S. 8-12)
Motivationsprobleme:
Geringe Motivation von dem Interviewer oder der Testperson sorgen ebenfalls für Missing Values. Die fehlende Motivation geht auf eine Abneigung gegen die Befragungssituation, den Interviewer, die Erhebung allgemein oder auf die Länge der Befragung zurück. Ein Mangel an Motivation kann, z.B. auf geringe Vergütung, zurückgeführt werden. (Bankhofer, 1995, S. 8-12)
Verständnisprobleme:
Der Befragte kann die ihm gestellte Frage nicht richtig verstehen und hat deswegen Probleme zu antworten. (Bankhofer, 1995, S. 8-12)
Meinungslosigkeit:
Der Proband gibt keine Antwort auf eine Frage nach seiner Meinung, weil er entweder keine Meinung zu dieser Thematik hat oder sie nicht formulieren kann. (Bankhofer, 1995, S. 8-12)
Zeitprobleme:
Eine befragte Person hat zur Beantwortung eines Fragebogens nur limitiert Zeit und ist nicht in der Lage, alle ihr gestellten Fragen in dieser Zeit zu beantworten. In solchen Fällen sammeln sich die fehlenden Werte am Ende der Befragung. (Bankhofer, 1995, S. 8-12)
Filterführung des Interviewers:
Während der Befragung überspringt der Interviewer absichtlich bestimmte Fragen. Beispiel: Die Befragten, die angeben Raucher zu sein, werden weitere Fragen zu diesem Thema gestellt. Andere, die angeben Nichtraucher zu sein, haben dadurch bei den Fragen über Rauchen fehlende Werte. (Bankhofer, 1995, S. 8-12)
Unaufmerksamkeit des Beobachters:
Werden in einer Studie auf Beobachtungen wert gelegt, erhält man fehlende Werte, wenn der Beobachter in der Zeit unaufmerksam ist und ihm deshalb der zu beobachtenden Sachverhalt entgeht. (Bankhofer, 1995, S. 8-12)
Technische Mängel:
Fehlende Werte können auf technische Defekte zurückgeführt werden. Beispiel: Bei Video- und Blickaufzeichnungen (z.B. Eye-Tracking-Studien) wird durch einen technischen Mangel der zu beobachtende Sachverhalt (die Blickrichtung) verpasst bzw. nicht erfasst. (Bankhofer, 1995, S. 8-12)
c) Die Datenauswertung
Auch in der Datenauswertung können einige Ursachen für fehlende Werte gefunden werden.
Codierungsfehler:
Fehlende Werte entstehen dann, wenn eigentlich vorhandene Werte irrtümlicherweise als fehlend codiert werden. (Bankhofer, 1995, S. 8-12)
Übertragungsfehler:
Wenn Daten beispielsweise von einem schriftlichen Fragebogen in SPSS überführt werden und dabei manuell eingetippt werden müssen, kann es zu fehlenden Werten kommen. Diese können auch durch Fehler beim elektronischen Einlesen von Daten und deren Abspeicherung hervorgerufen werden. (Bankhofer, 1995, S. 8-12)
Löschung von unmöglichen Daten:
Ein Wert wird aus dem Datensatz entfernt, weil er in diesem Kontext unmöglich sein kann, was bei der Überprüfung der Daten sichtbar wird. Beispiel: Alphanumerische Zeichen werden gelöscht, wenn sie bei einer Variablen auftreten, die eigentlich nur numerische Ausprägungen besitzen darf. (Bankhofer, 1995, S. 8-12)
Löschung von fehlerhaften Daten:
Daten werden bei der Überprüfung als fehlerhaft erkannt und vom Forscher oder der Forscherin entfernt, obwohl sie grundsätzlich realisierbar wären und eigentlich korrekt sind. (Bankhofer, 1995, S. 8-12)
Aus dem Problem der fehlenden Werte können konkrete Folgen für die Praxis abgeleitet werden. Diese sind unter anderem Fehler in den statistischen Daten, Biases (=systematische Fehler) in den Parameterschätzungen, fehlerhafte Interpretationen der Ergebnisse sowie das Begrenzen der Repräsentativität und der Stärke der Stichprobe. So kann es durch Missing Values zu fehlerhaften statistischen Ergebnissen kommen, die bei Beachtung der fehlenden Werte anders ausgefallen wären. Werden fehlende Werte in den Datensätzen von Forschern vernachlässigt, ist dieses Vorgehen nicht mit einer wissenschaftlichen Arbeitsweise vereinbar. Besonders die Validität einer Studie wird von Missing Values beeinflusst. (Bankhofer, 1995, S. 25-27) & (Hair, 2010, S. 42-43)
Abbildung 1: Übersicht Validität
Eigene Darstellung, Quelle: vgl. (Lüdtke & Trautwein, 2007)
Konstruktvalidität gibt an, wie gut die erfassten Variablen das vorgesehene Konstrukt messen und wie gut die Werte die relevanten Variablen voraussagen. Ist die Konstruktvalidität hoch, dann fallen die Testwerte so aus, wie es die Theorie und die Hypothese vorgibt. (Döring & Bortz, 2016)
Durch fehlende Werte in den Variablen ist es möglich, dass das zu erfassende Konstrukt (eine Fragestellung oder eine Hypothese) dahinter nicht vollständig oder fehlerhaft erschlossen wird. Besonders im Fall der mono-Operations sind fehlende Daten besonders nachteilig. Mono-Operations sind einzelne Messungen, die durch ein einzelnes Item oder multiple Items bestehen und zur Repräsentation des Konstrukts bzw. Konzepts dienen. Das ist z.B. dann der Fall, wenn das Rauchverhalten (als Konstrukt) durch die Anzahl konsumierter Zigaretten in den letzten 24 Stunden gemessen wird. Fehlt der Wert für die konsumierten Zigaretten, kann das Konstrukt Rauchen nicht erfasst werden. (Allison, 2002) & (McKnight, McKnight, Sidani, & Figueredo, 2007) & (Schafer & Graham, 2002)
Ein kleinerer Item-Pool führt ebenfalls mit fehlenden Werten zu einer größeren Fehlervarianz und diese dann wiederum zu geringerer Reliabilität in den Messungen. Der Informationsverlust, welcher mit Missing Values einhergeht, führt außerdem zu unvollständigen Repräsentationen des Konstrukts und damit automatisch zu einer kleineren Konstruktvalidität.
Die interne Validität ist gegeben, wenn Unterschiede in der abhängigen Variablen mit Sicherheit auf Unterschiede in der unabhängigen Variablen zurückgeführt werden können.
Die interne und externe Validität beeinflussen sich gegenseitig. Durch die mit fehlenden Werten einhergehende Stichprobenselektion gibt es Unterschiede in den Gruppen, die wiederum zu einem systematischen Fehler führen. Dadurch entstehen nicht-repräsentative Stichproben, die neben der internen auch die externe Validität verkleinern. Durch Randomisierung, d.h. Probanden werden zufällig auf unterschiedliche und identische Gruppen aufgeteilt, kann es auch zu fehlenden Werten kommen. Wenn es teilnehmerbedingt zu fehlenden Werten kommt, verursacht dieser Grund der fehlenden Werte ungleiche Stichprobengrößen, was wiederum die statistischen Voraussetzungen für viele Vorgänge in SPSS verletzt, wodurch es zu einer kleineren Validität in den Ergebnissen der statistischen Auswertung kommt. (Allison, 2002) & (McKnight, McKnight, Sidani, & Figueredo, 2007) & (Schafer & Graham, 2002)
Die externe Validität gibt an, inwieweit sich die Testergebnisse über die Untersuchungssituation verallgemeinern lassen (Döring & Bortz, 2016). Bei homogenen Stichproben (viele Probanden ähneln sich) ist die Streuung der Werte/ Antworten gering. Der Test wird also schneller signifikant, aber die Repräsentativität der Ergebnisse für eine heterogene Grundgesamtheit sinkt. Wenn fehlende Werte in den Daten auftreten, dann kann es zu Schwierigkeiten mit den Schlussfolgerungen und Interpretationen der Ergebnisse kommen. Dies kann falsche Rückschlüsse hervorrufen, die dann möglicherweise falsche Richtlinien verursachen. (Allison, 2002) & (McKnight, McKnight, Sidani, & Figueredo, 2007) & (Schafer & Graham, 2002)
Um die richtigen Methoden zur Behandlung fehlender Werte auswählen zu können, ist es von Bedeutung zu wissen, ob hinter den fehlenden Werten eine Systematik liegt. Die Klassifikation der fehlenden Werte erfolgt nach der Arbeit von Rubin in drei Arten (Rubin, 1976):
Abbildung 2: Missing at completely random
Eigene Darstellung, Quelle: (IBM®, 2020)
Die Werte in den Daten fehlen vollständig zufällig. Das Auftreten der fehlenden Werte (sowohl X als auch Y) lassen sich weder auf Ausprägungen der betreffenden Variablen noch auf andere Variablen im Datensatz zurückzuführen. (IBM Corp., 2017, S. 2)
Beispiel: Bei der vorliegenden Studie wird das Haushaltseinkommen, das Alter und das Geschlecht erhoben. Bei dem Haushaltseinkommen treten fehlende Werte auf, die MCAR sind, wenn sie weder vom Einkommen selbst noch vom Alter oder Geschlecht abhängen. Man kann also keinen systematischen Ausfall im Datensatz feststellen. Hier sind die fehlenden Werte gleichmäßig (zufällig) verteilt. (Bankhofer, 1995, S. 14-16) & (Lüdtke & Trautwein, 2007)
Abbildung 3: Missing at random
Eigene Darstellung, Quelle: (IBM®, 2020)
Einige Daten fehlen „bedingt“ zufällig. Die fehlenden Werte von Y hängen von X ab, aber nicht von Y selbst. Bedeutet:
Das Auftreten von fehlenden Daten hängt von der Ausprägung einer anderen beobachteten Variablen ab, aber nicht von der Ausprägung der Variable selbst. Die Folge daraus ist eine eingeschränkte Generalisierbarkeit der Ergebnisse. (IBM Corp., 2017, S. 2)
Beispiel: In der Studie werden erneut Haushaltseinkommen, Alter und Geschlecht abgefragt. Bei den fehlenden Werten bei der Variable Einkommen fällt auf, dass die Werte häufiger fehlen, wenn die Variable „Alter“ hohe Werte aufweist. Kurz: Ältere Menschen haben häufiger als jüngere das Einkommen nicht angegeben. (Bankhofer, 1995, S. 14-21) & (Lüdtke & Trautwein, 2007)
Abbildung 4: Missing not at random
Eigene Darstellung, Quelle: (IBM®, 2020)
Die Daten fehlen nicht zufällig. Die fehlenden Werte in Y hängen von der Ausprägung in Y ab. Das Auftreten von fehlenden Werten hängt mit der Ausprägung der Variable selbst zusammen (und nicht mit Ausprägungen anderer Variablen im Datensatz, siehe MAR). Es gibt weder einen Test, der diese Verteilung testen kann, noch eine adäquate Methode zur Behandlung von MNAR-Daten. Man sollte MNAR nur ausschließen, wenn der Ausfallmechanismus bekannt ist (z.B. durch weitere empirische Studien). MNAR Daten sollten vermieden werden. (Lüdtke & Trautwein, 2007)
Beispiel: In der Studie mit den Erhebungen zu den Variablen Einkommen, Alter und Geschlecht treten fehlende Werte beim Einkommen auf. Wenn die fehlenden Werte MNAR sind, sind die Werte von der Höhe des Einkommens selbst abhängig. Kurz: Probanden mit einem höheren Einkommen geben dieses häufiger nicht an. Das Problem bei dieser Art fehlender Werte ist, dass sie nur dann sicher festgestellt werden können, wenn der Ausfallmechanismus bekannt ist. Somit muss der Forscher wissen, dass sich hinter den fehlenden Werten vermehrt hohe Werte im Haushaltseinkommen verbergen, was oftmals nicht so offensichtlich wie im Beispiel ist. (Bankhofer, 1995, S. 14-21) & (Lüdtke & Trautwein, 2007)
Einige fehlende Werte können ignoriert werden und müssen demnach in der weiteren Analyse nicht beachtet werden.
Vernachlässigbar sind: