Methoden zum Umgang mit fehlenden Werten in der Analyse von kategorialen Daten - Andreas Wolf - E-Book

Methoden zum Umgang mit fehlenden Werten in der Analyse von kategorialen Daten E-Book

Andreas Wolf

0,0
15,99 €

oder
-100%
Sammeln Sie Punkte in unserem Gutscheinprogramm und kaufen Sie E-Books und Hörbücher mit bis zu 100% Rabatt.
Mehr erfahren.
Beschreibung

Studienarbeit aus dem Jahr 2003 im Fachbereich Mathematik - Statistik, Note: 1,3, Johann Wolfgang Goethe-Universität Frankfurt am Main (Fachbereich Wirtschaftswissenschaften), Veranstaltung: Seminar "Angewandte Statistik", Sprache: Deutsch, Abstract: Obwohl Methoden für kategoriale Daten wie z. B. die logistische Regression und das loglineare Modellieren in fast allen bedeutenden Bereichen der statistischen Anwendung alltäglich sind, gibt es dennoch kaum Literatur über grundsätzliche Verfahren, wie mit fehlenden Werten in der Analyse von Klassendaten umzugehen ist. In dieser Seminararbeit werden Techniken für die Parametersimulation und die multiple Imputation von unvollständigen Klassendaten im saturierten multinomialen Modell entwickelt. Das saturierte multinomiale Modell eignet sich hierfür besonders, da es dreifache und höhere Verbindungen zwischen den Variablen zulässt. In Abschnitt 2 werden die grundlegenden Eigenschaften zweier multivariater Verteilungen, der multinomialen und der Dirichlet-Verteilung, betrachtet. Der elementare EM- und der Vergrößerungsalgorithmus für das saturierte multinomiale Modell werden in Abschnitt 3 entwickelt. Die Darstellungen gehen auf das 7. Kapitel des Buches „Analysis of Incomplete Multivariate Data“ von J. L. Schafer zurück, das 1997 bei Chapman & Hall erschienen ist.

Das E-Book können Sie in Legimi-Apps oder einer beliebigen App lesen, die das folgende Format unterstützen:

EPUB
Bewertungen
0,0
0
0
0
0
0
Mehr Informationen
Mehr Informationen
Legimi prüft nicht, ob Rezensionen von Nutzern stammen, die den betreffenden Titel tatsächlich gekauft oder gelesen/gehört haben. Wir entfernen aber gefälschte Rezensionen.



Inhaltsverzeichnis
2 Das Multinomial-Modell und die Dirichlet-Verteilung
3 Basisalgorithmen für das gesättigte Modell.

Page 1

Methoden zum Umgang mit fehlenden Werten in der Analyse von kategorialen Daten

Name: Andreas Wolf

Abgabetermin: 25.08.2003

Page 1

1 Einleitung

Obwohl Methoden für kategoriale D aten wie z. B. die logistische Regression und das

loglineare Modellieren in fast allen bedeutenden Bereichen der statistischen Anwendung

alltäglich sind, gibt es dennoch kaum Literatur über grundsätzliche Verfahren, wie mit

fehlenden Werten in der Analyse von Klassendaten umzugehen ist.

In dieser Seminararbeit werden Techniken für die Parametersimulation und die multiple

Imputation von unvollständigen Klassendaten im saturierten multinomialen Modell

entwickelt. Das saturierte multinomiale Modell eignet sich hierfür besonders, da es dreifache

und höhere Verbindungen zwischen den Variablen zulässt.

In Abschnitt 2 werden die grundlegenden Eigenschaften zweier multivariater Verteilungen,

der multinomialen und der Dirichlet-Verteilung, betrachtet. Der elementare EM- und der

Vergrößerungsalgorithmus für das saturierte multinomiale Modell werden in Abschnitt 3

entwickelt. Die Darstellungen gehen auf das 7. Kapitel des Buches „Analysis of Incomplete

Multivariate Data“ von J. L. Schafer zurück, das 1997 bei Chapman & Hall erschienen ist.

2 Das Multinomial-Modell und die Dirichlet-Verteilung

Die Multinomialverteilung12.1

KY Y Y, , ,2seien Zufallsvariablen bzw. Merkmale, die positive ganzzahlige Wertep1

1K1Kd, , 2 ,für annehmen können. Dabei handelt es sich um nominale oderp j, , 2 ,j

ungeordnete Klassen. Bei einer Stichprobe vonnunabhängigen und identisch verteilten

Erhebungseinheiten kann man eine KontingenztabelleYmit

ist hier die Anzahl unterschiedlicher Kombinationen der Merkmalsausprägungen von

KY Y Y, , ,2. Im Weiteren nehmen wir an, dass keinestrukturellen Nullenexistieren, d. h.p1

keine Kombination von Ausprägungen verschiedener Merkmale aufgrund bestimmter

1Klogischer Bedingungen unmöglich ist.dxfür sei die absolute Häufigkeit vonD d, , 2 ,

Erhebungseinheiten, die in Zelledfallen unddθdie zugehörige Wahrscheinlichkeit. Alle

K) , , , (x x x xZellhäufigkeiten und deren Wahrscheinlichkeiten werden mit bzw.2 1D

K) , , , (θ θ θ θzusammengefasst. Sind die Erhebungseinheiten unabhängig und identisch2 1D