Statistik für Wirtschafts- und Sozialwissenschaftler - Jürgen Faik - E-Book

Statistik für Wirtschafts- und Sozialwissenschaftler E-Book

Jürgen Faik

0,0
17,99 €

-100%
Sammeln Sie Punkte in unserem Gutscheinprogramm und kaufen Sie E-Books und Hörbücher mit bis zu 100% Rabatt.
Mehr erfahren.
Beschreibung

Statistik ist ein komplexes Thema, aber es muss nicht unbedingt kompliziert erklärt werden. Jürgen Faik bringt Ihnen in diesem Buch die Statistik so verständlich wie möglich näher. Er führt Sie erst in die statistischen Grundlagen ein und widmet sich dann der deskriptiven Statistik. Hier lernen Sie, was es zu Häufigkeitverteilungen, Verhältnis- und Indexzahlen und Zeitreihenanalyse zu wissen gibt. Im nächsten Teil wird die induktive Statistik besprochen. Der Autor beginnt mit den Grundlagen der Wahrscheinlichkeitsrechnung und fährt mit Zufallsvariablen, diskreten und stetigen Verteilungen, Schätz- und Testtheorie fort. Eine knappe Einführung in die Ökonometrie schließt das Buch ab. Zahlreiche Übungsaufgaben mit Lösungen helfen Ihnen, Ihr Wissen zu testen und zu festigen.

Sie lesen das E-Book in den Legimi-Apps auf:

Android
iOS
von Legimi
zertifizierten E-Readern

Seitenzahl: 392

Bewertungen
0,0
0
0
0
0
0
Mehr Informationen
Mehr Informationen
Legimi prüft nicht, ob Rezensionen von Nutzern stammen, die den betreffenden Titel tatsächlich gekauft oder gelesen/gehört haben. Wir entfernen aber gefälschte Rezensionen.



Jürgen Faik

Statistik für Wirtschafts- und Sozialwissenschaftler

Fachkorrektur von Dr. Regine Freudenstein

Bibliografische Information der Deutschen Nationalbibliothek

Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.d‐nb.de abrufbar.

1. Auflage 2015

© 2015 WILEY‐VCH Verlag GmbH & Co. KGaA, Weinheim

All rights reserved including the right of reproduction in whole or in part in any form. This book published by arrangement with John Wiley and Sons, Inc.

Alle Rechte vorbehalten inklusive des Rechtes auf Reproduktion im Ganzen oder in Teilen und in jeglicher Form. Dieses Buch wird mit Genehmigung von John Wiley and Sons, Inc. publiziert.

Wiley, the Wiley logo, and related trademarks and trade dress are trademarks or registered trademarks of John Wiley & Sons, Inc. and/or its affiliates, in the United States and other countries. Used by permission.

Wiley und darauf bezogene Gestaltungen sind Marken oder eingetragene Marken von John Wiley & Sons, Inc., USA, Deutschland und in anderen Ländern.

Das vorliegende Werk wurde sorgfältig erarbeitet. Dennoch übernehmen Autoren und Verlag für die Richtigkeit von Angaben, Hinweisen und Ratschlägen sowie eventuelle Druckfehler keine Haftung.

Umschlaggestaltung: Torge Stoffers Grafik‐Design, Leipzig

Umschlagmotiv: zulufriend/iStock

Korrektur: Regine Freudenstein

Satz: Beltz Bad Langensalza GmbH, Bad Langensalza

Print ISBN: 978‐3‐527‐53038‐0

ePub ISBN: 978‐3‐527‐80038‐4

mobi ISBN: 978‐3‐527‐80039‐1

Einleitung

Warum dieses Buch?

Empirische Informationen und damit statistisches Wissen sind im Grunde genommen für alle Lebensbereiche essenziell. Ohne Daten ist keine Überprüfung bestehender Theorien, sozusagen kein „Lackmustest“ an der Realität möglich. Dies gilt natürlich auch für die Wirtschafts‐ und Sozialwissenschaften. Gerade hier erscheint das frühere Vorgehen „Theory without measurement“ völlig fehl am Platz. Wenn man etwa beurteilen möchte, ob sich die Konsumgewohnheiten beziehungsweise Lebensstile der unteren Einkommensschichten substanziell von denjenigen der oberen Einkommensschichten unterscheiden, kann man sich nicht – wie in der „reinen“ Mathematik – auf definitorische Zusammenhänge verlassen, sondern es bedarf der empirischen Überprüfung von Hypothesen. Dabei ähnelt das Vorgehen der statistischen Methoden in den Wirtschaftswissenschaften sehr stark dem in den klassischen Sozialwissenschaften wie Soziologie oder Politologie. Daher verwundert es, dass sich kaum ein Lehrbuch im deutschsprachigen Raum finden lässt, das beide Wissenschaftsbereiche – das heißt Wirtschafts‐ und Sozialwissenschaften – zusammen behandelt. Das vorliegende Lehrbuch möchte diese Lücke schließen.

Meine Leser

Ich habe dieses Buch in erster Linie geschrieben für Hochschul‐ sowie für VWA‐/IHK‐Angehörige, die Wirtschafts‐ beziehungsweise Sozialwissenschaften studieren und dort im Lauf ihres Studiums mit der statistischen Methodenlehre konfrontiert werden. Darüber hinaus enthält das Buch an einzelnen Stellen über derartiges Grundlagenwissen hinausgehende Informationen, sodass es durchaus auch im Vertiefungsstudium verwendet werden kann. Um Ihnen ein strukturiertes Lernen des klausurrelevanten Stoffes zu ermöglichen, ist das Buch in drei Teile aufgeteilt. Im ersten Teil werden Ihnen statistische Grundlagen in Form der Datenerhebung und –auswertung auf einer allgemeinen Ebene vermittelt, ehe in den Teilen II und III mit der deskriptiven und der induktiven Statistik diejenigen Statistikbereiche angesprochen werden, die im Grundstudium typischerweise die entsprechenden Statistikvorlesungen strukturieren.

Nötiges Vorwissen

Sie müssen nicht viel Vorwissen mitbringen. Es sind lediglich mathematische Grundkenntnisse auf dem schulischen Niveau der Mittel‐ beziehungsweise Oberstufe vonnöten. Zur Wiederholung dieser Grundlagen sei auf mein kleines Mathe‐Büchlein „Wiley‐Schnellkurs Wirtschaftsmathematik“, Weinheim 2015, verwiesen.

Ziel des Buches

Sie werden damit vertraut gemacht, dass sich mit Hilfe der „Sprache“ der Mathematik beziehungsweise mit der ihres Teilgebiets der Statistik wirtschaftliche und gesellschaftliche Zusammenhänge leichter als ohne sie erschließen und auch verstehen lassen. Sie werden fundiert mit statistischem Rüstzeug versorgt, was Ihnen das Bestehen statistischer Prüfungen, so ist zumindest meine Hoffnung, deutlich erleichtert. Auch werden Ihnen die Grundlagen für eigenständiges empirisches und zugleich wissenschaftliches Arbeiten vermittelt.

Elemente in diesem Buch

Achtung

Statistik verleitet leicht zu Fehlinterpretationen. Sie kennen sicherlich die Frage: Wie lügt man am besten mit Statistik? Oder Sie kennen den Spruch: Traue keiner Statistik, die du nicht selbst gefälscht hast. Beim „Achtung‐Kasten“ geht es entsprechend vor allem darum, mit den dortigen Informationen zu vermeiden helfen, dass Sie in entsprechende Statistik‐Fallen tappen.

Beispiel

Viele Dinge lernen sich leichter, wenn sie mit Beispielen unterlegt werden. Dies macht die im vorliegenden Rahmen relevanten statistischen Zusammenhänge anschaulicher.

Fachbegriffe werden im Text fett, wenn sie an der betreffenden Textstelle besonders wichtig erscheinen, oder kursiv hervorgehoben.

Den SPSS‐Beispielen dieses Buchs liegt die SPSS®‐Version 22 zugrunde (Lizenz der Universität Vechta). Die SPSS‐Datenfiles stehen unter http://www.wiley‐vch.de/publish/dt/books/3‐527‐53038‐X zum Download bereit. Zum Lehrbuch gibt es einen Foliensatz, den Sie über die Dozentenseite des Verlags erhalten: http://www.wiley‐vch.de/textbooks/.

Teil I:Statistische Grundlagen

In Teil I werden Ihnen statistische Grundlagen – sozusagen als „Warm up“ – auf einer allgemeinen Ebene dargeboten. Sie werden mit dem Thema der Statistik vertraut gemacht. Ich werde Ihnen zudem typische Anwendungsgebiete der Statistik im wirtschafts- beziehungsweise sozialwissenschaftlichen Bereich darlegen. Außerdem werde ich einige Worte zu den Möglichkeiten der Datenerhebung und -auswertung verlieren. Auf diese Art und Weise werden Sie notwendige Begriffe und einfache Zusammenhänge kennenlernen, die Ihnen die Lektüre der Kernteile II und III dieses Buchs deutlich erleichtern dürften.

1Wirtschafts‐ und sozialstatistische Ausgangsbasis

In diesem Kapitel …

werden wir uns mit dem Begriff der Statistik auseinandersetzen,

wird auf wirtschafts‐ und sozialwissenschaftliche Anwendungsgebiete eingegangen,

werde ich Ihnen einige nationale und internationale Träger von Wirtschafts‐ beziehungsweise Sozialstatistik vorstellen.

Das erste Kapitel befasst sich mit grundlegenden Begrifflichkeiten und Gegebenheiten im statistischen Bereich. Die Begriffsklärung von Statistik beinhaltet neben ein paar historischen Anmerkungen vor allem Hinweise auf die Bedeutung der Statistik für andere Wissenschaftsdisziplinen. In diesen Zusammenhang passen auch die wirtschafts‐ und sozialwissenschaftlichen Anwendungsgebiete wie Bevölkerungs‐, Produktions‐ oder Preisstatistik sowie die Erörterung der amtlichen und nichtamtlichen Träger von Wirtschafts‐ und Sozialstatistik.

1.1 Begriff von Statistik

Ganz grob kann Statistik im wirtschafts‐ beziehungsweise sozialwissenschaftlichen Bereich als die Lehre von der Sammlung und Verarbeitung wirtschaftlicher und gesellschaftlicher Daten aufgefasst werden. Diese Verarbeitung umfasst sowohl die Aufbereitung als auch die Darstellung und Verdichtung der erhobenen Daten. Dies geschieht üblicherweise in quantitativer Form.

1.1.1 Historie der Statistik

Historisch betrachtet, ist die Statistik schon in der Antike vor allem durch Volkszählungen in Erscheinung getreten. Im 18./19. Jahrhundert wurde Statistik als Staatswissenschaft verstanden, die überwiegend als beschreibende Statistik im Sinne der Erörterung von für den Staatshaushalt wichtigen Tatbeständen (wie Steuerbemessungsgrundlagen) betrieben wurde. Elemente der Wahrscheinlichkeitsrechnung kamen zudem im Spätmittelalter beziehungsweise in der frühen Neuzeit auf, und zwar im Zusammenhang mit der Analyse von Glücksspielen. Es wurden etwa für das Roulettespiel Gewinnwahrscheinlichkeiten berechnet. Dies diente dem Ziel, möglichst optimale Erfolgsstrategien für möglichst große individuelle Gewinne zu finden.

1.1.2 Bedeutung von Wirtschafts‐ und Sozialstatistik

Durch die Entwicklung der – in Abschnitt 1.2 näher beschriebenen – Volkswirtschaftlichen Gesamtrechnungen im 20. Jahrhundert gewann die Wirtschaftsstatistik an rasanter Bedeutung, da mit diesem Rechenwerk umfangreiche Datenerhebungen auf makroökonomischem Niveau einhergingen. Hinzu kam seit den 1960er‐Jahren der Bedeutungszuwachs an Befragungsdaten zu Wohlfahrtsaspekten, was die Analyse größerer Datenmengen auf der Individual‐ und Haushaltsebene ermöglichte. Diese Analysen wurden insbesondere auch dadurch gefördert, dass im informationstechnologischen Bereich exponentielle Sprünge hinsichtlich der Hardware (gerade in Bezug auf Prozessorleistung und Speicherkapazitäten) stattfanden.

1.1.3 Arten von Wirtschafts‐ und Sozialstatistik

Traditionell werden die deskriptive (beschreibende) und die induktive (schließende) Statistik voneinander unterschieden, worauf in den beiden nächsten Abschnitten noch eingegangen wird. Gerade in neuerer Zeit wird mitunter mit der explorativen Statistik noch eine dritte Statistikform genannt – sozusagen als Zwischenform zwischen der beschreibenden und der schließenden Statistik. Bei ihr geht es im Sinne des sogenannten Data mining darum, Unterschiede zwischen Daten in verschiedenen Datenbeständen aufzuspüren, um letztlich die erhaltenen statistischen Befunde auf ihre Robustheit hin untersuchen zu können. Da dieses Gebiet aber keine wesentlich anderen Methoden als die deskriptive und die induktive Statistik verwendet, wird es im Folgenden nicht gesondert besprochen.

Einen theoriegeleiteten Anwendungsbezug der induktiven Statistik stellt ferner in den Wirtschafts‐ und Sozialwissenschaften die Ökonometrie dar. Einen entsprechenden Anwendungsbezug findet man im Übrigen auch in anderen Wissenschaftsdisziplinen, so zum Beispiel in der Biologie mit der Biometrie als Verbindung von Statistik und Biologie.

1.1.3.1 Deskriptive Statistik

Wie der Name bereits andeutet, geht es bei der deskriptiven Statistik um die Beschreibung – in unserem Fall – wirtschafts‐ und sozialwissenschaftlicher Sachverhalte. Die entsprechenden Sachverhalte sollen übersichtlich mit Hilfe geeigneter Kenngrößen, mit Tabellen und/oder Grafiken dargestellt werden. Man spricht deshalb auch von Informationsverdichtung oder – was das Gleiche ist – von Komplexitätsreduktion. Teil II des Buchs ist der deskriptiven Statistik gewidmet.

1.1.3.2 Induktive Statistik

Der induktiven Statistik liegen Stichprobenwerte zugrunde. Dies heißt, dass aus der Gesamtmasse an Informationen zu einem Sachverhalt (aus der sogenannten Grundgesamtheit) in geeigneter Weise (etwa durch Zufallsauswahl) einzelne Informationen beziehungsweise Daten ausgewählt werden. Dies geschieht unter anderem aus Kostengründen, da zum Beispiel die Befragung der Gesamtbevölkerung zu allen möglichen wirtschaftlichen und gesellschaftlichen Sachverhalten kostenintensiv, aber auch zeitaufwändig ist.

Da man letztlich an repräsentativen Aussagen über die Gesamtmasse an Informationen interessiert ist, wird versucht, mittels geeigneter statistischer Verfahren von den Stichprobenwerten auf die Gesamtmasse zu schließen. Da hierbei ein gewisses Maß an Unsicherheit verbleibt (etwa aufgrund des Stichprobendesigns), muss an dieser Stelle mit Wahrscheinlichkeiten gearbeitet werden. Dies bedeutet, dass man mit einer bestimmten Wahrscheinlichkeit von den Stichprobenwerten auf die statistische Gesamtmasse schließt. Daher ist die induktive Statistik zugleich auch Wahrscheinlichkeitsrechnung oder mit einem Fremdwort: Stochastik. Wir werden uns in Teil III des Buchs ausführlich mit der induktiven Statistik beschäftigen. In diesem Zusammenhang muss die zugrunde liegende Grundgesamtheit im Übrigen nicht unbedingt endlich sein; sie kann auch hypothetisch sein, wie zum Beispiel die Anzahl an Schadensfällen bei der Kalkulation von Versicherungsbeiträgen.

1.1.3.3 Ökonometrie

Die Ökonometrie stellt eine Verbindung aus induktiver Statistik und ökonomischer Theorie dar. Bestehende ökonomische Theorien werden in mathematische Gleichungen „gegossen“. Diese Gleichungen werden dann mit geeigneten Schätzverfahren einer empirischen Überprüfung zugeführt. Dabei ist es die Aufgabe des Forschers, die Kausalzusammenhänge in für ihn plausibler Weise vorab zu formulieren.

Je nach Fragestellung – ob auf der Makro‐ oder auf der Mikroebene, ob für einen bestimmten Zeitpunkt oder für einen bestimmten Zeitraum – existieren unterschiedliche Schätzmethoden. Diese Schätzmethoden beinhalten auch Hypothesentests, das heißt statistische Verfahren, mit deren Hilfe bestimmte theoretische Aussagen empirisch auf ihre Relevanz hin überprüft werden. Kapitel 17 in Teil III des Buchs setzt sich mit Grundfragen der Ökonometrie auseinander.

1.1.4 Statistische Einheiten

Als statistische Einheiten bezeichnet man im Bereich der Wirtschafts‐ und Sozialwissenschaften die an einer statistischen Untersuchung teilnehmenden Einheiten. Das können Personen, Haushalte oder Organisationen, aber auch zum Beispiel Städte oder Länder sein.

1.1.4.1 Bestands‐ und Bewegungsmassen

Betrachtet man die statistischen Einheiten zu einem bestimmten Zeitpunkt, spricht man von einer statistischen Bestandsmasse. Werden hingegen Veränderungen bezüglich der Eigenschaften der statistischen Einheiten über die Zeit hinweg betrachtet, liegt eine statistische Bewegungsmasse vor. Alternativ werden vielfach für Bestands‐ und Bewegungsmasse auch die Begriffe Querschnitt und Längsschnitt genutzt.

Zwischen den Größen Bestands‐ und Bewegungsmasse besteht folgender Zusammenhang:

End‐ und Anfangsbestand sind dem Begriff Bestandsmasse, Zu‐ und Abgänge dem Begriff Bewegungsmasse zuzuordnen.

1.1.4.2 Merkmale und Merkmalsausprägungen

Die interessierenden Eigenschaften der statistischen Einheiten heißen Merkmale, sodass die statistischen Einheiten entsprechend auch Merkmalsträger heißen. Die Merkmale können in verschiedene Merkmalsausprägungen gegliedert werden. So ist zum Beispiel das Geschlecht ein Merkmal mit den Ausprägungen „männlich“ und „weiblich“.

Anstelle von Merkmalen und Merkmalsausprägungen spricht man auch von Variablen und ihren Ausprägungen beziehungsweise ihren Werten. Variablen sind durch numerische Ausdrücke gekennzeichnet. Entsprechend könnte die Variable „Geschlecht“ etwa aus den numerischen Ausdrücken „0“ (für „männlich“) und „1“ (für „weiblich“) bestehen.

Bestimmte Variablen können direkt beobachtet werden (wie die Augen‐ oder die Haarfarbe einer Person sowie im Grunde genommen auch deren Geschlecht); sie heißen manifeste Variablen. Andere Variablen wie etwa „Lebenszufriedenheit“ oder „Arbeitsleistung“ sind hingegen nicht direkt beobachtbar, und man nennt sie latente Variablen. Hier muss ein Statistiker eine geeignete Variable konstruieren, um die entsprechenden Sachverhalte messbar zu machen – man spricht von Operationalisieren. Bei der Lebenszufriedenheit könnte eine solche Operationalisierung etwa darin bestehen, dass man den statistischen Einheiten eine Skala von „0“ bis „10“ vorlegt und sie angeben sollen, wo sie auf dieser Skala ihre Lebenszufriedenheit verorten. Zur Messung der Arbeitsleistung – um ein weiteres Beispiel zu geben – könnte ein Indikator „gebaut“ werden, in den verschiedene psychische und physische Anforderungen an die relevanten Tätigkeiten – zum Beispiel auf Basis von Experteneinschätzungen – eingehen.

In sozialpsychologischen Laborexperimenten weist man bestimmten Variablen den Begriff „Stimulus“ und anderen Variablen den Begriff „Response“ zu. Es geht hierbei darum, Ursache‐Wirkungs‐ beziehungsweise Reiz‐Reaktions‐Muster offenzulegen. Zum Beispiel könnte untersucht werden, wie Menschen bei bestimmtem Verhalten auf eine Bestrafung reagieren, das heißt: ob sie ihr Verhalten durch die Bestrafung verändern. Würde zum Beispiel der Kauf eines bestimmten Gutes im Experiment mit einer Strafzahlung sanktioniert, könnte sich dies gegebenenfalls in einer Vermeidung des Kaufs dieses Gutes äußern. Die Variable „Strafzahlung“ wäre der Stimulus, und die Kaufentscheidung der Person (nach der Sanktionierung) stellte den Response dar.

1.1.5 Vorgehen statistischer Untersuchungen

Statistische Untersuchungen bestehen in der Regel aus einem Dreiklang:

der Datenerhebung,

der Datenverarbeitung und

der Dateninterpretation.

Ganz grundsätzlich geht es um die Erhebung und Verarbeitung von Informationen. Unter Informationen kann die Ordnung von Daten im Sinne rohen Faktenmaterials verstanden werden. In diesem Sinne sind Informationen auf bestimmte Sachverhalte gerichtetes, das heißt zweckbezogenes Wissen.

Beziehen sich diese Sachverhalte in irgendeiner Weise auf wirtschaftliche beziehungsweise gesellschaftliche Aspekte, sind hiermit die Spezialfälle der Wirtschafts‐ und der Sozialinformationen beziehungsweise der Wirtschafts‐ und Sozialdaten gemeint. Wirtschaftsinformationen sind etwa Finanz‐, Markt‐ und Branchen‐, Produkt‐ und Technologie‐, Firmen‐ oder ökonomisch‐politische Informationen. Sozialinformationen können beispielsweise gesellschaftliche Werthaltungen oder Einschätzungen, Angaben zu Lebensformen und zur Sozialstruktur eines Landes sowie Werte für die Lebenszufriedenheit beziehungsweise für die Zufriedenheit in bestimmten Lebensbereichen sein.

1.2 Wirtschafts‐ und sozialstatistische Anwendungsgebiete

Im Grunde genommen können alle Bereiche des Lebens statistisch erfasst werden. In unserem Zusammenhang sind vor allem Analysen zu Wohlstand beziehungsweise Wohlfahrt, das heißt zu den Lebensbedingungen ebenso wie zum Verhalten von Menschen von Bedeutung. Diese Analysen sind nicht zuletzt für gezielte (sozial‐)politische Maßnahmen bedeutsam. Nachfolgend werden auszugsweise relevante Statistiken auf wirtschaftlichem beziehungsweise gesellschaftlichem Gebiet dargelegt.

1.2.1 Bevölkerung

Die Bevölkerungsstatistik ist in vielfältiger Weise für zielgerichtetes politisches Handeln von Interesse. Insbesondere interessieren die vergangene und die künftige Entwicklung der Bevölkerungsgröße und ‐struktur, etwa um das künftige Wirtschaftswachstum, Steueraufkommen und Transfervolumen in einer Gesellschaft beurteilen zu können.

Dabei kann die Veränderung der Bevölkerungsgröße in drei Elemente aufgespalten werden:

in die Entwicklung der Geburtenzahlen,

in die Entwicklung der Lebenserwartung und

in die Entwicklung der Migration.

Die Lebenserwartung gibt dabei Auskunft über die Sterblichkeit (Todesfälle) in einer Gesellschaft, sodass die Veränderung der Bevölkerung folgendermaßen dargestellt werden kann:

Die vorstehende Gleichung ist ein Beispiel für die Beziehung zwischen statistischen Bestandsmassen (Bevölkerungsbestand) und Bewegungsmassen (die anderen Größen in der vorstehenden Gleichung).

Neben der Entwicklung der Bevölkerungsgröße sind auch Änderungen in der Bevölkerungsstruktur bedeutsam, da auch sie Auswirkungen auf das politische Handeln haben (etwa in einer alternden Gesellschaft in Richtung erhöhter Rententransferzahlungen). Dabei wird nach verschiedenen soziodemografischen Merkmalen differenziert (zum Beispiel nach dem Alter, dem Geschlecht und der Staatsangehörigkeit).

1.2.2 Arbeitsmarkt

Vor allem in erwerbszentrierten Gesellschaften wie der bundesdeutschen spielen Veränderungen auf dem Arbeitsmarkt zur Beurteilung der künftigen wirtschaftlichen Entwicklung eine große Rolle. Die nötigen Informationen hierzu liefert die Arbeitsmarktstatistik.

Typische Begrifflichkeiten sind in diesem Zusammenhang die Begriffe Erwerbstätiger und Arbeitsloser. Die in Beschäftigung stehenden Personen einer Gesellschaft werden als Erwerbstätige bezeichnet. Sie können nach Selbstständigen und abhängig Beschäftigten (Arbeiter, Angestellte, Beamte) weiter differenziert werden. Zusammen mit den als arbeitslos registrierten Personen bilden die Erwerbstätigen die Gruppe der Erwerbspersonen. Nimmt man noch die nichtregistrierten Arbeitslosen, die Angehörigen der sogenannten Stillen Reserve, hinzu, haben wir es mit dem Erwerbspersonenpotenzial zu tun.

Für die vorstehenden Personengruppen lassen sich verschiedene Quoten berechnen. Verbreitet sind der Ausweis der Erwerbstätigenquote im Sinne des Verhältnisses aus der Anzahl der Erwerbstätigen und der Zahl der erwerbsfähigen Personen ebenso wie der Ausweis der Arbeitslosenquote. Diese Quote spiegelt den Anteil der Arbeitslosen an allen Erwerbspersonen beziehungsweise – in einer alternativen Definition – an allen abhängigen Erwerbspersonen (das heißt an den Erwerbspersonen ohne die Selbstständigen) wider.

Auf der Basis der vorstehend erwähnten Begrifflichkeiten werden Veränderungen auf dem Arbeitsmarkt in der Arbeitsmarktstatistik erfasst. Dabei geht es unter anderem um die Erfassung von Veränderungen im Niveau und in der Struktur von Erwerbstätigkeit und Arbeitslosigkeit.

1.2.3 Wohlfahrtsmessung

Im Bereich individueller Wohlfahrt – im Sinne individuellen Wohlergehens – beziehungsweise beim individuellen Wohlstand sind verschiedene Indikatoren zur Beschreibung der Wohlfahrts‐ und Wohlstandsverteilung üblich. Für die Wohlstandsverteilung in einem Land, aber auch zwischen Gruppen beziehungsweise zwischen den Personen dieses Landes können etwa genutzt werden:

das Einkommen,

das Vermögen und

der Verbrauch an Gütern.

Neben derartigen objektiven Indikatoren werden mitunter auch subjektive Beurteilungsmaßstäbe genutzt, etwa die Einschätzung der eigenen Wohlstandslage beziehungsweise derjenigen anderer Personen. Dies geschieht etwa über die Messung der Lebenszufriedenheit beziehungsweise von Zufriedenheit in bestimmten Lebensbereichen. Auf diese Weise erhält man Hinweise auf das tatsächliche und das subjektiv wahrgenommene individuelle Wohlergehen in einem Land, woraus sich Schlussfolgerungen hinsichtlich einer angemessenen staatlichen Umverteilung von Ressourcen zwischen den Mitgliedern einer Gebietseinheit ziehen lassen.

1.2.4 Preise

Preisstatistiken sind nicht nur zur Beurteilung von Inflationstendenzen von Bedeutung, sondern auch zur Messung von Wohlstandsunterschieden zwischen und innerhalb von Gebietseinheiten. Dies ergibt sich daraus, dass die Verfügbarkeit über Güter ausschlaggebend für (individuellen) Wohlstand ist. Verwendet man zum Beispiel das Einkommen als Wohlstandsindikator, ist nicht nur die Höhe dieses Einkommens für die Menge der käuflichen Güter maßgeblich, sondern auch die Preise dieser Güter. Man dividiert daher üblicherweise das Einkommen durch die Inflationsrate, um eine Aussage über die tatsächliche Verfügbarkeit von Gütern treffen zu können.

Es gibt sehr viele Preisstatistiken in einer Volkswirtschaft – je nach zugrunde gelegter Gütergruppe. Man unterscheidet etwa die Außenhandels‐, die Erzeuger‐ oder die Verbraucherpreisstatistik voneinander. Auch diese Statistiken können noch weiter differenziert werden, etwa die Erzeugerpreisstatistik in die Preisstatistiken für Rohstoffe und andere Vorleistungen beziehungsweise für Endprodukte.

1.2.5 Umwelt

Die seit den 1970er‐Jahren verstärkt diskutierte Umweltproblematik hat dazu geführt, dass umweltpolitischen Zielen inzwischen in den meisten der wirtschaftlich entwickelten Länder ein eigenständiger Stellenwert zugewiesen wird. Es ist von einer „nachhaltigen wirtschaftlichen Entwicklung“ die Rede. Dies bedeutet, dass durch eine schonende Nutzung der natürlichen Ressourcen das Entwicklungspotenzial der künftigen Generationen möglichst nicht allzu sehr eingeschränkt wird.

Für eine derartige Zielsetzung bedarf es einer brauchbaren Datenbasis in Form von Umweltstatistiken. In Deutschland stellt das Statistische Bundesamt in diesem Zusammenhang Informationen in den Umweltökonomischen Gesamtrechnungen zusammen. In deren Rahmen sollen die Beanspruchung, der Verbrauch, die Entwertung beziehungsweise die Zerstörung der natürlichen Ressourcen beziffert werden. Es werden beispielsweise die mit Umweltschutzmaßnahmen verbundenen Kosten berechnet.

1.2.6 Volkswirtschaftliche Gesamtrechnungen

Die Volkswirtschaftlichen Gesamtrechnungen dienen der übersichtlichen statistischen Erfassung und Darstellung abgelaufener gesamtwirtschaftlicher Vorgänge. Die für die Volkswirtschaftlichen Gesamtrechnungen typische Zusammenfassung (Aggregation) wirtschaftlicher Größen reduziert die Komplexität wirtschaftlicher Beziehungen, was aber zwangsläufig mit Informationsverlusten verbunden ist. Die Aggregation erfolgt in den Volkswirtschaftlichen Gesamtrechnungen sowohl nach funktionalen als auch nach sektoralen Gesichtspunkten. Die funktionale Aggregation erstreckt sich im Wesentlichen auf die Entstehung, die Verteilung und die Verwendung der Produktion und der hiermit verbundenen Einkommen. Die sektorale Gliederung der Volkswirtschaft führt zu den Sektoren Unternehmen, Privathaushalte, Staat und Ausland.

1.3 Träger von Wirtschafts‐ und Sozialstatistik

Im Grunde genommen ist jeder, der Daten erhebt, ein Träger beziehungsweise Produzent von Statistik. Es wird typischerweise zwischen amtlicher und nichtamtlicher Statistik unterschieden, wobei die betreffenden Träger sich auf statistische Sachverhalte im Inland beziehen oder aber international vergleichend agieren.

1.3.1 Amtliche versus nichtamtliche inländische Statistik

Für verschiedene Fragestellungen liegen gesetzliche Grundlagen zur Produktion von Statistiken vor. In diesen Fällen werden die entsprechenden Daten üblicherweise von einer Behörde produziert. Man spricht dann von der amtlichen Statistik.

Die meisten entsprechenden Statistiken in Deutschland stammen vom Statistischen Bundesamt. Auf dessen Website http://www.destatis.de finden sich umfassende statistische Informationen zur Lebenswirklichkeit in Deutschland. Auch die oben erwähnten Umweltökonomischen und Volkswirtschaftlichen Gesamtrechnungen werden für Deutschland seitens des Statistischen Bundesamts erstellt.

Des Weiteren sind an dieser Stelle Verwaltungsdaten zu nennen, die etwa von der Deutschen Rentenversicherung für den Bereich der gesetzlichen Rentenversicherung, von den Krankenkassen für die Bereiche gesetzliche Kranken‐ und Pflegeversicherung, von den Berufsgenossenschaften für die Unfallversicherung und von der Bundesagentur für Arbeit in Form der Arbeitsmarktstatistik zusammengestellt werden. Ein weiterer wichtiger Statistikträger ist in Deutschland für den Bereich des Geldwesens die Deutsche Bundesbank. Sie liefert unter anderem Informationen über die Geldvermögensbestände und die Kreditbeziehungen in der bundesdeutschen Volkswirtschaft.

Zum Teil haben die amtlichen Statistikträger eigene Forschungsdatenzentren gegründet, die der Wissenschaft anonymisierte Einzeldaten zur Verfügung stellen – in Form sogenannter Scientific Use Files. Zu nennen sind etwa die Datenzentren des Statistischen Bundesamtes, der Deutschen Rentenversicherung oder der Bundesagentur für Arbeit.

Werden Daten nicht auf gesetzlicher Grundlage erhoben, bezieht man sich auf die nichtamtliche Statistik. Hier sind in erster Linie durch die Wissenschaft selbst erhobene Daten anzuführen. Die entsprechenden Datenproduzenten sind Universitäten, Forschungseinrichtungen und so weiter. Eine große nichtamtliche Statistik ist in Deutschland das Sozioökonomische Panel, das vom Deutschen Institut für Wirtschaftsforschung in Berlin erhoben wird. Es umfasst differenzierte Informationen über das materielle Wohlergehen (Einkommen, Vermögen, zum Teil auch Ausgaben) und auch über die immaterielle Lebenslage von Personen (zum Beispiel Zufriedenheitsmessungen) in Deutschland.

1.3.2 Internationale Organisationen

Auf internationaler Ebene sind im Bereich der amtlichen Statistik unter anderem die den nationalen Behörden übergeordneten Einrichtungen zu nennen. Beispiele hierfür sind Eurostat als dem Statistischen Bundesamt übergeordnete Behörde auf EU‐Ebene oder die Europäische Zentralbank, die der Deutschen Bundesbank ebenfalls auf EU‐Ebene vorsteht. Auch die Internationale Arbeitsbehörde (ILO; International Labour Office), die Weltbank, die Vereinten Nationen oder die Organisation für wirtschaftliche Zusammenarbeit und Entwicklung (OECD; Organisation for Economic Cooperation and Development) sind bedeutende „Player“ bezüglich der Produktion von Wirtschafts‐ und Sozialdaten.

Als nichtamtliche Datenproduzenten sind auf der internationalen Ebene zum Beispiel Forschungsverbünde beziehungsweise ‐kooperationen zwischen Universitäten oder Forschungsinstituten verschiedener Länder tätig.

Übungsaufgaben

1.1

Gehen Sie auf mögliche statistische Untergliederungen ein.

1.2

Umreißen Sie die Begriffe Merkmal, Merkmalsträger und Merkmalsausprägung.

1.3

Welches sind die Wesensmerkmale der Bevölkerungsstatistik?

Auf einen Blick

Statistik ist die Lehre von der Erhebung, Verarbeitung und Interpretation von Daten.

Man unterscheidet im Wesentlichen zwischen der deskriptiven und der induktiven Statistik.

Statistische Einheiten sind die Träger von Merkmalen mit unterschiedlichen Merkmalsausprägungen.

Typische wirtschaftliche und soziale Statistikanwendungsbereiche sind die Bevölkerungs‐, die Arbeitsmarkt‐, die Preis‐ und die Umweltstatistik sowie die Produktions‐ und Einkommensstatistiken im Rahmen der Volkswirtschaftlichen Gesamtrechnungen; außerdem sind Messungen zum individuellen Wohlergehen zu nennen.

Träger von Wirtschafts‐ und Sozialstatistik sind amtliche und nichtamtliche Einrichtungen, und zwar sowohl im nationalen als auch im internationalen Rahmen.

2Datenerhebung

In diesem Kapitel …

werden wir verschiedene Formen der Erhebung statistischer Daten diskutieren,

werden die erhobenen Daten bestimmten Kategorien zugeordnet.

Die Erhebung statistischer Daten kann als Vollerhebung beziehungsweise als Teilerhebung (Stichprobe) oder in Bezug auf einen bestimmten Zeitpunkt (Querschnitt) beziehungsweise einen bestimmten Zeitraum (Längsschnitt) erfolgen. Die jeweils erhobenen Daten können von ihrer Art her unterschiedlich sein: Es kann sich um qualitative oder um quantitative Daten handeln.

2.1 Form der Datenerhebung

Die Form der Datenerhebung kann man auf verschiedenen Ebenen betrachten:

Vollerhebung versus Stichprobe,

Querschnitts‐ versus Längsschnitterhebung,

prozessproduzierte versus „wissenschaftliche“ Datenerhebung und

Primär‐ versus Sekundärdatenerhebung.

Auf diese Begriffspaare wird im Folgenden näher eingegangen.

2.1.1 Vollerhebung versus Stichprobe

Die Summe aller Merkmalsträger bildet die Grundgesamtheit. Werden die Daten der Grundgesamtheit erhoben, handelt es sich um eine Vollerhebung. Werden hingegen nur Teile der Grundgesamtheit bei der Datenerhebung berücksichtigt, sprechen wir von einer Teilerhebung, die man auch Stichprobe nennt.

Es gibt verschiedene Möglichkeiten, eine Stichprobe zu bilden (oder wie Statistiker sagen: zu ziehen). Eine Möglichkeit besteht darin, rein zufällig aus der Grundgesamtheit auszuwählen. Bei einer solchen Zufallsstichprobe könnte man etwa mit geschlossenen Augen in ein Telefonbuch tippen und die entsprechend gefundenen Telefonnummern dann anrufen. In der Praxis werden derartige Auswahlen heutzutage durch entsprechende Computersoftware bewerkstelligt.

Gerade bei freiwilligen Stichproben wird man – um eine ausreichende Repräsentativität sicherzustellen – Gruppen, die üblicherweise an einer freiwilligen Stichprobe nicht in dem gewünschten Maße teilnehmen, überproportional in das Auswahlverfahren einbeziehen, um eine ausreichend große Zahl an Daten der entsprechenden Gruppenmitglieder dann später bei der Datenverarbeitung zur Verfügung zu haben (sogenannte disproportionale Stichprobe). Beispielsweise könnte man die in besonderem Maße von Armut bedrohte Gruppe der Alleinerziehenden über ihren Bevölkerungsanteil hinaus in einer Stichprobe berücksichtigen, um ausreichend viele Fälle für die Analyse der entsprechenden sozialen Lage nutzen zu können.

Eine weitere, verbreitete Methode der Stichprobenziehung ist das Verfahren der Klumpenstichprobe. Bei ihm werden in der Regel für örtlich zusammenhängende statistische Einheiten (in Wohnbezirken, Gemeinden oder Bundesländern) jeweils einzelne Stichproben gezogen, die dann zur Gesamtstichprobe zusammengeführt werden.

In der Regel sind in den Wirtschafts‐ und Sozialwissenschaften Stichproben als Befragungen konzipiert. Diese können direkt vor Ort bei den Befragten, aber auch mittels Telefon oder online beziehungsweise postalisch durchgeführt werden. Eine weitere Technik der Datengewinnung – im Bereich der experimentellen Wirtschafts‐ beziehungsweise Sozial(psychologie)forschung – besteht darin, in Laborexperimenten das Verhalten der Stichprobenteilnehmer (der sogenannten Probanden) zu beobachten.

2.1.2 Querschnitt versus Längsschnitt beziehungsweise Panel

Beziehen sich die erhobenen Daten lediglich auf einen bestimmten Zeitpunkt (etwa auf das Jahr 2014), erhält man eine Momentaufnahme eines statistischen Phänomens. Man nennt solche Daten Querschnittsdaten. Ein Beispiel für eine Querschnittsanalyse wäre die Betrachtung der personellen Einkommensverteilung in Deutschland im Jahr 2014, und zwar nach verschiedenen soziodemografischen Merkmalen wie Alter, Geschlecht oder Nationalität differenziert.

Werden Querschnittsdaten über die Zeit hinweg betrachtet (zum Beispiel über den Zeitraum 2000–2014), haben wir es mit einem Längsschnitt zu tun. Ebenfalls unter die Rubrik Längsschnitt fallen Paneldaten. Bei ihnen werden über die Zeit hinweg identische Einheiten in den jeweiligen Erhebungen berücksichtigt und analysiert.

Beispielsweise werden in einem Panel die gleichen Personen zu verschiedenen Zeitpunkten bezüglich bestimmter Merkmale befragt. Auf diese Weise kann man in einer Panelstudie einen Perioden‐, einen Alters‐ und einen Kohorteneffekt voneinander unterscheiden. Der Periodeneffekt bezieht sich wie der Alterseffekt auf die jeweils betrachtete Periode. Im Periodeneffekt spiegeln sich die wirtschaftlichen, sozialen und rechtlich‐institutionellen Gegebenheiten der Periode, die alle Erhebungsteilnehmer betreffen. Mit dem Alterseffekt sind Unterschiede zwischen den einzelnen Altersklassen in der betreffenden Periode gemeint. Querschnittsdaten berücksichtigen zwar nicht den nachfolgend behandelten Kohorteneffekt, aber immerhin den Perioden‐ und den Alterseffekt.

Demgegenüber ist der Kohorteneffekt ein Spezifikum einer Panelanalyse, weil hier untersucht wird, wie gleichaltrige, über die Zeit hinweg identische Untersuchungseinheiten sich in ihrem Verhalten, ihren Ansichten oder dergleichen von anderen, älteren oder jüngeren, aber über die Zeit hinweg ebenfalls identisch zusammengesetzten Altersgruppen (Kohorten) unterscheiden. Betrachtet man also zum Beispiel das Einkommen einer Person über ihr gesamtes Leben hinweg (das heißt das Lebenseinkommen) wäre dies Gegenstand einer Panelbetrachtung.

In der Praxis ist es vielfach schwierig sicherzustellen, dass die einzelnen Untersuchungseinheiten durchgängig in einem Panel verbleiben; sie scheiden zum Teil aus dem Panel aus (man spricht dann von Panelsterblichkeit). Gründe hierfür sind der Tod der Befragten, aber auch eine fehlende Bereitschaft, weiter an der Panelerhebung teilzunehmen. Daher behilft man sich in der Praxis mitunter mit sogenannten Quasi‐Panels. Diese kennzeichnen den zeitlichen Verlauf in Bezug auf Eigenschaften von Personen, die im Ausgangsjahr gleich alt waren. Es muss sich dabei in der Folge nicht notwendigerweise in jeder Periode um dieselben Personen handeln; wichtig ist nur, dass in jeder der folgenden Perioden Personen der gleichen Altersklasse aus dem jeweiligen Geburtsjahr des Ausgangsjahrs stammen.

Untersucht man also zum Beispiel in den Jahren 1990–2014 die Einkommen der Gruppe der 1963 Geborenen, so wären diese im Ausgangsjahr 27 Jahre alt und im letzten Beobachtungsjahr 51 Jahre alt. In den einzelnen Jahren kann es sich in den betreffenden Stichproben durchaus um verschiedene Personen handeln, die in die betreffende Einkommensanalyse eingehen. Entscheidend ist in diesem Fall nur, dass eine Person im Jahr 1963 geboren wurde.

2.1.3 Amtliche, prozess‐ und wissenschaftsproduzierte Daten

Amtliche Daten beruhen – wie in Kapitel 1 dargelegt wurde – auf gesetzlichen Grundlagen. Insofern besteht an ihrer Erhebung ein gesellschaftliches Interesse. Manche dieser Daten werden von Verwaltungen produziert. Diese Daten nennt man im Speziellen prozessproduzierte Daten. Sie sind teilweise für Forschungszwecke nicht geeignet, weil sie eventuell zu sehr auf die zugrunde liegenden Verwaltungszwecke bezogen sind und wenig mit dem konkreten Forschungsinteresse zu tun haben.

Ein Beispiel stellt die Rentenantragsstatistik dar, die von der Deutschen Rentenversicherung erhoben wird. Sie gibt Auskunft über das Verwaltungshandeln der regionalen Rentenversicherungsträger etwa im Hinblick auf deren Bearbeitungszeiten von Rentenanträgen. Dies ist aber eine Fragestellung, die typischerweise außerhalb der Rentenversicherung von eher geringem Interesse ist.

Demgegenüber handelt es sich bei wissenschaftsproduzierten Daten um solche, deren Erhebung von Wissenschaftlern konzipiert und gesteuert wurde. Sie sind daher auf das jeweilige konkrete Forschungsinteresse bezogen. Mit dem Sozioökonomischen Panel ist zu Anfang der 1980er‐Jahre aus den Reihen der Wissenschaft eine Paneldatenbasis geschaffen worden. In ihr werden, wie bereits in Kapitel 1 skizziert, Erwerbs‐ und Familienbiografien, die berufliche Mobilität und Einkommensverläufe, aber auch Daten zu Gesundheit und Lebenszufriedenheit erhoben.

2.1.4 Primär‐ und Sekundärdaten

Werden für eine spezifische Fragestellung Daten erhoben, handelt es sich bei ihrer Verarbeitung um eine Primärdatenanalyse. Bezieht man sich hingegen in der Analyse auf bereits vorliegende Daten, spricht man von einer Sekundärdatenanalyse. Häufig sind es vergleichsweise hohe Erhebungskosten für eine eigene Erhebung, die dazu führen, dass sich wirtschafts‐ und sozialwissenschaftliche Betrachtungen auf Sekundärdaten beziehen. Dadurch muss ein Forscher allerdings in Kauf nehmen, dass die nutzbaren Daten nicht vollständig vereinbar mit seinen Forschungsvorstellungen sind.

2.2 Eigenschaften der erhobenen Daten

Man kann die erhobenen Daten nach ihrem Skalenniveau beziehungsweise auch nach ihrem Definitions‐ und Wertebereich voneinander unterscheiden. Für bestimmte Fragestellungen ist es zudem erforderlich, die Daten zu normieren, etwa um Saisoneffekte zu bereinigen.

2.2.1 Datenarten

Können Größer‐ beziehungsweise Kleiner‐Beziehungen zwischen den Merkmalsausprägungen dargestellt werden, handelt es sich um quantitative Daten. Ihre Ausprägungen sind Zahlen. Ein Beispiel ist das Einkommen von Personen. Hier kann angegeben werden, ob das Einkommen einer Person A größer oder kleiner als das Einkommen oder gleich dem Einkommen einer Person B ist.

Demgegenüber liegen qualitative Daten vor, wenn solche Größer‐ beziehungsweise Kleiner‐Beziehungen durch die Daten nicht darstellbar sind, wenn die Merkmalsausprägungen also nicht in eine Rangfolge untereinander gebracht werden können. Dies gilt etwa für das Merkmal Geschlecht mit seinen Ausprägungen „männlich“ und „weiblich“. Hier kann beim Vergleich einzelner Ausprägungen nur festgestellt werden, ob diese gleich oder ungleich sind.

Gleichwohl kann man über eine Transformation der Ausprägungen qualitativer Daten in Zahlenwerte diese auch der statistischen Analyse zugänglich machen. Beispielsweise kann man einer qualitativen Variablen die Werte 0 und 1 zuordnen (wobei 0 typischerweise für „Merkmalsausprägung liegt nicht vor“ und 1 für „Merkmalsausprägung liegt vor“ steht). Dann haben wir es mit einer dichotomen Variablen, auch „Dummy“ genannt, zu tun. Bei mehreren entsprechenden Ausprägungen sprechen wir von einer polytomen Variablen.

2.2.2 Skalenniveau der Daten

Es gibt beim Skalenniveau der Daten die Unterscheidungen nach Nominal‐, Ordinal‐, Intervall‐ und Kardinalskala. Diese Skalierungen unterscheiden sich dadurch voneinander, dass die jeweiligen Merkmale unterschiedliche Definitionsbereiche in Bezug auf konkrete Zeichen beziehungsweise Zahlen haben. Das heißt: Es geht in diesem Zusammenhang um die Merkmalseigenschaften.

2.2.2.1 Nominalskala

Daten auf einer Nominalskala weisen als Ausprägungen lediglich Benennungen („Etikettierungen“) auf. Man kann nur unterscheiden, ob eine Untersuchungseinheit die betreffende Merkmalsausprägung aufweist oder nicht. Eine Rangfolge im Sinne der Wertigkeit kann innerhalb der Daten nicht aufgestellt werden. So kann man etwa beim Merkmal Geschlecht nach männlich oder weiblich unterscheiden, aber eine Rangfolge zwischen beiden Ausprägungen verbietet sich naheliegenderweise.

Bei nominalskalierten Merkmalen ist darauf zu achten, dass die Bildung der Merkmalsausprägungen vollständig ist, das heißt dass keine mögliche Ausprägung vergessen wird. Gegebenenfalls ist eine Kategorie „Rest“ zu bilden. In diesem Zusammenhang müssen die Merkmalsausprägungen überschneidungsfrei formuliert werden. Bildet man zum Beispiel aufgrund der Staatsangehörigkeit einer Person die beiden Kategorien „deutsch“ und „EU‐Ausländer“, muss man der Vollständigkeit halber auch noch eine Restkategorie bilden, die auch die Nicht‐EU‐Ausländer und die Staatenlosen beziehungsweise die Personen umfasst, die hinsichtlich ihrer Staatsangehörigkeit keine Angabe gemacht haben. Außerdem ist bei einer derartigen Differenzierung in diesem Beispiel darauf zu achten, dass Personen mit doppelter Staatsangehörigkeit einer der drei Kategorien zugeordnet werden. Möglicherweise wäre es in diesem Fall am sinnvollsten, zuzüglich zu den vorhandenen Kategorien noch eine vierte Kategorie „Doppel‐Staatsangehörige“ einzuführen und die beiden Kategorien „deutsch“ und „EU‐Ausländer“ in „nur deutsch“ sowie „nur EU‐Ausländer“ umzubenennen.

2.2.2.2 Ordinalskala

Bei ordinalskalierten Merkmalen kann man im Unterschied zu nominalskalierten Merkmalen eine Rangfolge der einzelnen Ausprägungen im Sinne von „größer“ oder „kleiner“ angeben. Gleichwohl lassen sich die Abstände zwischen den einzelnen Merkmalsausprägungen nicht (sinnvoll) interpretieren. Ein Beispiel stellen Schulnoten dar. Es ist zwar statthaft zu sagen, dass (im deutschen Notensystem) die Note 1 höherwertiger im Vergleich zur Note 6 ist; nicht statthaft ist es hingegen zu sagen, dass die Note 1 um das Sechsfache besser als die Note 6 ist.

Letztendlich ist dies auf die Willkür der vorgegebenen Merkmalsausprägungen zurückzuführen. Würde man zu jeder Notenausprägung den Wert 10 addieren, wäre die Rangfolge zwar genauso wie zuvor: Die Note 11 wäre nun die beste und die Note 16 die schlechteste Note. Betrug zuvor die Relation zwischen schlechtester und bester Note , wäre sie nunmehr . Ohne dass sich inhaltlich etwas verändert hat, ergeben sich durch diese Transformation also Unterschiede, wenn man die Notenwerte – unzulässigerweise – jeweils zueinander in Beziehung setzt.

Mitunter werden nominalskalierte und ordinale Merkmale auch unter dem Oberbegriff der kategorialen Merkmale geführt. Ihnen werden die nachfolgend behandelten metrischen Merkmale gegenübergestellt.

2.2.2.3 Intervall‐ und Kardinalskala

Bei metrischen Daten sind auch Angaben über die Abstände zwischen Ausprägungen möglich. Voraussetzung hierfür ist, dass die Abstände zwischen den Merkmalsausprägungen in äquidistanten Einheiten bemessen werden. Diese Äquidistanz der Werteausprägungen bedeutet, dass die Abstände zwischen zwei aufeinanderfolgenden Ausprägungen jeweils gleich groß sind. So ist bei den nachfolgend beispielhaft behandelten Temperatureinheiten etwa die Differenz zwischen 15 °C und 14 °C gleichwertig zur Differenz zwischen 30 °C und 29 °C. In beiden Fällen beträgt diese Differenz 1 °C, ist also gleich groß.

Bei intervallskalierten Daten liegt kein natürlicher Nullpunkt vor. Unter einem natürlichen Nullpunkt versteht man dabei das völlige Fehlen der entsprechenden Eigenschaft; außerdem sind in diesem Fall auf der betreffenden Skala negative Werte nicht möglich. Ein Beispiel für intervallskalierte Daten – wie geschrieben: ohne natürlichen Nullpunkt! – sind die Temperaturangaben in Celsius oder Fahrenheit. Bei jeder der beiden Einheiten ergeben sich unterschiedliche Nullpunkte. 0° Celsius (C) zum Beispiel entsprechen 32° Fahrenheit (F). Verhältnisse sind bei einer Intervallskalierung nicht interpretierbar. So ist die Aussage, dass es bei 20 °C doppelt so heiß ist wie bei 10 °C, nicht statthaft. 20 °C entsprechen nämlich 52 °F und 10 °C genau 42 °F, und in der Fahrenheit‐Skala würde die betreffende Temperaturerhöhung keine Verdoppelung bedeuten, sondern nur eine Erhöhung um den Faktor .

Demgegenüber weisen die Körpergröße oder auch das Haushaltseinkommen einen solchen natürlichen Nullpunkt auf. Derartige Daten heißen kardinalskaliert. Auch die Temperaturangaben in Kelvin sind – im Unterschied zu den Temperaturangaben in Celsius oder in Fahrenheit – kardinalskaliert. Dies liegt darin begründet, dass die Kelvin‐Skala sich auf den absoluten Nullpunkt der Temperatur (bei –273 °C) bezieht und folglich bei 0° Kelvin (K) beginnt.

Bei kardinalskalierten Daten ist es – im Unterschied zu intervallskalierten Daten – statthaft, Verhältnisse zwischen den Merkmalsausprägungen zu bilden. Deshalb spricht man mitunter anstelle einer Kardinalskala auch von einer Ratioskala. Man kann sagen, dass eine Person mit einem Einkommen von 1.000 Euro doppelt so viel Einkommen besitzt wie eine Person mit einem Einkommen von 500 Euro. Auch bezüglich der Temperaturangaben mittels Kelvin‐Skala sind nunmehr solche Verhältnisse möglich: 20 °K bedeuten eine doppelt so hohe Temperatur wie 10 °K.

2.2.3 Definitions‐ und Wertebereich von Daten

Je nach zugrunde gelegtem Definitions‐ und Wertebereich können zwei unterschiedliche Formen quantitativer Daten unterschieden werden. Zum einen handelt es sich um diskrete und zum anderen um stetige Daten.

2.2.3.1 Diskrete Daten

Diskrete Daten sind (in der Regel) quantitative Daten, die also numerisch dargestellt werden können. Ihr Wertebereich stammt aber lediglich aus der Menge der ganzen Zahlen. Daher fehlen zwischen den jeweiligen Merkmalsausprägungen Werte, und es ergeben sich bei der Darstellung diskreter Daten entsprechend Lücken beziehungsweise Sprungstellen.

2.2.3.2 Stetige Daten

Stammen die (quantitativen) Merkmalsausprägungen einer Variablen aus dem Zahlenraum der reellen Zahlen, liegen stetige Daten vor. Deren Ausprägungen können mit beliebig vielen Nachkommastellen dargestellt werden. Entsprechend existieren bei stetigen Daten typischerweise keine Sprungstellen. In der wirtschafts‐ und sozialwissenschaftlichen Praxis ist die letztgenannte Bedingung in der Regel nur näherungsweise erfüllt. So können Einkommens‐ oder Vermögensangaben nur mit zwei Nachkommastellen dargestellt werden. Dennoch werden derartige Variablen auch als (quasi‐)stetig behandelt.

2.2.4 Zusammenfassung der Datenarten

Die vorstehend behandelten Unterscheidungen nach qualitativen und quantitativen Daten beziehungsweise nach diskreten versus stetigen Daten sowie nach dem Skalierungsniveau können in einem Schema angeordnet werden, das in Abbildung 2.1 dargestellt ist.

Abbildung 2.1: Arten von Daten

2.2.5 Normierung von Daten

Datentechnische Probleme wie etwa Messfehler erfordern eine Anpassung der Rohdaten in plausibler Weise. Auch bei unterjährigen Daten sind entsprechende Anpassungen vonnöten. Eine weitere, schätz‐ beziehungsweise testtechnisch motivierte Anpassung stellt die Z‐Transformation dar; sie wird in Kapitel 6 (sowie in Kapitel 13) gesondert behandelt.

2.2.5.1 Saisonbereinigung

Liegen Daten als unterjährige Daten (zum Beispiel als Quartalsdaten) vor, ergeben sich bei gesellschaftspolitisch relevanten Daten Verzerrungen zwischen den Zeiteinheiten dadurch, dass saisonale Einflüsse eine Vergleichbarkeit der Daten erschweren. Als Beispiel können wetterbedingte Saisoneffekte auf die Arbeitslosendaten genannt werden. So ist in Mitteleuropa die Arbeitslosigkeit im Winter typischerweise höher als im Sommer, weil zum Beispiel Bauarbeiten im Winter nicht so gut durchgeführt werden können wie im Sommer. Mit Saisonbereinigungsverfahren versucht man diese Saisoneffekte auszuschalten. Näheres zu diesem Thema folgt in Kapitel 11.

Über Saisoneffekte hinaus kann man auch die unterjährigen Sondereffekte von Feiertagen und Ähnlichem durch entsprechende Verfahren ausschalten. In diesem Fall spricht man von kalendertäglicher Bereinigung.

2.2.5.2 Datenimplementierung

In Befragungen führen vor allem Antwortverweigerungen dazu, dass im Datensatz bei bestimmten Variablen Ausprägungen fehlen. Entsprechendes kann auch bei unvollständigen Messreihen in Laborexperimenten vorkommen. Um den entsprechenden Datensatz zu vervollständigen, bedient man sich der Technik der Datenimplementierung: Es werden Zusatzinformationen genutzt, um die Lücken zu füllen. Beispielsweise könnte man die fehlenden Werte durch die relevanten Durchschnittswerte für alle anderen Beobachtungseinheiten im Datensatz ersetzen, oder man könnte sich auf den Durchschnittswert für die gleiche Personengruppe beziehen. Hat zum Beispiel ein 30‐jähriger männlicher Alleinstehender, der von Beruf Gymnasiallehrer ist, sein monatliches Nettoeinkommen nicht angegeben, könnte man dieses fehlende Einkommen durch das durchschnittliche monatliche Nettoeinkommen für die Gruppe der anderen 30‐jährigen männlichen Alleinstehenden, die Gymnasiallehrer sind, ersetzen.

In diesen Themenkreis fällt auch das Verfahren des Datenmatchings. Hierbei werden anhand von Schlüsselvariablen zwei Datensätze miteinander verknüpft, um jeden der Datensätze durch die zusätzlichen Informationen des jeweils anderen Datensatzes anzureichern. Da es sich zum Teil um unterschiedliche Beobachtungseinheiten in beiden Datensätzen handelt, kann man üblicherweise die beiden Datensätze nicht direkt miteinander verknüpfen, sondern muss bezüglich der Schlüsselvariablen Ähnlichkeiten der Beobachtungseinheiten in beiden Datensätzen (etwa in Bezug auf Alter, Geschlecht und so weiter) heranziehen.

Vereinfacht gesprochen: Hat man in beiden Datensätzen die gleichen soziodemografischen Angaben (im Sinne der Schlüsselvariablen), aber bestimmte interessierende Variablen der soziodemografischen Einheiten nur in jeweils einem Datensatz, könnte man bei den gleichen soziodemografischen Merkmalsausprägungen diese interessierenden Variablen „zusammenspielen“. Stellen Sie sich zum Beispiel wieder unseren Fall des 30‐jährigen männlichen Alleinstehenden mit Beruf Gymnasiallehrer vor. Für diese Fallgruppe seien im ersten Datensatz etwa Einkommensinformationen und im zweiten Datensatz Angaben zur individuellen Lebenszufriedenheit enthalten. Dann könnte man unter der zusätzlichen Annahme, dass die Verteilung der Lebenszufriedenheiten proportional zur Einkommenshöhe ist, für diesen Personenkreis die Einkommensinformationen aus dem ersten Datensatz mit den Zufriedenheitsangaben aus dem zweiten Datensatz koppeln. Da es sich nicht um identische Personen handelt, begeht man beim entsprechenden Matching einen Fehler, der in der Praxis nur sehr schwer zu beziffern ist.

Übungsaufgaben

2.1

Skizzieren Sie den Alters‐, den Perioden‐ und den Kohorteneffekt eines Panels.

2.2

Es soll die Lebenszufriedenheit auf einer Skala von 0 (sehr schlecht) bis 10 (sehr gut) gemessen werden; es stehen also 11 Werte zur Auswahl. Welche Art der Skalierung liegt vor? Begründen Sie Ihre Antwort.

2.3

Warum müssen Datenbestände zum Teil angepasst werden? Gehen Sie auf die Saisonbereinigung und die Datenimplementierung ein.

Auf einen Blick

Daten liegen entweder in Form einer Vollerhebung (Grundgesamtheit) oder in Form einer Teilerhebung (Stichprobe) vor.

Zeitpunktdaten heißen Querschnittsdaten; Zeitraumdaten nennt man Längsschnittdaten. Längsschnitte mit identischen statistischen Einheiten ergeben ein Panel.

Des Weiteren unterscheidet man zwischen amtlichen, prozessproduzierten und wissenschaftsbasierten Daten sowie zwischen primär‐ und sekundärstatistischen Daten.

Je nach Skalierungsniveau gibt es nominal‐, ordinal‐, intervall‐ und kardinalskalierte Daten. Zudem unterscheidet man zwischen diskreten und stetigen Daten.

Aufgrund saisonaler Einflüsse beziehungsweise von Kalendereffekten und bei fehlenden Daten werden Datenbestände mittels geeigneter statistischer Verfahren angepasst.

3Datenauswertung

In diesem Kapitel …

werden in allgemeiner Weise Möglichkeiten der Auswertung erhobener Daten präsentiert,

wird auf mögliche Probleme der Datenauswertung hingewiesen.

Die erhobenen Daten müssen aufbereitet werden, um in der Öffentlichkeit sinnvoll diskutiert werden zu können. Dies kann mit verschiedenen Techniken bewerkstelligt werden. Gerade bei der Interpretation der Daten ergeben sich aber gewisse „Fallstricke“, die es zu vermeiden gilt und auf die im Folgenden ausführlich eingegangen wird.

3.1 Form der Datenauswertung

Es existieren verschiedene Formen der Datenauswertung. Zu nennen sind visuelle Darstellungen (Grafiken), aber auch die rechnerische Bearbeitung der erhobenen Daten. Diese kann verdichtet in Form von Kennziffern für ein oder für mehrere Merkmale erfolgen.

3.1.1 Grafiken

Bis zur dritten Dimension hin können Sachverhalte grafisch dargestellt werden. Mit anderen Worten: Es können statistische Zusammenhänge zwischen bis zu drei Merkmalen in einer Grafik abgebildet werden.

Für Querschnittsdaten werden dabei typischerweise die Strukturen einzelner Merkmale dargelegt. Hierfür stehen mehrere grafische Darstellungstechniken zur Verfügung. In Kapitel 4 werden Sie die Techniken des Kreis‐ und des Balkendiagramms ebenso kennenlernen wie die des Histogramms für klassifizierte Daten und hierauf aufbauend diejenige des (Summen‐)Polygons. Bei Darstellungen im kartesischen Koordinatensystem werden hierbei in der Regel den einzelnen Merkmalsausprägungen (Abszisse) die einzelnen Häufigkeiten auf der Ordinate zugeordnet, sodass ein Eindruck von der Verteilung der einzelnen Häufigkeitswerte entsteht. Beispielsweise kann man auf der Abszisse die für eine bestimmte Gesellschaft relevanten Einkommensklassen abtragen und ihnen auf der Ordinate die jeweiligen Prozentsätze ihres Auftretens zuordnen. Auf diese Weise erhält man ein Bild über die Verteilung der Einkommen in dieser Gesellschaft.

In Längsschnittanalysen stehen Entwicklungen der interessierenden Variablen im Vordergrund. Typischerweise trägt man in diesem Zusammenhang im kartesischen Koordinatensystem auf der Abszisse den Untersuchungszeitraum und auf der Ordinate den Wert der interessierenden Variablen ab. Beispielsweise kann man sich für die Entwicklung der Arbeitslosenquote über die Zeit hinweg interessieren. Dann trägt man die Arbeitslosenquote auf der Ordinate ab. Auf diese Weise erhält man einen optischen Eindruck davon, ob der Verlauf der Arbeitslosenquote über die Zeit hinweg eine gewisse Regelmäßigkeit aufweist. Ist dies der Fall, spricht man von einem Trend.

3.1.2 Univariate Kennziffern

Betrachtet man isoliert nur ein einzelnes Merkmal, liegt eine univariate Analyse vor. Man schaut sich demnach lediglich die Ausprägungen dieses Merkmals an und versucht, die betreffenden Informationen in einer Kennziffer zu verdichten. Dies erfolgt, um ein möglichst klares, einfaches Bild über das zugrunde liegende Phänomen zu erhalten. So betrachtet man vielfach die mittleren Ausprägungen eines Merkmals, um einen Eindruck über „typische“ Merkmalsausprägungen zu erhalten. Möchte man etwa die Wirtschaftskraft zweier Länder miteinander vergleichen, kann man sich auf die jeweiligen Bruttoinlandsprodukte pro Kopf beziehen.

Um Vergleiche zwischen verschiedenen Merkmalen beziehungsweise für einzelne Merkmale über die Zeit hinweg oder zwischen unterschiedlichen Gebietseinheiten zu ermöglichen, normiert man vielfach die entsprechenden Kennziffern. Man betrachtet in diesem Sinne dimensionslose Kennziffern, die zwischen einer festen Untergrenze (vielfach 0) und einer festen Obergrenze (vielfach 1) normiert sind.

3.1.3 Zusammenhangsanalyse

Stellt man Beziehungen zwischen zwei oder mehr Phänomenen beziehungsweise Variablen her, handelt es sich um eine bi‐ beziehungsweise multivariate Analyse. Dabei wird danach unterschieden, einerseits ob unabhängig von der Einflussrichtung eine statistische Beziehung zwischen den Variablen besteht beziehungsweise andererseits welcher Art eine solche statistische Beziehung in einem Ursache‐Wirkungs‐Sinne ist. Im erstgenannten Fall spricht man von einer Assoziations‐ beziehungsweise Korrelationsanalyse, im zweitgenannten Fall von einer Regressionsanalyse. Näheres hierzu folgt in den Kapiteln 8 und 9.

Um zu vermeiden, dass Merkmale zueinander in Beziehung gesetzt werden, die inhaltlich im Grunde genommen nichts miteinander zu tun haben, ist es unbedingt notwendig, dass ein Forscher im Vorfeld einer Zusammenhangsanalyse seinen „gesunden Menschenverstand“ walten lässt. Dies gilt im Besonderen bei einer Regressionsanalyse, bei der entschieden werden muss, welche Variable die zu erklärende Größe ist und welche Variable(n) als Einflussfaktor(en) benannt wird beziehungsweise werden. In der Praxis werden hierbei Kenntnisse der Wahrscheinlichkeitsrechnung (Stochastik) benötigt, die Ihnen ab Kapitel 12 nähergebracht werden. Der Grund für die Bezugnahme auf die Wahrscheinlichkeitsrechnung liegt darin, dass fast alle realen Phänomene zufallsabhängig und inhaltlich mit den vorhandenen sozialwissenschaftlichen Theorien nicht vollständig erklärt werden können.

3.1.4 Statistikprogramme

In den vergangenen Jahrzehnten sind zur Umsetzung der vorstehend genannten Formen der Datenauswertung leistungskräftige Statistikprogramme entwickelt worden. Im wirtschafts‐ und sozialwissenschaftlichen Bereich sind SPSS, STATA und R am bekanntesten. Sie enthalten alle gängigen deskriptiven und induktiven Statistikprozeduren sowohl für Quer‐ als auch für Längsschnittdaten. In diesem Buch wird an mehreren Stellen auf das Programm SPSS Bezug genommen.

3.2 Probleme der Datenauswertung

Die Auswertung von Daten ist mit verschiedenen „Fallstricken“ verbunden. Es können Probleme bei der näheren Festlegung (Spezifikation) und bei der Interpretation der Daten auftreten; zum Teil verführt aber auch die grafische Darstellung der erhobenen Daten zur Manipulation der Auswertungsergebnisse. Im Sinne sorgfältigen wissenschaftlichen Arbeitens ist darauf zu achten, dass derartige Fehlspezifikationen und ‐interpretationen sowie Manipulationen jedweder Art unterlassen werden.

3.2.1 Adäquationsproblem

Werden bestimmte theoretische Vorstellungen nicht angemessen durch die Wahl des statistischen Verfahrens abgebildet, liegt das sogenannte Adäquationsproblem vor. In diesem Fall ist ein Sachverhalt fehlspezifiziert.

Stellen Sie sich vor, dass Sie die Einkommensunterschiede innerhalb einer Gesellschaft darstellen möchten, dass Ihnen aber als Informationen nur das Gesamteinkommen über alle Mitglieder dieser Gesellschaft hinweg sowie die Bevölkerungsgröße vorliegen. In diesem Fall könnten Sie dazu verleitet werden, das Einkommen pro Kopf auszurechnen. Dies ist aber eine Durchschnittsgröße, die nichts über die Unterschiede in den personellen Einkommen aussagt. Ihre Analyse wäre also fehlspezifiziert.

3.2.2 „Fallstricke“ (I): Fehlinterpretationen

Auch bei ordentlicher statistischer Spezifikation gibt es „Fallstricke“ in Form von fehlerhafter Dateninterpretation oder gar in Form von manipulativer Ergebnisdarstellung.

Grundsätzlich können Fehlinterpretationen folgende Ursachen haben, die in den nachstehenden Unterabschnitten näher erläutert werden:

die Verletzung der Adäquationsregel,

fehlende analytische Differenziertheit,

fehlerhafte oder nicht eindeutige Kausalitäten,

nichtrepräsentative Daten,

nichtberücksichtigte Daten und Messfehler sowie

Strukturbrüche.

3.2.2.1 Verletzung der Adäquationsregel

Letztlich hängen Fehlinterpretationen mit dem oben dargelegten, entsprechend erweiterten Adäquationsproblem zusammen: Die statistische Analyse ist dem zugrunde liegenden Datenmaterial nicht angemessen. Häufig werden zum Beispiel ordinalskalierte Merkmale kardinal interpretiert. Dass dies nicht zulässig ist, wurde oben bereits erwähnt: Bei ordinalskalierten Merkmalen spielen die Abstände zwischen den einzelnen Ausprägungen bekanntlich überhaupt keine Rolle.

Aber auch bei angemessener Skalierung sind Fehlschlüsse durch Verletzung der Adäquationsregel möglich, wenn nämlich die konkrete Fragestellung nicht mit dem verwendeten Datenmaterial ausreichend zusammenhängt. Beispielsweise kann man nur begrenzt – etwa aufgrund vorhandener kultureller Unterschiede – aus dem Kaufverhalten der Menschen in Skandinavien unmittelbar auf das der Deutschen schließen. Noch schwieriger ist es in diesem Zusammenhang – als Folge der noch größeren gesellschaftlichen beziehungsweise wirtschaftlichen Unterschiede –, aus dem Kaufverhalten in Nordkorea unmittelbar auf dasjenige in Deutschland Schlussfolgerungen zu ziehen.

3.2.2.2 Fehlende Differenziertheit der Analyse

Des Weiteren kann es zu Fehlurteilen auch deshalb kommen, weil die betreffende Studie zu oberflächlich, zu undifferenziert durchgeführt wird. Umgangssprachlich handelt es sich um das „Äpfel‐Birnen‐Problem“. Das heißt: Es werden unzulässigerweise Äpfel mit Birnen verglichen.

Beispiel

Stellen Sie sich vor, es gäbe – bei freier, geschlechtsneutraler Studienwahl – insgesamt 1.000 erfolgreiche Universitätsabsolventen. Die 600 weiblichen Universitätsabsolventen sollen allesamt Kunstgeschichte studiert haben; bei den (400) männlichen Universitätsabsolventen sollen jeweils 100 Personen erfolgreich Mathematik, Physik, Chemie und Ingenieurwesen studiert haben. Der Frauenanteil an allen Universitätsabsolventen liegt demnach bei 60 %.

Nun sei in den fünf genannten Fachgebieten jeweils eine Professorenstelle zu besetzen. Bei fachspezifischer Besetzung dieser Stellen führt dies zu einem Frauenanteil unter den neuen Professoren in Höhe von 20 %.

Es ist ein (gravierendes) Fehlurteil, wenn man aus diesen beiden Prozentwerten auf eine Diskriminierung zu Lasten der Frauen unmittelbar schließt. Schließlich hatten die Frauen im Beispiel die freie Studienauswahl. Man kann höchstens kritisieren, dass frauenspezifische Studiengänge bei der Anzahl der zu besetzenden Professorenstellen unterrepräsentiert sind und dass hierin ein gesellschaftliches Problem besteht.

3.2.2.3 Problematische Kausalitäten

Überhaupt muss man vorsichtig sein, aus bestimmten statistischen Zusammenhängen auf eine Kausalität