21,99 €
Ökonometrie; nicht nur der Begriff ist etwas sperrig, auch die Inhalte erschließen sich nicht jedem sofort. Wichtig und interessant ist sie aber trotzdem. Roberto Pedace erklärt Ihnen, worum es in der Ökonometrie geht, wie Sie Test-Hypothesen aufstellen und vieles mehr. Er erläutert, wie Sie mit Regressionsmodellen arbeiten und mit diskreten und abhängigen Variablen umgehen. Gegen Ende des Buches geht er über die Basismodelle hinaus und führt Sie in statische und dynamische Modelle sowie die Kunst der Vorhersagen ein.
Sie lesen das E-Book in den Legimi-Apps auf:
Seitenzahl: 484
Veröffentlichungsjahr: 2015
Bibliografische Information der Deutschen Nationalbibliothek
Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar.
1. Auflage 2015
© 2015 WILEY-VCH Verlag GmbH & Co. KGaA, Weinheim Original English language edition Econometrics For Dummies © 2013 by Wiley Publishing, Inc.
All rights reserved including the right of reproduction in whole or in part in any form. This translation published by arrangement with John Wiley and Sons, Inc.
Copyright der englischsprachigen Originalausgabe Econometrics For Dummies © 2013 by Wiley Publishing, Inc.
Alle Rechte vorbehalten inklusive des Rechtes auf Reproduktion im Ganzen oder in Teilen und in jeglicher Form. Diese Übersetzung wird mit Genehmigung von John Wiley and Sons, Inc. publiziert.
Wiley, the Wiley logo, Für Dummies, the Dummies Man logo, and related trademarks and trade dress are trademarks or registered trademarks of John Wiley & Sons, Inc. and/or its affiliates, in the United States and other countries. Used by permission.
Wiley, die Bezeichnung »Für Dummies«, das Dummies-Mann-Logo und darauf bezogene Gestaltungen sind Marken oder eingetragene Marken von John Wiley & Sons, Inc., USA, Deutschland und in anderen Ländern.
Das vorliegende Werk wurde sorgfältig erarbeitet. Dennoch übernehmen Autoren und Verlag für die Richtigkeit von Angaben, Hinweisen und Ratschlägen sowie eventuelle Druckfehler keine Haftung.
Coverfoto: © waldemarus – Fotolia.com
Satz: inmedialo Digital- und Printmedien UG, Plankstadt
Print ISBN: 978-3-527-70989-2ePub ISBN: 978-3-527-80152-7mobi ISBN: 978-3-527-80151-0
Roberto Pedace ist Professor für Okönometrie am Scripps College in Claremont, Kalifornien. Bevor er an diese Fakultät kam, unterrichtete er an der Claremont Graduate University, der University von Redlands, dem Claremont McKenna College und war im U. S. Census Bureau tätig. Er promovierte in Ökonomie an der University of California, Riverside.
Roberto Pedace unterrichtet regelmäßig in den Bereichen Statistik, Mikroökonomie, Arbeitsmarktökonomie sowie Ökonometrie. Während seiner Zeit an der University of Redlands wurde er sowohl für den Innovative Teaching Award wie auch den Outstanding Teaching Award nominiert. Am Scripps College wurde er mit dem Mary W. Johnson Fakulty Achievement Award in Scholarship für seine wissenschaftlichen Leistungen geehrt.
Roberto Pedaces Forschungsinteresse gilt dem Bereich der Arbeits- und Personalwirtschaft. Seine Arbeit beschäftigt sich mit einer Vielzahl wichtiger politischer Themen, einschließlich den Auswirkungen von Immigration auf inländische Arbeitsmärkte und den Einfluss von Mindestlöhnen auf Berufsausbildung und Arbeitslosigkeit. Darüber hinaus beschäftigt er sich mit Gehaltsermittlung und Personalentscheidungen im Bereich des Profisports. Seine Veröffentlichungen erscheinen in den Journalen Southern Economic Journal, Journal of Sports Economics, Contemporary Economic Policy, Industrial Relations und anderen Publikationen.
Roberto ist leidenschaftlicher Fußballspieler. Er spielt seit seinem fünften Lebensjahr, hat den größten Teil seines Bachelorstudiums mit einem Fußballstipendum finanziert und gab ein kurzes Gastspiel als Halbprofi in der USISL (United States Interregional Soccer League). Er nimmt immer noch an Ligaspielen und Turnieren teil, bevorzugt es aber jetzt meistens, auf der Bank zu sitzen und seinen Kindern beim Fußballspielen zuzusehen.
Karl-Kuno Kunze, geboren 1970, ist Professor für Wirtschaftsmathematik und -statistik an der Ostfalia Hochschule Braunschweig/Wolfenbüttel. Er promovierte zunächst in theoretischer Physik, dann in Wirtschaftswissenschaft. Nach über zehnjähriger Praxis in der Anwendung quantitativer Modelle in der Finanzwirtschaft leitet er jetzt das R Institute (www.r-institute.com), welches Beratung, Schulungen und Zertifizierungen im Bereich Datenanalyse mit dem Softwarepaket R anbietet. Er publiziert regelmäßig zu Themen der Zeitreihenanalyse und Finanzmarktforschung und ist Autor von zwei R-Paketen für Zeitreihenanalyse. Für die ‚Für Dummies‘-Reihe hat er bereits die Bücher ‚Matlab für Dummies‘ und ‚R für Dummies‘ ins Deutsche übersetzt.
Widmung von Roberto Pedace
Für meine Frau, Cynthia, die mich emotional unterstützt und eine wunderbare Mutter für unsere Kinder ist. Für meine Kinder, Vincent und Emily, die meine Tage aufheitern.
Roberto Pedace
Danksagung von Roberto Pedace
Dieses Buch wäre niemals möglich gewesen, wenn meine Professoren mich nicht motiviert und mir eine solide Grundlage in Ökonomie vermittelt hätten. Mein Mentor an der California State University, San Bernadino, Thomas Pierce, öffnete mir den Blick für die Welt der Ökonomie und gab mir wunderbare Ratschläge bei der Vorbereitung auf das Aufbaustudium. Ich hatte das Glück, mehrere Seminare bei Nancy Rose und Mayo Toruño zu belegen, die mir halfen, die Ökonomie in einem anderen Licht zu sehen. Kazim Konyar war der erste, der mich in die Gefilde der Ökonometrie einführte und mir beibrachte, was für eine wirkungsvolle Ergänzung zur Wirtschaftstheorie sie darstellt. An der University of California, Riverside, vergrößerte Aman Ullah mein Interesse an diesem Bereich durch ihre verblüffende Fähigkeit, einem Masterstudenten im ersten Jahr die fortgeschrittene Ökonomietheorie verständlich zu machen. Und in seiner Vorlesung über Arbeitsmarktökonometrie und als mein Doktorvater unterrichtete mich David Fairris in der Kunst angewandter Ökonometrie bei wichtigen wirtschaftspolitischen Themen.
Viele meiner Ökonometriestudenten verdienen besonderen Dank. Etliche von ihnen sind herausragend: Lora Brill, Megan Cornell, Guadalupe De La Cruz, Matthew Lang, Chandler Lutz, India Mullady und Stephanie Rohn. Aus einigen wurden Freunde, aus anderen Kollegen oder auch Koautoren. Aber sie alle inspirierten mich zum Nachdenken darüber, wie man die Ökonometrie zugänglich, hilfreich und interessant machen kann.
Ich danke Sean Flynn, meinem Freund und Kollegen, für seinen Glauben daran, dass ich die beste Person sei, dieses Buch zu schreiben, und Linda Roghaar, meiner Literaturagentin, dass sie auf Sean gehört hat und mir zutraute, dieses Projekt zu vollenden.
Die Mitarbeiter bei Wiley waren ebenfalls eine große Unterstützung. Vor allem möchte ich Jennifer Tebbe danken, meiner Projektlektorin, die jeden Schritt des Weges mit mir gemeinsam gegangen ist, mich unermüdlich motivierte und dafür sorgte, dass ich die Abgabetermine einhielt. Wie lang der Tunnel auch sein mochte, sie half mir stets, das Licht am Ende zu sehen. Frau Erin Calligan Mooney, mein Acquisition Editor bei Wiley half mir, durch meine Probekapitel zu kommen und versicherte mir, dass sie den Standards der anderen im Redaktionsteam genügen würden. Meine Korrektorin Caitie Copple sowie die technischen Gutachter, Ariel Belasen und Nicole Bissessar, waren ideal für dieses Projekt. Ihre »Adleraugen« waren entscheidend beim Finden meiner Fehler und Verbessern des fertigen Produkts.
Meine Forschungsassistentin, Anne Miles, sammelte Daten für einige der Beispiele, die ich in diesem Buch verwende, und assistierte mir beim Erstellen der Abbildungen und grafischen Darstellungen. Ihre Ausdauer war beeindruckend und ich werde ihr ewig dankbar sein für die harte Arbeit, die sie in dieses Projekt steckte. Danken möchte ich meiner Freundin und Kollegin Latika Chaudhary für ihre prompte Reaktion bei einer dringenden Anfrage wegen einer Paneldaten-Stichprobe.
Nicht zuletzt möchte ich meiner Familie und meinen Freunden für ihre Geduld danken, während ich dieses Buch geschrieben habe. Ich weiß, dass ich manchmal nicht ich selbst gewesen bin und die verlorene Zeit wieder gut machen muss.
Roberto Pedace
Inhaltsverzeichnis
Über der Autor
Widmung von Roberto
Danksagung von Roberto
Einleitung
Über dieses Buch
Törichte Annahmen über den Leser…
Symbole, die in diesem Buch verwendet werden
Über dieses Buch hinaus
Wie es weitergeht
Teil I Der Einstieg in die Ökonometrie
1 Ökonometrie: Wie Ökonomen an statistische Analysen herangehen
Ökonomische Beziehungen auswerten
Mittels ökonomischer Theorie Zusammenhänge beschreiben und Vorhersagen treffen
Sinnvolle Annahmen sind der Grundstein
Mit statistischen Methoden ökonomische Probleme angehen
Die Bedeutung des Datentyps, der Häufigkeit und der Aggregation erkennen
Tappen Sie nicht in die Data-Mining-Falle
Quantitative und qualitative Informationen einbeziehen
Mit ökonometrischer Software arbeiten: Eine Einführung in R
Sich mit R vertraut machen
Spalten zu einem Datensatz hinzufügen und entfernen
Schätzen, Testen und Vorhersagen
2 Der Dreh mit der Wahrscheinlichkeit
Zufallsvariablen und Wahrscheinlichkeitsverteilungen im Überblick
Alle Möglichkeiten betrachten: Verteilungsfunktion, Wahrscheinlichkeitsfunktion und Wahrscheinlichkeitsdichte
Eine für alle: Die Verteilungsfunktion
Die (kumulative) Verteilungsfunktion für diskrete Zufallsvariable
Zusammenhänge verstehen: Bi- und multivariate Verteilungen
Mit dem, was Sie wissen, die Zukunft vorhersagen: Bedingte Wahrscheinlichkeit
Zufallsvariablen mit Kennzahlen beschreiben
Mit dem Erwartungswert die Verteilung charakterisieren
Varianz und Standardabweichung messen
Beziehungen erfassen mit Kovarianz und Korrelation
3 Schlüsse ziehen und Hypothesen testen
Mit deskriptiver Statistik Ihre Daten kennenlernen
Schätzfunktionen verwenden
Schätzer vergleichen und beurteilen
Mit der Normal- und Standardnormalverteilung die Grundlage für Vorhersagen schaffen
Gewöhnliche Variablen erkennen: Normalverteilung
Eine einheitliche Skala für Variablen: Die Standardnormalverteilung (Z)
Schätzer besser verstehen: Stichprobenverteilungen
Simulation und zentraler Grenzwertsatz
Die Chi-Quadrat- (χ2), t- und F-Verteilungen entzaubern
Schlussfolgern und Hypothesen testen mithilfe von Wahrscheinlichkeitsverteilungen
Einen Hypothesentest durchführen
Die Konfidenzintervall-Methode
Die Signifikanztest-Methode
Teil II Ein klassisches lineares Regressionsmodell erstellen
4 Die Ziele der Regressionsanalyse verstehen
Ein Plädoyer für die Kausalität
Sich vertraut machen mit der Wahrheit
Das theoretische Modell spezifizieren
Ein Beispiel durchgehen
Daten für die Regressionsanalyse sammeln und organisieren
Eine Momentaufnahme machen: Querschnittsdaten
Aus der Vergangenheit die Gegenwart erklären: Zeitreihendaten
Die Dimensionen von Raum und Zeit vereinen: Panel- oder Längsschnittdaten
Mehrere unabhängige Momentaufnahmen verbinden: Gepoolte Querschnittsdaten
5 Über das Gewöhnliche hinausgehen: Die gewöhnliche Methode der kleinsten Quadrate
Die Methode der kleinsten Quadrate definieren und begründen
Schätzen der Regressionsfunktion und der Residuen
Regressionskoeffizienten schätzen
Die Formeln für optimale Koeffizienten finden
Berechnen der geschätzten Regressionskoeffizienten
Manuell berechnen
Mit dem Computer rechnen
Regressionskoeffizienten interpretieren
Was verraten Ihnen Regressionskoeffizienten?
Regressionskoeffizienten standardisieren
Die Anpassungsgüte messen
Zerlegen Sie die Varianz
Die Bestandteile der Varianz mit R2 messen
Die Anpassungsgüte bei der Multivariaten Regression korrigieren
Anpassungsgüte gegen Qualität abwägen
6 Die Annahmen der GKQ-Schätzung und das Gauss-Markow-Theorem
Die GKQ-Annahmen zusammenfassen
Linearität in den Parametern und additiver Fehler
Die unabhängigen Variablen sind keine Zufallsvariablen
Keine perfekte Kollinearität in den Variablen
Der Fehlerterm hat den Erwartungswert null und das Modell ist korrekt spezifiziert.
Der Fehlerterm hat eine konstante Varianz
Die Korrelation der Fehler ist null
Die Welt des klassischen linearen Regressionsmodells: Das Gauss-Markow-Theorem
Das Gauss-Markow-Theorem beweisen
Zusammenfassung des Gauss-Markow-Theorems
7 Die Normalverteilungsannahme und Inferenz mit der GKQ-Methode
Die Rolle der Normalverteilung verstehen
Der Fehlerterm und die Verteilung von GKQ- Schätzern
Wiedersehen mit der Standardnormalverteilung
Die Stichprobenvarianz des Fehlers: Chi-Quadrat-verteilt
GKQ-Koeffizienten und die t-Verteilung
Die Signifikanz einzelner Regressionskoeffizienten testen
Eine Methode auswählen
Signifikanzniveau und p-Werte festlegen
Die Varianz analysieren, um die Gesamt- oder gemeinsame Signifikanz zu bestimmen
Normalität, Varianz und die »F«-Verteilung
Die angezeigte »F«-Statistik für die GKQ-Schätzung
Steigungskoeffizienten und die Beziehung zwischen t und F
Gemeinsame Signifikanz von Variablenuntergruppen
Vorhersagefehler für GKQ-Prognosen berechnen
Mittelwertprognose und Vorhersagefehler
Varianz der Punktprognose
Nicht alle Prognosen sind gleich: Das Prognosekonfidenzintervall
Teil III Mit dem klassischen Regressionsmodell arbeiten
8 Funktionale Form, Spezifikation und strukturelle Stabilität
Sich alternativer Funktionen bedienen
Quadratische Funktion: Das Beste zum Finden von Minima und Maxima
Kubische Funktionen: Gut für Wendepunkte
Gebrochenrationale Funktionen: Den Wert der abhängigen Variable begrenzen
Nichtlinearen Modellen zu Linearität verhelfen
Beide Seiten bearbeiten, um elastisch zu bleiben: Das Log-Log-Modell
Investieren und Renditen berechnen: Das Log-lineare Modell
Abnehmende Veränderung der abhängigen Variable: Das linear-logarithmische Modell
Auf Fehlspezifikation überprüfen
Zu viele oder zu wenige: Unabhängige Variablen auswählen
Empfindlichkeit ist keine Tugend: Fehlspezifikation anhand der Stabilität der Ergebnisse untersuchen
9 Regression mit Dummy-Variablen
Zahlen bitte! Qualitative Information quantifizieren
Eine Dummy-Variable definieren, wenn es nur zwei mögliche Ausprägungen gibt
Mit Dummy-Variablen mehrere Ausprägungen darstellen
Mit einer Dummy-Variable durchschnittliche Differenzen erkennen
Spezifikation
Interpretation
Quantitative und qualitative Daten in einem Regressionsmodell kombinieren
Spezifikation
Interpretation
Quantitative und qualitative Variablen interagieren lassen
Spezifikation
Interpretation
Interaktion von zwei (oder mehr) qualitativen Eigenschaften
Spezifikation
Interpretation
Gruppen bilden und zusammenlegen: Auf Signifikanz testen
Ein alter Bekannter: Der F-Test auf gemeinsame Signifikanz
Und noch einmal der Chow-Test
Teil IV Verletzungen der Annahmen des klassischen Regressionsmodells
10 Multikollinearität
Die verschiedenen Arten von Multikollinearität unterscheiden
Perfekte Multikollinearität dingfest machen
Hohe Multikollinearität fassen
Faustregeln zum Identifizieren von Multikollinearität
Paarweise Korrelationskoeffizienten
Hilfsregression und der Varianzinflationsfaktor (VIF)
Wissen, wann und wie man Multikollinearitätsprobleme löst
Sich mehr Daten verschaffen
Ein neues Modell nehmen
Die Problemvariablen herausnehmen
11 Heteroskedastizität
Zwischen homoskedastischen und heteroskedastischen Störungen unterscheiden
Homoskedastischer versus heteroskedastischer Fehlerterm
Die Folgen von Heteroskedastizität
Mit einer Residuenanalyse Heteroskedastizität aufspüren
Residuen grafisch untersuchen
Sich mit dem White-Test vertraut machen
Den Goldfeld-Quandt-Test verwenden
Den Park-Test durchführen
Anzeichen für Heteroskedastizität? Hier geht’s zur Apotheke!
Gewichtete kleinste Quadrate (WLS)
Robuste Standardfehler
12 Autokorrelation
Autokorrelationsmuster untersuchen
Positive versus negative Autokorrelation
Fehlspezifikation und Autokorrelation
Die Auswirkung autoregressiver Fehler veranschaulichen
Residuen analysieren, um auf Autokorrelation zu testen
Den optischen Weg einschlagen: Grafische Inspektion Ihrer Residuen
Mit der Normalverteilung Sequenzen von Residuen identifizieren: Der Runs-Test
Autokorrelation eines AR(1)-Prozesses aufspüren: Der Durbin-Watson-Test
Autokorrelation eines AR(p) Prozesses aufspüren: Der Breusch-Godfrey-Test
Schädliche Autokorrelation beheben
FGLS
Autokorrelationsrobuste Standardfehler
Teil V Diskrete und beschränkte abhängige Variablen
13 Qualitative abhängige Variablen
Mit dem linearen Wahrscheinlichkeitsmodell (LWM) diskrete Ergebnisse modellieren
Ein LWM mit der GKQ-Methode schätzen
Ihre Ergebnisse interpretieren
Wermutstropfen: Die drei wichtigsten LWM-Probleme
Nicht normalverteilte Fehler
Heteroskedastizität
Unbeschränkte vorhergesagte Wahrscheinlichkeiten
Geeignete nichtlineare Funktionen spezifizieren: Probit- und Logit-Modell
Mit der Verteilungsfunktion der Standardnormalverteilung arbeiten: Das Probit-Modell
Die Logistische Verteilung verwenden: Das Logit-Modell
Mit der Maximum-Likelihood-(ML-)Schätzung arbeiten
Die Likelihood-Funktion erzeugen
Die Log-Transformation und ML-Schätzwerte
Probit- und Logit-Schätzwerte interpretieren
Probit-Koeffizienten
Logit-Koeffizienten
14 Modelle für beschränkte abhängige Variablen
Das Wesentliche beschränkter abhängiger Variablen
Zensierte abhängige Variablen
Verkürzte abhängige Variable
Die Regressionsanalyse für beschränkte abhängige Variable modifizieren
Tobin’s Tobit
Verkürzte Regression
Mehr unabhängige als abhängige Beobachtungen: Das Heckman Selektionsmodell
Teil VI Das ökonometrische Basismodell erweitern
15 Statische und dynamische Modelle
Gleichzeitige und verzögerte Variablen in der Regressionsanalyse verwenden
Fragestellungen mit dynamischen Modellen untersuchen
Dynamische Modelle auf Autokorrelation testen und korrigieren
Trends mit der GKQ-Methode berücksichtigen
Scheinkorrelation und Zeitreihen
Den Trend aus Zeitreihendaten entfernen
Die GKQ-Methode zur Saisonbereinigung verwenden
Saisonbedingte Auswirkungen schätzen
Zeitreihendaten saisonbereinigen
16 In die gepoolte Querschnittsanalyse einsteigen
Ein dynamisches Zeitelement hinzufügen
Achsenabschnitte und/oder Steigungen untersuchen, die sich im Laufe der Zeit verändern
Zeit-Dummy-Variablen einbeziehen
Durch Experimente Politikeffekte mit gepoolten Querschnitten schätzen
Zufallszuweisung: Ein echtes Experiment
Mit vorher festgelegten Subjektgruppen arbeiten: Ein natürliches (oder Quasi-)Experiment
17 Ökonometrie mit Paneldaten
Die Eindeutigkeit jeder individuellen Einheit schätzen
Die erste Differenzen Transformation (FD)
Regression mit Dummy-Variablen (DV)
Der Fixe-Effekte-Schätzer (FE)
Die Effizienz der Schätzung mit stochastischen Effekten steigern
Der zusammengesetzte Fehler und Annahmen beim Modell mit stochastischen Effekten
Der Stochastische-Effekte-Schätzer (RE-Schätzer)
Mit dem Hausman-Test Effizienz gegen Konsistenz testen
Teil VII Der Top-Ten-Teil
18 Zehn Bestandteile eines guten ökonometrischen Forschungsprojektes
Ihr Thema vorstellen und die grundlegende Frage stellen
Die Relevanz und Bedeutung Ihres Themas besprechen
Die vorhandene Literatur würdigen
Den konzeptionellen oder theoretischen Rahmen beschreiben
Ihr ökonometrisches Modell erklären
Die Schätzmethoden erörtern
Ihre Daten detailliert beschreiben
Tabellen und Graphen erstellen, um Ihre Ergebnisse abzubilden
Die dargestellten Ergebnisse interpretieren
Fassen Sie das Gelernte zusammen
19 Zehn häufige Fehler in der angewandten Ökonometrie
Ihren gesunden Menschenverstand und Ihre Kenntnis in Wirtschaftstheorie nicht anwenden
Die falschen Fragen zuerst stellen
Die Arbeit und Beiträge anderer ignorieren
Sich nicht mit den Daten vertraut machen
Es zu kompliziert machen
Unflexibel gegenüber Komplikationen der realen Welt sein
Bei seltsamen Ergebnissen einfach wegsehen
Sich zu sehr mit Gütekriterien und statistischer Signifikanz beschäftigen
Ökonomische Signifikanz vergessen
Annehmen, Ihre Ergebnisse seien robust
Anhang: Statistische Tabellen
Die Standardnormalverteilung
Die t-Verteilung
Die Chi-Quadrat-Verteilung
F-Verteilung
Durbin-Watson d-Statistik
Stichwortverzeichnis
»Meine Faszination für Ökonometrie entstand aus dem Interesse, herauszufinden, wie die Welt funktioniert. Ich entdeckte, dass auf bestimmte Umstände zugeschnittene empirische Methoden helfen können, ökonomische Ergebnisse zu erklären. Als ich begriff, wie die theoretische Struktur der Ökonomie mit den Informationen, die in Daten der realen Welt existieren, in Verbindung steht, sah ich beobachtete Phänomene in einem anderen Licht. Ich hatte mir oft selbst Fragen über meine Beobachtungen gestellt. Könnte ich herausfinden, ob Ergebnisse zufällig und nur scheinbar miteinander verbunden waren? Wenn zwei oder mehr Dinge, die ich beobachtet hatte, meiner Meinung nach eine logische Verbindung aufwiesen, könnte ich diese Annahme mit Hilfe von Daten überprüfen? Ich merkte, wie ich mich zunehmend auf die Werkzeuge der Ökonometrie stützte, um Fragen dieser Art zu beantworten.« – Roberto Pedace
Wir haben Ökonometrie für Dummies geschrieben, um Ihnen zu helfen, das Maximum aus Ihrer ökonomischen Ausbildung herauszuholen. Bisher haben Sie an der Hochschule vielleicht ein bisschen ökonomische Theorie gelernt, aber die Vorhersagen dieser Theorien sind Ihnen zu unpräzise. Vielleicht fragen Sie sich sogar, ob die Theorien überhaupt mit dem übereinstimmen, was Sie in der realen Welt beobachten. Für uns ist eine der attraktivsten Eigenschaften richtig angewandter Ökonometrie, dass sie keiner Denkrichtung verpflichtet ist. Sie können ökonometrische Methoden auf eine Vielzahl von Ausgangsannahmen anwenden und die Resultate auf Konsistenz überprüfen. Wenn Sie die Ökonometrie sorgfältig und bewusst einsetzen, bringt Sie Daten zum Sprechen. Jetzt brauchen Sie nur noch die Sprache zu lernen, um zu verstehen, was Ihre Daten sagen wollen.
Über dieses Buch
Ökonometrie für Dummies versorgt Sie mit einem kurzen und einfachen Erstsemester-Kurs in Ökonometrie. Wir zitieren nicht die bahnbrechenden theoretischen Arbeiten über Ökonometrie in wissenschaftlichen Journalen. Zwar mag die Aufteilung der Themen gewisse Ähnlichkeit mit traditionellen Ökonometriebüchern aufweisen, aber das Ziel besteht darin, das Material auf einfache Weise zu präsentieren. Und obwohl Sie möglicherweise gerade einen weiterführenden Ökonometriekurs oder ein Aufbaustudium absolvieren, werden Sie dieses Buch möglicherweise als nützliche und umfassende Quelle entdecken, die Ihnen ohne Umschweife verrät, wie’s geht.
Natürlich ist eine gewisse fachliche Versiertheit wesentlich in der Ökonometrie. Aber Sie haben Einführungskurse in Volkswirtschaft und Statistik sowie vielleicht sogar weiterführende Kurse in Volkswirtschaft besucht und sind nun bereit, Ihr Können zu demonstrieren. Aber Vorsicht! Bei all den technischen Fähigkeiten, die beim Erlernen der Ökonometrie beherrscht werden müssen, übersehen Studenten manchmal die Einfachheit der Ökonometrie. Möglicherweise sehen auch Sie den Wald vor lauter Bäumen nicht mehr und wissen am Ende nicht, warum Sie ein Problem mit einer bestimmten Methode angehen. Hier kann dieses Buch helfen.
Bitte beachten Sie, dass wir versucht haben, die Terminologie einheitlich zu halten. Aber manchmal verwenden Ökonometriker für dieselbe Sache unterschiedliche Bezeichnungen. Beachten Sie auch, dass wir durchgängig die Statistiksoftware R 3.1.2 benutzt haben, manchmal aber nur von Ökonometriesoftware oder kurz R sprechen.
Törichte Annahmen über den Leser…
Wenn Sie den üblichen Weg einschlagen, dann belegen Sie erst Kurse über die Grundlagen der Mikroökonomie und der Makroökonomie, bevor Sie sich an die Ökonometrie heranwagen. Je nach Hochschule müssen Sie sogar fortgeschrittene Kurse in Volkswirtschaft besucht haben, bevor Sie sich der Ökonometrie zuwenden können. Wir setzen deshalb nicht voraus, dass alle Leser dasselbe Vorwissen haben. Aber ein paar Annahmen müssen wir doch über Sie treffen:
Sie sind Hochschulstudent im Grundlagenkurs Ökonometrie und befassen sich auf traditionelle Weise mit dieser Materie – eine Kombination aus theoretischen Beweisen und praktischen Anwendungen.
Oder Sie sind Masterstudent (oder besuchen gegen Ende des Erststudiums eine Vorlesung im Bereich Ökonometrie) und möchten Ihre Grundkenntnisse der Ökonometrie auffrischen, damit Sie in den Fortgeschrittenenkursen besser zurechtkommen.
Ihnen sind die Grundlagen der Algebra sowie die Prinzipien der Ökonometrie und Statistik vertraut. Wir wiederholen zwar jene Konzepte aus Ihrem Statistikkurs, die für die Ökonometrie am wichtigsten sind, gehen aber davon aus, dass lediglich ein kurzer Überblick nötig ist, um Sie auf den neuesten Stand zu bringen (und Sie können diesen Teil auch weglassen, wenn Sie bereit sind, direkt ins tiefe Wasser zu springen).
Zahlen, Gleichungen und griechische Buchstaben schüchtern Sie nicht ein. Wir wissen, dass die sogenannte trockene Wissenschaft in Verbindung mit quantitativen Methoden auf den ersten Blick nicht die attraktivste Themenkombination ist. Aber wir sind sicher, dass Sie längst die Angst überwunden haben, die die meisten Menschen allein bei der Erwähnung dieser Themen überkommt.
Sie arbeiten in Ihrem Kurs mit Ökonometriesoftware und sind bereit, die R-Beispiele in Ihre Software zu übertragen. Allerdings ist die Wahrscheinlichkeit, dass Sie ohnehin mit R arbeiten, sehr groß.
Symbole, die in diesem Buch verwendet werden
In diesem Buch werden Ihnen am linken Seitenrand immer wieder verschiedene Icons auffallen. Wir verwenden diese Icons, um Ihre Aufmerksamkeit zu lenken und die Lesbarkeit dieses Buches zu erleichtern. Jedes Icon erfüllt eine wichtige Funktion.
Dieses Icon bedeutet, dass wir die Methoden aus einem bestimmten Kapitel oder Abschnitt mit R anwenden. Wir fassen kurz zusammen, welche Daten wir verwenden, zeigen, wie man die Daten formatiert oder die für die Analyse erforderlichen Variablen erstellt, und weisen Sie auf die wichtigsten Komponenten des Ergebnisses hin.
Dieses Icon zeigt an, dass die nun folgende Information wesentlich ist für Ihren Erfolg beim Durchführen einer ökonometrischen Analyse. Soweit möglich erklären wir die Gesamtzusammenhänge auf nichttechnische Weise. Denken Sie aber daran, dass dies ein Buch über Ökonometrie ist und eine gewisse Versiertheit mit den Grundlagen erfordert.
Dieses Icon erscheint neben einer Information, die interessant, aber nicht wesentlich für das Verständnis der Hauptideen ist. Sie können diese Abschnitte natürlich überspringen, aber wenn Ihr Ökonometriekurs stärker theoretisch ausgelegt ist (das hängt manchmal von den Vorlieben des Professors ab), sollten Sie vielleicht etwas mehr Zeit mit diesem Material zubringen.
Dieses Icon verwenden wir, um Abkürzungen anzuzeigen, die Ihnen helfen, Zeit zu sparen, oder Alternativen vorzuschlagen, über eine Methode nachzudenken.
Dieses Icon weist auf verbreitete Fallgruben und ungeeignete Anwendungen einer bestimmten ökonometrischen Methode hin und soll Ihnen helfen, einen großen Bogen darum zu machen.
Über dieses Buch hinaus
Sie werden vermutlich nicht immer Ihren E-Reader oder ein Exemplar dieses Buches zur Hand haben, aber Sie haben mit Ihrem Smartphone oder Tablet sicher immer Zugang zum Internet. Aus diesem Grund finden Sie eine Fülle von Information auf www.dummies.com, worauf Sie von überall zugreifen können.
Sie brauchen einige Ökonometrieformeln? Sie sind auf der Suche nach einer Darstellungsform, mit der Sie Ihrem ökonometrischen Modell eine gewisse Flexibilität verleihen können? Gehen Sie auf www.dummies.com/cheatsheet/econometrics, um auf den hilfreichen Spickzettel zu diesem Buch zu gelangen, der diese Themen und noch mehr abdeckt.
Aber das ist noch nicht alles. Weil Ökonometrie in manchen Bereichen ein Synonym für Prognosen ist, hat Roberto unter www.dummies.com/extras/econometrics ein Bonuskapitel gestellt. Es soll Ihnen helfen, Ihre Prognosefähigkeiten zu verbessern, indem Sie die richtige Methode wählen, um basierend auf den vorhandenen Informationen ein Ergebnis zu prognostizieren und später die Genauigkeit Ihrer Vorhersage auf Herz und Nieren zu prüfen.
Wie es weitergeht
Im Unterschied zu manchen anderen Büchern müssen Sie nicht alles von Anfang bis Ende lesen, um ein Verständnis von den grundlegenden ökonometrischen Methoden zu erlangen. Wenden Sie sich einfach dem Thema zu, das Sie am meisten interessiert. Kämpfen Sie mit dem Begriff der Intuition oder der Begründung ökonometrischer Modelle? Glauben Sie, dass Ihnen ein bestimmtes ökonometrisches Tool helfen würde, Ihre Daten besser zu interpretieren? Sie finden das jeweilige Thema im Inhaltsverzeichnis oder Index und können sich dem unmittelbar zuwenden.
Vielleicht sind Sie einfach nur neugierig, welche Tools die Ökonometrie zur Analyse von Daten zu bieten hat? Zögern Sie nicht, in den Kapiteln zu schmökern. Vielleicht springt Ihnen ein spannender Absatz oder eine interessante Formel ins Auge und bringt Sie auf Ideen für das Lösen eines Problems – ja, das gibt’s wirklich!
Falls Ihre Statistikkenntnisse eingerostet sind, beginnen Sie am besten mit den ersten Kapiteln. Wenn Sie jedoch keine guten Erfahrungen mit Statistik gemacht haben, daran nicht erinnert werden wollen und von Ihrer schnellen Auffassungsgabe überzeugt sind, dann fangen Sie einfach irgendwo an. Und wo Sie auch anfangen, nachdem Sie Ökonometrie gelernt haben, werden Sie Daten nie wieder so betrachten wie früher – ob Sie wollen oder nicht!
Teil I
Der Einstieg in die Ökonometrie
In diesem Teil . . .
Machen Sie sich vertraut mit der Vorgehensweise von Ökonomen bei der Untersuchung empirischer Probleme. Diese stehen nämlich im deutlichen Gegensatz zu kontrollierten Experimenten, bei denen die gängigen statistischen Annahmen meis – zumindest annähernd – erfüllt sind.
Lernen Sie die grundsätzlichen Anweisungen kennen, die Sie für die Arbeit mit R, einer verbreiteten statistischen und ökonometrischen Software, benötigen. Verstehen Sie die Syntax-Struktur für Modellschätzung und -diagnose.
Frischen Sie Ihre Kenntnisse in den Bereichen der Wahrscheinlichkeitsrechnung auf, die für die Ökonometrie am relevantesten sind: Wahrscheinlichkeitsverteilungen von Zufallsvariablen und deskriptive Statistik.
Vertiefen Sie Ihre Kenntnisse über statistische Schlussfolgerungen, sodass Sie für Erhebungen und andere Formen von Stichprobendaten zum Testen Ihrer Hypothesen und zum Ziehen von Schlussfolgerungen gerüstet sind.
1
Ökonometrie: Wie Ökonomen an statistische Analysen herangehen
In diesem Kapitel
Ziele der ökonometrischen Analyse entdecken
Herangehensweise und Methodik der Ökonometrie verstehen
Sich mit ökonometrischer Software vertraut machen
Willkommen zum Studium der Ökonometrie! Die 1930 gegründete Econometric Society (Ökonometrische Gesellschaft) definiert die Ökonometrie als ein Gebiet, das auf der »theoretisch-quantitativen und empirisch-quantitativen Herangehensweise an ökonomische Probleme« basiert. Dieser Zungenbrecher bedeutet, dass Ökonometriker – manchmal – Mathematiker sind und komplexe Algorithmen sowie analytische Tools verwenden, um verschiedene Schätzungen abzuleiten und Verfahren zu testen. In anderen Fällen sind Ökonometriker als angewandte Ökonomen tätig und verwenden Tools, die von anderen Ökonometrikern entwickelt wurden, um ökonomische Phänomene zu untersuchen.
In diesem Kapitel werden Sie sehen, dass eine charakteristische Aufgabe der Ökonometrie aus der Entwicklung von Techniken zur Analyse von Daten besteht, die nicht aus kontrollierten Experimenten stammen und folglich gegen viele standardmäßige statistische Annahmen verstoßen. Sie werden auch zu verstehen beginnen, dass gute quantitative Ergebnisse wesentlich von zuverlässigen und geeigneten Daten sowie einer vernünftigen ökonomischen Theorie abhängen.
Und da Computer und ökonometrische Software heutzutage allgemein bei einführenden ökonometrischen Lehrveranstaltungen verwendet werden, widmen auch wir einen Teil dieses Kapitels grundlegenden Anweisungen in R (Version 3.1.2), einem gängigen Statistikprogramm. Diese Software ermöglicht Ihnen, theoretische Konzepte unmittelbar anzuwenden und Ihr Verständnis der Daten zu verbessern.
Ökonomische Beziehungen auswerten
Die Ökonomie liefert die theoretischen Methoden, die Sie zum Auswerten ökonomischer Beziehungen verwenden, und trifft qualitative Vorhersagen zu ökonomischen Phänomenen unter Verwendung der Ceteris-Paribus-Annahme. Vielleicht erinnern Sie sich aus Ihren Vorlesungen daran, dass die Ceteris-Paribus-Annahme bedeutet, dass alle anderen Bedingungen unverändert bleiben. Zwei Beispiele unter zahllosen Möglichkeiten sind:
In der mikroökonomischen Theorie würden Sie erwarten, dass ökonomische Profite in einem Wettbewerbsmarkt mehr Firmen dazu bewegen, in diesen Markt einzusteigen, ceteris paribus.
In der makroökonomischen Theorie würden Sie erwarten, dass höhere Zinssätze Investitionen verringern, ceteris paribus.
Ökonometrie unterstützt die ökonomische Theorie, indem sie die nötigen Werkzeuge liefert, um qualitative Aussagen zu quantifizieren, die Sie (oder andere) unter Verwendung der Theorie machen. Unbekannte oder vermutete Beziehungen aus der abstrakten Theorie können durch Verwendung realer Daten und von Ökonometrikern entwickelten Methoden quantifiziert werden.
Der folgende Abschnitt erklärt, wie mithilfe der Ökonometrie die Zukunft prognostiziert und ökonomische Phänomene quantitativ dargestellt werden können. Anschließend lesen Sie, warum es für Ökonometriker so wichtig ist, stets sinnvolle Annahmen zu treffen.
Mittels ökonomischer Theorie Zusammenhänge beschreiben und Vorhersagen treffen
Eine der Eigenschaften, die die angewandte Forschung in der Ökonometrie von anderen Vorgehensweisen bei der statistischen Analyse unterscheidet, ist das Theoriegebäude, das die empirische Arbeit unterstützt.
Ökonometrie kommt in der Regel zum Einsatz, um zu erklären, wie Faktoren ein bestimmtes Ergebnis beeinflussen, oder um zukünftige Ereignisse vorherzusagen. Unabhängig davon, was Ihr Hauptziel ist, muss Ihre ökonometrische Analyse auf einem ökonomischen Modell beruhen. Ihr Modell sollte aus einem interessierenden Ergebnis, der abhängigen VariableY, und kausalen Faktoren, den unabhängigen Variablen X1 bis Xn, bestehen, die theoretisch oder logisch mit dem Ergebnis verknüpft sind.
Sinnvolle Annahmen sind der Grundstein
Ein bekannter Witz über Ökonomen geht wie folgt: Ein Physiker, ein Chemiker und ein Ökonom sind auf einer einsamen Insel gestrandet und haben nichts zu essen. Eine Dosensuppe wird angespült. Der Physiker sagt: »Lasst uns die Dose mit einem Stein aufschlagen.« Der Chemiker sagt: »Lasst uns zuerst ein Feuer machen und die Dose erhitzen.« Der Ökonom überlegt kurz und sagt: »Nehmen wir mal an, wir hätten einen Dosenöffner …«. Das ist zwar als Witz gemeint und doch kann es helfen, Annahmen über die Realität zu machen, daraus Schlüsse zu ziehen und Vorhersagen für den Fall abzugeben, dass bestimmte Bedingungen zutreffen. In der Ökonometrie kann es jedoch mitunter gefährlich sein, Annahmen zu treffen, ohne deren Realisierbarkeit zu überprüfen. Da hat der Witz dann doch wieder recht.
Zu viele Annahmen über gegebene Bedingungen, funktionale Form und statistische Eigenschaften zu treffen, kann zu verzerrten Ergebnissen führen und die Genauigkeit der Schätzung untergraben, die Sie durchführen wollen. Obwohl Sie einige Annahmen treffen müssen, um Ihre ökonometrische Arbeit durchzuführen, sollten Sie die meisten Annahmen überprüfen und ehrlich sein, welche potenziellen Auswirkungen die Annahmen, die Sie nicht testen können, auf Ihre Ergebnisse haben können.
Das Überprüfen von Prognosen, die auf ökonomischer Theorie oder logischen Überlegungen beruhen, ist in der Regel alles andere als einfach. Beobachtete Daten stammen eher selten aus einem kontrollierten Experiment, und dadurch ist es schwierig, sicherzustellen, dass die Ceteris-Paribus-Annahme zutrifft. Widmen Sie also den (unabhängigen) Variablen, die Sie in die Analyse integrieren, um die ceteris paribus Situation (so nah wie möglich) zu simulieren, hinreichend Aufmerksamkeit.
Mit statistischen Methoden ökonomische Probleme angehen
Bücher über Ökonometrie gehen gern davon aus, dass Sie genügend Statistik gelernt haben, um ökonometrische Modelle zu erzeugen, Schätzungen vornehmen und Hypothesen testen zu können. Wir haben jedoch festgestellt, dass Studenten es stets schätzen, jene statistischen Konzepte noch einmal durchzugehen, die für den Erfolg in der Ökonometrie am wichtigsten sind. Vor allem sollten Sie mit Wahrscheinlichkeitsverteilungen und Hypothesentests zurechtkommen. (Falls Ihre Kenntnisse in diesen Bereichen etwas eingerostet sind, sollten Sie unbedingt Kapitel 2 und 3 lesen.)
Wie exakt Sie ökonomische Beziehungen quantifizieren können, hängt nicht nur von Ihren Fähigkeiten ab, ökonometrische Modelle zu erzeugen, sondern auch von der Qualität der für die Analyse verwendeten Daten und Ihrem Geschick, geeignete Methoden zum Schätzen von Modellen zu finden, deren Voraussetzungen durch die Daten nicht vollständig erfüllt sind. Die Daten müssen nicht nur aus einem zuverlässigen Erfassungsprozess stammen; Sie sollten außerdem die Augen offen halten hinsichtlich weiterer Einschränkungen oder Erfordernisse. Dazu zählen unter anderem:
Aggregation von Daten: Eine Information, die möglicherweise aus einem Haushalt, von einem Individuum oder aus einem Unternehmen stammt, wird in Ihren Daten auf der Ebene einer Stadt, eines Landes oder Staates gemessen.
Statistisch korrelierte, aber ökonomisch irrelevante Daten: Einige Datensätze enthalten zwar eine Fülle von Informationen, aber viele der Variablen haben möglicherweise nichts mit der ökonomischen Frage zu tun, der Sie sich widmen wollen.
Kategoriale oder qualitative Daten: Ergiebige Datensätze enthalten zwar in der Regel qualitative Variablen (geografische Informationen, ethnischer Hintergrund und so weiter), aber die Informationen bedürfen einer speziellen Behandlung, bevor sie in einem ökonometrischen Modell verwendet werden können.
Verletzung einer dem klassischen linearen Regressionsmodell zugrundeliegenden Annahme: Die Legitimität Ihrer ökonometrischen Herangehensweise beruht stets auf einem Satz statistischer Annahmen, aber Sie werden sehr wahrscheinlich feststellen, dass mindestens eine dieser Annahmen nicht gilt (für Ihre Daten nicht zutrifft).
Ökonometriker wollen sich von Statistikern unterscheiden, indem sie sich offen zu Verstößen gegen statistische Annahmen bekennen, die sonst oft als gegeben hingenommen werden. Die gängigste Methode des Schätzens eines ökonometrischen Modells ist die gewöhnliche Methode der kleinsten Quadrate (GKQ oder englisch Ordinary Least Squares, OLS), die wir in Kapitel 5 behandeln. Wie wir jedoch in Kapitel 6 und 7 sehen werden, muss eine Reihe von Annahmen des klassischen linearen Regressionsmodells für die GKQ-Methode zutreffen, um zuverlässige Schätzwerte zu erhalten. In der Praxis hängen die Annahmen, gegen die am wahrscheinlichsten verstoßen wird, von Ihren konkreten Daten und der konkreten Verwendung ab. In den Kapiteln 10, 11 und 12 lernen Sie, die häufigsten Verstöße gegen Annahmen zu erkennen und damit umzugehen.
In den folgenden Abschnitten beschreiben wir, wie Ihnen die Kenntnis bestimmter Eigenschaften Ihrer Daten helfen kann, bessere ökonometrische Modelle zu erzeugen. Besondere Aufmerksamkeit sollten Sie der Struktur Ihrer Daten widmen, der Art, wie Variablen gemessen werden, und wie quantitative Daten durch qualitative oder kategoriale Informationen vervollständigt werden können.
Die Bedeutung des Datentyps, der Häufigkeit und der Aggregation erkennen
Die Daten, die Sie zum Schätzen und Testen Ihres ökonometrischen Modells verwenden, werden in der Regel in drei mögliche Typen unterteilt (für weitere Details siehe Kapitel 4):
Querschnittsdaten: Dieser Datentyp besteht aus Messungen zu einzelnen Beobachtungen (für Personen, Haushalte, Unternehmen, Gemeinden, Länder oder was auch immer) zu einem bestimmten Zeitpunkt.
Zeitreihen: Dieser Datentyp besteht aus Messungen von einer oder mehrerer Variablen (wie dem Bruttoinlandsprodukt oder der Arbeitslosenquote) an verschiedenen Zeitpunkten in einem definierten Bereich (zum Beispiel ein bestimmtes Bundesland oder Land).
Panel- oder Längsschnittdaten: Dieser Datentyp besteht aus einer Zeitreihe für jede Querschnittseinheit in der Stichprobe. Die Daten enthalten Messungen zu einzelnen Beobachtungen (Personen, Haushalte, Unternehmen, Gemeinden, Bundesländer, Länder und so weiter) über einen Zeitraum (Tage, Monate, Quartale oder Jahre).
Welchen Datentyp Sie verwenden, kann Einfluss darauf haben, wie Sie Ihr ökonometrisches Modell schätzen. Vor allem für den Umgang mit Zeitreihen und Paneldaten sind in der Regel spezielle Methoden erforderlich. Wir befassen uns in Kapitel 12 mit Zeitreihen-Methoden und besprechen Panel-Methoden in den Kapiteln 16 und 17.
Mit der Zeit bekommen Sie ein Gefühl dafür, welchen Schwierigkeiten Sie bei Ihrer Analyse begegnen werden, da für bestimmte Typen von Daten bestimmte Verletzungen bestimmter Annahmen des klassischen linearen Regressionsmodells wahrscheinlicher sind als andere. Zwei typische Fälle von Annahmeverletzungen betreffen Heteroskedastizität (die häufig bei Querschnittsdaten auftritt) sowie Autokorrelation (die gern bei Zeitreihendaten auftritt). Für eine ausführliche Darstellung von Heteroskedastizität und Autokorrelation lesen Sie bitte Kapitel 11 beziehungsweise 12.
Sie sollten nicht nur wissen, mit welchem Datentyp Sie arbeiten, sondern auch stets folgende Informationen haben:
Die beim Messen der Variablen verwendete Aggregationsebene: Die Aggregationsebene bezieht sich auf die Einheit (Zusammenfassung der Einzelgrößen), in der die Daten gewonnen werden. Anders ausgedrückt können die Variablenmessungen von einer niedrigeren Aggregationsebene stammen (zum Beispiel einem Individuum, Haushalt oder Unternehmen) oder einer höheren Aggregationsstufe (wie einer Stadt, Gemeinde oder einem Land).
Die Frequenz, mit der die Daten erfasst werden: Die Häufigkeit bezieht sich auf die Anzahl der Messungen pro Zeitintervall. Zeitreihendaten können mit höherer Frequenz erfasst werden (wie stündlich, täglich oder wöchentlich) oder mit einer niedrigeren Frequenz (wie monatlich, vierteljährlich oder jährlich).
Selbst mit sämtlichen Daten dieser Welt können Sie keine überzeugenden Ergebnisse hervorbringen, wenn die Aggregationsebene oder die Frequenz für Ihr Problem ungeeignet ist. Wenn Sie zum Beispiel daran interessiert sind, wie die finanziellen Aufwendungen pro Schüler die akademischen Leistungen beeinflussen, werden Daten auf Bundesebene vermutlich ungeeignet sein, da Aufwendungen und Schülereigenschaften von Land zu Land so stark schwanken, dass Ihre Ergebnisse vermutlich irreführend sein werden.
Tappen Sie nicht in die Data-Mining-Falle
Je mehr Werkzeuge zur Datenanalyse Sie beherrschen, desto eher könnten Sie versucht sein, Ihren Datenbestand ohne Modellvorgaben nach Beziehungen zwischen den einzelnen Variablen zu durchsuchen. Mit ausreichend Statistikwissen würden Sie so zweifellos Modelle finden, die Ihre Daten ziemlich gut beschreiben. Diese Praxis wird als Data-Mining (bei dem aus dem Datenberg etwas Wertvolles herausgezogen werden soll) bezeichnet. Aus Sicht der Ökonometriker ist dies jedoch unzulässig, da am Anfang der Analyse immer ein ökonomisches Modell stehen soll – und keines, welches sich erst nachträglich aus den Daten formt.
Data-Mining kann sehr sinnvoll sein in Bereichen, in denen es keine Rolle spielt, welche zugrunde liegenden Mechanismen die Ergebnisse generieren. Für Ökonomen ist diese Herangehensweise jedoch bedenklich. In der Ökonometrie ist es viel wichtiger, ein Modell zu erstellen, das Sinn ergibt und von Kollegen nachvollziehbar ist, als nach einem Modell zu suchen, das perfekt angepasst ist. Die Bedeutung vernünftiger Modelle wird in Kapitel 4 dargelegt und konkrete Beispiele für gängige ökonomische Modelle liefert Kapitel 8.
Quantitative und qualitative Informationen einbeziehen
Ökonomische Ergebnisse können sowohl durch quantitative (intervall- oder verhältnisskalierte, also kontinuierliche) als auch qualitative (nominale oder auch kategoriale) Daten beeinflusst werden. Im Allgemeinen ist die Verwendung und Interpretation quantitativer Information in ökonometrischen Modellen einfach.
Qualitative Variable gehen mit Merkmalen einher, die keine natürliche Darstellung als Zahlen haben (z. B. die Augenfarbe). Allerdings können qualitative Eigenschaften von Ausgangsdaten durch einen numerischen Wert repräsentiert werden. Zum Beispiel kann eine geographische Region kodiert sein mit einer 1 für Westen, 2 für Süden, 3 für Osten und 4 für Norden. Die Zuordnung der spezifischen Werte ist jedoch beliebig und hat keine besondere Bedeutung. Um die in den qualitativen Variablen enthaltene Information zu nutzen, werden Sie in vorliegendem Buch in der Regel in Dummy-Variablen umgewandelt – dichotome (zweiwertige) Variablen, die den Wert 1 annehmen, wenn eine bestimmte Eigenschaft vorhanden ist und 0, wenn nicht. Wir werden die Verwendung von Dummy-Variablen als unabhängige Variable in Kapitel 9 in einem ökonometrischen Modell veranschaulichen.
Manchmal ist das ökonomische Ergebnis selbst qualitativ oder enthält zensierte (= eingeschränkte) Wertebereiche. Zum Beispiel könnte Ihre abhängige Variable unter Einbeziehung verschiedener Unternehmenseigenschaften als unabhängige Variable messen, ob ein Unternehmen in einem bestimmten Jahr in Konkurs geht oder nicht. Obwohl Standardmethoden bei qualitativen oder diskreten abhängigen Variablen manchmal akzeptabel sind, münden sie für gewöhnlich in Annahmeverstößen und erfordern eine besondere ökonometrische Vorgehensweise. Blättern Sie zu den Kapiteln 13 und 14, um geeignete Methoden für Situationen zu finden, in denen Ihre abhängige Variable nicht-kontinuierlich ist.
Mit ökonometrischer Software arbeiten: Eine Einführung in R
Spezialsoftware macht die Anwendung ökonometrischer Methoden für jeden möglich, auch wenn er kein Programmiergenie ist. Behalten Sie im Hinterkopf, dass mehrere gute Softwarealternativen erhältlich sind und dass Sie, als guter Ökonom, Kosten und Nutzen jeder einzelnen abwägen sollten. Natürlich hängt die Art der Software, mit der Sie schließlich in Ihrem Ökonometrie-Einführungskurs arbeiten werden, davon ab, was Ihr Professor für seine wissenschaftliche Arbeit verwendet oder für den Kurs als sinnvoll erachtet. Roberto stützt sich bei seiner wissenschaftlichen Arbeit hauptsächlich auf STATA und nutzt es in seinen Ökonometrie-Kursen ausschließlich, Karl-Kuno schwört auf R, aber Ihr Professor kann genauso gut EVIEWS, SAS oder ein anderes Programm verwenden.
Gerade für Studenten halten wir die einfache und möglichst kostenlose Verfügbarkeit von Software für ein sehr hohes Gut. Da das Softwarepaket R (www.r-project.org) nicht nur kostenlos ist, sondern auch erstklassige Qualität verspricht und hält, wird es in dieser Ausgabe des Buches ausschließlich verwendet. In Verbindung mit der Software RStudio (www.rstudio.com) bietet R eine ausgezeichnete Kombination aus einem benutzerfreundlichen Interface, konsistenter Struktur in der Syntax sowie einfachen Anweisungen, um sämtliche Methoden zu implementieren, die Sie in der Ökonometrie kennenlernen. Außerdem ist es für eine Reihe von Plattformen und Betriebssystemen verfügbar.
R lässt sich mithilfe von Paketen, sogenannten packages auf schier unendlich verschiedene Arten erweitern. Siehe zum Beispiel: http://cran.r-project.org/web/packages/. Stellen Sie sich bei der Recherche am besten einen Wecker, damit Sie nicht die Zeit vergessen!
Wir werden R als kommandogesteuertes Programm verwenden, weil das schnell und einfach ist. Für jede Aufgabe, die R für Sie erledigen soll, geben Sie eine Anweisung in R ein und erhalten nach kurzer Zeit das Resultat unterhalb der Eingabezeile oder im Grafik-Fenster.
Die folgenden Abschnitte zeigen einige R Anweisungen, die Ihnen den Einstieg in das Arbeiten mit dieser Software ermöglichen.
Die Einführung in R ist keinesfalls erschöpfend. Das »Handbuch« bei R besteht aus der Online-Hilfe sowie der Dokumentation auf www.r-project.org (Tausende von Seiten). Wir können also unmöglich sämtliche Facetten von R behandeln, die Sie in der Ökonometrie (oder anderswo) möglicherweise anwenden werden. Jedoch ist die Dokumentation verständlich geschrieben und bietet (vor allem) gute Beispiele für das jeweilige Thema. Eine sehr gute Einführung in R bietet das Buch »R für Dummies« von Joris Meys und Andrie de Vries.
Sich mit R vertraut machen
In diesem Abschnitt des Kapitels lesen Sie, wie Sie Datensätze anlegen oder einlesen, Veränderungen vornehmen und Dateien speichern.
Datensätze in R erstellen
Nachdem R gestartet wurde, erwartet es Ihre Anweisungen nach folgendem Zeichen:
>
Sie können hier zum Beispiel eingeben:
> print("Hallo Welt!")
nachdem Sie ‚Enter‘ gedrückt haben, antwortet R mit
[1] "Hallo Welt!"
Herzlichen Glückwunsch! R hat Sie verstanden.
Ihre Eingaben erwartet R nach dem >. Danach erwartet es ein ‚Enter‘. Dann weiß es, dass es jetzt selbst an der Reihe ist. Vor Ausgaben steht bei R kein >. Daran können Sie sehen, dass es eine Ausgabe ist. Meist fassen wir Ein- und Ausgabe in den Listings zusammen, etwa so:
> print("Hallo Leserin!")
[1] "Hallo Leserin!"
Jetzt können wir Daten einlesen. Der Dreh- und Angelpunkt für Daten in R ist der sogenannte data.frame (deutsch etwa ‚Datensatz‘). Um einen solchen aufzubauen, geben Sie folgendes ein (und drücken Sie nach jeder Zeile ‚Enter‘):
> datensatz <- data.frame()
> datensatz <- edit(datensatz)
Hier passiert folgendes: Sie weisen zunächst der neuen Variablen datensatz einen leeren data.frame zu. Anschließend rufen Sie den Dateneditor mit dem noch leeren data.frame namens datensatz auf. Nun öffnet sich ein Fenster, in welches Sie Ihre Informationen eingeben können. Das sehen Sie in Abbildung 1.1. In unserem Beispiel haben wir zwei Variablen und drei Beobachtungen pro Variable. Klicken Sie in das Feld mit Namen var1 und geben Sie in das sich öffnende Fenster ‚Stadt‘ ein, den Typ können Sie bei character belassen. Schließen Sie das Fenster wieder und klicken Sie in das Feld mit Namen var2, dem Sie den Namen ‚Einwohner‘ geben und den Typ auf numeric ändern. Anschließend können Sie die Informationen eingeben, etwa so:
Abbildung 1.1: Der Data Editor zum Editieren von data.frames
Jetzt schließen Sie den Dateneditor mit dem roten Kreuz rechts oben. Das Ergebnis wird wieder der Variablen datensatz zugewiesen. Was Sie mit dieser anstellen können, wird im nächsten Abschnitt beschrieben.
Daten anzeigen und beschreiben
Den Inhalt einer Variablen zeigen Sie an, indem Sie ihren Namen – gefolgt von ‚Enter‘ – eingeben. Etwa so:
> datensatz
und R antwortet mit:
Stadt Einwohner
1 Berlin 3421829
2 Wien 1793667
3 Zuerich 402275
Mithilfe der vier folgenden Anweisungen können Sie sich nun einige Informationen zu Ihrem Datensatz anzeigen lassen:
Mit der Funktion head() lassen Sie sich die ersten Daten eines (großen) data.frame anzeigen; die Zahl nach dem Komma legt fest, wie viele Datensätze ausgegeben werden sollen:
> head(datensatz,1)
Stadt Einwohner
1 Berlin 3421829
Mit der Funktion tail() verhält es sich analog, nur eben von unten – oder hinten: ganz wie Sie wollen:
> tail(datensatz,1)
Stadt Einwohner
3 Zuerich 402275
Die Funktion str() gibt Auskunft über die Struktur eines Objekts :
str(datensatz)
´data.frame´: 3 obs. of 2 variables:
$ Stadt : chr "Berlin" "Wien" "Zuerich"
$ Einwohner: num 3421829 1793667 402275
Übersetzt bedeutet dies: Es handelt sich um einen data.frame mit drei Beobachtungen von zwei Variablen. Die erste heißt Stadt und die Beobachtungen sind Zeichenketten. Die ersten Einträge werden angezeigt. Die zweite heißt Einwohner und ihre Einträge bestehen aus Zahlen. Auch hier werden die ersten Einträge angezeigt.
Mit summary() erhalten Sie ein paar Informationen über den Inhalt der Observablen:
> summary(datensatz)
Stadt Einwohner
Length:3 Min. : 402275
Class :character 1st Qu.:1097971
Mode :character Median :1793667
Mean :1872590
3rd Qu.:2607748
Max. :3421829
Je nach Typ erhalten Sie einen ersten Überblick über Ihre Daten. Dazu später mehr.
Hilfe zu einer Funktion erhalten Sie mit ?funktion(), also zum Beispiel ?head() für Hilfe zur Anweisung head().
Datensätze in R speichern und einlesen
Sicher wollen Sie Ihre Daten nicht jedes Mal wieder eingeben, wenn Sie R neu starten. Das müssen Sie auch nicht. Speichern Sie zum Beispiel die Variable datensatz einfach mit:
> save(datensatz, file = "mein_datensatz.rda")
Zum erneuten Einlesen verwenden Sie
> load("mein_datensatz.rda")
Sie können den Datensatz auch als csv – Datei speichern:
> write.csv(datensatz, file = "mein_datensatz.csv", row.names = FALSE)
Das Argument row.names legt fest, ob beim Speichern zusätzliche Zeilennamen vergeben werden sollen. Unsere Zeilen haben jedoch schon Namen, so dass dies nicht nötig ist. Mit read.csv() lesen Sie die Daten wieder ein:
> read.csv(file = "mein_datensatz.csv")
Stadt Einwohner
1 Berlin 3421829
2 Wien 1793667
3 Zuerich 402275
Achten Sie darauf, die eingelesenen Daten einer Variablen zuzuweisen. Zum Beispiel so:
> datensatz_neu <- read.csv(file = "mein_datensatz.csv")
Andernfalls werden die Daten nur angezeigt, jedoch keiner Variablen zugewiesen.
Datenquellen und Formate
Es gibt unendlich viele Datenquellen, die fast schon einen eigenen Studiengang ‚Datenbeschaffung‘ rechtfertigen würden. Schauen Sie bei Gelegenheit mal auf folgenden Seiten nach:
http://de.wikipedia.org/wiki/Portal:Statistik/Datensaetze
http://ec.europa.eu/economy_finance/db_indicators/ameco/index_en.htm
http://epp.eurostat.ec.europa.eu/portal/page/portal/eurostat/home
Dort finden Sie sicher spannende Daten für eine neue Analyse. Häufig können Sie das Format der Daten vor dem Herunterladen selbst festlegen. Für den Import eignet sich am besten das kommaseparierte Format (csv). Dieses können Sie mit jedem beliebigen Texteditor anzeigen lassen und mithilfe der Anweisung read.csv() in einen data.frame in R importieren. Die Weiterverarbeitung und Aufbereitung der Daten ist nicht immer einfach. Konsultieren Sie gern R für Dummies von Andrie de Vries und Joris Meys für eine prall gefüllte Trickkiste, mit der sie (fast) alle Daten in die gewünschte Form bringen. Natürlich gibt es auch weitere gute Bücher, zum Beispiel Programmieren mit R von Uwe Ligges (Springer).
R hat schon in der Basisausführung einige eingebaute Datensätze, mit denen Sie herumexperimentieren können. Hier sparen Sie sich den Aufwand der Datenaufbereitung. Häufig bezieht sich R-Literatur auch auf diese eingebauten Datensätze, wie zum Beispiel den berühmten Datensatz iris. Was R alles für Sie bereithält, können Sie sich mit data() anzeigen lassen. Informationen zum jeweiligen Datensatz erhalten Sie mit ?datensatz. Für den Datensatz longley wäre dies die Eingabe ?longley. Dieser begegnet uns später noch ein paar Mal; er ist zwar recht kurz, doch hat er es in sich!
Fehlermeldungen interpretieren
Nicht immer läuft der Ökonometriker-Alltag reibungslos ab und hin und wieder will R nicht so, wie Sie wollen. Immerhin ist R äußerst gesprächig, wenn etwas nicht klappt. Wenn wir zum Beispiel den Namen einer Variablen nicht korrekt eingeben, reagiert R so:
> datensat
Error: object ´datensat´ not found
Da tappt man tatsächlich nicht lange im Dunkeln. Anhand der Informationen können wir leicht erkennen, wo das Problem liegt und wie wir es beheben können.
R anhalten und beenden
Wenn ein Prozess für Ihren Geschmack zu lange läuft, klicken Sie einfach auf das Stopp-Schild, welches in der Menüleiste angezeigt wird. Nach kurzer Zeit sollte die Eingabeaufforderung > wieder erscheinen.
Zum Beenden von R haben Sie mehrere Möglichkeiten. In der Kommandozeile verwenden Sie die Anweisungen quit() oder q(). In der Menüzeile verwenden Sie FILE|QUIT oder DATEI| BEENDEN, je nach Sprachversion. Im Anschluss daran werden Sie gefragt, ob Sie den sogenannten workspace speichern wollen. Dies bietet sich an, denn so können Sie beim nächsten Start wieder dort einsetzen, wo Sie aufgehört haben. Der workspace enthält alle Variablen und Funktionen, die Sie im Laufe der Sitzung erzeugt haben.
Spalten zu einem Datensatz hinzufügen und entfernen
Zuweilen wollen Sie Ihrem Datensatz weitere Variable hinzufügen. Nehmen wir an, Sie wollen dem Datensatz aus unserem Beispiel die Variable Land hinzufügen. Dafür geben Sie folgendes ein:
> datensatz$Land <- c("DE","AT","CH")
> datensatz
Stadt Einwohner Land
1 Berlin 3421829 DE
2 Wien 1793667 AT
3 Zuerich 402275 CH
Durch Anhängen von $Land an datensatz erzeugen Sie die neue Spalte Land im Datensatz. Dieser weisen Sie auch gleich neue Werte zu, welche Sie mithilfe der Funktion c() zunächst in einen Vektor verwandeln, der dann in einem Stück an den Datensatz angehängt wird.
Manchmal möchte man eine Spalte auch löschen. Das geht so:
> datensatz$Land <- NULL
> datensatz
Stadt Einwohner
1 Berlin 3421829
2 Wien 1793667
3 Zuerich 402275
Wenn Sie nur eine Spalte von einem data.frame anzeigen lassen wollen, so geben Sie zum Beispiel ein:
> datensatz$Stadt
[1] "Berlin" "Wien" "Zuerich"
Schätzen, Testen und Vorhersagen
Nachdem Sie Daten gesammelt und die für Ihre Analyse eventuell zusätzlich benötigten Variablen erstellt haben, sind Sie bereit, ihr ökonometrisches Modell zu schätzen und Hypothesentests durchzuführen.
Die geeignete Schätzmethode hängt von der Natur Ihres ökonometrischen Modells ab. Arbeitspferde der Ökonometrie in R sind die Funktion lm() und ihre Verwandten (zum Beispiel glm()) Achtung, manche erfordern gesonderte Pakete, siehe den Tipp weiter oben. Innerhalb der der Schätzfunktion kommt der sogenannten Formelschnittstelle (formula interface) besondere Bedeutung zu. Hier geben Sie durch Formeln wie x ~ y das jeweilige Schätzmodell vor. Mehr dazu im Verlauf der nächsten Kapitel.
Folgende Tabelle gibt einen Überblick über Funktionen zur Diagnose oder Weiterverwendung von geschätzten Modellen.
FunktionBeschreibungprint()Gibt die Regressionsgleichung und Punktschätzer der Koeffizienten aussummary()Gibt umfangreiche Regressionsdaten auscoef()Gibt die Punktschätzer der Koeffizienten ausresiduals()Gibt die Residuen ausfitted()Gibt die geschätzten Werte der abhängigen Variablen ausanova()Gibt die Varianzanalyse für ein oder mehrere geschätzte Modelle auspredict()Gibt Vorhersagen anhand des geschätzten Modells ausplot()Gibt diagnostische Grafiken ausconfint()Gibt Konfidenzintervalle ausdeviance()Gibt die Summe der Fehlerquadrate (residual sum of squares) ausvcov()Gibt die Varianz-Kovarianz-Matrix auslogLik()Gibt die log-likelihood (unter Normalverteilungsannahme) ausAIC()Informationskriterien (Akaike, …) jeweils unter NormalverteilungsannahmeTabelle 1.1: (Diagnose-)Funktionen für geschätzte Modelle (nach Kleiber, Zeileis: Applied Econometrics with R (Springer))
Nehmen wir als einführendes Beispiel den longley Datensatz noch einmal etwas genauer unter die Lupe. Wie bereits erwähnt, steht dieser Datensatz nach dem Starten von R zur Verfügung. Die jeweils erste und letzte Zeile sind:
> head(longley,1)
GNP.deflator GNP Unemployed Armed.Forces Population Year Employed
1947 83 234.289 235.6 159 107.608 1947 60.323
> tail(longley,1)
GNP.deflator GNP Unemployed Armed.Forces Population Year Employed
1962 116.9 554.894 400.7 282.7 130.081 1962 70.551
Details zum Datensatz finden Sie unter ?longley. Um die Struktur des Datensatzes kennen zu lernen geben Sie ein:
> str(longley)
´data.frame´: 16 obs. of 7 variables:
$ GNP.deflator: num 83 88.5 88.2 89.5 96.2 ...
$ GNP : num 234 259 258 285 329 ...
$ Unemployed : num 236 232 368 335 210 ...
$ Armed.Forces: num 159 146 162 165 310 ...
$ Population : num 108 109 110 111 112 ...
$ Year : int 1947 1948 1949 1950 1951 1952 1953 1954 1955 1956 ...
$ Employed : num 60.3 61.1 60.2 61.2 63.2 ...
Es handelt sich also um einen data.frame mit 7 Variablen und je 16 Beobachtungen. Sie sehen die Variablennamen, deren Typ und die ersten Beobachtungen. Nehmen wir an, uns interessiert der Zusammenhang zwischen Bruttosozialprodukt(Gross National Product, GNP) und beschäftigten Personen (Employed). Dann geben wir ein:
> longley.lm <- lm(Employed ~ GNP, data = longley)
> print(longley.lm)
Call:
lm(formula = Employed ~ GNP, data = longley)
Coefficients:
(Intercept) GNP
51.84359 0.03475
Zunächst schätzen wir die Modellgleichung Employed ~ GNP mithilfe der Funktion lm() und weisen das Ergebnis der Variablen longley.lm zu. Anschließend lassen wir uns mit print() grundlegende Informationen zur Schätzung ausgeben.
Probieren Sie einmal alle Anweisungen aus Tabelle 1.1 mit dem Regressionsobjekt – im Beispiel longley.lm – aus. Es lohnt sich!
Mit summary() erhalten wir schon einige Details mehr:
> summary(longley.lm)
Call:
lm(formula = Employed ~ GNP, data = longley)
Residuals:
Min 1Q Median 3Q Max
-0.77958 -0.55440 -0.00944 0.34361 1.44594
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 51.843590 0.681372 76.09 < 2e-16 ***
GNP 0.034752 0.001706 20.37 8.36e-12 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.6566 on 14 degrees of freedom
Multiple R-squared: 0.9674, Adjusted R-squared: 0.965
F-statistic: 415.1 on 1 and 14 DF, p-value: 8.363e-12
Das sind die Informationen, die man sich von einer Regression in etwa erwartet.
2
Der Dreh mit der Wahrscheinlichkeit
In diesem Kapitel
Grundlagen der Wahrscheinlichkeitstheorie wiederholen
Wahrscheinlichkeitsverteilungen für diskrete und stetige Zufallsvariable verstehen
Daten mit Kennzahlen charakterisieren
Die Beziehung zwischen zwei Zufallsvariablen erforschen
Dieses Kapitel wiederholt einige grundlegende Konzepte der Wahrscheinlichkeitstheorie, die für Ihr Verständnis der Ökonometrie wesentlich sind. Diese Themen konzentrieren sich auf die Eigenschaften von Wahrscheinlichkeitsverteilungen und deren Anwendung beim Berechnen deskriptiver Maße von Zufallsvariablen (Kennzahlen). Außerdem erfahren Sie, wie Sie Informationen aus Wahrscheinlichkeitsverteilungen nutzen können, um Lageparameter (wie den Erwartungswert), Streuung und Korrelation zu berechnen. Andere Themen sind weniger wichtig für die Ökonometrie oder werden soweit nötig in den relevanten Kapiteln dieses Buches behandelt. Falls Sie feststellen, dass Ihre Kenntnisse in Wahrscheinlichkeitsrechnung stärker eingerostet sind als vermutet, sollten Sie Statistik für Dummies [von Deborah J. Rumsey, vom Wiley-VCH Verlag] zurate ziehen sowie andere gute Fachbücher zu Statistik oder Wahrscheinlichkeitsrechnung.
Zufallsvariablen und Wahrscheinlichkeitsverteilungen im Überblick
Weil eines der Ziele der Ökonometrie darin besteht, zufällige Effekte von deterministischen Effekten zu trennen, benötigen wir zu ihrem Verständnis einiges an Wahrscheinlichkeitstheorie. Beginnen wir mit ein paar Grundbegriffen.
Zufallsereignisse sind die Ergebnisse von Zufallsexperimenten. Ein Zufallsexperiment sei für unsere Zwecke ein Experiment, bei dem die Versuchsbedingungen nicht den Ausgang des Experiments festlegen. Das ist ein großes Wort, denn es lässt sich gar nicht so leicht realisieren. Man denke an den perfekten Würfel oder die perfekte Münze und dann noch an den jeweils perfekten (und immer gleichen) Wurf.
Bleiben wir einen Moment bei der (perfekten) Münze. Hier sind die möglichen Ausgänge ‚Kopf‘ oder ‚Zahl‘ (‚Rand‘ gibt es nur bei der realen Münze, den lassen wir mal unter den Tisch fallen). Die Wahrscheinlichkeit für beide Ausgänge ist jeweils 50 %. Für die Münze haben wir damit einen sogenannten Wahrscheinlichkeitsraum zusammen. Dieser besteht salopp gesprochen (1) aus der Menge der (Elementar-) Ereignisse – ‚Kopf‘ und ‚Zahl‘ –, (2) der Menge aller Kombinationen dieser Ereignisse (‚Weder Kopf noch Zahl‘, ‚Kopf‘, ‚Zahl‘ und ‚Kopf oder Zahl‘) und (3) einer Abbildung P, die jeder Kombination von Ereignissen eine Wahrscheinlichkeit zuordnet. Die Wahrscheinlichkeit für ‚Weder Kopf noch Zahl‘ ist 0 % und die für ‚Kopf oder Zahl‘ 100 % – P(‚Kopf oder Zahl‘) = 1. Um jetzt weiter rechnen zu können, verwendet die Wahrscheinlichkeitstheorie einen Trick. Sie ordnet jedem Ausgang (Kopf, Zahl) eine reelle Zahl zu (das klappt auch mit anderen Mengen, meist jedoch sind es reelle Zahlen), zum Beispiel X(Kopf) = 0 und X(Zahl) = 1. Diese Zuordnung oder Abbildung – in unserem Fall X – nennt man eine Zufallsvariable. Eine Zufallsvariable ist also keine Zahl, sondern eine Funktion!
Eine Zufallsvariable ist (für unsere Zwecke) eine Abbildung aus einem Wahrscheinlichkeitsraum in die Menge der reellen Zahlen. Sie ist also eher eine Funktion als eine Variable. Im Gegensatz zu einer Realisierung enthält sie noch alle Möglichkeiten, wie ein Zufallsexperiment ausgehen kann. Diese Feinheit fällt im Alltag nicht so auf. Manchmal ist es jedoch ganz hilfreich, sich daran zu erinnern.
Die Begriffe Wahrscheinlichkeitsraum, Wahrscheinlichkeit und Zufallsvariable bleiben hier etwas schwammig. Das Buch handelt ja auch von Ökonometrie. Für eine sehr schöne deutschsprachige Einführung in das Thema eignet sich: Ulrich Krengel: Einführung in die Wahrscheinlichkeitsrechnung und Statistik, 8. Auflage (Vieweg). Für unsere Zwecke reicht, dass Sie sich mithilfe des Münz-Beispiels in etwa ein Bild machen können, was gemeint ist.
In der Ökonomie gehören zu den Zufallsvariablen Dinge wie Produktionsmenge, Nachfrage, Rendite, Löhne und so weiter. Für welche Zufallsvariable genau Sie sich interessieren, hängt davon ab, welches Problem Sie lösen oder welche wissenschaftliche Fragestellung Sie bearbeiten wollen. Machen Sie sich dies ruhig noch einmal klar: Wir tun so, als wäre die Welt ein Zufallsexperiment mit verschiedenen Ergebnis-Zuständen. Mithilfe der Funktion ‚Produktionsmenge‘ ordnen wir zum Beispiel einem bestimmten Zustand (der Welt) eine Zahl zu; übrigens kann verschiedenen Zuständen durchaus dieselbe Zahl als Produktionsmenge zugeordnet werden – das ist sogar die Regel.
Zufallsvariablen können diskret oder stetig sein. Eine diskrete Zufallsvariable ist so beschaffen, dass Ihr Wertebereich durch ganze Zahlen beschrieben werden kann. Die Menge möglicher Ergebnisse ist also abzählbar (unendlich). Eine stetige Zufallsvariable kann dagegen jeden reellen Wert annehmen, sodass die Ergebnismenge unendlich und nicht abzählbar ist.
Angenommen, Sie interessieren sich für die Anzahl von Arbeitsstellen (egal, ob Voll- oder Teilzeit), die alle erwerbsfähigen Personen im letzten Jahr innehatten. Das Ergebnis für jede Person ist ein ganzzahliger Wert wie 0, 1, 2 und so weiter. Die Personen hatten entweder keine, eine oder mehrere Stellen inne. Weil es sich bei den Ergebnissen um ganze abzählbare Zahlen handelt, ist bei dieser Fragestellung die Zufallsvariable diskret. Wenn Sie sich jedoch für die Stundenlöhne interessieren, dann ist die Zufallsvariable stetig. Mögliche Löhne können Null oder ganze Zahlen sein, aber auch Bruchteile (zum Beispiel 9,42 EUR pro Stunde).
In den folgenden Abschnitten lernen wir Eigenschaften von Zufallsvariablen kennen. Wir beginnen mit Wahrscheinlichkeitsfunktionen für diskrete Zufallsvariablen und gehen dann zu Wahrscheinlichkeitsdichten für stetige Zufallsvariablen über.
Alle Möglichkeiten betrachten: Verteilungsfunktion, Wahrscheinlichkeitsfunktion und Wahrscheinlichkeitsdichte
Bei der Beschäftigung mit Zufallsvariablen ist die wesentliche Einstiegsfrage, ob eine Realisierung einen vorgegebenen Wert übersteigt oder nicht. Eine Verteilungsfunktion gibt genau dies an. Mathematisch ausgedrückt: , wo P die Wahrscheinlichkeit angibt. Die Zufallsvariable wird mit X (Großbuchstabe) bezeichnet und der Schwellenwert mit x (Kleinbuchstabe). Es gilt sowie . Die Verteilungsfunktion kann also nur Werte zwischen 0 und 1 annehmen. Der Verteilungsfunktion wenden wir uns später noch einmal im Detail zu.
Im nächsten Schritt interessiert man sich für die Frage, wie groß die Wahrscheinlichkeit ist, dass X exakt einen Wert annimmt. Das funktioniert gut für diskrete, jedoch nur bedingt für stetige Zufallsvariable. Im ersten Fall heißt die resultierende Funktion Wahrscheinlichkeitsfunktion . Wenden wir uns also zunächst der Wahrscheinlichkeitsfunktion f(xi) zu (der Index zeigt an, dass es sich um eine diskrete Variable handelt).
Die Wahrscheinlichkeitsfunktion für diskrete Zufallsvariablen
Wenn Sie eine diskrete Zufallsvariable untersuchen, kann die Wahrscheinlichkeitsfunktion in Form einer (Werte-)Tabelle oder eines Graphen beschrieben werden. Um eine Tabelle zu erstellen, legen Sie eine Spalte mit den möglichen Werten Ihrer Zufallsvariable und eine Spalte mit der Wahrscheinlichkeit an, mit der diese auftreten. Bei der grafischen Darstellung der Wahrscheinlichkeitsfunktion (einem Balkendiagramm) tragen Sie die möglichen Werte der Zufallsvariable auf der Horizontalachse ein und die Höhe der vertikalen Balken jedes Wertes zeigt die Wahrscheinlichkeit, mit der diese in Erscheinung tritt.
Angenommen, wir führen ein Experiment durch, das daraus besteht, gleichzeitig drei Münzen zu werfen. Wir interessieren uns dafür, wie oft Kopf erscheint, also definieren wir uns eine Zufallsvariable X, die nichts weiter macht, als zu zählen, wie oft bei jedem Wurf Kopf erscheint. In Tabelle 2.1 lesen Sie die möglichen Ergebnisse für dieses Experiment sowie die Werte, welche X für jeden Ausgang des Experiments annimmt.
ErgebnisErste MünzeZweite MünzeDritte MünzeAnzahl Kopf, X 1 ZZ Z 0 2 ZZ K 1 3 ZK Z 1 4 KZ Z 1 5 ZK K 2 6 KK Z 2 7 KZ K 2 8 KK K 3Tabelle 2.1: Ergebnisse beim Werfen von drei Münzen
In Tabelle 2.1 sehen Sie acht Gesamtergebnisse mit vier möglichen Werten für X: 0, 1, 2 und 3. Sie erhalten in einem Fall 0 Mal Kopf, in drei Fällen jeweils einmal Kopf, in drei Fällen jeweils zweimal Kopf und in einem Fall dreimal Kopf. Sie können diese Information in Tabellenform oder als grafische Abbildung für die Wahrscheinlichkeitsfunktion von X zusammenfassen. Die Informationen ermöglichen Ihnen, die mit jedem X-Wert verbundene Wahrscheinlichkeit zu berechnen. Da zum Beispiel X =0 nur einmal auftritt, ist also f(X=0) = 1/8 = 0,125. In Tabelle 2.2 sehen Sie die Wahrscheinlichkeitsfunktion auch für die anderen X-Werte. In Abbildung 2.1 sehen Sie eine grafische Version.
Xf(X)01/8 = 0,12513/8 = 0,37523/8 = 0,37531/8 = 0,125Tabelle 2.2: Wahrscheinlichkeitsfunktion, 3-Münzen-Wurf-Experiment
Beachten Sie, dass die Wahrscheinlichkeiten in der rechten Spalte in der Summe 1 ergeben. Die Summe der Wahrscheinlichkeiten für jedes Experiment muss stets 1 sein.
Abbildung 2.1: Beispiel für den Graphen einer Wahrscheinlichkeitsfunktion einer diskreten Zufallsvariable (3-Münzen-Wurf-Experiment)
Die Wahrscheinlichkeitsdichte für stetige Zufallsvariable
Wie weiter oben schon angedeutet, ist es gar nicht so einfach, den Begriff der Wahrscheinlichkeitsfunktion von diskreten auf stetige Zufallsvariable zu erweitern. Die Wahrscheinlichkeit, dass eine stetige Zufallsvariable exakt einen Wert annimmt, ist nämlich exakt 0. Daher behilft man sich mit einem Trick und bestimmt die Wahrscheinlichkeit dafür, dass X in einem winzig (infinitesimal) kleinen Intervall um × herum liegt, geteilt durch die Breite des Intervalls. Dabei handelt es sich um eine Dichte, genauer um die Wahrscheinlichkeitsdichte.
Weil eine stetige Zufallsvariable unendlich viele Werte annehmen kann, ist die Wahrscheinlichkeit, dass ein bestimmter Wert exakt auftritt, gleich null!
Ein Beispiel kann helfen, diesen Punkt zu veranschaulichen. Angenommen, wir wählen zufällig einen unserer Leser aus. Wie groß ist die Wahrscheinlichkeit, dass er genau 21 Jahre alt ist (21 Jahre und keine hundertstel Sekunde älter oder jünger)? Antwort: Praktisch null. Es gäbe jedoch die Chance, zufällig einen Studenten auszuwählen, der zwischen 20 und 22 ist. Dazu weiter unten mehr. Sehen wir uns zunächst mal eine Wahrscheinlichkeitsdichte an.
Wenn Sie eine stetige Zufallsvariable betrachten, kann die Wahrscheinlichkeitsdichte als Funktionsvorschrift oder als Graph beschrieben werden. Die Funktionsvorschrift weist jedem Wert der Zufallsvariable eine Wahrscheinlichkeitsdichte zu. In einer grafischen Abbildung der Wahrscheinlichkeitsdichte sind die möglichen Werte der Zufallsvariable auf der horizontalen Achse, und eine Kurve (ohne Balken oder Unterbrechungen) verläuft irgendwo oberhalb der Achse.
Die gängigste Wahrscheinlichkeitsdichte ist die einer normalverteilten Zufallsvariable. Die grafische Darstellung wird in Abbildung 2.2 gezeigt.
Abbildung 2.2: Grafische Darstellung der Wahrscheinlichkeitsdichte für eine normalverteilte Zufallsvariable
Ungeachtet von Erwartungswert (μX) und Standardabweichung (σX) ist die Gesamtfläche unterhalb der Kurve gleich 1. Außerdem liegen etwa 68 Prozent der Wahrscheinlichkeit innerhalb einer Standardabweichung, etwa 95 Prozent innerhalb von zwei Standardabweichungen und etwa 99,7 Prozent innerhalb von drei Standardabweichungen. Die Standardabweichung ist bei der Normalverteilung etwa 42,5 % der Breite auf halber Höhe.
Wahrscheinlichkeiten für stetige Zufallsvariablen werden über Intervalle gemessen. Mathematisch wird diese Wahrscheinlichkeit ausdrückt als P(xa < X ≤ xb), wobei xa und xb, die Werte sind, die die Zufallsvariable X annehmen kann. Abbildung 2.3 zeigt, wie das zu verstehen ist.
Während es konzeptionell elegant ist, mit der Verteilungsfunktion zu beginnen und davon die Wahrscheinlichkeitsfunktion oder Wahrscheinlichkeitsdichte abzuleiten, startet man beim Rechnen häufig eher mit der Wahrscheinlichkeitsfunktion oder Wahrscheinlichkeitsdichte und berechnet daraus die Verteilungsfunktion. Daher kehren wir hier noch einmal zu Verteilungsfunktion zurück. Solche kleinen Eigenheiten machen die Mathematik ja gerade so charmant!
Abbildung 2.3: Beispiel für eine Wahrscheinlichkeitsdichte. Die grau unterlegte Fläche entspricht der Wahrscheinlichkeit, einen Wert zwischen xa und xb zu beobachten.
Eine für alle: Die Verteilungsfunktion
Die Verteilungsfunktion einer Zufallsvariable X gibt die Wahrscheinlichkeit an, mit der X kleiner oder gleich einem bestimmten Schwellenwert x ist. Mit wachsendem x nähert sie sich dem Wert 1. Ihr Verlauf zeigt, wie sich die Summe der Wahrscheinlichkeiten der 1 annähert, wobei der Grad der Annäherung manchmal gleich bleibt und sich manchmal verändert. In den folgenden Abschnitten lesen Sie, wie Sie die Verteilungsfunktion für diskrete und für stetige Zufallsvariablen finden. Darüber hinaus sehen Sie, wie Sie diese mittels einer (Werte-)Tabelle, einer Funktionsvorschrift oder eines Graphen beschreiben können.
Eine schrecklich nette Familie: Die Verteilungsfunktion und ihre Töchter
Geht man der Frage nach, wie groß die Wahrscheinlichkeit ist, dass die Zufallsvariable X einen bestimmten Wert x nicht überschreitet, so landet man unmittelbar bei der Verteilungsfunktion. Ihr Charme ist, dass sie für diskrete wie stetige Zufallsvariablen gleich heißt und gleich angewendet wird.