Erhalten Sie Zugang zu diesem und mehr als 300000 Büchern ab EUR 5,99 monatlich.
Mit diesem Buch gelingt Ihnen der einfache Einstieg in die statistische Analyse mit der Programmiersprache R. Alle Grundlagen werden in 14 Kapiteln anschaulich und leicht nachvollziehbar anhand von praktischen Beispielen erläutert.
Der Autor führt Sie Schritt für Schritt in die Datenanalyse mit R ein: von den Grundlagen zu Syntax und Datentypen über die Verwendung der grafischen Benutzungsoberfläche RStudio bis hin zur Erstellung von Diagrammen sowie analytischen Verfahren zum Prüfen von Veränderungen, Unterschieden und Zusammenhängen.
Eine praktische Übersicht hilft Ihnen, die passenden Verfahren für jede Aufgabenstellung schnell nachzuschlagen und einfach anzuwenden.
Grundlegende Statistik-Kenntnisse werden vorausgesetzt.
Aus dem Inhalt:Sie lesen das E-Book in den Legimi-Apps auf:
Seitenzahl: 289
Veröffentlichungsjahr: 2022
Das E-Book (TTS) können Sie hören im Abo „Legimi Premium” in Legimi-Apps auf:
Björn Walther
Statistik mit R
Schnelleinstieg
R einfach lernen in 14 Tagen
Bibliografische Information der Deutschen Nationalbibliothek
Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar.
ISBN ISBN 978-3-7475-0496-31. Auflage 2022
www.mitp.de
E-Mail: [email protected]: +49 7953 / 7189 - 079Telefax: +49 7953 / 7189 - 082
© 2022 mitp Verlags GmbH & Co. KG
Dieses Werk, einschließlich aller seiner Teile, ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Dies gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen.
Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, dass solche Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei zu betrachten wären und daher von jedermann benutzt werden dürften.
Lektorat: Janina BahlmannSprachkorrektorat: Petra Heubach-ErdmannCovergestaltung: Janina Bahlmann, Christian KalkertCovergrafik & Icons: Tanja Wehr, sketchnoteloversElectronic Publishing: Petra Kleinwegen
Dieses Ebook verwendet das ePub-Format und ist optimiert für die Nutzung mit dem iBooks-reader auf dem iPad von Apple. Bei der Verwendung anderer Reader kann es zu Darstellungsproblemen kommen.
Hinweis des Verlages zum Urheberrecht und Digitalen Rechtemanagement (DRM)
Der Verlag räumt Ihnen mit dem Kauf des ebooks das Recht ein, die Inhalte im Rahmen des geltenden Urheberrechts zu nutzen. Dieses Werk, einschließlich aller seiner Teile, ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheherrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Dies gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und Einspeicherung und Verarbeitung in elektronischen Systemen.
Der Verlag schützt seine ebooks vor Missbrauch des Urheberrechts durch ein digitales Rechtemanagement. Bei Kauf im Webshop des Verlages werden die ebooks mit einem nicht sichtbaren digitalen Wasserzeichen individuell pro Nutzer signiert.
Bei Kauf in anderen ebook-Webshops erfolgt die Signatur durch die Shopbetreiber. Angaben zu diesem DRM finden Sie auf den Seiten der jeweiligen Anbieter.
Impressum
Nachschlagehilfe
Einleitung
E.1 R lernen in 14 Tagen
E.2 Der Aufbau des Buches
E.3 Downloads zum Buch
E.4 Fragen und Feedback
Teil I: Einführung in die Arbeit mit R und RStudio
1 Warum gerade R für statistische Analysen?
2 R-Grundlagen in Kurzform
2.1 Syntax
2.2 Objekttypen in R
2.3 R-Pakete finden und verwenden
2.3.1 Pakete installieren und laden
2.3.2 Finden von Paketen
2.4 Datenformate in R
2.4.1 Wide-Format
2.4.2 Long-Format
2.4.3 Transformation der Formate
2.5 Pipe-Operatoren
3 RStudio als hilfreiche Oberfläche
3.1 Layout von RStudio
3.2 Empfohlene Einstellungen
3.2.1 Dark Mode
3.2.2 Tastatur-Shortcuts
3.2.3 In Projekten arbeiten
Teil II: Datenmanagement und deskriptive Statistiken
4 Datenmanagement in R
4.1 Datensätze in R einlesen
4.1.1 Nutzen des Importassistenten
4.1.2 Import über Code
4.2 Datensätze zusammenfügen
4.2.1 Fälle hinzufügen
4.2.2 Variablen hinzufügen
4.3 Teildatensätze erstellen
4.3.1 Auswahl bestimmter Variablen
4.3.2 Auswahl bestimmter Fälle
4.3.3 Auswahl bestimmter Fälle und Variablen
4.4 Datensätze exportieren
4.4.1 CSV- und TXT-Export
4.4.2 XLSX-Export
4.4.3 SAV-Export (SPSS) und DTA-Export (STATA)
4.5 Datensätze speichern und wieder laden
4.6 Fehlende Werte ausschließen
4.7 Variablen faktorisieren
4.8 Datumsvariablen als Datum formatieren
4.9 Dummycodierung von kategorialen Variablen
4.9.1 Das Prinzip einer Dummycodierung
4.9.2 Dummycodierung in R
4.10 Skalenbildung
4.10.1 Zweck einer Skalenbildung
4.10.2 Interne Konsistenz
4.10.3 Inverscodierung von Items
4.10.4 Skalenbildung
5 Deskriptive Statistik von Stichproben
5.1 Häufigkeiten
5.1.1 Absolute Häufigkeiten
5.1.2 Relative Häufigkeiten
5.1.3 Kumulierte relative Häufigkeiten
5.1.4 Übersichtstabelle
5.2 Lageparameter
5.3 Streuparameter
5.4 Schiefe und Kurtosis
5.5 Überblicksfunktionen für die deskriptive Statistik in R
5.5.1 Überblick mit describe()
5.5.2 Überblick mit Desc()
5.6 Deskriptive Statistiken für Untergruppen
5.6.1 Nutzen von tapply()
5.6.2 Nutzen von describeBy()
5.6.3 Nutzen des Pipe-Operators
5.7 Zusammenhänge
5.7.1 Kreuztabellen
5.7.2 Korrelation
Teil III: Diagramme
6 Allgemeine Darstellungen von Verteilungen für eine oder mehrere Gruppen
6.1 Histogramm
6.1.1 Histogramm mit der Basisversion von R
6.1.2 Einfaches Histogramm mit ggplot2
6.1.3 Histogramm für Gruppen mit ggplot2
6.2 Säulendiagramm
6.2.1 Säulendiagramm mit der Basisversion von R
6.2.2 Einfaches Säulendiagramm mit ggplot2
6.2.3 Säulendiagramm für Gruppen mit ggplot2
6.3 Balkendiagramm
6.3.1 Balkendiagramm mit der Basisversion von R
6.3.2 Balkendiagramm mit ggplot2
6.4 Boxplot
6.4.1 Boxplot mit der Basisversion von R
6.4.2 Boxplot mit ggplot2
6.5 Kreisdiagramm
6.6 Q-Q-Plot
7 Veränderungen in Diagrammen darstellen
7.1 Diagramme mit der Basisversion von R
7.1.1 Liniendiagramm für eine Variable
7.1.2 Liniendiagramm für zwei oder mehr Variablen
7.2 Diagramme mit ggplot2
7.2.1 Liniendiagramm für eine Variable
7.2.2 Liniendiagramm für zwei oder mehr Variablen
7.2.3 Gestapeltes Flächendiagramm
7.2.4 Boxplots
7.2.5 Säulendiagramm mit Fehlerbalken
7.2.6 Liniendiagramm mit Fehlerbalken
8 Zusammenhänge in Diagrammen darstellen
8.1 Streudiagramm
8.1.1 Streudiagramm mit der Basisversion von R
8.1.2 Streudiagramm mit ggplot2
8.2 Korrelationsdiagramm
Teil IV: Analytische Tests
9 Stichprobe mit Population vergleichen – Einstichproben-Tests
9.1 Einstichproben-t-Test für den Mittelwert
9.1.1 Voraussetzungen
9.1.2 Durchführung
9.1.3 Interpretation der Ergebnisse
9.1.4 Berechnung der Effektstärke
9.1.5 Reporting der Ergebnisse
9.2 Einstichproben-Wilcoxon-Test für den Median
9.2.1 Voraussetzungen
9.2.2 Durchführung
9.2.3 Interpretation der Ergebnisse
9.2.4 Berechnung der Effektstärke
9.2.5 Reporting der Ergebnisse
9.3 Chi2-Anpassungstest für die Verteilung
9.3.1 Voraussetzungen
9.3.2 Durchführung
9.3.3 Interpretation der Ergebnisse
9.3.4 Reporting der Ergebnisse
10 Veränderungen zwischen Zeitpunkten nach Intervention prüfen
10.1 Zwei Zeitpunkte
10.1.1 t-Test bei abhängigen Stichproben
10.1.2 Wilcoxon-Test bei abhängigen Stichproben
10.2 Mehr als zwei Zeitpunkte
10.2.1 ANOVA mit Messwiederholung
10.2.2 Friedman-ANOVA
11 Unterschiede zwischen Gruppen prüfen
11.1 Zwei Gruppen zu einem Zeitpunkt mit einem Einflussfaktor
11.1.1 t-Test bei unabhängigen Stichproben
11.1.2 Mann-Whitney-U-Test (Mann-Whitney-Wilcoxon-Test)
11.2 Mehr als zwei Gruppen zu einem Zeitpunkt mit einem Einflussfaktor
11.2.1 Einfaktorielle ANOVA
11.2.2 Kruskal-Wallis-Test
12 Unterschiede zwischen Gruppen mit mehreren Einflussfaktoren sowie mit Messwiederholung (gemischte Modelle)
12.1 Mehrere Gruppen infolge mehrerer Einflussfaktoren – Mehrfaktorielle ANOVA
12.1.1 Voraussetzungen
12.1.2 Durchführung
12.1.3 Interpretation der Ergebnisse
12.1.4 Reporting der Ergebnisse
12.2 Gemischte ANOVA als Sonderfall
12.2.1 Voraussetzungen
12.2.2 Durchführung
12.2.3 Interpretation der Ergebnisse
12.2.4 Reporting der Ergebnisse
13 Ungerichtete Zusammenhänge – Korrelationsanalysen
13.1 Pearson-Korrelation
13.1.1 Durchführung
13.1.2 Ergebnis und Interpretation
13.1.3 Reporting der Ergebnisse
13.2 Spearman-Korrelation
13.2.1 Durchführung
13.2.2 Ergebnis und Interpretation
13.2.3 Reporting der Ergebnisse
13.3 Kendall-Tau-Korrelation
13.3.1 Durchführung
13.3.2 Ergebnis und Interpretation
13.3.3 Reporting der Ergebnisse
13.4 Pearson-punktbiseriale Korrelation
13.4.1 Durchführung
13.4.2 Ergebnis und Interpretation
13.4.3 Exkurs: Interpretation einer signifikanten Korrelation
13.4.4 Reporting der Ergebnisse
13.5 Chi2-Test auf Unabhängigkeit
13.5.1 Durchführung
13.5.2 Ergebnis und Interpretation
13.5.3 Reporting der Ergebnisse
13.6 Kontingenzkoeffizient / Cramer V
13.7 Odds-Ratio
13.8 Zusatz: Partialkorrelation
14 Gerichtete Zusammenhänge – Regressionsanalysen
14.1 Lineare Regression
14.1.1 Vorbemerkungen und Vorbereitungen
14.1.2 Voraussetzungen der linearen Regression
14.1.3 Durchführung
14.1.4 Ergebnis
14.1.5 Interpretation der Ergebnisse
14.1.6 Reporting der Ergebnisse
14.2 Moderation und Mediation im Rahmen der linearen Regression
14.2.1 Moderation
14.2.2 Mediation
14.3 Binär-logistische Regression
14.3.1 Voraussetzungen
14.3.2 Durchführung
14.3.3 Ergebnis
14.3.4 Interpretation
14.3.5 Reporting der Ergebnisse
14.4 Ordinal-logistische Regression
14.4.1 Voraussetzungen
14.4.2 Durchführung
14.4.3 Ergebnis
14.4.4 Interpretation
14.4.5 Reporting der Ergebnisse
Anhang
A.1 Übersicht der allgemeinen Befehle für Diagramme mit der Basisversion von R
A.1.1 Beschriftungen
A.1.2 Schriftarten, Schriftvariation, Schriftgröße, Schriftfarben
A.1.3 Achsenformatierung
A.1.4 Linienarten und Datenpunkteformate
A.1.5 Legende
A.2 Übersicht der allgemeinen Befehle für Diagramme mit ggplot2
Glossar
Mithilfe der unten abgebildeten Entscheidungsbäume können Sie die richtige statistische Testmethode finden und im jeweils darunter ausgewiesenen Abschnitt nachschlagen. Alsdann finden Sie im angegebenen Abschnitt stets den Vierklang aus 1) Voraussetzungsprüfungen, 2) Durchführung, 3) Interpretation der Ergebnisse und 4) Reporting.
Mit diesem Buch haben Sie sich für einen einfachen, praktischen und fundierten Einstieg in die Welt der statistischen Analysen mit R entschieden. Sie lernen ohne unnötigen Ballast (in 14 Tagen oder Ihrem eigenen Tempo) alles, was Sie wissen müssen, um selbstständig statistische Analysen in R effektiv für Projekte in Ihrem Berufs-, Interessensgebiet oder Studienfach durchzuführen.
Alle Erklärungen sind leicht verständlich formuliert und setzen keine Vorkenntnisse in R voraus. Ein Grundverständnis von Statistik ist allerdings notwendig, da eine Erklärung jedes Fachbegriffes den Rahmen des Buches sprengen würde.
Dieses Buch ist als Nachschlagewerk konzipiert, welches Ihr Untersuchungsdesign in eine konkrete Analysemethode überführt. Hierbei helfen die Entscheidungsbäume, die Sie im Anschluss an das Inhaltsverzeichnis finden: Ausgehend vom Untersuchungsziel (Veränderung, Unterschiede, Zusammenhänge) und der Beschaffenheit der Testvariable(n) geben sie eine Entscheidungshilfe, um ein angemessenes Testverfahren auszuwählen.
Dieses Buch ist kein klassisches Lehrbuch. Zur Geschichte und Entwicklung kann man sich – sofern man das möchte – ausführlich auf Wikipedia informieren. Vielmehr ist dieses Buch ein anwendungsorientiertes Nachschlagewerk. Es gliedert sich in vier Teile, beginnend mit einer Einführung in R und die grafische Benutzeroberfläche RStudio in Teil I. Anschließend stehen in Teil II das Datenmanagement in R und deskriptive Statistiken im Mittelpunkt. In Teil III werden verschieden Arten von Diagrammen gezeigt, die in R erstellt werden können. Schließlich werden in Teil IV des Buches statistische Analysemethoden gezeigt, die sich grob in Veränderungen, Unterschiede und Zusammenhänge unterteilen lassen.
Am Ende des Buches finden Sie ein praktisches Glossar mit den wichtigsten Fachbegriffen sowie ein Stichwortverzeichnis, das Ihnen hilft, bestimmte Themen im Buch schneller zu finden.
Der Code aller Beispielprogramme steht Ihnen auf der Webseite des Verlags unter www.mitp.de/0494 zum Download zur Verfügung.
Unsere Verlagsprodukte werden mit großer Sorgfalt erstellt. Sollten Sie trotzdem einen Fehler bemerken oder eine andere Anmerkung zum Buch haben, freuen wir uns über eine direkte Rückmeldung an [email protected].
Falls es zu diesem Buch bereits eine Errata-Liste gibt, finden Sie diese unter www.mitp.de/0494 im Reiter Downloads.
Wir wünschen Ihnen viel Erfolg und Spaß bei den statistischen Analysen mit R!
Björn Walther und das mitp-Lektorat
Im ersten Teil dieses Buches geht es primär darum, Grundlagen im Umgang mit R und RStudio zu schaffen.
Gute Gründe, R für statistische Analysen zu nutzen, werden in Kapitel 1 kurz dargelegt.
In Kapitel 2 stehen die Grundprinzipien der R-Programmierung (Abschnitt 2.1) sowie die zur Verfügung stehenden Objekttypen im Fokus (Abschnitt 2.2). Hieran schließt sich das Management von Analysepaketen an (Abschnitt 2.3), bevor die für die in diesem Buch gezeigten Analyseverfahren notwendigen Analyseformate und die gegenseitige Überführung (Abschnitt 2.4) gezeigt werden. Den Abschluss des zweiten Kapitels bilden die zunächst noch etwas abstrakt anmutenden Pipe-Operatoren (Abschnitt 2.5). Diesen Abschnitt können Sie zunächst getrost überspringen und erst nach Verweis durch einen konkreten Anwendungsfall durcharbeiten.
Den Abschluss des ersten Teils dieses Buches bildet die Einführung in RStudio in Kapitel 3. Speziell wird das Layout erklärt (Abschnitt 3.1) und empfohlene Einstellungen gezeigt (Abschnitt 3.2).
Die Frage nach dem »Warum« ist auch in der Datenanalyse allgegenwärtig. Damit dieses Buch nicht zu philosophisch wird und seinem Versprechen eines anwendungsorientierten Nachschlagewerkes gerecht wird, werde ich hier nicht zu ausschweifend sein. So viel sei aber gesagt: Jede Person hat andere Präferenzen, warum gerade dieses eine Analyseprogramm das für sie beste ist. Zu den Kriterien zählen Einsteigerfreundlichkeit, Bedienbarkeit, Leistungsumfang, Updates, Preis – um nur ein paar zu nennen.
In den meisten o.g. Kategorien schneidet R sehr gut ab. Eigentlich in allen, außer der Einsteigerfreundlichkeit – aber dieses Buch ist ja dafür da, genau diesen Malus zu beheben. Eine gewisse Grundkenntnis statistischer Begriffe ist ohnehin bei allen Analyseprogrammen von Vorteil.
Zur Bedienung von R wird eine sog. Syntax verwendet. Sie beschreibt vereinfacht ausgedrückt das korrekte Kombinieren von Befehlen mit Objekten. Objekte können Variablen, Dataframes usw. sein. Diese Arbeitsweise zeichnet alle statistischen Analyseprogramme aus. Allerdings wurden im Laufe der Jahre aus Gründen der einfacheren Bedienbarkeit von manchen Herstellern (z.B. SPSS, inzwischen IBM) grafische Benutzeroberflächen mit Dialogfeldern aufgesetzt. Diese nehmen dem Nutzer das Eingeben der Syntax ab. Dies hat den Vorteil, dass man die Befehle nicht auswendig kennen muss und es nicht zu Tippfehlern kommen kann – allerdings zum Teil auf Kosten der Nachvollziehbarkeit und Reproduzierbarkeit der Analyseschritte.
Im Hinblick auf den Leistungsumfang ist R das »mächtigste« Analyseprogramm. Es werden standardmäßig sog. Base packages mitgeliefert, die aber nur einen Bruchteil der 19.000 existierenden Pakete darstellen. Diese Pakete beinhalten die von Nutzern verwendeten Analysefunktionen. Diese enorme Anzahl von Paketen wird größtenteils von Wissenschaftlern mit statistischem Hintergrundwissen freiwillig erstellt und beständig mit Updates versorgt. Für jedes dieser R-Pakete existiert eine umfangreiche auf CRAN (Comprehensive R Archive Network) zugängliche Dokumentation.
Abschließend kann noch kurz der Preis erwähnt werden. R und sämtliche Pakete sind vollständig kostenlos herunterladbar. Es gibt auch kostenlose Zusatzprogramme, allen voran RStudio Desktop in der Open Source Edition. RStudio vereinfacht das Arbeiten erheblich, indem es die Übersichtlichkeit stark erhöht. Daher steht bereits an dieser Stelle meine klare Empfehlung, dieses Programm zu nutzen. Zu RStudio, dessen Installationen sowie Nutzung komme ich in Kapitel 3.
Eine große Erleichterung im Arbeiten mit R war für mich von Beginn an RStudio. Es hebt die verschiedenen Syntaxelemente farblich hervor und erlaubt mit einer Autokomplettierungsfunktion von Befehlen ein zügigeres Arbeiten. Es gibt neben RStudio noch weitere grafische Benutzeroberflächen für R (z.B. RCommander, Rattle). Meine persönliche Empfehlung ist RStudio, das kostenlos heruntergeladen und installiert werden kann:https://www.rstudio.com/products/rstudio/download/#download.
RStudio ist NICHT zwingend für die Arbeit mit R und diesem Buch notwendig, hilft aber ungemein, den Überblick zu behalten.
Eine kurze Einführung in den Umgang mit RStudio gibt es auch in Form eines Videos auf meinem YouTube-Kanal:https://youtu.be/tyvEHQszZJs
Nach der Installation von RStudio erhält man eine viergeteilte Übersicht (vgl. Abbildung 3.1), in der stets gearbeitet wird. Jeder Teil erfüllt eine oder sogar mehrere spezifische Aufgaben.
Oben links spielt sich der Hauptteil der Programmierung ab. Sämtlicher Code kann hier geschrieben und ausgeführt werden. Dieser Code kann in sog. R-Scripts gespeichert und wieder geladen werden, was die Dokumentation sehr transparent macht und die Nachvollziehbarkeit sowie Wiederausführbarkeit stark erleichtert.
Abb. 3.1: Startbildschirm von RStudio
Unten links ist die sog. Console, in der Ergebnisse sowie Hinweise, Fehlermeldungen usw. von R ausgegeben werden. Die Eingabe und die Ausführung von Code ist hier ebenfalls möglich. Im Sinne der Dokumentation und einfachen Wiederausführbarkeit sollte allerdings mit einem R-Script gearbeitet werden.
Oben rechts findet sich das Environment, wo aktuell geladene Objekte wie z.B. Data Frames usw. zu finden sind. Im Reiter History kann nachvollzogen werden, welche Befehle ausgeführt wurden. Im Reiter Connections geht es v.a. um die Verbindung zu Datenbanken wie SQL, was für den normalen Anwender nicht relevant ist. Der Reiter Tutorial hält, was er verspricht, und bietet Tutorials zu bestimmten R-Paketen.
Unten rechts ist im Reiter Files das Arbeitsverzeichnis (Working Directory)zu finden. Hier finden sich in der Regel einzulesende Dateien und werden R-Scripts sowie Daten- und Bildexporte gespeichert. Import und Export müssen aber nicht zwingend vom bzw. ins Working Directory vorgenommen werden. Unter Plots werden Grafiken ausgegeben, die dann betrachtet und wahlweise als Bild oder PDF-Datei exportiert werden können. Packages zeigt eine Übersicht installierter Zusatzpakete. Ist ein Paket angehakt, ist es gleichzeitig geladen und es kann mit seinen Funktionen gearbeitet werden. Help stellt die Dokumentation zu Paketen und ihren Funktionen dar und erläutert die Verwendung von Zusatzargumenten und deren Syntax. Im Reiter Viewer können lokale Webinhalte angezeigt werden, was für normale Anwender nicht relevant ist, im Rahmen dieses Buches in Kapitel 2 aber Verwendung findet, wenn man Pakete sucht.
Dieser Abschnitt ist recht kurz, da viele Grundeinstellungen von RStudio bereits ein sehr zügiges und effizientes Arbeiten ermöglichen.
Ein für mich persönlich sehr angenehmes Feature ist die Möglichkeit, das Aussehen von RStudio an meine Vorlieben anzupassen. Allen voran kann RStudio im sog. Dark Mode betrieben werden. Zusätzlich kann die Lesbarkeit der Syntax mit farbigen Hervorhebungen verbessert werden.
Abb. 3.2: Ändern des Themes
Über Tools|Global Options kann im Unterpunkt Appearancedas Design angepasst werden.
Unter Editor Theme existieren bereits einige vorformatierte dunkle Designs, z.B. Merbivore (vgl. Abbildung 3.2).
Hinweis
Es besteht darüber hinaus auch die Möglichkeit, weitere Designs einzubinden sowie ein eigenes Theme designen:
https://tmtheme-editor.herokuapp.com/#!/editor/theme/Monokai.
Zur Ausführung von geschriebenem Code im Script-Editor kann der Run-Button verwendet werden. Allerdings ist es effizienter, wenn man Code per Shortcut über die Tastatur ausführt, statt ihn mit einem Griff zur Maus per Klick auszuführen. Standardmäßig ist in RStudio für das Ausführen von Code die Tastenkombination Strg + Enter definiert. Dies führt die aktuelle Codezeile, oder wahlweise den selektierten Code, aus und setzt den Cursor in die nachfolgende Zeile.
Hinweis
Über Tools|Keyboard Shortcuts Help kann man sämtliche Shortcuts einsehen, die über die Tastatur ausgeführt werden können. Hierfür gibt es aber auch den Shortcut Alt + Umschalt + K. ;-)
Über Tools|Modify Keyboard Shortcuts können die Shortcuts angepasst werden. Ich empfehle aus Bequemlichkeit, wie in alten RStudio-Versionen das Ausführen von Code der aktuellen Zeile oder des selektierten Codes (Run Current Line or Selection) auf Strg + R zu legen.
Man neigt dazu, direkt mit dem Programmieren zu beginnen. Dabei lohnt sich das Erstellen eines R-Projekts, um voneinander abgegrenzte statistische Analyseprojekte auch hinsichtlich Arbeitsverzeichnissen, Workspace, Datenquellen, Skripten usw. separat zu halten.
Hinweis
Über File|New Project kann ein neues Projekt angelegt werden. Der Assistent zur Erstellung begleitet hierbei sehr gut, weshalb an dieser Stelle auf weitere Ausführungen verzichtet werden kann.
Ein weiterer Vorteil ist die Möglichkeit, im jeweiligen Projektordner bzw. Arbeitsverzeichnis eine .Rprofile-Datei anzulegen. Hierin können bereits typische Befehle angegeben werden, die beim Laden des Projekts ausgeführt werden. Nützlich sind hier vor allem das Laden von Paketen oder das Einlesen von Daten, was im nachfolgenden Kapitel behandelt wird.
Im zweiten Teil dieses Buches steht in Kapitel 4 das Datenmanagement im Vordergrund. Dazu gehört das Einlesen von Datensätzen aus verschiedenen anderen Dateiformaten wie CSV, TXT, XLS, XLSX, SAV und DTA (Abschnitt 4.1).
Anschließend wird das Zusammenfügen von Datensätzen gezeigt, speziell das Hinzufügen zusätzlicher Variablen oder Fälle. Dies tritt typischerweise immer dann auf, wenn zwischen Erhebungen Zeit vergangen ist, aber ein Gesamtdatensatz erstellt und später analysiert werden soll (Abschnitt 4.2).
Der umgekehrte Weg, die Überführung nur bestimmter Variablen oder Fälle in einen Teildatensatz, wird ebenfalls gezeigt (Abschnitt 4.3).
Ein weiterer wichtiger Aspekt ist der Export von Datensätzen aus R in die eben genannten Dateiformate (Abschnitt 4.4).
Um Änderungen an Datensätzen nicht immer wieder neu durchführen zu müssen, wird das lokale Speichern und Laden von Datensätzen kurz dargestellt (Abschnitt 4.5).
Hieran schließt sich der Ausschluss von Fällen mit fehlenden Werten an (Abschnitt 4.6), bevor der Zweck einer Faktorisierung (Abschnitt 4.7), die korrekte Datumsformatierung (Abschnitt 4.8) sowie das Prinzip einer Dummycodierung (Abschnitt 4.9) von Variablen erklärt und durchgeführt wird. Den Abschluss bilden Erklärungen zur Bildung von Skalen (Abschnitt 4.10).
In Kapitel 5 geht es um deskriptive Statistiken von Stichproben, wo die Berechnung und Interpretation von absoluten, relativen und kumulierten relativen Häufigkeiten (Abschnitt 5.1), Lageparametern (Abschnitt 5.2), Streuparametern (Abschnitt 5.3) und Schiefe und Wölbung (Abschnitt 5.4) gezeigt werden.
R bietet bequemerweise auch Übersichtsfunktion für die vorgenannten Parameter, deren Umgang kurz dargestellt wird (Abschnitt 5.5). Dies kann auch nur für Teilgruppen des Datensatzes durchgeführt werden (Abschnitt 5.6).
Schließlich werden überblicksartig Zusammenhänge mit Kreuztabellen und erste Korrelationsklassifizierungen dargestellt (Abschnitt 5.7).
