Statistik mit R Schnelleinstieg - Björn Walther - E-Book

Statistik mit R Schnelleinstieg E-Book

Björn Walther

0,0

Beschreibung

  • Alle Grundlagen für den Einsatz von R in Studium und Praxis
  • Die gängigsten Datenvisualisierungen und Datenanalyseverfahren
  • Mit praktischer Nachschlagehilfe für die einzelnen Verfahren

Mit diesem Buch gelingt Ihnen der einfache Einstieg in die statistische Analyse mit der Programmiersprache R. Alle Grundlagen werden in 14 Kapiteln anschaulich und leicht nachvollziehbar anhand von praktischen Beispielen erläutert.

Der Autor führt Sie Schritt für Schritt in die Datenanalyse mit R ein: von den Grundlagen zu Syntax und Datentypen über die Verwendung der grafischen Benutzungsoberfläche RStudio bis hin zur Erstellung von Diagrammen sowie analytischen Verfahren zum Prüfen von Veränderungen, Unterschieden und Zusammenhängen.

Eine praktische Übersicht hilft Ihnen, die passenden Verfahren für jede Aufgabenstellung schnell nachzuschlagen und einfach anzuwenden.

Grundlegende Statistik-Kenntnisse werden vorausgesetzt.

Aus dem Inhalt:
  • Alle wesentlichen Grundlagen einfach erläutert
  • Einführung in RStudio
  • Deskriptive Statistik von Stichproben
  • Diagramme für Verteilungen, Veränderungen und Zusammenhänge
  • Analytische Verfahren zur Beurteilung von
    • Veränderungen zwischen Zeitpunkten
    • Unterschiede zwischen Gruppen
    • Ungerichteten und gerichteten Zusammenhängen
  • Entscheidungsbaum für die Auswahl der passenden statistischen Tests
  • R-Code und alle Beispieldatensätze zum Download

Sie lesen das E-Book in den Legimi-Apps auf:

Android
iOS
von Legimi
zertifizierten E-Readern
Kindle™-E-Readern
(für ausgewählte Pakete)

Seitenzahl: 289

Veröffentlichungsjahr: 2022

Das E-Book (TTS) können Sie hören im Abo „Legimi Premium” in Legimi-Apps auf:

Android
iOS
Bewertungen
0,0
0
0
0
0
0
Mehr Informationen
Mehr Informationen
Legimi prüft nicht, ob Rezensionen von Nutzern stammen, die den betreffenden Titel tatsächlich gekauft oder gelesen/gehört haben. Wir entfernen aber gefälschte Rezensionen.



Björn Walther

Statistik mit R

Schnelleinstieg

R einfach lernen in 14 Tagen

Impressum

Bibliografische Information der Deutschen Nationalbibliothek

Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar.

ISBN ISBN 978-3-7475-0496-31. Auflage 2022

www.mitp.de

E-Mail: [email protected]: +49 7953 / 7189 - 079Telefax: +49 7953 / 7189 - 082

© 2022 mitp Verlags GmbH & Co. KG

Dieses Werk, einschließlich aller seiner Teile, ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Dies gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen.

Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, dass solche Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei zu betrachten wären und daher von jedermann benutzt werden dürften.

Lektorat: Janina BahlmannSprachkorrektorat: Petra Heubach-ErdmannCovergestaltung: Janina Bahlmann, Christian KalkertCovergrafik & Icons: Tanja Wehr, sketchnoteloversElectronic Publishing: Petra Kleinwegen

Dieses Ebook verwendet das ePub-Format und ist optimiert für die Nutzung mit dem iBooks-reader auf dem iPad von Apple. Bei der Verwendung anderer Reader kann es zu Darstellungsproblemen kommen.

Hinweis des Verlages zum Urheberrecht und Digitalen Rechtemanagement (DRM)

Der Verlag räumt Ihnen mit dem Kauf des ebooks das Recht ein, die Inhalte im Rahmen des geltenden Urheberrechts zu nutzen. Dieses Werk, einschließlich aller seiner Teile, ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheherrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Dies gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und Einspeicherung  und Verarbeitung in elektronischen Systemen.

Der Verlag schützt seine ebooks vor Missbrauch des Urheberrechts durch ein digitales Rechtemanagement. Bei Kauf im Webshop des Verlages werden die ebooks mit einem nicht sichtbaren digitalen Wasserzeichen individuell pro Nutzer signiert.

Bei Kauf in anderen ebook-Webshops erfolgt die Signatur durch die Shopbetreiber. Angaben zu diesem DRM finden Sie auf den Seiten der jeweiligen Anbieter.

Inhalt

Impressum

Nachschlagehilfe

Einleitung

E.1 R lernen in 14 Tagen

E.2 Der Aufbau des Buches

E.3 Downloads zum Buch

E.4 Fragen und Feedback

Teil I: Einführung in die Arbeit mit R und RStudio

1 Warum gerade R für statistische Analysen?

2 R-Grundlagen in Kurzform

2.1 Syntax

2.2 Objekttypen in R

2.3 R-Pakete finden und verwenden

2.3.1 Pakete installieren und laden

2.3.2 Finden von Paketen

2.4 Datenformate in R

2.4.1 Wide-Format

2.4.2 Long-Format

2.4.3 Transformation der Formate

2.5 Pipe-Operatoren

3 RStudio als hilfreiche Oberfläche

3.1 Layout von RStudio

3.2 Empfohlene Einstellungen

3.2.1 Dark Mode

3.2.2 Tastatur-Shortcuts

3.2.3 In Projekten arbeiten

Teil II: Datenmanagement und deskriptive Statistiken

4 Datenmanagement in R

4.1 Datensätze in R einlesen

4.1.1 Nutzen des Importassistenten

4.1.2 Import über Code

4.2 Datensätze zusammenfügen

4.2.1 Fälle hinzufügen

4.2.2 Variablen hinzufügen

4.3 Teildatensätze erstellen

4.3.1 Auswahl bestimmter Variablen

4.3.2 Auswahl bestimmter Fälle

4.3.3 Auswahl bestimmter Fälle und Variablen

4.4 Datensätze exportieren

4.4.1 CSV- und TXT-Export

4.4.2 XLSX-Export

4.4.3 SAV-Export (SPSS) und DTA-Export (STATA)

4.5 Datensätze speichern und wieder laden

4.6 Fehlende Werte ausschließen

4.7 Variablen faktorisieren

4.8 Datumsvariablen als Datum formatieren

4.9 Dummycodierung von kategorialen Variablen

4.9.1 Das Prinzip einer Dummycodierung

4.9.2 Dummycodierung in R

4.10 Skalenbildung

4.10.1 Zweck einer Skalenbildung

4.10.2 Interne Konsistenz

4.10.3 Inverscodierung von Items

4.10.4 Skalenbildung

5 Deskriptive Statistik von Stichproben

5.1 Häufigkeiten

5.1.1 Absolute Häufigkeiten

5.1.2 Relative Häufigkeiten

5.1.3 Kumulierte relative Häufigkeiten

5.1.4 Übersichtstabelle

5.2 Lageparameter

5.3 Streuparameter

5.4 Schiefe und Kurtosis

5.5 Überblicksfunktionen für die deskriptive Statistik in R

5.5.1 Überblick mit describe()

5.5.2 Überblick mit Desc()

5.6 Deskriptive Statistiken für Untergruppen

5.6.1 Nutzen von tapply()

5.6.2 Nutzen von describeBy()

5.6.3 Nutzen des Pipe-Operators

5.7 Zusammenhänge

5.7.1 Kreuztabellen

5.7.2 Korrelation

Teil III: Diagramme

6 Allgemeine Darstellungen von Verteilungen für eine oder mehrere Gruppen

6.1 Histogramm

6.1.1 Histogramm mit der Basisversion von R

6.1.2 Einfaches Histogramm mit ggplot2

6.1.3 Histogramm für Gruppen mit ggplot2

6.2 Säulendiagramm

6.2.1 Säulendiagramm mit der Basisversion von R

6.2.2 Einfaches Säulendiagramm mit ggplot2

6.2.3 Säulendiagramm für Gruppen mit ggplot2

6.3 Balkendiagramm

6.3.1 Balkendiagramm mit der Basisversion von R

6.3.2 Balkendiagramm mit ggplot2

6.4 Boxplot

6.4.1 Boxplot mit der Basisversion von R

6.4.2 Boxplot mit ggplot2

6.5 Kreisdiagramm

6.6 Q-Q-Plot

7 Veränderungen in Diagrammen darstellen

7.1 Diagramme mit der Basisversion von R

7.1.1 Liniendiagramm für eine Variable

7.1.2 Liniendiagramm für zwei oder mehr Variablen

7.2 Diagramme mit ggplot2

7.2.1 Liniendiagramm für eine Variable

7.2.2 Liniendiagramm für zwei oder mehr Variablen

7.2.3 Gestapeltes Flächendiagramm

7.2.4 Boxplots

7.2.5 Säulendiagramm mit Fehlerbalken

7.2.6 Liniendiagramm mit Fehlerbalken

8 Zusammenhänge in Diagrammen darstellen

8.1 Streudiagramm

8.1.1 Streudiagramm mit der Basisversion von R

8.1.2 Streudiagramm mit ggplot2

8.2 Korrelationsdiagramm

Teil IV: Analytische Tests

9 Stichprobe mit Population vergleichen – Einstichproben-Tests

9.1 Einstichproben-t-Test für den Mittelwert

9.1.1 Voraussetzungen

9.1.2 Durchführung

9.1.3 Interpretation der Ergebnisse

9.1.4 Berechnung der Effektstärke

9.1.5 Reporting der Ergebnisse

9.2 Einstichproben-Wilcoxon-Test für den Median

9.2.1 Voraussetzungen

9.2.2 Durchführung

9.2.3 Interpretation der Ergebnisse

9.2.4 Berechnung der Effektstärke

9.2.5 Reporting der Ergebnisse

9.3 Chi2-Anpassungstest für die Verteilung

9.3.1 Voraussetzungen

9.3.2 Durchführung

9.3.3 Interpretation der Ergebnisse

9.3.4 Reporting der Ergebnisse

10 Veränderungen zwischen Zeitpunkten nach Intervention prüfen

10.1 Zwei Zeitpunkte

10.1.1 t-Test bei abhängigen Stichproben

10.1.2 Wilcoxon-Test bei abhängigen Stichproben

10.2 Mehr als zwei Zeitpunkte

10.2.1 ANOVA mit Messwiederholung

10.2.2 Friedman-ANOVA

11 Unterschiede zwischen Gruppen prüfen

11.1 Zwei Gruppen zu einem Zeitpunkt mit einem Einflussfaktor

11.1.1 t-Test bei unabhängigen Stichproben

11.1.2 Mann-Whitney-U-Test (Mann-Whitney-Wilcoxon-Test)

11.2 Mehr als zwei Gruppen zu einem Zeitpunkt mit einem Einflussfaktor

11.2.1 Einfaktorielle ANOVA

11.2.2 Kruskal-Wallis-Test

12 Unterschiede zwischen Gruppen mit mehreren Einflussfaktoren sowie mit Messwiederholung (gemischte Modelle)

12.1 Mehrere Gruppen infolge mehrerer Einflussfaktoren – Mehrfaktorielle ANOVA

12.1.1 Voraussetzungen

12.1.2 Durchführung

12.1.3 Interpretation der Ergebnisse

12.1.4 Reporting der Ergebnisse

12.2 Gemischte ANOVA als Sonderfall

12.2.1 Voraussetzungen

12.2.2 Durchführung

12.2.3 Interpretation der Ergebnisse

12.2.4 Reporting der Ergebnisse

13 Ungerichtete Zusammenhänge – Korrelationsanalysen

13.1 Pearson-Korrelation

13.1.1 Durchführung

13.1.2 Ergebnis und Interpretation

13.1.3 Reporting der Ergebnisse

13.2 Spearman-Korrelation

13.2.1 Durchführung

13.2.2 Ergebnis und Interpretation

13.2.3 Reporting der Ergebnisse

13.3 Kendall-Tau-Korrelation

13.3.1 Durchführung

13.3.2 Ergebnis und Interpretation

13.3.3 Reporting der Ergebnisse

13.4 Pearson-punktbiseriale Korrelation

13.4.1 Durchführung

13.4.2 Ergebnis und Interpretation

13.4.3 Exkurs: Interpretation einer signifikanten Korrelation

13.4.4 Reporting der Ergebnisse

13.5 Chi2-Test auf Unabhängigkeit

13.5.1 Durchführung

13.5.2 Ergebnis und Interpretation

13.5.3 Reporting der Ergebnisse

13.6 Kontingenzkoeffizient / Cramer V

13.7 Odds-Ratio

13.8 Zusatz: Partialkorrelation

14 Gerichtete Zusammenhänge – Regressionsanalysen

14.1 Lineare Regression

14.1.1 Vorbemerkungen und Vorbereitungen

14.1.2 Voraussetzungen der linearen Regression

14.1.3 Durchführung

14.1.4 Ergebnis

14.1.5 Interpretation der Ergebnisse

14.1.6 Reporting der Ergebnisse

14.2 Moderation und Mediation im Rahmen der linearen Regression

14.2.1 Moderation

14.2.2 Mediation

14.3 Binär-logistische Regression

14.3.1 Voraussetzungen

14.3.2 Durchführung

14.3.3 Ergebnis

14.3.4 Interpretation

14.3.5 Reporting der Ergebnisse

14.4 Ordinal-logistische Regression

14.4.1 Voraussetzungen

14.4.2 Durchführung

14.4.3 Ergebnis

14.4.4 Interpretation

14.4.5 Reporting der Ergebnisse

Anhang

A.1 Übersicht der allgemeinen Befehle für Diagramme mit der Basisversion von R

A.1.1 Beschriftungen

A.1.2 Schriftarten, Schriftvariation, Schriftgröße, Schriftfarben

A.1.3 Achsenformatierung

A.1.4 Linienarten und Datenpunkteformate

A.1.5 Legende

A.2 Übersicht der allgemeinen Befehle für Diagramme mit ggplot2

Glossar

Nachschlagehilfe

Mithilfe der unten abgebildeten Entscheidungsbäume können Sie die richtige statistische Testmethode finden und im jeweils darunter ausgewiesenen Abschnitt nachschlagen. Alsdann finden Sie im angegebenen Abschnitt stets den Vierklang aus 1) Voraussetzungsprüfungen, 2) Durchführung, 3) Interpretation der Ergebnisse und 4) Reporting.

Einleitung

E.1 R lernen in 14 Tagen

Mit diesem Buch haben Sie sich für einen einfachen, praktischen und fundierten Einstieg in die Welt der statistischen Analysen mit R entschieden. Sie lernen ohne unnötigen Ballast (in 14 Tagen oder Ihrem eigenen Tempo) alles, was Sie wissen müssen, um selbstständig statistische Analysen in R effektiv für Projekte in Ihrem Berufs-, Interessensgebiet oder Studienfach durchzuführen.

Alle Erklärungen sind leicht verständlich formuliert und setzen keine Vorkenntnisse in R voraus. Ein Grundverständnis von Statistik ist allerdings notwendig, da eine Erklärung jedes Fachbegriffes den Rahmen des Buches sprengen würde.

Dieses Buch ist als Nachschlagewerk konzipiert, welches Ihr Untersuchungsdesign in eine konkrete Analysemethode überführt. Hierbei helfen die Entscheidungsbäume, die Sie im Anschluss an das Inhaltsverzeichnis finden: Ausgehend vom Untersuchungsziel (Veränderung, Unterschiede, Zusammenhänge) und der Beschaffenheit der Testvariable(n) geben sie eine Entscheidungshilfe, um ein angemessenes Testverfahren auszuwählen.

E.2 Der Aufbau des Buches

Dieses Buch ist kein klassisches Lehrbuch. Zur Geschichte und Entwicklung kann man sich – sofern man das möchte – ausführlich auf Wikipedia informieren. Vielmehr ist dieses Buch ein anwendungsorientiertes Nachschlagewerk. Es gliedert sich in vier Teile, beginnend mit einer Einführung in R und die grafische Benutzeroberfläche RStudio in Teil I. Anschließend stehen in Teil II das Datenmanagement in R und deskriptive Statistiken im Mittelpunkt. In Teil III werden verschieden Arten von Diagrammen gezeigt, die in R erstellt werden können. Schließlich werden in Teil IV des Buches statistische Analysemethoden gezeigt, die sich grob in Veränderungen, Unterschiede und Zusammenhänge unterteilen lassen.

Am Ende des Buches finden Sie ein praktisches Glossar mit den wichtigsten Fachbegriffen sowie ein Stichwortverzeichnis, das Ihnen hilft, bestimmte Themen im Buch schneller zu finden.

E.3 Downloads zum Buch

Der Code aller Beispielprogramme steht Ihnen auf der Webseite des Verlags unter www.mitp.de/0494 zum Download zur Verfügung.

E.4 Fragen und Feedback

Unsere Verlagsprodukte werden mit großer Sorgfalt erstellt. Sollten Sie trotzdem einen Fehler bemerken oder eine andere Anmerkung zum Buch haben, freuen wir uns über eine direkte Rückmeldung an [email protected].

Falls es zu diesem Buch bereits eine Errata-Liste gibt, finden Sie diese unter www.mitp.de/0494 im Reiter Downloads.

Wir wünschen Ihnen viel Erfolg und Spaß bei den statistischen Analysen mit R!

Björn Walther und das mitp-Lektorat

Teil IEinführung in die Arbeit mit R und RStudio

Im ersten Teil dieses Buches geht es primär darum, Grundlagen im Umgang mit R und RStudio zu schaffen.

Gute Gründe, R für statistische Analysen zu nutzen, werden in Kapitel 1 kurz dargelegt.

In Kapitel 2 stehen die Grundprinzipien der R-Programmierung (Abschnitt 2.1) sowie die zur Verfügung stehenden Objekttypen im Fokus (Abschnitt 2.2). Hieran schließt sich das Management von Analysepaketen an (Abschnitt 2.3), bevor die für die in diesem Buch gezeigten Analyseverfahren notwendigen Analyseformate und die gegenseitige Überführung (Abschnitt 2.4) gezeigt werden. Den Abschluss des zweiten Kapitels bilden die zunächst noch etwas abstrakt anmutenden Pipe-Operatoren (Abschnitt 2.5). Diesen Abschnitt können Sie zunächst getrost überspringen und erst nach Verweis durch einen konkreten Anwendungsfall durcharbeiten.

Den Abschluss des ersten Teils dieses Buches bildet die Einführung in RStudio in Kapitel 3. Speziell wird das Layout erklärt (Abschnitt 3.1) und empfohlene Einstellungen gezeigt (Abschnitt 3.2).

Warum gerade R für statistische Analysen?

Die Frage nach dem »Warum« ist auch in der Datenanalyse allgegenwärtig. Damit dieses Buch nicht zu philosophisch wird und seinem Versprechen eines anwendungsorientierten Nachschlagewerkes gerecht wird, werde ich hier nicht zu ausschweifend sein. So viel sei aber gesagt: Jede Person hat andere Präferenzen, warum gerade dieses eine Analyseprogramm das für sie beste ist. Zu den Kriterien zählen Einsteigerfreundlichkeit, Bedienbarkeit, Leistungsumfang, Updates, Preis – um nur ein paar zu nennen.

In den meisten o.g. Kategorien schneidet R sehr gut ab. Eigentlich in allen, außer der Einsteigerfreundlichkeit – aber dieses Buch ist ja dafür da, genau diesen Malus zu beheben. Eine gewisse Grundkenntnis statistischer Begriffe ist ohnehin bei allen Analyseprogrammen von Vorteil.

Zur Bedienung von R wird eine sog. Syntax verwendet. Sie beschreibt vereinfacht ausgedrückt das korrekte Kombinieren von Befehlen mit Objekten. Objekte können Variablen, Dataframes usw. sein. Diese Arbeitsweise zeichnet alle statistischen Analyseprogramme aus. Allerdings wurden im Laufe der Jahre aus Gründen der einfacheren Bedienbarkeit von manchen Herstellern (z.B. SPSS, inzwischen IBM) grafische Benutzeroberflächen mit Dialogfeldern aufgesetzt. Diese nehmen dem Nutzer das Eingeben der Syntax ab. Dies hat den Vorteil, dass man die Befehle nicht auswendig kennen muss und es nicht zu Tippfehlern kommen kann – allerdings zum Teil auf Kosten der Nachvollziehbarkeit und Reproduzierbarkeit der Analyseschritte.

Im Hinblick auf den Leistungsumfang ist R das »mächtigste« Analyseprogramm. Es werden standardmäßig sog. Base packages mitgeliefert, die aber nur einen Bruchteil der 19.000 existierenden Pakete darstellen. Diese Pakete beinhalten die von Nutzern verwendeten Analysefunktionen. Diese enorme Anzahl von Paketen wird größtenteils von Wissenschaftlern mit statistischem Hintergrundwissen freiwillig erstellt und beständig mit Updates versorgt. Für jedes dieser R-Pakete existiert eine umfangreiche auf CRAN (Comprehensive R Archive Network) zugängliche Dokumentation.

Abschließend kann noch kurz der Preis erwähnt werden. R und sämtliche Pakete sind vollständig kostenlos herunterladbar. Es gibt auch kostenlose Zusatzprogramme, allen voran RStudio Desktop in der Open Source Edition. RStudio vereinfacht das Arbeiten erheblich, indem es die Übersichtlichkeit stark erhöht. Daher steht bereits an dieser Stelle meine klare Empfehlung, dieses Programm zu nutzen. Zu RStudio, dessen Installationen sowie Nutzung komme ich in Kapitel 3.

RStudio als hilfreiche Oberfläche

Eine große Erleichterung im Arbeiten mit R war für mich von Beginn an RStudio. Es hebt die verschiedenen Syntaxelemente farblich hervor und erlaubt mit einer Autokomplettierungsfunktion von Befehlen ein zügigeres Arbeiten. Es gibt neben RStudio noch weitere grafische Benutzeroberflächen für R (z.B. RCommander, Rattle). Meine persönliche Empfehlung ist RStudio, das kostenlos heruntergeladen und installiert werden kann:https://www.rstudio.com/products/rstudio/download/#download.

RStudio ist NICHT zwingend für die Arbeit mit R und diesem Buch notwendig, hilft aber ungemein, den Überblick zu behalten.

Eine kurze Einführung in den Umgang mit RStudio gibt es auch in Form eines Videos auf meinem YouTube-Kanal:https://youtu.be/tyvEHQszZJs

3.1 Layout von RStudio

Nach der Installation von RStudio erhält man eine viergeteilte Übersicht (vgl. Abbildung 3.1), in der stets gearbeitet wird. Jeder Teil erfüllt eine oder sogar mehrere spezifische Aufgaben.

Oben links spielt sich der Hauptteil der Programmierung ab. Sämtlicher Code kann hier geschrieben und ausgeführt werden. Dieser Code kann in sog. R-Scripts gespeichert und wieder geladen werden, was die Dokumentation sehr transparent macht und die Nachvollziehbarkeit sowie Wiederausführbarkeit stark erleichtert.

Abb. 3.1: Startbildschirm von RStudio

Unten links ist die sog. Console, in der Ergebnisse sowie Hinweise, Fehlermeldungen usw. von R ausgegeben werden. Die Eingabe und die Ausführung von Code ist hier ebenfalls möglich. Im Sinne der Dokumentation und einfachen Wiederausführbarkeit sollte allerdings mit einem R-Script gearbeitet werden.

Oben rechts findet sich das Environment, wo aktuell geladene Objekte wie z.B. Data Frames usw. zu finden sind. Im Reiter History kann nachvollzogen werden, welche Befehle ausgeführt wurden. Im Reiter Connections geht es v.a. um die Verbindung zu Datenbanken wie SQL, was für den normalen Anwender nicht relevant ist. Der Reiter Tutorial hält, was er verspricht, und bietet Tutorials zu bestimmten R-Paketen.

Unten rechts ist im Reiter Files das Arbeitsverzeichnis (Working Directory)zu finden. Hier finden sich in der Regel einzulesende Dateien und werden R-Scripts sowie Daten- und Bildexporte gespeichert. Import und Export müssen aber nicht zwingend vom bzw. ins Working Directory vorgenommen werden. Unter Plots werden Grafiken ausgegeben, die dann betrachtet und wahlweise als Bild oder PDF-Datei exportiert werden können. Packages zeigt eine Übersicht installierter Zusatzpakete. Ist ein Paket angehakt, ist es gleichzeitig geladen und es kann mit seinen Funktionen gearbeitet werden. Help stellt die Dokumentation zu Paketen und ihren Funktionen dar und erläutert die Verwendung von Zusatzargumenten und deren Syntax. Im Reiter Viewer können lokale Webinhalte angezeigt werden, was für normale Anwender nicht relevant ist, im Rahmen dieses Buches in Kapitel 2 aber Verwendung findet, wenn man Pakete sucht.

3.2 Empfohlene Einstellungen

Dieser Abschnitt ist recht kurz, da viele Grundeinstellungen von RStudio bereits ein sehr zügiges und effizientes Arbeiten ermöglichen.

3.2.1 Dark Mode

Ein für mich persönlich sehr angenehmes Feature ist die Möglichkeit, das Aussehen von RStudio an meine Vorlieben anzupassen. Allen voran kann RStudio im sog. Dark Mode betrieben werden. Zusätzlich kann die Lesbarkeit der Syntax mit farbigen Hervorhebungen verbessert werden.

Abb. 3.2: Ändern des Themes

Über Tools|Global Options kann im Unterpunkt Appearancedas Design angepasst werden.

Unter Editor Theme existieren bereits einige vorformatierte dunkle Designs, z.B. Merbivore (vgl. Abbildung 3.2).

Hinweis

Es besteht darüber hinaus auch die Möglichkeit, weitere Designs einzubinden sowie ein eigenes Theme designen:

https://tmtheme-editor.herokuapp.com/#!/editor/theme/Monokai.

3.2.2 Tastatur-Shortcuts

Zur Ausführung von geschriebenem Code im Script-Editor kann der Run-Button verwendet werden. Allerdings ist es effizienter, wenn man Code per Shortcut über die Tastatur ausführt, statt ihn mit einem Griff zur Maus per Klick auszuführen. Standardmäßig ist in RStudio für das Ausführen von Code die Tastenkombination Strg + Enter definiert. Dies führt die aktuelle Codezeile, oder wahlweise den selektierten Code, aus und setzt den Cursor in die nachfolgende Zeile.

Hinweis

Über Tools|Keyboard Shortcuts Help kann man sämtliche Shortcuts einsehen, die über die Tastatur ausgeführt werden können. Hierfür gibt es aber auch den Shortcut Alt + Umschalt + K. ;-)

Über Tools|Modify Keyboard Shortcuts können die Shortcuts angepasst werden. Ich empfehle aus Bequemlichkeit, wie in alten RStudio-Versionen das Ausführen von Code der aktuellen Zeile oder des selektierten Codes (Run Current Line or Selection) auf Strg + R zu legen.

3.2.3 In Projekten arbeiten

Man neigt dazu, direkt mit dem Programmieren zu beginnen. Dabei lohnt sich das Erstellen eines R-Projekts, um voneinander abgegrenzte statistische Analyseprojekte auch hinsichtlich Arbeitsverzeichnissen, Workspace, Datenquellen, Skripten usw. separat zu halten.

Hinweis

Über File|New Project kann ein neues Projekt angelegt werden. Der Assistent zur Erstellung begleitet hierbei sehr gut, weshalb an dieser Stelle auf weitere Ausführungen verzichtet werden kann.

Ein weiterer Vorteil ist die Möglichkeit, im jeweiligen Projektordner bzw. Arbeitsverzeichnis eine .Rprofile-Datei anzulegen. Hierin können bereits typische Befehle angegeben werden, die beim Laden des Projekts ausgeführt werden. Nützlich sind hier vor allem das Laden von Paketen oder das Einlesen von Daten, was im nachfolgenden Kapitel behandelt wird.

Teil IIDatenmanagement und deskriptive Statistiken

Im zweiten Teil dieses Buches steht in Kapitel 4 das Datenmanagement im Vordergrund. Dazu gehört das Einlesen von Datensätzen aus verschiedenen anderen Dateiformaten wie CSV, TXT, XLS, XLSX, SAV und DTA (Abschnitt 4.1).

Anschließend wird das Zusammenfügen von Datensätzen gezeigt, speziell das Hinzufügen zusätzlicher Variablen oder Fälle. Dies tritt typischerweise immer dann auf, wenn zwischen Erhebungen Zeit vergangen ist, aber ein Gesamtdatensatz erstellt und später analysiert werden soll (Abschnitt 4.2).

Der umgekehrte Weg, die Überführung nur bestimmter Variablen oder Fälle in einen Teildatensatz, wird ebenfalls gezeigt (Abschnitt 4.3).

Ein weiterer wichtiger Aspekt ist der Export von Datensätzen aus R in die eben genannten Dateiformate (Abschnitt 4.4).

Um Änderungen an Datensätzen nicht immer wieder neu durchführen zu müssen, wird das lokale Speichern und Laden von Datensätzen kurz dargestellt (Abschnitt 4.5).

Hieran schließt sich der Ausschluss von Fällen mit fehlenden Werten an (Abschnitt 4.6), bevor der Zweck einer Faktorisierung (Abschnitt 4.7), die korrekte Datumsformatierung (Abschnitt 4.8) sowie das Prinzip einer Dummycodierung (Abschnitt 4.9) von Variablen erklärt und durchgeführt wird. Den Abschluss bilden Erklärungen zur Bildung von Skalen (Abschnitt 4.10).

In Kapitel 5 geht es um deskriptive Statistiken von Stichproben, wo die Berechnung und Interpretation von absoluten, relativen und kumulierten relativen Häufigkeiten (Abschnitt 5.1), Lageparametern (Abschnitt 5.2), Streuparametern (Abschnitt 5.3) und Schiefe und Wölbung (Abschnitt 5.4) gezeigt werden.

R bietet bequemerweise auch Übersichtsfunktion für die vorgenannten Parameter, deren Umgang kurz dargestellt wird (Abschnitt 5.5). Dies kann auch nur für Teilgruppen des Datensatzes durchgeführt werden (Abschnitt 5.6).

Schließlich werden überblicksartig Zusammenhänge mit Kreuztabellen und erste Korrelationsklassifizierungen dargestellt (Abschnitt 5.7).