R Alles-in-einem-Band für Dummies - Joseph Schmuller - E-Book

R Alles-in-einem-Band für Dummies E-Book

Joseph Schmuller

0,0
29,99 €

-100%
Sammeln Sie Punkte in unserem Gutscheinprogramm und kaufen Sie E-Books und Hörbücher mit bis zu 100% Rabatt.
Mehr erfahren.
Beschreibung

Wenn Sie R von Grund auf kennenlernen und auch die fortgeschrittenen Techniken zur Lösung gängiger Aufgaben bei der Datenanalyse mit R beherrschen möchten, dann liegen Sie mit diesem Buch goldrichtig. Es bietet Ihnen nicht nur einen Überblick über die Programmierung in R und die Arbeit mit der Sprache, sondern geht auch auf die Arten von Projekten und Anwendungen ein, die R-Entwicklerinnen und -Entwickler häufig in Angriff nehmen müssen. Statistische Analysen, Datenvisualisierungen, maschinelles Lernen und Datenmanagement mit R: All das lernen Sie mit diesem Buch intensiv kennen.

Sie lesen das E-Book in den Legimi-Apps auf:

Android
iOS
von Legimi
zertifizierten E-Readern

Seitenzahl: 764

Veröffentlichungsjahr: 2023

Bewertungen
0,0
0
0
0
0
0
Mehr Informationen
Mehr Informationen
Legimi prüft nicht, ob Rezensionen von Nutzern stammen, die den betreffenden Titel tatsächlich gekauft oder gelesen/gehört haben. Wir entfernen aber gefälschte Rezensionen.



RAlles-in-einem-Band für Dummies

Schummelseite

R bietet eine umfangreiche Palette von Funktionen, die Sie bei Ihrer Arbeit unterstützen – von einfachen Statistiken bis hin zu komplexen Analysen.

Auf dieser Schummelseite können Sie die wichtigsten Funktionen für Statistik, interaktive Anwendungen, maschinelles Lernen, Datenbanken und Bilder der Basisinstallation von R nachschlagen.

Statistische Funktionen im grundlegenden R

Hier finden Sie eine Auswahl an statistischen Funktionen, die in der Basisinstallation von R enthalten sind. Viele weitere nützliche Funktionen finden Sie in verschiedenen R-Packages.

LAGEMAßE UND VARIANZ

Funktion

Was sie berechnet

mean(x)

Mittelwert der Zahlen im Vektor x

median(x)

Median der Zahlen im Vektor x

var(x)

Geschätzte Varianz der Grundgesamtheit, der die Zahlen für den Vektor x entnommen werden

sd(x)

Geschätzte Standardabweichung der Grundgesamtheit, der die Zahlen für den Vektor x entnommen werden

scale(x)

Standardwerte (z-Werte) für die Zahlen im Vektor x

RELATIVE LAGE

Funktion

Was sie berechnet

sort(x)

Die Zahlen im Vektor x in aufsteigender Reihenfolge

sort(x)[n]

Die n. kleinste Zahl im Vektor x

rank(x)

Ränge der Zahlen (in aufsteigender Reihenfolge) im Vektor x

rank(-x)

Ränge der Zahlen (in absteigender Reihenfolge) im Vektor x

rank(x, ties.method= "average")

Ränge der Zahlen (in aufsteigender Reihenfolge) im Vektor x, wobei gleichrangige Zahlen den Durchschnitt der Ränge erhalten, die die Gleichrangigen erreicht hätten

rank(x, ties.method= "min")

Ränge der Zahlen (in aufsteigender Reihenfolge) im Vektor x, wobei gleichrangige Zahlen das Minimum der Ränge erhalten, die die Gleichrangigen erreicht hätten

rank(x, ties.method = "max")

Ränge der Zahlen (in aufsteigender Reihenfolge) im Vektor x, wobei gleichrangige Zahlen das Maximum der Ränge erhalten, die die Gleichrangigen erreicht hätten

quantile(x)

Das 0., 25., 50., 75. und 100. Perzentil (mit anderen Worten: die Quartile) der Zahlen im Vektor x. (Das ist kein Druckfehler: quantile(x) gibt die Quartile von x zurück.)

t-TESTS

Funktion

Was sie berechnet

t.test(x,mu=n, alternative = "two.sided")

Zweiseitiger t-Test, dass der Mittelwert der Zahlen im Vektor x von n verschieden ist.

t.test(x,mu=n, alternative = "greater")

Einseitiger t-Test, dass der Mittelwert der Zahlen im Vektor x größer als n ist.

t.test(x,mu=n, alternative = "less")

Einseitiger t-Test, dass der Mittelwert der Zahlen im Vektor x kleiner als n ist.

t.test(x,y,mu=0, var.equal = TRUE, alternative = "two.sided")

Zweiseitiger t-Test, dass sich der Mittelwert der Zahlen im Vektor x vom Mittelwert der Zahlen im Vektor y unterscheidet. Die Varianzen in den beiden Vektoren werden als gleich angenommen.

t.test(x,y,mu=0, alternative = "two.sided", paired = TRUE)

Zweiseitiger t-Test, dass sich der Mittelwert der Zahlen in Vektor x vom Mittelwert der Zahlen in Vektor y unterscheidet. Die Vektoren stellen paarweise Stichproben dar.

ANALYSE DER VARIANZ (ANOVA)

Funktion

Was sie berechnet

aov(y∼x, data = d)

Einfaktorielle ANOVA, wobei die Zahlen im Vektor y die abhängige Variable und die Elemente des Vektors x die Stufen der unabhängigen Variable darstellen. Die Daten befinden sich im Datenrahmen d.

aov(y∼x + Error(w/x), data = d)

ANOVA mit wiederholten Messungen, wobei die Zahlen im Vektor y die abhängige Variable und die Elemente im Vektor x die Stufen einer unabhängigen Variablen darstellen. Error(w/x) gibt an, dass jedes Element im Vektor w alle Stufen von x durchläuft. (Mit anderen Worten: x ist eine wiederholte Messung.) Die Daten befinden sich im Datenrahmen d.

aov(y∼x*z, data = d)

Zweifaktorielle ANOVA, wobei die Zahlen im Vektor y die abhängige Variable und die Elemente der Vektoren x und z die Stufen der beiden unabhängigen Variablen darstellen. Die Daten befinden sich im Datenrahmen d.

aov(y∼x*z + Error(w/z), data = d)

Gemischte ANOVA, mit den Zahlen im Vektor z als abhängige Variable und den Elementen der Vektoren x und y als die Stufen der beiden unabhängigen Variablen. Error(w/z) gibt an, dass jedes Element im Vektor w alle Niveaus von z durchläuft. (Mit anderen Worten: z ist eine wiederholte Messung.) Die Daten befinden sich im Datenrahmen d.

KORRELATION UND REGRESSION

Funktion

Was sie berechnet

cor(x,y)

Korrelationskoeffizient zwischen den Zahlen im Vektor x und den Zahlen im Vektor y

cor.test(x,y)

Korrelationskoeffizient zwischen den Zahlen in Vektor x und den Zahlen in Vektor y, zusammen mit einem t-Test auf die Signifikanz des Korrelationskoeffizienten.

lm(y∼x, data = d)

Lineare Regressionsanalyse mit den Zahlen im Vektor y als abhängige Variable und den Zahlen im Vektor x als unabhängige Variable. Die Daten befinden sich im Datenrahmen d.

Coefficients(a)

Steigung und Schnittpunkt des linearen Regressionsmodells a.

confint(a)

Konfidenzintervalle der Steigung und des Schnittpunkts des linearen Regressionsmodells a.

lm(y∼x+z, data = d)

Multiple Regressionsanalyse mit den Zahlen im Vektor y als abhängige Variable und den Zahlen in den Vektoren x und z als unabhängige Variablen. Die Daten befinden sich im Datenrahmen d.

Wenn Sie eine ANOVA oder eine Regressionsanalyse durchführen, speichern Sie die Analyse in einer Liste – zum Beispiel: a <- lm(y∼x, data = d). Um die Ergebnisse in einer Tabelle anzuzeigen, verwenden Sie die Funktion summary(): summary(a)

Interaktion mit einem Benutzer

R bietet die Packages shiny und shinydashboard für die Entwicklung interaktiver Anwendungen. Hier finden Sie ausgewählte Funktionen aus diesen Packages.

FUNKTIONEN AUS DEM shiny-PACKAGE

Funktion

Was sie bewirkt

shinyApp()

Verbindet eine Benutzeroberfläche und einen Server zu einer shiny-Anwendung

fluidPage()

Erzeugt eine Browserseite, die sich mit der Breite des Browsers ändert

sliderInput()

Definiert einen Schieberegler und seine Eingabe für eine shiny-Benutzeroberfläche

plotOutput()

Reserviert einen Bereich der shiny-Benutzeroberfläche für einen Plot

renderPlot()

Zeichnet den Plot auf einer shiny-Benutzeroberfläche

textOutput()

Reserviert einen Bereich der shiny-Benutzeroberfläche für Text

renderText()

Fügt Text zu einer shiny-Benutzeroberfläche hinzu

selectInput()

Erzeugt ein Dropdown-Menü auf einer shiny-Benutzeroberfläche

FUNKTIONEN AUS DEM PACKAGE shinydashboard

Funktion

Was sie für eine shinydashboard-Seite erstellt

dashboardPage()

Die Seite

dashboardHeader()

Kopfzeile der Seite

dashboardSidebar()

Seitenleiste der Seite

sidebarMenu()

Ein Menü für eine Seitenleiste

menuItem()

Einen Eintrag für ein Menü

dashboardBody()

Hauptteil der Seite

fluidRow()

Eine Zeile mit variabler Breite innerhalb des dashboard-Hauptteils

box()

Ein Feld innerhalb einer Reihe

valueBoxOutput()

Einen reservierten Platz für eine value box

renderValueBox

Reaktiven Kontext für eine value box

valueBox

Eine value box

column()

Eine Spalte innerhalb einer fluidRow

tabBox()

Eine Registerkarte für eine Seite mit Registerkarten

Maschinelles Lernen

R bietet eine Reihe von Packages und Funktionen für maschinelles Lernen. Hier eine Auswahl.

PACKAGES UND FUNKTIONEN FÜR MASCHINELLES LERNEN

Package

Funktion

Was sie bewirkt

rattle

rattle()

Öffnet die grafische Benutzeroberfläche von Rattle

rpart

rpart()

Erzeugt einen Entscheidungsbaum

rpart.plot

prp()

Zeichnet einen Entscheidungsbaum

randomForest

randomForest()

Erstellt einen Zufallswald aus Entscheidungsbäumen

rattle

printRandomForests()

Gibt die Regeln der einzelnen Entscheidungsbäume eines Waldes aus

e1071

svm()

Trainiert eine Support-Vektor-Maschine

e1071

predict()

Erstellt einen Vektor der vorhergesagten Klassifizierungen auf der Grundlage einer Support-Vektor-Maschine

kernlab

ksvm()

Trainiert eine Support-Vektor-Maschine

base R

kmeans()

Erstellt eine k-Means-Clustering-Analyse

nnet

nnet()

Erzeugt ein neuronales Netz mit einer verborgenen Schicht

NeuralNetTools

plotnet()

Zeichnet ein neuronales Netz

nnet

predict()

Erstellt einen Vektor von Vorhersagen auf der Grundlage eines neuronalen Netzes

Datenbanken

R wurde für statistische Analysen entwickelt und verfügt über eine breite Palette von Packages und Funktionen für den Umgang mit großen Datenmengen. Diese Auswahl ist nur die Spitze des Eisbergs.

PACKAGES UND FUNKTIONEN ZUR UNTERSUCHUNG VON DATENBANKEN

Package

Funktion

Was sie bewirkt

didrooRFM

findRFM()

Führt eine Häufigkeits-, Frequenz- und Geldanalyse für eine Datenbank von Einzelhandelstransaktionen durch

vcd

assocstats()

Berechnet Statistiken für Tabellen mit kategorischen Daten

vcd

assoc()

Erstellt eine Grafik, die Abweichungen von der Unabhängigkeit in einer Tabelle mit kategorialen Daten zeigt

tidyverse

glimpse()

Bietet eine Teilansicht eines Datenrahmens mit den Spalten, die auf dem Bildschirm als Zeilen erscheinen

plotrix

std.error()

Berechnet den Standardfehler des Mittelwerts

plyr

inner_join()

Verbindet Datenrahmen

lubridate

wday()

Gibt den Wochentag eines Kalenderdatums zurück

lubridate

ymd()

Gibt ein Datum im R-Datumsformat zurück

Bilder

Hier finden Sie einige Funktionen, die Ihnen den Einstieg in die Bildverarbeitung mit R erleichtern. Sie befinden sich alle im Package magick.

FUNKTIONEN AUS DEM magick-PACKAGE

Funktion

Was sie bewirkt

image_read()

Liest ein Bild in R ein und verwandelt es in ein magick-Objekt

image_resize()

Ändert die Größe eines Bildes

image_rotate()

Dreht ein Bild

image_flip()

Dreht ein Bild um eine horizontale Achse

image_flop()

Dreht ein Bild um eine vertikale Achse

image_annotate()

Fügt Text zu einem Bild hinzu

image_background()

Legt den Hintergrund für ein Bild fest

image_composite()

Kombiniert Bilder

image_morph()

Lässt ein Bild allmählich in ein anderes übergehen (morphen)

image_animate()

Fügt eine Animation in das RStudio-Viewer-Fenster ein

image_apply()

Wendet eine Funktion auf jedes Bild eines animierten GIFs an

image_write()

Speichert eine Animation als wiederverwendbares GIF

 

RAlles-in-einem-Band für Dummies

Bibliografische Information der Deutschen Nationalbibliothek

Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar.

1. Auflage 2023

© 2023 Wiley-VCH GmbH, Boschstraße 12, 69469 Weinheim, Germany.

Original English language edition R All-in-One For Dummies © 2023 by Wiley Publishing, Inc.All rights reserved including the right of reproduction in whole or in part in any form. This translation published by arrangement with John Wiley and Sons, Inc.

Copyright der englischsprachigen Originalausgabe R All-in-One For Dummies © 2023 byWiley Publishing, Inc. Alle Rechte vorbehalten inklusive des Rechtes auf Reproduktion im Ganzen oder in Teilen und in jeglicher Form. Diese Übersetzung wird mit Genehmigung von John Wiley and Sons, Inc. publiziert.

Wiley, the Wiley logo, Für Dummies, the Dummies Man logo, and related trademarks and trade dress are trademarks or registered trademarks of John Wiley & Sons, Inc. and/or its affiliates, in the United States and other countries. Used by permission.

Wiley, die Bezeichnung »Für Dummies«, das Dummies-Mann-Logo und darauf bezogene Gestaltungen sind Marken oder eingetragene Marken von John Wiley & Sons, Inc., USA, Deutschland und in anderen Ländern.

Das vorliegende Werk wurde sorgfältig erarbeitet. Dennoch übernehmen Autoren und Verlag für die Richtigkeit von Angaben, Hinweisen und Ratschlägen sowie eventuelle Druckfehler keine Haftung.

Coverfoto: © Oleksii – stock.adobe.comKorrektur: Shangning Postel-Heutz

Print ISBN: 978-3-527-72129-0ePub ISBN: 978-3-527-84451-7

Über den Autor

Joseph Schmuller ist seit über 25 Jahren in der IT tätig. Er ist Autor mehrerer Informatik-Bücher, darunter »Statistik mit R für Dummies«, »R in Projekten verwenden für Dummies« und alle fünf Ausgaben von »Statistik mit Excel für Dummies« (alle bei Wiley-VCH erschienen) sowie die drei Ausgaben von »Teach Yourself UML in 24 Hours« (SAMS). Für LinkedIn Learning hat Joseph Online-Kurse zu Statistik und Excel entwickelt und moderiert. Über 100.000 Menschen auf der ganzen Welt haben an diesen Kursen teilgenommen.

Joseph war sieben Jahre lang Chefredakteur des Magazins PC AI und hat zahlreiche Artikel über Spitzentechnologien verfasst.

Als ehemaliges Mitglied der American Statistical Association unterrichtete er Statistik an Schulen und Universitäten. Er hat einen BS vom Brooklyn College, einen MA von der University of Missouri-Kansas City und einen PhD von der University of Wisconsin, alle im Fachbereich Psychologie.

Er lebt mit seiner Familie in Jacksonville, Florida, wo er im Digital Cloud & Enterprise Architecture Team bei Availity arbeitet.

Widmung

In liebevollem Gedenken an Jason Edward Sprague, der ein so wunderbarer Neffe war, wie ihn sich ein Onkel nur wünschen konnte.

Danksagung des Autors

Ich habe schon eine ganze Reihe von Für Dummies-Titeln geschrieben, aber dies ist mein erstes Alles-in-einem-Band. Ein Buch zu schreiben, das einfach alles enthält, scheint im ersten Moment eine kaum zu bewältigende Aufgabe zu sein, aber ich habe die Reise sehr genossen.

Besonders erfreulich war, dass ich wieder mit dem Wiley-Team zusammenarbeiten konnte. Kein Autor kann ein Buch ohne ein großartiges Team schreiben, und bei Wiley gibt es diese Teams. Der leitende Redakteur Steve Hayes hatte die Idee zu diesem Buch. Er brachte die Gang wieder zusammen und erweckte das Projekt zum Leben.

Nach unserer Arbeit an früheren Titeln sind meine Teamkollegen mittlerweile alle meine Freunde. Wie immer überwachte der Projektredakteur Paul Levesque meinen Text, verbesserte ihn, wo dies nötig war, und hielt alle beweglichen Teile in Bewegung. Ich habe es schon einmal gesagt, und ich sage es noch einmal: Alle Komponenten zu koordinieren ist viel schwieriger, als es klingt, und nicht annähernd so einfach, wie mein Freund Paul es aussehen lässt. Die Lektorin Becky Whitney hat meine Prosa geschärft und dafür gesorgt, dass Sie das Buch, das Sie in der Hand halten, leichter lesen können (und auch, dass Sie das Buch, das Sie lesen, leichter halten können). Der technische Redakteur Guy Hart-Davis hat dafür gesorgt, dass der Code und die technischen Aspekte korrekt sind. Ich bin der Eigentümer und alleinige Inhaber aller verbleibenden Fehler.

Apropos unentbehrliche Personen: Vielen Dank an meinen langjährigen Agenten und Freund David Fugate von Launchbooks.com, der mich bei diesem Vorhaben vertreten hat.

Meine Mentoren im Bereich Statistik am College und in der Universität haben mein Wissen und mein Denken geprägt und damit auch dieses Buch beeinflusst: Mitch Grossberg (Brooklyn College); Al Hillix, Jerry Sheridan, der verstorbene Mort Goldman und der verstorbene Larry Simkins (University of Missouri-Kansas City); ebenso wie Cliff Gillman und der verstorbene John Theios (University of Wisconsin-Madison). Ich hoffe, meine Bücher zeugen davon, was mir meine Mentoren vermittelt haben.

Wie immer gilt mein Dank Kathy für ihre Inspiration, ihre Geduld, ihre Unterstützung und ihre Liebe.

Inhaltsverzeichnis

Cover

Titelblatt

Impressum

Über den Autor

Widmung

Danksagung des Autors

Einführung

Über dieses Buch

Was Sie getrost überspringen können

Törichte Annahmen über den Leser

In diesem Buch verwendete Symbole

Wie es jetzt weitergeht

Teil I: Eine Einführung in R

Kapitel 1: R – Was es macht und wie es dies macht

Statistische (und verwandte) Konzepte, die man einfach kennen muss

R beschaffen

RStudio beschaffen

Eine Sitzung mit R

Funktionen in R

Benutzerdefinierte Funktionen

Kommentare

Strukturen in R

for

-Schleifen und

if

-Anweisungen

Kapitel 2: Mit Packages arbeiten, Importieren und Exportieren

Packages installieren

Daten prüfen

Formeln in R

Weitere Packages

Das Tidyversum

Importieren und Exportieren

Teil II: Daten beschreiben

Kapitel 3: Grafik

Muster finden

Grundlagen beherrschen: Basisgrafiken in R

Einen Zahn zulegen – mit

ggplot2

Dranbleiben!

Kapitel 4: Finden Sie Ihre Mitte!

Mittelwerte: Die Verlockung des Durchschnitts

Der Durchschnitt in R:

mean()

Mediane: In der Mitte gefangen

Der Median in R:

median()

Statistik à la Mode

Der Modus in R

Kapitel 5: Weg vom Durchschnitt

Messung der Varianz

Zurück zu den Ursprüngen: Standardabweichung

Standardabweichung in R

Kapitel 6: Standards und Ränge

Ich kaufe ein Z!

Standardwerte in R

Wo stehen Sie?

Zusammenfassung

Kapitel 7: Eine Zusammenfassung des Ganzen

Wie viele?

Das Hoch und das Tief

In den Momenten leben

Bestimmung der Häufigkeit

Zusammenfassung eines Datenrahmens

Kapitel 8: Was ist normal?

Gut auf der Kurve liegen

Mit Normalverteilungen arbeiten

Treffen mit einem angesehenen Mitglied der Familie

Ausgabe der Standardnormalverteilung

Teil III: Daten analysieren

Kapitel 9: Ein Spiel mit dem Vertrauen: Schätzung

Stichprobenverteilungen verstehen

Ein AUSSERORDENTLICH wichtiges Konzept: Der zentrale Grenzwertsatz

Vertrauen: Alles hat seine Grenzen!

Annähern an ein

t

Kapitel 10: Hypothesentests mit einer Stichprobe

Hypothesen, Tests und Fehler

Hypothesentests und Stichprobenverteilungen

Wir kaufen noch ein Z

Z-Tests in R

t

for One

t

-Test in R

Die Arbeit mit t-Verteilungen

Visualisierung von

t

-Verteilungen

Eine Varianz testen

Mit Chi-Quadrat-Verteilungen arbeiten

Visualisierung von Chi-Quadrat-Verteilungen

Kapitel 11: Hypothesentests mit zwei Stichproben

Hypothesen für zwei

Stichprobenverteilungen unter der Lupe

t

for Two

Wie die Erbsen in der Schote: gleiche Varianzen

t-Tests in R

Perfekt kombiniert: Hypothesentests für paarweise Stichproben

t

-Test für paarweise Stichproben in R

Zwei Varianzen testen

Mit

F

-Verteilungen arbeiten

Visualisierung von F-Verteilungen

Kapitel 12: Tests von mehr als zwei Stichproben

Mehr als zwei testen

ANOVA in R

Eine andere Art von Hypothese, eine andere Art von Test

Dem Trend folgen

Trendanalyse in R

Kapitel 13: Kompliziertere Tests

Die Kombinationen knacken

Zwei-Faktoren-ANOVA in R

Zwei Arten von Variablen … auf einmal

Nach der Analyse

Multivariate Varianzanalyse

Kapitel 14: Regression: Lineare und multiple und das allgemeine lineare Modell

Das Streudiagramm

Linien grafisch darstellen

Regression: Was für eine Linie!

Hypothesen über die Regression testen

Lineare Regression in R

Prognosen treffen

Visualisierung des Streudiagramms und der Regressionslinie

Mit vielen Beziehungen gleichzeitig jonglieren: Mehrfache Regression

ANOVA: Eine andere Perspektive

Analyse der Kovarianz: Die letzte Komponente des allgemeinen linearen Modells

Doch halt – das war noch nicht alles!

Kapitel 15: Korrelation: Aufstieg und Fall von Beziehungen

Korrelation verstehen

Korrelation und Regression

Korrelation in R

Multiple Korrelation

Multiple Korrelation in R

Partielle Korrelation

Partielle Korrelation in R

Semipartielle Korrelation

Semipartielle Korrelation in R

Kapitel 16: Kurvilineare Regression: Wenn Beziehungen kompliziert werden

Was ist ein Logarithmus?

Was ist e?

Potenzregression

Exponentielle Regression

Logarithmische Regression

Polynomielle Regression: Eine höhere Potenz

Welches Modell sollten Sie verwenden?

Kapitel 17: Zu gegebener Zeit

Eine Zeitreihe und ihre Komponenten

Prognose: Eine bewegliche Erfahrung

Prognose: Ein anderer Weg

Mit realen Daten arbeiten

Kapitel 18: Nichtparametrische Statistik

Unabhängige Stichproben

Paarweise Stichproben

Zwei paarweise Stichproben: Wilcoxon-Vorzeichenrang-Test

Mehr als zwei Stichproben: Friedman-ANOVA

Mehr als zwei Stichproben: Cochrans Q

Korrelation: Spearmans r

S

Korrelation: Kendalls Tau

Eine Vorwarnung

Kapitel 19: Einführung in die Wahrscheinlichkeitsrechnung

Was ist Wahrscheinlichkeit?

Ergebnismengen und Wahrscheinlichkeiten

Zusammengesetzte Ereignisse

Bedingte Wahrscheinlichkeit

Große Ergebnismengen

R-Funktionen für Zählregeln

Diskrete und stetige Zufallsvariablen

Wahrscheinlichkeitsverteilungen und Dichtefunktionen

Die Binomialverteilung

Binom und negatives Binom in R

Hypothesentests mit der Binomialverteilung

Mehr über Hypothesentests: R vs. Tradition

Kapitel 20: Wahrscheinlichkeit trifft auf Regression: Logistische Regression

Beschaffung der Daten

Durchführung der Analyse

Ergebnisse visualisieren

Teil IV: Aus Daten lernen

Kapitel 21: Tools und Daten für Projekte zum maschinellen Lernen

Das ML-Repository der UCI (University of California-Irvine)

Das

Rattle

-Package – eine Einführung

Verwendung von

Rattle

für

iris

Cluster in Daten finden

Kapitel 22: Entscheidungen, Entscheidungen!

Komponenten des Entscheidungsbaums

Entscheidungsbäume in R

Entscheidungsbäume in

Rattle

Projekt: Ein komplexerer Entscheidungsbaum

Vorgeschlagenes Projekt: Titanic

Kapitel 23: In den Wald – per Zufall

Das Wachsen eines Zufallswaldes

Zufallswälder in R

Projekt: Glas identifizieren

Vorgeschlagenes Projekt: Pilze identifizieren

Kapitel 24: Unterstützen Sie Ihren lokalen Vektor

Einige Daten, mit denen Sie arbeiten können

Trennbarkeit: Normalerweise nichtlinear

Stützvektor-Maschinen in R

Mit

kernlab

arbeiten

Projekt: Und wer sind Sie?

Erkundung der Daten

Kapitel 25: k-Means-Clustering

Wie das Ganze funktioniert

k-Means-Clustering in R

Projekt: Glas-Cluster

Kapitel 26: Neuronale Netze

Netzwerke im Nervensystem

Künstliche neuronale Netze

Neuronale Netze in R

Projekt: Banknoten

Projektvorschläge: Mit

Rattle

experimentieren

Kapitel 27: Datenerforschung im Marketing

Analyse von Einzelhandelsdaten

Maschinelles Lernen

Projekt: Ein weiterer Datensatz

Kapitel 28: Aus der Stadt, die niemals schläft

Der Datensatz

Aufwärmen

Kurzer Projektvorschlag: Namen von Fluggesellschaften

Projektvorschlag: Verzögerungen bei der Abreise

Projektvorschlag: Analyse der Unterschiede zwischen den Wochentagen

Projekt: Verspätung und Wetter

Teil V: R in der Praxis: Einige Projekte, die Sie auf Trab halten

Kapitel 29: Mit einem Browser arbeiten

Auf Hochglanz gebracht

Ihr erstes

shiny

-Projekt

Mit

ggplot

arbeiten

Ein weiteres shiny-Projekt

Projektvorschlag

Kapitel 30: Dashboards verwenden

Das Package

shinydashboard

Dashboard-Layouts

Mit der Seitenleiste arbeiten

Interaktion mit Grafiken

Abbildungsverzeichnis

Stichwortverzeichnis

End User License Agreement

Illustrationsverzeichnis

Kapitel 1

Abbildung 1.1: Beziehungen zwischen Grundgesamtheiten, Stichprobe...

Abbildung 1.2: RStudio, unmittelbar nachdem Sie es installiert un...

Abbildung 1.3: Die Registerkarte

PACKAGES

in RStudio.

Abbildung 1.4: Die Registerkarte

HELP

(

HILFE

) in RStudio.

Abbildung 1.5: RStudio, nachdem Sie auf das Symbol in der oberen ...

Abbildung 1.6: Eine Zeile auf der Registerkarte

ENVIRONMENT

(

UMGE

...

Abbildung 1.7: Die Registerkarte

HISTORY

(

VERLAUF

) nach dem Erste...

Abbildung 1.8: Das Dialogfeld

QUIT R SESSION

(

R-SITZUNG BEENDEN

).

Kapitel 2

Abbildung 2.1: Die Registerkarte

PACKAGES

in RStudio.

Abbildung 2.2: Die Registerkarte

HELP

(

HILFE

), nachdem Sie auf de...

Abbildung 2.3: Das Dialogfeld

INSTALL PACKAGES

(

PACKAGES INSTALLI

...

Kapitel 3

Abbildung 3.1: Teil des Datenrahmens

Cars93

.

Abbildung 3.2: Histogramm der Preise der Autos im Datenrahmen

Car

...

Abbildung 3.3: Tabelle 3.1 als Balkendiagramm.

Abbildung 3.4: Tabelle 3.1 als Tortendiagramm.

Abbildung 3.5: Benzinverbrauch im Stadtverkehr und Motorleistung ...

Abbildung 3.6: Boxplot für die Motorleistung im Verhältnis zur An...

Abbildung 3.7: Ursprüngliches Histogramm der Verteilung der Preis...

Abbildung 3.8: Dichtediagramm der Verteilung der Preise in

Cars93

Abbildung 3.9: Dichtediagramm mit einer zusätzlichen Linie.

Abbildung 3.10: Das anfängliche Balkendiagramm für

table(Cars93$

...

Abbildung 3.11: Punktdiagramm für die Daten in Tabelle 3.1.

Abbildung 3.12: Balkendiagramm der Daten in Tabelle 3.2.

Abbildung 3.13: Ursprüngliches Balkendiagramm der in Tabelle 3.2 aufgelisteten Daten.

Abbildung 3.14: Der Kraftstoffverbrauch abhängig von der Motorle...

Abbildung 3.15: Mehrere Streudiagramme für die Beziehungen zwisc...

Abbildung 3.16: Anwendung von

ggplot()

– und sonst nichts.

Abbildung 3.17: Das ursprüngliche Histogramm für

Price

in

Cars93

Abbildung 3.18: Das fertige Preis-Histogramm.

Abbildung 3.19: Balkendiagramm für

Car Type

.

Abbildung 3.20: Das anfängliche Punktdiagramm für

Type

.

Abbildung 3.21: Das geänderte Punktdiagramm für

Type

.

Abbildung 3.22: Balkendiagramm für die Daten in Tabelle 3.2, erstellt mit

ggplot()

.

Abbildung 3.23: Kraftstoffverbrauch vs. Motorleistung in

Cars93

.

Abbildung 3.24: Das ursprüngliche

ggplot2

-Streudiagramm für den ...

Abbildung 3.25: Modifiziertes Streudiagramm für den Kraftstoffve...

Abbildung 3.26: Streudiagramm-Matrix für den Kraftstoffverbrauch...

Abbildung 3.27: Das Hinzufügen von Zylindern ergibt diese Streud...

Abbildung 3.28: Box-Diagramm für Motorleistung vs. Anzahl der Zy...

Abbildung 3.29: Box-Diagramm mit Datenpunkten.

Abbildung 3.30: Box-Diagramm mit gejitterten Datenpunkten.

Kapitel 4

Abbildung 4.1: Histogramme für die Motorleistungen US-amerikanisc...

Kapitel 7

Abbildung 7.1: Drei Histogramme, die drei Arten von Schiefe zeige...

Abbildung 7.2: Histogramme für die Motorleistungen von Fahrzeugen...

Abbildung 7.3: Dichte-Diagramme für die Motorleistungen bei Fahrz...

Abbildung 7.4: Zwei Histogramme, die zwei Arten von Wölbung zeige...

Abbildung 7.5: Kumulatives Häufigkeitshistogramm der Preisdaten i...

Abbildung 7.6: Empirische kumulative Verteilungsfunktion für die ...

Abbildung 7.7: Der ecdf-Wert für die Preisdaten in

Cars93

, darges...

Abbildung 7.8: Die ecdf für Preisdaten mit einer gestrichelten ve...

Abbildung 7.9: Die ecdf für Preisdaten mit Quartilwerten auf der

Abbildung 7.10: Mit

describe(autos)

erstelltes Diagramm.

Abbildung 7.11: Mit

datadensity(autos)

erstelltes Diagramm.

Kapitel 8

Abbildung 8.1: Die Glockenkurve.

Abbildung 8.2: Die Normalverteilung des IQ, unterteilt in Standar...

Abbildung 8.3: Ausgangsdiagramm der Normaldichtefunktion für den ...

Abbildung 8.4: Die Normaldichtefunktion für den IQ mit Standardab...

Abbildung 8.5: Das IQ-Diagramm mit vertikalen gestrichelten Linie...

Abbildung 8.6: Das fertige Produkt: Das IQ-Diagramm ohne Abstand ...

Abbildung 8.7: Visualisierung der Wahrscheinlichkeit eines IQ-Wer...

Abbildung 8.8: Kumulative Dichtefunktion der IQ-Verteilung.

Abbildung 8.9: Mit

qnormGC()

erstelltes Diagramm.

Abbildung 8.10: Die normale kumulative Dichtefunktion mit Quarti...

Abbildung 8.11: Die Standardnormalverteilung, aufgeteilt nach St...

Abbildung 8.12: Die Standardnormalverteilung, dividiert durch di...

Kapitel 9

Abbildung 9.1: Die Stichprobenverteilung des Mittelwerts erstelle...

Abbildung 9.2: Die Stichprobenverteilung des Mittelwertes, aufget...

Abbildung 9.3: Stichprobenverteilung des Mittelwerts auf der Grun...

Abbildung 9.4: Die Stichprobenverteilung des Mittelwerts mit neu ...

Abbildung 9.5: Die Stichprobenverteilung des Mittelwertes für den...

Abbildung 9.6: Die 95%-Konfidenzgrenzen der Stichprobenverteilung...

Abbildung 9.7: Einige Mitglieder der

t

-Verteilungsfamilie.

Kapitel 10

Abbildung 10.1: H

0

und H

1

entsprechen jeweils einer Stichprobenv...

Abbildung 10.2: Der zweiseitige Ablehnungsbereich für α = 0,05.

Abbildung 10.3:

t

-Verteilung mit 3 df, grundlegendes R.

Abbildung 10.4: Drei Verteilungen auf der Suche nach einer Legen...

Abbildung 10.5: Das endgültige Diagramm, einschließlich der Lege...

Abbildung 10.6: Drei t-Verteilungskurven, aufgezeichnet in ggplo...

Abbildung 10.7: Drei

t

-Verteilungskurven, wobei die Linientypen ...

Abbildung 10.8: Das Endprodukt mit angepasster Legende.

Abbildung 10.9: Zwei Mitglieder der Chi-Quadrat-Familie.

Abbildung 10.10: Zwei Mitglieder der Chi-Quadrat-Familie, darge...

Abbildung 10.11: Zwei Mitglieder der Chi-Quadrat-Familie, darge...

Kapitel 11

Abbildung 11.1: Erstellung der Stichprobenverteilung der Differe...

Abbildung 11.2: Die Stichprobenverteilung der Differenz zwischen...

Abbildung 11.3: Die Stichprobenverteilung der Differenz zwischen...

Abbildung 11.4: Boxplot der Daten von FarKlempt Machines im grun...

Abbildung 11.5: Boxplot von FarKlempt Machines-Daten in

ggplot2

.

Abbildung 11.6: Mittelwerte und Standardfehler für die Maschinen...

Abbildung 11.7: Zwei Mitglieder der F-Verteilungsfamilie.

Abbildung 11.8: Zwei Mitglieder der F-Verteilungsfamilie in

ggpl

...

Abbildung 11.9: Zwei Mitglieder der

F

-Verteilungsfamilie in

ggpl

...

Kapitel 12

Abbildung 12.1: Die

F

-Verteilung mit 2 und 24 Freiheitsgraden.

Abbildung 12.2: Boxplot der Stichprobenergebnisse.

Abbildung 12.3: Die Mittelwerte und Standardfehler für das Beisp...

Abbildung 12.4: Ein quadratischer Trend mit vier Mittelwerten.

Abbildung 12.5: Ein kubischer Trend mit vier Mittelwerten.

Kapitel 13

Abbildung 13.1: Kombination der Stufen der Präsentationsmethode ...

Abbildung 13.2: Mittelwerte und Standardfehler der Präsentations...

Abbildung 13.3: Mittelwerte und Standardfehler für die Studie fü...

Abbildung 13.4: Drei Boxplots zeigen die Verteilung der Ergebnis...

Kapitel 14

Abbildung 14.1: Eignung (

Aptitude

) und Leistung (

Performance

) be...

Abbildung 14.2: Der Graph für y = 4 + 2x.

Abbildung 14.3: Die Abweichungen in einem Streudiagramm.

Abbildung 14.4: Streudiagramm und Regressionslinie für die 16 Fa...

Abbildung 14.5: Darstellung der Residuen für das FarMisht-Beispi...

Abbildung 14.6: Streudiagramm für das FarMisht-Beispiel für mult...

Abbildung 14.7: Streudiagramm für das FarMisht-Beispiel einer mu...

Abbildung 14.8: Streudiagramm für das FarMisht-Beispiel für mult...

Abbildung 14.9: Gewichtszunahme im Vergleich zur Behandlung im D...

Abbildung 14.10: Gewichtszunahme im Vergleich zu

Treat

und Prew...

Abbildung 14.11: Gewichtszunahme im Vergleich zu

Treat

und

Prew

...

Kapitel 15

Abbildung 15.1: Eignung und Leistung bei FarMisht Consulting.

Abbildung 15.2: Streudiagramm für 16 FarMisht-Berater, einschlie...

Abbildung 15.3: Ein Punkt im Streudiagramm und die zugehörigen E...

Abbildung 15.4: Die Korrelationsmatrix für Eignung, Leistung und...

Abbildung 15.5: Die Korrelationsmatrix für Eignung, Leistung und...

Abbildung 15.6: Die Korrelationsmatrix für Eignung, Leistung und...

Kapitel 16

Abbildung 16.1: Hypothetische Darstellung des Erlernens einer Ko...

Abbildung 16.2: Verhältnis zwischen Körpergewicht und Gehirngewi...

Abbildung 16.3: Die Beziehung zwischen dem logarithmischen Wert ...

Abbildung 16.4: Die Beziehung zwischen dem Logarithmus des Körpe...

Abbildung 16.5: Originaldiagramm des Gehirngewichts und des Körp...

Abbildung 16.6: Wie die Kopfhöhe (

head.cm

) mit der Zeit abnimmt.

Abbildung 16.7: Wie

log(head.cm)

mit der Zeit abnimmt, einschlie...

Abbildung 16.8: Die Abnahme von

head.cm

im Laufe der Zeit, mit d...

Abbildung 16.9:

MPG.highway

und

horsepower

im Datenrahmen Cars93...

Abbildung 16.10:

MPG.highway

und

Log(Horsepower)

in

Cars93

, zus...

Abbildung 16.11:

MPG.highway

und

Horsepower

, mit der logarithmi...

Abbildung 16.12: Streudiagramm des Medianwerts (

medv

) gegenüber...

Kapitel 17

Abbildung 17.1: Visualisierung der MeesKyte-Zeitreihe.

Abbildung 17.2: Komponenten der MeesKyte-Zeitreihe.

Abbildung 17.3: Die MeesKyte-Zeitreihe, saisonbereinigt.

Abbildung 17.4: Die MeesKyte-Zeitreihe und der gleitende Durchsc...

Abbildung 17.5: Die MeesKyte-Zeitreihe und Prognosen für acht kü...

Abbildung 17.6: Die MeesKyte-Zeitreihe und Prognosen für acht zu...

Kapitel 18

Abbildung 18.1: Boxplot der Daten in Tabelle 18.1.

Kapitel 19

Abbildung 19.1: Die Wahrscheinlichkeitsverteilung für

x

, eine Zu...

Abbildung 19.2: Die Standardnormalverteilung: eine Wahrscheinlic...

Abbildung 19.3: Binomialverteilung der Anzahl der Erfolge bei ze...

Abbildung 19.4: Kumulative Verteilung der Anzahl der Erfolge bei...

Kapitel 20

Abbildung 20.1: Das Streudiagramm für die Daten in Tabelle 20.1.

Abbildung 20.2: Logistisches Regressionsmodell für die Daten in Tabelle 20.1.

Abbildung 20.3: Logistisches Regressionsmodell, dargestellt in

g

...

Kapitel 21

Abbildung 21.1: Die Verteilungen der Variablen in

iris.uci

.

Abbildung 21.2: Dichtediagramme für die Variablen von

iris.uci

.

Abbildung 21.3: Streudiagramm-Matrix für den

iris.uci

-Datenrahme...

Abbildung 21.4: Streudiagramm-Matrix für

iris.uci,

gerendert in

Abbildung 21.5: Das

Rattle

-Fenster.

Abbildung 21.6: Das Dropdown-Menü im Feld

DATA NAME

(

DATENNAME

) ...

Abbildung 21.7: Die Registerkarte

DATA

(

DATEN

) in

Rattle

nach de...

Abbildung 21.8: Die Registerkarte

EXPLORE

(

ERKUNDEN

) in

Rattle

.

Abbildung 21.9: Die Registerkarte

EXPLORE

(

ERKUNDEN

) in

Rattle

, ...

Abbildung 21.10: In

Rattle

gerenderte Boxplots für die vier num...

Abbildung 21.11: Ein hierarchisches Clustering in

Rattle

.

Abbildung 21.12: Dendrogramm für den Datensatz

iris.uci

.

Kapitel 22

Abbildung 22.1: Ein Entscheidungsbaum zur Klassifizierung von Ir...

Abbildung 22.2: Entscheidungsbaum für

iris.uci

, erstellt mit

rpa

...

Abbildung 22.3: Die Registerkarte

MODEL

(

MODELL

) in

Rattle

.

Abbildung 22.4: Die Registerkarte

MODEL

(

MODELL

) in

Rattle

, nach...

Abbildung 22.5: Ein Entscheidungsbaum für

iris.uci

, basierend au...

Abbildung 22.6: Die Registerkarte

EXECUTE

(

AUSFÜHREN

) von

R

...

Abbildung 22.7: Die Registerkarte

DATA

(

DATEN

) in

Rattle

nach de...

Abbildung 22.8: Die Verteilung der Bewertungen im Datenrahmen

ca

...

Abbildung 22.9: Der Entscheidungsbaum für

car.uci

, gerendert in

Abbildung 22.10: Fehlermatrizen für den Entscheidungsbaum für

c

...

Abbildung 22.11: Die Registerkarte

DATA

(

DATEN

) in

Rattle

, nach...

Kapitel 23

Abbildung 23.1: Drei von

Rattle

erzeugte Entscheidungsbäume für ...

Abbildung 23.2:

iris.forest

-Fehlerraten in Abhängigkeit von der ...

Abbildung 23.3:

iris.forest

-Fehlerraten für 1 bis 100 Bäume.

Abbildung 23.4: Die Darstellung des Einflusses der Variablen in

Abbildung 23.5: Die Registerkarte

DATA

(

DATEN

) in

Rattle

nach Au...

Abbildung 23.6: Die Registerkarte

EXPLORE

(

ERKUNDEN

) von

Rattle

,...

Abbildung 23.7: Die Verteilung von

Type

im Datenrahmen

glass.uci

Abbildung 23.8: Zusammenfassung des Zufallswalds für

glass.uci

.

Abbildung 23.9: Die Darstellung des Einflusses der Variablen für...

Kapitel 24

Abbildung 24.1:

Petal Width

vs.

Petal Length

im Datenrahmen

set.

...

Abbildung 24.2:

Petal Width

vs.

Petal Length

mit einer Trennungs...

Abbildung 24.3: Rand- und Stützvektoren für die Trennungsgrenze.

Abbildung 24.4:

Petal Width

(Blütenblattbreite) im Vergleich zur...

Abbildung 24.5: Soft-Margin-Klassifizierung im Datenrahmen

vers.

...

Abbildung 24.6: Ein Kern im Datenrahmen

vers.virg

.

Abbildung 24.7: Darstellung der SVM für den

vvx

-Trainingssatz, V...

Abbildung 24.8: Darstellung der SVM für den

vvx

-Trainingssatz, V...

Abbildung 24.9: Die

Rattle

-Registerkarte

DATA

(

DATEN

), nachdem d...

Abbildung 24.10: Die

Ratttle

-Registerkarte

EXPLORE

(

ERKUNDEN

), ...

Abbildung 24.11: Die Verteilung von Republikanern und Demokrate...

Abbildung 24.12: Die Rattle-Registerkarte

MODEL

(

MODELL

), einge...

Abbildung 24.13: Die Ergebnisse der SVM für den

House

-Datenrahm...

Abbildung 24.14: Evaluierung der SVM anhand des Testsatzes.

Kapitel 25

Abbildung 25.1: Zwei Dimensionen des

iris

-Datenrahmens.

Abbildung 25.2: k-Means-Clustering des

iris

-Datenrahmens mit dre...

Abbildung 25.3: Summe innerhalb der Quadratsumme im Vergleich zu...

Abbildung 25.4: k-Means-Clustering des

iris

-Datenrahmens mit sec...

Abbildung 25.5: Einrichten der Variablen für das

k-Means-

Cluster...

Abbildung 25.6: Einrichtung des

k-Means-

Clusterings für den Date...

Kapitel 26

Abbildung 26.1: Neuronen im Nervensystem.

Abbildung 26.2: Ein künstliches neuronales Netz, das lernt, Iris...

Abbildung 26.3: Das neuronale Netz für

iris.train

, gerendert mit...

Abbildung 26.4:

Entropy

und

Kurtosis

im Datenrahmen

banknote.uci

Abbildung 26.5: Die

Rattle

-Registerkarte

DATA

(

DATEN

) nach dem E...

Abbildung 26.6: Die

Rattle

-Registerkarte

MODEL

(Modell) nach der...

Abbildung 26.7: Das neuronale Netz für den Datenrahmen

banknote.

...

Abbildung 26.8: Balkendiagramm der Gewichtung der einzelnen Vari...

Abbildung 26.9: Mittlerer quadratischer Fehler und Iterationen i...

Kapitel 27

Abbildung 27.1: Verteilung der endgültigen gewichteten Scores, n...

Abbildung 27.2: Die Verteilung der Klassen im Datenrahmen

retail

...

Abbildung 27.3: Gesamtsumme der Quadrate im Vergleich zur Anzahl...

Abbildung 27.4: Die

Rattle

-Registerkarte

DATA

(Daten) nach der A...

Abbildung 27.5: Die Registerkarte

CLUSTER

, nachdem die Auswahlen...

Kapitel 28

Abbildung 28.1:

View(flights)

fügt diese Ansicht in das RStudio-...

Abbildung 28.2: Mittlere Flugdauer im Vergleich zum Tag in

Newar

...

Abbildung 28.3: Das Ergebnis der Verknüpfung von

flights

mit

air

...

Abbildung 28.4: Mittlere Abflugverspätung (min) in Abhängigkeit ...

Abbildung 28.5: Facettengrafik der mittleren Abflugverspätung (M...

Kapitel 29

Abbildung 29.1: Das Dialogfeld

NEW SHINY WEB APPLICATION

(

NEUE S

...

Abbildung 29.2: Das Dialogfeld

CHOOSE DIRECTORY

(

VERZEICHNIS AUS

...

Abbildung 29.3: Das Skriptfenster nach dem Klicken auf

CREATE

(

E

...

Abbildung 29.4: Ihr erstes

shiny

-Projekt.

Abbildung 29.5: Die

shiny

-App mit Mittelwert, Median und Standar...

Abbildung 29.6: Die erste Version der

shiny

-App aus dem vorigen ...

Abbildung 29.7: Hinzufügen eines Schiebereglers, um die Auswahl ...

Abbildung 29.8: Die

ggplot2

-Version der ersten

shiny

-App mit hin...

Abbildung 29.9: Eine

shiny

-Anwendung für den Datenrahmen

airqual

...

Abbildung 29.10: Die App aus dem vorigen Abschnitt, gerendert i...

Kapitel 30

Abbildung 30.1: Erste

shiny

-App aus Kapitel 29, gerendert in

shi

...

Abbildung 30.2: Anfang eines

shinydashboard

-Dashboards.

Abbildung 30.3: Hinzufügen eines Schiebereglers und einer Grafik...

Abbildung 30.4: Hinzufügen von Funktionen.

Abbildung 30.5: Das Dashboard, nachdem Status und Hintergrund hi...

Abbildung 30.6: Das Dashboard, wobei die Boxen nun in Spalten an...

Abbildung 30.7: Das Dashboard mit den Registerkarten

Central

Ten

...

Abbildung 30.8: Das Dashboard, mit einer

TabBox

für Statistiken,...

Abbildung 30.9: Das Dashboard mit Statistiken, die in

ValueBoxen

Abbildung 30.10: Der erste Bildschirm des Dashboards zeigt eine...

Abbildung 30.11: Der zweite Bildschirm des Dashboards zeigt ein...

Abbildung 30.12: Das Dashboard mit dem Schieberegler in der Sei...

Abbildung 30.13: Das Dashboard mit ausgewählter Normalverteilun...

Abbildung 30.14: Daten zu Müslimarken in den USA, anhand derer ...

Abbildung 30.15: Wenn Sie auf das Diagramm klicken, werden die ...

Abbildung 30.16: Markierens (den Mauszeiger bei gedrückter Maus...

Abbildung 30.17: Ein Dashboard mit Markierfunktion für den Date...

Orientierungspunkte

Cover

Titelblatt

Impressum

Über den Autor

Inhaltsverzeichnis

Einführung

Fangen Sie an zu lesen

Abbildungsverzeichnis

Stichwortverzeichnis

End User License Agreement

Seitenliste

1

2

3

4

5

6

7

11

12

13

14

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

50

51

52

53

54

55

56

57

58

59

60

61

62

63

64

65

66

67

68

69

70

71

72

73

74

75

76

77

79

80

81

82

83

84

85

86

87

88

89

90

91

92

93

94

95

96

97

98

99

100

101

102

103

104

105

106

107

108

109

110

111

112

113

114

115

116

117

119

120

121

122

123

124

125

126

127

129

130

131

132

133

134

135

136

137

138

139

140

141

142

143

144

145

146

147

148

149

150

151

152

153

154

155

156

157

158

159

160

161

162

163

164

165

166

167

168

169

170

171

172

173

174

175

176

177

178

179

180

181

182

183

184

185

186

187

188

189

190

191

192

193

194

195

196

197

198

199

201

202

203

204

205

206

207

208

209

210

211

212

213

214

215

216

217

218

219

220

221

222

223

224

225

227

228

229

230

231

232

233

234

235

236

237

238

239

240

241

242

243

244

245

246

247

248

249

250

251

253

254

255

256

257

258

259

260

261

262

263

264

265

266

267

268

269

270

271

272

273

274

275

277

278

279

280

281

282

283

284

285

286

287

288

289

290

291

292

293

294

295

297

298

299

300

301

302

303

304

305

306

307

308

309

310

311

312

313

314

315

316

317

318

319

320

321

322

323

324

325

326

327

328

329

330

331

332

333

334

335

336

337

338

339

340

341

342

343

344

345

346

347

348

349

351

352

353

354

355

356

357

358

359

360

361

362

363

364

365

366

367

368

369

370

371

372

373

375

376

377

378

379

380

381

382

383

384

385

387

388

389

390

391

392

393

394

395

396

397

398

399

400

401

402

403

404

405

407

408

409

410

411

412

413

414

415

416

417

418

419

420

421

422

423

424

425

426

427

428

429

430

431

432

433

434

435

436

437

438

439

440

441

442

443

444

445

446

447

448

449

450

451

452

453

454

455

456

457

458

459

460

461

463

464

465

466

467

468

469

470

471

472

473

474

475

476

477

478

479

480

481

482

483

484

485

486

487

488

489

490

491

492

493

494

495

496

497

498

499

500

501

502

503

504

505

506

507

508

509

510

511

512

513

514

515

516

517

518

519

520

521

522

523

524

525

526

527

528

529

530

531

533

534

535

536

537

538

539

540

541

542

543

544

545

546

547

548

549

550

551

552

553

554

555

556

557

558

559

560

561

562

563

564

565

566

567

568

569

570

571

572

573

574

575

576

577

578

579

580

581

583

584

585

586

587

588

589

590

591

592

593

594

595

596

597

598

599

600

601

602

603

604

605

606

607

608

609

610

611

613

614

615

616

617

618

619

620

621

622

623

624

625

626

627

628

629

630

631

632

633

634

635

636

637

638

639

640

641

642

643

644

645

647

648

649

650

651

652

653

654

657

658

659

660

661

662

663

664

Einführung

In diesem Buch habe ich alle Informationen zusammengetragen, die Sie benötigen, um mit R auf Anhieb zurechtzukommen. Der Schwerpunkt liegt natürlich auf dem Thema Statistik, da die Entwickler von R diese Sprache für die Datenanalyse entwickelt haben.

Sie sollten also die Grundlagen der Statistik verstehen. Und gleich vorab: Dieses Alles-in-einem-Band-Buch beschreibt keine vorgefertigten Lösungen oder Antworten. Ich habe Statistik nie auf diese Weise gelehrt und werde es auch nie so tun. Bevor ich Ihnen zeige, wie Sie R einsetzen, um mit einem statistischen Konzept zu arbeiten, vermittle ich Ihnen eine solide Grundlage, worum es bei diesem Konzept überhaupt geht.

Tatsächlich sind die Teile 2 und 3 dieses Kompendiums eine Einführung in die Statistik, wobei zufällig R als Mittel zur Erklärung statistischer Ideen verwendet wird.

Teil 4 wendet ebenfalls diese Methode an. Dort werden die Ideen hinter dem maschinellen Lernen vermittelt, bevor Sie erfahren, wie R verwendet wird, um sie zu implementieren. Teil 5 präsentiert eine Reihe von Projekten, anhand derer Sie Ihre neu erworbenen R-Kenntnisse praxisnah üben können.

Möchten Sie mehr erfahren? Lesen Sie weiter!

Über dieses Buch

Dieses Buch (und gegebenenfalls das E-Book) besteht aus fünf Teilen, die mehrere Dimensionen von R abdecken.

Teil 1: Einführung in R

Wie bereits erwähnt, beschäftigt sich die Sprache R mit Statistik. Dementsprechend bietet Teil 1 eine Einführung in die grundlegenden Konzepte der Statistik, die Sie einfach kennen müssen, um mit R voranzukommen.

Anschließend lernen Sie R und RStudio kennen. RStudio ist eine weit verbreitete Entwicklungsumgebung für die Arbeit mit R. Zunächst beschreibe ich die Grundlagen des R-Codes und gehe auf R-Funktionen und -Strukturen ein.

Richtig lebendig wird R, wenn Sie die speziellen Packages verwenden, die Sie schon früh kennenlernen.

Teil 2: Daten beschreiben

Bei der Arbeit mit Statistiken geht es oft darum, Daten auf sinnvolle Weise zusammenzufassen. In Teil 2 erfahren Sie, wie Sie dazu vorgehen.

Die meisten Menschen wissen, was Durchschnittswerte sind und wie man sie berechnet. Aber das ist nicht die ganze Geschichte. In Teil 2 erzähle ich Ihnen von zusätzlichen deskriptiven Statistiken, die die Lücken füllen, und ich zeige Ihnen, wie Sie R verwenden, um diese Statistiken zu berechnen und damit zu arbeiten. Außerdem lernen Sie, Grafiken zu erstellen, die die Datenbeschreibungen und -analysen visualisieren, die Sie in Teil 2 und 3 kennenlernen.

Teil 3: Daten auswerten

Teil 3 befasst sich mit dem grundlegenden Ziel der statistischen Analyse: über die reinen Daten hinauszugehen und Ihnen dabei zu helfen, Entscheidungen zu treffen. In der Regel handelt es sich bei den Daten um Messungen einer Stichprobe, die einer großen Grundgesamtheit entnommen wurde. Das Ziel ist es, anhand dieser Daten herauszufinden, was in der Grundgesamtheit vor sich geht.

Dies wirft eine ganze Reihe von Fragen auf: Was bedeutet ein Durchschnitt? Was bedeutet die Differenz zwischen zwei Durchschnittswerten? Sind zwei Dinge miteinander verbunden? Dies sind nur einige der Fragen, die ich in Teil 3 anspreche. Hier werden Sie auch lernen, die R-Tools anzuwenden, die Ihnen helfen, diese Fragen zu beantworten.

Teil 4: Aus Daten lernen

Die Erstellung effektiver Modelle für maschinelles Lernen erfordert Erfahrung. In Teil 4 sammeln Sie Erfahrung anhand von Projekten zum maschinellen Lernen. Zusätzlich zu den Projekten, die Sie zusammen mit mir durchführen, schlage ich Ihnen weitere Projekte vor, an denen Sie sich ausprobieren können.

Zu Beginn werde ich Ihnen das University of California-Irvine Machine Learning Repository vorstellen, das die Datensätze für die meisten Projekte in Teil 4 bereitstellt.

Um Ihnen einen sanften Einstieg zu ermöglichen, zeige ich Ihnen das Rattle-Package zur Erstellung von Anwendungen für maschinelles Lernen. Es ist eine freundliche Schnittstelle zu den Funktionen von R für maschinelles Lernen. Ich mag Rattle sehr, und ich gehe davon aus, Sie werden es auch mögen. Sie verwenden es, um Entscheidungsbäume, Zufallswälder, Support-Vektor-Maschinen, den k-Means-Algorithmus und neuronale Netze kennenzulernen und mit ihnen zu arbeiten.

Sie werden mit sehr großen Datensätzen arbeiten – nicht die Terabytes und Petabytes, mit denen es Datenwissenschaftler zu tun haben, aber groß genug, um den Einstieg zu finden. In einem Projekt analysieren Sie einen Datensatz von mehr als 500 000 Flügen einer Fluggesellschaft. In einem anderen Projekt führen Sie eine Kundensegmentierungsanalyse von über 300 000 Kunden eines Online-Händlers durch.

Teil 5: R nutzen – Einige Projekte, die Sie auf die Praxis vorbereiten

Wie der Titel vermuten lässt, ist auch Teil 5 projektorientiert aufgebaut.

In den hier vorgestellten Projekten erstellen Sie Anwendungen, die auf Benutzer reagieren. Ich zeige Ihnen das Package shiny für die Arbeit mit Webbrowsern und das Package shinydashboard für die Erstellung von Dashboards.

All dies führt Sie weg von dem ursprünglichen Lebensauftrag von R, aber Sie bekommen eine Vorstellung davon, wie Sie sich mit R in völlig neue Richtungen entwickeln können.

Wenn Sie eine Weile mit R gearbeitet haben, werden Sie vielleicht einige dieser neuen Richtungen für sich entdecken!

Was Sie getrost überspringen können

Jedes Nachschlagewerk bietet eine Fülle von Informationen; dieses Buch bildet keine Ausnahme. Ich wollte, dass alle bereitgestelllten Informationen nützlich sind, aber ich habe nicht alles auf das gleiche Niveau ausgerichtet. Wenn Sie also nicht tief in die Materie eindringen wollen, können Sie die mit dem Symbol für technisches Material gekennzeichneten Abschnitte überspringen und auch die Einschübe auslassen.

Törichte Annahmen über den Leser

Ich gehe davon aus, dass

Sie wissen, wie man mit Windows oder dem Mac arbeitet. Ich gehe nicht auf die Details von Zeigen, Klicken, Auswählen usw. ein.

Sie R und RStudio installieren (wie das geht, erkläre ich in

Teil 1

) und den Beispielen folgen können. Ich verwende die Windows-Version von RStudio, aber Sie sollten keine Probleme haben, wenn Sie mit einem Mac arbeiten.

In diesem Buch verwendete Symbole

Wie in allen Für-Dummies-Büchern helfen Ihnen Symbole bei Ihrer Reise. Sie werden am Seitenrand angezeigt, um Sie auf bestimmte Absätze aufmerksam zu machen.

Dieses Symbol weist auf einen Hinweis oder eine Abkürzung hin, die Ihnen bei Ihrer Arbeit helfen können.

Dieses Buch zeigt zeitlose Weisheiten auf, die Sie auf Ihrem Weg zur Erleuchtung mitnehmen können.

Achten Sie auf dieses Symbol! Es macht Sie darauf aufmerksam, etwas zu vermeiden, das Ihnen die Arbeit erschweren könnte.

Wie ich bereits in »Was Sie getrost überspringen können« erwähnt habe, zeigt dieses Symbol an, dass Sie den Inhalt überblättern können, wenn er zu technisch ist. (Ich habe diese Inhalte auf ein Minimum beschränkt.)

Wie es jetzt weitergeht

Legen Sie los! Sie können überall anfangen, aber hier ein paar Tipps. Sie möchten sich in R und Packages einarbeiten? Dann ist Teil 1 genau das Richtige für Sie. Ihre letzte Statistikvorlesung ist schon eine Weile her (oder vielleicht haben Sie noch nie eine besucht)? Dann fangen Sie in Teil 2 an. Für alles andere gucken Sie im Inhaltsverzeichnis oder im Index nach und greifen gezielt auf die benötigten Informationen zu.

Wenn Sie lieber von der ersten bis zur letzten Seite lesen möchten, blättern Sie einfach weiter …

Teil I

Eine Einführung in R

IN DIESEM TEIL …

R – Was es macht und wie es dies machtMit Packages arbeiten, Importieren und Exportieren

Kapitel 1

R – Was es macht und wie es dies macht

IN DIESEM KAPITEL

Einführung in die StatistikR und RStudio auf Ihrem Computer installierenEine Sitzung mit R startenMit Funktionen in R arbeitenMit Strukturen in R arbeiten

Sie sind also bereit für eine Reise in die wunderbare Welt von R! R wurde von Statistikern und Datenwissenschaftlern für Statistiker und Datenwissenschaftler entwickelt und hat eine kurze, aber illustre Geschichte.

In den 1990er Jahren wurde R von Ross Ihaka und Robert Gentleman an der Universität von Auckland, Neuseeland, entwickelt. Das R-Core-Team und die R-Foundation for Statistical Computing unterstützen R, das weltweit eine große Nutzerbasis hat.

Bevor ich Ihnen jedoch von R erzähle, muss ich Ihnen die Welt vorstellen, in der sich R bewegt – die Welt der Daten und Statistiken.

Statistische (und verwandte) Konzepte, die man einfach kennen muss

Die in R bereitgestellten Analysewerkzeuge basieren auf statistischen Konzepten, die ich Ihnen in diesem Abschnitt genauer vorstellen werde. Wie Sie sehen werden, beruhen diese Konzepte auf gesundem Menschenverstand.

Stichproben und Grundgesamtheiten

Wenn Sie in der Wahlnacht fernsehen, wissen Sie, dass eines der wichtigsten Ereignisse die Hochrechnung des Ergebnisses unmittelbar nach Schließung der Wahllokale ist (noch bevor alle Stimmen ausgezählt sind). Wie kommt es, dass die Experten fast immer richtig liegen?

Die Idee ist, mit einer Stichprobe von Wählern direkt nach deren Stimmabgabe zu sprechen. Wenn die Befragten wahrheitsgemäß angeben, wie sie ihre Stimmzettel ausgefüllt haben, und wenn die Stichprobe repräsentativ für die Grundgesamtheit (auch als Population bezeichnet) der Wähler ist, können die Analysten anhand der Stichprobendaten Rückschlüsse auf die Gesamtheit ziehen.

Genau darum geht es in der Statistik – die Daten von Stichproben zu nutzen, um Rückschlüsse auf die Grundgesamtheit zu ziehen.

Ein weiteres Beispiel: Stellen Sie sich vor, Sie sollen die Durchschnittsgröße der 10-jährigen Kinder in Deutschland ermitteln. Da Sie wahrscheinlich nicht die Zeit oder die Mittel haben, jedes einzelne Kind zu messen, messen Sie die Größen innerhalb einer repräsentativen Stichprobe. Dann ermitteln Sie den Durchschnitt dieser Größen und verwenden diesen als Schätzung für den Durchschnitt der Grundgesamtheit.

Die Schätzung des Durchschnitts für eine Grundgesamtheit ist eine der Schlussfolgerungen oder Inferenzen, die Statistiker aus Stichprobendaten ziehen. Im späteren Abschnitt »Inferenzstatistik: Hypothesen testen« werde ich ausführlicher auf die Inferenz eingehen.

Wichtige Terminologie: Eigenschaften einer Grundgesamtheit (wie beispielsweise der Durchschnitt der Grundgesamtheit) werden als Parameter bezeichnet, und Eigenschaften einer Stichprobe (wie beispielsweise der Stichprobendurchschnitt) werden als Statistiken bezeichnet. Wenn es Ihnen nur um die Eigenschaften der Stichprobe geht (zum Beispiel die Größe der Kinder in Ihrer Stichprobe), sind die von Ihnen berechneten Statistiken deskriptiv. (Um deskriptive Statistiken geht es in Teil 2.) Wenn es Ihnen darum geht, die Eigenschaften der Grundgesamtheit zu schätzen, sind Ihre Statistiken inferentiell. (Um Inferenzstatistiken geht es in Teil 3.)

Und jetzt eine wichtige Konvention, was die Notation betrifft: Statistiker verwenden griechische Buchstaben (zum Beispiel μ, σ, ϼ) für Parameter und lateinische Buchstaben (zum Beispiel , s, r) für Statistiken. Abbildung 1.1 veranschaulicht die Beziehung zwischen Grundgesamtheiten und Stichproben sowie zwischen Parametern und Statistiken.

Variablen: abhängige und unabhängige

Eine Variable ist ein Platzhalter, der unterschiedliche Werte annehmen kann – beispielsweise Ihr Alter, den Wert des Euros im Vergleich zu anderen Währungen oder die Anzahl der Spiele, die Ihre Lieblingsmannschaft gewonnen hat. Ein Platzhalter, der nur einen einzigen Wert haben kann, ist eine Konstante. Die Wissenschaftler sagen, die Lichtgeschwindigkeit ist eine Konstante, und wir verwenden die Konstante π, um die Fläche eines Kreises zu berechnen.

Abbildung 1.1: Beziehungen zwischen Grundgesamtheiten, Stichproben, Parametern und Statistiken.

Statistiker arbeiten mit unabhängigen Variablen und mit abhängigen Variablen. In jeder Studie oder jedem Experiment finden Sie beide Arten. Statistiker bewerten die Beziehung zwischen ihnen.

Stellen Sie sich zum Beispiel eine computergestützte Trainingsmethode vor, die den IQ einer Person erhöhen soll. Wie würde ein Forscher herausfinden, ob diese Methode das tut, was sie tun soll? Zunächst würde der Forscher eine Stichprobe von Personen nach dem Zufallsprinzip in zwei Gruppen unterteilen. Für die eine Gruppe wird die untersuchte Trainingsmethode angewendet, während die andere eine andere Art von computergestützter Aktivität ausführt, zum Beispiel einen Text auf einer Website lesen. Bevor und nachdem jede der beiden Gruppen ihre Aktivitäten beendet hat, misst der Forscher den IQ der einzelnen Personen. Wie geht es weiter? Um dieses Thema geht es im späteren Abschnitt »Inferenzstatistik: Hypothesen testen«.

Stellen Sie sich hier einfach vor, dass die unabhängige Variable die Art der Aktivität darstellt. Die beiden möglichen Werte für diese Variable sind IQ-Training und Text lesen. Die abhängige Variable ist die Veränderung des IQ von vorher zu nachher.

Eine abhängige Variable ist das, was ein Forscher misst. In einem Experiment ist eine unabhängige Variable das, was ein Forscher manipuliert. In anderen Situationen kann es sein, dass ein Forscher eine unabhängige Variable nicht manipulieren kann. Stattdessen könnten beispielsweise natürlich vorkommende Werte der unabhängigen Variablen und ihre Auswirkungen auf eine abhängige Variable beobachtet werden.

Im Allgemeinen geht es darum, herauszufinden, ob Änderungen einer unabhängigen Variablen mit Änderungen einer abhängigen Variablen verknüpft sind.

In den Beispielen in diesem Buch zeige ich Ihnen, wie Sie R verwenden können, um die Merkmale von Gruppen von Ergebnissen zu berechnen oder Gruppen von Ergebnissen zu vergleichen. Immer wenn ich Ihnen eine Gruppe von Ergebnissen zeige, spreche ich von den Werten einer abhängigen Variable.

Verschiedene Arten von Daten

Bei der Arbeit mit Statistiken können Sie auf vier Arten von Daten stoßen. Wie Sie mit Variablen arbeiten, hängt davon ab, um welche Art von Daten es sich handelt.

Die erste Art sind nominale Daten. Wenn es sich bei einer Reihe von Zahlen um nominale Daten handelt, sind die Zahlen nichts weiter als Beschriftungen – ihre Werte haben keine Bedeutung. Bei einer Sportmannschaft beispielsweise sind die Rückennummern nominal. Sie identifizieren lediglich die Spieler.

Die nächste Art sind die ordinalen Daten. Bei diesem Datentyp sind die Zahlen mehr als nur Beschriftungen. Wie der Name ordinal schon sagt, ist die Reihenfolge der Zahlen wichtig. Wenn ich Sie bitte, zehn Lebensmittel in eine Rangfolge zu bringen, von dem, das Sie am liebsten (1) bis zu dem, das Sie am wenigsten (10) mögen, dann erhalten wir eine Reihe ordinaler Daten.

Aber der Unterschied zwischen Ihrem drittliebsten und Ihrem viertliebsten Lebensmittel ist vielleicht nicht derselbe wie der zwischen Ihrem neuntliebsten und Ihrem zehntliebsten Lebensmittel. Bei dieser Art von Daten fehlt es also an gleichen Intervallen und gleichen Differenzen.

Intervalldaten liefern uns gleiche Differenzen. Die Fahrenheit-Skala für die Temperatur ist ein gutes Beispiel. Die Differenz zwischen 30 oF und 40 oF ist derselbe wie der zwischen 90 oF und 100 oF. Jedes Grad ist also ein Intervall.

Die Menschen sind manchmal überrascht, wenn sie feststellen, dass auf der Fahrenheit-Skala eine Temperatur von 80 °F nicht doppelt so heiß ist wie 40 °F. Damit Verhältnisangaben (»doppelt so viel wie«, »halb so viel wie«) einen Sinn ergeben, muss Null die völlige Abwesenheit der Sache bedeuten, die Sie messen. Eine Temperatur von 0 oF bedeutet jedoch nicht die völlige Abwesenheit von Wärme – es ist nur ein willkürlicher Punkt auf der Fahrenheit-Skala. (Das Gleiche gilt für Celsius.)

Die vierte Art von Daten, Verhältnisdaten, liefert einen aussagekräftigen Nullpunkt. Auf der Kelvin-Temperaturskala bedeutet der Nullpunkt den absoluten Nullpunkt, an dem alle Molekularbewegungen (die Grundlage der Wärme) aufhören. 200 Grad Kelvin ist also doppelt so heiß wie 100 Grad Kelvin. Ein weiteres Beispiel ist die Länge. Acht Zoll sind doppelt so lang wie 4 Zoll. Null Zoll bedeutet das völlige Fehlen von Länge.

Eine unabhängige oder abhängige Variable kann entweder nominale, ordinale, Intervall- oder Verhältnisdaten enthalten. Welche Analysetools Sie verwenden, hängt von der Art der Daten ab, mit denen Sie arbeiten.

Eine kleine Wahrscheinlichkeit

Wenn Statistiker Entscheidungen treffen, verwenden sie die Wahrscheinlichkeitsrechnung, um ihr Vertrauen in diese Entscheidungen auszudrücken. Sie können sich nie absolut sicher sein, ob sie die richtige Entscheidung getroffen haben. Sie können Ihnen nur sagen, wie wahrscheinlich ihre Schlussfolgerungen sind.

Was verstehen wir unter Wahrscheinlichkeit? Mathematiker und Philosophen könnten Ihnen komplexe Definitionen nennen. Meiner Erfahrung nach lässt sich die Wahrscheinlichkeit jedoch am besten anhand von Beispielen verstehen.

Hier ein einfaches Beispiel: Angenommen, Sie werfen eine Münze. Wie groß ist die Wahrscheinlichkeit, dass sie Kopf zeigt? Wenn die Münze fair ist, könnte man annehmen, dass die Wahrscheinlichkeit für Kopf 50:50 und für Zahl 50:50 beträgt. Genau das ist der Fall. In den in der Wahrscheinlichkeitsrechnung verwendeten Zahlen ausgedrückt, ist das Ergebnis 1/2.

Stellen Sie sich vor, Sie würfeln mit einem fairen Würfel. Wie hoch ist die Wahrscheinlichkeit, dass Sie eine 4 würfeln? Ein Würfel hat sechs Seiten, eine davon zeigt die 4, also ist die Wahrscheinlichkeit 1/6.