29,99 €
Wenn Sie R von Grund auf kennenlernen und auch die fortgeschrittenen Techniken zur Lösung gängiger Aufgaben bei der Datenanalyse mit R beherrschen möchten, dann liegen Sie mit diesem Buch goldrichtig. Es bietet Ihnen nicht nur einen Überblick über die Programmierung in R und die Arbeit mit der Sprache, sondern geht auch auf die Arten von Projekten und Anwendungen ein, die R-Entwicklerinnen und -Entwickler häufig in Angriff nehmen müssen. Statistische Analysen, Datenvisualisierungen, maschinelles Lernen und Datenmanagement mit R: All das lernen Sie mit diesem Buch intensiv kennen.
Sie lesen das E-Book in den Legimi-Apps auf:
Seitenzahl: 764
Veröffentlichungsjahr: 2023
RAlles-in-einem-Band für Dummies
R bietet eine umfangreiche Palette von Funktionen, die Sie bei Ihrer Arbeit unterstützen – von einfachen Statistiken bis hin zu komplexen Analysen.
Auf dieser Schummelseite können Sie die wichtigsten Funktionen für Statistik, interaktive Anwendungen, maschinelles Lernen, Datenbanken und Bilder der Basisinstallation von R nachschlagen.
Hier finden Sie eine Auswahl an statistischen Funktionen, die in der Basisinstallation von R enthalten sind. Viele weitere nützliche Funktionen finden Sie in verschiedenen R-Packages.
Funktion
Was sie berechnet
mean(x)
Mittelwert der Zahlen im Vektor x
median(x)
Median der Zahlen im Vektor x
var(x)
Geschätzte Varianz der Grundgesamtheit, der die Zahlen für den Vektor x entnommen werden
sd(x)
Geschätzte Standardabweichung der Grundgesamtheit, der die Zahlen für den Vektor x entnommen werden
scale(x)
Standardwerte (z-Werte) für die Zahlen im Vektor x
Funktion
Was sie berechnet
sort(x)
Die Zahlen im Vektor x in aufsteigender Reihenfolge
sort(x)[n]
Die n. kleinste Zahl im Vektor x
rank(x)
Ränge der Zahlen (in aufsteigender Reihenfolge) im Vektor x
rank(-x)
Ränge der Zahlen (in absteigender Reihenfolge) im Vektor x
rank(x, ties.method= "average")
Ränge der Zahlen (in aufsteigender Reihenfolge) im Vektor x, wobei gleichrangige Zahlen den Durchschnitt der Ränge erhalten, die die Gleichrangigen erreicht hätten
rank(x, ties.method= "min")
Ränge der Zahlen (in aufsteigender Reihenfolge) im Vektor x, wobei gleichrangige Zahlen das Minimum der Ränge erhalten, die die Gleichrangigen erreicht hätten
rank(x, ties.method = "max")
Ränge der Zahlen (in aufsteigender Reihenfolge) im Vektor x, wobei gleichrangige Zahlen das Maximum der Ränge erhalten, die die Gleichrangigen erreicht hätten
quantile(x)
Das 0., 25., 50., 75. und 100. Perzentil (mit anderen Worten: die Quartile) der Zahlen im Vektor x. (Das ist kein Druckfehler: quantile(x) gibt die Quartile von x zurück.)
Funktion
Was sie berechnet
t.test(x,mu=n, alternative = "two.sided")
Zweiseitiger t-Test, dass der Mittelwert der Zahlen im Vektor x von n verschieden ist.
t.test(x,mu=n, alternative = "greater")
Einseitiger t-Test, dass der Mittelwert der Zahlen im Vektor x größer als n ist.
t.test(x,mu=n, alternative = "less")
Einseitiger t-Test, dass der Mittelwert der Zahlen im Vektor x kleiner als n ist.
t.test(x,y,mu=0, var.equal = TRUE, alternative = "two.sided")
Zweiseitiger t-Test, dass sich der Mittelwert der Zahlen im Vektor x vom Mittelwert der Zahlen im Vektor y unterscheidet. Die Varianzen in den beiden Vektoren werden als gleich angenommen.
t.test(x,y,mu=0, alternative = "two.sided", paired = TRUE)
Zweiseitiger t-Test, dass sich der Mittelwert der Zahlen in Vektor x vom Mittelwert der Zahlen in Vektor y unterscheidet. Die Vektoren stellen paarweise Stichproben dar.
Funktion
Was sie berechnet
aov(y∼x, data = d)
Einfaktorielle ANOVA, wobei die Zahlen im Vektor y die abhängige Variable und die Elemente des Vektors x die Stufen der unabhängigen Variable darstellen. Die Daten befinden sich im Datenrahmen d.
aov(y∼x + Error(w/x), data = d)
ANOVA mit wiederholten Messungen, wobei die Zahlen im Vektor y die abhängige Variable und die Elemente im Vektor x die Stufen einer unabhängigen Variablen darstellen. Error(w/x) gibt an, dass jedes Element im Vektor w alle Stufen von x durchläuft. (Mit anderen Worten: x ist eine wiederholte Messung.) Die Daten befinden sich im Datenrahmen d.
aov(y∼x*z, data = d)
Zweifaktorielle ANOVA, wobei die Zahlen im Vektor y die abhängige Variable und die Elemente der Vektoren x und z die Stufen der beiden unabhängigen Variablen darstellen. Die Daten befinden sich im Datenrahmen d.
aov(y∼x*z + Error(w/z), data = d)
Gemischte ANOVA, mit den Zahlen im Vektor z als abhängige Variable und den Elementen der Vektoren x und y als die Stufen der beiden unabhängigen Variablen. Error(w/z) gibt an, dass jedes Element im Vektor w alle Niveaus von z durchläuft. (Mit anderen Worten: z ist eine wiederholte Messung.) Die Daten befinden sich im Datenrahmen d.
Funktion
Was sie berechnet
cor(x,y)
Korrelationskoeffizient zwischen den Zahlen im Vektor x und den Zahlen im Vektor y
cor.test(x,y)
Korrelationskoeffizient zwischen den Zahlen in Vektor x und den Zahlen in Vektor y, zusammen mit einem t-Test auf die Signifikanz des Korrelationskoeffizienten.
lm(y∼x, data = d)
Lineare Regressionsanalyse mit den Zahlen im Vektor y als abhängige Variable und den Zahlen im Vektor x als unabhängige Variable. Die Daten befinden sich im Datenrahmen d.
Coefficients(a)
Steigung und Schnittpunkt des linearen Regressionsmodells a.
confint(a)
Konfidenzintervalle der Steigung und des Schnittpunkts des linearen Regressionsmodells a.
lm(y∼x+z, data = d)
Multiple Regressionsanalyse mit den Zahlen im Vektor y als abhängige Variable und den Zahlen in den Vektoren x und z als unabhängige Variablen. Die Daten befinden sich im Datenrahmen d.
Wenn Sie eine ANOVA oder eine Regressionsanalyse durchführen, speichern Sie die Analyse in einer Liste – zum Beispiel: a <- lm(y∼x, data = d). Um die Ergebnisse in einer Tabelle anzuzeigen, verwenden Sie die Funktion summary(): summary(a)
R bietet die Packages shiny und shinydashboard für die Entwicklung interaktiver Anwendungen. Hier finden Sie ausgewählte Funktionen aus diesen Packages.
Funktion
Was sie bewirkt
shinyApp()
Verbindet eine Benutzeroberfläche und einen Server zu einer shiny-Anwendung
fluidPage()
Erzeugt eine Browserseite, die sich mit der Breite des Browsers ändert
sliderInput()
Definiert einen Schieberegler und seine Eingabe für eine shiny-Benutzeroberfläche
plotOutput()
Reserviert einen Bereich der shiny-Benutzeroberfläche für einen Plot
renderPlot()
Zeichnet den Plot auf einer shiny-Benutzeroberfläche
textOutput()
Reserviert einen Bereich der shiny-Benutzeroberfläche für Text
renderText()
Fügt Text zu einer shiny-Benutzeroberfläche hinzu
selectInput()
Erzeugt ein Dropdown-Menü auf einer shiny-Benutzeroberfläche
Funktion
Was sie für eine shinydashboard-Seite erstellt
dashboardPage()
Die Seite
dashboardHeader()
Kopfzeile der Seite
dashboardSidebar()
Seitenleiste der Seite
sidebarMenu()
Ein Menü für eine Seitenleiste
menuItem()
Einen Eintrag für ein Menü
dashboardBody()
Hauptteil der Seite
fluidRow()
Eine Zeile mit variabler Breite innerhalb des dashboard-Hauptteils
box()
Ein Feld innerhalb einer Reihe
valueBoxOutput()
Einen reservierten Platz für eine value box
renderValueBox
Reaktiven Kontext für eine value box
valueBox
Eine value box
column()
Eine Spalte innerhalb einer fluidRow
tabBox()
Eine Registerkarte für eine Seite mit Registerkarten
R bietet eine Reihe von Packages und Funktionen für maschinelles Lernen. Hier eine Auswahl.
Package
Funktion
Was sie bewirkt
rattle
rattle()
Öffnet die grafische Benutzeroberfläche von Rattle
rpart
rpart()
Erzeugt einen Entscheidungsbaum
rpart.plot
prp()
Zeichnet einen Entscheidungsbaum
randomForest
randomForest()
Erstellt einen Zufallswald aus Entscheidungsbäumen
rattle
printRandomForests()
Gibt die Regeln der einzelnen Entscheidungsbäume eines Waldes aus
e1071
svm()
Trainiert eine Support-Vektor-Maschine
e1071
predict()
Erstellt einen Vektor der vorhergesagten Klassifizierungen auf der Grundlage einer Support-Vektor-Maschine
kernlab
ksvm()
Trainiert eine Support-Vektor-Maschine
base R
kmeans()
Erstellt eine k-Means-Clustering-Analyse
nnet
nnet()
Erzeugt ein neuronales Netz mit einer verborgenen Schicht
NeuralNetTools
plotnet()
Zeichnet ein neuronales Netz
nnet
predict()
Erstellt einen Vektor von Vorhersagen auf der Grundlage eines neuronalen Netzes
R wurde für statistische Analysen entwickelt und verfügt über eine breite Palette von Packages und Funktionen für den Umgang mit großen Datenmengen. Diese Auswahl ist nur die Spitze des Eisbergs.
Package
Funktion
Was sie bewirkt
didrooRFM
findRFM()
Führt eine Häufigkeits-, Frequenz- und Geldanalyse für eine Datenbank von Einzelhandelstransaktionen durch
vcd
assocstats()
Berechnet Statistiken für Tabellen mit kategorischen Daten
vcd
assoc()
Erstellt eine Grafik, die Abweichungen von der Unabhängigkeit in einer Tabelle mit kategorialen Daten zeigt
tidyverse
glimpse()
Bietet eine Teilansicht eines Datenrahmens mit den Spalten, die auf dem Bildschirm als Zeilen erscheinen
plotrix
std.error()
Berechnet den Standardfehler des Mittelwerts
plyr
inner_join()
Verbindet Datenrahmen
lubridate
wday()
Gibt den Wochentag eines Kalenderdatums zurück
lubridate
ymd()
Gibt ein Datum im R-Datumsformat zurück
Hier finden Sie einige Funktionen, die Ihnen den Einstieg in die Bildverarbeitung mit R erleichtern. Sie befinden sich alle im Package magick.
Funktion
Was sie bewirkt
image_read()
Liest ein Bild in R ein und verwandelt es in ein magick-Objekt
image_resize()
Ändert die Größe eines Bildes
image_rotate()
Dreht ein Bild
image_flip()
Dreht ein Bild um eine horizontale Achse
image_flop()
Dreht ein Bild um eine vertikale Achse
image_annotate()
Fügt Text zu einem Bild hinzu
image_background()
Legt den Hintergrund für ein Bild fest
image_composite()
Kombiniert Bilder
image_morph()
Lässt ein Bild allmählich in ein anderes übergehen (morphen)
image_animate()
Fügt eine Animation in das RStudio-Viewer-Fenster ein
image_apply()
Wendet eine Funktion auf jedes Bild eines animierten GIFs an
image_write()
Speichert eine Animation als wiederverwendbares GIF
RAlles-in-einem-Band für Dummies
Bibliografische Information der Deutschen Nationalbibliothek
Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar.
1. Auflage 2023
© 2023 Wiley-VCH GmbH, Boschstraße 12, 69469 Weinheim, Germany.
Original English language edition R All-in-One For Dummies © 2023 by Wiley Publishing, Inc.All rights reserved including the right of reproduction in whole or in part in any form. This translation published by arrangement with John Wiley and Sons, Inc.
Copyright der englischsprachigen Originalausgabe R All-in-One For Dummies © 2023 byWiley Publishing, Inc. Alle Rechte vorbehalten inklusive des Rechtes auf Reproduktion im Ganzen oder in Teilen und in jeglicher Form. Diese Übersetzung wird mit Genehmigung von John Wiley and Sons, Inc. publiziert.
Wiley, the Wiley logo, Für Dummies, the Dummies Man logo, and related trademarks and trade dress are trademarks or registered trademarks of John Wiley & Sons, Inc. and/or its affiliates, in the United States and other countries. Used by permission.
Wiley, die Bezeichnung »Für Dummies«, das Dummies-Mann-Logo und darauf bezogene Gestaltungen sind Marken oder eingetragene Marken von John Wiley & Sons, Inc., USA, Deutschland und in anderen Ländern.
Das vorliegende Werk wurde sorgfältig erarbeitet. Dennoch übernehmen Autoren und Verlag für die Richtigkeit von Angaben, Hinweisen und Ratschlägen sowie eventuelle Druckfehler keine Haftung.
Coverfoto: © Oleksii – stock.adobe.comKorrektur: Shangning Postel-Heutz
Print ISBN: 978-3-527-72129-0ePub ISBN: 978-3-527-84451-7
Joseph Schmuller ist seit über 25 Jahren in der IT tätig. Er ist Autor mehrerer Informatik-Bücher, darunter »Statistik mit R für Dummies«, »R in Projekten verwenden für Dummies« und alle fünf Ausgaben von »Statistik mit Excel für Dummies« (alle bei Wiley-VCH erschienen) sowie die drei Ausgaben von »Teach Yourself UML in 24 Hours« (SAMS). Für LinkedIn Learning hat Joseph Online-Kurse zu Statistik und Excel entwickelt und moderiert. Über 100.000 Menschen auf der ganzen Welt haben an diesen Kursen teilgenommen.
Joseph war sieben Jahre lang Chefredakteur des Magazins PC AI und hat zahlreiche Artikel über Spitzentechnologien verfasst.
Als ehemaliges Mitglied der American Statistical Association unterrichtete er Statistik an Schulen und Universitäten. Er hat einen BS vom Brooklyn College, einen MA von der University of Missouri-Kansas City und einen PhD von der University of Wisconsin, alle im Fachbereich Psychologie.
Er lebt mit seiner Familie in Jacksonville, Florida, wo er im Digital Cloud & Enterprise Architecture Team bei Availity arbeitet.
In liebevollem Gedenken an Jason Edward Sprague, der ein so wunderbarer Neffe war, wie ihn sich ein Onkel nur wünschen konnte.
Ich habe schon eine ganze Reihe von Für Dummies-Titeln geschrieben, aber dies ist mein erstes Alles-in-einem-Band. Ein Buch zu schreiben, das einfach alles enthält, scheint im ersten Moment eine kaum zu bewältigende Aufgabe zu sein, aber ich habe die Reise sehr genossen.
Besonders erfreulich war, dass ich wieder mit dem Wiley-Team zusammenarbeiten konnte. Kein Autor kann ein Buch ohne ein großartiges Team schreiben, und bei Wiley gibt es diese Teams. Der leitende Redakteur Steve Hayes hatte die Idee zu diesem Buch. Er brachte die Gang wieder zusammen und erweckte das Projekt zum Leben.
Nach unserer Arbeit an früheren Titeln sind meine Teamkollegen mittlerweile alle meine Freunde. Wie immer überwachte der Projektredakteur Paul Levesque meinen Text, verbesserte ihn, wo dies nötig war, und hielt alle beweglichen Teile in Bewegung. Ich habe es schon einmal gesagt, und ich sage es noch einmal: Alle Komponenten zu koordinieren ist viel schwieriger, als es klingt, und nicht annähernd so einfach, wie mein Freund Paul es aussehen lässt. Die Lektorin Becky Whitney hat meine Prosa geschärft und dafür gesorgt, dass Sie das Buch, das Sie in der Hand halten, leichter lesen können (und auch, dass Sie das Buch, das Sie lesen, leichter halten können). Der technische Redakteur Guy Hart-Davis hat dafür gesorgt, dass der Code und die technischen Aspekte korrekt sind. Ich bin der Eigentümer und alleinige Inhaber aller verbleibenden Fehler.
Apropos unentbehrliche Personen: Vielen Dank an meinen langjährigen Agenten und Freund David Fugate von Launchbooks.com, der mich bei diesem Vorhaben vertreten hat.
Meine Mentoren im Bereich Statistik am College und in der Universität haben mein Wissen und mein Denken geprägt und damit auch dieses Buch beeinflusst: Mitch Grossberg (Brooklyn College); Al Hillix, Jerry Sheridan, der verstorbene Mort Goldman und der verstorbene Larry Simkins (University of Missouri-Kansas City); ebenso wie Cliff Gillman und der verstorbene John Theios (University of Wisconsin-Madison). Ich hoffe, meine Bücher zeugen davon, was mir meine Mentoren vermittelt haben.
Wie immer gilt mein Dank Kathy für ihre Inspiration, ihre Geduld, ihre Unterstützung und ihre Liebe.
Cover
Titelblatt
Impressum
Über den Autor
Widmung
Danksagung des Autors
Einführung
Über dieses Buch
Was Sie getrost überspringen können
Törichte Annahmen über den Leser
In diesem Buch verwendete Symbole
Wie es jetzt weitergeht
Teil I: Eine Einführung in R
Kapitel 1: R – Was es macht und wie es dies macht
Statistische (und verwandte) Konzepte, die man einfach kennen muss
R beschaffen
RStudio beschaffen
Eine Sitzung mit R
Funktionen in R
Benutzerdefinierte Funktionen
Kommentare
Strukturen in R
for
-Schleifen und
if
-Anweisungen
Kapitel 2: Mit Packages arbeiten, Importieren und Exportieren
Packages installieren
Daten prüfen
Formeln in R
Weitere Packages
Das Tidyversum
Importieren und Exportieren
Teil II: Daten beschreiben
Kapitel 3: Grafik
Muster finden
Grundlagen beherrschen: Basisgrafiken in R
Einen Zahn zulegen – mit
ggplot2
Dranbleiben!
Kapitel 4: Finden Sie Ihre Mitte!
Mittelwerte: Die Verlockung des Durchschnitts
Der Durchschnitt in R:
mean()
Mediane: In der Mitte gefangen
Der Median in R:
median()
Statistik à la Mode
Der Modus in R
Kapitel 5: Weg vom Durchschnitt
Messung der Varianz
Zurück zu den Ursprüngen: Standardabweichung
Standardabweichung in R
Kapitel 6: Standards und Ränge
Ich kaufe ein Z!
Standardwerte in R
Wo stehen Sie?
Zusammenfassung
Kapitel 7: Eine Zusammenfassung des Ganzen
Wie viele?
Das Hoch und das Tief
In den Momenten leben
Bestimmung der Häufigkeit
Zusammenfassung eines Datenrahmens
Kapitel 8: Was ist normal?
Gut auf der Kurve liegen
Mit Normalverteilungen arbeiten
Treffen mit einem angesehenen Mitglied der Familie
Ausgabe der Standardnormalverteilung
Teil III: Daten analysieren
Kapitel 9: Ein Spiel mit dem Vertrauen: Schätzung
Stichprobenverteilungen verstehen
Ein AUSSERORDENTLICH wichtiges Konzept: Der zentrale Grenzwertsatz
Vertrauen: Alles hat seine Grenzen!
Annähern an ein
t
Kapitel 10: Hypothesentests mit einer Stichprobe
Hypothesen, Tests und Fehler
Hypothesentests und Stichprobenverteilungen
Wir kaufen noch ein Z
Z-Tests in R
t
for One
t
-Test in R
Die Arbeit mit t-Verteilungen
Visualisierung von
t
-Verteilungen
Eine Varianz testen
Mit Chi-Quadrat-Verteilungen arbeiten
Visualisierung von Chi-Quadrat-Verteilungen
Kapitel 11: Hypothesentests mit zwei Stichproben
Hypothesen für zwei
Stichprobenverteilungen unter der Lupe
t
for Two
Wie die Erbsen in der Schote: gleiche Varianzen
t-Tests in R
Perfekt kombiniert: Hypothesentests für paarweise Stichproben
t
-Test für paarweise Stichproben in R
Zwei Varianzen testen
Mit
F
-Verteilungen arbeiten
Visualisierung von F-Verteilungen
Kapitel 12: Tests von mehr als zwei Stichproben
Mehr als zwei testen
ANOVA in R
Eine andere Art von Hypothese, eine andere Art von Test
Dem Trend folgen
Trendanalyse in R
Kapitel 13: Kompliziertere Tests
Die Kombinationen knacken
Zwei-Faktoren-ANOVA in R
Zwei Arten von Variablen … auf einmal
Nach der Analyse
Multivariate Varianzanalyse
Kapitel 14: Regression: Lineare und multiple und das allgemeine lineare Modell
Das Streudiagramm
Linien grafisch darstellen
Regression: Was für eine Linie!
Hypothesen über die Regression testen
Lineare Regression in R
Prognosen treffen
Visualisierung des Streudiagramms und der Regressionslinie
Mit vielen Beziehungen gleichzeitig jonglieren: Mehrfache Regression
ANOVA: Eine andere Perspektive
Analyse der Kovarianz: Die letzte Komponente des allgemeinen linearen Modells
Doch halt – das war noch nicht alles!
Kapitel 15: Korrelation: Aufstieg und Fall von Beziehungen
Korrelation verstehen
Korrelation und Regression
Korrelation in R
Multiple Korrelation
Multiple Korrelation in R
Partielle Korrelation
Partielle Korrelation in R
Semipartielle Korrelation
Semipartielle Korrelation in R
Kapitel 16: Kurvilineare Regression: Wenn Beziehungen kompliziert werden
Was ist ein Logarithmus?
Was ist e?
Potenzregression
Exponentielle Regression
Logarithmische Regression
Polynomielle Regression: Eine höhere Potenz
Welches Modell sollten Sie verwenden?
Kapitel 17: Zu gegebener Zeit
Eine Zeitreihe und ihre Komponenten
Prognose: Eine bewegliche Erfahrung
Prognose: Ein anderer Weg
Mit realen Daten arbeiten
Kapitel 18: Nichtparametrische Statistik
Unabhängige Stichproben
Paarweise Stichproben
Zwei paarweise Stichproben: Wilcoxon-Vorzeichenrang-Test
Mehr als zwei Stichproben: Friedman-ANOVA
Mehr als zwei Stichproben: Cochrans Q
Korrelation: Spearmans r
S
Korrelation: Kendalls Tau
Eine Vorwarnung
Kapitel 19: Einführung in die Wahrscheinlichkeitsrechnung
Was ist Wahrscheinlichkeit?
Ergebnismengen und Wahrscheinlichkeiten
Zusammengesetzte Ereignisse
Bedingte Wahrscheinlichkeit
Große Ergebnismengen
R-Funktionen für Zählregeln
Diskrete und stetige Zufallsvariablen
Wahrscheinlichkeitsverteilungen und Dichtefunktionen
Die Binomialverteilung
Binom und negatives Binom in R
Hypothesentests mit der Binomialverteilung
Mehr über Hypothesentests: R vs. Tradition
Kapitel 20: Wahrscheinlichkeit trifft auf Regression: Logistische Regression
Beschaffung der Daten
Durchführung der Analyse
Ergebnisse visualisieren
Teil IV: Aus Daten lernen
Kapitel 21: Tools und Daten für Projekte zum maschinellen Lernen
Das ML-Repository der UCI (University of California-Irvine)
Das
Rattle
-Package – eine Einführung
Verwendung von
Rattle
für
iris
Cluster in Daten finden
Kapitel 22: Entscheidungen, Entscheidungen!
Komponenten des Entscheidungsbaums
Entscheidungsbäume in R
Entscheidungsbäume in
Rattle
Projekt: Ein komplexerer Entscheidungsbaum
Vorgeschlagenes Projekt: Titanic
Kapitel 23: In den Wald – per Zufall
Das Wachsen eines Zufallswaldes
Zufallswälder in R
Projekt: Glas identifizieren
Vorgeschlagenes Projekt: Pilze identifizieren
Kapitel 24: Unterstützen Sie Ihren lokalen Vektor
Einige Daten, mit denen Sie arbeiten können
Trennbarkeit: Normalerweise nichtlinear
Stützvektor-Maschinen in R
Mit
kernlab
arbeiten
Projekt: Und wer sind Sie?
Erkundung der Daten
Kapitel 25: k-Means-Clustering
Wie das Ganze funktioniert
k-Means-Clustering in R
Projekt: Glas-Cluster
Kapitel 26: Neuronale Netze
Netzwerke im Nervensystem
Künstliche neuronale Netze
Neuronale Netze in R
Projekt: Banknoten
Projektvorschläge: Mit
Rattle
experimentieren
Kapitel 27: Datenerforschung im Marketing
Analyse von Einzelhandelsdaten
Maschinelles Lernen
Projekt: Ein weiterer Datensatz
Kapitel 28: Aus der Stadt, die niemals schläft
Der Datensatz
Aufwärmen
Kurzer Projektvorschlag: Namen von Fluggesellschaften
Projektvorschlag: Verzögerungen bei der Abreise
Projektvorschlag: Analyse der Unterschiede zwischen den Wochentagen
Projekt: Verspätung und Wetter
Teil V: R in der Praxis: Einige Projekte, die Sie auf Trab halten
Kapitel 29: Mit einem Browser arbeiten
Auf Hochglanz gebracht
Ihr erstes
shiny
-Projekt
Mit
ggplot
arbeiten
Ein weiteres shiny-Projekt
Projektvorschlag
Kapitel 30: Dashboards verwenden
Das Package
shinydashboard
Dashboard-Layouts
Mit der Seitenleiste arbeiten
Interaktion mit Grafiken
Abbildungsverzeichnis
Stichwortverzeichnis
End User License Agreement
Kapitel 1
Abbildung 1.1: Beziehungen zwischen Grundgesamtheiten, Stichprobe...
Abbildung 1.2: RStudio, unmittelbar nachdem Sie es installiert un...
Abbildung 1.3: Die Registerkarte
PACKAGES
in RStudio.
Abbildung 1.4: Die Registerkarte
HELP
(
HILFE
) in RStudio.
Abbildung 1.5: RStudio, nachdem Sie auf das Symbol in der oberen ...
Abbildung 1.6: Eine Zeile auf der Registerkarte
ENVIRONMENT
(
UMGE
...
Abbildung 1.7: Die Registerkarte
HISTORY
(
VERLAUF
) nach dem Erste...
Abbildung 1.8: Das Dialogfeld
QUIT R SESSION
(
R-SITZUNG BEENDEN
).
Kapitel 2
Abbildung 2.1: Die Registerkarte
PACKAGES
in RStudio.
Abbildung 2.2: Die Registerkarte
HELP
(
HILFE
), nachdem Sie auf de...
Abbildung 2.3: Das Dialogfeld
INSTALL PACKAGES
(
PACKAGES INSTALLI
...
Kapitel 3
Abbildung 3.1: Teil des Datenrahmens
Cars93
.
Abbildung 3.2: Histogramm der Preise der Autos im Datenrahmen
Car
...
Abbildung 3.3: Tabelle 3.1 als Balkendiagramm.
Abbildung 3.4: Tabelle 3.1 als Tortendiagramm.
Abbildung 3.5: Benzinverbrauch im Stadtverkehr und Motorleistung ...
Abbildung 3.6: Boxplot für die Motorleistung im Verhältnis zur An...
Abbildung 3.7: Ursprüngliches Histogramm der Verteilung der Preis...
Abbildung 3.8: Dichtediagramm der Verteilung der Preise in
Cars93
Abbildung 3.9: Dichtediagramm mit einer zusätzlichen Linie.
Abbildung 3.10: Das anfängliche Balkendiagramm für
table(Cars93$
...
Abbildung 3.11: Punktdiagramm für die Daten in Tabelle 3.1.
Abbildung 3.12: Balkendiagramm der Daten in Tabelle 3.2.
Abbildung 3.13: Ursprüngliches Balkendiagramm der in Tabelle 3.2 aufgelisteten Daten.
Abbildung 3.14: Der Kraftstoffverbrauch abhängig von der Motorle...
Abbildung 3.15: Mehrere Streudiagramme für die Beziehungen zwisc...
Abbildung 3.16: Anwendung von
ggplot()
– und sonst nichts.
Abbildung 3.17: Das ursprüngliche Histogramm für
Price
in
Cars93
Abbildung 3.18: Das fertige Preis-Histogramm.
Abbildung 3.19: Balkendiagramm für
Car Type
.
Abbildung 3.20: Das anfängliche Punktdiagramm für
Type
.
Abbildung 3.21: Das geänderte Punktdiagramm für
Type
.
Abbildung 3.22: Balkendiagramm für die Daten in Tabelle 3.2, erstellt mit
ggplot()
.
Abbildung 3.23: Kraftstoffverbrauch vs. Motorleistung in
Cars93
.
Abbildung 3.24: Das ursprüngliche
ggplot2
-Streudiagramm für den ...
Abbildung 3.25: Modifiziertes Streudiagramm für den Kraftstoffve...
Abbildung 3.26: Streudiagramm-Matrix für den Kraftstoffverbrauch...
Abbildung 3.27: Das Hinzufügen von Zylindern ergibt diese Streud...
Abbildung 3.28: Box-Diagramm für Motorleistung vs. Anzahl der Zy...
Abbildung 3.29: Box-Diagramm mit Datenpunkten.
Abbildung 3.30: Box-Diagramm mit gejitterten Datenpunkten.
Kapitel 4
Abbildung 4.1: Histogramme für die Motorleistungen US-amerikanisc...
Kapitel 7
Abbildung 7.1: Drei Histogramme, die drei Arten von Schiefe zeige...
Abbildung 7.2: Histogramme für die Motorleistungen von Fahrzeugen...
Abbildung 7.3: Dichte-Diagramme für die Motorleistungen bei Fahrz...
Abbildung 7.4: Zwei Histogramme, die zwei Arten von Wölbung zeige...
Abbildung 7.5: Kumulatives Häufigkeitshistogramm der Preisdaten i...
Abbildung 7.6: Empirische kumulative Verteilungsfunktion für die ...
Abbildung 7.7: Der ecdf-Wert für die Preisdaten in
Cars93
, darges...
Abbildung 7.8: Die ecdf für Preisdaten mit einer gestrichelten ve...
Abbildung 7.9: Die ecdf für Preisdaten mit Quartilwerten auf der
Abbildung 7.10: Mit
describe(autos)
erstelltes Diagramm.
Abbildung 7.11: Mit
datadensity(autos)
erstelltes Diagramm.
Kapitel 8
Abbildung 8.1: Die Glockenkurve.
Abbildung 8.2: Die Normalverteilung des IQ, unterteilt in Standar...
Abbildung 8.3: Ausgangsdiagramm der Normaldichtefunktion für den ...
Abbildung 8.4: Die Normaldichtefunktion für den IQ mit Standardab...
Abbildung 8.5: Das IQ-Diagramm mit vertikalen gestrichelten Linie...
Abbildung 8.6: Das fertige Produkt: Das IQ-Diagramm ohne Abstand ...
Abbildung 8.7: Visualisierung der Wahrscheinlichkeit eines IQ-Wer...
Abbildung 8.8: Kumulative Dichtefunktion der IQ-Verteilung.
Abbildung 8.9: Mit
qnormGC()
erstelltes Diagramm.
Abbildung 8.10: Die normale kumulative Dichtefunktion mit Quarti...
Abbildung 8.11: Die Standardnormalverteilung, aufgeteilt nach St...
Abbildung 8.12: Die Standardnormalverteilung, dividiert durch di...
Kapitel 9
Abbildung 9.1: Die Stichprobenverteilung des Mittelwerts erstelle...
Abbildung 9.2: Die Stichprobenverteilung des Mittelwertes, aufget...
Abbildung 9.3: Stichprobenverteilung des Mittelwerts auf der Grun...
Abbildung 9.4: Die Stichprobenverteilung des Mittelwerts mit neu ...
Abbildung 9.5: Die Stichprobenverteilung des Mittelwertes für den...
Abbildung 9.6: Die 95%-Konfidenzgrenzen der Stichprobenverteilung...
Abbildung 9.7: Einige Mitglieder der
t
-Verteilungsfamilie.
Kapitel 10
Abbildung 10.1: H
0
und H
1
entsprechen jeweils einer Stichprobenv...
Abbildung 10.2: Der zweiseitige Ablehnungsbereich für α = 0,05.
Abbildung 10.3:
t
-Verteilung mit 3 df, grundlegendes R.
Abbildung 10.4: Drei Verteilungen auf der Suche nach einer Legen...
Abbildung 10.5: Das endgültige Diagramm, einschließlich der Lege...
Abbildung 10.6: Drei t-Verteilungskurven, aufgezeichnet in ggplo...
Abbildung 10.7: Drei
t
-Verteilungskurven, wobei die Linientypen ...
Abbildung 10.8: Das Endprodukt mit angepasster Legende.
Abbildung 10.9: Zwei Mitglieder der Chi-Quadrat-Familie.
Abbildung 10.10: Zwei Mitglieder der Chi-Quadrat-Familie, darge...
Abbildung 10.11: Zwei Mitglieder der Chi-Quadrat-Familie, darge...
Kapitel 11
Abbildung 11.1: Erstellung der Stichprobenverteilung der Differe...
Abbildung 11.2: Die Stichprobenverteilung der Differenz zwischen...
Abbildung 11.3: Die Stichprobenverteilung der Differenz zwischen...
Abbildung 11.4: Boxplot der Daten von FarKlempt Machines im grun...
Abbildung 11.5: Boxplot von FarKlempt Machines-Daten in
ggplot2
.
Abbildung 11.6: Mittelwerte und Standardfehler für die Maschinen...
Abbildung 11.7: Zwei Mitglieder der F-Verteilungsfamilie.
Abbildung 11.8: Zwei Mitglieder der F-Verteilungsfamilie in
ggpl
...
Abbildung 11.9: Zwei Mitglieder der
F
-Verteilungsfamilie in
ggpl
...
Kapitel 12
Abbildung 12.1: Die
F
-Verteilung mit 2 und 24 Freiheitsgraden.
Abbildung 12.2: Boxplot der Stichprobenergebnisse.
Abbildung 12.3: Die Mittelwerte und Standardfehler für das Beisp...
Abbildung 12.4: Ein quadratischer Trend mit vier Mittelwerten.
Abbildung 12.5: Ein kubischer Trend mit vier Mittelwerten.
Kapitel 13
Abbildung 13.1: Kombination der Stufen der Präsentationsmethode ...
Abbildung 13.2: Mittelwerte und Standardfehler der Präsentations...
Abbildung 13.3: Mittelwerte und Standardfehler für die Studie fü...
Abbildung 13.4: Drei Boxplots zeigen die Verteilung der Ergebnis...
Kapitel 14
Abbildung 14.1: Eignung (
Aptitude
) und Leistung (
Performance
) be...
Abbildung 14.2: Der Graph für y = 4 + 2x.
Abbildung 14.3: Die Abweichungen in einem Streudiagramm.
Abbildung 14.4: Streudiagramm und Regressionslinie für die 16 Fa...
Abbildung 14.5: Darstellung der Residuen für das FarMisht-Beispi...
Abbildung 14.6: Streudiagramm für das FarMisht-Beispiel für mult...
Abbildung 14.7: Streudiagramm für das FarMisht-Beispiel einer mu...
Abbildung 14.8: Streudiagramm für das FarMisht-Beispiel für mult...
Abbildung 14.9: Gewichtszunahme im Vergleich zur Behandlung im D...
Abbildung 14.10: Gewichtszunahme im Vergleich zu
Treat
und Prew...
Abbildung 14.11: Gewichtszunahme im Vergleich zu
Treat
und
Prew
...
Kapitel 15
Abbildung 15.1: Eignung und Leistung bei FarMisht Consulting.
Abbildung 15.2: Streudiagramm für 16 FarMisht-Berater, einschlie...
Abbildung 15.3: Ein Punkt im Streudiagramm und die zugehörigen E...
Abbildung 15.4: Die Korrelationsmatrix für Eignung, Leistung und...
Abbildung 15.5: Die Korrelationsmatrix für Eignung, Leistung und...
Abbildung 15.6: Die Korrelationsmatrix für Eignung, Leistung und...
Kapitel 16
Abbildung 16.1: Hypothetische Darstellung des Erlernens einer Ko...
Abbildung 16.2: Verhältnis zwischen Körpergewicht und Gehirngewi...
Abbildung 16.3: Die Beziehung zwischen dem logarithmischen Wert ...
Abbildung 16.4: Die Beziehung zwischen dem Logarithmus des Körpe...
Abbildung 16.5: Originaldiagramm des Gehirngewichts und des Körp...
Abbildung 16.6: Wie die Kopfhöhe (
head.cm
) mit der Zeit abnimmt.
Abbildung 16.7: Wie
log(head.cm)
mit der Zeit abnimmt, einschlie...
Abbildung 16.8: Die Abnahme von
head.cm
im Laufe der Zeit, mit d...
Abbildung 16.9:
MPG.highway
und
horsepower
im Datenrahmen Cars93...
Abbildung 16.10:
MPG.highway
und
Log(Horsepower)
in
Cars93
, zus...
Abbildung 16.11:
MPG.highway
und
Horsepower
, mit der logarithmi...
Abbildung 16.12: Streudiagramm des Medianwerts (
medv
) gegenüber...
Kapitel 17
Abbildung 17.1: Visualisierung der MeesKyte-Zeitreihe.
Abbildung 17.2: Komponenten der MeesKyte-Zeitreihe.
Abbildung 17.3: Die MeesKyte-Zeitreihe, saisonbereinigt.
Abbildung 17.4: Die MeesKyte-Zeitreihe und der gleitende Durchsc...
Abbildung 17.5: Die MeesKyte-Zeitreihe und Prognosen für acht kü...
Abbildung 17.6: Die MeesKyte-Zeitreihe und Prognosen für acht zu...
Kapitel 18
Abbildung 18.1: Boxplot der Daten in Tabelle 18.1.
Kapitel 19
Abbildung 19.1: Die Wahrscheinlichkeitsverteilung für
x
, eine Zu...
Abbildung 19.2: Die Standardnormalverteilung: eine Wahrscheinlic...
Abbildung 19.3: Binomialverteilung der Anzahl der Erfolge bei ze...
Abbildung 19.4: Kumulative Verteilung der Anzahl der Erfolge bei...
Kapitel 20
Abbildung 20.1: Das Streudiagramm für die Daten in Tabelle 20.1.
Abbildung 20.2: Logistisches Regressionsmodell für die Daten in Tabelle 20.1.
Abbildung 20.3: Logistisches Regressionsmodell, dargestellt in
g
...
Kapitel 21
Abbildung 21.1: Die Verteilungen der Variablen in
iris.uci
.
Abbildung 21.2: Dichtediagramme für die Variablen von
iris.uci
.
Abbildung 21.3: Streudiagramm-Matrix für den
iris.uci
-Datenrahme...
Abbildung 21.4: Streudiagramm-Matrix für
iris.uci,
gerendert in
Abbildung 21.5: Das
Rattle
-Fenster.
Abbildung 21.6: Das Dropdown-Menü im Feld
DATA NAME
(
DATENNAME
) ...
Abbildung 21.7: Die Registerkarte
DATA
(
DATEN
) in
Rattle
nach de...
Abbildung 21.8: Die Registerkarte
EXPLORE
(
ERKUNDEN
) in
Rattle
.
Abbildung 21.9: Die Registerkarte
EXPLORE
(
ERKUNDEN
) in
Rattle
, ...
Abbildung 21.10: In
Rattle
gerenderte Boxplots für die vier num...
Abbildung 21.11: Ein hierarchisches Clustering in
Rattle
.
Abbildung 21.12: Dendrogramm für den Datensatz
iris.uci
.
Kapitel 22
Abbildung 22.1: Ein Entscheidungsbaum zur Klassifizierung von Ir...
Abbildung 22.2: Entscheidungsbaum für
iris.uci
, erstellt mit
rpa
...
Abbildung 22.3: Die Registerkarte
MODEL
(
MODELL
) in
Rattle
.
Abbildung 22.4: Die Registerkarte
MODEL
(
MODELL
) in
Rattle
, nach...
Abbildung 22.5: Ein Entscheidungsbaum für
iris.uci
, basierend au...
Abbildung 22.6: Die Registerkarte
EXECUTE
(
AUSFÜHREN
) von
R
...
Abbildung 22.7: Die Registerkarte
DATA
(
DATEN
) in
Rattle
nach de...
Abbildung 22.8: Die Verteilung der Bewertungen im Datenrahmen
ca
...
Abbildung 22.9: Der Entscheidungsbaum für
car.uci
, gerendert in
Abbildung 22.10: Fehlermatrizen für den Entscheidungsbaum für
c
...
Abbildung 22.11: Die Registerkarte
DATA
(
DATEN
) in
Rattle
, nach...
Kapitel 23
Abbildung 23.1: Drei von
Rattle
erzeugte Entscheidungsbäume für ...
Abbildung 23.2:
iris.forest
-Fehlerraten in Abhängigkeit von der ...
Abbildung 23.3:
iris.forest
-Fehlerraten für 1 bis 100 Bäume.
Abbildung 23.4: Die Darstellung des Einflusses der Variablen in
Abbildung 23.5: Die Registerkarte
DATA
(
DATEN
) in
Rattle
nach Au...
Abbildung 23.6: Die Registerkarte
EXPLORE
(
ERKUNDEN
) von
Rattle
,...
Abbildung 23.7: Die Verteilung von
Type
im Datenrahmen
glass.uci
Abbildung 23.8: Zusammenfassung des Zufallswalds für
glass.uci
.
Abbildung 23.9: Die Darstellung des Einflusses der Variablen für...
Kapitel 24
Abbildung 24.1:
Petal Width
vs.
Petal Length
im Datenrahmen
set.
...
Abbildung 24.2:
Petal Width
vs.
Petal Length
mit einer Trennungs...
Abbildung 24.3: Rand- und Stützvektoren für die Trennungsgrenze.
Abbildung 24.4:
Petal Width
(Blütenblattbreite) im Vergleich zur...
Abbildung 24.5: Soft-Margin-Klassifizierung im Datenrahmen
vers.
...
Abbildung 24.6: Ein Kern im Datenrahmen
vers.virg
.
Abbildung 24.7: Darstellung der SVM für den
vvx
-Trainingssatz, V...
Abbildung 24.8: Darstellung der SVM für den
vvx
-Trainingssatz, V...
Abbildung 24.9: Die
Rattle
-Registerkarte
DATA
(
DATEN
), nachdem d...
Abbildung 24.10: Die
Ratttle
-Registerkarte
EXPLORE
(
ERKUNDEN
), ...
Abbildung 24.11: Die Verteilung von Republikanern und Demokrate...
Abbildung 24.12: Die Rattle-Registerkarte
MODEL
(
MODELL
), einge...
Abbildung 24.13: Die Ergebnisse der SVM für den
House
-Datenrahm...
Abbildung 24.14: Evaluierung der SVM anhand des Testsatzes.
Kapitel 25
Abbildung 25.1: Zwei Dimensionen des
iris
-Datenrahmens.
Abbildung 25.2: k-Means-Clustering des
iris
-Datenrahmens mit dre...
Abbildung 25.3: Summe innerhalb der Quadratsumme im Vergleich zu...
Abbildung 25.4: k-Means-Clustering des
iris
-Datenrahmens mit sec...
Abbildung 25.5: Einrichten der Variablen für das
k-Means-
Cluster...
Abbildung 25.6: Einrichtung des
k-Means-
Clusterings für den Date...
Kapitel 26
Abbildung 26.1: Neuronen im Nervensystem.
Abbildung 26.2: Ein künstliches neuronales Netz, das lernt, Iris...
Abbildung 26.3: Das neuronale Netz für
iris.train
, gerendert mit...
Abbildung 26.4:
Entropy
und
Kurtosis
im Datenrahmen
banknote.uci
Abbildung 26.5: Die
Rattle
-Registerkarte
DATA
(
DATEN
) nach dem E...
Abbildung 26.6: Die
Rattle
-Registerkarte
MODEL
(Modell) nach der...
Abbildung 26.7: Das neuronale Netz für den Datenrahmen
banknote.
...
Abbildung 26.8: Balkendiagramm der Gewichtung der einzelnen Vari...
Abbildung 26.9: Mittlerer quadratischer Fehler und Iterationen i...
Kapitel 27
Abbildung 27.1: Verteilung der endgültigen gewichteten Scores, n...
Abbildung 27.2: Die Verteilung der Klassen im Datenrahmen
retail
...
Abbildung 27.3: Gesamtsumme der Quadrate im Vergleich zur Anzahl...
Abbildung 27.4: Die
Rattle
-Registerkarte
DATA
(Daten) nach der A...
Abbildung 27.5: Die Registerkarte
CLUSTER
, nachdem die Auswahlen...
Kapitel 28
Abbildung 28.1:
View(flights)
fügt diese Ansicht in das RStudio-...
Abbildung 28.2: Mittlere Flugdauer im Vergleich zum Tag in
Newar
...
Abbildung 28.3: Das Ergebnis der Verknüpfung von
flights
mit
air
...
Abbildung 28.4: Mittlere Abflugverspätung (min) in Abhängigkeit ...
Abbildung 28.5: Facettengrafik der mittleren Abflugverspätung (M...
Kapitel 29
Abbildung 29.1: Das Dialogfeld
NEW SHINY WEB APPLICATION
(
NEUE S
...
Abbildung 29.2: Das Dialogfeld
CHOOSE DIRECTORY
(
VERZEICHNIS AUS
...
Abbildung 29.3: Das Skriptfenster nach dem Klicken auf
CREATE
(
E
...
Abbildung 29.4: Ihr erstes
shiny
-Projekt.
Abbildung 29.5: Die
shiny
-App mit Mittelwert, Median und Standar...
Abbildung 29.6: Die erste Version der
shiny
-App aus dem vorigen ...
Abbildung 29.7: Hinzufügen eines Schiebereglers, um die Auswahl ...
Abbildung 29.8: Die
ggplot2
-Version der ersten
shiny
-App mit hin...
Abbildung 29.9: Eine
shiny
-Anwendung für den Datenrahmen
airqual
...
Abbildung 29.10: Die App aus dem vorigen Abschnitt, gerendert i...
Kapitel 30
Abbildung 30.1: Erste
shiny
-App aus Kapitel 29, gerendert in
shi
...
Abbildung 30.2: Anfang eines
shinydashboard
-Dashboards.
Abbildung 30.3: Hinzufügen eines Schiebereglers und einer Grafik...
Abbildung 30.4: Hinzufügen von Funktionen.
Abbildung 30.5: Das Dashboard, nachdem Status und Hintergrund hi...
Abbildung 30.6: Das Dashboard, wobei die Boxen nun in Spalten an...
Abbildung 30.7: Das Dashboard mit den Registerkarten
Central
Ten
...
Abbildung 30.8: Das Dashboard, mit einer
TabBox
für Statistiken,...
Abbildung 30.9: Das Dashboard mit Statistiken, die in
ValueBoxen
Abbildung 30.10: Der erste Bildschirm des Dashboards zeigt eine...
Abbildung 30.11: Der zweite Bildschirm des Dashboards zeigt ein...
Abbildung 30.12: Das Dashboard mit dem Schieberegler in der Sei...
Abbildung 30.13: Das Dashboard mit ausgewählter Normalverteilun...
Abbildung 30.14: Daten zu Müslimarken in den USA, anhand derer ...
Abbildung 30.15: Wenn Sie auf das Diagramm klicken, werden die ...
Abbildung 30.16: Markierens (den Mauszeiger bei gedrückter Maus...
Abbildung 30.17: Ein Dashboard mit Markierfunktion für den Date...
Cover
Titelblatt
Impressum
Über den Autor
Inhaltsverzeichnis
Einführung
Fangen Sie an zu lesen
Abbildungsverzeichnis
Stichwortverzeichnis
End User License Agreement
1
2
3
4
5
6
7
11
12
13
14
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
119
120
121
122
123
124
125
126
127
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
375
376
377
378
379
380
381
382
383
384
385
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
530
531
533
534
535
536
537
538
539
540
541
542
543
544
545
546
547
548
549
550
551
552
553
554
555
556
557
558
559
560
561
562
563
564
565
566
567
568
569
570
571
572
573
574
575
576
577
578
579
580
581
583
584
585
586
587
588
589
590
591
592
593
594
595
596
597
598
599
600
601
602
603
604
605
606
607
608
609
610
611
613
614
615
616
617
618
619
620
621
622
623
624
625
626
627
628
629
630
631
632
633
634
635
636
637
638
639
640
641
642
643
644
645
647
648
649
650
651
652
653
654
657
658
659
660
661
662
663
664
In diesem Buch habe ich alle Informationen zusammengetragen, die Sie benötigen, um mit R auf Anhieb zurechtzukommen. Der Schwerpunkt liegt natürlich auf dem Thema Statistik, da die Entwickler von R diese Sprache für die Datenanalyse entwickelt haben.
Sie sollten also die Grundlagen der Statistik verstehen. Und gleich vorab: Dieses Alles-in-einem-Band-Buch beschreibt keine vorgefertigten Lösungen oder Antworten. Ich habe Statistik nie auf diese Weise gelehrt und werde es auch nie so tun. Bevor ich Ihnen zeige, wie Sie R einsetzen, um mit einem statistischen Konzept zu arbeiten, vermittle ich Ihnen eine solide Grundlage, worum es bei diesem Konzept überhaupt geht.
Tatsächlich sind die Teile 2 und 3 dieses Kompendiums eine Einführung in die Statistik, wobei zufällig R als Mittel zur Erklärung statistischer Ideen verwendet wird.
Teil 4 wendet ebenfalls diese Methode an. Dort werden die Ideen hinter dem maschinellen Lernen vermittelt, bevor Sie erfahren, wie R verwendet wird, um sie zu implementieren. Teil 5 präsentiert eine Reihe von Projekten, anhand derer Sie Ihre neu erworbenen R-Kenntnisse praxisnah üben können.
Möchten Sie mehr erfahren? Lesen Sie weiter!
Dieses Buch (und gegebenenfalls das E-Book) besteht aus fünf Teilen, die mehrere Dimensionen von R abdecken.
Wie bereits erwähnt, beschäftigt sich die Sprache R mit Statistik. Dementsprechend bietet Teil 1 eine Einführung in die grundlegenden Konzepte der Statistik, die Sie einfach kennen müssen, um mit R voranzukommen.
Anschließend lernen Sie R und RStudio kennen. RStudio ist eine weit verbreitete Entwicklungsumgebung für die Arbeit mit R. Zunächst beschreibe ich die Grundlagen des R-Codes und gehe auf R-Funktionen und -Strukturen ein.
Richtig lebendig wird R, wenn Sie die speziellen Packages verwenden, die Sie schon früh kennenlernen.
Bei der Arbeit mit Statistiken geht es oft darum, Daten auf sinnvolle Weise zusammenzufassen. In Teil 2 erfahren Sie, wie Sie dazu vorgehen.
Die meisten Menschen wissen, was Durchschnittswerte sind und wie man sie berechnet. Aber das ist nicht die ganze Geschichte. In Teil 2 erzähle ich Ihnen von zusätzlichen deskriptiven Statistiken, die die Lücken füllen, und ich zeige Ihnen, wie Sie R verwenden, um diese Statistiken zu berechnen und damit zu arbeiten. Außerdem lernen Sie, Grafiken zu erstellen, die die Datenbeschreibungen und -analysen visualisieren, die Sie in Teil 2 und 3 kennenlernen.
Teil 3 befasst sich mit dem grundlegenden Ziel der statistischen Analyse: über die reinen Daten hinauszugehen und Ihnen dabei zu helfen, Entscheidungen zu treffen. In der Regel handelt es sich bei den Daten um Messungen einer Stichprobe, die einer großen Grundgesamtheit entnommen wurde. Das Ziel ist es, anhand dieser Daten herauszufinden, was in der Grundgesamtheit vor sich geht.
Dies wirft eine ganze Reihe von Fragen auf: Was bedeutet ein Durchschnitt? Was bedeutet die Differenz zwischen zwei Durchschnittswerten? Sind zwei Dinge miteinander verbunden? Dies sind nur einige der Fragen, die ich in Teil 3 anspreche. Hier werden Sie auch lernen, die R-Tools anzuwenden, die Ihnen helfen, diese Fragen zu beantworten.
Die Erstellung effektiver Modelle für maschinelles Lernen erfordert Erfahrung. In Teil 4 sammeln Sie Erfahrung anhand von Projekten zum maschinellen Lernen. Zusätzlich zu den Projekten, die Sie zusammen mit mir durchführen, schlage ich Ihnen weitere Projekte vor, an denen Sie sich ausprobieren können.
Zu Beginn werde ich Ihnen das University of California-Irvine Machine Learning Repository vorstellen, das die Datensätze für die meisten Projekte in Teil 4 bereitstellt.
Um Ihnen einen sanften Einstieg zu ermöglichen, zeige ich Ihnen das Rattle-Package zur Erstellung von Anwendungen für maschinelles Lernen. Es ist eine freundliche Schnittstelle zu den Funktionen von R für maschinelles Lernen. Ich mag Rattle sehr, und ich gehe davon aus, Sie werden es auch mögen. Sie verwenden es, um Entscheidungsbäume, Zufallswälder, Support-Vektor-Maschinen, den k-Means-Algorithmus und neuronale Netze kennenzulernen und mit ihnen zu arbeiten.
Sie werden mit sehr großen Datensätzen arbeiten – nicht die Terabytes und Petabytes, mit denen es Datenwissenschaftler zu tun haben, aber groß genug, um den Einstieg zu finden. In einem Projekt analysieren Sie einen Datensatz von mehr als 500 000 Flügen einer Fluggesellschaft. In einem anderen Projekt führen Sie eine Kundensegmentierungsanalyse von über 300 000 Kunden eines Online-Händlers durch.
Wie der Titel vermuten lässt, ist auch Teil 5 projektorientiert aufgebaut.
In den hier vorgestellten Projekten erstellen Sie Anwendungen, die auf Benutzer reagieren. Ich zeige Ihnen das Package shiny für die Arbeit mit Webbrowsern und das Package shinydashboard für die Erstellung von Dashboards.
All dies führt Sie weg von dem ursprünglichen Lebensauftrag von R, aber Sie bekommen eine Vorstellung davon, wie Sie sich mit R in völlig neue Richtungen entwickeln können.
Wenn Sie eine Weile mit R gearbeitet haben, werden Sie vielleicht einige dieser neuen Richtungen für sich entdecken!
Jedes Nachschlagewerk bietet eine Fülle von Informationen; dieses Buch bildet keine Ausnahme. Ich wollte, dass alle bereitgestelllten Informationen nützlich sind, aber ich habe nicht alles auf das gleiche Niveau ausgerichtet. Wenn Sie also nicht tief in die Materie eindringen wollen, können Sie die mit dem Symbol für technisches Material gekennzeichneten Abschnitte überspringen und auch die Einschübe auslassen.
Ich gehe davon aus, dass
Sie wissen, wie man mit Windows oder dem Mac arbeitet. Ich gehe nicht auf die Details von Zeigen, Klicken, Auswählen usw. ein.
Sie R und RStudio installieren (wie das geht, erkläre ich in
Teil 1
) und den Beispielen folgen können. Ich verwende die Windows-Version von RStudio, aber Sie sollten keine Probleme haben, wenn Sie mit einem Mac arbeiten.
Wie in allen Für-Dummies-Büchern helfen Ihnen Symbole bei Ihrer Reise. Sie werden am Seitenrand angezeigt, um Sie auf bestimmte Absätze aufmerksam zu machen.
Dieses Symbol weist auf einen Hinweis oder eine Abkürzung hin, die Ihnen bei Ihrer Arbeit helfen können.
Dieses Buch zeigt zeitlose Weisheiten auf, die Sie auf Ihrem Weg zur Erleuchtung mitnehmen können.
Achten Sie auf dieses Symbol! Es macht Sie darauf aufmerksam, etwas zu vermeiden, das Ihnen die Arbeit erschweren könnte.
Wie ich bereits in »Was Sie getrost überspringen können« erwähnt habe, zeigt dieses Symbol an, dass Sie den Inhalt überblättern können, wenn er zu technisch ist. (Ich habe diese Inhalte auf ein Minimum beschränkt.)
Legen Sie los! Sie können überall anfangen, aber hier ein paar Tipps. Sie möchten sich in R und Packages einarbeiten? Dann ist Teil 1 genau das Richtige für Sie. Ihre letzte Statistikvorlesung ist schon eine Weile her (oder vielleicht haben Sie noch nie eine besucht)? Dann fangen Sie in Teil 2 an. Für alles andere gucken Sie im Inhaltsverzeichnis oder im Index nach und greifen gezielt auf die benötigten Informationen zu.
Wenn Sie lieber von der ersten bis zur letzten Seite lesen möchten, blättern Sie einfach weiter …
Teil I
IN DIESEM TEIL …
R – Was es macht und wie es dies machtMit Packages arbeiten, Importieren und ExportierenKapitel 1
IN DIESEM KAPITEL
Einführung in die StatistikR und RStudio auf Ihrem Computer installierenEine Sitzung mit R startenMit Funktionen in R arbeitenMit Strukturen in R arbeitenSie sind also bereit für eine Reise in die wunderbare Welt von R! R wurde von Statistikern und Datenwissenschaftlern für Statistiker und Datenwissenschaftler entwickelt und hat eine kurze, aber illustre Geschichte.
In den 1990er Jahren wurde R von Ross Ihaka und Robert Gentleman an der Universität von Auckland, Neuseeland, entwickelt. Das R-Core-Team und die R-Foundation for Statistical Computing unterstützen R, das weltweit eine große Nutzerbasis hat.
Bevor ich Ihnen jedoch von R erzähle, muss ich Ihnen die Welt vorstellen, in der sich R bewegt – die Welt der Daten und Statistiken.
Die in R bereitgestellten Analysewerkzeuge basieren auf statistischen Konzepten, die ich Ihnen in diesem Abschnitt genauer vorstellen werde. Wie Sie sehen werden, beruhen diese Konzepte auf gesundem Menschenverstand.
Wenn Sie in der Wahlnacht fernsehen, wissen Sie, dass eines der wichtigsten Ereignisse die Hochrechnung des Ergebnisses unmittelbar nach Schließung der Wahllokale ist (noch bevor alle Stimmen ausgezählt sind). Wie kommt es, dass die Experten fast immer richtig liegen?
Die Idee ist, mit einer Stichprobe von Wählern direkt nach deren Stimmabgabe zu sprechen. Wenn die Befragten wahrheitsgemäß angeben, wie sie ihre Stimmzettel ausgefüllt haben, und wenn die Stichprobe repräsentativ für die Grundgesamtheit (auch als Population bezeichnet) der Wähler ist, können die Analysten anhand der Stichprobendaten Rückschlüsse auf die Gesamtheit ziehen.
Genau darum geht es in der Statistik – die Daten von Stichproben zu nutzen, um Rückschlüsse auf die Grundgesamtheit zu ziehen.
Ein weiteres Beispiel: Stellen Sie sich vor, Sie sollen die Durchschnittsgröße der 10-jährigen Kinder in Deutschland ermitteln. Da Sie wahrscheinlich nicht die Zeit oder die Mittel haben, jedes einzelne Kind zu messen, messen Sie die Größen innerhalb einer repräsentativen Stichprobe. Dann ermitteln Sie den Durchschnitt dieser Größen und verwenden diesen als Schätzung für den Durchschnitt der Grundgesamtheit.
Die Schätzung des Durchschnitts für eine Grundgesamtheit ist eine der Schlussfolgerungen oder Inferenzen, die Statistiker aus Stichprobendaten ziehen. Im späteren Abschnitt »Inferenzstatistik: Hypothesen testen« werde ich ausführlicher auf die Inferenz eingehen.
Wichtige Terminologie: Eigenschaften einer Grundgesamtheit (wie beispielsweise der Durchschnitt der Grundgesamtheit) werden als Parameter bezeichnet, und Eigenschaften einer Stichprobe (wie beispielsweise der Stichprobendurchschnitt) werden als Statistiken bezeichnet. Wenn es Ihnen nur um die Eigenschaften der Stichprobe geht (zum Beispiel die Größe der Kinder in Ihrer Stichprobe), sind die von Ihnen berechneten Statistiken deskriptiv. (Um deskriptive Statistiken geht es in Teil 2.) Wenn es Ihnen darum geht, die Eigenschaften der Grundgesamtheit zu schätzen, sind Ihre Statistiken inferentiell. (Um Inferenzstatistiken geht es in Teil 3.)
Und jetzt eine wichtige Konvention, was die Notation betrifft: Statistiker verwenden griechische Buchstaben (zum Beispiel μ, σ, ϼ) für Parameter und lateinische Buchstaben (zum Beispiel , s, r) für Statistiken. Abbildung 1.1 veranschaulicht die Beziehung zwischen Grundgesamtheiten und Stichproben sowie zwischen Parametern und Statistiken.
Eine Variable ist ein Platzhalter, der unterschiedliche Werte annehmen kann – beispielsweise Ihr Alter, den Wert des Euros im Vergleich zu anderen Währungen oder die Anzahl der Spiele, die Ihre Lieblingsmannschaft gewonnen hat. Ein Platzhalter, der nur einen einzigen Wert haben kann, ist eine Konstante. Die Wissenschaftler sagen, die Lichtgeschwindigkeit ist eine Konstante, und wir verwenden die Konstante π, um die Fläche eines Kreises zu berechnen.
Abbildung 1.1: Beziehungen zwischen Grundgesamtheiten, Stichproben, Parametern und Statistiken.
Statistiker arbeiten mit unabhängigen Variablen und mit abhängigen Variablen. In jeder Studie oder jedem Experiment finden Sie beide Arten. Statistiker bewerten die Beziehung zwischen ihnen.
Stellen Sie sich zum Beispiel eine computergestützte Trainingsmethode vor, die den IQ einer Person erhöhen soll. Wie würde ein Forscher herausfinden, ob diese Methode das tut, was sie tun soll? Zunächst würde der Forscher eine Stichprobe von Personen nach dem Zufallsprinzip in zwei Gruppen unterteilen. Für die eine Gruppe wird die untersuchte Trainingsmethode angewendet, während die andere eine andere Art von computergestützter Aktivität ausführt, zum Beispiel einen Text auf einer Website lesen. Bevor und nachdem jede der beiden Gruppen ihre Aktivitäten beendet hat, misst der Forscher den IQ der einzelnen Personen. Wie geht es weiter? Um dieses Thema geht es im späteren Abschnitt »Inferenzstatistik: Hypothesen testen«.
Stellen Sie sich hier einfach vor, dass die unabhängige Variable die Art der Aktivität darstellt. Die beiden möglichen Werte für diese Variable sind IQ-Training und Text lesen. Die abhängige Variable ist die Veränderung des IQ von vorher zu nachher.
Eine abhängige Variable ist das, was ein Forscher misst. In einem Experiment ist eine unabhängige Variable das, was ein Forscher manipuliert. In anderen Situationen kann es sein, dass ein Forscher eine unabhängige Variable nicht manipulieren kann. Stattdessen könnten beispielsweise natürlich vorkommende Werte der unabhängigen Variablen und ihre Auswirkungen auf eine abhängige Variable beobachtet werden.
Im Allgemeinen geht es darum, herauszufinden, ob Änderungen einer unabhängigen Variablen mit Änderungen einer abhängigen Variablen verknüpft sind.
In den Beispielen in diesem Buch zeige ich Ihnen, wie Sie R verwenden können, um die Merkmale von Gruppen von Ergebnissen zu berechnen oder Gruppen von Ergebnissen zu vergleichen. Immer wenn ich Ihnen eine Gruppe von Ergebnissen zeige, spreche ich von den Werten einer abhängigen Variable.
Bei der Arbeit mit Statistiken können Sie auf vier Arten von Daten stoßen. Wie Sie mit Variablen arbeiten, hängt davon ab, um welche Art von Daten es sich handelt.
Die erste Art sind nominale Daten. Wenn es sich bei einer Reihe von Zahlen um nominale Daten handelt, sind die Zahlen nichts weiter als Beschriftungen – ihre Werte haben keine Bedeutung. Bei einer Sportmannschaft beispielsweise sind die Rückennummern nominal. Sie identifizieren lediglich die Spieler.
Die nächste Art sind die ordinalen Daten. Bei diesem Datentyp sind die Zahlen mehr als nur Beschriftungen. Wie der Name ordinal schon sagt, ist die Reihenfolge der Zahlen wichtig. Wenn ich Sie bitte, zehn Lebensmittel in eine Rangfolge zu bringen, von dem, das Sie am liebsten (1) bis zu dem, das Sie am wenigsten (10) mögen, dann erhalten wir eine Reihe ordinaler Daten.
Aber der Unterschied zwischen Ihrem drittliebsten und Ihrem viertliebsten Lebensmittel ist vielleicht nicht derselbe wie der zwischen Ihrem neuntliebsten und Ihrem zehntliebsten Lebensmittel. Bei dieser Art von Daten fehlt es also an gleichen Intervallen und gleichen Differenzen.
Intervalldaten liefern uns gleiche Differenzen. Die Fahrenheit-Skala für die Temperatur ist ein gutes Beispiel. Die Differenz zwischen 30 oF und 40 oF ist derselbe wie der zwischen 90 oF und 100 oF. Jedes Grad ist also ein Intervall.
Die Menschen sind manchmal überrascht, wenn sie feststellen, dass auf der Fahrenheit-Skala eine Temperatur von 80 °F nicht doppelt so heiß ist wie 40 °F. Damit Verhältnisangaben (»doppelt so viel wie«, »halb so viel wie«) einen Sinn ergeben, muss Null die völlige Abwesenheit der Sache bedeuten, die Sie messen. Eine Temperatur von 0 oF bedeutet jedoch nicht die völlige Abwesenheit von Wärme – es ist nur ein willkürlicher Punkt auf der Fahrenheit-Skala. (Das Gleiche gilt für Celsius.)
Die vierte Art von Daten, Verhältnisdaten, liefert einen aussagekräftigen Nullpunkt. Auf der Kelvin-Temperaturskala bedeutet der Nullpunkt den absoluten Nullpunkt, an dem alle Molekularbewegungen (die Grundlage der Wärme) aufhören. 200 Grad Kelvin ist also doppelt so heiß wie 100 Grad Kelvin. Ein weiteres Beispiel ist die Länge. Acht Zoll sind doppelt so lang wie 4 Zoll. Null Zoll bedeutet das völlige Fehlen von Länge.
Eine unabhängige oder abhängige Variable kann entweder nominale, ordinale, Intervall- oder Verhältnisdaten enthalten. Welche Analysetools Sie verwenden, hängt von der Art der Daten ab, mit denen Sie arbeiten.
Wenn Statistiker Entscheidungen treffen, verwenden sie die Wahrscheinlichkeitsrechnung, um ihr Vertrauen in diese Entscheidungen auszudrücken. Sie können sich nie absolut sicher sein, ob sie die richtige Entscheidung getroffen haben. Sie können Ihnen nur sagen, wie wahrscheinlich ihre Schlussfolgerungen sind.
Was verstehen wir unter Wahrscheinlichkeit? Mathematiker und Philosophen könnten Ihnen komplexe Definitionen nennen. Meiner Erfahrung nach lässt sich die Wahrscheinlichkeit jedoch am besten anhand von Beispielen verstehen.
Hier ein einfaches Beispiel: Angenommen, Sie werfen eine Münze. Wie groß ist die Wahrscheinlichkeit, dass sie Kopf zeigt? Wenn die Münze fair ist, könnte man annehmen, dass die Wahrscheinlichkeit für Kopf 50:50 und für Zahl 50:50 beträgt. Genau das ist der Fall. In den in der Wahrscheinlichkeitsrechnung verwendeten Zahlen ausgedrückt, ist das Ergebnis 1/2.
Stellen Sie sich vor, Sie würfeln mit einem fairen Würfel. Wie hoch ist die Wahrscheinlichkeit, dass Sie eine 4 würfeln? Ein Würfel hat sechs Seiten, eine davon zeigt die 4, also ist die Wahrscheinlichkeit 1/6.