24,99 €
Sie sind darauf angewiesen, Daten mit statistischen Methoden professionell auszuwerten und die Ergebnisse überzeugend darzustellen? Statistik ist allerdings nicht gerade Ihr Fachgebiet? Dann ist dieses Buch genau richtig für Sie. In jedem Kapitel führt der Autor eine statistische Methode vor und erklärt, was man an den Ergebnissen ablesen kann und was nicht. Unmittelbar im Anschluss beschreibt er, wie man die Methode in R implementiert. Denn R lässt mit den dazugehörigen Paketen keine Wünsche in der Statistik offen. In der Regel genügen wenige Zeilen Programmcode. Und das Beste ist: Die statistischen Pakete von R sind kostenlos. Dieses Buch hilft, bessere Entscheidungen zu treffen und Datenmüll zu vermeiden.
Sie lesen das E-Book in den Legimi-Apps auf:
Seitenzahl: 505
Veröffentlichungsjahr: 2021
Statistik mit R für Dummies
Bibliografische Information der Deutschen Nationalbibliothek
Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar.
2. Auflage 2022
© 2022 Wiley-VCH GmbH, Weinheim
Original English language edition © 2017 by Wiley Publishing, Inc. All rights reserved including the right of reproduction in whole or in part in any form. This translation published by arrangement with John Wiley and Sons, Inc.
Copyright der englischsprachigen Originalausgabe © 2017 by Wiley Publishing, Inc. Alle Rechte vorbehalten inklusive des Rechtes auf Reproduktion im Ganzen oder in Teilen und in jeglicher Form. Diese Übersetzung wird mit Genehmigung von John Wiley and Sons, Inc. publiziert.
Wiley, the Wiley logo, Für Dummies, the Dummies Man logo, and related trademarks and trade dress are trademarks or registered trademarks of John Wiley & Sons, Inc. and/or its affiliates, in the United States and other countries. Used by permission.
Wiley, die Bezeichnung »Für Dummies«, das Dummies-Mann-Logo und darauf bezogene Gestaltungen sind Marken oder eingetragene Marken von John Wiley & Sons, Inc., USA, Deutschland und in anderen Ländern.
Das vorliegende Werk wurde sorgfältig erarbeitet. Dennoch übernehmen Autoren und Verlag für die Richtigkeit von Angaben, Hinweisen und Ratschlägen sowie eventuelle Druckfehler keine Haftung.
Coverfoto: tadamichi - stock.adobe.comKorrektur: Claudia LötschertFachkorrektur: Sonja Koppenhöfer und Dr. Jürgen Tomasch
Print ISBN: 978-3-527-71949-5ePub ISBN: 978-3-527-83756-4
Joseph Schmuller hat langjährige Erfahrungen in der Informationstechnologie, und zwar sowohl an Hochschulen als auch in Unternehmen. Er hat auch mehrere Informatikbücher geschrieben, unter anderem »Teach Yourself UML in 24 Hours« und »Statistik mit Excel für Dummies«, das bereits in der vierten Auflage erschienen ist. Er erstellte Onlinekurse für das Bildungsunternehmen Lynda.com, das inzwischen zu Microsoft gehört, und hat zahlreiche Artikel zu fortgeschrittenen IT-Technologien verfasst. Von 1991 und 1997 war er Chefredakteur der Zeitschrift PC AI.
Er ist ehemaliges Mitglied der American Statistical Association und hat unter anderem an der University of North Florida Statistik gelehrt. Er besitzt folgende Abschlüsse im Fachgebiet Psychologie: Bachelor of Science (B.S.) vom Brooklyn College, Master of Arts (M.A.) von der University of Missouri-Kansas City und Doctor of Philosophy (Ph.D.) von der University of Wisconsin. Joseph Schmuller lebt mit seiner Familie in Jacksonville, Florida, wo er eine Forschungsprofessur an der University of North Florida innehat.
Cover
Titelblatt
Impressum
Über den Autor
Einführung
Über dieses Buch
Ähnlichkeiten mit diesem anderen »Für Dummies«-Buch
Was Sie nicht lesen müssen
Törichte Annahmen über den Leser
Wie dieses Buch aufgebaut ist
Symbole, die in diesem Buch verwendet werden
Wie es weitergeht
Teil I: Erste Schritte bei der statistischen Analyse mit R
Kapitel 1: Daten, Statistiken und Entscheidungen
Die statistischen (und damit verwandten) Begriffe, die Sie einfach kennen müssen
Inferenzstatistik: Testen von Hypothesen
Kapitel 2: R: Was R kann und wie R das macht
R und RStudio herunterladen
Eine Session mit R
R-Funktionen
Benutzerdefinierte Funktionen
Kommentare
R-Strukturen
Packages
Weitere Packages
Die R-Formelschnittstelle
Lesen und Schreiben
Teil II: Daten beschreiben
Kapitel 3: Daten grafisch darstellen
Muster erkennen
Diagramme mit dem R-Basispaket erstellen
Zu ggplot2 aufsteigen
Zusammenfassung und Ausblick
Kapitel 4: Suchen Sie Ihre Mitte
Mittelwert: Die Lehre vom Durchschnitt
Der Mittelwert in R: mean()
Mediane: Auf halber Strecke erwischt
Der Median in R: median()
Kapitel 5: Abweichungen vom Durchschnitt
Die Streuung berechnen
Zurück zu den Wurzeln: Standardabweichung
Standardabweichung in R
Bedingungen, Bedingungen, Bedingungen
Kapitel 6: Standards und Wertungen kennenlernen
z-Werte einfangen
Standardwerte in R
Wo stehen Sie?
Zusammenfassen
Kapitel 7: Alles zusammenfassen
Wie viele?
Groß und klein
Im Moment leben
Nun kommt die Häufigkeit ins Spiel
Einen Datensatz zusammenfassen
Kapitel 8: Was ist normal?
So kratzen Sie die Kurve
Mit Normalverteilungen arbeiten
Eine ganz besondere Verteilung
Teil III: Rückschlüsse aus Daten ziehen
Kapitel 9: Die Sache mit dem Vertrauen: Schätzung
Stichprobenverteilungen verstehen
Ein BESONDERS wichtiges Konzept: der zentrale Grenzwertsatz
Vertrauen: Es gibt Grenzen
Passend für ein t
Kapitel 10: Ein-Stichproben-Hypothesentest
Hypothesen, Tests und Fehler
Noch einmal z-Werte
z-Test in R
t-Test für eine Stichprobe
t-Tests in R
Mit t-Verteilungen arbeiten
t-Verteilungen visualisieren
Testen einer Varianz
Mit Chi-Quadrat-Verteilungen arbeiten
Chi-Quadrat-Verteilungen visualisieren
Kapitel 11: Zwei-Stichproben-Hypothesentest
Hypothesen für zwei
Noch einmal Stichprobenverteilungen
t-Test für zwei Stichproben
Wie ein Ei dem anderen: gleiche Varianzen
t-Test in R
Ein passendes Paar: Hypothesentest für abhängige Stichproben
t-Test für abhängige Stichproben in R
Zwei Varianzen testen
Mit F-Verteilungen arbeiten
F-Verteilungen visualisieren
Kapitel 12: Mehr als zwei Stichproben testen
Mehr als zwei Stichproben testen
ANOVA in R
Eine andere Art Hypothese, eine andere Art Test
Jetzt wird es trendy
Trendanalyse in R
Kapitel 13: Komplexere Tests
Die Kombinationen knacken
Zweifaktorielle Varianzanalyse in R
Zwei Arten von Variablen, und zwar gleichzeitig
Nach der Analyse
Multivariate Varianzanalyse
Kapitel 14: Lineare, multiple und allgemeine lineare Regression
Das Streudiagramm
Geraden zeichnen
Regression: Was für eine Gerade!
Lineare Regression in R
Irrsinnig viele Zusammenhänge auf einmal: multiple Regression
ANOVA: Eine andere Perspektive
Kovarianzanalyse: Die letzte Komponente des allgemeinen linearen Modells
Kapitel 15: Korrelation: Aufstieg und Fall von Zusammenhängen
Noch einmal Streudiagramme
Grundlegendes zur Korrelation
Korrelation und Regression
Hypothesen über Korrelationen testen
Korrelation in R
Multiple Korrelation
Partialkorrelation
Partialkorrelation in R
Semipartialkorrelation
Semipartialkorrelation in R
Kapitel 16: Kurvenförmige Regression: Wenn Beziehungen kompliziert werden
Was ist ein Logarithmus?
Was ist e?
Potenzregression
Exponentielle Regression
Logarithmische Regression
Polynomische Regression: Eine größere Potenz
Welches Modell sollten Sie verwenden?
Teil IV: Umgang mit der Wahrscheinlichkeit
Kapitel 17: Einführung in die Wahrscheinlichkeit
Was ist Wahrscheinlichkeit?
Zusammengesetzte Ereignisse
Bedingte Wahrscheinlichkeit
Große Wahrscheinlichkeitsräume
R-Funktionen für Zählregeln
Zufallsvariablen: diskret und stetig
Wahrscheinlichkeitsverteilungen und Dichtefunktionen
Die Binomialverteilung
Binomial- und negative Binomialverteilung in R
Hypothesen mit der Binomialverteilung testen
Weitere Informationen zum Testen von Hypothesen: R vs. Tradition
Kapitel 18: Einführung in die statistische Modellierung
Die Modellierung einer Verteilung
Simulationen
Teil V: Der Top-Ten-Teil
Kapitel 19: (Fast) zehn nützliche R-Onlineressourcen
Websites für R-Anwender
Online-Bücher und weitere Dokumentation
Abbildungsverzeichnis
Stichwortverzeichnis
End User License Agreement
Kapitel 3
Tabelle 3.1: Typen und Häufigkeit der Autos im Datensatz
Cars93
Tabelle 3.2: Einnahmen der USA aus dem kommerziellen Weltraumsektor von 1990 bis...
Kapitel 5
Tabelle 5.1: Die Größen und Abweichungen der ersten Gruppe
Tabelle 5.2: Die Größen und Abweichungen der zweiten Gruppe
Tabelle 5.3: Die Größen und quadratischen Abweichungen der zweiten Gruppe
Kapitel 9
Tabelle 9.1: Alle mit drei Werten möglichen Stichproben (und die zugehörigen Mit...
Kapitel 10
Tabelle 10.1: Entscheidungen und Fehler beim Testen von Hypothesen
Kapitel 11
Tabelle 11.1: Stichprobenwerte aus der FarKlempt-Maschinen-Studie
Tabelle 11.2: Daten für das Diät-Beispiel
Kapitel 12
Tabelle 12.1: Daten für drei verschiedene Weiterbildungsmethoden
Tabelle 12.2: Der unglaublich zunehmende Alphawert
Tabelle 12.3: Daten für das Beispiel mit dem Diätprogramm
Kapitel 13
Tabelle 13.1: Daten für eine Studie über den Zusammenhang zwischen Präsentations...
Tabelle 13.2: Die ANOVA-Tabelle für gemischte ANOVA (eine Zwischengruppenvariabl...
Tabelle 13.3: Daten für die Studie über Fachbücher zu Naturwissenschaften
Kapitel 14
Tabelle 14.1:
x
-y-Paare in
y
= 4 + 2
x
Tabelle 14.2: Begabungs- und Leistungswerte für 16 FarMisht-Berater
Tabelle 14.3: Begabung, Leistung und geschätzte Leistung für 16 Berater von FarM...
Tabelle 14.4: Begabungs-, Leistungs- und Persönlichkeitswerte für 16 FarMisht-Be...
Tabelle 14.5: Daten über drei Trainingsmethoden (ANOVA-Beispiel aus Kapitel 12)
Kapitel 15
Tabelle 15.1: Begabungs- und Leistungswerte für 16 FarMisht-Berater
Kapitel 16
Tabelle 16.1: Zehnerlogarithmen (Log10) und natürliche Logarithmen (Log)
Kapitel 17
Tabelle 17.1: Die Elementarereignisse im Wahrscheinlichkeitsraum beim Werfen ein...
Kapitel 18
Tabelle 18.1: Aufrufe der Intranetseite der FarBlonJet GmbH pro Stunde
Tabelle 18.2: Statistische Kenngrößen der Simulation des Würfelns mit »gezinkten...
Cover
Titelblatt
Impressum
Über den Autor
Inhaltsverzeichnis
Einführung
Fangen Sie an zu lesen
Abbildungsverzeichnis
Stichwortverzeichnis
End User License Agreement
1
2
3
7
8
9
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
407
408
409
410
411
413
414
415
416
417
421
422
423
424
425
426
427
428
429
430
431
Sie halten ein Buch über Statistik in den Händen. Okay. Aber meiner bescheidenen (und absolut parteiischen) Meinung nach ist dies nicht nur einfach ein weiteres Buch über Statistik. Außerdem ist es nicht nur einfach ein weiteres Buch zu R. Ich behaupte dies aus zwei Gründen.
Erstens lernen Sie in vielen Büchern über Statistik die Grundzüge der Statistik kennen, erfahren aber nicht, wie Sie diese anwenden können. Das führt häufig dazu, dass die grundlegenden Konzepte nicht wirklich verstanden werden. Da R speziell auf das Einsatzgebiet der Statistik zugeschnitten ist, steht Ihnen mit R ein Werkzeug zur Verfügung, mit dem Sie statische Konzepte sowohl anwenden als auch erlernen können.
Zweitens können wir das Ganze auch von der anderen Seite her betrachten. Bevor ich Ihnen etwas über eines des R-Features erzähle, erkläre ich Ihnen die statistischen Grundlagen, auf denen das jeweilige Feature beruht. So lernen Sie die Features kennen, während Sie sie nutzen. Und Sie werden sie daher effektiver einsetzen können.
Ich wollte kein Buch schreiben, das lediglich die Details von R beschreibt und ein paar clevere Programmiertechniken vorstellt. Klar, manchmal muss das sein, wenn in einem Buch die Verwendung eines Softwarepakets wie R beschrieben wird. Aber ich wollte mich darauf nicht beschränken.
Ich wollte auch kein statistisches »Kochbuch« schreiben: Wenn Problem Nr. 310 auftritt, verwenden Sie das statistische Verfahren Nr. 214. Ich wollte mich auch darauf nicht beschränken, sondern darüber hinausgehen.
Fazit: In diesem Buch geht es nicht nur um Statistik oder nur um R, sondern um beides. Im richtigen Kontext kann R ein hervorragendes Tool für die Lehre und das Erlernen von Statistik sein, und ich habe versucht, den richtigen Kontext herzustellen.
Obwohl bei der Statistik die Themen logisch aufeinander aufbauen, habe ich dieses Buch so strukturiert, dass Sie ein beliebiges Kapitel aufschlagen und lesen können. Mir ist wichtig, dass Sie die gesuchten Informationen schnell finden und sofort anwenden können, und das unabhängig davon, ob es sich um ein Konzept der Statistik oder um ein R-Feature handelt.
Wenn es Sie jedoch interessiert, können Sie dieses Buch selbstverständlich auch von vorn bis hinten durchlesen. Wenn Sie sich mit Statistik noch nicht auskennen und R für die statistische Analyse von Daten einsetzen wollen, empfehle ich Ihnen, vorne im Buch zu beginnen.
Ich verwende in diesem Buch das generische Maskulinum, es geht mir darum, den Lesefluss und das Textverständnis nicht zu stören. Selbstverständlich sind Frauen und nicht-binäre Personen bei dieser Ansprache eingeschlossen.
Vielleicht wissen Sie, dass ich ein weiteres Buch geschrieben haben: Statistik mit Excel für Dummies (Wiley). Dies ist keine unverschämte Werbung für dieses Buch. (Das mache ich an anderen Stellen.)
Ich möchte Sie einfach nur darüber informieren, dass die Abschnitte in diesem Buch, die statistische Konzepte erläutern, denjenigen aus dem anderen Buch ähneln. An zahlreichen Stellen verwende ich identische Beispiele oder ähnliche Sätze. Dieses Material habe ich über Jahrzehnte für Lehrveranstaltungen über Statistik entwickelt, und es hat sich als sehr effektiv erwiesen. (Es scheint so, als ob die Rezensenten es auch mögen.) Falls Sie also bereits das andere Buch gelesen haben und Sie auf R umsteigen, kann Ihnen das gemeinsame Material möglicherweise dabei helfen, den Umstieg zu meistern.
Sie wissen ja, wenn etwas funktioniert, warum sollte man es wegschmeißen?
In jedem Lehrbuch finden Sie jede Menge Informationen. Da ist auch dieses Buch keine Ausnahme. Ich habe versucht, nur Nützliches in das Buch aufzunehmen. Das ist mir jedoch nicht immer gleich gut gelungen. Wenn Sie also an einem Thema nicht so besonders interessiert sind, brauchen Sie die Abschnitte, die mit dem Symbol »Vorsicht Technik!« gekennzeichnet sind, nicht zu lesen.
Gelegentlich werden Sie auf Texte in einem grauen Kasten treffen. Diese enthalten ausführlichere Informationen zu einem Thema, gehören aber nicht zum Hauptthema. Wenn Sie wenig Zeit haben, können Sie diese Kästen überspringen.
Bei diesem Buch setze ich Folgendes voraus:
Sie kennen sich mit Windows oder dem Mac aus. Ich werde nicht erläutern, wie man auf Elemente zeigt, klickt, etwas auswählt und so weiter.
Sie können R und RStudio installieren (in
Kapitel 2
zeige ich Ihnen, wie das geht) und können daher die Beispiele nachvollziehen. Ich verwende die Windows-Version von RStudio. Sie sollten aber nicht auf Probleme stoßen, wenn Sie einen Mac verwenden.
Ich habe dieses Buch in fünf Teile gegliedert.
In Teil I finden Sie eine allgemeine Einführung in die Statistik und in R. Es werden wichtige Begriffe der Statistik beschrieben und nützliche R-Techniken erläutert. Wenn Ihr letzter Kurs in Statistik schon eine Weile her ist oder wenn Sie noch nie an einem Statistikkurs teilgenommen haben, beginnen Sie am besten hier. Wenn Sie noch nie mit R gearbeitet haben, müssen Sie auf jeden Fall mit diesem Teil beginnen.
Ein Teil der Statistik befasst sich mit dem sinnvollen Zusammenfassen von Daten. In diesem Teil erfahren Sie, wie Sie dabei vorgehen müssen. Die meisten Leute kennen Mittelwerte und wissen, wie diese berechnet werden. Aber das ist noch nicht alles. In diesem Teil werden Sie weitere statistische Kenngrößen zum Füllen der Lücken kennenlernen und wie Sie diese mit R berechnen und in R verwenden. In diesem Teil finden Sie außerdem eine Einführung in die grafischen Funktionen von R.
In Teil III geht es um die eigentliche Aufgabe der statistischen Analyse: die Bedeutung der Zahlen zu erkennen und Ihnen beim Treffen von Entscheidungen zu helfen. Normalerweise sind die Daten Messungen einer Stichprobe aus einer Grundgesamtheit. Ziel ist es, mit diesen Daten Entwicklungen in der Grundgesamtheit zu ermitteln.
Dies wirft eine Vielzahl von Fragen auf: Welche Bedeutung hat ein Mittelwert? Was bedeutet die Differenz zwischen zwei Mittelwerten? Haben zwei Dinge etwas miteinander zu tun? Das sind nur einige wenige der Fragen, um die es in Teil III geht. In diesem Teil werden die R-Funktionen vorgestellt, mit deren Hilfe Sie diese Fragen beantworten können.
Die Wahrscheinlichkeit ist die Grundlage für statistische Analysen und Entscheidungsfindungen. Teil IV hat die Wahrscheinlichkeit zum Thema. Hier erfahren Sie, wie Sie die Wahrscheinlichkeit insbesondere im Bereich der Modellierung einsetzen können. R enthält zahlreiche integrierte Features, die Ihnen dabei helfen, Wahrscheinlichkeiten zu verstehen und anzuwenden. Diese Features werden in diesem Teil erläutert.
Im Top-Ten-Teil finden Sie ein Kapitel, das zehn Onlineressourcen vorstellt, auf denen Sie weitere Informationen zu R finden.
Wie in allen Büchern der Dummies-Reihe finden Sie auch in diesem Buch überall Symbole. Dabei handelt es sich um kleine Bildchen am Seitenrand, anhand derer Sie erkennen können, worum es in dem Abschnitt daneben geht.
Dieses Symbol ist ein Zeichen für einen Hinweis oder eine einfache Lösung, um Ihnen die Arbeit zu erleichtern.
Dieses Symbol ist ein Zeichen für zeitlose Weisheiten, die Sie auch lange, nachdem Sie das Buch gelesen haben, noch brauchen werden.
Achten Sie auf die Informationen neben diesem Symbol. Es weist darauf hin, dass Sie etwas besser nicht tun sollten, wenn Sie Ihre Arbeit nicht zunichtemachen wollen.
Wie bereits im Abschnitt »Was Sie nicht lesen müssen« weiter vorne erwähnt, steht dieses Symbol für Material, das Sie überspringen können, wenn Ihnen der Inhalt zu technisch vorkommt. (Ich habe versucht, dies auf ein Minimum zu beschränken.)
Sie können mit dem Lesen des Buchs an jeder beliebigen Stelle beginnen, aber hier sind noch ein paar Tipps. Sie möchten die Grundlagen der Statistik kennenlernen? Dann blättern Sie eine Seite weiter. Sie möchten die Grundlagen von R und RStudio kennenlernen? Alles, was Sie dazu brauchen, finden Sie in Kapitel 2. Sie möchten lieber mit der Erstellung von Diagrammen beginnen? Dann schlagen Sie Kapitel 3 auf. Alles andere finden Sie im Inhaltsverzeichnis oder im Stichwortverzeichnis.
Teil I
IN DIESEM TEIL …
Die Fähigkeiten von R im Bereich Statistik kennenlernenErkunden, wie Sie mit Grundgesamtheiten und Stichproben arbeitenIhre Hypothesen testenFehler beim Fällen von Entscheidungen verstehenAbhängige und unabhängige Variablen unterscheidenKapitel 1
IN DIESEM KAPITEL
Einführung in Grundbegriffe der StatistikVon Stichproben Rückschlüsse auf Grundgesamtheiten ziehenWahrscheinlichkeiten kennenlernenHypothesen testenZwei Arten von FehlernStatistik? Dabei geht es doch vor allem um das Berechnen von Werten mithilfe von geheimnisvoll anmutenden Formeln, oder? Nicht wirklich. Im Rahmen der Statistik geht es vor allem darum, Entscheidungen zu fällen. Natürlich ist auch das Rechnen wichtig, jedoch besteht das primäre Ziel darin, diese Zahlen zu verwenden, um Entscheidungen zu treffen. Statistiker schauen sich Daten an und fragen sich, was diese Zahlen aussagen. Welche Trends zeichnen sich ab? Welche Vorhersagen können wir treffen? Welche Schlüsse können wir ziehen?
Um die Bedeutung der Daten zu verstehen und um diese Fragen zu beantworten, haben Statistiker eine beeindruckende Vielfalt an Analysetools entwickelt.
Was die Berechnungen angeht: Falls Sie diese mit Stift und Papier (oder mithilfe eines Taschenrechners) durchführen müssten, wären Sie vermutlich schnell entmutigt. Die durchzuführenden Berechnungen sind sehr umfangreich, und es würden sich schnell Fehler einschleichen. Softwaretools wie R unterstützen Sie bei der Rechenarbeit. Als Dreingabe kann R helfen, statistische Konzepte zu verstehen.
R wurde speziell für statistische Analysen entwickelt. Diese Programmiersprache implementiert viele der analytischen Werkzeuge, die Statistiker für das Fällen von Entscheidungen entwickelt haben. Ich habe dieses Buch geschrieben, um zu zeigen, wie Sie diese Werkzeuge bei Ihrer Arbeit einsetzen können.
Die analytischen Werkzeuge, die R bereitstellt, basieren auf statistischen Konzepten, die ich im weiteren Verlauf dieses Kapitels vorstelle. Wie Sie sehen werden, basieren diese Konzepte auf dem gesunden Menschenverstand.
Wenn Sie am Wahlabend fernsehen, wissen Sie, dass eines der wichtigen Ereignisse die Veröffentlichung der Prognose ist. Diese wird nach der Schließung der Wahllokale und lange, bevor die Stimmen ausgezählt sind, bekannt gegeben. Meistens liegen die Prognose und das Wahlergebnis sehr nahe beieinander. Woran liegt das?
Ganz einfach: Eine Stichprobe von Wählern wird nach der Stimmabgabe gefragt, wen oder welche Partei sie gewählt haben. Vorausgesetzt, dass die Wähler ehrlich sagen, wen sie gewählt haben, und vorausgesetzt, die Stichprobe ist für die Grundgesamtheit (oder Population) repräsentativ, können die Analysten aufgrund der Stichprobendaten Rückschlüsse auf die Grundgesamtheit der Wähler ziehen.
Das ist kurz das, worum es bei der Statistik geht: aufgrund der Daten von Stichproben Rückschlüsse auf die Grundgesamtheit zu ziehen, aus der die Stichprobe entnommen wurde.
Noch ein Beispiel. Nehmen wir einmal an, Ihre Aufgabe besteht darin, die durchschnittliche Größe aller zehn Jahre alten Kinder in den USA herauszufinden. Sie verfügen jedoch weder über die Zeit noch über die finanziellen Mittel, die Größe jedes einzelnen Kinds zu messen. Stattdessen messen Sie die Größe einer repräsentativen Stichprobe und berechnen dann den Mittelwert. Sie können dann den Mittelwert der Stichprobe zur Schätzung des Mittelwerts der Grundgesamtheit heranziehen.
Das Schließen auf den Mittelwert einer Grundgesamtheit ist eine Art Inferenz, die Statistiker aus Stichprobendaten ziehen. Die Inferenz wird im Abschnitt »Inferenzstatistik: Testen von Hypothesen« ausführlicher beschrieben.
Einige Begriffe, die Sie kennen sollten: Die Eigenschaften einer Grundgesamtheit (wie der Mittelwert einer Grundgesamtheit) werden als Parameter bezeichnet und die Eigenschaften einer Stichprobe (wie der Mittelwert einer Stichprobe) als Statistiken. Wenn Sie sich bei Ihren Betrachtungen auf die Eigenschaften der Stichproben beschränken (wie die Größe der Kinder in Ihrer Stichprobe), sind Ihre Statistiken deskriptiv oder beschreibend. Wenn Sie Ihren Horizont erweitern und sich mit Grundgesamtheiten beschäftigen, sind Ihre Statistiken inferenziell.
Einige Schreibweisen, die Sie kennen sollten: Statistiker verwenden griechische Buchstaben (μ, σ, ρ) für Parameter und lateinische Buchstaben (, s, r) für Statistiken. In Abbildung 1.2 sind die Beziehungen zwischen Grundgesamtheiten und Stichproben sowie zwischen Parametern und Statistiken dargestellt.
Abbildung 1.1: Die Beziehung zwischen Grundgesamtheit, Stichprobe, Parametern und Statistiken
Eine Variable ist etwas, das mehr als einen Wert annehmen kann – wie beispielsweise Ihr Alter, der Wert des Dollars in Euro oder die Anzahl der Spiele, die Ihre Lieblingsfußballmannschaft gewonnen hat. Etwas, das nur einen Wert annehmen kann, wird Konstante genannt. Wissenschaftler behaupten, dass die Lichtgeschwindigkeit eine Konstante ist. Wir verwenden die Konstante π, um beispielsweise den Flächeninhalt eines Kreises zu berechnen.
Für Statistiker sind zwei Arten von Variablen wichtig: unabhängige Variablen und abhängige Variablen. Beide Variablen tauchen in jeder Studie und Untersuchung auf, und Statistiker bewerten die Beziehung zwischen beiden.
Stellen Sie sich beispielsweise vor, es gebe eine neue computerbasierte Trainingsmethode, mit der der IQ einer Person verbessert werden kann. Wie würde ein Forscher untersuchen, ob diese Methode hält, was sie verspricht? Dazu würde er zuerst eine Stichprobe von Personen nach dem Zufallsprinzip in zwei Gruppen einteilen. Eine Gruppe verwendet die neue Trainingsmethode und die andere würde eine andere, ebenfalls computerbasierte Aktivität verwenden, beispielsweise das Lesen eines Texts auf einer Website. Der Forscher misst vor und nach dem Durchführen der jeweiligen Aktivität den IQ jeder Person. Was passiert dann? Dies beschreibe ich in einem der nächsten Abschnitte (»Inferenzstatistik: Testen von Hypothesen«).
Hier geht es zunächst darum, dass Sie wissen, dass die unabhängige Variable in diesem Beispiel die jeweilige Aktivität ist. Die beiden möglichen Werte dieser Variablen sind IQ-Training und Text lesen. Die abhängige Variable ist die Änderung des IQ, wie er vor und nach der jeweiligen Aktivität gemessen wurde.
Die abhängige Variable ist das, was der Forscher misst. In einem Experiment ist eine unabhängige Variable das, was der Forscher manipuliert, was er ändert. In anderen Zusammenhängen kann der Forscher eine unabhängige Variable nicht manipulieren. Stattdessen notiert er die sich natürlich ergebenden Werte der unabhängigen Variablen und wie sich diese auf eine abhängige Variable auswirken.
Grundsätzlich geht es darum, herauszufinden, ob Änderungen der unabhängigen Variablen mit Änderungen der abhängigen Variablen zusammenhängen.
In den Beispielen in diesem Buch erfahren Sie, wie Sie mit R verschiedene Eigenschaften von Wertegruppen berechnen oder wie Sie Wertegruppen vergleichen können. Denken Sie immer daran, dass ich mit einer Wertegruppe stets die Werte einer abhängigen Variablen meine.
Es gibt vier verschiedene Arten von Daten. Wenn Sie mit einer Variablen arbeiten, hängt es von der Datenart ab, wie Sie mit der Variablen arbeiten. Die erste Art wird als nominalskalierte oder nominale Daten bezeichnet. Wenn eine Zahl eine nominale Variable ist, handelt es sich lediglich um einen Namen. Der Zahlenwert bedeutet nichts. Ein gutes Beispiel hierfür ist die Zahl auf dem Trikot eines Sportlers. Sie dient lediglich der Identifizierung des Sportlers, um ihn von den anderen Mitgliedern seines Teams unterscheiden zu können. Die Zahl ist kein Hinweis auf das Können des Sportlers.
Als Nächstes kommen die ordinalskalierten oder ordinalen Daten. Bei ordinalen Daten geht es um Ordnung. Die Zahlen enthalten eine Bedeutung, die über die bloße Identifizierung hinausgeht. Wenn ich Sie bitte, zehn Lebensmittel zu bewerten, und zwar angefangen bei dem, das Sie am meisten mögen (eins), bis zu dem, das Sie am wenigsten mögen (zehn), dann haben wir einen Satz ordinalskalierter Daten.
Jedoch kann es sein, dass bei den Lebensmitteln die Differenz zwischen Ihrem dritten und vierten Platz nicht mit der Differenz zwischen Ihrem neunten und letzten Platz identisch ist. Was bei diesem Datentyp fehlt, ist das Konzept von gleichen Intervallen oder gleichen Differenzen.
Intervallskalierte Daten verwenden identische Differenzen. Temperaturangaben in Celsius und Fahrenheit sind Beispiele für intervallskalierte Daten. Die Differenz zwischen 10 °C und 20 °C ist dieselbe wie die Differenz zwischen 30 °C und 40 °C. Jedes Grad ist somit ein Intervall.
Menschen sind oft überrascht, wenn sie hören, dass 20 °C nicht doppelt so warm wie 10 °C ist. Um eine Aussage hinsichtlich der Relation (doppelt so viel wie, halb so viel wie) machen zu können, muss null bedeuten, dass vom gemessenen Attribut absolut nichts vorhanden ist. Ein Temperaturwert von 0 °C bedeutet jedoch nicht, dass keine Wärme vorhanden ist. 0 °C ist lediglich ein willkürlicher Punkt auf der Celsius-Skala. (Dies gilt übrigens auch für die Fahrenheit-Skala.)
Zum letzten Datentyp zählen verhältnisskalierte Daten. Hier ist ein sinnvoll interpretierbarer Nullpunkt vorhanden. Bei Temperaturangaben liefert die Kelvin-Skala verhältnisskalierte Daten. 100 °K ist doppelt so warm wie 50 °K. Dies liegt daran, dass der Nullpunkt der Kelvin-Skala ein absoluter Nullpunkt ist, bei dem es keine molekulare Bewegung (die Voraussetzung für Wärme) mehr gibt. Ein weiteres Beispiel ist das Lineal. 8 cm ist doppelt so lang wie 4 cm. Der Wert 0 cm bedeutet, dass keine Länge vorhanden ist.
All diese Datenarten können die Basis einer unabhängigen oder einer abhängigen Variablen bilden. Welche Analysetools Sie verwenden, hängt von der Art der Daten ab, mit denen Sie zu tun haben.
Wenn Statistiker Rückschlüsse ziehen, drücken sie ihre Einschätzung der Glaubwürdigkeit dieser Rückschlüsse in Form von Wahrscheinlichkeiten aus. Sie können sich ihrer Rückschlüsse nie sicher sein. Sie können nur sagen, für wie wahrscheinlich sie ihre Rückschlüsse halten.
Was also ist Wahrscheinlichkeit? Von Mathematikern und Philosophen erhalten Sie hierfür komplexere Definitionen. Meiner Meinung nach ist es jedoch am einfachsten, das Konzept der Wahrscheinlichkeit anhand von ein paar Beispielen zu erläutern.
Hier ein einfaches Beispiel: Wie groß ist die Wahrscheinlichkeit, dass beim Werfen einer Münze Kopf geworfen wird? Wenn sich die Münze symmetrisch verhält, wissen Sie intuitiv, dass die Chancen für Kopf ebenso wie die für Zahl 50 : 50 stehen. Im Hinblick auf die zur Wahrscheinlichkeit gehörende Art der Zahlen ist das 1/2.
Und wie ist das beim Würfeln? Wie groß ist die Wahrscheinlichkeit, dass Sie eine 4 würfeln? Hmmm … Ein Würfel hat sechs Flächen, und eine davon zeigt die 4, also sollte die Wahrscheinlichkeit bei 1 zu 6 liegen, richtig? Richtig. Noch ein Beispiel. Sie ziehen aus einem Stapel Spielkarten wahllos eine Karte heraus. Wie groß ist die Wahrscheinlichkeit, dass Sie Kreuz ziehen? Nun, ein Kartenspiel hat vier Farben, also lautet die Antwort 1 zu 4.
Ich glaube, Sie verstehen, worum es geht. Wenn Sie ermitteln möchten, mit welcher Wahrscheinlichkeit ein Ereignis eintritt, müssen Sie herausfinden, wie häufig dieses Ereignis eintreten kann, und Sie müssen diese Anzahl durch die Gesamtzahl aller möglichen Ereignisse teilen. Bei den ersten beiden Beispielen (Kopf, 4) tritt das Ereignis, an dem Sie interessiert sind, lediglich einmal ein (eine Münze, ein Würfel). Daher teilen wir bei der Münze 1 durch 2 (zwei Seiten) und beim Würfel teilen wir 1 durch 6 (sechs Flächen). Beim dritten Beispiel (Kreuz) kann das Ereignis durch eine von 13 Karten ausgelöst werden (Ass bis König). Daher teilen wir 13 durch 52 (die Anzahl der Karten) und erhalten 1/4.
Das Ganze kann jedoch noch etwas komplexer werden. Hinsichtlich der Wahrscheinlichkeit stellen sich noch weitere Fragen. Nehmen wir einmal an, Sie würfeln und werfen gleichzeitig eine Münze. Wie groß ist die Wahrscheinlichkeit, dass Sie eine 4 würfeln und Kopf werfen? Berücksichtigen Sie alle möglichen Ereignisse, die eintreten können, wenn Sie würfeln und gleichzeitig eine Münze werfen. Sie können Kopf und die Zahlen 1 bis 6 oder Zahl und die Zahlen 1 bis 6 werfen. Das ergibt insgesamt 12 Möglichkeiten. Für Kopf und 4 gibt es nur eine Möglichkeit. Also lautet die Antwort 1/12.
Die Formel für die Wahrscheinlichkeit, mit der ein bestimmtes Ereignis eintritt, lautet wie folgt:
Ich habe diesen Abschnitt mit der Feststellung begonnen, dass Statistiker ihre Einschätzung der Glaubwürdigkeit von Rückschlüssen in Form von Wahrscheinlichkeiten ausdrücken, weshalb ich eigentlich auf dieses Thema gekommen bin. Wenn wir in diese Richtung weiterdenken, stoßen wir auf den Begriff der bedingten Wahrscheinlichkeit, also der Wahrscheinlichkeit, mit der ein Ereignis eintritt, wenn ein anderes Ereignis eintritt. Angenommen, ich würfle, schaue mir das Ergebnis an (sodass Sie es nicht sehen können) und sage Ihnen, dass ich eine ungerade Zahl gewürfelt habe. Wie groß ist die Wahrscheinlichkeit, dass ich eine 5 gewürfelt habe? Eigentlich beträgt die Wahrscheinlichkeit einer 5 1/6, aber ich habe die Auswahl begrenzt. Ich habe die drei geraden Zahlen (2, 4 und 6) als Möglichkeiten ausgeschlossen. Somit sind nur noch die drei ungeraden Zahlen (1, 3 und 5) möglich, sodass die Wahrscheinlichkeit, dass eine 5 gewürfelt wird, nun 1/3 beträgt.
Was hat nun die bedingte Wahrscheinlichkeit mit statistischer Analyse zu tun? Lesen Sie weiter.
Vor dem Durchführen einer Studie formuliert ein Statistiker eine Hypothese, das heißt, er stellt eine vorsichtige Prognose auf, welches bestimmte Ergebnis zu erwarten ist. Wenn nach Abschluss der Untersuchung die Stichprobendaten in einer Tabelle erfasst sind, trifft er die zentrale Entscheidung, die ein Statistiker treffen muss: Er entscheidet, ob die Hypothese verworfen oder nicht verworfen wird.
Diese Entscheidung hängt von der Frage nach der bedingten Wahrscheinlichkeit ab: Wie groß ist die Wahrscheinlichkeit, dass sich diese Daten unter der Voraussetzung ergeben, dass die Hypothese zutrifft? Die statistische Analyse stellt Tools zum Berechnen der Wahrscheinlichkeit bereit. Wenn sich die Wahrscheinlichkeit als gering erweist, verwirft der Statistiker die Hypothese.
Zurück zum Beispiel mit dem Werfen von Münzen. Nehmen wir einmal an, Sie möchten wissen, ob eine bestimmte Münze symmetrisch ist, das heißt, ob Kopf ebenso häufig geworfen wird wie Zahl. Lassen Sie uns zuerst von der Hypothese ausgehen, dass die Münze symmetrisch ist.
Um diese Hypothese zu testen, werfen Sie die Münze beispielsweise 100-mal. Diese 100 Würfe stellen Ihre Stichprobendaten dar. Wenn Sie von der Hypothese ausgehen, dass sich die Münze symmetrisch verhält, erwarten Sie, dass die Daten in Ihrer Stichprobe mit 100 Würfen 50-mal Kopf und 50-mal Zahl ergeben.
Wenn sich herausstellt, dass Sie 99-mal Kopf und 1-mal Zahl werfen, werden Sie die Hypothese von der symmetrischen Münze zweifellos verwerfen. Warum? Die bedingte Wahrscheinlichkeit, dass mit einer symmetrischen Münze 99-mal Kopf und 1-mal Zahl geworfen wird, ist sehr gering. Aber einen Moment. Die Münze kann symmetrisch sein, und Sie können dennoch 99-mal Kopf und 1-mal Zahl werfen, richtig? Absolut. Das weiß man nie so genau. Sie müssen Stichprobendaten sammeln (das Ergebnis aus 100 Würfen) und Rückschlüsse ziehen. Die Rückschlüsse können richtig sein oder auch nicht.
Geschworene stehen ständig vor dieser Frage. Sie müssen zwischen widersprüchlichen Hypothesen entscheiden und die Indizien vor Gericht begründen. (Stellen Sie sich die Indizien als Daten vor.) Eine Hypothese lautet, dass der Angeklagte schuldig ist. Die andere Hypothese lautet, dass der Angeklagte unschuldig ist. Die Geschworenen müssen unter Berücksichtigung der Indizien im Prinzip die Frage nach der bedingten Wahrscheinlichkeit beantworten. Wie groß ist die Wahrscheinlichkeit des Indizes, vorausgesetzt, der Angeklagte ist nicht schuldig? Diese Frage wird durch den Urteilsspruch beantwortet.
Betrachten wir noch einmal das eben beschriebene Experiment mit dem Münzenwerfen. Die Ergebnisse aus 100 Würfen stellen die Stichprobendaten dar. Wie erwähnt können wir vor dem Werfen der Münze die Hypothese formulieren, dass die Münze symmetrisch ist, das heißt, Sie erwarten, dass Kopf und Zahl gleich häufig geworfen werden. Dieser Ausgangspunkt wird als Nullhypothese bezeichnet. In der Statistik wird für die Nullhypothese die Notation H0 verwendet. Nach dieser Hypothese ist jede Kopf-Zahl-Verteilung in den Daten mit einer symmetrischen Münze vereinbar. Stellen Sie sich das Ganze so vor, dass nichts in den Ergebnissen der Untersuchung außer der Reihe ist.
Eine alternative Hypothese ist möglich, nämlich dass die Münze nicht symmetrisch ist und daher Kopf und Zahl nicht gleich häufig geworfen werden. Diese Hypothese besagt, dass mit einer nicht symmetrischen Münze jede Kopf-Zahl-Verteilung vereinbar ist. Ob Sie es glauben oder nicht: Die alternative Hypothese wird Alternativhypothese oder Gegenhypothese genannt. In der Statistik wird für die Alternativhypothese die Notation H1 oder HA verwendet.
Werfen Sie, diese Hypothesen vorausgesetzt, die Münze 100-mal und notieren Sie die Anzahl der Kopf- und Zahl-Würfe. Wenn sich dabei ergibt, dass etwa 90-mal Kopf und 10-mal Zahl geworfen wird, sollten Sie H0 verwerfen. Wenn sich ergibt, dass Kopf und Zahl jeweils etwa 50-mal geworfen werden, sollten Sie H0 nicht verwerfen.
Ähnliches gilt für das Beispiel mit dem IQ weiter vorne in diesem Kapitel. Eine Stichprobe verwendet die computerbasierte IQ-Trainingsmethode, während die andere Stichprobe an einer anderen, ebenfalls computerbasierten Aktivität teilnimmt, nämlich dem Lesen von Text auf einer Website. Der IQ der Teilnehmer wird von den Forschern vor und nach der jeweiligen Aktivität gemessen. Die Nullhypothese H0 besagt, dass sich bei der Verbesserung des IQ der beiden Gruppen keine Unterschiede ergeben. Wenn der Fortschritt mit der IQ-Trainingsmethode größer ist als der mit der anderen Aktivität, und zwar so viel größer, dass es unwahrscheinlich ist, dass sich die Methoden nicht voneinander unterscheiden, verwerfen Sie H0. Wenn nicht, dann verwerfen Sie H0 nicht.
Ist Ihnen aufgefallen, dass ich nicht gesagt habe: »Nehmen Sie H0 an«? So, wie die Logik nun mal funktioniert, können Sie eine Hypothese niemals annehmen. Sie können H0 verwerfen oder Sie können H0 nicht verwerfen.
Hier noch ein Beispiel aus dem echten Leben, das helfen soll, dieses Konzept zu verstehen. Wenn ein Angeklagter vor Gericht erscheint, gilt die Unschuldsvermutung, bis das Gegenteil bewiesen ist. Sie können sich »nicht schuldig« als H0 vorstellen. Die Aufgabe des Staatsanwalts besteht darin, das Gericht dazu zu bringen, H0 zu verwerfen. Wenn das Gericht die Unschuldsvermutung ablehnt, wird der Angeklagte für schuldig befunden. Wenn es die Unschuldsvermutung nicht verwirft, dann ist der Angeklagte nicht schuldig. Es geht also immer um »schuldig« und »nicht schuldig« und nicht um »schuldig« und »unschuldig«. »Unschuldig« wäre gleichbedeutend damit, H0 zu akzeptieren.
Lassen Sie uns zum Beispiel mit dem Münzenwerfen zurückkehren. Ist Ihnen aufgefallen, dass ich beim Beispiel mit dem Münzenwerfen »etwa 50-mal« geschrieben hatte? Was bedeutet dieses »etwa«? Außerdem habe ich geschrieben, dass Sie H0 verwerfen sollen, wenn Kopf und Zahl im Verhältnis 90 : 10 geworfen wird. Aber was ist, wenn 85 : 15 geworfen wird? 80 : 20? 70 : 30? Wie groß muss die Differenz zur Verteilung 50 : 50 sein, damit H0 verworfen wird? Um wie viel größer muss beim Beispiel mit der IQ-Trainingsmethode die Verbesserung sein, damit H0 verworfen wird?
Ich werde diese Fragen hier nicht beantworten. Statistiker haben Entscheidungsregeln für Situationen wie diese entwickelt, und Sie werden diese Regeln im Verlauf dieses Buchs kennenlernen.
Beim Auswerten der Daten aus einer Untersuchung und beim Entscheiden, ob H0 verworfen werden soll oder nicht, können Sie nie absolut sicher sein. Sie wissen nie, wie die Realität wirklich aussieht. Im Zusammenhang mit dem Münzwurfbeispiel bedeutet das, dass Sie nie sicher wissen, ob die Münze symmetrisch ist. Ihnen bleibt nur, eine Entscheidung anhand der gesammelten Stichprobendaten zu treffen. Wenn Sie, was die Münze betrifft, sichergehen möchten, müssen Sie alle Daten für die gesamte Grundgesamtheit der Würfe sammeln. Das bedeutet, Sie müssten die Münze bis ans Ende aller Tage werfen.
Da Ihre Entscheidung nie sicher ist, ist es möglich, dass Sie einen Fehler machen, gleichgültig, wie Sie entscheiden. Wie bereits erwähnt, kann die Münze symmetrisch sein, und Sie können bei 100 Würfen dennoch ein Ergebnis von 99 : 1 erhalten. Das ist nicht wahrscheinlich, weshalb Sie H0 verwerfen. Es ist außerdem möglich, dass die Münze nicht symmetrisch ist, und bei 100 Würfen dennoch 50-mal Kopf geworfen wird. Auch das ist nicht wahrscheinlich, weshalb Sie H0 in diesem Fall nicht verwerfen.
Obwohl diese Fehler nicht wahrscheinlich sind, sind sie dennoch möglich. Sie kommen in jeder Untersuchung vor, bei der Inferenzstatistik im Spiel ist. Statistiker nennen diese Fehler Fehler 1. Art (oder auch Alphafehler) und Fehler 2. Art (oder auch Betafehler).
Wenn Sie H0 verwerfen, obwohl Sie das nicht sollten, dann ist das ein Fehler 1. Art. Das wäre bei dem Beispiel mit der Münze das Verwerfen der Hypothese, die besagt, dass die Münze symmetrisch ist, obwohl die Münze tatsächlich symmetrisch ist.
Wenn Sie H0 nicht verwerfen, obwohl Sie das sollten, dann ist das ein Fehler 2. Art. Das ist dann der Fall, wenn Sie die Hypothese, die besagt, dass die Münze symmetrisch ist, nicht verwerfen, obwohl die Münze tatsächlich nicht symmetrisch ist.
Woher wissen Sie, ob Sie einen dieser Fehler gemacht haben? Das können Sie nicht wissen, zumindest nicht gleich, nachdem Sie entschieden haben, ob Sie H0 verwerfen oder nicht. (Wenn es möglich wäre, das zu wissen, würden Sie den Fehler erst gar nicht machen!) Ihnen bleibt nur, weitere Daten zu sammeln und zu prüfen, ob die zusätzlichen Daten mit Ihrer Entscheidung vereinbar sind.
Wenn Sie meinen, H0 neige dazu, den Status quo zu erhalten, und nichts als außergewöhnlich interpretieren (gleichgültig, wie es aussieht), bedeutet ein Fehler 2. Art, dass Sie etwas Wichtiges übersehen haben. So betrachtet basieren viele ironische Ereignisse in der Geschichte auf Fehlern 2. Art.
Hierfür ein Beispiel: Am Neujahrstag 1962 hört sich ein Musikproduzent die Demokassette einer Band an, die aus drei Gitarristen und einem Schlagzeuger besteht. Dem Musikproduzenten gefiel das, was er hörte, überhaupt nicht, er mochte nicht, was er sah, und er war der festen Überzeugung, dass die Zeit von Gitarrenbands vorbei ist. Obwohl die Musiker ihr Bestes gaben, wurde die Gruppe (zumindest von dieser Plattenfirma) nicht unter Vertrag genommen.
Wissen Sie, um welche Band es sich handelt? The Beatles!
Das war in der Tat ein Fehler 2. Art.
Kapitel 2
IN DIESEM KAPITEL
R und RStudio installierenRStudio verwendenR-Funktionen kennenlernenR-Strukturen kennenlernenMit Packages arbeitenR-Formeln formenDateien lesen und schreibenR ist eine Programmiersprache. R kümmert sich um all die Rechenarbeit und schafft so die Voraussetzungen für die statistischen Analysen und die Entscheidungsfindung. Ein wichtiger Aspekt statistischer Analysen besteht darin, die Ergebnisse auf verständliche Weise darzustellen. Daher sind Grafiken und Diagramme wichtige Bestandteile von R.
R wurde in den 1990er-Jahren an der University of Auckland, Neuseeland, von Ross Ikaha und Robert Gentlemen entwickelt. R wird vom gemeinnützigen Verein »The R Foundation for Statistical Computing« unterstützt und erfreut sich immer größerer Beliebtheit.
RStudio ist eine Open-Source-Entwicklungsumgebung (Integrated Development Environment, IDE), mit der Sie R-Code erstellen und ausführen können. RStudio ist für Windows, Mac und Linux erhältlich. Obgleich Sie für den Einsatz von R keine Entwicklungsumgebung benötigen, so macht Ihnen RStudio das Leben erheblich einfacher.
Das Wichtigste zuerst. Laden Sie R vom Comprehensive R Archive Network (CRAN) herunter. Geben Sie, wenn Sie Windows verwenden, in Ihrem Browser diese Adresse ein:
cran.r-project.org/bin/windows/base
Falls Sie auf dem Mac arbeiten, ist dies die Downloadseite:
cran.r-project.org/bin/macosx
Klicken Sie den Link an, um R herunterzuladen. Hierdurch wird die Datei win.exe auf Ihren Windows-PC heruntergeladen beziehungsweise die .pkg-Datei auf Ihren Mac. Führen Sie in beiden Fällen die gewohnten Schritte zur Installation eines Programms durch. Wenn die Installation fertiggestellt wurde, sehen Windows-Anwender auf ihrem Desktop das R-Programmsymbol; Mac-Benutzer finden R im Ordner Programme.
Beide URLs enthalten auch nützliche Links zu »Häufig gestellten Fragen, FAQs«. Auf der Downloadseite der Windows-Version finden Sie auch einen Link zu »Installation and other instructions«.
Nun zu RStudio. Hier die URL zur Downloadseite:
www.rstudio.com/products/rstudio/download
Klicken Sie den Link des Installationsprogramms für Ihr Betriebssystem an und führen Sie die üblichen Schritte zur Programminstallation durch.
Nachdem die Installation abgeschlossen ist, klicken Sie das Symbol von RStudio an, damit Sie das Fenster aus Abbildung 2.1 sehen.
Falls Sie bereits eine ältere Version von RStudio installiert haben und die Installation durchführen, wird die vorhandene Version aktualisiert. Es ist nicht erforderlich, die ältere Version vorher zu deinstallieren.
In der Konsole auf der linken Seite wird der R-Code ausgeführt. Eine Möglichkeit, um R-Code auszuführen, besteht darin, ihn direkt in die Konsole einzugeben. Eine andere Variante zeige ich Ihnen in Kürze.
In den beiden Bereichen auf der rechten Seite des Fensters finden Sie hilfreiche Informationen, während Sie mit R arbeiten. Oben rechts finden Sie den Arbeitsbereich ENVIRONMENT (Umgebung) und HISTORY (Historie). Auf der Registerkarte ENVIRONMENT werden die Dinge aufgeführt, die Sie beim Arbeiten mit R erstellen. (Diese werden in R Objekte genannt.) Auf der Registerkarte HISTORY wird der R-Code angezeigt, den Sie eingeben.
Gewöhnen Sie sich schon mal an das Wort Objekt. In R ist alles ein Objekt.
Im Panel unten rechts finden Sie die Registerkarten FILES, PLOTS, PACKAGES und HELP. Auf der Registerkarte FILES werden die von Ihnen erstellten Dateien angezeigt. Die Registerkarte PLOTS enthält die Diagramme, die Sie mit Ihren Daten erstellt haben. Auf der Registerkarte PACKAGES sehen Sie die Add-ons (die in R Packages genannt werden), die Sie zusammen mit R heruntergeladen haben. Beachten Sie, dass heruntergeladen nicht bedeutet, dass die Packages bereits genutzt werden können. Hierfür ist ein weiterer Schritt erforderlich. Und glauben Sie mir, Sie wollen Packages verwenden.
Abbildung 2.1: RStudio, wie es beim ersten Start nach der Installation aussieht
Die Registerkarte PACKAGES sehen Sie in Abbildung 2.2. Die Packages befinden sich entweder in der Benutzerbibliothek (die Sie in der Abbildung sehen) oder in der Systembibliothek (Sie müssen ein wenig nach unten scrollen, um sie zu sehen). Packages stelle ich weiter hinten in diesem Kapitel vor.
Die Registerkarte HELP, die Sie in Abbildung 2.3 sehen, enthält Links zu einer Fülle von englischsprachigen Informationen über R und RStudio.
Um alle Möglichleiten von RStudio als grafische Entwicklungsumgebung zu nutzen, klicken Sie auf das größere der beiden Symbole, die Sie in der oberen rechten Ecke der Konsole sehen. Das Aussehen von RStudio wird so geändert, wie es Abbildung 2.4 zeigt.
Das Konsolenfenster wird verkleinert und befindet sich nun links unten. Darüber sehen Sie ein neues Fenster, das Skriptfenster. Das Skriptfenster ist der Editor für Ihren R-Code. Sie können dort Code eingeben und bearbeiten und dann + drücken, um den Code im Konsolenfenster ausführen zu lassen. Auf dem Mac drücken Sie +.
Sie können auch den Menübefehl CODE|RUN SELECTED LINE(S) verwenden.
Abbildung 2.2: Die Registerkarte PACKAGES in RStudio
Abbildung 2.3: Die Registerkarte HELP in RStudio
Abbildung 2.4: RStudio, nachdem Sie an der rechten Seite der Titelleiste der Konsole das große Symbol angeklickt haben
Bevor Sie loslegen, wählen Sie den Befehl FILE|SAVE AS und verwenden als Dateinamen Meine erste R-Session. Die Registerkarte im Skriptfenster wird umbenannt, und Sie sehen dort den eingegebenen Dateinamen mit der Erweiterung .R. Außerdem wird der Dateiname (ebenfalls mit der Erweiterung .R) auf der Registerkarte FILES angezeigt.
Was genau speichert R und wo wird gespeichert? R speichert den sogenannten Workspace; das ist die Umgebung, in der Sie arbeiten. Der Workspace wird von R im Arbeitsverzeichnis gespeichert. In Windows ist dies das Standardarbeitsverzeichnis:
C:\Benutzer\<Benutzername>\Dokumente\R