Die Kunst der Statistik - David Spiegelhalter - E-Book

Die Kunst der Statistik E-Book

David Spiegelhalter

0,0
24,99 €

-100%
Sammeln Sie Punkte in unserem Gutscheinprogramm und kaufen Sie E-Books und Hörbücher mit bis zu 100% Rabatt.
Mehr erfahren.
Beschreibung

Wie viele Bäume gibt es auf der Erde? Wer war der glücklichste Passagier auf der Titanic? Viele Fragen lassen sich mit Hilfe der Statistik beantworten. Und ein grundlegendes Verständnis für die Interpretation von Zahlen ist wichtiger denn je, wenn man Realität und Fiktion verlässlich voneinander unterscheiden will. David Spiegelhalter zeigt verständlich, wie man die Statistik zur Lösung von Problemen einsetzt und hilft den Lesern, wie ein Statistiker zu denken. Er bespricht an realen Beispielen die wesentlichen Prinzipien, um Wissen aus Daten zu gewinnen und die entsprechenden Antworten auch verantwortungsvoll interpretieren zu können.

Das E-Book können Sie in Legimi-Apps oder einer beliebigen App lesen, die das folgende Format unterstützen:

EPUB
MOBI

Seitenzahl: 462

Bewertungen
0,0
0
0
0
0
0
Mehr Informationen
Mehr Informationen
Legimi prüft nicht, ob Rezensionen von Nutzern stammen, die den betreffenden Titel tatsächlich gekauft oder gelesen/gehört haben. Wir entfernen aber gefälschte Rezensionen.



David Spiegelhalter

Die Kunst der Statistik

David Spiegelhalter

Die Kunst der Statistik

Was uns Daten wirklich sagen und wie wir dies im Alltag nutzen können

Übersetzung aus dem Englischen von Nikolas Bertheau

Bibliografische Information der Deutschen Nationalbibliothek

Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie. Detaillierte bibliografische Daten sind im Internet über http://d-nb.de abrufbar.

Für Fragen und Anregungen:

[email protected]

2. Auflage 2023

© 2020

by Redline Verlag, ein Imprint der Münchner Verlagsgruppe GmbH,

Nymphenburger Straße 86

D-80636 München

Tel.: 089 651285-0

Fax: 089 652096

© der Originalausgabe by David Spiegelhalter 2019

Die englische Originalausgabe erschien 2019 bei Penguin Books LTD, einem Imprint von Penguin Random House UK unter dem Titel The Art of Statistics.

Alle Rechte, insbesondere das Recht der Vervielfältigung und Verbreitung sowie der Übersetzung, vorbehalten. Kein Teil des Werkes darf in irgendeiner Form (durch Fotokopie, Mikrofilm oder ein anderes Verfahren) ohne schriftliche Genehmigung des Verlages reproduziert oder unter Verwendung elektronischer Systeme gespeichert, verarbeitet, vervielfältigt oder verbreitet werden.

Übersetzung: Nikolas Bertheau

Redaktion: Matthias Michel, Wiesbaden

Umschlaggestaltung: Laura Osswald, München

Satz: abavo GmbH, Buchloe

Druck: GGP Media GmbH, Pößneck

eBook: ePubMATIC.com

ISBN Print 978-3-86881-775-1

ISBN E-Book (PDF) 978-3-86414-96267-178-5

ISBN E-Book (EPUB, Mobi) 978-3-86414-96267-179-2

Weitere Informationen zum Verlag finden Sie unter

www.redline-verlag.de

Beachten Sie auch unsere weiteren Verlage unter www.m-vg.de

Den Statistikern dieser Welt mit ihren liebenswerten Eigenschaften der Pedanterie, Großzügigkeit und Integrität – stets bestrebt, aus den verfügbaren Daten das denkbar Beste zu machen.

INHALTSVERZEICHNIS

EINLEITUNG

Warum wir Statistik brauchen

Die Welt in Daten verwandeln

Statistik als Unterrichtsfach

Dieses Buch

1. KAPITEL

Die Dinge ins richtige Verhältnis setzen – Kategoriale Daten und Prozentzahlen

2. KAPITEL

Zahlen zusammenfassen und kommunizieren. Große Zahlenmengen

3. KAPITEL

Warum schauen wir uns die Daten überhaupt an? Populationen und Messverfahren

4. KAPITEL

Was führt zu was?

5. KAPITEL

Beziehungen mittels Regression modellieren

6. KAPITEL

Algorithmen, Analytik und Vorhersage

7. KAPITEL

Wie sicher kennen wir die Wirklichkeit? Schätzer und Intervalle

8. KAPITEL

Wahrscheinlichkeit – die Sprache der Unsicherheit und der Streuung

9. KAPITEL

Wahrscheinlichkeit meets Statistik

10. KAPITEL

Fragen, Antworten und Entdeckungen

11. KAPITEL

Auf Bayessche Art aus Erfahrungen lernen

12. KAPITEL

Was schiefgehen kann

13. KAPITEL

Wie können wir Statistik besser machen

14. KAPITEL

Fazit

DANK

ÜBER DEN AUTOR

GLOSSAR

ABBILDUNGSVERZEICHNIS

TABELLENVERZEICHNIS

ANMERKUNGEN

EINLEITUNG

Die Zahlen sprechen nicht für sich. Wir sprechen für sie. Wir verleihen ihnen einen Sinn.

– Nate Silver, Die Berechnung der Zukunft1

WARUM WIR STATISTIK BRAUCHEN

Kein verurteilter britischer Mörder hatte so viele Menschen auf dem Gewissen wie Harold Shipman, obwohl er nicht das typische Profil eines Serienkillers aufwies. Der freundliche Hausarzt, der in einem Vorort von Manchester praktizierte, injizierte zwischen 1975 und 1998 mindestens 215 seiner zumeist betagten Patienten starke Überdosen an Opiaten. Zuletzt beging er den Fehler, das Testament einer Patientin dahin gehend zu ändern, dass sie ihm einen Teil ihres Vermögens vermachte. Ihre Tochter, eine Rechtsanwältin, schöpfte Verdacht, und die gerichtlich angeordnete Untersuchung seines Computers ergab, dass er Patientenakten nachträglich gefälscht hatte, um seine Patienten kränker erscheinen zu lassen, als sie in Wirklichkeit gewesen waren. Shipman war bekannt für seine Technikbegeisterung, jedoch reichte sein technischer Sachverstand nicht aus, um sich dessen bewusst zu sein, dass jede Änderung, die er vornahm, mit einem Zeitstempel versehen wurde (nebenbei ein gutes Beispiel für Daten, die einen versteckten Sinn enthalten können).

Fünfzehn seiner Patienten, die nicht feuerbestattet worden waren, wurden exhumiert. In ihren Körpern fand man tödliche Mengen an Diamorphin, der medizinischen Variante von Heroin. Als Shipman daraufhin im Jahr 1999 wegen fünfzehnfachen Mordes angeklagt wurde, entschied er sich dafür, auf eine Verteidigung zu verzichten. Während des gesamten Prozesses äußerte er sich nicht einmal. Er wurde für schuldig befunden und zu lebenslanger Haft verurteilt. Eine Untersuchung sollte klären, welcher weiteren Verbrechen er sich möglicherweise schuldig gemacht hatte und ob man ihm früher hätte auf die Spur kommen können. Ich gehörte damals zu den Statistikern, die als Gutachter vor den Untersuchungsausschuss geladen wurden, welcher am Ende zu dem Ergebnis kam, dass Whipman mit Sicherheit 215 seiner Patienten und möglicherweise noch weitere 45 ermordet hatte.2

In diesem Buch soll es darum gehen, wie wir mithilfe der Statistik[1] jene Art von Fragen beantworten können, die sich uns stellen, sobald wir versuchen, die Welt besser zu verstehen. Manche dieser Fragen werden wir in grauen Kästen hervorheben. Um Shipmans Verhalten besser zu verstehen, bietet sich als erste Frage beispielsweise diese an:

Was waren das für Menschen, die Shipman tötete, und wann starben sie?

Die öffentliche Untersuchung lieferte Angaben zum Alter, Geschlecht und Sterbedatum der einzelnen Opfer. Abbildung 0.1 ist eine ziemlich anspruchsvolle Visualisierung dieser Daten in Form einer Punktwolke entlang der Achsen für das Sterbealter und das Sterbedatum der Opfer. Der unterschiedliche Schwärzegrad zeigt an, ob es sich um einen Mann oder eine Frau handelt. Die Achsen wurden um Balkendiagramme ergänzt, die die Häufigkeiten der einzelnen Jahres- und Altersangaben (letztere in 5-Jahres-Blöcken) zusammenfassen.

Für manche Schlussfolgerungen reicht ein kurzer Blick auf die Abbildung. Es gibt mehr schwarze als graue Punkte, was bedeutet, dass die Mehrzahl von Shipmans Opfern Frauen waren. Die Balken rechts der Punktwolke zeigen, dass die meisten Opfer zwischen 65 und 90 Jahre alt waren. Aus der Verteilung der Punkte wird dann aber ersichtlich, dass die Opfer zwar anfangs ausschließlich älter waren, dass sich mit den Jahren aber auch jüngere Fälle einschlichen. Die Balken oberhalb der Punktwolke weisen eine deutliche Lücke rund um das Jahr 1992 auf, für das kein Mord belegt ist. Die Erklärung ist, dass Shipman bis dahin in einer Gemeinschaftspraxis mit anderen Ärzten tätig gewesen war, dann aber – möglicherweise, weil er argwöhnte, man könne ihn unter Verdacht haben – eine eigene Praxis für Allgemeinmedizin eröffnete. Anschließend verstärkten sich seine Aktivitäten, wie das obere Balkendiagramm zeigt.

Abbildung 0.1 Eine Punktwolke, die Sterbealter und Todesjahr der 215 bestätigten Opfer Harold Shipmans darlegt. Die Balkendiagramme entlang der Achsen zeigen die entsprechenden Häufigkeitsdichten.

Diese Analyse der von der Untersuchungskommission identifizierten Opfer gibt Anlass zu weiteren Fragen über die Art und Weise, wie er seine Morde durchführte. Statistisch aufschlussreich sind beispielweise die auf den Totenscheinen verzeichneten Tageszeiten, zu denen seine vermutlichen Opfer gestorben sind. Abbildung 0.2 ist ein Kurvendiagramm, das die Verteilung der Tageszeiten vergleicht, zu denen Shipmans Patienten starben und zu denen eine Stichprobe von Patienten anderer Hausärzte aus derselben Gegend starben. Hier lässt sich auch ohne subtile Analyse ein Muster erkennen – eine so gewonnene Erkenntnis wird gelegentlich auch als »interokular« bezeichnet, weil sie den Betrachter »zwischen die Augen« trifft. Shipmans Patienten starben in ihrer überwiegenden Mehrheit am frühen Nachmittag.

Die Daten können uns nicht sagen, warum so viele der Patienten zu dieser Zeit starben, aber eine weitere Untersuchung ergab, dass Shipman seine Hausbesuche nach dem Mittagesssen vornahm, wenn er mit seinen älteren Patienten zumeist allein war. Er bot ihnen dann eine Spritze an, die ihnen, wie er ihnen versicherte, Erleichterung verschaffen würde, die aber in Wahrheit eine tödliche Menge Diamorphin enthielt. Jedes Mal, wenn ein Patient friedlich in seiner Gegenwart gestorben war, änderte er anschließend seine Patientenakte, um es so aussehen zu lassen, als handelte es sich um einen natürlichen Tod, der zu erwarten gewesen war. Die Leiterin der öffentlichen Untersuchung, Dame Janet Smith, sagte später: »Es ist einfach nur entsetzlich und übersteigt jede Vorstellungskraft, wie er da Tag für Tag den wunderbar fürsorglichen Arzt mimte und doch in der Tasche seine tödliche Waffe mit sich führte …, um sie schließlich herauszuholen, als wäre nichts dabei.«

Shipman ging dabei ein gewisses Risiko ein, denn eine einzige Obduktion hätte genügt, um ihn zu entlarven. Angesichts des Alters seiner Patienten und der scheinbar natürlichen Todesursachen wurde eine solche jedoch niemals durchgeführt. Seine Beweggründe für diese Morde konnten niemals geklärt werden. Weder sagte er während des Prozesses gegen ihn aus, noch sprach er jemals mit einem Familienangehörigen oder jemand anderem über seine Untaten. Im Gefängnis nahm er sich schließlich das Leben – passenderweise zur richtigen Zeit, damit seine Frau seine Pension beziehen konnte.

Wir können uns diese Form des Forschens als »forensische« Statistik vorstellen, und in diesem Fall handelten wir Statistiker ja tatsächlich im gerichtlichen Auftrag. Wir haben es hier mit keiner Mathematik und keiner Theorie zu tun, sondern ausschließlich mit der Suche nach Mustern, die möglicherweise noch mehr interessante Fragen aufwerfen. Während die Details von Shipmans Untaten anhand der jeweiligen fallspezifischen Indizien ermittelt wurden, lieferte diese Form der Datenanalyse zugleich generelle Einblicke in die Art und Weise, wie er seine Verbrechen beging.

Abbildung 0.2 Die Tageszeiten, zu denen Harold Shipmans Patienten starben, verglichen mit den Tageszeiten, zu denen die Patienten anderer Hausärzte aus derselben Gegend starben. Es bedarf keiner großartigen statistischen Analyse, um hier ein Muster zu erkennen.

Später im Buch – im 10. Kapitel – werden wir sehen, ob eine statistische Analyse nach allen Regeln der Kunst hätte helfen können, Shipman früher auf die Schliche zu kommen.[2] Aber auch so zeigt die Geschichte des mörderischen Hausarztes sehr schön, wie Daten helfen können, die Welt besser zu verstehen und bessere Urteile zu fällen. Und genau davon handelt die Wissenschaft der Statistik.

DIE WELT IN DATEN VERWANDELN

Um Harold Shipmans Verbrechen statistisch erfassen zu können, mussten wir uns von der langen Liste individueller Tragödien lösen, für die er verantwortlich war. Wir mussten aus den unverwechselbaren Facetten des Lebens und Sterbens dieser Menschen bestimmte Fakten und Zahlen extrahieren, die wir anschließend zählen und in Graphen visualisieren konnten. Das mag zunächst kalt und unmenschlich erscheinen, aber wenn wir mit Mitteln der Statistik Licht in die Welt bringen wollen, müssen wir das täglich Erlebte in Daten verwandeln, und das ist nur möglich, indem wir Geschehnisse kategorisieren und etikettieren, Messungen dokumentieren, Ergebnisse analysieren und Schlussfolgerungen kommunizieren.

Allein schon der erste Schritt des Kategorisierens und Etikettierens erweist sich mitunter als äußerst schwierig. Betrachten wir die folgende elementare Frage, die jeden interessieren sollte, dem unsere Umwelt am Herzen liegt:

Wie viele Bäume gibt es auf unserem Planeten?

Bevor wir uns darüber Gedanken machen, wie wir eine Antwort auf diese Frage finden können, müssen wir allerdings eine noch grundlegendere Frage beantworten: Was ist ein »Baum«? Vielleicht entgegnen Sie nun, ein Baum lasse sich doch schon vom bloßen Anschauen erkennen. Aber was Sie für einen Baum halten, mag in den Augen anderer ein Busch oder eine Staude sein. Um also aus Erlebtem und Erfahrenem Daten zu gewinnen, müssen wir zuerst einmal mit stringenten Definitionen arbeiten.

Wie eine kurze Recherche ergibt, gilt eine Pflanze offiziell, das heißt in behördlicher Definition als »Baum«, wenn sie einen hölzernen Stamm hat, der auf Brusthöhe (etwa 1,30 m) einen hinreichend großen Durchmesser aufweist, den sogenannten Brusthöhendurchmesser oder kurz BHD. Die meisten Behörden verwenden einen BHD von 10 Zentimetern, der U.S. Forest Service allerdings verlangt von einer Pflanze einen BHD von mindestens 12,7 Zentimetern, bevor er sie zum Baum erklärt.

Jetzt können wir aber nicht über den ganzen Planeten wandern und sämtliche Pflanzen mit hölzernem Stamm einzeln vermessen, um auf diese Weise die Anzahl derer zu ermitteln, die diesem Kriterium genügen. Die Wissenschaftler, die sich mit dieser Frage beschäftigten, wählten folglich einen pragmatischeren Ansatz. Sie betrachteten zunächst eine Reihe von Gebieten mit jeweils einem einheitlichen Landschaftstyp, Ökozonen genannt, zählten die Bäume, die sie hier fanden, und teilten sie durch die Zahl der Quadratkilometer, die jedes dieser Gebiete umfasste, um die Bäume pro Quadratkilometer zu ermitteln. Anschließend schätzten sie anhand von Satellitenbildern für jede dieser Ökozonen ihre Gesamtfläche auf dem Planeten. Mithilfe einiger komplexer statistischer Modelle kamen sie schließlich auf eine geschätzte Gesamtzahl von 3,04 Billionen (oder 3.040.000.000.000) Bäumen auf der Erde. Das klingt nach viel; jedoch vermuteten die Wissenschaftler, dass es einmal doppelt so viele gewesen waren.[3]3

Wenn sich die amtlichen Stellen schon nicht einig sind, was unter einem Baum zu verstehen ist, sollte es uns nicht überraschen, wenn weniger klare Begriffe noch schwierigere Fragen aufwerfen. Um ein extremes Beispiel zu nennen: Die offizielle Definition von »Arbeitslosigkeit« veränderte sich in Großbritannien in den Jahren 1979 bis 1996 mindestens 31-mal.4 Die Definition des Bruttoinlandprodukts (BIP) unterliegt ständigen Revisionen. So werden beispielsweise in Großbritannien seit 2014 auch der Drogenhandel und die Prostitution im BIP erfasst; die Schätzverfahren greifen dabei auf einige ungewöhnliche Datenquellen wie beispielsweise Punternet – eine Website zur Bewertung von Prostitutionsdienstleistungen, die auch Preise für die unterschiedlichen Aktivitäten angibt – zurück.5

Selbst unsere persönlichsten Gefühle lassen sich kodifizieren und einer statistischen Analyse unterziehen. Von Oktober 2016 bis September 2017 wurden 150 000 britische Bürger im Rahmen einer Erhebung gefragt: »Wie glücklich und zufrieden fühlten Sie sich gestern auf Ganze gesehen?«6 Auf einer Skala von 0 bis 10 lag die Durchschnittsantwort bei 7,5 und damit leicht über dem Wert von 7,3 aus dem Jahr 2012, was möglicherweise auf die wirtschaftliche Erholung seit dem Börsencrash von 2008 zurückzuführen ist. Den niedrigsten Wert lieferten die 50-bis 54-Jährigen, den höchsten Wert die 70- bis 74-Jährigen, was in Großbritannien einem typischen Muster entspricht.[4]

Glück und Zufriedenheit zu messen, fällt schwer; ob jemand lebt oder tot ist, sollte sich hingegen problemlos ermitteln lassen. Wie die Beispiele in diesem Buch zeigen werden, sind Überlebens- und Sterberaten ein häufiges Thema statistischer Betrachtungen. In den Vereinigten Staaten jedoch kann jeder Bundesstaat seine eigene juristische Definition von Tod haben, und obwohl im Jahr 1981 der Uniform Declaration of Death Act (das »Gesetz zur Vereinheitlichung der Todeserklärung«) erlassen wurde, bleiben kleinere Unterschiede bestehen. Jemand, der in Alabama bereits für tot erklärt wurde, könnte zumindest theoretisch nach der Überquerung der Grenze zu Florida seine juristische Qualifizierung als Toter verlieren, müssen dort doch zwei qualifizierte Ärzte den Eintritt des Todes bestätigen.7

Diese Beispiele zeigen, dass Statistiken immer auch Entscheidungen zugrunde liegen, die bis zu einem gewissen Grade willkürlich sind, und dass es eine Illusion ist zu glauben, man könnte die Komplexität der individuellen Erfahrung zweifelsfrei kodieren und in eine Tabelle oder eine andere Form von Software eingeben. Und so schwer es fällt, Eigenschaften von uns Menschen und der Welt um uns herum zu definieren, zu zählen und zu messen, sind das dann immer noch erst »Daten« und damit lediglich der Ausgangspunkt unserer Bemühungen, die Welt besser zu verstehen.

Daten als Quelle des Erkenntnisgewinns unterliegen zwei entscheidenden Einschränkungen. Erstens erfassen sie die Dinge, die uns in Wahrheit interessieren, fast immer nur unvollständig: Das emotionale Wohlbefinden der Nation fangen wir schwerlich damit ein, dass wir die Menschen fragen, wie glücklich und zufrieden sie in der zurückliegenden Woche auf einer Skala von 0 bis 10 gewesen sind. Zweitens wird alles, was wir zu messen beschließen, örtlichen, personellen und zeitlichen Schwankungen unterliegen und das Problem ist dann, aus dieser scheinbar willkürlichen Streuung bedeutsame Schlussfolgerungen zu ziehen.

Seit Jahrhunderten stellt sich die Statistik dieser doppelten Herausforderung und spielt eine führende Rolle im Versuch, die Welt mit wissenschaftlichen Mitteln zu begreifen. Sie liefert die Grundlage für eine – notwendigerweise stets unvollständige – Interpretation der Daten mit dem Ziel, aus dem Hintergrundrauschen, das sich daraus erklärt, dass kein Mensch wie der andere ist, wichtige Beziehungen und Gesetzmäßigkeiten herauszudestillieren. Aber die Welt bleibt nicht stehen; es entstehen neue Fragen, neue Datenquellen werden verfügbar und somit muss sich auch die Statistik weiterentwickeln.

Menschen haben schon immer gezählt und gemessen. Als eigene Disziplin jedoch nahm die moderne Statistik ihren Anfang in den 1650er-Jahren, als Blaise Pascal und Pierre de Fermat zum ersten Mal begriffen, was Wahrscheinlichkeit wirklich bedeutet, wie wir im 8. Kapitel sehen werden. Auf der Grundlage dieses mathematisch soliden Ansatzes für den Umgang mit der Mannigfaltigkeit und Unbeständigkeit der Welt entwickelte sich die Wahrscheinlichkeitslehre von da an in raschem Tempo weiter. Aus den Daten zum Sterbealter der Menschen ließen sich nun Pensionen und Renten berechnen. Die Astronomie machte einen enormen Satz vorwärts, nachdem Wissenschaftler erkannten, wie sie mithilfe der Wahrscheinlichkeitstheorie dem Problem von Messungenauigkeiten begegnen konnten. Im viktorianischen Zeitalter begann man mit Begeisterung, Daten über den menschlichen Körper (und tausend andere Dinge) zu sammeln und starke Bezüge zwischen statistischer Analyse und Genetik, Biologie und Medizin herzustellen. Im 20. Jahrhundert wurde die Statistik mathematischer. Zum Leidwesen vieler Studenten und praktischer Anwender wurde sie irgendwann gleichbedeutend mit der mechanischen Verwendung einer ganzen Reihe von häufig nach irgendwelchen exzentrischen und streitlustigen Statistikern benannten statistischen Instrumenten, die wir im Lauf dieses Buches kennen lernen werden.

Diese verbreitete Vorstellung von Statistik als einem »Köcher voller Tools« stößt mittlerweile an ihre Grenzen. Erstens befinden wir uns im Zeitalter der Data Science oder Datenwissenschaft, in der umfangreiche und komplexe Datenmengen aus Routinequellen wie Verkehrsüberwachungskameras, Social-Media-Posts und Internetkäufen zusammengetragen und als Basis für technologische Innovationen wie optimierte Verkehrsführung, zielgerichtete Werbung oder Kaufempfehlungssysteme genutzt werden. Algorithmen auf der Basis von Big Data werden wir im 6. Kapitel behandeln. Statistik erscheint zunehmend als ein Unterbereich der Datenwissenschaft, benötigt doch der moderne Datenwissenschaftler darüber hinaus Fähigkeiten in Datenmanagement, Programmierung und Algorithmenentwicklung sowie ein gründliches Verständnis des untersuchten Gegenstandsbereichs.

Dem traditionellen Verständnis von Statistik setzt zudem die starke Zunahme wissenschaftlicher – insbesondere biomedizinischer und soziologischer – Forschungstätigkeit zu sowie der Erwartungsdruck, in hochkarätigen Fachzeitschriften zu publizieren. Die Folge sind Zweifel an der Zuverlässigkeit von Teilen der wissenschaftlichen Literatur und Behauptungen, dass sich viele »Entdeckungen« nicht reproduzieren lassen – siehe beispielsweise den anhaltenden Streit darüber, ob eine selbstbewusste Körperhaltung, eine Power Pose, hormonelle und andere Veränderungen bewirken kann.8 Für die sogenannte Reproduzierbarkeits- oder Replikationskrise wird nicht zuletzt die unsachgerechte Anwendung statistischer Standardmethoden verantwortlich gemacht.

Mit der zunehmenden Verfügbarkeit gewaltiger Datenmengen und anwenderfreundlicher Analysesoftware könnte man meinen, es bestünde weniger Trainingsbedarf in statistischen Methoden. Das wäre jedoch eine extrem naive Annahme. Größere Datenmengen und die Zunahme der Zahl und Komplexität wissenschaftlicher Studien erübrigen nicht statistische Fähigkeiten, sondern ganz im Gegenteil erschweren sie es, die richtigen Schlussfolgerungen zu ziehen. Mehr Daten bedeuten, dass wir noch sorgfältiger schauen müssen, was ihre Aussagekraft wirklich wert ist.

Eine intensive Analyse von Datensätzen, die aus Routinedaten gewonnen wurden, kann beispielsweise die Möglichkeit falscher »Entdeckungen« erhöhen, weil entweder bereits die Ausgangsdaten eine systematische Verzerrung aufweisen oder weil von einer Vielzahl von Analysen nur diejenigen Ergebnisse berichtet werden, die »interessant« erscheinen – eine Vorgehensweise, die auch als p-Hacking bezeichnet wird. Um veröffentlichte wissenschaftliche Arbeiten und erst recht die Medienberichte, denen wir täglich begegnen, richtig einordnen zu können, schadet es nicht, sich der Gefahren des selektiven Berichtens, der Notwendigkeit einer Replizierbarkeit wissenschaftlicher Behauptungen durch unabhängige Kollegen und der Gefahr einer Überinterpretation einzelner aus dem Kontext gerissener Studien bewusst zu sein.

Alle diese Einsichten lassen sich unter dem Stichwort der Datenkompetenz zusammenfassen: der Fähigkeit, nicht nur Probleme des echten Lebens einer statistischen Analyse zu unterziehen, sondern auch die Schlussfolgerungen, die andere aus statistischen Überlegungen ziehen, zu verstehen und richtig einzuordnen. Die Datenkompetenz der breiten Bevölkerung können wir jedoch nur verbessern, indem wir Statistik anders unterrichten.

STATISTIK ALS UNTERRICHTSFACH

Generationen von Schülern litten und leiden unter einer trockenen Vermittlung von Statistik im Mathematikunterricht, die sich auf die Vermittlung einer Reihe von Techniken zur Anwendung in bestimmten Situationen beschränkt. Vor lauter mathematischer Theorie kommen praktische Fragen, warum beispielsweise eine Formel verwendet wird oder welche Probleme auftauchen können, wenn wir Fragen mittels Daten zu beantworten versuchen, häufig zu kurz.

Glücklicherweise beginnt sich das zu ändern. Die Anforderungen der Datenwissenschaft und der Datenkompetenz rufen nach einem stärker problemorientierten Ansatz, bei dem die Anwendung bestimmter statistischer Instrumente lediglich als eine Komponente unter vielen in einem umfassenderen Untersuchungsprozess gesehen wird. Ein möglicher Problemlösungsansatz ist die PPDAC-Struktur, an der wir uns in diesem Buch orientieren werden.9 Abbildung 0.3 basiert auf einem Beispiel aus Neuseeland, einem Vorreiter in Sachen Statistikunterricht in den Schulen.

Die erste Station des Zyklus ist die Spezifizierung des Problems. Die statistische Untersuchung beginnt stets mit einer Fragestellung – siehe unsere Fragen nach einem Muster in den Morden Harold Shipmans und nach der Anzahl der Bäume auf der Erde. Später im Buch wollen wir uns mit Fragen beschäftigen wie der nach dem erwartbaren Nutzen verschiedener Therapien unmittelbar im Anschluss an eine Brustkrebsoperation oder der nach dem Grund, warum ältere Männer große Ohren haben.

Abbildung 0.3 Der PPDAC-Problemlösungszyklus mit den Stationen Problem, Plan, Daten, Analyse und (C)Konklusion (conclusion; Schlussfolgerung) bzw. (C)Kommunikation (communication). Nach jedem Durchlauf beginnt ein neuer Zyklus.

Mitunter könnte man versucht sein, auf eine sorgfältige Planung zu verzichten. Die Shipman-Frage verlangt von uns lediglich, so viele Daten wie möglich über seine Opfer zusammenzutragen. Aber die Leute, die die Bäume zählten, legten großen Wert auf präzise Definitionen und klare Messverfahren, weil nur eine gut gestaltete Studie verlässliche Schlussfolgerungen zulässt. In der Eile, die nötigen Daten zusammenzutragen und mit der Analyse beginnen zu können, kommt jedoch häufig die sorgfältige Studienplanung – das »Studiendesign« – zu kurz.

Den zum Erfassen »guter« Daten erforderlichen organisatorischen und programmiertechnischen Fähigkeiten kommt in der Datenwissenschaft eine zunehmend wichtige Rolle zu – unter anderen deshalb, weil aus Routinequellen bezogene Daten häufig erst noch aufwendig »bereinigt« werden müssen, bevor sie sich analysieren lassen. Datenerhebungssysteme verändern sich im Lauf der Zeit, es schleichen sich offensichtliche Fehler ein und so weiter: Die Formulierung »gefundene Daten« bringt hübsch zum Ausdruck, in welch ungeordnetem Zustand sie sich mitunter befinden – wie etwas, das man von der Straße aufliest.

Die eigentliche »Analyse« stellt traditionell den Schwerpunkt des Statistikunterrichts dar, und auch wir werden in diesem Buch eine Reihe von Analysetechniken vorstellen. Gelegentlich jedoch reicht bereits eine geeignete Visualisierung wie in Abbildung 0.1. Und zu guter Letzt ist der Schlüssel zu guter Statistik, die richtigen Schlüsse zu ziehen, die der begrenzten Aussagekraft der Datengrundlage Rechnung tragen, und sie klar zu kommunizieren, wie wir dies in den grafischen Veranschaulichungen der Shipman-Daten gesehen haben. Jede Schlussfolgerung wirft wieder neue Fragen auf, und so beginnt der Zyklus von Neuem – wie in dem Moment, als wir uns für die Uhrzeiten zu interessieren begannen, zu denen Shipmans Patienten gestorben sind.

Auch wenn der PPDAC-Zyklus in der Praxis nicht immer genau so befolgt wird, wie wir ihn in Abbildung 0.3 dargestellt finden, unterstreicht er dennoch, dass formale statistische Analysetechniken lediglich einen Teil der Arbeit eines Statistikers oder Datenwissenschaftlers ausmachen. Statistik ist weit mehr als ein Zweig der Mathematik voller esoterischer Formeln, mit denen sich Generation um Generation von Schülern und Studenten herumquält.

DIESES BUCH

Als ich in den 1970er-Jahren in Großbritannien studierte, gab es genau drei Fernsehsender, Computer hatten die Größe von zwei Kleiderschränken und das Wikipedia-Ähnlichste, was wir hatten, war das Handgerät aus Douglas Adams’ (bemerkenswert vorausschauendem) Roman Per Anhalter durch die Galaxis. Zum Zwecke der Selbstoptimierung griffen wir deshalb zu Pelican-Büchern, deren kultige blaue Rücken jedes Studentenbücherregal schmückten.

Weil ich Statistik studierte, befanden sich in meiner Pelican-Sammlung Facts from Figures (dt.: Einführung in die Statistik) von M. J. Moroney (1951) und How to Lie with Statistics (dt.: Wie lügt man mit Statistik) von Darrell Huff (1954). Diese ehrwürdigen Ausgaben verkauften sich zu Hunderttausenden, was sowohl für das vorhandene Interesse an der Statistik als auch für den Mangel an Alternativen sprach. Während sich diese Klassiker während der fast sieben Jahrzehnte seit ihrem Erscheinen erstaunlich gut behaupteten, erfordert das heutige Zeitalter einen anderen, an den oben beschriebenen Prinzipien ausgerichteten Unterrichtsansatz.

Dieses Buch nimmt deshalb das Lösen von lebenspraktischen Problemen als Ausgangspunkt für die Vorstellung statistischer Konzepte. Einige dieser Konzepte mögen intuitiv einleuchten, während andere subtilerer Art sind und etwas mehr geistige Anstrengung erfordern, wenngleich mathematische Fähigkeiten im engeren Sinne nicht vonnöten sein werden. Verglichen mit klassischen Texten richtet dieses Buch den Fokus mehr auf konzeptionelle Fragestellungen als auf technische Fertigkeiten und verwendet lediglich ein paar unschuldige Gleichungen unterstützt von einem Glossar. Software spielt in jeder Art von Datenwissenschaft und Statistik eine unverzichtbare Rolle, ist aber kein Schwerpunkt dieses Buches. Anleitungen für frei verfügbare Software wie R oder Python lassen sich unschwer finden.

Die in Kästen hervorgehobenen Fragen lassen sich allesamt mehr oder weniger gut mittels statistischer Analyse beantworten, auch wenn sich ihre Bedeutungsrahmen stark unterscheiden. Bei manchen handelt es sich um wichtige wissenschaftliche Hypothesen, beispielsweise, ob das Higgs-Boson existiert oder ob es in der Tat hinreichend schlüssige Beweise für außersinnliche Wahrnehmungen (ASW) gibt. Bei anderen geht es um Gesundheitsthemen: ob stark frequentierte Krankenhäuser bessere Überlebenschancen bieten oder ob ein Screening auf Eierstockkrebs zu weniger Erkrankungen führt. Manchmal sind wir lediglich an quantitativen Schätzungen interessiert: der Erhöhung des Krebsrisikos durch den Verzehr von Speck-Sandwiches, der Zahl der Sexualpartner der Menschen in Großbritannien während ihres gesamten Lebens oder dem Nutzen der täglichen Einnahme eines Statins.

Und manche Fragen sind einfach nur spannend: die Identifizierung des Titanic-Überlebenden, dem das Glück am holdesten war, die Frage, ob man Harold Shipman früher hätte auf die Schliche kommen können, oder die Bestimmung der Wahrscheinlichkeit, dass ein bei einer Ausgrabung auf einem Parkplatz in Leicester gefundenes Skelett wirklich als die Gebeine von König Richard III. identifiziert werden kann.

Dieses Buch richtet sich sowohl an Schüler und Studenten der Statistik, die sich für eine nichttechnische Einführung in die Grundthemen interessieren, als auch allgemein an Leser, die mehr Einblick in die Hintergründe der statistischen Zahlen und Fakten erhalten wollen, denen sie in Beruf und Alltag begegnen. Mein Hauptaugenmerk liegt auf dem gekonnten und sorgfältigen Umgang mit Statistiken: Zahlen mögen als kalte und harte Fakten daherkommen, aber die Versuche, Bäume, Glück und Zufriedenheit oder Todesfälle zu messen, haben bereits gezeigt, dass der Umgang mit ihnen viel Fingerspitzengefühl erfordert.

Statistiken können Erkenntnisgewinn und eine klare Sicht auf Problemstellungen ermöglichen, aber wir alle wissen auch (oder ahnen es zumindest), dass sie sich missbrauchen lassen, um beispielsweise bestimmte Sichtweisen gezielt zu pushen oder einfach nur Aufmerksamkeit zu heischen. Die Fähigkeit, statistische Behauptungen auf ihre Stichhaltigkeit hin zu überprüfen, ist, so scheint mir, in der heutigen Welt eine Schlüsselkompetenz. So hoffe ich, dass dieses Buch seinen Beitrag dazu leisten wird, dass die Menschen den Mut und die Kraft finden, die Zahlen, die täglich auf sie einprasseln, mit der nötigen Skepsis zu behandeln und gebührend zu hinterfragen.

ZUSAMMENFASSUNG

Erfahrenes und Erlebtes lässt sich nicht in eindeutiger Weise in Daten übersetzen und jedes Datenabbild der Wirklichkeit muss immer unvollständig bleiben.

Die Statistik als Wissenschaft blickt auf eine lange und erfolgreiche Geschichte zurück, ändert jedoch mit der Zunahme der verfügbaren Daten ihren Charakter.

Jeder Datenwissenschaftler benötigt umfangreiche Kenntnisse in statistischen Methoden.

Im Zentrum der statistischen Ausbildung stehen heute nicht mehr nur mathematische Methoden, sondern der vollständige Problemlösungsprozess.

Der PPDAC-Zyklus liefert dazu das passende Rahmenkonzept: Seine Stationen lauten Problem – Plan – Daten – Analyse und (C)Konklusion (conclusion) bzw. (C)Kommunikation (communication).

Datenkompetenz ist in der Welt von heute unverzichtbar.

1. KAPITEL

DIE DINGE INS RICHTIGE VERHÄLTNIS SETZEN – KATEGORIALE DATEN UND PROZENTZAHLEN

Was geschah mit den Kindern, die zwischen 1984 und 1995 in Bristol am Herzen operiert wurden?

Joshua L. war 16 Monate alt und litt unter einer Transposition der großen Arterien: einem schweren angeborenen Herzfehler, bei dem Hauptschlagader und Lungenschlagader mit jeweils der falschen Herzkammer verbunden sind. Joshua benötigte eine Operation zur »Vertauschung« der Arterien. Am 12. Januar 1995 verabschiedeten sich seine Eltern um kurz nach 7 Uhr von ihm und schauten zu, wie er in den Operationssaal der Bristol Royal Infirmary geschoben wurde. Was Joshuas Eltern nicht wussten, war, dass seit den frühen 1990er-Jahren Geschichten über die geringen Überlebenschancen bei solchen Operationen speziell in Bristol in Umlauf waren. Niemand hatte ihnen erzählt, dass Krankenschwestern und -pfleger sogar gekündigt hatten, nur um nicht länger Eltern berichten zu müssen, dass ihr Kind gestorben war. Sie wussten auch nicht von der spätabendlichen Teambesprechung am Vortag, auf der erwogen worden war, Joshuas Operation abzusagen.1

Joshua verstarb auf dem Operationstisch. Im Jahr darauf startete das General Medical Council (die britische Ärztekammer) aufgrund der Beschwerden von Joshuas und anderen Eltern, die ihre Kinder verloren hatten, eine Untersuchung. Im Jahr 1998 wurden zwei Chirurgen und der frühere Krankenhausleiter des schweren ärztlichen Fehlverhaltens für schuldig befunden. Die Öffentlichkeit blieb jedoch alarmiert, sodass schließlich eine amtliche Untersuchung eingeleitet wurde, in deren Rahmen ein Team von Statistikern die traurige Aufgabe erhielt, die Überlebensraten in Bristol zwischen 1984 und 1995 mit denen anderer Orte in Großbritannien zu vergleichen. Ich leitete dieses Team.

Wir ermittelten als Erstes, wie viele Kinder am Herzen operiert worden waren und wie viele dabei ihr Leben gelassen hatten. Das klingt nicht besonders kompliziert, aber wie die Einleitung gezeigt hat, kann bereits das simple Zählen von Ereignissen seine Tücken haben. Wer ist »Kind«? Was zählt als »Operation am Herzen«? Wann lässt sich ein Todesfall eindeutig als Folge einer Operation bestimmen? Und selbst nachdem wir alle diese Dinge definiert hatten, blieb die Frage: Lassen sich die Zahlen so ohne Weiteres ermitteln?

Wir definierten »Kind« als »noch nicht 16-jährig« und beschränkten uns auf Operationen am offenen Herzen, bei denen das Herz gestoppt und seine Funktion von einem kardiopulmonalen Bypass übernommen worden war. Einige der jungen Patienten hatten während eines Krankenhausaufenthalts mehrere Operationen gehabt, die wir jedoch wie eine einzige behandelten. Todesfälle rechneten wir den Operationen zu, wenn sie binnen 30 Tagen nach der letzten Operation eintraten, unabhängig davon, wo der Tod eintrat und ob ein Zusammenhang mit der Operation offensichtlich war oder nicht. Wir wussten, dass der Tod ein unvollkommenes Maß für die Qualität des Operationsresultats war, weil damit nicht erfasst wurde, ob die Kinder infolge des Eingriffs Hirn- oder andere Schäden davongetragen hatten, aber zu den langfristigen Auswirkungen fehlten uns die Daten.

Unsere Hauptdatenquelle war die Datenbank »Hospital Episode Statistics« (HES, die britische Krankenhausstatistik), deren Einträge sich wiederum aus Verwaltungsdaten speisten, die von Hilfskräften eingegeben wurden. Wärend die HES bei Ärzten in schlechtem Ruf stand, hatte sie als Quelle den Vorteil, dass sie sich mit dem nationalen Sterberegister verknüpfen ließ. Daneben gab es ein paralleles System von Daten, welche unmittelbar an die vom chirurgischen Berufsverband eingerichtete Cardiac Surgical Registry (CSR) übermittelt wurden.

Obgleich diese beiden Datenquellen theoretisch dieselben Vorgänge dokumentierten, wiesen sie beträchtliche Abweichungen auf: Für die Jahre 1991–1995 sprach die HES von 62 Todesfällen bei 505 offenen Operationen (14 Prozent), während in der CSR 71 Todesfälle bei 563 Operationen (13 Prozent) verzeichnet waren. Nicht weniger als fünf weitere lokale Datenquellen waren verfügbar, von der Dokumentation der Anästhesisten bis zu den persönlichen Logbüchern der Chirurgen. In Bristol mangelte es nicht an Daten, aber keine dieser Datenquellen konnte für sich beanspruchen, die »Wahrheit« gepachtet zu haben, und niemand hatte sich die Mühe gemacht, die Operationsergebnisse zu analysieren und daraus irgendwelche Konsequenzen zu ziehen.

Wir errechneten, dass, hätten die Patienten in Bristol eine Überlebenswahrscheinlichkeit gleich der durchschnittlichen Überlebenswahrscheinlichkeit aller übrigen Orte in Großbritannien gehabt, für den betrachteten Zeitraum 32 statt der in der HES verzeichneten 62 Todesfälle zu erwarten gewesen wären, weshalb wir damals in unserem Bericht von »30 zusätzlichen Todesfällen zwischen 1991 und 1995« sprachen.[5] Die exakte Zahl variierte je nach zugrunde gelegten Datenquellen und es mag schon für sich genommen ungeheuerlich erscheinen, dass es uns nicht möglich war, so elementare Fakten wie die Zahl der Operationen und ihre Ausgänge eindeutig zu ermitteln, was beim Stand der modernen Dokumentationstechnik eigentlich hätte möglich sein müssen.

Diese Befunde fanden ein breites Presseecho. Eine Konsequenz besagter Untersuchung waren weitreichende Veränderungen in der Art und Weise, wie die klinische Leistung dokumentiert wurde: Es war der ärztlichen Zunft nicht länger überlassen, sich selbst zu reglementieren. Mechanismen zur amtlichen Dokumentation klinischer Überlebensdaten wurden etabliert – wenngleich, wie wir als Nächstes sehen werden, allein schon die Art und Weise, wie Daten visualisiert und präsentiert werden, Einfluss darauf hat, wie sie vom Publikum aufgenommen werden.

Zahlen und Zahlenverhältnisse kommunizieren

Daten, die nichts weiter festhalten, als dass bestimmte Ereignisse stattgefunden oder nicht stattgefunden haben, werden auch als Binärdaten bezeichnet, weil sie nur zwei Werte annehmen können; wir sprechen hier üblicherweise von »wahr« und »falsch« oder von »ja« und »nein«. Mengen von Binärdaten lassen sich in Form der absoluten Zahl oder des relativen (prozentualen) Anteils der Fälle zusammenfassen, in denen ein Ereignis tatsächlich eingetreten ist.

In diesem Kapitel wollen wir zeigen, welche Rolle es spielt, wie Statistiken präsentiert werden. Wir springen damit gewissermaßen zur letzten Station (communication) des PPDAC-Zyklus, in der die Schlussfolgerungen kommuniziert werden. Während die Form, in der diese Kommunikation erfolgt, in der Wissenschaft der Statistik keinen maßgeblichen Platz einnimmt, spiegelt das wachsende Interesse an der Datenvisualisierung hier eine veränderte Einstellung wider. In diesem und dem folgenden Kapitel wollen wir uns deshalb mit der Frage beschäftigen, wie sich Daten so visualisieren und präsentieren lassen, dass der Betrachter auf den ersten Blick und ohne detaillierte Analyse das Wesentliche erfassen kann. Wir beginnen damit die heute allgemein zur Verfügung stehenden Möglichkeiten – nicht zuletzt infolge der Untersuchung von Bristol – zu visualisieren.

Tabelle 1.1 zeigt die Resultate von nahezu 13 000 Kindern, die zwischen 2012 und 2015 in Großbritannien und Irland am Herzen operiert wurden.2 263 Kinder starben binnen 30 Tagen nach ihrer Operation und jeder dieser Todesfälle ist eine Tragödie für die betroffene Familie. Diese wird es wenig trösten, dass die Überlebensraten seit der Zeit der Untersuchung von Bristol stark gestiegen sind und heute im Schnitt 98 Prozent betragen und dass sich die Aussichten für Familien mit Kindern, denen eine Herzoperation bevorsteht, deutlich verbessert haben.

Eine Tabelle kann als eine Form von Grafik verstanden werden, die eine sorgfältige Auswahl von Farben, Schriftarten und verwendeter Sprache erfordert, um ansprechend und lesbar zu sein. Zusätzlich könnte die emotionale Reaktion des Betrachters auf die Tabelle davon beeinflusst sein, welche Spalten präsentiert werden. Tabelle 1.1 zeigt die Resultate in Form von Überlebenden und Toten, aber während in den Vereinigten Staaten im Zusammenhang mit Operationen an Kinderherzen von Mortalitätsraten die Rede ist, werden in Großbritannien Überlebensraten angegeben. Man spricht hier von negativem oder positivem Framing (»Rahmung«), und was diese Verpackung mit unseren Gefühlen macht, leuchtet unmittelbar ein und ist gut dokumentiert: »5 Prozent Sterbenswahrscheinlichkeit« klingt schrecklicher als »95 Prozent Überlebenswahrscheinlichkeit«. Die Angabe der tatsächlichen Zahl der Verstorbenen macht die Sache auch nicht besser, lädt doch die absolute Zahl dazu ein, sich darunter eine konkrete Gruppe von Menschen vorzustellen.

Krankenhaus

Zahl der operierten Kinder

Zahl derer, die 30 Tage nach der Operation noch am Leben waren

Zahl derer, die binnen 30 Tagen nach der Operation verstarben

Prozentualer Anteil der Überlebenden

Prozentualer Anteil der Verstorbenen

London, Harley Street

418

413

5

98,8

1,2

Leicester

607

593

14

97,7

2,3

Newcastle

668

653

15

97,8

2,2

Glasgow

760

733

27

96,3

3,7

Southampton

829

815

14

98,3

1,7

Bristol

835

821

14

98,3

1,7

Dublin

983

960

23

97,7

2,3

Leeds

1.038

1.016

22

97,9

2,1

London, Brompton

1.094

1.075

19

98,3

1,7

Liverpool

1.132

1.112

20

98,2

1,8

London, Evelina

1.220

1.185

35

97,1

2,9

Birmingham

1.457

1.421

36

97,5

2,5

London, Great Ormond Street

1.892

1.873

19

99,0

1,0

Gesamt

12.933

12.670

263

98.0

2,0

Tabelle 1.1 Ausgänge der Operationen an Kinderherzen in den Krankenhäusern Großbritanniens und Irlands zwischen 2012 und 2015 gemessen daran, ob die Operierten 30 Tage nach der Operation noch am Leben waren oder nicht.

Ein klassisches Beispiel, wie Framing die emotionale Wirkung einer Zahl ändern kann, ist eine Anzeige, die 2011 in Londoner U-Bahnen plakatiert wurde und in der es hieß: »99 aller jungen Londoner verüben keine schwerwiegenden Jugendverbrechen.« Die Anzeige sollte vermutlich den Passagieren ein Gefühl der Sicherheit vermitteln, aber wir können die emotionale Wirkung mit zwei einfachen Änderungen in ihr Gegenteil verkehren. Die Aussage impliziert erstens, dass jeder hundertste junge Londoner in der Tat schwere Verbrechen begeht. Und weil zweitens die Londoner Bevölkerung rund 9 Millionen Menschen beträgt und darunter rund 1 Million Menschen zwischen 15 und 25 Jahren sind, bedeutet das, falls wir diese Altersspanne unter »jung« verstehen, dass 1 Prozent von 1 Million oder in absoluten Zahlen 10 000 junge Gewalttäter in der Stadt herumlaufen. Das klingt nicht allzu beruhigend. Achten Sie auf die zwei Tricks, mit denen wir die Wirkung dieser Statistik manipuliert haben: Wir haben einen positiven »Rahmen« durch einen negativen ersetzt und aus der relativen Prozentzahl eine absolute Zahl von Menschen gemacht.

Im Idealfall präsentieren wir sowohl positive als auch negative Rahmungen, wenn wir Informationen objektiv wiedergeben wollen, wenngleich selbst noch die Reihenfolge der Spalten Einfluss darauf haben kann, wie die Tabelle interpretiert wird. Auch die Reihenfolge der Zeilen will sorgfältig bedacht sein. Tabelle 1.1 zeigt die Krankenhäuser geordnet nach der Zahl der Operationen, die in den einzelnen Krankenhäusern stattgefunden haben. Wären sie beispielsweise nach den Mortalitätsraten absteigend geordnet präsentiert worden, wäre möglicherweise der Eindruck entstanden, das wäre eine gültige und wichtige Art, Krankenhäuser miteinander zu vergleichen. Solche Ranglisten sind nach dem Geschmack der Medien und auch mancher Politiker, können aber sehr irreführend sein – nicht nur, weil die Unterschiede auf reinen Zufallsschwankungen beruhen können, sondern weil die Krankenhäuser möglicherweise ganz unterschiedliche Fälle annehmen. In Tabelle 1.1 beispielsweise dürfen wir vermuten, dass Birmingham als eines der größten und bekanntesten Kinderkrankenhäuser die schwersten Fälle übernimmt, und deshalb wäre es gelinde gesagt unfair, die scheinbar nicht besonders vorteilhaften Überlebenschancen hier groß herauszustellen.[6]

Abbildung 1.1 Horizontales Balkendiagramm der Überlebensraten nach 30 Tagen in 13 Krankenhäusern. Die Wahl des horizontalen Achsenbeginns (hier 86 Prozent) hat entscheidenden Einfluss auf den Eindruck, den die Grafik beim Betrachter hinterlässt. Würde die Achse bei 0 Prozent beginnen, würden die Balken für alle Krankenhäuser identisch aussehen, während ein Achsenbeginn bei 95 Prozent die Situation unverhältnismäßig dramatisieren würde. Statt eines Balkendiagramms ist es vielleicht besser, die Werte durch Punkte zu markieren, wenn die Achse nicht bei Null beginnt.

Die Überlebensraten lassen sich in einem Balkendiagramm wie in Abbildung 1.1 darstellen. Eine wichtige Entscheidung betrifft hier den Beginn der horizontalen Achse: Wenn die Werte bei 0 Prozent beginnen, nehmen sämtliche Balken fast die gesamte Breite der Grafik ein, was einerseits die extrem hohen Überlebenschancen unterstreicht, andererseits die Balken ununterscheidbar macht. Ein alter Trick, um mittels Graphen Irreführung zu betreiben, ist jedoch gerade, die Achse bei sagen wir 95 Prozent beginnen zu lassen, mit der Folge, dass die Krankenhäuser große Unterschiede aufzuweisen scheinen, obgleich die Schwankungen nicht über das hinausgehen, was sich allein durch den Zufall erklären lässt.

Die Wahl des Achsenbeginns führt uns deshalb in ein Dilemma. Alberto Cairo, der Autor eines einflussreichen Buches über die Datenvisualisierung,3 schlägt vor, dass wir bei einer »logischen und sinnvollen Grundlinie« ansetzen, was in dieser Situation zu keiner eindeutigen Lösung führt – meine eher willkürliche Wahl von 86 Prozent entspricht in etwa den inakzeptabel niedrigen Überlebenschancen in Bristol von vor zwanzig Jahren.

Ich habe diesem Buch ein Zitat von Nate Silver vorangestellt, dem Gründer der datengestützten Plattform FiveThirtyEight, der Berühmtheit erlangte, als er den Ausgang der US-Präsidentschaftswahlen von 2008 korrekt voraussagte, und von dem die eloquent vorgetragene Vorstellung stammt, dass Zahlen nicht für sich selbst sprechen, sondern dass es an uns liegt, ihnen einen Sinn zu verleihen. Daraus folgt, dass der Kommunikation eine entscheidende Rolle im Problemlösungszyklus zukommt, und ich habe in diesem Abschnitt gezeigt, wie die Botschaft, die von ein paar wenigen Zahlen ausgeht, bereits stark variieren kann, je nachdem, wie wir diese Zahlen präsentieren.

Wir müssen jetzt ein wichtiges und höchst nützliches Konzept vorstellen, das uns helfen wird, über einfache Ja/Nein-Fragen hinauszugehen.

Kategoriale Variablen

Eine Variable ist definiert als ein Maß, das je nach Situation unterschiedliche Werte annehmen kann. Variablen bieten sich an, um Beobachtungen unterschiedlichster Art wiederzugeben, die mit Daten zu tun haben. Binäre Variablen repräsentieren Ja/Nein-Fragen, beispielsweise, ob jemand lebendig oder tot ist oder ob jemand weiblichen Geschlechts ist oder nicht: Beide Variablen sind je nach Mensch unterschiedlich und können sich – selbst, was das Geschlecht betrifft – mit der Zeit ändern. Kategoriale Variablen sind solche, die die Zugehörigkeit zu einer von zwei oder mehr Kategorien anzeigen können. Dabei unterscheiden wir zwischen

ungeordneten Kategorien, wie zum Beispiel das Herkunftsland eines Menschen, die Farbe eines Autos oder das Krankenhaus, in dem eine Operation stattgefunden hat;

geordneten Kategorien, wie zum Beispiel der Dienstrang eines Militärangehörigen;

Zahlen, die in Wertebereiche gegliedert wurden, wie zum Beispiel Fettleibigkeitsgrade, die häufig anhand bestimmter Grenzwerte des Body-Mass-Index (BMI) definiert werden.[7]

Sobald es darum geht, kategoriale Daten zu veranschaulichen, vermitteln Kuchendiagramme – oder »Tortendiagramme« – einen Eindruck von der Größe der einzelnen Kategorien im Vergleich zum Gesamtkuchen. Häufig aber sind sie optisch verwirrend, weil sie beispielsweise versuchen, zu viele Kategorien in einem Diagramm wiederzugeben, oder weil sie eine perspektivische Sicht verwenden, die Bereiche verzerrt. Abbildung 1.2 zeigt ein ziemlich schlechtes Beispiel für die Art von Diagrammen, wie man sie sich von Microsoft Excel erstellen lassen kann. Es zeigt, wie viele der 12 933 kleinen Herzpatienten aus Tabelle 1.1 auf die einzelnen Krankenhäuser entfallen.

Kuchendiagramme sind in der Regel keine gute Wahl, weil das Auge Mühe hat, die Größen von Flächen unterschiedlicher Gestalt miteinander zu vergleichen. Vergleiche lassen sich besser anhand der Balkenlängen in einem vertikalen oder horizontalen Balkendiagramm anstellen. Abbildung 1.3 zeigt eine einfachere und klarere Veranschaulichung der Zahlenverhältnisse der in den einzelnen Krankenhäusern behandelten Kinder in Form eines horizontalen Balkendiagramms.

Abbildung 1.2 Der Anteil der einzelnen Krankenhäuser am Gesamtaufkommen von Operationen am Kinderherzen, dargestellt in Form eines mittels Excel generierten 3D-Kuchendiagramms. Diese höchst unbefriedigende Grafik lässt die Kuchenschnitzel vorn im Bild größer aussehen und macht es damit unmöglich, einen visuellen Vergleich zwischen den Krankenhäusern zu ziehen.

Abbildung 1.3 Prozentualer Anteil der in den einzelnen Krankenhäusern durchgeführten Operationen am Gesamtaufkommen der Operationen am Kinderherzen: eine klarere Darstellung mithilfe eines horizontalen Balkendiagramms.

Zwei Anteile vergleichen

Wir haben gesehen, wie sich Zahlen, die Anteile repräsentieren, mithilfe eines Balkendiagramms elegant vergleichen lassen. Da möchte man annehmen, dass der Vergleich von nur zwei Anteilen ein Klacks wäre. Aber wenn diese Werte für bestimmte Risiken stehen, wird aus der Art und Weise, wie diese Risiken miteinander verglichen werden, ein ernstes und viel diskutiertes Problem. Hier ist eine typische Frage:

Welche Auswirkung hat der Verzehr von Speck-Sandwiches auf das Krebsrisiko?

Wir alle kennen diese Schlagzeilen, die uns auf einmal erzählen, etwas völlig Alltägliches erhöht das Risiko, dass etwas ganz Schauerliches passiert. Ich spreche hier gern von »Katzen verursachen Krebs«-Geschichten. Im November 2015 beispielsweise verkündete die Internationale Agentur für Krebsforschung (IARC) der Weltgesundheitsorganisation, verarbeitetes Fleisch sei »krebserregend« und gehöre damit in dieselbe Kategorie (Gruppe 1) wie Zigaretten und Asbest. Das führte unweigerlich zu panischen Schlagzeilen; der Daily Record – die schottische Schwesterzeitung des Boulevardblattes Sunday Mail – schrieb beispielsweise: »Das Krebsrisiko von Schinken, Speck und Wurst ist dasselbe wie von Zigaretten, warnen Experten.«4

Die IARC versuchte, die Wogen zu glätten, indem sie betonte, die Einordnung in die Gruppe 1 bedeute lediglich, dass die Agentur überzeugt sei, dass ein wie auch immer geartetes Krebsrisiko bestehe; über die tatsächliche Größe dieses Risikos sei damit aber nichts ausgesagt. Weiter unten in der Pressemitteilung spezifizierte die IARC dann, dass der Genuss von 50 Gramm verarbeiteten Fleisches pro Tag mit einem um 18 Prozent erhöhten Darmkrebsrisiko in Verbindung gebracht werde. Das klingt beunruhigend, aber tut es das zu Recht?

Die genannten 18 Prozent heißen relatives Risiko, denn sie stehen für den Faktor, um den sich das Risiko, an Darmkrebs zu erkranken, für jemanden erhöht, der täglich 50 Gramm verarbeitetes Fleisch – beispielsweise in Form von zwei Speckscheiben in einem Sandwich – isst, gegenüber jemandem, der dies nicht tut. Statistisch bewanderte Kommentatoren errechneten daraus die Zunahme des absoluten Risikos, das heißt die Veränderung des zu erwartenden Anteils derer in den jeweiligen Gruppen, die irgendwann an Darmkrebs erkranken werden.

Sie kamen zu dem Schluss, dass beim normalen Lauf der Dinge von 100 Menschen, die nicht täglich Speck essen, aller Wahrscheinlichkeit nach rund sechs früher oder später an Darmkrebs erkranken. Wenn eine vergleichbare Gruppe von 100 Menschen ihr Lebtag lang täglich ein Speck-Sandwich isst, können wir laut dem IARC-Bericht davon ausgehen, dass von ihnen 18 Prozent mehr an Darmkrebs erkranken werden, was bedeutet, dass die Zahl der Erkrankungen von sechs auf sieben (von 100) steigen würde.[8] Das ist ein zusätzlicher Fall von Darmkrebs unter allen betrachteten 100 lebenslänglichen Speckessern, was bei Weitem nicht so dramatisch klingt wie das relative Risiko von 18 Prozent und dazu dienen mag, das Risiko ins Verhältnis zu setzen. Wir müssen zwischen den Dingen unterscheiden, die wirklich gefährlich sind, und denen, die lediglich angsteinflößend klingen.5

Das Beispiel mit dem Speck-Sandwich illustriert den Vorteil einer Kommunikation der Risiken mittels erwarteter Häufigkeiten: Anstatt über prozentuale Anteile oder Wahrscheinlichkeiten zu reden, fragen wir einfach: »Was bedeutet das für 100 (oder 1000) Menschen?« Psychologische Studien haben gezeigt, dass diese Technik das Verständnis verbessert. Man könnte die bloße Angabe, dieser zusätzliche Fleischkonsum führe zu einem um 18 Prozent erhöhten Risiko, sogar als manipulativ bezeichnen, wissen wir doch, dass diese Formulierung einen übertriebenen Eindruck von der Bedeutung dieses Risikos vermittelt.6 Abbildung 1.4 stellt die erwartete Häufigkeit von Darmkrebs unter 100 Menschen mittels eines Icon-Arrays – einer Phalanx von Symbolen – dar.

In Abbildung 1.4 sind die »Krebs«-Symbole zufällig über die 100 Plätze verteilt. Während gezeigt wurde, dass eine solche Zufallsanordnung den Eindruck der Unvorhersehbarkeit verstärkt, sollte sie jedoch nur verwendet werden, solange ausschließlich ein zusätzlich hervorgehobenes Symbol darunter ist. Es sollte nicht notwendig sein, Symbole zu zählen, um den beabsichtigten Vergleich anstellen zu können.

Weitere Möglichkeiten, zwei Anteile miteinander zu vergleichen, sind in Tabelle 1.2 am Beispiel des zusätzlichen Risikos aufgeführt, dem sich Menschen aussetzen, die Speck essen.[9]

Abbildung 1.4 Das Beispiel vom Speck-Sandwich, dargestellt mittels zweier Symbolraster mit zufällig eingestreuten hervorgehobenen Symbolen, die das unterschiedliche Darmkrebsrisiko für Speckesser und Nichtspeckesser illustrieren. Von 100 Menschen, die keinen Speck essen, entwickeln unter normalen Umständen sechs (komplett schwarz dargestellt) Darmkrebs. Von 100 Menschen, die täglich Speck essen, entwickelt zusätzlich noch ein siebter Mensch (schwarz gestreift dargestellt) Darmkrebs. 9

»1 von X« ist eine übliche Methode, ein Risiko zu beschreiben. Mit »1 von 16« meinen wir ein Risiko von 6 Prozent. Die Verwendung mehrerer solcher »1 von …«-Aussagen ist jedoch nicht zu empfehlen, da viele Menschen Schwierigkeiten haben, sie zu vergleichen. Auf die Frage »Welches Risiko ist größer: 1 von 100, 1 von 10 oder 1 von 1000?« beispielsweise gibt rund jeder Vierte eine falsche Antwort. Das Problem ist, dass die größere Zahl für das kleinere Risiko steht und es deshalb ein Mindestmaß an intellektuellem Geschick erfordert, sich darin zurechtzufinden.

Methode

Nichtspeckesser

Tägliche Speckesser

Prozentualer Anteil

6 %

7 %

Erwartete Häufigkeit

6 von 100

7 von 100

1 von 16

1 von 14

Chance

6:94 oder 6/94

7:93 oder 7/93

Tabelle 1.2 Beispiele, wie sich das Risiko von Nichtspeckessern und täglichen Speckessern, früher oder später an Darmkrebs zu erkranken, kommunizieren lässt. Die »Zahl der notwendigen Behandlungen« (engl: number needed to treat, NNT) bezeichnet die Zahl der Menschen, die ihr Leben lang täglich ein Speck-Sandwich essen müssen, damit ein zusätzlicher Fall von Darmkrebs erwartet werden kann.[10]

Als Chance (engl.: odds) bezeichnet man in der Statistik das Verhältnis zwischen der Wahrscheinlichkeit, dass ein Ereignis eintritt, und der Wahrscheinlichkeit, dass es nicht eintritt. Weil beispielsweise von den 100 Nichtspeckessern sechs an Darmkrebs erkranken werden und 94 nicht, stehen die Chancen, an Darmkrebs zu erkranken, »6 zu 94« – oder wie es im statistischen Jargon in Anlehnung an den englischen Begriff odds heißt: Die »Chance« beträgt 6/94 oder 0,0638.[11] »Chancen« werden in Großbritannien üblicherweise im Wettgeschäft verwendet, spielen aber auch in der statistischen Modellierung von Zahlenverhältnissen eine große Rolle. So werden in der medizinischen Forschung die Wirkungen von Behandlungsverfahren oder Verhaltensweisen in aller Regel in Form von Chancenverhältnissen (engl.: odds ratios) – das heißt in Verhältnissen zwischen »Chancen« (die ihrerseits wieder Verhältnisse zwischen Wahrscheinlichkeiten darstellen) – ausgedrückt.

Auch wenn Chancenverhältnisse in der Forschungsliteratur weit verbreitet sind, sind sie nicht besonders intuitiv, wenn es darum geht, Risikounterschiede deutlich zu machen. Solange die Ereignisse eher selten sind, liegen die Chancenverhältnisse zahlenmäßig dicht bei den relativen Risiken – wie im Fall der Speck-Sandwiches. Allgemein jedoch kann das Chancenverhältnis stark vom relativen Risiko abweichen, was, wie das folgende Beispiel zeigt, für Journalisten und andere sehr verwirrend sein kann.

Wie wird aus einem Anstieg von 85 Prozent auf 87 Prozent eine 20-prozentige Zunahme?

Die Daily Mail interpretierte nun dieses Chancenverhältnis als relatives Risiko und erklärte in einer Schlagzeile, Statine »erhöhen das Risiko um bis zu 20 Prozent«, was die tatsächlichen Befunde der Studie grob verzerrt. Man sollte die Schuld aber nicht allein den Journalisten geben: Das Abstract der Publikation nannte lediglich das Chancenverhältnis, ohne zu erwähnen, dass ihm ein Unterschied in den absoluten Risiken von 85 Prozent zu 87 Prozent zugrunde lag.7

Das illustriert die Gefahren, die es mit sich bringt, wenn wir in einem anderen als einem wissenschaftlichen Kontext von Chancenverhältnissen sprechen, und die Vorteile, die es hat, wenn wir stets die absoluten Risiken angeben. Denn das sind letztlich die Zahlen, die für die Öffentlichkeit relevant sind – ob im Fall von Speck, Statinen oder was auch immer.

Die Beispiele in diesem Kapitel haben gezeigt, wie aus einer scheinbar einfachen Aufgabe wie der Berechnung und Vermittlung (communication) von Zahlenverhältnissen eine komplexe Materie werden kann. Beides muss mit Sorgfalt und Umsicht ausgeführt werden. Gemeinsam mit auf die Bewertung der Wahrnehmung unterschiedlicher Formate spezialisierten Psychologen können wir die Wirkung numerischer und grafischer Datenveranschaulichungen vergleichen. Die Vermittlung der Ergebnisse ist ein wichtiger Teil des Problemlösungszyklus und sollte nicht der Willkür persönlicher Präferenzen überlassen bleiben.

ZUSAMMENFASSUNG

Binäre Variablen repräsentieren Ja/Nein-Fragen und wenn ich mehrere solcher Ja/Nein-Variablen habe, kann ich die Ja-Antworten zählen und zur Gesamtzahl in Beziehung setzen und erhalte so ein Zahlenverhältnis.

Indem ich Zahlenverhältnisse in einer positiven oder negativen Rahmung (engl.: framing) präsentiere, verändere ich ihre emotionale Wirkung.

Relative Risiken verstärken tendenziell die Dramatik. Mehr Klarheit bieten absolute Risiken.

Erwartete Häufigkeiten fördern das Verständnis und vermitteln nicht mehr und nicht weniger Dramatik, als den Umständen angemessen ist.

Chancenverhältnisse (engl.: odds ratios) sind in wissenschaftlichen Studien gang und gäbe, sollten aber in Verlautbarungen, die für die Öffentlichkeit gedacht sind, vermieden werden.

Diagramme sollten sorgfältig und umsichtig auf ihre Wirkung hin ausgewählt und gestaltet werden.

2. KAPITEL

ZAHLEN ZUSAMMENFASSEN UND KOMMUNIZIEREN. GROSSE ZAHLENMENGEN

Können wir der kollektiven Intelligenz trauen?

Francis Galton, Cousin Charles Darwins und Universalgelehrter, dem die Urheberschaft von Dingen wie der Personenidentifizierung per Fingerabdruck, der Wettervorhersage und der Eugenik zugeschrieben wird,[12] verfasste im Jahr 1907 einen Brief an das angesehene Wissenschaftsmagazin Nature, in dem er über seinen Besuch bei der West of England Fat Stock and Poultry Exhibition in der Hafenstadt Plymouth berichtete. Dort sah er eine Traube von Menschen um einen großen Ochsen stehen, die Sixpence-Münzen darauf wetteten, wer das Fleischgewicht, nachdem man das arme Tier geschlachtet und ausgenommen hätte, am genauesten vorauszusagen wusste. Galton durfte die 787 abgegebenen und lesbaren Zettel mit den Schätzungen einsehen, und er wählte den Mittelwert von 547 Kilogramm als die demokratische Entscheidung, der gegenüber »jede andere Schätzung von der Mehrheit der Schätzer als zu hoch oder zu niedrig abgetan worden war«. Das tatsächliche Schlachtgewicht stellte sich anschließend als 543 Kilogramm heraus, was seiner auf 787 Einzelschätzungen beruhenden Entscheidung erstaunlich nahe kam.1 Galton überschrieb seinen Brief mit »Vox Populi« (Stimme des Volkes); heute würden wir eher von Weisheit der vielen, Schwarm- oder kollektiver Intelligenz sprechen.

Abbildung 2.1 Wie viele Geleebohnen befinden sich in diesem (sechseckigen) Glas? Das fragten wir in einem YouTube-Video und bekamen 915 Antworten. Die Lösung werden wir später geben.

Galton machte das, was wir als ein Zusammenfassen von Daten bezeichnen könnten: Er reduzierte die vielen Zahlen auf den Zetteln zu einem einzigen Schätzgewicht von 547 Kilogramm. In diesem Kapitel wollen wir uns die Techniken anschauen, die während des zurückliegenden Jahrhunderts entwickelt wurden, um die zunehmend verfügbaren Datenmassen zusammenzufassen und zu kommunizieren. Wir werden sehen, dass die Möglichkeit, Daten auf Papier oder Bildschirm anschaulich wiederzugeben, wesentlich von der Fähigkeit abhängt, Orts-, Verbreitungs-, Entwicklungs- und Korrelationsparameter numerisch zu komprimieren und zusammenzufassen. Und wir werden uns mit dem kleinen, aber feinen Unterschied zwischen einer bloßen Beschreibung der Daten und dem Anliegen beschäftigen, mit einer Infografik eine Geschichte zu erzählen.

Wir wollen mit meinem eigenen Versuch eines Experiments zur Nutzung kollektiver Intelligenz beginnen, an dem sich viele der Probleme aufzeigen lassen, mit denen wir es zu tun bekommen, wenn wir die reale, undisziplinierte Welt mit all ihrer Unvollkommenheit und Unberechenbarkeit als Datenquelle nutzen wollen.

Die Statistik beschäftigt sich nicht nur mit ernsten Ereignissen wie Krebs oder chirurgischen Eingriffen. In einem eher lustig gemeinten Experiment posteten James Grime und ich auf YouTube ein Video und baten die Seitenbesucher, die Zahl der Geleebohnen in einem Schraubverschlussglas zu schätzen. Natürlich können Sie die Übung anhand des Fotos in Abbildung 2.1 selbst machen (die richtige Zahl werde ich später bekannt geben). 915 Personen machten Schätzungen, die von 219 bis 31 337 reichten, und wir werden uns in diesem Kapitel ansehen, wie wir solche Zahlen grafisch veranschaulichen und numerisch zusammenfassen können.

Abbildung 2.2 präsentiert drei Möglichkeiten, das Muster der 915 eingereichten Werte zu präsentieren. Wir können hier alternativ von einer Datenverteilung oder einer empirischen Verteilung sprechen.[13]

Das Linienschreiber- oder Punktdiagramm zeigt jeden geschätzten Wert als einen Punkt an, wenn auch mit einem Jitter (einem geringfügigen Spielraum), um zu verhindern, dass mehrere Schätzwerte übereinander liegen und die Verteilungsgewichtung verfälscht dargestellt wird. Es zeigt sich eine deutliche Häufung der Schätzungen im Bereich bis ungefähr 3000 und danach ein langes »Ende« von Werten bis hinauf zu 30 000 mit einem Cluster genau beim Wert 10 000.

Abbildung 2.2 Verschiedene Darstellungsweisen für die Verteilung der 915 Schätzwerte für die Zahl der Geleebohnen im Glas. (a) Linienschreiber- oder Punktdiagramm mit einem Jitter, um zu verhindern, dass Punkte übereinander zu liegen kommen; (b) Box-Whisker-Plot; (c) Histogramm

Der Box-Whisker-Plot fasst einige wesentliche Eigenschaften der Datenverteilungzusammen.[14]

Dieses Histogramm zählt einfach die Zahl der Datenpunkte innerhalb bestimmter Wertebereiche. Es vermittelt eine grobe Vorstellung von der Form der Verteilung.

Diese Bilder verraten auf den ersten Blick einige markante Merkmale. Die Datenverteilung ist hochgradig schief, was bedeutet, dass sie auch nicht annähernd symmetrisch um einen zentralen Wert ist, sondern infolge einiger extrem hoher Werte ein langes rechtsseitiges Ende hat. Vertikale Punktreihen im Punktdiagramm weisen auf eine Präferenz für bestimmte runde Zahlen hin.

Aber alle diese Diagramme haben ein gemeinsames Problem: Das Muster der Punkte bewirkt, dass die extrem hohen Werte überproportional viel Aufmerksamkeit auf sich ziehen, während sich der Großteil der Punkte in der linken Ecke tummelt. Können wir die Daten in einer Weise präsentieren, die das Wesentliche stärker in den Fokus rückt? Wir könnten die extrem hohen Werte als absurd verwerfen (und als wir diese Daten zum ersten Mal analysierten, schlossen wir – eher willkürlich – alles über 9000 aus). Alternativ könnten wir die Daten in eine Form transformieren, die die Wirkung der Extreme reduziert, indem wir sie beispielsweise entlang einer logarithmischen Skala auftragen, wo der Abstand zwischen 100 und 1000 der gleiche ist wie zwischen 1000 und 10 000.[15]

Abbildung 2.3 zeigt ein etwas klareres Muster mit einer einigermaßen symmetrischen Verteilung und ohne extreme Ausreißer. Das erübrigt es uns, Punkte auszuschließen, was in der Regel auch keine gute Idee ist, es sei denn, es handelt sich um klare Fehler.

Es gibt keine einzig »korrekte« Art und Weise, Zahlen darzustellen: Jedes der verwendeten Diagramme hat seine Vorteile. Punktdiagramme zeigen einzelne Datenpunkte, Box-Whiskers-Plots erlauben eine rasche visuelle Erfassung und Histogramme vermitteln einen guten Eindruck von der zugrunde liegenden Form der Datenverteilung.

Abbildung 2.3 Grafische Veranschaulichung der Schätzwerte für die Zahl der Geleebohnen entlang einer logarithmischen Skala. (a) Punktdiagramm; (b) Box-Whisker-Plot; (c) Histogramm. Die Diagramme zeigen ein annähernd symmetrisches Muster.

Variablen können unterschiedliche Zahlenformate annehmen: