23,99 €
DIE SENSIBILITÄT FÜR DEN MISSBRAUCH STATISTISCHER METHODEN ERHÖHEN
Unter dem Begriff „Bad Science“ verstehen die Autoren und Herausgeber dieses Bandes sowohl schlampiges Vorgehen beim wissenschaftlichen Arbeiten, als auch auf Grund von Vorurteilen zu einseitig geratene Untersuchungen, bis hin zum Fälschen von Ergebnissen.
Die Beiträge dieses Sammelbandes basieren auf Seminararbeiten des „Blockseminar Survey Methodik“, das im Rahmen des Masterstudiengangs Survey-Statistik von der Otto-Friedrich-Universität Bamberg angeboten wurde.
Die Verfassenden der Beiträge sind somit alle Studierende, die an diesem Seminar teilgenommen und sich thematisch mit der Problematik „Bad Science“ auseinandergesetzt haben. Auf Grund der großen Relevanz des Themas wurde die Veröffentlichung der Artikel im Rahmen dieses Sammelbandes beschlossen, damit noch mehr Leser von den Erkenntnissen profitieren können. Inhaltlich wird eine theoretische Auseinandersetzung mit dem p-Wert allgemein, mit der Größe von Stichproben, dem Vorgehen des p-Hacking, der Schwäche von klassischen Hypothesentests und dem Vorgehen des HARKing aufgearbeitet.
AUS DEM INHALT:
I. Methodische Grundlagen
II. (K)eine Anleitung zum Mogeln
III. Wie man unter Zuhilfenahme statistischer Methoden Nonsens-Forschung einen wissenschaftlichen Anstrich verpasst
IV. Handfeste Konsequenzen in der wirklichen Welt
DIE HERAUSGEBER:
Rebekka Kluge, GESIS – Leibniz-Institut für Sozialwissenschaften, Mannheim, Dr. Florian Meinfelder, Lehrstuhl für Statistik und Ökonometrie, Otto-Friedrich-Universität Bamberg
Das E-Book können Sie in Legimi-Apps oder einer beliebigen App lesen, die das folgende Format unterstützen:
Veröffentlichungsjahr: 2019
Unter dem Begriff „Bad Science“ verstehen die Autoren und Herausgeber dieses Bandes sowohl schlampiges Vorgehen beim wissenschaftlichen Arbeiten, als auch auf Grund von Vorurteilen zu einseitig geratene Untersuchungen, bis hin zum Fälschen von Ergebnissen.
Die Beiträge dieses Sammelbandes basieren auf Seminararbeiten des „Blockseminar Survey Methodik“, das im Rahmen des Masterstudiengangs Survey-Statistik von der Otto-Friedrich-Universität Bamberg angeboten wurde.
Die Verfassenden der Beiträge sind somit alle Studierende, die an diesem Seminar teilgenommen und sich thematisch mit der Problematik „Bad Science“ auseinandergesetzt haben. Auf Grund der großen Relevanz des Themas wurde die Veröffentlichung der Artikel im Rahmen dieses Sammelbandes beschlossen, damit noch mehr Leser von den Erkenntnissen profitieren können. Inhaltlich wird eine theoretische Auseinandersetzung mit dem p-Wert allgemein, mit der Größe von Stichproben, dem Vorgehen des p-Hacking, der Schwäche von klassischen Hypothesentests und dem Vorgehen des HARKing aufgearbeitet.
Methodische Grundlagen
(K)eine Anleitung zum Mogeln
Wie man unter Zuhilfenahme statistischer Methoden Nonsens-Forschung einen wissenschaftlichen Anstrich verpasst
Handfeste Konsequenzen in der wirklichen Welt
Rebekka Kluge ist seit dem Abschluss des Masterstudiums in Survey-Statistik und Soziologie an der Otto-Friedrich-Universität Bamberg im Jahr 2018 bei GESIS – Leibniz-Institut für Sozialwissenschaften als Doktorandin tätig. Dort beschäftigt sie sich vor allem damit, wie Umfragen methodisch korrekt erhoben werden können. Sie vertritt die Auffassung, dass Studierenden der Begriff der „Bad Science“ möglichst früh über den Weg laufen sollte, um sie aufdecken zu können.
Dr. Florian Meinfelder war bis 2010 in der Marktforschung tätig, bevor er an den Lehrstuhl für Statistik und Ökonometrie der Otto-Friedrich-Universität Bamberg als Lehrkraft für besondere Aufgaben wechselte, wo er seitdem unterrichtet und forscht. Er ist der Überzeugung, dass ein mündiger Umgang mit datenbasierten Informationen in unserer Gesellschaft von zunehmender Bedeutung sein wird.
Die dunkle Seite der Statistik
von Florian Meinfelder Rebekka Kluge
Unter dem Begriff „Bad Science“ verstehen wir sowohl schlampiges Vorgehen beim wissenschaftlichen Arbeiten, als auch auf Grund von Vorurteilen zu einseitig geratene Untersuchungen1, bis hin zu absichtlichem Fälschen von Ergebnissen. In allen Fällen spielen statistische Verfahren sehr häufig eine Rolle.
Die Beiträge dieses Sammelbands basieren auf Seminararbeiten des „Blockseminar Survey Methodik“ aus dem Sommersemester 2016, das im Rahmen des Masterstudiengangs Survey-Statistik von der Otto-Friedrich-Universität Bamberg angeboten wurde und an dem per Videokonferenz auch Studierende der Masterstudiengänge Statistics der Berliner Universitäten und Survey Statistics der Universität Trier teilgenommen hatten. Thema des jährlich stattfindenden Seminars war seinerzeit „Bad Science“. Der Grundgedanke war folgender:
„Wenn die Seminarteilnehmer zukünftig eventuellen Missbrauch erkennen können sollen, dann lasst sie am besten (vorübergehend!) in die Rolle der Gegenseite schlüpfen!“
Die Verfassenden der Beiträge sind somit alle Studierende, die an diesem Seminar teilgenommen und sich thematisch mit der Problematik „Bad Science“ auseinandergesetzt haben, um ihre eigene Sensibilität für den Missbrauch statistischer Methoden zu erhöhen. Auf Grund der großen Relevanz des Themas wurde die Veröffentlichung der Artikel im Rahmen eines Sammelbands beschlossen, damit noch mehr Leser von den Erkenntnissen profitieren können. Inhaltlich wird eine theoretische Auseinandersetzung mit dem p-Wert allgemein, mit der Größe von Stichproben, dem Vorgehen des p-Hacking, der Schwäche von klassischen Hypothesentests und dem Vorgehen des HARKing aufgearbeitet.
Das Seminar enthielt drei Themenschwerpunkte:
I. Methodischer Hintergrund
Beschreibung der Schwächen herkömmlicher TestverfahrenVorstellung der gängigen ManipulationsmöglichkeitenEinführung in alternative Testverfahren aus dem Bereich der Bayes-InferenzII. Angewandte „Bad Science“
Echte Analysen mit empirischen Daten„Beweis“ unsinniger HypothesenPersiflierende Aufbereitung als genuin erscheinender WissenschaftsartikelIII. Methodische Kritik eines prominenten Beispiels
Bekannte Studien zu Themen und Produkten, deren Ergebnisse auch in den allgemeinen Medien diskutiert wurdenNebenbedingung: Keine Diffamierung einzelner WissenschaftlerAusgehend von den drei Themenschwerpunkten hat sich letztendlich nach Sichtung der Arbeiten eine Untergliederung in vier Teile als sinnvoll herauskristallisiert – eingerahmt VIvon einem Beitrag, der zweigeteilt wurde, da er sich als Einführung und als Zusammenfassung eignete. Um den Übergang der einzelnen Teile hervorzuheben, enthält das Buch von den Herausgebern verfasste Zwischentexte, die eine kurze Einführung in das Thema des jeweiligen Teils beinhalten.
Neben der sogenannten Replikationskrise diente als Impulsgeber für das Seminar und somit auch für dieses Buch die medial sehr präsente „Schokoladenstudie“, eine absichtlich gefälschte Studie, die von zwei Journalisten initiiert wurde und das Ziel hatte, den ganzen fragwürdigen Prozess von vermeintlich sensationellen wissenschaftlichen Ergebnissen bis in die Massenmedien zu beleuchten.2 Zu beiden Themen folgen im Laufe des Buches an diversen Stellen ausführliche Informationen.
Wir bedanken uns an dieser Stelle sehr für die Unterstützung durch Sina Ebert, die uns bei der Fertigstellung des Buches tatkräftig unterstützt hat.
Ebenfalls danken wir allen Studierenden, die im Sommersemester 2016 das Seminar aktiv mitgestaltet haben. Es gab noch einige weitere wunderbare Seminararbeiten, die es aus verschiedenen Gründen nicht ins Buch geschafft haben.
Einer Person möchten wir ganz besonders danken – leider posthum: Prof. Dr. Susanne Rässler, die im August letzten Jahres plötzlich und unerwartet verstorben ist. Sie war eine wundervolle Mentorin und hat mit ihrer positiven Energie und Ausstrahlung nicht nur an der Otto-Friedrich-Universität bleibende Spuren hinterlassen. Ohne sie gäbe es den Masterstudiengang Survey-Statistik nicht und somit wäre auch dieses Buch nie zustande gekommen.
Mannheim und Bamberg, Juli 2019Rebekka Kluge und Florian Meinfelder
Mannheim und Bamberg, Juli 2019
Rebekka Kluge und Florian Meinfelder
1 Bayes-Statistik bietet einen transparenten Weg, „Vorurteile“ oder Vorinformationen, die nicht in Form einer Datenmatrix vorliegen, einzubeziehen.
2 Für den Artikel Chocolate with high Cocoa content as a weight-loss accelerator, den die Journalisten von Wissenschaftlern im entsprechenden Wissenschaftsenglisch verfassen ließen (Bohannon u. a., 2015), findet sich unter https://imed.pub/ojs/index.php/iam/article/view/1087/728 nur noch der Hinweis, dass der Artikel aus dem Journal International Archives of Medicine zurückgezogen wurde.
Rebekka Kluge,GESIS-Leibniz Institut für Sozialforschung, Mannheim
Florian Meinfelder,Lehrstuhl für Statistik und Ökonometrie, Otto-Friedrich-Universität Bamberg
Michael Bergrab,1. Bürgermeister Gemeinde Lisberg / Lehrstuhl für Statistik und Ökonometrie, Otto-Friedrich-Universität Bamberg
Anne Meyer,BÜRO MAYER GmbH & Co. KG, Hallstadt
Anna-Carolina Haensch,GESIS – Leibniz-Institut für Sozialwissenschaften, Mannheim
Doris Stingl,Lehrstuhl für Statistik und Ökonometrie, Otto-Friedrich-Universität Bamberg
Corinna Stöckinger,Kantar Health GmbH, München
Kilian Heck,Fachbereich Biologie, Technische Universität Darmstadt
Benedikt Müller,AGF Videoforschung GmbH, Frankfurt
Marc Zerwas,HELLA Aglaia Mobile Vision GmbH, Berlin
Kristina M. Neufang,Professur für Wirtschafts- und Sozialstatistik, Universität Trier
Jonas Levin Kreusel,Criteo GmbH, München
Thomas Goerttler,Fachgebiet für Neuronale Informationsverarbeitung, Technische Universität Berlin
Simon Kupferer,Schober Information Group Deutschland GmbH, Leinfelden-Echterdingen
Dominik Seitz,Department of Computer Science, Tschechische Technische Universität in Prag
VIIIAnja Rappl,IMBE-Institut für Medizininformatik, Biometrie und Epidemiologie, Friedrich-Alexander-Universität Erlangen-Nürnberg
Lisa Hepp,C.C.Buchner Verlag GmbH & Co. KG, Bamberg
Rebekka Kluge,GESIS-Leibniz Institut für Sozialforschung, Mannheim
Silvia Schwanhäuser,IAB-Institut für Arbeitsmarkt und Berufsforschung, Nürnberg
Katharina Stark,LIfBi-Leibniz-Institut für Bildungsverläufe e. V., Bamberg
Vorwort
Autorenliste
Inhaltsverzeichnis
Einleitung der Herausgeber
Teil I Methodische Grundlagen
1. Wie man Bad Science nicht auf den Leim geht
2. Schluss mit Sterne-Gucken!
3. Fallstricke des Nullhypothesen-Signifikanztests
Teil II (K)eine Anleitung zum Mogeln
4. Schritt für Schritt zum falsch-positiven Ergebnis
5. HARKing: Hypothesizing After Results are Known
6. p-Hacking: Methodische Erläuterungen zum Artikel „Flüchtlinge wollen in Länder mit langen Ländernamen immigrieren“
Teil III Wie man unter Zuhilfenahme statistischer Methoden Nonsens-Forschung einen wissenschaftlichen Anstrich verpasst
7. Flüchtlinge wollen in Länder mit langen Ländernamen immigrieren – Eine fiktive Anwendung zu p-Hacking
8. Verursacht Reality-TV Augenkrebs?
Teil IV Handfeste Konsequenzen in der wirklichen Welt
9. Das Problem mit Glyphosat – ist es nun krebserregend oder nicht?
X10. Coke macht mehr draus
11. Herangehensweise zur Einordnung von Publikationen als Bad Science anhand unterschiedlicher Merkmale
Nachwort: Die Dunkle Seite ist ein „Missing Data“-Problem
Literaturverzeichnis
Stichwortverzeichnis
Eines vorweg: Wir sind mit Leidenschaft und Herzblut Statistiker. Statistik ist eine wundervoll vielseitige wissenschaftliche Disziplin, die ihren Charme aus der Entwicklung und Anwendung mathematischer Modelle zieht, die es uns erlauben, aus Daten (typischerweise Stichproben) der unterschiedlichsten Disziplinen Schlussfolgerungen zu ziehen. Oder um es mit den Worten eines der berühmtesten Statistiker des 20. Jahrhunderts auszudrücken:
„The best thing about being a statistician is that you get to play in everyone’s backyard.“
John W. Tukey (1915–2000)3
Dieses von Tukey angesprochene Bei-Allen-auf-dem-Hof-Mitspielen bedeutet zwar, dass ein Statistiker sich in der Theorie in den unterschiedlichsten Wissenschaftsfeldern betätigen kann, in der Praxis hat sich seitdem jedoch eine gewisse Spezialisierung herausgebildet, so dass das Berufsbild „Statistiker“ sehr diffus geworden ist und es je nach Substanzwissenschaft zum Beispiel Ökonometrie, Biometrie beziehungsweise Biostatistik, Psychometrie, oder empirische Sozialforschung heißt. Dies hat auch zu verschiedenen Praktiken und Methoden geführt und mit der Vielfalt erhöht sich auch die Wahrscheinlichkeit für das Auftreten schlechter Praktiken. Und da Statistik über alle wissenschaftliche Disziplinen hinweg in empirischen Studien eine Rolle dabei spielt, Daten in wissenschaftlich verwertbare Informationen zu transformieren, erhöht sich auch die Wahrscheinlichkeit für schlechte Wissenschaft – Bad Science – die mit Statistik in Verbindung gebracht wird. Und so gibt es eine Reihe von Zitaten, die Otto-Normalbürger viel eher als das von John W. Tukey mit Statistik in Verbindung bringt:
„Ich vertraue keiner Statistik, die ich nicht selbst gefälscht habe.“ Dieses Zitat oder eine leichte Abwandlung in Form einer Empfehlung: „Traue keiner Statistik, die du nicht selbst gefälscht hast!“ ist vielen Menschen in Deutschland geläufig. Fragt man nach dem Urheber des Zitats vernimmt man gelegentlich ein unsicheres: „War das nicht der Churchill?“.
Mit sehr großer Wahrscheinlichkeit4 stammt das Zitat nicht von Winston Churchill, denn im Vereinigten Königreich ist es gänzlich unbekannt, im Gegensatz zu einem ähnlichen Zitat: „Lies, damn lies, and Statistics.“, das Benjamin Disraeli, einem weiteren ehemaligen britischen Premierminister, zugeschrieben wird (und dessen Urheber er vermutlich ebensowenig ist). Der wahrscheinlichste Urheber für das einleitende Zitat war die Propaganda-Abteilung von Joseph Goebbels, die das Ziel verfolgte, den englischen Premierminister zu diffamieren. Unabhängig von der Urheberschaft, haftet Statistik der XIIRuf an, man könne mit ihr alles beweisen (auch das Gegenteil5). Damit wird Statistik zu einem Instrument stilisiert, beliebigen Standpunkten und Aussagen einen wissenschaftlichen Anstrich zu geben. Was zunächst nach Klischees und oberflächlicher Polemik anmutet, wirft bei genauerer Untersuchung tatsächlich einige Fragen nach der Sinnhaftigkeit bestimmter Vorgehensweisen in der Anwendung von statistischen Verfahren auf.
Warum also dieser Sammelband? Immerhin gibt es bereits einige Veröffentlichungen, die Manipulationsmöglichkeiten mit statistischen Verfahren thematisieren wie den Klassiker „How to Lie with Statistics“ (Huff, 1954) oder das deutschsprachige Pendant „So lügt man mit Statistik“ (Krämer, 2015). Zum einen richtet sich das Buch eher an ein Fachpublikum, das bereits Erfahrung im Umgang mit statistischen Methoden besitzt (ohne, dass wir interessierte Laien vergraulen möchten!), zum anderen gab es in den letzten Jahren einige interessante Entwicklungen, die unsere Disziplin etwas mehr in das Rampenlicht der Öffentlichkeit gerückt haben6 – und wieder waren es negative Schlagzeilen und wieder war Statistik als Disziplin eigentlich schuldlos. Was war geschehen? Vor einigen Jahren begann man insbesondere in der Psychologie Experimente zu replizieren, um die aus den Ursprungsstudien erworbenen Kenntnisse abzusichern – und häufig gelang genau dieses nicht (mehr dazu im Nachwort dieses Bandes). Dies löste die so genannte „Replikationskrise“ aus, als deren Hautpverursacher schnell der „p-Wert“ ausgemacht wurde: Eine statistische Kennzahl, deren Wert ge- und missbraucht wurde, um einen Effekt nachzuweisen. Die American Statistical Association (ASA) veröffentlichte in ihrem Journal The American Statistician ein Editorial mit dem Titel Moving to a World Beyond „p < 0.05“ (Wasserstein u. Lazar, 2016). Gemeint war damit die gängige Praxis, einen p-Wert kleiner 0,05 als „signifikantes“ (und damit oft als „wahr“ angesehenes) Ergebnis zu präsentieren. Der Missbrauch dieses p-Werts und einige ähnliche Praktiken werden in diesem Buch erläutert, persifliert und konstruktiv kritisiert. Außerdem weist das Buch auf diverse weitere Quellen hin, die dem interessierten Leser zusätzliche Einblicke in den Themenkomplex „Bad Science“ vermitteln.
3 John Wilder Tukey ist auch der Prototyp für das neue Berufsbild Data Scientist, da er nicht nur sehr datenorientiert geforscht hat und dabei mit dem Boxplot eine der bekanntesten Datenvisualisierungen erfunden hat, sondern auch auf dem seinerzeit sehr neuen Gebiet der Informatik aktiv war – unter anderem gilt er als Schöpfer der Begriffe „Bit“ und „Software“.
4 Statistiker sind nie zu 100 % sicher!
5 Ein weiteres Zitat, diesmal vom britischen Politiker Baron James Callaghan.
6 Zum Beispiel im Rahmen eines Artikels der Süddeutschen Zeitung: https://www.sueddeutsche.de/wissen/wissenschaft-das-magische-p-1.3676252
2Der erste Teil dieses Sammelbands unterscheidet sich dem Charakter nach von den anderen Teilen. Nach der Kurzeinleitung folgen zwei methodisch anspruchsvolle Beiträge, die sich an statistisch versierte Leser richten. Die Lösungsvorschläge für die Missbrauchsproblematik statistischer Verfahren erstrecken sich nicht nur auf Aufklärung und Empfehlungen für einen „anständigeren“ Umgang mit den Standardverfahren, sondern auch auf methodische Alternativen. Uns ist durchaus bewusst, dass sich ein Paradigmenwechsel weg von p-Werten und (beispielsweise bei der Darstellung von Ergebnissen aus einer linearen Regressionsschätzung hin zu Konfidenzintervallen) nur allmählich vollziehen lässt. Hauptgrund ist die derzeit noch fehlende Implementierung in Standardsoftware. In den gängigen Statistik-Softwarepaketen werden Regressionsergebnisse nach wie vor in Form einer Tabelle dargestellt, die den Schätzer, den geschätzten Standardfehler, den t-Wert und den p-Wert enthält (mit den berüchtigten Sternchen als zusätzliche visuelle Hilfe für das Erkennen signifikanter Ergebnisse). Dennoch sind diese eher technischen Beiträge relevant, um einen Einblick in die statistische Forschung zu geben, und in Bezug auf die derzeitige Diskussion, mit Hilfe anderer Verfahren den Missbrauch statistischer Methoden zu verringern beziehungsweise zu erschweren.
Bayes-Statistik wird in der Zukunft weiter ihren Weg in die Substanzwissenschaften finden und nach unserer Einschätzung ebenfalls ein wichtiger Stützpfeiler bei der Abkehr von der absolutistischen Betrachtung von p-Werten anhand der 5 %-Schranke werden, die derzeit noch viel zu oft darüber entscheidet, ob in den Augen der Wissenschaftler ein Effekt als nachgewiesen gilt oder nicht. Zurück geht diese Schranke auf einen eher beiläufigen Vorschlag eines der berühmtesten Statistiker, Ronald A. Fisher, aus dem Jahr 1925. Fisher selbst wies später darauf hin, dass diese Wahrscheinlichkeit, eine noch extremere Stichprobe als die vorliegende zu finden, wenn die Nullhypothese wahr ist, nicht als absolut anzusehen ist, sondern riet dazu, den p-Wert von der Situation abhängig zu machen. Zum Beispiel sollte dieser sehr klein sein, wenn ein Irrtum mit großen Kosten oder Risiken verbunden ist, beispielsweise wenn es sich um eine Fehleinschätzung bei der Zulassung eines neuen Medikaments hinsichtlich der Nebenwirkungen handelt.
Michael Bergrab und Anne Meyer
Immer öfter beschleicht den aufmerksamen Leser beim Studieren von Studien die Sorge, ob die abgedruckten Signifikanzangaben, ob die Zahlen und Diagramme, ob die Arbeit im Großen und Ganzen wissenschaftlich fundiert und somit in sich stimmig ist oder ob die Arbeit (wie gewöhnlich genannt) als Bad Science einzuordnen sei.
Dabei lässt sich Bad Science in verschiedene Stufen unterteilen. Es können bei einer wissenschaftlichen Arbeit handwerkliche Fehler auftreten. Während des Schreibprozesses oder schon bei der Datenakquise oder bei deren Auswertung können Fehler unterlaufen, die auf mangelhafte Aufmerksamkeit und Achtsamkeit im Umgang mit der benutzten Statistiksoftware zurückzuführen sind. Ebenso kann es zu handwerklichen Fehlern kommen, wenn die statistischen Verfahren stümperhaft beziehungsweise halbherzig angewendet wurden.7 Darüber hinaus kann es vorkommen, dass Studien von den ausgewerteten Daten bis hin zur statistischen Analyse komplett erfunden wurden. Dies kann unbewusst oder willentlich durch die Studienersteller geschehen.8 Bad Science ist ein Prädikat für alle Studien, die in einen pseudowissenschaftlichen Bereich fallen und eben nicht auf handwerkliche Fehler oder inkonsistente Vorgehensweisen in der Datenakquise und der Datenaufbereitung zurückzuführen sind, sondern willentlich oder unbewusst eine mangelhafte Theorie für ihre Studien zu Grunde legen. Ferner werden die Ausgangsdaten zurecht gelegt oder gar gefälscht, so dass diese für die Autoren oder Auftraggeber passend sind. Bad Science hat meist zum Ziel, den Lesern falsche Informationen als glaubwürdig zu vermitteln, um ein Kaufinteresse oder eine ähnliche kognitive Beeinflussung zu erzeugen. Hansson (1996) folgend müssen zwei Kriterien für eine Studie erfüllt sein, um als pseudowissenschaftlich zu gelten: „[…](1) it is not scientific, and (2) the person(s) responsible for the phenomen try to create the impression that it is science“ (Hansson, 1996, S. 172). Da die Einordnung als Pseudowissenschaft im ersten auf einer individuellen Ebene erfolgt, um einen kontradiktorischen Begriff zur Wissenschaft verwenden zu können, erfolgt eine Erweiterung der Definition, um den Begriff der Doktrin und damit um eine Alternierung des zweiten Teils des Definiens dahingehend, dass nun die Studie, das heißt die der Studie zu Grunde liegenden Phänomene, Teil einer nicht-wissenschaftlichen Doktrin sind, die versucht einen wissenschaftlichen Eindruck zu erzeugen (Hansson, 1996, S. 172). Die Abgrenzung von Wissenschaft und Pseudowissenschaft – auch im Sinne von Bad Science – geht weit in die (philosophische) 4Frühgeschichte zurück. In der Moderne haben sich unter anderem der Wiener Kreis und allen voran Popper (1963) mit dieser Thematik, der er zugesteht der Schlüssel zu den fundamentalen Problem der Philosophie zu sein, eingehender beschäftigt.
Folglich gibt es auf der einen Seite Wissenschaft, die schlecht betrieben wird, und auf der anderen Seite Wissenschaft, die manipulativ ist. Das heißt (handwerklich) schlecht durchgeführte Studien und Analysen beziehungsweise Studien, die von Grund auf aus einem Lügengerüst bestehen, sind von der ehrlichen wissenschaftlichen Arbeit, die einen gewissen Mehrwert schaffen will, zu unterscheiden. Dabei ist jedoch nicht außer Acht zu lassen, dass viele Studien, sobald diese einmal journalistisch aufgearbeitet sind, sich in der Medienwelt festsetzen können und somit ihren Einflussbereich auch auf die Laienwelt deutlich erweitern. Unabhängig vom Fachbereich ist der Übergang zwischen den einzelnen Ausprägungen von Bad Science fließend und es ist nicht eindeutig klar abtrennbar, ab wann von Bad Science gesprochen werden kann.
Demgemäß regt nicht nur die Debatte um die Aussagekraft und Deutbarkeit von p-Werten, angestoßen durch die American Statistical Association (ASA)9, zum Nachdenken darüber an, ab wann Studien in den Bereich Bad Science fallen und mit welchen Kriterien man Studien als Bad Science einstufen kann.
Anna-Carolina Haensch, Doris Stingl und Corinna Stöckinger
Aus Vorlesungen und Seminaren zu empirischen Methoden, Ökonometrie oder Statistik sind Hypothesentests und p-Werte nicht wegzudenken. Trotzdem werden sie häufig von Studierenden nicht korrekt verstanden, zum Teil erstrecken sich Fehler und Falschinterpretationen sogar auf wissenschaftliche Publikationen. Von Statistikern und Statistikerinnen wird die Verwendung von p-Werten nicht nur deswegen kritisch gesehen. Die American Statistical Association (ASA) hat im März 2016 sogar in einem Statement vor der Verwendung von p-Werten gewarnt. Eine solche explizite Empfehlung zu einem fundamentalen Thema der Statistik hatte es in der 177 Jahre währenden Geschichte der ASA noch nicht gegeben (Wasserstein u. Lazar, 2016). Das Journal Basic And Applied Social Psychology verbietet seit 2015 die Ausweisung von p-Werten bei Nullhypothesentests in den Beiträgen des Journals (Trafimow u. Marks, 2015). Vorsicht beim Umgang mit p-Werten scheint also geboten, aber aus welchen Gründen?
Im Folgenden sollen die wichtigsten Probleme des p-Werts aufgezeigt werden. Dazu werden wir zunächst noch einmal darstellen, was der p-Wert aussagt, denn bereits hier passieren in der Praxis oft Fehlinterpretationen. Die häufigsten sollen kurz aufgeführt werden, damit sie beim Interpretieren von p-Werten leichter erkannt und vermieden werden können. Warum der p-Wert gerade bei großen Stichprobengrößen in die Irre führt, soll daraufhin kurz erläutert werden, bevor anhand von Simulationen die vielfältigen Probleme bei geringer Power einer Studie gezeigt werden. Die Probleme des p-Werts potenzieren sich noch, wenn die Studien nicht nach der guten wissenschaftlichen Praxis durchgeführt werden, sondern mit sogenanntem HARKing und p-Hacking interessanten Ergebnissen „nachgeholfen“ wird.
Die problematischen Eigenschaften des p-Werts werden seit Jahren, ja seit Jahrzehnten in der frequentistischen Statistik diskutiert. Alternativen zu p-Werten und dem reinen „Sterne Gucken“ – p-Werte kleiner als 0,05 oder 0,01 werden oft durch Asteriske in Tabellen markiert – wurden und werden gesucht. Wir werden die vorgeschlagenen Alternativen, die einerseits Maßzahlen wie Konfidenzintervalle und Fehler S und Fehler M und andererseits Strategien wie die Durchführung einer Replikationsstudie oder einer Metaanalyse umfassen, genauer erläutern. Wir betrachten dabei insbesondere, ob die Probleme des p-Werts durch diese Alternativen vermieden werden.
Im folgenden Abschnitt werden die wichtigsten Probleme im Umgang mit p-Werten kurz zusammengefasst. Zuerst werden wir auf Fehlinterpretationen des p-Werts eingehen, bevor wir nacheinander Probleme bei großen Stichprobengrößen und anschließend Probleme bei geringen Stichprobengrößen/geringer Power besprechen.
Kaum ein publizierter Artikel aus den quantitativen Sozialwissenschaften kommt ohne die Ausweisung von p-Werten bei seinen Analysen aus. Beunruhigenderweise zeigte aber eine Umfrage unter deutschen Hochschuldozenten und Studierenden aus dem Bereich Psychologie, dass die Kenntnisse über die korrekte Interpretation nicht nur bei Studierenden nur in sehr geringem Maße vorhanden waren, sondern auch bei den Lehrenden (Gigerenzer u. a., 2004; Haller u. Krauss, 2002).
Was ist nun der p-Wert? Der p-Wert ist ein statistischer Kennwert, anhand dessen eine zuvor formulierte Hypothese, die sogenannte Nullhypothese, geprüft wird. Als Nullhypothese H0 wird zumeist null oder Gleichheit gesetzt. Wenn man zum Beispiel untersuchen möchte, ob Studierende, die vor einer Klausur fünf Minuten die Rolling Stones hören, besser oder schlechter als andere Mitstudierende abschneiden, lautet die Nullhypothese, dass die Rolling Stones keinen Effekt (auf die Klausurleistung) haben. Man könnte nun, um die Hypothese zu überprüfen, bei der nächsten Klausur die Studierenden zufällig in zwei Gruppen aufteilen und der einen Gruppe das Treatment „Rolling Stones“ geben. Die andere Gruppe würde nichts hören und als Kontrollgruppe dienen. Das Effektmaß, in unserem Beispiel also die Mittelwertsdifferenz der Klausurnoten zwischen den beiden Gruppen, und der zugehörige p-Wert werden dann bestimmt. Der p-Wert ist dann die Wahrscheinlichkeit, dass die Mittelwertsdifferenz den für die Stichprobe (die Studierenden in der Klausur) ermittelten Wert oder einen extremeren Wert hat, unter der Voraussetzung, dass die Nullhypothese für die Grundgesamtheit (alle Studierende) wahr ist. Bei dem p-Wert handelt es sich somit um eine bedingte Wahrscheinlichkeit:
t ist dabei das für die Stichprobe ermittelte Effektmaß, auch Teststatistik genannt. Es ist nun üblich, bei p-Werten kleiner als 0,05 oder 0,01 den Effekt als „signifikant von null verschieden auf dem Signifikanzniveaua = 0,05 oder 0,01“ zu interpretieren und durch Asteriske zu markieren. Es ist also unwahrscheinlich (allerdings immer noch möglich!), bei Gültigkeit der Nullhypothese ein so extremes oder noch extremeres Ergebnis in der Stichprobe unter den Bedingungen unseres Experiments zu erhalten.
7
Abbildung 2.1: Normalverteilung mit Mittelwert 0 und Standardabweichung 1. Die grau markierten Flächen ergeben zusammen eine Wahrscheinlichkeitsmasse von 0,05, ein typischer Wert für ein Signifikanzniveau in Studien.
Den folgenden Ausführungen liegt stets die ungerichtete Nullhypothese zugrunde, dass es keinen Effekt gibt (beidseitiger Test). Aussagen zu signifikanten Effekten etc. beziehen sich stets auf diese Nullhypothese.
Eine der häufigsten falschen Interpretationen des p-Wertes ist die Aussage, dass der p-Wert die Wahrscheinlichkeit der Nullhypothese beziehungsweise der Alternativhypothese sei (Haller u. Krauss, 2002). Diese Aussage ist falsch, denn ob ein Effekt in der Grundgesamtheit existiert, ist zwar dem Forscher/der Forscherin nicht bekannt – sonst müsste er/sie ja keine Studie durchführen – aber der Effekt ist fest. Er ist entweder da oder nicht; die Wahrscheinlichkeit der Nullhypothese ist 1 (Effekt in Wahrheit nicht vorhanden, H0 wahr) oder 0 (Effekt in Wahrheit vorhanden, H0 falsch) und nicht vom Stichprobenergebnis abhängig.
8Eng mit dieser inhaltlichen Fehlinterpretation verbunden ist der Umgang mit Signifikanzniveaus. Für die Ablehnung der Nullhypothese wird zumeist gefordert, dass der p-Wert unter dem Wert von 0,05 liegt, ergo der Effekt „auf dem 0,05-Niveau signifkant ist“. Dass es kaum einen substanziellen Unterschied zwischen einem p-Wert von 0,05 und 0,06 gibt, wird bei dieser harten Grenze vollkommen außer Acht gelassen. Der p-Wert bekommt „eine Aura der Exaktheit“, die er nicht besitzt (Halsey u. a., 2015, S. 180). Das Setzen einer harten Grenze führt außerdem dazu, dass Studienergebnisse auf eine Dichotomie von „signfikant“ und „nicht signifikant“ eingedampft werden. Diese Vereinfachung kann kaum im Interesse wissenschaftlicher Forschung sein, da Effektgrößen und deren Bedeutung außer Acht gelassen werden (Cumming, 2014, S. 5). Ob das Hören der Rolling Stones das Klausurergebnis um einen Punkt oder um eine Notenstufe anhebt, ist beispielsweise nicht irrelevant.
Ein weiterer häufiger Fehler taucht beim Vergleich der p-Werte von verschiedenen Subgruppen oder Studien mit demselben Untersuchungsgegenstand auf, das heißt wenn die geschätzten Effekte und Standardabweichungen von zwei Gruppen oder Studien betrachtet werden. Ist nur für eine der beiden der Effekt signifikant, das heißt auf einem bestimmten Signifikanzniveau als von null verschieden beurteilt worden, dann bedeutet dies nicht, dass auch der Unterschied zwischen den beiden Gruppen auf diesem Niveau signifikant ist. Gelman u. Stern (2006) fassen dies plakativ unter dem Titel „The difference between „signficant“ and „not significant“ is not itself statistically significant“ zusammen.
Die bereits angesprochene Dichotomisierung von Studienergebnissen durch den p-Wert stößt uns auf ein erstes substanzielles Problem des p-Werts: Der p-Wert macht keine direkte Aussage über die Stärke eines Effekts und damit auch nicht über dessen praktische Relevanz. Problematisch ist dies insbesondere bei großen Stichprobengrößen. Da in der Grundgesamtheit der wahre Effekt nur in den seltensten Fällen exakt bei 0 liegt, kann man bei genügend großer Stichprobengröße jegliche Nullhypothese, die keinen Effekt postuliert, ablehnen (Matloff, 2009, S. 311). Dies gilt im Übrigen auch für jede andere Punkthypothese.
Zur Illustration des Problems ist ein einfaches Münzwurfbeispiel geeignet. Oft möchte man wissen, ob die verwendete Münze fair ist, also ob Kopf und Zahl beide mit der Wahrscheinlichkeit
auftreten. Eine solche Münze wird es aber nicht geben, da jede Münze wohl eine geringe Abweichung davon besitzt. Eine Münze mit einer Wahrscheinlichkeit von p = 0,49999 würde aber in den meisten Anwendungsfällen als ausreichend „fair“ beurteilt werden. Trotzdem würde man bei einer genügend hohen Anzahl von Wiederholungen die Nullhypothese H0 : p = 0,5 für diese Münze ablehnen. Unter diesem Gesichtspunkt erscheint die Wortwahl „signifikante Abweichung“ absurd. Eine Abweichung um 0,00001 von 0,5 ist nur in wenigen Kontexten relevant (oder praktisch signifikant!).
Gegeben den Fall, dass ein Effekt, der nicht null beträgt, in der Grundgesamtheit existiert, wie gut eignet sich ein p-Wert zur Identifizierung eines solches Effektes? Wie wir in den folgenden Abschnitten sehen werden, ist nicht nur eine zu große Stichprobe problematisch, sondern unter Umständen auch eine zu kleine …
Insbesondere stellt sich die Frage wie reliabel der p-Wert bei kleinen Stichprobengrößen beziehungsweise bei geringer Power ist? Die Power eines Tests ist die Wahrscheinlichkeit, die Nullhypothese abzulehnen, wenn sie falsch ist. Damit ist sie die Gegenwahrscheinlichkeit des Fehlers II. Art b (die Wahrscheinlichkeit, die Nullhypothese nicht abzulehnen, wenn sie falsch ist):
Der p-Wert ist insbesondere bei geringer Power kein zuverlässiger Kennwert für die Beurteilung von Studienergebnissen, da er stark schwanken kann.10 Bei einer Power von 0,8 werden im Mittel nur 80 von 100 Wiederholungen der Studie unter denselben Bedingungen einen signifikanten p-Wert für den untersuchten Effekt liefern. Oder anders formuliert: Wenn bei einer Studie 100 Effekte untersucht werden, die in der Grundgesamtheit nicht null (bei gleicher Power) sind, dann werden im Mittel nur 80 Effekte erkannt, wenn man sich auf den p-Wert als Kriterium verlässt (Button u. a., 2013, S. 366).
Da die Power direkt von der Stichprobengröße, der Effektstärke (z. B. der wahren Differenz in den Mittelwerten zweier Teilpopulationen), der Merkmalsstreuung in den Teilpopulationen und dem Signifikanzniveau (üblicherweise a = 0,01 oder a = 0,05) abhängt, ist insbesondere bei kleinen Effekten und kleinen Stichprobengrößen Vorsicht bei der Interpretation des p-Wertes geboten. Ein p-Wert über 0,05 bedeutet nicht zwangsläufig, dass kein Effekt in der Grundgesamtheit existiert. Unsere eigenen Simulationen (Abbildungen 2.2, 2.3, 2.4) verdeutlichen diese Zusammenhänge.
