19,99 €
Studierende wie Lehrende stehen häufig vor der Herausforderung, Studien lesen und deren Ergebnisse bewerten zu müssen. Dieses gut verständliche Lehrbuch vermittelt in der 3., aktualisierten Auflage die Grundlagen dafür. Statistisch bzw. epidemiologisch nicht oder kaum vorgebildete Leserinnen und Leser lernen an Beispielen der Medizin, Sozialwissenschaften oder Psychologie, Studienergebnisse zu beurteilen und zu verstehen. Zentral sind das „Schlüsselthema Signifikanz“ und die damit verbundenen Begriffe (z. B. Alpha-Fehler, Power-Analyse, Signifikanzniveau, p-Wert). Zudem werden häufige medizinstatistische Kennzahlen erklärt und können mithilfe des Buches korrekt interpretiert werden. Checklisten bieten praktische Hilfen bei der systematischen Beurteilung von Publikationen.
Das E-Book können Sie in Legimi-Apps oder einer beliebigen App lesen, die das folgende Format unterstützen:
Veröffentlichungsjahr: 2023
utb 3982
Eine Arbeitsgemeinschaft der Verlage
W. Bertelsmann Verlag • Bielefeld
Böhlau Verlag • Wien • Köln • Weimar
Verlag Barbara Budrich • Opladen • Toronto
facultas • Wien
Wilhelm Fink • Paderborn
A. Francke Verlag • Tübingen
Haupt Verlag • Bern
Verlag Julius Klinkhardt • Bad Heilbrunn
Mohr Siebeck • Tübingen
Ernst Reinhardt Verlag • München
Ferdinand Schöningh • Paderborn
Eugen Ulmer Verlag • Stuttgart
UVK Verlagsgesellschaft • Konstanz, mit UVK/ Lucius • München
Vandenhoeck & Ruprecht • Göttingen
Waxmann • Münster • New York
Bibliografische Information der Deutschen Nationalbibliothek
Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen
Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar.
Alle Angaben in diesem Fachbuch erfolgen trotz sorgfältiger Bearbeitung ohne Gewähr, eine Haftung der Autorin, des Autors oder des Verlages ist ausgeschlossen.
3. Auflage 2023
Copyright © 2023 Facultas Verlags- und Buchhandels AG
facultas Universitätsverlag, Stolberggasse 26, 1050 Wien, Österreich
Alle Rechte, insbesondere das Recht der Vervielfältigung und der Verbreitung
sowie der Übersetzung, sind vorbehalten.
Umschlagfoto: © „doctors meeting“, Andres Rodriguez – Fotolia.com
Lektorat: Mag. Verena Hauser, Wien
Satz: Facultas Verlags- und Buchhandels AG
Einbandgestaltung: siegel konzeption | gestaltung
Druck und Bindung: Friedrich Pustet, Regensburg
Printed in Germany
UTB-Band-Nr.: 3982
ISBN 978-3-8252-6086-6 (Print-Ausgabe)
ISBN 978-3-8385-6086-1 (Online-Leserecht)
ISBN 978-3-8463-6086-6 (E-PUB)
Vorwort
In unterschiedlichen Disziplinen wie Psychologie, Soziale Arbeit, Medizin, weiteren Gesundheitsberufen oder auch in der Soziologie entstehen für statistisch bzw. epidemiologisch wenig vorgebildete Leser und Leserinnen immer wieder Schwierigkeiten, empirische Studienergebnisse zu verstehen und professionell zu beurteilen. Es gibt kaum gut lesbare, verständliche Einsteigerliteratur, welche den Studierenden sowie nicht einschlägig vorgebildeten Praktikern erläutert, wie statistische Resultate aus medizinischen und sozialwissenschaftlichen Publikationen zu verstehen, zu interpretieren und schließlich zu bewerten sind. Deshalb entschlossen wir uns, diese Lücke mit dem vorliegenden Buch „Klinische Studien lesen und verstehen“ zu schließen.
Unserem Erfolgsrezept treu bleibend, welches wir bereits bei unserem ersten gemeinsamen Lehrbuch „Der Fragebogen. Von der Forschungsidee zur SPSS-Auswertung“ (mittlerweile bereits in der dritten Auflage bei Facultas erschienen) umgesetzt haben, bedienen wir uns auch in diesem Buch einer elementaren und unkomplizierten Didaktik bei der Vermittlung komplexer Inhalte. Wir möchten vermeintlich schwierige statistische sowie epidemiologische Inhalte sehr vereinfacht und gut verständlich transportieren. Dabei wird zum Großteil auf komplexe Darstellungen von Formeln und Herleitungen verzichtet. Falls jedoch unumgänglich, gestalten wir sie gut nachvollziehbar, unnötige Zwischenschritte werden vermieden. Das Wesentliche, also das Praxisrelevante, wird in den Mittelpunkt gestellt. Somit nehmen wir die Herausforderung der Gratwanderung zwischen nötiger Tiefe und seitens der Leserinnen und Leser gewünschter Einfachheit erneut an: Unsere Erfahrung aus der universitären Lehre und zahlreichen Seminaren zeigt, dass die Vermittlung derartiger Inhalte in sehr elementarer Art und Weise große didaktische Anforderungen an Vortragende stellt.
Aus mittlerweile rund 50 Seminaren (abgehalten beispielsweise für Außendienstmitarbeiter von Pharmaunternehmen, Ärzte, Wissenschaftler verschiedener Disziplinen, Klinische Monitore, Studierende unterschiedlicher Gesundheitsberufe und Sozialer Arbeit) sind uns die Bedürfnisse unserer Zielgruppen bestens bekannt. So werden etwa regelmäßig „Checklisten zur Beurteilung medizinischer Publikationen“ gefordert, oder die Teilnehmer sprechen immer wieder bestimmte statistische Probleme an, die in Büchern nur schwer verständlich nachzulesen sind. Den Bedürfnissen nach einfachen Erklärungen, die entweder keine oder nur sehr geringe Vorkenntnisse erfordern, soll im vorliegenden Buch nachgegangen werden. Anhand von Beispielpublikationen, die vor allem aus der Medizin, den Sozialwissenschaften und der Psychologie stammen, werden in diesem Lehrbuch die erforderlichen Kenntnisse für die Bewertung von Studien aus statistischer und epidemiologischer Sicht vermittelt. Einschlägig vorgebildete und fachlich erfahrene Personen, die explizit nicht zu unserer Zielgruppe gehören, werden uns die Vereinfachungen und Auslassungen nachsehen – der Markt ist voll von Fachbüchern, die in die Tiefe gehen, allerdings um den Preis der leichten Verständlichkeit.
Unseren Seminarteilnehmern ebenso wie unseren Studierenden sei Dank für ihr Nachfragen ausgesprochen; denn gerade diese Fragen haben uns für das Thema sensibel gemacht und die Idee für dieses Einsteigerbuch entstehen lassen. Ein besonderer Dank geht an dieser Stelle wieder an Frau MMag. Dr. Sigrid Nindl von der Facultas Verlags- und Buchhandels AG, die uns auch schon bei unseren anderen Buchprojekten unterstützt hat.
Für die überaus genaue und unterstützende Durchsicht unserer Manuskripte danken wir Frau Mag. Verena Hauser.
Wien, im Juni 2013
Michael BeneschElisabeth Raab-Steiner
Vorwort zur 2. Auflage
Die nun vorliegende zweite Auflage enthält einige Ergänzungen, v.a. zur Unterscheidung von Standardabweichung und Standardfehler des Mittelwerts, da dies immer wieder zu Missverständnissen bei der Beurteilung des Statistikteils medizinischer Publikationen führt. Am Grundkonzept des Buches hat sich nichts geändert, da die didaktische Zielsetzung, eine gut verständliche, leicht lesbare Einführung zur Verfügung zu stellen, ausgezeichnet angenommen wurde.
Besonderer Dank für die wie immer gute Zusammenarbeit geht an Frau MMag. Dr. Sigrid Mannsberger-Nindl und Frau Elisabeth Klein, MA vom Facultas Verlag sowie an Frau Mag. Verena Hauser als externe Lektorin.
Waidhofen/Thaya, im Herbst 2017Wien, im Herbst 2017
Michael BeneschElisabeth Steiner
Vorwort zur 3. Auflage
Die vorliegende 3. Auflage unseres Einführungsbuches enthält einige Ergänzungen sowie die Korrektur eines kleinen Fehlers. Es freut uns, dass dieses Buch mit seinem „Einsteiger-Anspruch“ nach wie vor seine Leser findet und nachgefragt wird. Gerade in Studiengängen und Ausbildungen, in denen die Statistik nur einen Randbereich ausmacht und zumeist auch nicht gerade beliebt ist, ist es von Vorteil, eine gut verständliche und beinahe formelfreie, leicht lesbare Einführung zur Hand zu haben.
Besonderer Dank für die wie immer gute Zusammenarbeit geht mit großer Freude an Frau MMag. Dr. Sigrid Mannsberger-Nindl und Frau Mag. Victoria Tatzreiter vom Facultas Verlag sowie an Frau Mag. Verena Hauser als externe Lektorin.
Waidhofen/Thaya, im Frühjahr 2023Wien, im Frühjahr 2023
Michael BeneschElisabeth Steiner
Inhaltsverzeichnis
Vorwort
Vorwort zur 2. Auflage
Vorwort zur 3. Auflage
1Grundlagen statistischer Tests
1.1Stichprobe und Grundgesamtheit
1.2Signifikanz (p-Wert)
1.3Die Nullhypothese und die Alternativhypothese
1.4Fehler erster Art und Fehler zweiter Art
1.5Das Signifikanzniveau
1.6Ein- und zweiseitige Forschungshypothesen
1.7Signifikanz und Relevanz, Power (Macht) und Fallzahlschätzung
1.8Konfidenzintervalle
1.9Standardabweichung versus Standardfehler
2Medizinstatistische Kennzahlen aus der Epidemiologie
2.1Inzidenz und Prävalenz
2.2Maßzahlen für das Risiko
2.2.1Odds Ratio (OR)
2.2.2Relatives Risiko (RR; relative risk)
2.2.3Absolute und relative Risikoreduktion (ARR, RRR)
2.2.4„Number needed to treat“ (NNT; Anzahl der notwendigen Behandlungen) und „number needed to harm“
2.2.5Goldstandard und diagnostische Tests
2.2.6Sensitivität und Spezifität
2.2.7ROC – Receiver Operator Characteristics Curve und ROC-Analysen
3Die Beurteilung der Qualität von Studien
3.1Hierarchie der Evidenz: Studiendesigns
3.2Kriterien zur Studienbeurteilung/Checklisten
3.3Eine Checkliste zur Studienbeurteilung selbst erstellen
Literaturverzeichnis
Zum Autor/Zur Autorin
Stichwortverzeichnis
1Grundlagen statistischer Tests
Das erste Kapitel befasst sich im Wesentlichen mit dem Thema „Signifikanz“, im weiteren Sinn also mit dem p-Wert und allem, was sich um diesen dreht. Wenn eine Publikation betrachtet wird, steht sehr oft die Frage im Mittelpunkt, ob das Ergebnis signifikant ist oder nicht. Dabei ist der viel beachtete p-Wert nur einer von mehreren relevanten Faktoren, und die Kenntnis des p-Werts alleine reicht bei Weitem nicht aus, um die Bedeutung einer Studie abschätzen zu können. Deshalb ist es wichtig, einige statistische Prinzipien zu kennen, die mit dem „statistischen Test“ verbunden sind. Diesem Ziel dient das folgende Kapitel.
1.1Stichprobe und Grundgesamtheit
Um welches Problem geht es in diesem Unterkapitel?
Wenn Sie dieses Unterkapitel gelesen haben, können Sie folgende Fragen beantworten:
Was ist der Unterschied zwischen Stichprobe (Sample) und Grundgesamtheit (Population)?
Warum ist es notwendig, Zufallsstichproben (engl.: random samples) zu ziehen?
Was kann passieren, wenn der Experimentator-Erwartungs-Effekt wirkt?
Welcher Unterschied besteht zwischen beschreibender (deskriptiver) und schließender (Inferenz-)Statistik?
Schlüsselbegriffe
Zufallsstichprobe, Population, Grundgesamtheit, Deskriptivstatistik, Inferenzstatistik
„Rinder auf der Weide“ © motivation1965 – Fotolia.com;
Die 30 Stichproben-Rinder müssen per Zufall ausgewählt werden, am besten mithilfe eines Zufallsgenerators. Denn wenn der Landwirt mit verbundenen Augen auf die Weide geht und so per Zufall 30 Stück herausgreift, könnte Folgendes passieren: Die kranken Tiere gruppieren sich, zum Beispiel weil die Parasitose sie träge macht, in einem Teil des Weidegrundes, sodass der Tierarzt vor allem die kranken Rinder testet. In diesem Fall wäre der Anteil kranker Tiere in der Stichprobe überhöht. Dieser Fehler (man spricht von einem Selektionsbias, von engl. bias: systematischer Fehler) kann ausgeschlossen werden, wenn jede Kuh eine Nummer erhält und per Zufallsgenerator gezogen wird. Ähnliches kann natürlich auch passieren, wenn im Rahmen einer medizinischen Studie die Probanden (allgemein: die Elemente) nicht zufällig, das heißt randomisiert (von engl. random: zufällig), ausgewählt werden.
Bereits in den 1950er Jahren wurde im Rahmen der Salk-Polio-Studie das Konzept der Randomisierung erstmals in großem Stil in der medizinischen Forschung eingesetzt (Schumacher & Schulgen, 2002). Man wollte untersuchen, ob der von Jonas Salk entwickelte Impfstoff die Zahl der Polio-Neuerkrankungen reduzieren kann. Unter anderem wurde daran gedacht, Eltern die freiwillige Teilnahme ihrer Kinder anzubieten, um so die Inzidenz (Neuerkrankungsrate) in der Gruppe der Geimpften mit jener der Nichtgeimpften zu vergleichen. Allerdings hätte es hier passieren können, dass die Zustimmung seitens der Eltern stark vom sozioökonomischen Status abhängt, der seinerseits vermutlich wiederum das Auftreten der Erkrankung beeinflussen könnte. Es wurde schließlich folgender Ausweg gewählt: Jene Kinder, die an der Studie teilnehmen durften, wurden randomisiert der Verum- und Placebogruppe zugeteilt (als Verum bezeichnet man das „wahre“ Medikament im Gegensatz zum Placebo, das – abgesehen vom Placeboeffekt – wirkungslos ist). Auf diese Weise konnten derartige Effekte praktisch ausgeschlossen werden.
Der Tierarzt zieht also per Zufallsgenerator aus den 100 Rindern eine Stichprobe von 30 Tieren. Wie man sich leicht denken kann, gibt es sehr viele verschiedene Möglichkeiten, 30 aus 100 Tieren auszuwählen. In Abbildung 1.1 sind fünf mögliche Stichproben dargestellt.
Abb. 1.1: Fünf mögliche Stichproben
Fünf verschiedene Stichproben werden sich in der Zusammensetzung der aufgenommenen Tiere unterscheiden (es sind ja Zufallsstichproben). Nun wird in jeder dieser fünf (hypothetischen) Stichproben der Anteil kranker Kühe ermittelt (siehe Tab. 1.1):
Tab. 1.1:Resultate aus fünf möglichen Stichproben
Stichprobe
Anteil kranker Kühe
1
9%
2
9%
3
12%
4
8%
5
10%
In den meisten Fällen ist man nicht an Stichprobenergebnissen interessiert, sondern daran, wie es in der Population aussieht. Zum Beispiel: Wie hoch ist der durchschnittliche Blutdruck bei allen Personen, die an einer bestimmten Krankheit leiden? Da nicht alle Kranken untersucht werden können, wird also von der Stichprobe, und zwar von einer der vielen möglichen Stichproben, auf die Grundgesamtheit (Population) geschlossen. Dieses Schließen von der Stichprobe auf die Population ist stets mit Unsicherheiten behaftet, da man die Population i. d. R. ja nicht kennt. Bei Wahlprognosen äußert sich dies darin, dass ein Schwankungsbereich angegeben wird.
Unterschied Inferenzstatistik – Deskriptivstatistik
Die Deskriptivstatistik beschreibt eine Stichprobe, die Inferenzstatistik trifft Aussagen über die Population basierend auf der Stichprobe. Inferenzstatistische Aussagen sind mehr oder minder unsicher und können nur mit einer bestimmten Wahrscheinlichkeit getroffen werden, da von einer der vielen möglichen Stichproben auf die i. d. R. unbekannte Grundgesamtheit geschlossen wird.
Aus einer Studie
In dieser Studie wurde untersucht, ob Maßnahmen zur Hygieneschulung in bestimmten ländlichen Gebieten Zimbabwes wirken. In sogenannten Community Health Clubs vermitteln Trainer (Environmental Health Technicians: EHTs) hygienerelevante Aspekte an die Bevölkerung. Aus insgesamt 297 Clubs in den Provinzen Tsholotsho und Makoni wurden 25 ausgewählt.
“A systematic sample of 25 clubs was taken from the NGO’s register of Health Clubs in each district to include clubs from each ward ... The sample of clubs in each district was chosen to include at least one club from each ward, and so prevent bias arising from different EHTs’ methods.”
Waterkeyn, J. & Cairncross, S. (2005). Creating demand for sanitation and hygiene through Community Health Clubs: A cost-effective intervention in two districts in Zimbabwe. Social Science & Medicine, 61, 1958–1970.
Die in die Studie eingeschlossenen 25 Clubs stellten somit die Stichprobe (Sample) aus der Population von 297 Clubs dar. Um mögliche Verzerrungen zu vermeiden, die aus unterschiedlichen Arbeitsweisen der Environmental Health Technicians (EHTs) resultieren könnten, wurde darauf geachtet, zumindest einen Club jedes Clubleiters mit einzubeziehen. Das optimale Vorgehen wäre natürlich, alle 297 Clubs der beiden Provinzen zu untersuchen. Aus organisatorischen und Kostengründen ist ein derartiges optimales Vorgehen allerdings meist nicht möglich, weshalb Stichproben gezogen werden. Aus diesen und weiteren – etwa ethischen – Überlegungen werden beispielsweise bei Medikamentenstudien auch nicht alle Patienten (diese bilden die Population) in eine Studie aufgenommen, sondern nur Stichproben.
Kehren wir nun wieder zu unserem Landwirt zurück und erweitern das Beispiel. Nehmen wir an, er zieht nicht nur fünf, sondern 15 Stichproben. Vermutlich werden sich alle diese 15 Stichproben in ihrer Zusammensetzung unterscheiden, also Kombinationen großteils unterschiedlicher Individuen enthalten. Deshalb wird, wie wir das ja schon kennen, der Anteil kranker Rinder in diesen Stichproben unterschiedlich sein.
Tab. 1.2:Ergebnisse aus 15 Stichproben
Diese 15 ermittelten Stichprobenwerte können auch in einem Balkendiagramm dargestellt werden (siehe Abb. 1.2).
Abb. 1.2: Darstellung der Stichprobenwerte in einem Balkendiagramm
Ein Stichprobenwert von 9% erkrankter Tiere kommt in zwei Stichproben vor, einer von 10% in keiner der 15 Stichproben, ein Stichprobenwert von 11% kranker Rinder kommt in zwei Stichproben vor usw. Wir sehen, dass jene Stichprobenwerte, die näher am „wahren“ Wert von 12% liegen, häufiger auftreten als extreme Stichprobenwerte. Mit anderen Worten: Es ist wahrscheinlicher, in den Stichproben Werte zu erhalten, die nahe am wahren Wert liegen, als solche, die stark davon abweichen. Es ist allerdings von Bedeutung, wie diese Stichproben gezogen werden. Jedes Element aus der Population muss eine bestimmte, berechenbare Chance haben, in die Stichprobe aufgenommen zu werden – es muss sich um eine Zufallsstichprobe handeln („random sample“, von engl. random: zufällig). Was genau bedeutet das?
Zufallsstichproben
Wenn der Landwirt die Weide von der linken oberen Ecke her betritt, erwischt er, da er nicht nach Zufall vorgeht, zu viele kranke Rinder. Der Anteil beträgt dann zum Beispiel 35%. Betritt er die Weide von rechts oben, erwischt er fast nur gesunde Tiere – der Anteil an kranken Tieren beträgt in diesem Fall zum Beispiel nur 2%. Nähert er sich den Rindern von rechts unten, kommen wieder fast nur kranke Tiere in die Stichprobe – der Anteil beträgt nun zum Beispiel 42%. In allen drei Fällen wird aufgrund der Stichprobe falsch auf den wahren Populationsanteil geschlossen, da es sich nicht um Zufallsziehungen handelt. Korrektes Vorgehen würde bedeuten, jeder Kuh die gleiche Chance zu geben, in die Stichprobe zu gelangen. Dies geschieht, indem per Zufall ausgewählt wird. Dazu existieren Randomisierungslisten und Computerprogramme, welche die Zuordnung automatisiert festlegen.
Abb. 1.3: Kranke und gesunde Kühe
Ausschnitt aus „Farm animals vector illustrations“ © alexyndr – Fotolia.com;
In der Praxis der medizinischen Forschung mit Probanden ist es sehr schwierig, zu „wirklichen“ Zufallsstichproben zu gelangen. Ähnlich wie bei der bäuerlichen Weideproblematik haben bestimmte Patientengruppen oftmals eine wesentlich höhere Chance als andere, in eine Studie aufgenommen zu werden. Leider lesen wir in Publikationen eher selten etwas über dieses Problem. Eine Abschätzung darüber liefern oft die sogenannten Ein- und Ausschlusskriterien: Sind diese besonders streng, so kann angenommen werden, dass der „typische“ Studienpatient ein anderer ist als der „typische“ Patient, wie er in den Arztpraxen zu finden ist.
Zufallsstichproben (random samples) sind dadurch gekennzeichnet, dass man für jede Person vor der Durchführung der Auswahl die Wahrscheinlichkeit berechnen kann, mit der sie Teil der Stichprobe wird. Außerdem darf keine Teilgruppe der Population systematisch ausgeschlossen werden.
In den 1930er Jahren wurden in den USA vor wichtigen Wahlen sogenannte „pre-election surveys“ durchgeführt, zumeist von Zeitungen. Man ging davon aus, dass mit steigender Anzahl der Befragten auch die Vorhersagegenauigkeit steige. Berühmt geworden ist in diesem Zusammenhang das „Literary Digest Desaster“. Die Wochenzeitschrift Literary Digest versandte im Vorfeld zur Präsidentenwahl im Jahr 1936 Millionen von Pseudostimmzetteln und sagte den Sieg des Präsidentschaftskandidaten Alfred Landon voraus, basierend auf über zwei Millionen Antworten. Allerdings waren die Pseudostimmzettel nur an Telefonbesitzer geschickt worden – und diese unterschieden sich in den 1930er Jahren mit Sicherheit systematisch von den Nichttelefonbesitzern. Es kann also davon ausgegangen werden, dass daraus ein relevanter Bias resultierte. Tatsächlich gewann Franklin D. Roosevelt, was von der Gallup-Organisation korrekt vorausgesagt wurde, basierend auf der Befragung von nur rund 1.500 Personen, die allerdings durch entsprechende Auswahl in wesentlichen Faktoren repräsentativ waren. Im Allgemeinen ist die Repräsentativität einer Stichprobe relevanter als ihre Größe.
Abb. 1.4: George Gallup
„George Horace Gallup, founder of the Gallup polls“ © Wikimedia Commons. URL: http://commons.wikimedia.org/wiki/File: George_Gallup.png;
Noch ein paar Sätze zum Begriff „Population“. Es muss stets definiert werden, was die Population ist. Populationen können beispielsweise sein:
❚alle Patienten mit Diabetes mellitus oder
❚alle weiblichen Patienten mit Diabetes mellitus oder
❚alle weiblichen Patienten mit Diabetes mellitus im Alter zwischen 35 und 80 Jahren,
❚die Patienten eines bestimmten Schwerpunktspitales,
❚alle in Nordrhein-Westfalen gehaltenen Trakehner.
Wird aus einer so definierten Population eine Stichprobe entnommen, sind Verallgemeinerungen über die Stichprobe hinaus – inferenzstatistische Schlüsse also – im Prinzip nur für diese Population gültig. Oft sind jedoch nicht alle relevanten Faktoren, welche die erhobenen Merkmale beeinflussen könnten, überprüfbar, um eine Verallgemeinerung zu rechtfertigen. Beim Literary Digest Desaster sind die Probleme offensichtlich: Eine Verallgemeinerung über die Telefonbesitzer hinaus war nicht zulässig.
1.2Signifikanz (p-Wert)
Um welches Problem geht es in diesem Unterkapitel?
Im Rahmen einer wissenschaftlichen Studie können in der Regel nicht alle Patienten untersucht werden. Das führt zu dem Problem, dass von einer Auswahl (Stichprobe) auf die Grundgesamtheit (Population) geschlossen werden muss. Wie aber ist es möglich, von einigen wenigen etwas über alle auszusagen? Derartige Aussagen sind grundsätzlich mit gewissen Unsicherheiten behaftet. Wenn eine Therapie bei den Patienten der Stichprobe wirkt, ist sie dann auch bei allen Patienten wirksam? Und wenn ja, wie können wir das wissen, wenn wir gar nicht alle untersucht haben? Der p-Wert (von lat. probabilitas: Wahrscheinlichkeit) liefert Informationen über die Wahrscheinlichkeit, mit der man sich irrt, wenn man annimmt, ein in der Stichprobe gefundener Unterschied sei auch in der Population vorhanden.
Wenn Sie dieses Unterkapitel gelesen haben, können Sie folgende Fragen beantworten:
Wie können Aussagen über die Population ausgehend von einer Stichprobe getroffen werden?
Was ist der p-Wert und in welchem Zusammenhang steht er mit statistischen Hypothesen?
Welche Fehlentscheidungen sind beim Schließen von der Stichprobe auf die Population möglich?
Warum ist es problematisch, im Rahmen einer Studie sehr viele statistische Tests zu rechnen?
Was sind ein- und zweiseitige Hypothesen und worin liegen mögliche Gefahren, wenn man eine zweiseitige Hypothese im Nachhinein zu einer einseitigen umformuliert?
Schlüsselbegriffe
Signifikanz, Signifikanzniveau, wissenschaftliche Hypothesen, Alltagshypothesen
Das Schließen von einer Stichprobe auf die Grundgesamtheit
Frau Alma Tiener züchtet seit dreißig Jahren Dalmatiner. Durch sorgfältige Auswahl ist es ihr gelungen, einen neuen Typus zu erschaffen: schwarze Dalmatiner mit weißen Punkten (die sogenannten „Höllendalmatiner“). Im Laufe der Zeit stellt sich jedoch heraus, dass es bei den Höllendalmatinern öfter zu Taubheit kommt als bei den herkömmlichen, schwarzgepunkteten Dalmatinern. (Taubheit ist allgemein ein Problem bei Tieren dieser Hunderasse.) Deshalb entschließt sich Frau Tiener, bei den folgenden Würfen die Sache genauer zu untersuchen. Sie besitzt jeweils fünf Zuchthündinnen und ermittelt bei jedem Wurf den Anteil der tauben Hunde. Bei den herkömmlichen Dalmatinern waren unter den insgesamt 30 Welpen 4 auffällige (4 von 30, das sind 13,3%), bei den Höllendalmatinern fand sie 6 auffällige Welpen unter 26 (6 von 26, das sind 23,1%). Frau Tiener verallgemeinert deshalb auf alle künftigen Würfe und sagt: „Meiner Erfahrung nach ist der Anteil tauber Hunde unter den Höllendalmatinern signifikant höher als unter den herkömmlichen Dalmatinern.“
„Hund Dalmatiner sitzend“ © fotowebbox – Fotolia.com;
Die Bedeutung des Wortes „signifikant“
