Prüfen mit Multiple Choice - René Krebs - E-Book

Prüfen mit Multiple Choice E-Book

René Krebs

0,0
30,99 €

-100%
Sammeln Sie Punkte in unserem Gutscheinprogramm und kaufen Sie E-Books und Hörbücher mit bis zu 100% Rabatt.

Mehr erfahren.
Beschreibung

In diesem Buch finden Sie konkrete Empfehlungen und Handlungsanweisungen für alle Phasen einer Multiple Choice (MC)-Prüfung, von der Planung über die Entwicklung und Durchführung bis hin zur Auswertung. Die Empfehlungen beruhen auf der langjährigen Erfahrung des Autors, sowie auf dem aktuellen Stand der Prüfungsforschung und entsprechen dem internationalen Standard (AERA/APA/ NCME-Standards for Educational and Psychological Testing). Unterstützt durch anschauliche Beispiele lernen Sie Schritt für Schritt mit der MC-Methode kompetent zu prüfen. Die Umsetzung der Inhalte bedeutet u.a., dass Sie - die MC-Methode im Rahmen ihrer Möglichkeiten und Grenzenadäquat einsetzen, - die Repräsentativität Ihrer Prüfungen gewährleisten und die erforderliche Fragenzahl bestimmen, - nicht nur Faktenwissen sondern auch Verständnis und Wissensanwendung (Problemlösen) prüfen, - das Lernen der Auszubildenden günstig beeinflussen, - Formulierungsfehler vermeiden, welche die Messzuverlässigkeit beeinträchtigen, - verschiedene Fragetypen gezielt einsetzen und formal korrekt formulieren, - Prüfungen so zusammenstellen und durchführen, dass die Ergebnisse nicht durch sachfremde Faktoren und Zufälligkeiten beeinträchtigt werden. Die Illustrationsbeispiele stammen weitgehend aus der ärztlichen Grundausbildung. Die Empfehlungen gelten aber für jegliche kompetenzorientierte Ausbildung und lassen sich auf andere Bereiche übertragen. Zur Transfererleichterung werden wichtige Empfehlungen für die Fragenformulierung und Typenwahl zusätzlich an nicht-ärztlichen Themen illustriert..

Das E-Book können Sie in Legimi-Apps oder einer beliebigen App lesen, die das folgende Format unterstützen:

EPUB
MOBI

Seitenzahl: 247

Veröffentlichungsjahr: 2019

Bewertungen
0,0
0
0
0
0
0
Mehr Informationen
Mehr Informationen
Legimi prüft nicht, ob Rezensionen von Nutzern stammen, die den betreffenden Titel tatsächlich gekauft oder gelesen/gehört haben. Wir entfernen aber gefälschte Rezensionen.



Prüfen mit Multiple Choice

René Krebs

Programmbereich Medizin

René Krebs

Prüfen mit Multiple Choice

Kompetent planen, entwickeln, durchführen und auswerten

Entwickelt in Zusammenarbeit mit der Abteilung für Assessment und Evaluation (AAE)

René Krebs

Gäbelbachstrasse 37

3027 Bern

Schweiz

Email: [email protected]

Wichtiger Hinweis: Der Verlag hat gemeinsam mit den Autoren bzw. den Herausgebern große Mühe darauf verwandt, dass alle in diesem Buch enthaltenen Informationen (Programme, Verfahren, Mengen, Dosierungen, Applikationen, Internetlinks etc.) entsprechend dem Wissensstand bei Fertigstellung des Werkes abgedruckt oder in digitaler Form wiedergegeben wurden. Trotz sorgfältiger Manuskriptherstellung und Korrektur des Satzes und der digitalen Produkte können Fehler nicht ganz ausgeschlossen werden. Autoren bzw. Herausgeber und Verlag übernehmen infolgedessen keine Verantwortung und keine daraus folgende oder sonstige Haftung, die auf irgendeine Art aus der Benutzung der in dem Werk enthaltenen Informationen oder Teilen davon entsteht. Geschützte Warennamen (Warenzeichen) werden nicht besonders kenntlich gemacht. Aus dem Fehlen eines solchen Hinweises kann also nicht geschlossen werden, dass es sich um einen freien Warennamen handelt.

Bibliografische Information der Deutschen Nationalbibliothek

Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://www.dnb.de abrufbar.

Dieses Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechtes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Kopien und Vervielfältigungen zu Lehr- und Unterrichtszwecken, Übersetzungen, Mikroverfilmungen sowie die Einspeicherung und Verarbeitung in elektronischen Systemen.

Anregungen und Zuschriften bitte an:

Hogrefe AG

Lektorat Gesundheit

Länggass-Strasse 76

3012 Bern

Schweiz

Tel. +41 31 300 45 00

[email protected]

Internet: www.hogrefe.ch

Lektorat: Susanne Ristea

Herstellung: René Tschirren

Umschlagabbildung: MC-Selbstprüfung (self assessment) am Tablet-PC,

© IML Bern, Norbert Braun

Umschlag: Claude Borer, Riehen

Satz: Claudia Wild, Konstanz

Druck und buchbinderische Verarbeitung: Finidr s.r.o., Český Těšín

Printed in Czech Republic

1. Auflage 2019

© 2019 Hogrefe Verlag, Bern

(E-Book-ISBN_PDF 978-3-456-95902-3)

(E-Book-ISBN_EPUB 978-3-456-75902-9)

ISBN 978-3-456-85902-6

http://doi.org/10.1024/85092-000

Nutzungsbedingungen

Der Erwerber erhält ein einfaches und nicht übertragbares Nutzungsrecht, das ihn zum privaten Gebrauch des E-Books und all der dazugehörigen Dateien berechtigt.

Der Inhalt dieses E-Books darf von dem Kunden vorbehaltlich abweichender zwingender gesetzlicher Regeln weder inhaltlich noch redaktionell verändert werden. Insbesondere darf er Urheberrechtsvermerke, Markenzeichen, digitale Wasserzeichen und andere Rechtsvorbehalte im abgerufenen Inhalt nicht entfernen.

Der Nutzer ist nicht berechtigt, das E-Book – auch nicht auszugsweise – anderen Personen zugänglich zu machen, insbesondere es weiterzuleiten, zu verleihen oder zu vermieten.

Das entgeltliche oder unentgeltliche Einstellen des E-Books ins Internet oder in andere Netzwerke, der Weiterverkauf und/oder jede Art der Nutzung zu kommerziellen Zwecken sind nicht zulässig.

Das Anfertigen von Vervielfältigungen, das Ausdrucken oder Speichern auf anderen Wiedergabegeräten ist nur für den persönlichen Gebrauch gestattet. Dritten darf dadurch kein Zugang ermöglicht werden.

Die Übernahme des gesamten E-Books in eine eigene Print- und/oder Online-Publikation ist nicht gestattet. Die Inhalte des E-Books dürfen nur zu privaten Zwecken und nur auszugsweise kopiert werden.

Diese Bestimmungen gelten gegebenenfalls auch für zum E-Book gehörende Audio­dateien.

Anmerkung

Sofern der Printausgabe eine CD-ROM beigefügt ist, sind die Materialien/Arbeitsblätter, die sich darauf befinden, bereits Bestandteil dieses E-Books.

Inhalt
Vorwort
Dank
Kapitel 1
1 Prüfen mit Multiple Choice: wozu – was – wie?
1.1 Wozu sollen MC-Items resp. soll eine MC-Prüfung dienen?
1.2 Was prüfen mit der MC-Methode?
1.2.1 Möglichkeiten und Grenzen der MC-Methode
1.2.2 Festlegen der angestrebten Schlussfolgerungen (Interpretationen, Entscheidungen) und deren Gültigkeitsdomäne (Blueprint)
1.3 Wie prüfen mit der MC-Methode?
Kapitel 2
2 Wie entstehen geeignete Multiple-Choice-Items?
2.1 Empfehlungen 1-3 zur repräsentativen Erfassung des Konstruktes
Empfehlung 1: Vorwärts orientiert relevante Themen, Probleme, Handlungen wählen
Empfehlung 2: Auf adäquaten taxonomischen Stufen prüfen
Empfehlung 3: Authentisch und fokussiert fragen mit homogenen Antworten
2.2 Empfehlungen 4-7, um konstrukt-irrelevanten Einflüssen und Zufälligkeiten entgegenzuwirken
Empfehlung 4: Eindeutige Lösung
Empfehlung 5: Angemessene Schwierigkeit
Empfehlung 6: Einheitliche, eindeutige, prägnante, einfache Formulierung
Empfehlung 7: Vermeiden ungewollter Lösungshinweise
Kapitel 3
3 Verschiedene Itemtypen: wozu, wie?
3.1 Vier Grundsätze zur Verwendung verschiedener Itemtypen
3.2 Itemtypologie: Best-Antwort-Typen und Richtig/Falsch-Typen
3.3 Einfachwahl aus 3 bis 5 Wahlantworten (Typ A)
3.4 Alternative Best-Antwort-Typen
3.4.1 „Zuordnung“ (Typ B)
3.4.2 Erweiterte Zuordnung (Typ R)
3.4.3 Wahl einer angegebenen Zahl bester Antworten (Typ PickN)
3.5 Vierfache Entscheidung richtig/falsch (Typ K‘, genannt Kprim)
3.6 Alternative Richtig/Falsch-Typen
3.6.1 Richtig/Falsch-Beurteilung einzelner Aussagen (Typ R/F)
3.6.2 Richtig/Falsch-Beurteilung zweier Aussagen und ihrer kausalen Verknüpfung (Typ E)
Kapitel 4
4 Wie wird die Qualität von MC-Prüfungen sichergestellt?
4.1 Qualitätssicherungskette für MC-Prüfungen
4.2 Zeitliche Planung und Arbeitsteilung
4.3 Itembestellung und Itemproduktion
4.4 Itemrevision
4.5 Prüfungserstellung
4.6 Prüfungsdurchführung
4.6.1 In der Prüfungsvorbereitung der Kandidaten für Chancengleichheit sorgen
4.6.2 Bei der Prüfungsdurchführung dem Einfluss von Störfaktoren entgegenwirken
4.6.3 Integrität der gegebenen Antworten überprüfen, Antworten sicherstellen
4.7 Prüfungsauswertung
4.7.1 Erfassung und Scoring der Antworten
4.7.2 Identifikation und Ausschluss fehlerhafter und unfairer Items, Kontrolle der Messqualität der Prüfung
4.7.3 Ermittlung der Gesamtpunktzahl der Kandidaten
4.7.4 Setzen und Konstanthalten der Bestehensgrenze
4.7.5 Ergebnisrückmeldung an die Kandidaten
4.9 Examinatorenfeedback
Anhänge und Glossar
Anhang 1: Checkliste zur Formulierung guter Multiple-Choice-Items
Anhang 2: Instruktion zum korrekten Vorgehen bei der Fragenbeantwortung
Anhang 3: Instruktionen zur Beantwortung der einzelnen Typen
Anhang 4: Das korrekte Vorgehen beim Markieren des Antwortblattes
Anhang 5: Unterstützung des Transfers auf nicht ärztliche Inhaltsbereiche
Glossar mit Verweis auf Textstellen
Abbildungsnachweis
Anmerkungen

Vorwort

Prüfungen sind in jeglicher Aus- und Weiterbildung eine entscheidende Komponente der Qualitätssicherung. Sie fungieren als Torwächter zu nachfolgenden Bildungsstufen und letztlich zur beruflichen Tätigkeit.

Gleichzeitig haben sie einen prägenden Einfluss auf das Lernen und Lehren. Lernende wollen Rückschläge in ihrem Bildungsgang vermeiden und bereiten sich deshalb intensiv und gezielt auf solche summativen Prüfungen vor. Im Bestreben, ihre Lernenden zu unterstützen, orientieren sich Ausbildende bei der Gewichtung der vermittelten Inhalte und Kompetenzen stark an den Prüfungszielen und Prüfungsinhalten.

Im Gegensatz zu dieser Einsatzweise mit potenziell einschneidender Konsequenz für die Lernenden können kleine „Prüfungen“ oder auch einzelne Aufgaben/Fragen (Items1) ausschließlich zur Unterstützung des Lernens und Behaltens eingesetzt werden. Im Unterricht oder in Lernmedien eingestreute Items erlauben den Lernenden, selbst zu überprüfen, ob sie Inhalte aufgenommen und Zusammenhänge verstanden haben und sie können sie auf diese Weise festigen und vertiefen. Diese Einsatzform wird als „formatives Assessment“ bezeichnet.

Der Nutzen beider Einsatzweisen, aber auch ob der lern- und lehrsteuernde Effekt summativer Prüfungen positiv oder negativ zu werten ist, hängt primär von der Qualität der eingesetzten Items ab. Gute Items lassen sich nur entwickeln, wenn vorab Klarheit herrscht über die Ausbildungsziele resp. die angestrebte Schlussfolgerung/Entscheidung aus dem Prüfungsergebnis. Neben unzulänglichen Items kann diese Schlussfolgerung durch etliche weitere Störfaktoren, z.B. während der Durchführung und Auswertung, beeinträchtigt werden, die es zu vermeiden gilt.

Ziel dieses Buches: Mit dem vorliegenden Buch möchte ich Sie auf dem Weg von der Planung einer Prüfung über deren Entwicklung, Durchführung und Auswertung bis hin zur Ergebnismitteilung und zur Rückschau begleiten und unterstützen.

 

Soll mit einer Prüfung erschlossen werden, ob Studierende kognitive Lernziele (Kennen, Verstehen, Probleme lösen) in einer bestimmten Domäne hinlänglich erreicht haben, muss dieses Prüfungskonstrukt als Erstes definiert und die Gültigkeitsdomäne mittels gewichtetem Inhaltsverzeichnis (Blueprint) abgesteckt und gewichtet werden. Zudem muss geklärt sein, ob sich die Multiple-Choice-Methode zum Erheben relevanter Indikatoren eignet und wie viele Indikatoren (Items) für eine zuverlässige Messung erforderlich sind. – Dieser Planungsphase ist das Kap. 1 gewidmet.

Nun sind Items zu entwickeln, die konstruktrelevante Indikatoren erfassen und robust sind gegen konstruktirrelevante Störfaktoren. Dazu gehört neben vielem anderem die Wahl und korrekte Formulierung des am besten geeigneten Itemtyps. – Empfehlungen und Beispiele dazu finden Sie in den Kap. 2 und Kap. 3 und im Anhang 5.

In der Prüfung soll die „wahre“ Leistungsfähigkeit der Studierenden erfasst werden. Bei der Vorbereitung der Kandidaten2, der Zusammenstellung und Durchführung der Prüfung ist also sicherzustellen, dass die während der Durchführung gezeigte Leistung gegenüber der „wahren“ durch störende Einflüsse weder überhöht noch herabgesetzt ist.

Bei der Auswertung sind mögliche mangelhafte Items zu identifizieren und zu eliminieren, die Antworten der Kandidaten adäquat in Scoresumzusetzen, die korrekten Erfolgsentscheide zu fällen und nützliche Rückmeldungen zu geben. – Den Phasen der Prüfungszusammenstellung, -durchführung und -auswertung sowie der Qualitätssicherung während und beim Abschluss des Prozesses ist das Kap. 4 gewidmet.

Die Umsetzung der Empfehlungen zur Prüfungsplanung und Itementwicklung (Kap. 1 bis Kap. 3) wird im Buch exemplarisch an Inhalten der ärztlichen Ausbildung demonstriert. Die Empfehlungen gelten aber genauso für jegliche andere Ausbildung. Zur Erleichterung des Transfers werden im Anhang 5 wichtige Empfehlungen zusätzlich an Items mit nicht ärztlichen Inhalten illustriert.

Ärzten/Ärztinnen möge folgendes Beispiel aufzeigen, dass sie in ihrer täglichen Arbeit mit Patienten/Patientinnen nach den gleichen Prinzipien arbeiten, wie sie in diesem Buch für Prüfungen postuliert werden:

Soll die Funktionstüchtigkeit des Herz-Kreislauf-Systems von Patienten/Patientinnen abgeklärt werden, ist auch hier vorab eine hinreichend klare Vorstellung dieses Konstruktes erforderlich: Wie funktioniert dieses System? Welche Faktoren (Organe, Mechanismen usw.) sind für die Funktionstüchtigkeit bedeutsam? …

In einem zweiten Schritt ist zu entscheiden, welche Erhebungen am besten geeignet sind, um relevante Informationen zu gewinnen, die eine Interpretation hinsichtlich des Konstruktes ermöglichen. Eine zentrale Rolle wird der Messung des Blutdruckes zukommen.

Dieses Messergebnis kann aber nur nutzbringend interpretiert werden, wenn es zuverlässig und nicht durch Störfaktoren verfälscht ist. So muss bei der Blutdruckmessung etwa vermieden werden, dass …

die Patienten/Patientinnen emotional erregt oder körperlich noch nicht zur Ruhe gekommen sind,die Manschette zu breit oder zu schmal ist oder sich nicht auf Herzhöhe befindet,Umgebungslärm das Wahrnehmen der Strömungsgeräusche beeinträchtigt,Werte falsch abgelesen und/oder fehlerhaft festgehalten werden.

Ist eine hohe Zuverlässigkeit erforderlich, muss die Messung an beiden Armen erfolgen und wiederholt werden.

Letztlich ist das Ergebnis mit Referenzwerten zu vergleichen und hinsichtlich des interessierenden Konstruktes korrekt zu interpretieren.

Kap. 2 und Kap. 3 sind ausgehend von meiner kurzen „Anleitung zur Herstellung von MC-Fragen und MC-Prüfungen für die ärztliche Ausbildung“ von 2004 entstanden. Deren Überarbeitung war angezeigt, da inzwischen erfolgte empirische Befunde und Weiterentwicklungen neu zu berücksichtigen waren. Wie oben dargelegt, ist die Produktion guter Items aber nur ein Glied in der Qualitätssicherungskette einer Prüfung. In Erweiterung der Anleitung von 2004 werden deshalb im vorliegenden Buch nun auch die vorangehenden und nachfolgenden Glieder fundiert behandelt.

Beschrieben wird der Qualitätsstandard, den die Abteilung für Assessment und Evaluation (AAE) des Instituts für Medizinische Lehre (IML) an der Universität Bern bei der Unterstützung seiner Partner anwendet [1]. Diverse der vorgestellten Instrumente und Prozeduren sind in diesem Institut entwickelt oder zumindest weiterentwickelt worden.

Als Mitglied dieses Instituts von 1983 bis zu meiner Pensionierung 2011 konnte ich beim Verfassen aus einer reichen praktischen Erfahrung mit dem gesamten Prüfungsprozess schöpfen, allerdings primär für papierbasierte Prüfungen. Die Itemverwaltung und Prüfungszusammenstellung erfolgte zwar schon sehr früh mittels eines im Haus entwickelten elektronischen Poolprogramms. Dieses wurde später abgelöst durch eine Version, die eine webbasierte Entwicklung und Revision der Items wie auch die Durchführung elektronischer Prüfungen sowohl stationär wie online ermöglichte. Die neuste Generation aus dem IML ist das Softwarepaket Measured®, das die Nutzer und Nutzerinnen von der Auftragserstellung an die Autoren über die Itementwicklung, die Prüfungserstellung und die elektronische Durchführung bis zur Auswertung unterstützt. Die mit diesen Instrumenten bei der webbasierten Prüfungsentwicklung und elektronischen Prüfungsdurchführung gewonnen Erfahrungen meiner Institutskollegen und Institutskolleginnen sind in das Buch eingeflossen.

Dank

Tina Schurter, die nach meinem altershalben Ausscheiden aus der Abteilung für Assessement und Evaluation am Institut für Medizinische Lehre (AAE/IML) die meisten meiner Abteilungsaufgaben übernommen hatte, nahm sich während des Entstehungsprozesses des Buches immer wieder Zeit, neu entstandene Teile aufmerksam und kritisch zu lesen. Sie regte mich an, für gewisse mir längst zur Selbstverständlichkeit gewordene Forderungen triftige Argumente zu liefern und machte mich auf Lücken aufmerksam.

Sie, sowie Patrick Jucker-Kupper und Markus Dahinden, zwei weitere Institutskollegen, lieferten mir Hinweise auf Unterschiede bei elektronischen Prüfungen.

Meine auswertungsmethodischen Wegbegleiter Helmut Vorkauf und Rainer Hofer stellten sicher, dass ich in diesem Bereich des Buches nicht über Gebühr simplifiziert habe.

Sören Huwendiek, Leiter der AAE war ein stets interessierter Förderer des Projektes und gab hilfreiche Rückmeldungen.

Ihnen allen gehört mein herzlicher Dank.

Für alle im Buch gemachten Aussagen trage ich aber die alleinige Verantwortung.

Susanne Ristea, Lektorin des Hogrefe Verlages, danke ich für ihr Interesse an der Thematik des Buches und ihre Offenheit für meine Anliegen z.B. bezüglich Schreibweisen und Gestaltung. Die Redakteurin Anja Becker hat das Buch aus dem Blickwinkel künftiger Leser und Leserinnen redigiert, die neu in diese Materie eintauchen und hat es für sie durch Beseitigung möglicher Stolpersteine leichter lesbar gemacht. Herzlichen Dank auch dafür.

Ich hoffe, das Buch möge einen Beitrag zu guten, fairen MC-Prüfungen liefern.

René Krebs, Bern

Februar 2019

Kapitel 1

1 Prüfen mit Multiple Choice: wozu – was – wie?

Vorab zu klären:

Bevor die Entwicklung von Multiple-Choice-Items (MC-Items) in Angriff genommen werden kann, muss geklärt sein, wozu, was und wie zu prüfen ist.

wozu

MC-Items können unterschiedlichen Zielsetzungen und Zweckbestimmungen dienen. Abhängig davon ändern sich die Anforderungen an die Items und die daraus zusammengestellten Prüfungen.

was

Um die MC-Methode adäquat einsetzen und sie nötigenfalls mit anderen Prüfungsmethoden kombinieren zu können, muss bekannt sein, was sich damit prüfen lässt und wo die Grenzen liegen.

MC-Items können nur gezielt entwickelt und repräsentativ zu Prüfungen zusammengestellt werden, wenn klar ist, welche kognitiven Leistungen erfasst und welche Inhaltsbereiche abgedeckt werden sollen.

wie soll geprüft werden?

Ob die Prüfungen dann auch eine hinreichend gültige Schlussfolgerung auf die anvisierten Kompetenzen ermöglichen, hängt von einer ganzen Kette von Voraussetzungen ab. Um potenzielle Beeinträchtigungen vermeiden zu können, müssen diese im Voraus bekannt sein.

„Nebenwirkungen“ mit berücksichtigen

Obwohl die Zusammenhänge komplex und noch keinesfalls völlig geklärt sind, gilt als gesichert, dass Prüfungen – ob beabsichtigt oder nicht – das Lernverhalten der Studierenden beeinflussen (Al-Kadri, Al-Moamary, Roberts & van der Vleuten, 2012). Es sollte versucht werden, dies zu nutzen und möglichen negativen Effekten entgegenzuwirken.

1.1Wozu sollen MC-Items resp. soll eine MC-Prüfung dienen?

Hauptunterschied: formativ/summativ

Hinsichtlich Ziel und Zweck sowie der sich daraus ergebenden Konsequenzen unterscheiden sich formatives und summatives Prüfen am deutlichsten. In der Tabelle 1-1 sind wesentliche Merkmale dieser beiden Einsatzzwecke einander gegenübergestellt.

Tabelle 1-1: Charakteristika formativen und summativen Prüfens im Vergleich

formatives Prüfen

summatives Prüfen

Ziele, Zwecke

informelle Selbstkontrolle, FeedbackLernunterstützung, LernförderungDiagnose eines aktuellen, veränderbaren ZustandesQualitätssteigerungexterne LeistungskontrolleSelektion, Qualifikation, Klassierung, …Prognose der künftigen (überdauernden) BewährungQualitätssicherung

Durchführungszeitpunkt, Durchführungsfrequenz

möglichst kontinuierlich an Schnittstellen

Konsequenzen für die Kandidaten

sicher harmlos, grundsätzlich positiv dürfen „ungeschminkt“ ihre aktuelle Realleistung zeigen; keine Erfolgsstrategien erforderlich unterstützt, fördert (sinnvolles) Lernen und dauerhaftes Behalteneinschneidend, potenziell negativwollen sich „von der besten Seite“ zeigen; benutzen nach Möglichkeit Erfolgsstrategientreibt zu intensivem, prüfungsorientiertem Lernen an; birgt die Gefahr kurzfristigen massierten Oberflächenlernens mit baldigem Abfall der Erinnerungsleistung

Hauptanforderungen an Prüfungen/Prüfungsitems

inhaltlich gültig (relevant, taxonomisch adäquat, …)lernmotivierend, lernunterstützendmit hilfreichen Rückmeldungen (zusätzlicher Lerneffekt)inhaltlich gültig (relevant, taxonomisch adäquat, …)zuverlässig messendrechtlichen Anfechtungen standhaltend

Formativ prüfen: informelle Selbstkontrolle

Formatives Prüfen dient dazu, den Studierenden durch das Einbauen kleiner Prüfungen oder auch nur einzelner Fragen im Unterricht, in Lernprogrammen oder Lernmaterialien möglichst kontinuierlich nützliche Hilfen für ihr weiteres Lernen zu geben. Was habe ich begriffen? Wo habe ich noch Lücken?

Lernunterstützung

Lernen und Behalten unterstützen. Bereits das zur Fragenbeantwortung erforderliche Abrufen gespeicherten Wissens fördert das Behalten effektiv (Karpicke & Blunt, 2011). Der Lerneffekt ist noch besser, wenn die Fragenbeantwortung eine Denkleistung erfordert (nicht nur Wiedererkennen eines Begriffs oder Faktums), wenn wiederholt und zeitlich verteilt geprüft wird und wenn geeignete Rückmeldungen gegeben werden (Larsen, Butler & Roediger, 2008; Larsen, Butler, Lawson & Roediger, 2013).

Konsequenzen

Für die Studierenden sind formative Prüfungen positiv, zumindest aber harmlos. Sie können die Fragen ohne Leistungsdruck beantworten.

Summativ prüfen:

Mit summativen Prüfungen wird an Schnittstellen von außen festgestellt, ob die Geprüften gesteckte Ziele einer Lerneinheit oder Ausbildungsphase erreicht haben resp. ob sie die Anforderungen zum Übertritt auf die nachfolgende Stufe erfüllen.

Selektion, Qualifikation, Differenzierung

Selektiv, kriterienorientiert oder differenzierend prüfen. Weiter ist zu unterscheiden, ob die Leistungsbesten zu selektionieren sind (Numerus-clausus-Test), ob das Erreichen eines festgelegten Kriteriums gesichert werden soll (Qualifikationsprüfung mit Pass-/Fail-Entscheid) oder ob eine zuverlässige Differenzierung auf der ganzen Leistungsbreite erforderlich ist (benotete Prüfungen mit gegenseitiger Kompensationsmöglichkeit).

Konsequenzen

Summative Prüfungen haben für die Kandidaten in der Regel einschneidende Konsequenzen (high-stakes examinations). Ein Misserfolg kann die Verhinderung oder Verzögerung ihrer Ausbildung resp. des Einstiegs in die Berufsausübung bedeuten. Sie werden sich deshalb in der Regel durch intensives, spezifisch auf die Prüfung ausgerichtetes Lernen vorbereiten und alle sich bietenden Möglichkeiten nutzen, um erfolgreich zu sein. Misserfolge werden nicht selten juristisch angefochten.

Fehlentscheide aufgrund unzulänglicher Prüfungen (Zulassung Ungeeigneter oder fälschliche Rückweisung Geeigneter) haben aber auch negative Auswirkungen für die Gesellschaft.

Zwischen formativem und summativem Prüfen zu lokalisieren sind Modellprüfungen und Selbsttests.

Modellprüfungen

Modellprüfungen dienen dazu, Studierende, denen eine summative Prüfung bevorsteht, durch Publikation der Prüfungsinstruktionen und exemplarischer Items im Voraus mit den „Spielregeln“ und der Art der Prüfungsfragen vertraut zu machen. Der Prüfungsinhalt sollte durch Publikation der Lernziele und des Blueprints bekannt gemacht werden. Damit sollen für alle Kandidaten möglichst ähnliche Voraussetzungen zur Prüfungsvorbereitung geschaffen und Unterschiede bezüglich Testerfahrung (testwiseness) verkleinert werden.

Selbsttests

Selbsttests (self-assessment) erfüllen den gleichen Zweck. Darüber hinaus erhalten Absolvierende aber eine Rückmeldung über ihren Leistungsstand und erfahren damit, wann sie sich hinreichend vorbereitet haben. Bei Selbsttests am PC kann durch eine rückwärts laufende Zeitmessung zusätzlich die Prüfungssituation simuliert werden. Als Illustration diene der Selbsttest zur eidgenössischen Prüfung [2].

Beide Formen – Modellprüfungen und Selbsttests – dienen dazu, die Fairness für die Kandidaten zu erhöhen und die Verzerrung der Prüfungsergebnisse durch den Einfluss unerwünschter Faktoren wie Prüfungsangst oder mangelnde Prüfungserfahrung zu reduzieren.

Anforderungen bei den verschiedenen Zweckbestimmungen

Generelle Anforderung: inhaltliche Gültigkeit (Validität). Unter allen Zweckbestimmungen sind eingesetzte Items nur von Nutzen, wenn sich damit das „Richtige“ prüfen lässt, wenn sie gültige Repräsentanten der zu erwerbenden resp. zu überprüfenden kognitiven Kompetenzen und Sachkenntnisse sind.

Bei summativen Prüfungen sind die Items zudem hinsichtlich des zu prüfenden Konstruktes inhaltlich repräsentativ zusammenzustellen (s. Kap. 1.2.2). Wegen ihrer einschneidenden Konsequenzen ist bei summativen Prüfungen zudem sehr wichtig, dass sie eine hohe Messzuverlässigkeit (Reliabilität) aufweisen und juristischen Anfechtungen standhalten. Wie dies zu erreichen ist, wird im Kap. 1.3, im Kap. 2.2 sowie im Kap. 4.7 behandelt.

Abhängig davon, ob mit einer summativen Prüfung die Erfüllung eines Minimalstandards gesichert werden soll, ob es um eine Selektion der Besten geht oder ob eine Differenzierung auf der ganzen Leistungsskala erforderlich ist, ist eine unterschiedliche Schwierigkeitsverteilung der Items anzustreben.

Modellprüfungen und Selbsttests können ihren Zweck nur erfüllen, wenn sie der späteren summativen Prüfung inhaltlich und formal hinreichend ähnlich sind. Da sie aber unter günstigerer, stressärmerer Bedingung absolviert werden als Ernstprüfungen, ist es sinnvoll, im Mittel etwas schwierigere Fragen vorzulegen und bei Selbsttests die „Bestehensanforderung“ etwas höher anzusetzen. So kann vermieden werden, dass sich Studierende in falscher Sicherheit wiegen.

Bei formativem Prüfen ist die Messzuverlässigkeit nicht so wichtig. Zwar ist es sinnvoll, die Fragen auch hier formal und sprachlich korrekt zu formulieren, die Prüfungen dürfen aber wesentlich kürzer sein als summative. Außerdem können auch Fragetypen eingesetzt werden, die unter dem Aspekt der Messgenauigkeit suboptimal sind (z.B. Richtig/Falsch-Beurteilung einzelner Aussagen). Entscheidend ist hier, ob ein Item der gedächtnismäßigen Festigung und Vertiefung eines relevanten Inhalts dient. Dies wird durch eine geeignete Rückmeldung unterstützt.

Feedback: wann und wie?

Feedback
ist bei formativem Prüfen essenziell. Standardmäßige Rückmeldungen wie „leider falsch“ resp. „richtig“ sind höchstens für ein Faktenwissensquiz ausreichend. Bei anspruchsvolleren Prüfungsfragen sollte bei Wahl einer falschen Antwort beispielsweise auf eine entsprechende Stelle im Lernprogramm resp. eine Literaturstelle hingewiesen werden. Die Antwortenden sollen sich nochmals mit dem Problem befassen und auf jeden Fall letztlich zur richtigen Antwort gelangen. Zur Vertiefung des Wissens ist es durchaus sinnvoll, deren Richtigkeit im Feedback zu begründen.ist während summativen Prüfens kontraindiziert.Während summativer Prüfungen ist auf Feedback zu verzichten. Die dadurch evozierte Metakognition kann die Leistung in den nachfolgenden Aufgaben beeinträchtigen (Delgado & Prieto, 2003).ist nach Prüfungsabschluss wenig effektiv. Bei der Erfolgsrückmeldung wird inhaltlich detailliertem Feedback fast nur von Kandidaten mit Misserfolg vertiefte Beachtung geschenkt. Für die anderen ist mit dem Bestehen der Prüfung das Ziel erreicht.

Lernsteuernden Effekt summativer Prüfungen positiv nutzen

Lernsteuerung. Der lernmotivierende und -steuernde Effekt summativer Prüfungen sollte genutzt werden, indem sowohl in diesen wie in den vorausgehenden Modellprüfungen und/oder Selbsttests Inhalte präsentiert und Kompetenzen gefordert werden, die für die weitere Ausbildung und die spätere berufliche Tätigkeit bedeutsam sind.

Dem negativen Effekt kurzfristigen massierten Lernens („Büffeln“) ist entgegenzutreten durch angemessenen Leistungsanspruch und geeignete Prüfungsfrequenz (z.B. zweimal pro Studienjahr), eventuell auch durch Teilprüfungen mit gegenseitiger Kompensationsmöglichkeit.

Nützlich gegen unnötiges Büffeln sind auch angebotene Selbsttests mit Leistungsrückmeldung bezüglich der späteren Bestehensgrenze.

Progress Test

Im Zusammenhang mit der Lernsteuerung ist noch der sogenannte Progress Test (PT) zu erwähnen (Wrigley, van der Vleuten, Freeman & Muijtjens, 2012). Im problembasierten Curriculum von Maastricht, Niederlande, wurde dieser in den späten 1970er Jahren eingeführt, um zu vermeiden, dass die Studierenden prüfungsgesteuert lernen; solches Lernen wurde als oberflächlich und kurz andauernd erachtet. Heute ist der PT international weit verbreitet (Freeman, van der Vleuten, Nouns & Ricketts, 2010) und wird – ausgehend von der Charité, Berlin – auch im deutschen Sprachraum eingesetzt (Nouns & Georg, 2010).

Zwei- bis viermal pro Jahr wird den Studierenden sämtlicher Studienjahre gleichzeitig eine inhaltlich repräsentative Auswahl von Fragen vorgelegt, die sie am Ende des Studiums beantworten können sollten. Mit Ausnahme der letzten beiden Studienjahre ist eine Vorbereitung auf die ganze Breite klinischen Wissens praktisch unmöglich.

In Maastricht wird der PT summativ mit detaillierter formativer Rückmeldung eingesetzt. Vor allem in den unteren Studienjahren ist die Hürde allerdings tief gesetzt. Andernorts – so auch in Deutschland und Österreich – wird er rein formativ verwendet, zumeist neben an die Ausbildungseinheiten gebundenen summativen Prüfungen. In McMaster, Kanada, wo er seit 1992 sowohl summativ wie formativ eingesetzt wird, führte er zu einer klaren Leistungssteigerung in der nationalen Abschlussprüfung (Norman, Neville, Blake & Mueller, 2010).

Verlaufsdaten über die gesamte Studiendauer können auch wertvolle Informationen für die Ausbilder und Ausbilderinnen liefern, so z.B. für Vergleiche zwischen parallel laufenden Curricula innerhalb einer Fakultät oder für Fakultätsvergleiche.

Ein Problem ist, dass in den ersten beiden Studienjahren generell aber verstärkt in traditionellen Curricula noch sehr wenige der gestellten Fragen beantwortet werden können. Das Ergebnis ist für diese Studierenden wenig informativ und auch kaum motivierend. Dies hat dazu geführt, dass der PT in Deutschland in traditionellen Curricula erst ab dem 3. Studienjahr eingesetzt wird.

1.2Was prüfen mit der MC-Methode?

1.2.1Möglichkeiten und Grenzen der MC-Methode

Spektrum ärztlicher Handlungskompetenz

Kompetentes, professionelles ärztliches Handeln erfordert wesentlich mehr als medizinische Fachkenntnisse. Miller unterscheidet vier Stufen: „Weiß“, „Weiß wie“, „Zeigt wie“, „Tut“ (Miller, 1990). Die erste Stufe „Weiß“ ist die Verfügbarkeit deklarativen Wissens, das Kennen von Begriffen, Fakten, Zusammenhängen, Prinzipien, Theorien. Die zweite Stufe „Weiß wie“ ist die Kompetenz, Informationen zu gewinnen, zu analysieren, zu interpretieren und daraus Schlussfolgerungen zu ziehen für die Diagnose und das weitere Vorgehen. Kann dies noch rein kognitiv geschehen (sog. Anwendungswissen oder prozedurales Wissen), erfolgt auf der dritten Stufe die praktische Umsetzung im Gespräch mit Patienten, bei deren körperlicher Untersuchung usw. Die vierte Stufe ist das Handeln im beruflichen Alltag. Neben dem Wissen und Können wird dieses mitbestimmt von Faktoren wie professionelle Einstellung/Haltung, Teamfähigkeit usw.

Stufe „Weiß“ (deklaratives Wissen)

Stufe „Weiß“. Es ist kaum bestritten, dass die MC-Methode zur Prüfung auf der untersten Stufe „Weiß“ (deklaratives Wissen) gut geeignet ist.

Stufe „Weiß wie“ (Anwendungswissen)

Stufe „Weiß wie“. Auch Anwendungswissen, oft auch als prozedurales Wissen bezeichnet, kann sehr wohl mit MC-Items geprüft werden. Dies setzt allerdings voraus, dass Informationen präsentiert werden, die analysiert und korrekt interpretiert werden müssen, um hinsichtlich der Fragestellung die richtige Schlussfolgerung treffen zu können.

aktives vs. passives Wissen

Kritikpunkt: passives statt aktives Wissen. Für das Prüfen auf diesen beiden Stufen wird gegen die MC-Methode eingewendet, wegen der Antwortvorgaben sei nur Wiedererkennen erforderlich, also passives und nicht aktives Wissen. Letzteres sei nur adäquat zu prüfen, wenn die Antwort selbst formuliert werden müsse. Als geeignete Methode werden schriftliche Kurzantwortfragen (KAF) erachtet.

Alternative: Kurzantwortfragen

Kurzantwortfragen vs. MC-Items Beim parallelen Prüfen gleicher Inhalte mit MC- und mit Kurzantwort-Fragen fallen die MC-Resultate etwas höher aus. Dies ist primär mit der Erinnerungshilfe (cueing) durch die vorgegebenen Antworten zu erklären und zu einem geringeren Teil durch den Rateeffekt. Der Gewinn kann aber durch einen entsprechend höheren Leistungsanspruch bei der Bestehensanforderung resp. den Notengrenzen ausgeglichen werden. Die Übereinstimmung der Leistungsrangierung der Kandidaten ist aber sehr hoch. Bei identischem Frageninhalt wird mit offener Beantwortung offenbar nichts qualitativ anderes gemessen als mit gebundener (Rodriguez, 2003). Kurzantwortfragen erfordern aber eine längere Beantwortungszeit. Zudem bedeuten sie einen Mehraufwand und eine potenzielle Objektivitätseinbuße bei der Auswertung. Werden die Ergebnisse für die Vorhersage künftiger Leistungen verwendet, ist die MC-Methode wegen der besseren Messzuverlässigkeit pro Zeiteinheit überlegen. Eine Übersicht über die empirischen Befunde zu dieser Thematik lieferte Haladyna (2004).

Alternative: Long-Menu-Fragen

Long-Menu-Fragen vs. MC-Items. Ein Versuch, aktives Wissen zu prüfen, ohne auf die Vorteile einer automatisierten und damit ökonomischeren und objektiveren Auswertung zu verzichten, stellt das sogenannte Long-Menu-Format dar. Hinterlegt sind sehr lange Listen mit bis über 500 Antworten (z.B. Diagnosebegriffe). Die Kandidaten tippen am PC die ersten Buchstaben eines aktiv entwickelten Lösungswortes ein. Darauf werden die mit dieser Buchstabenfolge beginnenden Begriffe aus der Liste zur Auswahl präsentiert und der gewünschte Begriff kann ausgewählt werden (Schuwirth et al., 1996; Fischer, Kopp, Holzer, Ruderich & Jünger, 2005). Leider erfordern Long-Menu-Fragen eine noch längere Beantwortungszeit als parallele offene Fragen, was sich negativ auf die Reliabilität pro Zeiteinheit auswirkt. Sowohl bei Page und Bordage (1995), Schuwirth, van der Vleuten, Stoffers und Peperkamp (1996) sowie Fischer et al. (2005) fanden sie zudem bei den Kandidaten eine reduzierte Akzeptanz, unter anderem, weil von ihnen entwickelte Lösungsbegriffe nicht in der Liste enthalten waren.

Argument Lernbeeinflussung. Ein gezielter Einsatz von Kurzantwortfragen und/oder Long-Menu-Fragen ist eventuell dort zu erwägen, wo zwingend augenblicklich verfügbares aktives Wissen erforderlich ist wie in Notfallsituationen. Studierende scheinen sich intensiver auf Inhalte vorzubereiten, von denen sie wissen, dass sie nicht mit MC-, sondern mit offenen oder Long-Menu-Fragen geprüft werden (educational effect) (Huwendiek et al., 2017).

Prozess- vs. Ergebnisbeurteilung

Kritikpunkt: fehlende Prozessbeurteilung. Bei der Prüfung von Anwendungswissen wird kritisiert, dass sich mit der MC-Methode nicht der Lösungsweg, sondern nur das Ergebnis prüfen lasse. Bereits bei simplen Aufgaben wie beispielsweise der Berechnung des Produktes 14 mal 78 „im Kopf“ kann das korrekte Ergebnis mit verschiedenen Vorgehensweisen gefunden werden. Welche die effizienteste ist, ist interindividuell verschieden, abhängig davon, wie jemand den Zahlenraum in seinem Gedächtnis organisiert hat, wie es ihm/ihr beigebracht worden ist, womit er/sie die besten Erfahrungen gemacht hat usw. Beim Lösen wesentlich komplexerer Probleme im Gesundheitsbereich ist dies nicht anders. In seinem Review der Forschung zum „clinical reasoning“ kam Norman (2005) zu dem Schluss: „There is no such thing as clinical reasoning; there is no one best way through a problem.“ Wenn es aber keinen generell gültigen besten Weg gibt zur Lösung eines Problems, ist eine objektive Leistungsbeurteilung nur aufgrund der Lösungsergebnisse, nicht aber des Prozesses möglich.

Alternative: Fallsimulationen

Im Bestreben, den Problemlöseprozess möglichst ganzheitlich zu prüfen, ist wiederholt versucht worden, die Kandidaten sequenziell ganze Fälle durcharbeiten zu lassen, von der Problemerfassung bis zur Behandlung. Ursprünglich geschah dies in Papierform (patient management problems, PMP), später am PC (computer-based examination, CBX, und computer-based case simulations, CCS).

Vom Erfolg in einem Fall lässt sich aber nicht auf den Erfolg in einem anderen Fall schließen (sog. Fallspezifität). Für eine hinreichend zuverlässige Beurteilung sind viele Fälle erforderlich, was eine sehr lange Prüfungszeit erfordert. Im Step 3 des US Medical Licensing Examination würden auch 8 Stunden CCS-Prüfung nicht ausreichen, um eine Reliabilität von ≥ 0.80 zu erzielen. Der CCS-Score wird deshalb mit der Punktzahl aus fallbasierten MC-Items kombiniert (Swanson & Roberts, 2016). Zu jedem Fall nur einen Schritt resp. sogar nur einen Teilschritt der Problemlösung zu prüfen ist, wesentlich effektiver (Swanson, Grosso & Webster, 1985).

Alternative: Key-Feature-Ansatz

Eine Kompromisslösung stellt der Key-Feature(KF)-Ansatz nach Bordage und Page dar (Bordage & Page, 1987; Page & Bordage,1995). Es werden nur die kritischen (schwierigen, fehleranfälligen) Schritte bei der Lösung eines konkreten klinischen Problems geprüft. Pro Fall werden typischerweise 2 bis 3 Fragen gestellt. Die Beantwortung erfolgt häufig mit gemischten Antwortformaten, dabei bevorzugt offen (write-in) oder mit kürzeren Antwortlisten (short menu: 2 bis > 40 Antworten), aber auch mit sehr langen Listen von bis über 500 Antworten (long menu) (Kopp, Möltner & Fischer, 2006). Gescort werden die Fälle typischerweise mit einer Maximalpunktzahl von 1 pro Fall und Teilpunkten nach Anteil korrekt beantworteter Fragen.

Bei qualitativ guter Ausarbeitung und genügend großer Fall- und Fragenzahl erlaubt der Ansatz eine hinreichend zuverlässige Messung für summatives Prüfen. Hinsichtlich Konstruktvalidität wurden in diversen Studien die erwarteten Leistungsunterschiede zwischen Kandidatengruppen mit unterschiedlich intensiver Schulung in klinischem Denken oder unterschiedlich großer klinischer Erfahrung gefunden (Hrynchak, Takahashi & Nayer, 2014).

Das Fokussieren auf relevante Problemlösungsschritte ist im Interesse der Konstruktgültigkeit sehr sinnvoll. Dies kann aber auch in fallbasierten MC-Fragen umgesetzt werden, wie sie in diesem Buch vorgestellt werden.

Zu ein und demselben Fall mehrere Fragen zu stellen und die erfolgreiche Fallbearbeitung zu bewerten (Fallscore) erweckt den Augenschein einer authentischen, praxisnahen Prüfung (face validity).

Eine Studie von Norman, Bordage, Page und Keane (2006) ergab, dass unter der Annahme eines identischen Zeitaufwandes für das Lesen eines Falles und das Beantworten einer einzelnen dazugehörenden Frage die Reliabilität geringfügig besser ausfällt, wenn pro Fall nicht nur eine, sondern 2 bis 3, aber nicht mehr als 3 Fragen gestellt werden (Reliabilität für eine zweistündige KF-Prüfung: 0.58 vs. 0.54). Die Studie zeigte allerdings auch, dass den Fällen eine wesentlich geringere Bedeutung zukommt als den Fragen innerhalb der Fälle. Beantwortet ein Kandidat eine Frage des Falles 1 korrekt, ist die Wahrscheinlichkeit, dass er eine weitere Frage desselben Falles korrekt beantwortet, kaum größer als diejenige, dass er eine beliebige Frage eines beliebigen anderen Falles korrekt beantwortet. Entscheidend für die Messzuverlässigkeit ist die Gesamtzahl der gestellten Fragen. Die beste Messzuverlässigkeit resultiert, wenn jede einzelne Frage ohne Berücksichtigung der Fälle mit 1 Punkt gewichtet wird, wie dies üblicherweise in MC-Prüfungen geschieht (mittlere Reliabilität für die KF-Prüfungen 1997–99 des Medical Council of Canada (MCC): 0.70 vs. 0.63; Norman, Page, Bordage & Keane, 2006).

Zu einem Fall mehr als eine Frage zu stellen, ist auch in MC-Prüfungen möglich und kann ab und zu sinnvoll sein. In den US Medical Licensing Examinations Step 2 und 3 werden vereinzelt solche „multiple item sets“ oder auch „sequential item sets“ eingesetzt. Die korrekte Beantwortung darf aber nicht von der Beantwortung vorangehender Fragen abhängig sein (keine sogenannten Folgefehler). Jede Frage wird sinnvollerweise auch hier als unabhängige Einheit mit einem Punkt bewertet.